Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 6

PHẦN I : ĐẠI CƯƠNG

Cheminformatics
Khái niệm :
- Hóa tin học (hóa học tính toán) (Cheminformatics, chemoinformatics,
chemioinformatics and chemical informatics) là việc sử dụng các kỹ thuật máy tính
ứng dụng trong lĩnh vực hóa học. Hóa tin học kết hợp các lĩnh vực khoa học : hóa
học, máy tính và công nghệ thông tin trong các cấu trúc tô pô, lý thuyết đồ thị hóa
học, tìm kiếm thông tin và khai thác dữ liệu trong không gian hóa học; hay mô hình
hóa phân tử, tìm kiếm và mã hóa cấu trức hóa học, trực quan hóa thông tin hóa học
- Tin sinh học ( sinh học tính toán) (bioinformatics) là một lĩnh vực khoa học sử dụng
các công nghệ của các ngành toán học ứng dụng, tin học, thống kê, khoa học máy
tính; trí tuệ nhân tạo, hóa học và hóa sinh. Tin sinh học nghiên cứu về hệ gene học;
Sinh học tiến hóa (phân loại học phân tử), phân tích chức năng gene; các hệ thống
sinh học kiểu mẫu
-
Các cách tiếp cận để tìm kiếm chỉ định mới
• Tình cờ và khai thác văn bản (text mining)
• Quan sát các tác dụng không mong muốn
• Tìm con đường mới của bệnh
• Xác định mục tiêu tương tác mới của thuốc
• Xác định vai trò mới của các target đã có
• Kiểu hình của bệnh

• Target-based method : • Phương pháp dựa trên mục tiêu

• Knowledge-based method : • Phương pháp dựa trên kiến thức

• Signature-based method : …. đặc trưng


• Network-base method : …. mạng lưới
• Targeted-mechanism method : cơ chế nhắm mục tiêu

Drug Target
Đích tác dụng
Mục tiêu phân tử hay còn gọi là đích tác dụng của thuốc. Đích tác dụng là 1 tổ chức tế bào
hoặc phân tử liên quan đến quá trình bệnh sinh là nơi mà thuốc sẽ tác dụng vào để biến đổi
quá trình bệnh sinh.

Ligand
Phối tử

Theo hóa sinh và dược học, phối tử (ligand, theo tiếng Latin ligandum, binding) là một chất
(thường là một phân tử nhỏ) hình thành một phức hợp với phân tử sinh học phục vụ một
mục đích sinh học. Trong liên kết protein-phối tử, phối tử thường là một phân tử kích hoạt
tín hiệu, liên kết tại 1 vị trí trên protein đích. Phối tử bao gồm cơ chất, chất ức chế, chất hoạt
hóa và chất dẫn truyền thần kinh.
Hit Generation
Một hợp chất mà các kết quả sàng lọc sinh hóa sơ bộ chỉ ra rằng có thể được tiếp tục
nghiên cứu như là một phần của dự án nghiên cứu thuốc. Một hợp chất hit có liên kết với
một mục tiêu phân tử được xác định là quan trọng trong điều trị bệnh.

Lead Development
Mục đích của giai đoạn này là để tối ưu hóa các hợp chất hit cố gắng tạo ra các hợp chất
mạnh hơn và có chọn lọc hơn mà có tính chất PK hợp lý để kiểm tra hiệu quả của chúng
trong bất kỳ trong mô hình in vivo sẵn có nào.

Ứng cử viên làm thuốc


Candidate
Là một hợp chất liên kết với một đích sinh học (protein, enzyme, receptor), và theo cách này
kích hoạt hoặc ức chế một quá trình sinh học ảnh hưởng đến quá trình bệnh sinh.

Sàng lọc ảo
Khái niệm
Sàng lọc ảo (virtual screening): Sàng lọc ảo đề cập đến một loạt các kỹ thuật in silico được
sử dụng để sàng lọc các CSDL hợp chất lớn để lựa chọn một số lượng nhỏ hơn để thử
nghiệm sinh học.
• Dựa trên cấu trúc (Structure-based)
• Dựa trên phối tử (Ligand-based)
• De novo design: Dựa trên cấu trúc 3D protein
• Khác
• Thư viện liên kết (Combichem)
• Sàng lọc định lượng
• Sàng lọc bằng các quy tắc
PHẦN II: CHEMOINFORMATICS
Biểu diễn cấu trúc hợp chất hóa học trên máy tính
1. Biểu diễn cấu trúc hóa học hợp chất hóa học

• Tên thông thường (Trivial name) Aspirin


• Tên hệ thống (Systematic name) 2-acetyloxybenzoic acid
• Công thức (Formulation) C9H8O4
2. Biểu diễn hợp chất hóa học trong Cheminformatics
Với một hoạt chất hóa học
Con người: hoạt động trong ý niệm
• Đăng ký
• Tìm kiếm
• Xem xét
• Công bố cấu trúc

Lĩnh vực cheminformatics


• Lưu trữ
• Tìm kiếm
• Phân tích cấu trúc hóa học
• Khai thác dữ liệu từ cấu trúc

Máy tính
• Nhận biết
• Trao đổi
• Xác nhận

Hoạt động con người trong Cheminformatics hiểu được cách máy tính lưu trữ, phân
tích cấu trúc, nguyên tắc chương trình thực hiện và kết quả thu được.
3. Yêu cầu của xây dựng dữ liệu về công thức phân tử
Trong Cheminformatics, các nhà hóa học phải làm việc trong một hệ thống có nguyên tắc
được xác định trước. Khi xây dựng các nguyên tắc cần phải giữ các yêu cầu sau:
• Tính không mơ hồ: khi tên hoặc công thức được nhắc đến phải đề cập chính xác cấu trúc
hóa học và thường sẽ vẽ ra được cấu trúc của nó.
• Tính duy nhất: trong một hệ thống, biểu diễn một hợp chất là duy nhất
• Tính phù hợp: thông tin rõ ràng và thông tin ẩn.
• Thông tin rõ ràng (Explicit information): là những gì trình bày trực tiếp trong cấu trúc dữ
liệu và phải chứa tối thiểu thông tin.
• Thông tin ẩn (Implicit inforamtion): là thông tin có thể vẽ ra được chính xác cấu trúc dựa
trên các nguyên tắc được cung cấp trước và một chút công việc tính toán
4. Phân loại các biểu diễn cấu trúc hóa học
• Hệ thống tên (Systematic Names): Đặt tên cho một hoạt chất dựa trên các nguyên tắc và
từ khóa.
• Tên IUPAC (International Union of Pure and Applied Chemistr)
• Hệ thống tên CAS
• Công thức cấu tạo (Structural Formula): Thể hiện được cách liên kết trong hoạt chất hoặc
thể hiện được các nguyên tử liên kết với nhau thông qua các liên kết hóa học.
• Biểu diễn dưới dạng dòng
• Bảng liên kết
5. Connection table - Bảng liên kết
Bảng liên kết được hiểu là hệ thống danh pháp của các nhà hóa học dựa trên cách tổ chức
thông tin của cấu trúc dựa trên mạng phân tử mà máy tính có thể hiểu được. Bảng liên kết
đặc biệt cung cấp thông tin về nguyên tử trong cấu trúc cũng như cách liên kết hóa học và
loại liên kết.
Máy tính thực hiện đọc, sắp xếp, tìm kiếm và nhóm các bảng liên kết nhanh hơn con người
khi thực hện công việc trên hệ thống tên danh pháp hoặc bất cứ loại công thức cấu tạo nào
khác.
Tạo độ 3D (x,y,z) cung cấp cấu hình của phân tử. Cấu hình này được xác định dựa vào X-
ray hoặc tính toán lý thuyết.
Trong bảng liên kết tất cả các nguyên tử (trừ hydro), liên kết, và cách các
nguyên tử liên kết với nhau đều được thể hiện rõ ràng.
Các quy tắc thiết lập tương đối đơn giản.
Bảng kết nối được chấp nhận bởi hầu hết các phần mềm vẽ và trực quan cấu trúc và các
CSDL.
6. Line Notation- Biểu diễn dòng
Hệ thống biểu diễn dưới dạng dòng sử dụng các ký tự hệ ASCII (American Standard Code
for Information Interchange), dựa vào bảng chữ cái tiếng anh (128 ký tự), các số từ 0-9, một
số biểu tượng, code, khoảng trắng.
Tính toán dựa trên biểu diễn dòng dễ dàng hơn so dạng bảng liên kết.
Thiết kế dòng dễ hiểu với con người hơn.
Thiết kế dòng phù hợp với khả năng nhận dạng và đặc tính như:
• So sánh giữa các phân tử;
• Đánh giá tỷ lệ giống nhau;
• Liệu hai phân tử liên quan tới nhau thông qua một số phép tính toán;
• Liệu một phân tử này có phải cấu trúc con trong phân tử khác không;
• Điều gì xảy ra nếu cắt thành các phân mảnh và ghép lại với nhau.
7. InChI : The IUPAC International Chemical Identifier: Là một định dạng văn bản để
mã hóa thông tin của các hợp chất hóa học, được phát triển ban đầu bởi IUPAC.
- InChI mô tả hợp chất theo các lớp thông tin: các nguyên tử và liên kết giữa chúng, thông tin
tautomeric, đồng vị, lập thể, và điện tử. Một lớp thông tin nào đó có thể không có nếu nó
không quan trọng trong từng trường hợp cụ thể.
- InChIs có thể được xem như là một phiên bản chính thức của tên IUPAC. Thông tin về tọa
độ không gian 3 chiều của các nguyên tử không được biểu diễn trong Inchi; vì thế một định
dạng khác như PDB có thể được sử dụng.
- InChIs khác với số CAS ở 3 điểm:
• Được sử dụng tự do và không độc quyền;
• Có thể được tính toán từ các thông tin về cấu trúc và không cần được chỉ định bởi một
tổ chức nào (có liên quan đến cấu trúc);
• Hầu hết các thông tin trong một Inchi có thể được đọc.
8. InChIKey
Là 1 biểu diễn ngắn gọn của InChI có chiều dài cố định (25 ký tự), và không thể hiểu được
chỉ bằng mắt thường. InChIKey được đưa vào sử dụng vào tháng 9 năm 2007, vì các InChI
thường dài và khó lưu trữ.
Lưu ý: InChIKey không phải là duy nhất.
9. SMILES- Simplified Molecular Input Line Entry System
- Nghĩa dịch từ tiếng Anh là: Hệ thống đơn giản hóa với đầu vào dưới dạng dòng để
biểu diễn phân tử. SMILES được xây dựng dựa trên nodes và edges của molecular
graph
- Là ngôn ngữ tương đối đơn giản và ngắn gọn, có dạng cấu trúc ngôn ngữ hơn là 1
cấu trúc dữ liệu máy tính.
- SMILES thật sự là một ngôn ngữ, mặc dù có một vốn từ vựng đơn giản (nguyên tử
và ký tự biểu diễn các liên kết, nhánh) và chỉ một vài quy tắc ngữ pháp.
- Rất đơn giản và được sử dụng rộng rãi hiện nay.
- Đuôi tệp (File Extensions): .smi
- Các nguyên tắc :
Các nguyên tử được đại diện bởi các nguyên tố hóa học và đặt trong [] trừ H ví dụ như [Au].
Một số trường hợp ngoại lệ không cần đặt trong ngoặc vuông như sau:
• Thuộc nhóm B, C, N, O, P, S, F, Cl, Br, or I và
• Không có điện tích hình thức (formal charge) và
• Đang ở trạng thái hóa trị bình thường thấp nhất như sau B (3), C (4), N (3,5), O (2),
P (3,5), S (2,4,6), and 1 for the halogens và
• Đồng vị thông thường và
• Không có cấu hình
Hydro không đính kèm khi không có dấu ngoặc kép thì có thể ký hiệu như sau C (CH4), P
(PH3), N (NH3), S (H2S), O(H2O), Cl (HCl).

Trong dấu ngoặc vuông, phải luôn ghi rõ số hydrogens và số điện tích hình thức. Số lượng
hydrogens được đính kèm được thể hiện bằng ký hiệu H theo sau là một chữ số. Tương tự,
một số điện tích hình thức được hiển thị bằng một trong các ký hiệu + hoặc -, theo sau là
một chữ số. Nếu không xác định, số lượng hydro và điện tích kèm theo được giả định bằng
0 đối với một nguyên tử bên trong dấu ngoặc. Các công thức [Fe +++] đồng nghĩa với dạng
[Fe + 3].
- Liên kết : Liên kết đơn, đôi, ba và thơm được biểu diễn bằng các ký hiệu ,- ,, #, và ,
tương ứng.
- Các nguyên tử liền kề được cho là liên kết với nhau bằng liên kết đơn hoặc thơm
(liên kết đơn và thơm có thể luôn bị bỏ qua)
- Cấu trúc vòng/hợp chất no :
• Vòng thơm C, O, S, N được đại diện bởi c o s n
• Vòng no C, O, S, N được đại diện bởi C O S N
• Vòng được biểu diễn bằng cách phá vỡ một liên kết trong mỗi vòng. Các liên
kết được đánh số theo thứ tự bất kỳ quy định liên kết mở vòng (hoặc đóng vòng)
bằng một chữ số ngay sau ký tự biểu diễn nguyên tố.
- Mạch nhánh :
● Mạch nhánh được biểu diễn bằng dấu ngoặc đơn (phần mạch nhánh nằm
trong dấu ngoặc đơn), các mạch có thể có thể lồng vào nhau.
● Nếu có thể, tránh sử dụng hai dấu mở ngoặc liền nhau.
● Cố gắng ít nhánh nhất có thể
● Không bắt đầu một biểu diễn bằng một nhánh.
● Sau một nhánh, không biểu diễn liên kết đôi và liên kết ba
- Đồng phân Với cấu hình E-Z thì Cis thể hiện bởi Trans
-

You might also like