Professional Documents
Culture Documents
Lec 2 - Chuong 1 - Cau Truc Genome Va Tien Hoa PDF
Lec 2 - Chuong 1 - Cau Truc Genome Va Tien Hoa PDF
Genome
và sự hoạt động của gene
1
Phần 1: Cấu trúc genome
◆ Các thành phần trong cấu trúc genome
◆ Sự khác biệt về cấu trúc genome ở tế bào prokaryote và
eukaryote.
◆ DNA mã hóa
◆ DNA không mã hóa
◆ Các trình tự lặp lại trong genome, nguồn gốc, ý nghĩa và
ứng dụng
◆ Sự đa hình về trình tự nucleotide đơn (SNP), nguồn gốc,
ý nghĩa và ứng dụng
◆ Sự tồn tại của nhiều bản copy của gene và gene giả
(pseudogene) trong genome
◆ So sánh genome và sự tiến hóa của genome
2
Gen là gì?
✓ Là đơn vị phiên mã
3
Genomics là gì ?
◼ Genomics là một ngành trong di truyền học liên quan đến
việc nghiên cứu genome của sinh vật.
◼ Nghiên cứu genome bao gồm việc xác định trình tự genome
của sinh vật và lập bản đồ gene.
◼ Nghiên cứu genome cũng liên quan đến các hiện tượng: ưu
thế lai, tương tác át chế, tính đa hiệu của gene và các tương
tác giữa các gene cùng allele hoặc các gene khác nhau
trong genome.
◼ Để phát hiên các gene trong genome, cần dựa vào thông tin
trình tự các gen đã biết, các trình tự nối giữa exon và intron
và các thành phần tham gia điều khiển hoạt động gen.
4
Genome
Genome: toàn bộ các vật liệu di truyền dự trữ trong DNA
◼ Genome nhân là toàn bộ DNA có trong các NST
(chromosomes) ở trong nhân.
◼ Genome nhân giống nhau ở hầu hết các tế bào của sinh vật
Proteome
◼ Toàn bộ lượng protein hoàn chỉnh của tế bào. Điều này
phản ánh tất cả các trình tự mRNA được dịch mã.
◼ Loại tế bào có proteome khác nhau và chúng có thể được
sử dụng để xác định một tế bào đặc biệt.
◼ Chỉ có 1-2% của genome mã hoá cho protein
Transcriptome
◼ Tổng thông tin di truyền được phiên mã. Thông tin được
chứa trong các RNA, chiếm 90% tổng số các trình tự
genome.
◼ Lượng RNA nhiều gấp 5 lần lượng DNA trong tế bào,
chủ yếu là rRNA (~80%) và tRNA (~15%)
◼ Transcriptome là duy nhất với một loại tế bào và là cơ
sở đo biểu hiện của gen.
◼ Các tế bào khác nhau của cùng một sinh vật có
transcriptome khác nhau. Ứng dụng để xác định các loại
tế bào.
1. Các thành phần Mã hoá cho proteins, rRNA, tRNA
(1.5%)
trong cấu trúc genome
sinh vật nhân chuẩn
8
So sánh cấu trúc genome prokaryote và
eukaryote
Watson (2004) Molecular biology of the gene
So sánh mật độ gen trên NST ở các sinh vật khác nhau (1 vùng DNA
genome có chiều dài 65 kb)
Số lượng các gen được mã hóa bên trong cùng một đơn
vị chiều dài DNA giảm dần khi mà tính phức tạp của sinh
vật tăng lên. 9
3. DNA mã hóa (coding DNA)
DNA mã hóa là
những đoạn DNA
được phiên mã.
10
4. DNA không mã hóa
11
DNA không mã hóa
12
RNA mã hóa (mRNA – RNA thông tin)
✓ RNA thông tin (mRNA) là RNA mang thông tin từ DNA đến ribosome để
thực hiện quá trình dịch mã.
✓ Trình tự mRNA quyết định trình tự amino acid trong phân tử protein được
tạo ra.
✓ Phân lập mRNA để xác định các gen ở Eukaryote đang hoạt động
13
RNA thông tin (mRNA)
Section 12-3
Quá trình phiên mã DNA
mRNA
3‘
5‘
16
RNA không mã hóa (non-coding RNA)
Định nghĩa: Gene mã hóa cho các phân tử RNA ngoại
trừ mRNA
17
RNA vận chuyển
(tRNA)
• Ở Eukaryote, tRNAs được phiên
mã bởi RNA polymerase III (pre-
tRNA)
• Là phân tử RNA nhỏ (74-95 nu) có vai trò vận chuyển aa.
• tRNA gắn aa ở đầu 3‘ (aminoacyl tRNA synthetase)
• Đầu 3’ của tRNA có chứa CCA, được gắn vào sau quá trình
cắt (ngoại trừ một số tRNA có trình tự này được mã hoá
trong DNA) bởi một enzyme đặc biệt.
• CCA rất quan trọng là nơi amino acid gắn vào.
• Mỗi loại tRNA gắn với chỉ 1 loại aa.
• Tính thoái hóa của mã di truyền (nhiều bộ ba cùng mã 1 aa).
Do đó có nhiều tRNA khác nhau mang các vùng đối mã khác
nhau có thể mang cùng một loại aa.
Genes mã hóa cho tRNA
✓ Số lượng gene mã hóa cho tRNA rất
khác nhau ở các sinh vật
✓ C. elegans: 620 gene mã hóa cho tRNA
trong tổng số 29.647 gene (2,09%)
✓ S. Cerevisiae: 275/ ?
✓ H. sapien: 4.421 (non-coding RNA
gene)/ 27.161
✓ 22 tRNA gene ở ty thể
✓ 497 tRNA gene ở nhân mã
hóa cho các tRNA ở tế bào chất
✓ 324 tRNA có nguồn gốc từ
các gene giả (pseudogenes)
RNase P
• RNase P giải phóng từng tRNAs bằng cách cắt ở đầu 5’
của tRNA.
• Sử dụng để phát hiện các ribozyme; các loaị RNA có khả
năng hoạt động xúc tác.
RNA ribosome (rRNA)
✓ Các đoạn 5.8S + 28S được cắt từ 18S, sau đó 5.8S
được giải phóng mặc dù vẫn còn liên kết hydro với 28S
RNA.
• Tại Bỉ, CSDL về trình tự rRNA được lưu trữ bao gồm CSDL về các
SSU (small subunit) và LSU (large subunit) của rRNA.
• Các rRNA liên quan đến các cơ chế kháng kháng sinh. Chẳng hạn rRNA
70S của vi khuẩn bị tấn công bởi chloramphenicol, trong khi rRNA 80S của eukaryote
không bị ảnh hưởng gì.
• rRNA có vai trò quan trọng trong phân tích mối quan hệ di truyền
của các sinh vật trong quá trình tiến hóa. Trên thực tế người ta thường so
sánh trình tự của các gene mã hóa 16S (vi khuẩn), 18S, 23S ở (eukaryote) để đánh giá
mối quan hệ họ hàng.
snRNA
(small nuclear rRNA: RNA nhỏ trong nhân)
✓ snRNA là một lớp của các phân tử RNA nhỏ tìm thấy ở trong nhân của
eukaryote.
✓ (snRNAs) là một phần của spliceosome phân cắt các intron ra khỏi tiền thân
mRNA.
✓ snRNA liên quan đến quá trình loại bỏ intron khỏi các pre-mRNA (hn
RNA), điều hòa phiên mã và duy trì các telomere.
✓ Các snRNA thường kết hợp với các protein để tạo thành phức hợp
snRNP (small nuclear ribonucleoprotein).
25
snoRNA (RNA hạch nhân)
• Small nucleolar RNAs (snoRNAs): : là một lớp các phân tử RNA nhỏ (60 – 100 Nu) có
vai trò giúp cho các quá trình cải biến hóa học của các RNA khác, chủ yếu là rRNA,
tRNA và snRNA.
C/D box snoRNA: liên quan đến quá trình methyl hóa
Ở động vật có xương sống, các gene snoRNA nằm trong các vùng intron của các protein
liên quan đến tổng hợp ribosome hoặc các protein tham gia trong quá trình dịch mã. Các
snoRNA được tổng hợp bởi RNA pol II hoặc III (snoRNA không có mặt ở bacteria)
26
miRNA
✓ MicroRNAs (miRNAs) là các phân tử RNA có chiều dài trung bình 22
nucleotide.
✓ miRNA là các yếu tố điều hòa sau phiên mã. Các miRNA gắn bổ sung
với các trình tự ở vùng không được dịch mã (3' UTRs) của phân tử
mRNA đích. Kết quả thường dẫn đến làm gene không hoạt động (không
được dịch mã) (hay không có sản phẩm gene).
✓ Genome người có khoảng hơn 1000 miRNAs phân bố ở nhiều loại tế
bào. Mỗi loại miRNA có thể ức chế hoạt động của hàng trăm mRNA.
✓ miRNA có tính bảo thủ cao ở các sinh vật eukaryote, được cho là có vai
trò sống còn liên quan đến quá trình điều hòa biểu hiện gen.
27
Kiểm soát hoạt động gene bởi miRNA
RISC (RNA-induced silencing complex) là một phức hợp protein có vai
trò kết hợp với một sợi của siRNA hoặc miRNA để nhận ra và gắn bổ
sung vào phân tử mRNA đích. Kết quả làm cho phân tử mRNA không
được dịch mã. 28
Nguồn gốc miRNA
29
miRNP: Ribonucleoprotein complex
siRNA
✓ Small interfering RNA (siRNA) còn gọi là short interfering RNA
(RNA can thiệp ngắn) hoặc silencing RNA (RNA im lặng) là
những RNA sợi đôi dài 20-25 nucleotides.
✓ Tham gia nhiều vai trò, trong đó quan trọng nhất là con đường
RNA interference (RNAi).
30
31
siRNA liên quan off-targeting
32
piwi-interacting RNA (piRNA)
34
Thoái hóa mã di truyền (Codon bias)
◼ Định nghĩa: Xu hướng và tần suất sử dụng mã di truyền khác nhau giữa
các loài sử dụng một số bộ mã nhất định cho một số amino acid trong
quá trình dịch mã.
◼ Đối với các hệ thống biểu hiện khác nguồn gốc (heterologous expression
system) → cạn kiệt tRNA → giảm hiệu quả biểu hiện.
◼ Xem xét hiện tượng codon bias → lựa chọn dòng tế bào chủ biểu hiện.
35
5. Gene giả (Pseudogene)
◼ Là những thành phần có mối liên hệ với các gene nhưng
mất đi khả năng mã hóa cho các protein hoặc không
được biểu hiện.
36
Đặc điểm của gene giả (Pseudogene)
◼ Có tính tương đồng (homology) do trình tự gần như giống với các gene
đang hoạt động (so sánh trình tự alignment khoảng từ 40 – 100%).
◼ Có thể không có introns hoặc promoter (những bản copy của mRNA kết
hợp vào NST).
◼ Hầu hết có các đặc điểm của gene như: promoter, CpG island và các vị
trí phân cắt (intron junction).
37
Gene giả (Pseudogene)
38
Gene giả (Pseudogene)̉
39
Nguồn gốc gene giả (Pseudogene)
1. Retrotransposed pseudogenes:
• Các yếu tố lặp lại chẳng hạn LINES ở người có vai trò trong việc phiên
mã ngược một phần của mRNA thành DNA rồi chèn vào NST.
• Khi các gene giả được đưa vào genome, chúng thường chứa các poly A
• Do có nguồn gốc từ các mRNA (trưởng thành) → thiếu các cấu trúc như
thành phần upstream chính vì vậy chúng được coi là “những xác chết”.
40
Nguồn gốc gene giả (Pseudogene)
2. Non-processed hoặc duplicated pseudogenes
◼ Lặp gene: phổ biến, có vai trò quan trọng trong tiến hóa
genome.
◼ Gene lặp lại có thể bị đột biến, kết quả làm cho gene này bị bất
hoạt.
◼ Các gene lặp lại thường có đặc điểm giống nhau (kể cả các
vùng intron-exon, promoter và các đặc điểm khác).
◼ Một số gene giả được phát hiện thấy ở người và các động vật
linh trưởng → giải thích cho mối quan hệ gần gũi trong quá trình
tiến hóa.
41
Gen giả (pseudogene)
Exon Intron
(A) Đột biến của gen hiện có làm tăng pseudogenes đơn nhất (unitary pseudogene).
(B) pseudogenes trùng lặp được tạo ra sau đột biến của gen sao chép.
(C) Phiên mã ngược phần mRNA thành cDNA bởi retrotransposition chèn vào DNA genome
dẫn đến việc tạo ra pseudogenes.
X đại diện cho một đột biến không liên tục gây mất tiềm năng mã hoá protein 42
Nguồn gốc gene giả (Pseudogene)
3. Gene bị bất hoạt (Disabled gene)
◼ Các dạng đột biến có thể làm dừng một gene khỏi phiên
mã hoặc dịch mã và một gene có thể không hoạt động
chức năng hoặc bị bất hoạt nếu một đột biến như vậy
được giữ lại trong quần thể.
◼ Khác với trường hợp thứ 2, gene được lặp lại sau khi nó
bị bất hoạt.
Ví dụ:
◼ Gene mã hóa cho enzyme L-gulono-γ-lactone oxidase
(GULO). Ở tất cả các động vật có vú GULO hỗ trở sinh
tổng hợp Vitamin C. Gene này tồn tại ở bộ linh trưởng
nhưng ở trạng thái bất hoạt.
43
6. Các cấu trúc lặp lại trong genome nhân
✓ Hiện tượng lặp gen (tạo ra nhiều bản copy) là một trong
những nguyên nhân đẫn đến kích thước genome của sinh vật
Eukaryote lớn. Rất có ý nghĩa khi một gen bị hỏng thì bản
copy vẫn có thể hoạt động bình thường.
45
Các trình tự lặp lại xen kẽ (tandem repeat)
trong genome nhân
✓ Số lượng lớn các mảng trình tự lặp lại xen kẽ nhau. Đây là
những DNA không mã hóa (non-coding DNA) hoặc “bulk
DNA”.
✓ Tập trung chủ yếu ở tâm động, hình thành nên cấu trúc dị
nhiễm sắc.
✓ Thuật ngữ “satellite DNA” chỉ mức độ lặp lại của những
đoạn DNA ngắn có xu hướng tạo ra các tần suất lặp lại
khác nhau của các A, T, G, C.
46
Các trình tự lặp lại xen kẽ (tandem repeat)
trong genome nhân
◼ Minisatellite DNA
• Minisatellite (còn gọi là varian number of tandem repeat, VNTR)
là một phần DNA chứa một loạt những đoạn trình tự ngắn (10-60
bp). Ở genome người có khoảng 1,000 vị trí như thế này.
• Một số minisatellite chứa một lõi trình tự “GGGCAGGANG” hoặc
có xu hướng khác nhau với các base A, T, G, C.
• Khác với microsatellite (còn gọi là short tandem repeat, STR). Các
STR cũng là những trình tự lặp lại nhưng chúng thường có kích
thước ngắn (2-13 nucleotide).
47
Các trình tự lặp lại xen kẽ (tandem repeat)
trong genome nhân
◼ Minisatellite DNA
Minisatellite là các đoạn DNA có nhiều đơn vị lặp lại dưới 25
bp, có chiều dài khoảng 20 kb
Ở người, khoảng 90% các minisatellites tập trung ở vùng gần tâm
mút của NST (telomere). Bản thân trình tự của telomere có dạng
lặp lại xen kẽ: TTAGGG TTAGGG TTAGGG ...
Ứng dụng:
• Minisatellite có tính đa hình cao
• Phân tích đột biến trong quần thể
• Đánh giá mối liên hệ về mặt tiến hóa
• Marker di truyền
• Phân tích di truyền liên kết 48
Các trình tự lặp lại xen kẽ (tandem repeat)
trong genome nhân
► Microsatellite
✓ Microsatellites còn gọi là các SSR (Simple Sequence
Repeats) hoặc STR (short tandem repeats). Đây là
những trình tự DNA ngắn từ 1 – 6 bp.
► Trong khoa học hình sự, chỉ cần phân tích 13 loci đã có
thể xác định chính xác với tỉ lệ 1/109 người. 50
Phân tích SSR
51
Các trình tự lặp lại trải khắp genome
(interspersed repeat)
► SINES (Short Interspersed Elements) là những trình tự
DNA ngắn (<500 bases) đại diện cho những phân tử RNA
được phiên mã ngược được phiên mã từ RNA pol III thành
tRNA, rRNA và các snRNA.
► SINES phổ biến nhất là các trình tự Alu. Ở người, có khoảng
1,500,000 bản copy, chiếm 11% genome.
► Những nghiên cứu gần đây cho thấy cả SINES và LINES có
liên quan đến việc hình thành các gene mới, gây ra một
số bệnh và ung thư.
52
53
LINES
► Long Interspersed Elements là một nhóm các yếu tố di truyền có mặt
với lượng lớn ở genome eukaryote.
► Được phiên mã thành RNA bằng promoter nằm bên trong LINE.
► Các LINE mã hóa cho enzyme phiên mã ngược (reverse
transcriptase), ngoài ra còn mã hóa các endonuclease (RNase H).
► Enzyme phiên mã ngược có tính đặc hiệu với LINE RNA cao hơn các
RNA khác
► Enzyme này tạo DNA từ LINE RNA sau đó xen vào genome ở một vị
trí mới.
► Các endonuclease giúp cho quá trình cắt và chèn DNA ở những vị trí
nhất định. 54
LINEs
► Đầu 5' UTR chứa trình tự promoter, đầu 3’ chứa tín hiệu polyadenin hóa
(AATAAA) và đuôi poly A
► Do LINEs di chuyển bằng cách copy chính bản thân (thay vì chỉ di chuyển
giống như các transposon), chúng làm genome lớn lên.
► Genome người chứa 500,000 LINEs (17%). Trong đó khoảng 7,000 đoạn
copy đầy đủ và một lượng nhỏ có chiều dài ngắn có khả năng
retrotransposition.
► LINE-1 retroposons ở người có khả năng phiên mã một cách chủ động và
các LINE-1 RNA có chức năng tham gia vào quá trình hình thành cấu trúc
chromatin.
55
Miniature Inverted-repeat
Transposable Elements (MITEs)
✓ MITEs tồn tại trong genome người, ếch, và một số loài thực
vật.
56
7. Các yếu tố vận động Transposon
➢ Là những trình tự lặp lại DNA có khả năng vận động trong
genome có thể di chuyển từ nơi này đến nơi khác trong genome
➢ Thông tin di truyền trong genome có thể bị biến đổi ngẫu nhiên
bởi transposon.
➢ Transposon có mặt trong genome sinh vật nhân chuẩn.
➢ Transposon là một trong những trình tự DNA lặp lại trong
geome người.
➢ Gồm 2 lớp:
◆ Lớp 2: Gồm các phân tử DNA di chuyển trực tiếp từ vị trí này
sang vị trí khác trong genome
◆ Lớp I: Retrotransposons
▪ Đầu tiên phiên mã DNA thành RNA
▪ Sử dụng reverse transcriptase để tạo DNA từ RNA rồi chèn
vào vị trí mới. 57
58
Lớp 1
59
Lớp 1: Retrotransposon
60
Retrotransposons
Sử dụng reverse transcriptase để tạo DNA từ RNA rồi chèn vào vị trí mới trong genome.
61
Retrotransposons
► Phương thức lặp lại theo kiều “retrotransposons” thông qua
trung gian RNA đã làm tăng số bản copy → dẫn đến tăng
kích thước genome.
► Retrotransposon có thể gây ra các đột biến bằng cách chèn
vào bên cạnh hoặc bên trong các gene một đoạn DNA.
► Chuyển một số gen của virus hoặc vi khuẩn có mặt trong
62
63
8. Single-nucleotide polymorphism SNPs
✓ Khác với đột biến điểm là SNPs ở những vị trí nhất định trên NST
có tần suất bắt gặp ở nhiều cá thể trong quần thể.
64
✓ Sử dụng phân tích biến dị toàn genome
SNPs
✓ Khảo sát các biến thể đa hình số bản sao (copy-
number variants, CNVs) trên toàn bộ hệ gene người từ
hàng trăm mẫu đối chiếu của 4 quần thể người.
✓ Vấn đề đặt ra hiện nay là làm thế nào xác định chính
xác đặc điểm của một hệ gene "bình thường" của con
người. 65
SNPs
Để dò tìm các CNV:
- Xác định kiểu gene (genotyping) nhắm sàng lọc khoảng
500,000 SNP để tìm kiếm những chuỗi SNP kế cận có tỷ lệ
khác thường so với 2 mô hình (gọi là allele) lý thuyết của
từng SNP.
- So sánh từng mẫu với mẫu chuẩn và tìm kiếm các điểm
khác biệt một cách hệ thống của hơn 26,000 đoạn nhiễm sắc
thể lớn mà tổng chiều dài đã chiếm gần như tất cả phần hệ
gene đã được xử lý trình tự hiện nay.
- Việc kết hợp hai hướng tiếp cận này có thể cho phép dò tìm
gần như tất cả các kiểu CNV.
- Kết quả đã phát hiện 1447 CNV trong số 270 mẫu HapMap.
Chiều dài ước tính trung bình của các vùng chứa CNV trong
mỗi hệ gene là vào khoảng 20 triệu cặp base
66
Các đa hình về số lượng bản sao (CNV) bằng cách nào có
thể quyết định đến những bệnh di truyền phức tạp?
✓Khi xảy ra những đột biến thêm hoặc mất đi một đoạn
nucleotide có chứa gene hoặc vùng điều hòa gene, người
bệnh có nhiều khả năng sẽ bị mất cân bằng về lượng RNA
và protein thích hợp do gene đó mã hóa.
✓Đối với những gene hoặc con đường trao đổi chất mà số
lượng enzyme chức năng đóng vai trò chủ chốt thì đột biến
CNV có thể gây nên những biến đổi về tính mẫn cảm đối với
bệnh tật.
✓Một ví dụ điển hình, những sai khác về lượng bản sao của
gene globin có liên quan điều nhiều dạng bệnh di truyền
haemoglobin ví dụ như bệnh alpha-thalassaemias.
✓Gần đây, số lượng bản sao khác nhau của gene CCL3L1
cũng cho thấy làm tăng khả năng kháng lại sự xâm nhiễm
của HIV. 67