3/26/2013
1
Chƣơng 3
SẮP XẾP THẲNG HÀNG TRÌNH TỰ
(SEQUENCE ALIGNMENT)
TRƢỜNG ĐH CÔNG NGHIỆP THỰC PHẨM TPHCM
KHOA CNSH & KTMT
ThS. Nguyễn Thành Luân Email:
BÀI GIẢNG TIN SINH HỌC
HỆ ĐẠI HỌC
NỘI DUNG BÀI HỌC
• Khái niệm về sắp xếp trình tự
• Tại sao phải nghiên cứu sắp xếp trình tự?
• Phân loại PP sắp xếp trình tự
• Các biểu hiện của phương pháp sắp xếp
trình tự
• Các phương pháp so sánh trình tự thông
dụng
• Ứng dụng của sắp xếp trình tự thẳng
hàng
3/26/2013
2
KHÁI NIỆM
• Theo tin sinh học, sắp xếp thẳng hàng trình
tự là 1 cách sắp xếp các trình tự của DNA,
RNA hay protein để xác định hay so sánh
các vùng tương đồng của các mối quan hệ
chức năng, cấu trúc hay tiến hóa của trình tự
• Tính toán các bắt cặp không chính xác
trong trình tự tương ứng với các đột biến.
VÌ SAO PHẢI SẮP XẾP TRÌNH TỰ
“Tôi tin rằng, sẽ có một ngày, mặc dù tôi sẽ
không còn sống để chứng kiến điều đó,
chúng ta sẽ có những cây tiến hóa chính xác
về các loài sinh giới trong tự nhiên này”
-Charles Darwin-
VÌ SAO PHẢI SẮP XẾP TRÌNH TỰ
• Nhu cầu tìm hiểu mối quan hệ tiến hóa của
các loài sinh giới
• Làm sáng tỏ các lý giải sinh học về các
protein: dựa trên các vùng bảo toàn sinh
học quan trọng (proteomics)
• Xây dựng giả thiết về cấu trúc 3-D của
protein
• Xây dựng giả thiết về chức năng của protein
3/26/2013
4
Phƣơng pháp nhận diện
• Làm thế nào để các biểu hiện về loài
khác nhau trong sinh giới được phân
tích?
SẮP XẾP TRÌNH TỰ
– So sánh trình tự toàn bộ (Global) vs khu
vực (Local Alignment)
– So sánh cặp (Pairwise) vs so sánh đa
-Chức năng
-Cấu trúc chuỗi
-Quan hệ tiến hóa
Bắt cặp trình tự
• Các trình tự này có thể được xen bằng các
khoảng trống (gạch ngang) tại các vị trí có
thể để biểu diễn các cột xác định
(identical) hoặc tương tự nhau (similar).
TCCTCTGCCTCTGCCATCAT CAACCCCAAAGT
| | | | | | | | | | | | | | | | | | | | | | | | | | | | |
CCTGTGCATCTGCAATCATGGGCAACCCCAAAGT
Sắp xếp trình tự toàn bộ
(Global Alignment)
• Tìm ra các trình tự toàn phần tốt nhất
(total sequence)
3/26/2013
6
Sắp xếp trình tự cục bộ
(Local Alignment)
• Tìm ra đoạn trình tự ngắn có giá trị bảo
tồn cao (optimize the sequence)
Ứng dụng sắp xếp thẳng hàng theo
cặp
• Những câu hỏi mà các nhà nghiên cứu dùng
BLAST để tìm câu trả lời.
• Chủng loại vi khuẩn nào có các protein có liên hệ
Biểu hiện homology ở những loài
động vật có xƣơng sống
• Cấu trúc xương tay/cánh/vây
Ngƣời
Khỉ
Chim Cá
3/26/2013
8
Ví dụ
Tìm hiểu cấu trúc của 1 gene không điển hình có
thể được suy ra từ 1 gen điển hình.
Kết quả sắp xếp trình tự nhận thấy β-sheet hiện
diện ở RT’ase người, nhưng không biểu hiện gen
α-helix.
Biểu hiện gen đồng đẳng qua quá trình
hình thành loài (Orthology)
Gene biểu hiện hình thành loài với tổ tiên chung
của chúng không trải qua quá trình sao chép
gen (=gen giống nhau ở các loài khác nhau)
GENE SPECIATION ORTHOLOGS
Biểu hiện gen đồng đẳng qua quá trình
sao chép gen (Paralogy)
Gen biểu hiện sao chép gen với tổ
tiên của chúng đã trải qua quá trình
sao chép gen
Gen tiến hóa bởi các đột biến
nhưng cũng làm gia tăng sự đa
dạng gen bằng việc nhân bản
3/26/2013
10
Tin sinh học trả lời mối quan
hệ họ hàng
BREAK - TIME
Các phƣơng pháp so sánh trình
tự thông dụng
• Phương pháp so sánh ma trận điểm
(Dot-matrix)
• Phương pháp phân tích theo dạng
lượt dọc các ô (Sliding Windows)
3/26/2013
11
Dot-matrix
Phƣơng pháp phân tích theo dạng
lƣợt dọc các ô (Sliding Windows)
3/26/2013
12
Phân tích so sánh NST
Mã hóa so sánh 1
NST này với 1 NST
khác.
Tìm sự tương đồng
giữa các NST từ các
loài có mối quan hệ
gần nhau (e.g NST
• Mô tả kết quả bằng hệ thống màu sắc và các ký
hiệu nổi bậc những nét đặc trưng trong những
đoạn tương đồng.
• Ngày càng trở nên hữu ích cho các nhà nghiên
cứu trong việc tìm kiếm những vùng bảo tồn trên
những trình tự DNA hoặc protein
Sắp gióng cột bằng ClustalX
3/26/2013
14
Nguyên tắc ClustalX
• Thu nhận và lựa chọn tập trình tự (protein
hay DNA, RNA)
• Nhập các trình tự sinh học vào ClustalX
• Phân tích kết quả sắp xếp thẳng hàng
theo cột
Các lƣu ý khi thực hiện
• Trước khi thực hiện việc sắp xếp, phải lựa
một cách cẩn thận tập trình tự mà cần so
sánh cột.
• Những trình tự này thuộc cùng một protein,
DNA hay RNA và cùng tổ tiên.
• Tùy thuộc vào mục đích xây dựng sắp xếp
Score 1 có độ
tin cậy cao hơn
Trình tự nào có độ tin cậy cao hơn?
Cách tính điểm số DNA
GGGGGGAGAA- - - - -
| | | | | | | | | | * * * * *
GGGGGAAAAAGGGGG GGGGGGAGAA GGG
| | | | | | | | | |** | | |
GGGGGAAAAAG-GGG
Trình tự nào đƣợc chọn trong
phƣơng pháp tính điểm ma trận??
Sự tƣơng đồng giữa bò & cá
3/26/2013
17
Sự tƣơng đồng giữa bò & heo
So sánh nhiều trình tự
• Mở rộng và tạo thêm các dự đoán tin cậy so với so
sánh trình tự theo cặp (pairwise)
• Dữ liệu dự đoán tốt hơn cho các cấu trúc Protein
• Dự đoán các chức năng của amino acid ở protein
như phần còn lại ở khu vực hoạt hóa
• Các cách xác định đột biến gây ra các bệnh di
truyền.
• Thiết kế các chuỗi peptide kháng thể
• Thiết kế mồi (primer) PCR phổ biến
• Xác định các quan hệ tiến hóa giữa các trình tự
DNA.
125 bp nhằm phân
biệt chuột và người.
Ab peptides nhắm vào
việc gắn với thrombin
chuột và người.
Vùng giữa 140 và
190 có thể được sử
dụng để phân biệt
chuột từ thrombin
người
Thiết kế mồi PCR
Thiết kế các mồi oligonuclotide để gắn các vùng
bảo tồn cao của gene thioredoxin. Những đoạn mồi
này sẽ tối ưu hóa các đoạn gen thioredoxin từ các
loài khác như lớp bò sát, cá, chim và các động vật có
vú khác.
Nhóm gen Thioredoxin từ các loài khác nhau
DNA Barcode
3/26/2013
20
Xác định quan hệ tiến hóa loài
Việc xác định dựa
vào 1 trong 2 cơ sở:
Xác định quan hệ
của các thành viên
khác nhau trong 1
họ gene (Gene
duplication)
Xác định 1 gene
trong những cá thể
quan nhau. Các
nhóm trình tự này
sẽ được sắp xếp
trước, xa nhau
được sắp xếp sau
Phân tích trình tự thông qua
cây phát sinh loài
Sắp xếp các trình tự có quan hệ gần nhau
nhất trước.
– Sắp xếp các nhóm trình tự với nhau
– Theo thứ tự sắp xếp các trình tự đến khi quá
trình sắp xếp hoàn thành.
Tuy nhiên:
– Không bảo đảm trong việc tìm trình tự sắp
xếp tối ưu nhất.
– Việc sắp xếp trình tự đối với các trình tự gần
nhau rất hạn chế.
KẾT THÚC CHƢƠNG III