SO SÁNH CÁC TRÌNH TỰ SINH HỌC BẰNG BLAST VÀ CLUTALX - Pdf 12

1
n to
SO SÁNH CÁC TRÌNH TỰ SINH
HỌC BẰNG BLAST VÀ CLUTALX
Mục tiêu của bài học

Nắm được những nguyên tắc so sánh các trình tự
sinh học

Sử dụng chương trình BLAST giúp chúng ta
nhanh chóng tìm ra những trình tự sinh học tương
đồng (nếu có trong các CSDL lớn như NCBI,
EMBL, DDPJ…) với trình tự yêu cầu.

Cung cấp những số liệu về tỉ lệ tương đồng,
nguồn gốc các trình tự tương đồng,…
Tìm ki m trình t sinh h cế ự ọ
2
Bắt cặp trình tự

Sắp xếp thẳng hàng trình tự là phương pháp sắp
xếp hai hoặc nhiều trình tự nhằm đạt được sự giống
nhau tối đa.

Các trình tự này có thể được xen bằng các
khoảng trống (thường được diễn tả bằng các gạch nối
ngang) tại các vị trí có thể để làm sao tạo thành các
cột giống nhau (identical) hoặc tương tự nhau
(similar).
tcctctgcctctgccatcat caaccccaaagt
|||| ||| ||||| ||||| ||||||||||||

sinh học khác nhau.
Gi i thi u môn h cớ ệ ọ
5
Ứng dụng

Một vài ví dụ về những câu hỏi mà các nhà nghiên
cứu dùng BLAST để tìm câu trả lời.

Chủng loại vi khuẩn nào có các protein có liên hệ về
giống loài với một loại protein khác mà có
chuỗi amino-acid mà ta đã biết không?.

Chuỗi DNA mà ta vừa sắp xếp có nguồn gốc từ đâu?

Có gen nào khác dùng để mã hóa các protein có cấu
trúc hay dáng dấp gần với cái mà ta vừa xác định
không?.

BLAST còn được dùng kết hợp với các giải thuật khác
có đòi hỏi sự so trùng chuỗi gần đúng.
Gi i thi u môn h cớ ệ ọ
6
Blast

BLAST là một giải thuật để so sánh các chuỗi sinh
học, như các chuỗi của các protein hay của các chuỗi
DNA khác nhau.

Chúng ta dùng blast khi câu hỏi đặt ra “liệu có trình tự
nào trong ngân hàng dữ liệu giống hoặc gần giống với

9
Giá trị xác xuất trong blast
Gi i thi u môn h cớ ệ ọ
10
Các bước tìm kiếm trong blast
Gi i thi u môn h cớ ệ ọ
11
Minimum
Score (S)
Neighborhood
Score Threshold (T)
Bước 1: BLAST tìm kiếm các
chuỗi con ngắn với chiều dài cố
định W có tính tương tự cao
Những chuỗi con nào có số điểm lớn hơn một
giá trị ngưỡng T (threshold value) thì được
gọi là tìm thấy và được BLAST gọi là Hits
Bước 2: BLAST tiếp tục tìm kiếp
những cặp Hits tiếp theo dựa
trên cơ sở những Hit đã tìm
được trong bước 1
Mở rộng so sánh các trình tự

Bước 3: Cuối cùng BLAST mở rộng những cặp Hits
đã tìm được theo cả hai chiều và đồng thời đánh số
điểm.

Quá trình mở rộng kết thúc khi điểm của các cặp Hits
không thể mở rộng thêm nữa.
Gi i thi u môn h cớ ệ ọ

|||||*|*|| 8(1)+2(-3)=
2
2
GGGGGAAAAAGGGGG
GGGGGGAGAA GGG
|||||*|*|| ||| 11(1)+2(-3)+1(-1)+1(-1)=
3
3
GGGGGAAAAAGGGGG
So sánh các đặc tính di truyền của các loài
Bò và Cá (DNA)
32 .ACAGGACATTTTACTACTCTGCAGATAATGGCTGACTTTGACATGGTAC 80
| | | | | | || | | || | | |||| |
51 TTCTTCAGACTGCGCCATGGGGCTCAGCGACGGGGAATGGCAGTTGGTGC 100
. . . . .
81 TGAAGTGCTGGGGTCCAATGGAGGCGGACCACGCAACCCACGGGAGTCTG 130
|||| |||||| ||||||| || |||| ||| ||| |
101 TGAATGCCTGGGGGAAGGTGGAGGCTGATGTCGCAGGCCATGGGCAGGAG 150
. . . . .
131 GTGCTGACCCGTTTATTCACAGAGCACCCAGAAACCCTAAAGTTATTCCC 180
|| || | | | | ||||||| || || || ||||| || |||
151 GTCCTCATCAGGCTCTTCACAGGTCATCCCGAGACCCTGGAGAAATTTGA 200
. . . . .
181 CAAGTTTGCTGGC ATCGCCCATGGGGACCTGGCCGGGGATGCAGGTG 227
|||||| | | | | | || || | | |
201 CAAGTTCAAGCACCTGAAGACAGAGGCTGAGATGAAGGCCTCCGAGGACC 250
48% similarity
Bò và Heo
1 CAGCTGTCGGAGACAGACACCCAGTCAGTCCCGCCCTTGTTCTTTTTCTC 50
| ||| ||| || | ||||| |||| ||| ||||||



Megablast

Discontiguous megablast
So sánh trình tự Nhập vào với trình tự cơ sở dữ liệu
Gi i thi u môn h cớ ệ ọ
22
Gi i thi u môn h cớ ệ ọ
23
Megablast
Large numbers of query sequences (megablast):
Khi so sánh một số lượng lớn các chuỗi đầu vào qua chỉ một BLAST
dạng dòng lệnh, "megablast" là nhanh hơn rất nhiều so với chạy
BLAST nhiều lần.
Protein-protein BLAST
Chương trình này, khi đưa vào một protein truy vấn,
sẽ trả về các chuỗi protein gần giống nhất từ cơ sở
dữ liệu protein mà người dùng chỉ định.

Blastp

PSI-blast

PHI-blast
Gi i thi u môn h cớ ệ ọ
24


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status