Báo cáo tiểu luận tin sinh đề tài: blast - Pdf 18

Tiểu Luận: BLAST
GVHD: TS. Nguyễn Đức Bách
Nhóm sinh viên thực hiện: nhóm 4
Nhoעm 4_k55cnsha
7/12/2014
2
1.
Nhóm sinh viên thực hiện

Nhoעm 4_k55cnsha
3
NỘI DUNG
7/12/2014
ĐẶT VẤ N ĐỀ
Nhoעm 4_k55cnsha
4
NỘI DUNG
Phần I
-Khái niê ̣m, li ̣ch sử
- Thuâ ̣t toán
- Mục đı́ch
- Các da ̣ng, biến thể, ý nghı̃a
Phần II
-Ứ ng du ̣ng
-Thao tác với blast
- Vı́ dụ cụ thể
7/12/2014
Nhoעm 4_k55cnsha
7/12/2014
5
Đặt vấn đề

thuật để so sánh các chuỗi sinh học, như các chuỗi
amino-acid của các protein hay của các chuỗi DNA
khác nhau.
7/12/2014
Nhoעm 4_k55cnsha
8
I. Phần I 1. Khái niệm, lịch sử
1970: Thuật toán của Needleman-Wunsch cho việc căn
trình tự (alignment) được công bố
Li ̣ch sử
1981: Thuật toán Smith-Waterman để căn trı̀nh tự đã
được công bố IMB giới thiệu trên máy tı́nh cá nhân trên
thị trường
1988: NCBI được thành lập ở viện nghiên cứu ung thư
quốc gia. Thuật toán FASTA dùng để so sánh trı̀nh tự được
công bố bởi Pearson và Lupman. Des Higgins và Paul
Sharpe công bố phát triển chương trı̀nh CLUSTAL
7/12/2014
Nhoעm 4_k55cnsha
9
I. Phần I 1. Khái niệm, lịch sử
Li ̣ch sử
1990: Chương trı̀nh BLAST ra đời (Altschul, et. al.)
Dù ít chính xác hơn Smith-Waterman nhưng lại cho
tốc độ nhanh hơn gấp 50 lần. Tốc độ và sự chính xác
tương đối của BLAST là những cải tiến kĩ thuật quan
trọng của các chương trình BLAST và những điều đó
cho thấy lí do vì sao công cụ này lại là công cụ tìm
kiếm phổ biến nhất trong tin sinh học.
7/12/2014

Minimum
Score (S)
Neighborhood
Score Threshold (T)
Bước 1: BLAST tìm kiếm các chuỗi con
ngắn với chiều dài cố định W có tính
tương tự cao
Những chuỗi con nào có số điểm lớn hơn một giá trị
ngưỡng T (threshold value) thì được gọi là tìm thấy
và được BLAST gọi là Hits
Bước 2: BLAST tiếp tục tìm kiếp
những cặp Hits tiếp theo dựa trên cơ
sở những Hit đã tìm được trong bước
1
I. Phần I 2. Thuật toán
7/12/2014
Nhoעm 4_k55cnsha
13
I. Phần I 2. Thuật toán
n Bước 3: Cuối cùng BLAST mở rộng những cặp Hits đã tìm
được theo cả hai chiều và đồng thời đánh số điểm.
n Quá trình mở rộng kết thúc khi điểm của các cặp Hits
không thể mở rộng thêm nữa.
KENFDKQRVSGTWYAMAKKDPEG 50 RBP (query)
MKGLDIQKVAGTWYSMAMAASD. 44 lactoglobulin (hit)
Hit!
Mở rộng Mở rộng
7/12/2014
Nhoעm 4_k55cnsha
14

17
I. Phần I 3. Blast dùng để làm gì?
n Tìm hiểu mối quan hệ của một trình tự protein hoặc
DNA (query sequence) với các trình tự đã biết trong
CSDL liệu.
n (Những) loài SV nào có trình tự DNA/Protein giống với
trình tự truy vấn.
n Nguồn gốc của trình tự truy vấn
n Trình tự protein do gene X mã hóa có chức năng gì? có
những vùng hoạt động (domain), vung đặc thù (motif) gì?
n Mối quan hệ tiến hóa giữa các sinh vật có các trình tự
giống với trình tự truy vấn (paralog/ortholog)
n Phát hiện trình tự DNA/ Protein mới
7/12/2014
Nhoעm 4_k55cnsha
18
I. Phần I 3. Blast dùng để làm gì?
Tìm trình tự giống với trình tự query theo phương thức căn
trình tự cục bộ
Dự đoán cấu trúc: 2D DNA/RNA, 3D Protein
Xác định các đặc điểm của sản phẩm gene:
Mw, pI, họ protein,
Vùng chức năng (motif, domain), concensus pattern
Dự đoán vị trí của sản phẩm gene
So sánh các concensus pattern
Dự đoán mối quan hệ tiến hóa
Multisequence alignment
Hỗ trợ lắp ráp trình tự
7/12/2014
Nhoעm 4_k55cnsha

Chương trình này chuyển cơ sở dữ liệu đích thành mọi 6-khung
(frame) và so sánh với chuỗi protein truy vấn .
Large numbers of query sequences (megablast): Khi so sánh một
số lượng lớn các chuỗi đầu vào qua chỉ một BLAST dạng dòng
lệnh, "megablast" là nhanh hơn rất nhiều so với chạy BLAST
nhiều lần.
7/12/2014
Nhoעm 4_k55cnsha
22
I. Phần I 4. Các dạng, ý nghĩa
Position-Specific Iterative BLAST (PSI-BLAST): Một trong những
chương trình BLAST mới nhất, chương trình này dùng để tìm kiếm
các mối quan hệ xa (distant relative) của một protein. Trước tiên,
một danh sách các protein liên quan sẽ được tạo ra. Sau đó,
những protein này được kết hợp thành một "profile" dưới dạng
chuỗi trung bình (average sequence). Một câu truy vấn tới một cơ
sở dữ liệu protein sẽ được thực thi nhờ profile này, và một nhóm
lớn hơn các protein được tìm thấy. Nhóm lớn này lại được dùng
để tạo ra một profile khác, và quá trình này cứ lặp lại.
7/12/2014
Nhoעm 4_k55cnsha
23
I. Phần I 4. Các dạng, biến thê,̉ ý nghĩa
Lựa chọn chương trình BLAST
7/12/2014
n Một vài ví dụ về những câu hỏi mà các nhà nghiên cứu
dùng BLAST để tìm câu trả lời.
n Chủng loại vi khuẩn nào có các protein có liên hệ về giống
loài với một loại protein khác mà có chuỗi amino-acid mà
ta đã biết không?.


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status