LUẬN VĂN:KIỂM ĐỊNH VÀ SO SÁNH CÁC MÔ HÌNH BIẾN ĐỔI AMINO ACID CHO VIRÚT CÚM - Pdf 15

- 1 -


HÀ NỘI - 2009

- 2 -
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Phan Duy Tùng

Tóm tắt khóa luận

Khóa luận với đề tài “kiểm định và so sánh các mô hình biến đổi amino acid cho
virút cúm”. Đề tài này chúng tôi đã thực hiện những công việc sau:
1. Nghiên cứu tổng quan về sinh học phân tử và tin sinh học.
2. Nghiên cứu mô hình biến đổi amino acid.
3. Kiểm thứ mô hình I09 cho virút cúm và so sánh với các mô hình khác như: LG,
WAG, HIVw, HIVb, JTT ……
Kết quả cho thấy I09 [31] tốt hơn các mô hình khác khi áp dụng cho dữ liệu virút cúm.

- 4 -
Lời cảm ơn

Tôi xin chân thành cảm ơn Tiến sỹ Lê Sỹ Vinh là người trực tiếp, nhiệt tình
hướng dẫn tôi làm khóa luận tốt nghiệp trong thời gian qua.

Tôi xin gửi lời cảm ơn tới thạc sỹ Đặng Cao Cường người đã giúp đỡ tôi rất
nhiều trong quá trình làm khoán luận tốt nghiệp.

Tôi xin gửi lời cảm ơn tới toàn thể các thầy giáo, cô giáo tại Trường Đại Học
Công Nghệ những người đã hết lòng dạy cho tôi những kiến thức hết sức bổ ích trong
4 năm học tại trường.

Xin cảm ơn gia đình và những người bạn đã dành cho tôi tình thương yêu và sự
hỗ trợ tốt nhất.

- 5 -


Tin sinh (Bioinformatics), Bio:sinh học phân tử (Molecular Biology), Informatics
(Khoa học máy tính). Bioinformatics: giải quyết các bài toán sinh học bằng việc sử
dụng các phương pháp của khoa học máy tính. Với sự phát triển mạnh mẽ của công
nghệ sinh học, một khối lượng lớn dữ liệu sinh học phân tử (gene, protein, genome) đã
được thu thập, lưu trữ và chia sẻ tại các ngân hàng dữ liệu thế giới như NCBI
(National center for biotechnology information). Tin sinh học hiện đang được ứng
dụng phổ biến trong sinh học phân tử, nông nghiệp, công nghệ thực phẩm, môi trường,
y - dược học, và kiểm soát bệnh.

Trong những năm gần đây trên toàn cầu đã bùng nổ những đại dịch cúm như đại
dịch H5N1 và gần đây nhất mới phát hiện ra đại dịch mới do chủng H1N1 (đã đột
biến) gây ra, có thể lây từ người sang người. Các nhà khoa học trên toàn thế giới đang
ra sức nghiên cứu, tìm hiểu về loại virút cúm mới này. Vì vậy việc tìm ra một mô hình
thay thế amino acid tốt nhất để giúp các nhà khoa học nghiên cứu tốt hơn các loại virút
cúm là rất cần thiết. Với đề tài khóa luận tốt nghiệp “Kiểm định và so sánh các mô
hình biến đổi Amino Acid cho virút cúm” chúng tôi hi vọng sẽ có những đóng góp vào
việc sản xuất và điều chế ra vacxin điều trị cúm. Sau quá trình nghiên cứu và kiểm tra
chúng tôi đã thu được một số kết quả sau. Chúng tôi đã tìm ra mô hình I09 [31] là tốt
nhất để nghiên cứu các loại dữ liệu virút cúm. Mặc dù mô hình này mới ở giai đoạn
đầu phát triển nhưng nó đã có những thuộc tính nổi trội cao so với các mô hình khác.
Kiểm tra giá trị log likelihood trên 489 aligment độc lập đã cho chúng ta những kết
quả như sau: I09 tốt hơn HIVb 455 bộ trên 489 aligmenent, tồi hơn 34 bộ, và I09 tốt
hơn HIVw 476 bộ trên 489 aligmenent và tồi hơn 13 bộ, I09 tốt hơn JTT 464 bộ trên
489 aligmenent và tồi hơn 25 bộ, I09 tốt hơn LG 468 bộ trên 489 aligmenent và tồi
hơn 21 bộ.
- 2 -

- 3 -
Trật tự các base dọc theo chiều dài của chuỗi DNA gọi là trình tự, trình tự này rất
quan trọng vì nó chính là mật mã nói lên đặc điểm hình thái của sinh vật. Tuy nhiên, vì
mỗi loại base chỉ có khả năng kết hợp với 1 loại base trên sợi kia, cho nên chỉ cần trình
tự base của 1 chuỗi là đã đại diện cho cả phân tử DNA.

Đột biến hiểu đơn giản là hậu quả của những sai sót hoá học trong quá trình nhân
đôi. Bằng cách nào đó, một base đã bị bỏ qua, chèn thêm, bị sao chép nhầm hay có thể
chuỗi DNA bị đứt gẫy hoặc gắn với chuỗi DNA khác. Về mặt cơ bản, sự xuất hiện
những đột biến này là ngẫu nhiên và xác suất rất thấp.
- Sự thay thế: thay thế một nucleotide bởi cái khác trong chuỗi.
- Sự bỏ đi: xóa một hoặc nhiều hơn nucleotide từ chuỗi.
- Thêm vào: thêm một hoặc nhiều nucleotide trong chuỗi.
- Transitions: thay thế một purine trong purine khác (A

G) hoặc một
pyrimidine trong pyrimidine (C

T).
- Transversion: thay thế một purine trong một pyrimidine A

C, A

T, G

C,
G

T.
RNA cũng tương tự như DNA nhưng trong thành phần cơ bản của nó thì T được

Trong quá trình tiến hóa và biến đổi của các chuỗi DNA, RNA, có xảy ra những
những đột biến (thêm vào, chèn, xóa – đã được định nghĩa trong phần 1.1). Chính vì
vậy đã tạo ra sự khác nhau của các cuỗi DNA, RNA của cùng một loài. Vì vậy để
nghiên cứu được về các chuỗi này điều đầu tiên chúng ta cần làm là sắp hàng các
chuỗi này. 1.2 Sắp hàng đa chuỗi

Sắp hàng đa chuỗi (gióng hàng đa chuỗi) là cách sắp hàng các chuỗi DNA, RNA
hay protein sao cho chúng giống nhau nhất. Các chuỗi này sau khi sắp hàng sẽ có cùng
chiều dài. Một số chương trình dùng để sắp hàng đa chuỗi như: CLUSTALW [28], T-
COFFEE [17], hoặc MUSCLE [5].

Sắp hàng 2 chuỗi: là trường hợp riêng của sắp hàng đa chuỗi.Ví dụ chúng ta có
hai chuỗi DNA của người và tinh tinh: - 5 -
1 2 3 4 5 6 7 8 9 10 11 12
Người A A C C T T T C C C T T
Tinh Tinh A C C T T T C C C T T

Sau khi sắp hàng ta có kết quả:

1 2 3 4 5 6 7 8 9 10 11 12
Người A A C C T T T C C C T T
Tinh Tinh A C C - T T T C C C T T

Sắp hàng đa chuỗi thay vì so sánh 2 cặp thì là việc tìm sự giống nhau của đồng


Cây phân loài biểu diễn mối quan hệ tiến hóa giữa các loài sinh vật. Có nhiều
phương pháp để xây dựng cây phân loài như Maximum parsimony, Distance Based,
hay Maximum Likelihood [15]. Nhưng ngày nay, phương pháp Maximum Likelihood
được sử dụng phổ biến nhất. Sử dụng phần mềm PhyML [23] để xây đựng cây phân
loài bằng phương pháp Maximum Likelihoood. Hình 4 là một ví dụ về cây phân loài
của 4 loài: người, tinh tinh, gorilla, khỉ Rhesus. Hình 4: Ví dụ về cây phân loài

Muốn xây dựng những cây phân loài tốt và chuẩn xác thì cần phải có những kiến
thức cơ bản về những mô hình thay thế nucleotide hoặc mô hình thay thế amino acid.
Những mô hình này là nền tảng của việc xây dựng nên cây phân loài. Lựa chọn được
mô hình tốt sẽ dẫn tới việc có cây phân loài tốt. Phần tiếp theo sẽ nói chi tiết hơn về
các mô hình thay thế nucleotide và mô hình thay thế amino acid. - 7 - Chương 2: Mô hình thay thế nucleotide và
Mô hình thay thế amino acids

Sau đây chúng tôi trình bày tổng quan về mô hình tiến hóa, mô hình thay thế của
nucleotide, mô hình thay thế của amino acid. Chi tiết có thể tham khảo tại [15, 29].
2.1 Mô hình của chuỗi tiến hóa

nhiên, khoảng cách quan sát tăng lên thì bão hòa và đó là giới hạn của nó. Bởi vậy,
khoảng cách quan sát đánh giá bởi khoảng cách gen.

Định nghĩa: Khoảng cách gen d
g
(x,y) giữa 2 chuỗi tương đồng x=(x
1
,x
2
,….,x
m
)
và y=(y
1
,y
2
… ,y
m
)

A với i=1 …. m là số thay thế có thật giữa x và y trên site.
Ước lượng khoảng cách gen giữa chuỗi điển hình phụ thuộc vào thống kê mô tả
của xử lý thay thế giữa nucleotie hoặc amino acids, gọi là mô hình thay thế.
Trước khi miêu tả mô hình, chẳng hạn một sự đi chệch trong khoảng cách quan
sát 2 chuỗi cái mà đơn giản nhất và thuộc về ước lượng trực giác của khoảng cách gen
[24].

Định nghĩa: khoảng cách nhìn thấy d
0
(x,y) giữa chuỗi đồng nhất x=(x

m



(2.1)

Hình 6: Tiến hóa của 2 chuỗi từ chuỗi tổ tiên
khi

- 9 -

nếu khoảng cách gen d
g
(x,y) là nhỏ, nó đã ước lượng một cách đúng đắn bởi
khoảng cách quan sát d
o
(x,y) như biểu đồ minh họa hình 5. Tuy nhiên, một tỷ lệ thay
thế cao hoặc một thời gian tiến hóa giữa chuỗi có thể là nguyên nhân không đánh giá
được khoảng cách gen từ khoảng cách quan sát. Rõ ràng hơn ở hình 6 hiển thị ví dụ về
nhiều thay thế, thay thế song song và thay thế sau, trong cái khoảng cách quan sát giữa
2 chuỗi là nhỏ hơn số của thay thế thực tế giữa chúng.
Nhiều thay thế (multiple subsituations): có 2 hoặc nhiều hơn thay thế xảy ra
tại vị trí giống nhau. Tuy nhiên, một thay thế quan trọng là có thể nhìn thấy tại vị trí
trong sắp cặp trình tự (vị trí 1 hình 6).
Thay thế song song (parallel substitution): thay thế giống nhau có xảy ra tại
vị trí giống nhau trong 2 chuỗi. Bởi vậy, chúng ta không quan sát thấy thay thế giữa 2
ký tự tại vị trí trong sắp cặp trình tự (vị trí 3 hình 6).
Thay thế sau (Back subsituations): có 2 hoặc nhiều hơn thay thế xảy ra tại vị
trí giống nhau trong một chuỗi.Tuy nhiên, ký tự cuỗi cùng có trạng thái như trạng thái
ban đầu.Vậy kết quả là không thể quan sát được thay thế tại vị trí sắp cặp trình tự (vị

Thời gian thuận nghịch giả định thường xuyên áp đặt với suy ra sự phân loài, cái
có liên quan đến tỷ lệ thay thế giữa nucleotide i và nucleotide j là giống nhau trong cả
2 phương hướng. Rõ ràng, tỷ lệ thay thế tương đối a’=a, b’=b, c’=c, d’=d, e’=e và f’=f.
Bời vậy, phổ biến thời gian thuận nghịch (GTR) [27] là:
Mô hình áp đặt 4 điều kiện:
- Tỷ lệ của thay thế từ nucleotide i với nucleotide j phụ thuộc vào lịch sử của
nucleotide i (đặc tính Markov).
- Tỷ lệ thay thế là bất biến với thời gian (đồng nhất thời gian).
- Thay thế giữa nucleotide có thể xuất hiện tại thời gian trong xử lý (thời gian
liên tục).
- Tần số

= (
, , ,
A C G T
   
) của nucleotide A, C, G, T.
Tỷ lệ thay thế tức thời ma trận Q có thể tách rời trong có liên quan đến tỷ lệ thay
thế của ma trận R= {R
ij
} và tần số nucleotie

như:


(2.8)

(2.9)

(2.10)
- 12 -

Hình 7: sự khác nhau giữa các mô hình thay thế nucleotide là số tham số tự do
(Free parameters).

|A|=4 là số trạng thái có thể thực hiện được


=diag {
1 2
, , ,
A
  
} là |A|

|A| ma trận đường chéo tương ứng với giá trị đặc
trưng của mà trận
1 2
, , ,
A
  
của Q
U= {u
1
, u

Dayhoff (1978) [3] là mô hình thay thế amino acid đầu tiên. Họ sử dụng 71 bộ
protein có quan hệ chặt chẽ với nhau và quan sát 1572 thay thế giữa các amino acid.
Họ sưu tập thay thế này trong xác suất phổ biến của ma trận sự thay thế đã được thừa
nhận (PAM) hoặc mô hình Dayhoff.

PAM-001 là ma trận quan trọng nhất PAM cái biểu hiện xác suất của sự thay thế
từ một amino acid với amino acid khác. Nếu một phần trăm của amino acid có thay thế
giữa chúng. Phổ biến hơn là PAM-t là xác suất của thay thế từ một amino acid tới cái
khác nếu số lượng của thay thế giữa chúng là t phần trăm. PAM-t có thể tính toán dễ
dàng bởi sự tăng ma trận PAM-001 với số mũ t [6].
Jones et al (1992) [10] ứng dụng phương pháp giống như của Dayhoof et al
(1978) nhưng với giá trị lớn hơn về số bộ dữ liệu để lập bảng xác suất của ma trận biến
đổi công nhận có tên là ma trận JTT.

Một thiếu sót của ma trận PAM là chúng chỉ thống kê trên một chuỗi protein có
quan hệ mật thiết với nhau.Muller và Vingrron (2000) giới thiệu một cải tiến ước
lượng, gọi là phương thức giải thức, chiến thắng cái sự hạn chế.Sau đó, họ tính toán
gọi là ma trận VT cơ bản trên chuỗi protein của mức độ biến đổi của sự khác nhau từ
dữ liệu SYSTERS [14].

Adachi và Hasegawa (1996) [1] nghiên cứu sự thay thế acmino acid xử lý trong
ngữ cảnh của mtDNA- mã hóa protein. Họ xây dựng một ma trận xác suất chuyển đổi,
- 14 -
đó là ma trận mtREV, sử dụng ma trận maximum likelihood cơ bản trên 20 động vật
có xương sống mtDNA giải mã chuỗi protein. Tác giả đưa ra kết quả: mtREV thực sự
tốt hơn mô hình khác khi xử lý mối quan hệ phân loài trong loài căn cứ trên mtDNA
giải mã chuỗi protein của họ.

Whelan và Goldman (2001) [22] sử dụng một ma trận gần đúng phương thức
likelihood để ước lượng một mô hình mới của thay thế amino acid, tên là WAG, căn
Lê Sĩ Quang và Olivire Gascuel (2008 )[21] đã công bố một mô hình mới đó là
mô hình LG. Mô hình này chạy tốt trên nhiều loại amino aicds khác nhau. Phương
phát để suy ra mô hình này là: tác giả cải tiến mô hình WAG của Whelan và Goldman
(2001) bằng cách sử dụng ước lượng cực đại (maximum likelihood) kết hợp chặc chẽ
tính biến đổi của tỷ lệ tiến hóa vị trí xoắn trong ma trận ước lượng. Tác giả đã kết hợp
với phần mềm XRATE và 3,912 aligment từ Pfam, bam gồm 50,000 chuỗi và 6.5 triệu
amino acid.Và tác giả đã sử dụng lấy mẫu độc lập của 59 alignments từ TreeBase để
so sánh kết quá như bảng thống kê ở bảng 2 bên dưới.

- 16 -
Bảng 2: So sánh các mô hình với 59 alignments từ TreeBase
của động vật (phải trên); và retrovirút (phải dưới).

3.2 Phân loại Virút
DNA virút: do cơ chế tự sửa lỗi trong quá trình sao chép, nên loại DNA virút
này không có khả năng gây ra đột biến.Vì vậy nó ít gây ra sự nguy hiểm.
RNA virút: nó phát sinh dựa trên cơ chế của tổng hợp RNA, sau khi tấn công
vào vật chủ thì nó chuyển đổi thành DNA và sau đó tái tạo lại RNA. Trong quá trình
chuyển đổi này thì có thể tạo ra những thay đổi làm cho virút trở nên nguy hiểm hơn
do các kháng thể không thể tiêu diệt được chúng. - 18 - 3.3 Virút cúm
Cái gì là bệnh cúm của loài chim
Cúm của chim là một loại cúm gây ra bởi virút cúm. Virút cúm này tìm thấy
trong một loài chim. Loài chim hoang rã có trên toàn thế giới mang virút trong ruột
của chúng, nhưng thường không làm cho chúng bị ốm. Tuy nhiên, cúm chim là dễ lây
qua các loài chim khác và có thể lây sang một số gia cầm đã thuần hóa bao gồm, gà,
vịt, gà tấy gây ra ốm và có thể giết chúng.

Có mấy loại virút cúm
- Loại A: có thể lây cho người, chim, lợn, ngựa, hải cẩu, các voi và các động vật
khác, những động vật hoang dã lưu trữ virút này tự nhiên. Loại này có thể gây ra đại
dịch.
- Loại B: virút loại B là bình thường được tìm thấy duy nhất trên người. Mặc dù
virút loại B có thể là nguyên nhân bệnh dịch ở người, chúng không gây ra các đại dịch.
- Loại C: virút loại C là nguyên nhân gây ra các loại cúm nhẹ ở người, và nó
không gây ra bệnh dịch hoặc không gây ra đại dịch.

Như chúng ta thấy với sự lây lan của virút cúm như ở hình 10, cho chúng ta thấy
đượng sự nguy hiểm của virút cúm đối với sức khỏe con người. Vì vậy việc tìm ra một
mô hình thay thế amino acid để giúp các nhà khoa học nghiên cứu tốt hơn về các
chủng virút cúm là rất quan trong. Sau đây sẽ là những giới thiệu về một mô hình mới
như vậy, mô hình này ra đời nhằm phục vụ cho việc nghiên cứu virút cúm.

Giới thiệu về mô hình nghiên cứu với virút cúm
Mô hình I09 [31] đang trong giai đoạn dầu phát triển (2009). Mô hình này xây
dựng để phục vu cho việc nghiên cứu các chủng virút cúm. Phương pháp xây dựng
được thực hiện theo các bước của mô hình LG nhưng với một bộ dữ liệu được xây
dựng kỳ công và nhiều công sức về virút cúm. Chính vì vậy cho ra kết quả rất đáng
chú ý.
Với việc so sánh giá trị log likelihood của các alignment có những kết quả sau:
I09 tốt hơn HIVb 455 bộ trên 489 aligmenent, tồi hơn 34 bộ, và I09 tốt hơn HIVw 476
bộ trên 489 aligmenent và tồi hơn 13 bộ, I09 tốt hơn JTT 464 bộ trên 489 aligmenent
và tồi hơn 25 bộ, I09 tốt hơn LG 468 bộ trên 489 aligmenent và tồi hơn 21 bộ.

Những kết quả này sẽ được trình bày rõ hơn ở chương 4 của khóa luận này.
Chương 4 là chương nói lên toàn bộ quá trình thực hiện việc kiểm định và so sánh các
mô hình biến đổi amino acid cho virút cúm.

Trích đoạn Quá trình thực hiện
Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status