luận văn nghiên cứu sự phát triển của virut cúm - Pdf 10

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Nguyễn Văn Sáu
NGHIÊN CỨU SỰ PHÁT TRIỂN CỦA VIRUT CÚM
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: khoa học máy tính
HÀ NỘI – 2009
1
Mục lục
Mục lục 1
L
ời nói đầu 3
Chương I. Giới thiệu về sinh học phân tử và tin-sinh học 4
1. Gi
ới thiệu về sinh học phân tử 4
2. Gi
ới thiệu về tin-sinh học 5
2.1. S
ắp hàng đa chuỗi 5
2.2. Cây ti
ến hóa 7
Chương II. Virut cúm 8
1.Sơ lược về virut cúm 8
2. Các lo
ại virut cúm 8
3. C
ấu trúc và tính chất 9
4. M
ột số thống kê và sự lây lan của virut cúm 10
4.1. M
ột số thống kê về dịch cúm 10

Các b
ảng tham khảo 35
Nghiên cứu sự phát triển của virut cúm
3
Lời nói đầu
Tin-sinh học (Bioinformatics) là một lĩnh vực nghiên cứu đang phát triển rất
m
ạnh mẽ. Tin-sinh học áp dụng những phương pháp trong tin học để giải quyết
các bài toán trong sinh h
ọc phân tử. Với sự phát triển mạnh mẽ của công nghệ sinh
h
ọc, một khối lượng lớn dữ liệu sinh học phân tử (gene, protein, genome) đã được
thu th
ập, lưu trữ và chia sẻ tại các ngân hàng dữ liệu thế giới như NCBI (National
Center for Biotechnology Information). Tin sinh học hiện đang được ứng dụng
ph
ổ biến trong sinh học phân tử, y-dược học, nông nghiệp, công nghệ thực phẩm,
môi trường và kiểm soát bệnh.
Hi
ện nay, tin-sinh học đang được ứng dụng rộng trong việc phát hiện và
ki
ểm soát bệnh. Một trong các ứng dụng cụ thể là kiểm soát bệnh cúm, với các
d
ịch bệnh đang lây lan như cúm gia cầm H5N1, cúm H1N1. Để góp phần vào việc
cung c
ấp thông tin, cũng như các công cụ phân tích cho việc kiểm soát bệnh cúm ở
Việt Nam, đề tài tập trung vào những mục tiêu chính sau: (1) cung cấp dữ liệu về
cúm trên thế giới và Việt Nam, (2) cung cấp các công cụ phân tích cơ bản như tìm
ki
ếm, sắp hàng đa chuỗi, xây dựng cây tiến hóa, (3) cung cấp dữ liệu về virut cúm

ật. Các nucleotide trong gene sẽ
kết hợp với nhau để tổng hợp ra protein. Cụ
thể là, một bộ ba nucleotide liên tiếp sẽ tạo
ra 1 axit amin. Có 20 lo
ại axit amin khác
nhau (Brown, 2002) là Phe (Phenylalanine),
Leu (Leucine), Ser (Serine), Tyr (Tyrosine),
Cys (Cysteine), Trp (Tryptophan), Pro (Pro-
line), His (Histidine), Gln (Glutamine), Arg
(Arginine), Ile (Isoleucine), Thr (Threonine), Asn (Asparagine), Lys (Lysine), Val
(Valine), Ala (Alanine), Asp (Aspartic Acid), Glu (Glutamic Acid), Gly (Glycine).
Hình 3 mô t
ả sự kết hợp của các ADN để tạo ra các axit amin. Từ các axit amin
này t
ạo nên các protein bằng cách liên kết với nhau. Sự sắp xếp khác nhau và số
lượ
ng khác nhau của các axit amin tạo thành vô số các protein khác nhau.
Nghiên cứu sự phát triển của virut cúm
5
ARN (Ribonucleic acid) cũng tương
tự như ADN nhưng trong thành phần cơ
bản của nó thì T được thay bằng U (Uracil).
2. Giới thiệu về tin-sinh học
Trong phần này chúng tôi sẽ trình bày một
số bài toán cơ bản trong tin
-sinh học như 1.
Sắp hàng đa chuỗi, 2. Cây tiến hóa.
2.1. Sắp hàng đa chuỗi
Trong quá trình tiến hóa của các loài sinh vật, các chuỗi ADN bị biến đổi do 3
phép biến đổi chính là (Brown, 2002).

sau
ở bảng 3 (Waterman, 2000; Higgins, 2003).
Nghiên cứu sự phát triển của virut cúm
7
Hiện tại có một số phần mềm sắp hàng đa chuỗi được sử dụng rộng rãi là
MUSCLE (Edgar, R.C., 2004), CLUSTALAW (Thompson et al., 1994) hoặc T-
COFFEE (Notredame et al., 2000).
Sắp hàng đa chuỗi tạo ra tệp kết quả là đầu vào
để cho ta tìm ra cây tiến hóa giữa các loài
. Cây tiến hóa chính là biểu diễn trực
quan của mối quan hệ giữa các loài
.
2.2. Cây tiến hóa
Cây tiến hóa là biểu diễn mối quan hệ tiến hóa giữa các loài sinh vật một cách trực
quan dưới dạng cây
. Dựa vào cây tiến hóa người ta có thể xác định được loài nào
có quan h
ệ nguồn gốc với loài nào.
Trong nghiên c
ứu về virut
cúm, thông qua cây ti
ến hóa người
ta xác định được loài virut nào có
quan h
ệ tiến hóa từ loài virut nào,
tức là xác định được sự lây lan virut
t
ừ nơi này qua nơi khác thông qua
quan hệ nguồn gốc giữa chúng. Từ
đó, người ta đề

qua ranh gi
ới về loài.
Virut cúm tên khoa h
ọc là influenza virus, thường được gọi là cúm (flu), là
tác nhân gây b
ệnh truyền nhiễm từ chim và động vật có vú, nó là virut ARN thuộc
h
ọ Orthomyxoviridae (Voyles, 2002). Dưới đây ta sẽ tìm hiểu các loài virut chính
thường gặp nhất
.
2. Các loại virut cúm
Virut cúm là virut ARN của họ Orthomyxoviridae (Voyles, 2002), gồm có 3 loại
chính
cúm A, cúm B, cúm C (CDC).
Cúm A là lo
ại virut cúm phổ biến thường gặp trong các trận dịch (hầu hết các
tr
ận dịch xảy ra đều là cúm A như hình 5). Cúm A có 15 tuýp từ H1 đến H15
(CDC)
. Cho đến nay tất cả các tuýp virut cúm được biết đều đã được tìm thấy ở
các loài chim di cư và chim sống gần nước (xem ở hình 5). Chúng có thể xâm
nh
ập mà không gây triệu chứng gì trong đường ruột, dạ dày của vật chủ.
Nghiên cứu sự phát triển của virut cúm
9
Cúm B là một loại virut cúm
thường gây bệnh ở người, thường
gây b
ệnh nhẹ và xảy ra ít hơn so
với cúm A. Người ta mới chỉ phát

ủa cúm A và B mã hóa
11 lo
ại protein là hemagglutinin (HA), neuraminidase (NA), nucleoprotein (NP),
M1, M2, NS1, NS2 (NEP), PA, PB1, PB1-F2 và PB2. Còn genome c
ủa cúm C
Nghiên cứu sự phát triển của virut cúm
10
mã hóa 9 loại protein PB1, PB2, P3, HE, NP, M1, CM2, NS1, NS2 (NCBI, Gen-
Bank).
Hai protein quan trọng của virut cúm là HA và NA.
Virut cúm có 2 protein l
ớn HA và NA (nhưng đơn giản) hầu như quy định
tính độ
c hại của virut. HA là đoạn liên kết của virut tới tế bào vật thể bị lây sang,
trong khi NA là bao g
ồm thay đổi của virut mới sinh ra từ những tế bào bị nhiễm
b
ằng cách chia tách phân tử này. Vì thế, những protein được sinh ra từ biến đổi
này có tính kháng thu
ốc. Do đó, chúng được gọi là những gen kháng (antigen).
Cúm A được phân loại dựa vào kiểu trên kháng thể tương ứng HA và NA, ví dụ:
H5N1.
Coding region c
ủa một gene là một phần của ADN hoặc ARN mà nó làm
nhi
ệm vụ sao chép phiên mã sang ARN khác, giống như ARN thông tin hoặc một
ARN không mã hóa
(cho trường hợp chuyển ARN hoặc một ribosom ARN). Một
đoạn mang phiên mã có thể dùng để giải mã protein. Đối với đoạn này thì nó
không ch

ủ trung gian như lợn, gà,…
Khi
ở trong vật thể trung gian
này thì virut t
ừ người và virut
cúm c
ủa một loài khác sẽ kết
h
ợp với nhau bằng cách trao đổi
các thành ph
ần trong tế bào của
chúng để tạo nên loại virut cúm
m
ới có khả năng gây bệnh ở
ngườ
i. Có hai quá trình lây lan
c
ủa virut cúm là drift và shift.
Chi ti
ết về hai quá trình lây lan
này có th
ể tham khảo từ trung
tâm ngăn chặn và kiểm soát dịch bệnh CDC “ />info/flu-viruses.html”.
Nghiên cứu sự phát triển của virut cúm
13
Chương III. Ngân hàng gene virut cúm
1. Giới thiệu tổng quan
Luận án này nghiên cứu về sự phát triển của virut cúm. Công việc của luận án là
xây d
ựng một ngân hàng gene virut cúm cho tất cả các nước trên thế giới và chi

cây ti
ến hóa.
- Xây d
ựng bản đồ phân tán của virut cúm.
- Xây d
ựng biểu đồ thống kê virut cúm.
Nghiên cứu sự phát triển của virut cúm
14
Dưới đây sẽ đi vào trình bày cách xây dựng ngân hàng gen virut cúm như thế nào.
2.1. Quá trình xây dựng ngân hàng gene
Mô hình hoạt động của ngân hàng gen xây dựng như hình 7 bên dưới.
Việc đầu tiên và hết sức quan trọng cho việc xây dựng ngân hàng gene virut cúm
cho Việt Nam là thu thập dữ liệu và thông tin chi tiết các gene của Việt Nam.
Dưới đây là quá trình thu thập này.
Nghiên cứu sự phát triển của virut cúm
15
2.1.1. Quá trình thu thập dữ liệu chi tiết cho Việt Nam
Quá trình thu thập dữ liệu chi tiết cho Việt Nam là quá trình đầu tiên và quan trọng
nhất trong xây dựng ngân hàng gen
e virut cúm cho Việt Nam. Trong khi cập nhật
d
ữ liệu trực tiếp từ NCBI thông qua việc lấy các tệp tin ‘genomeset.dat’, ‘influen-
za.dat’, ‘influenza_aa.dat’, ‘influenza_na.dat’, ‘influenza.faa’, ‘influenza.fna’, ‘in-
fluenza.cds’ chia s
ẻ từ địa chỉ ftp:// ftp.ncbi.nih.gov/genomes/INFLUENZA/. Các
thông tin nh
ận được ở trên trong các tệp tin sẽ được tách ra để cho vào cơ sở dữ
liệu được xây dựng ở bên dưới. Trong các tệp tin này thông tin rõ ràng chuỗi nào ở
tỉnh thành/vùng nào của Việt Nam là rất ít. Vì thế, kết hợp với các tài liệu đáng tin
cậy từ các thông tin tìm kiếm trên các bài báo của các tác giả nghiên cứu virut cúm

Chu
ẩn hóa dữ liệu chi tiết về Việt Nam được cho ở bảng 6.
Sau khi đã có thông tin chi tiết về Việt Nam chúng ta bắt tay vào xây dựng
cơ sở dữ liệu lưu trữ các gene đó
.
2.1.2. Xây dựng cơ sở dữ liệu
Xây dựng cơ sở dữ liệu là
phần tiếp theo sau khi đã
có thông tin chi tiết hầu
hết các gene về Việt Nam
.
Trước hết chúng ta
xây dựng chương trình tự
động cập nhật thông tin từ
NCBI về để xây dựng cơ
sở dữ liệ
u. Để có thể cập
nh
ật dữ liệu người dùng
ph
ải đăng nhập vào hệ
thống để quản lý cập nhật dữ liệu. Từ trang chủ, người dùng chọn tab “Login” để
vào trang đăng nhập như h
ình 9 ở bên. Tên người dùng và mật khẩu của người
dùng được lưu trữ trong cơ sở dữ liệu “users” ở bảng “information” với hai trường
là “user” và “pass”. N
ếu người dùng có thông tin ở trong bảng “information” này
thì s
ẽ được phép quản lý cập nhật cơ sở dữ liệu sau khi đăng nhập thành công như
hình 10.

18
Tệp influenza.cds chứa thông tin về gb(genbank), accession, length, name, seg-
ment, sequence (
như bảng 8).
Tệp influenza.dat chứa thông tin về accession nucleotide (ANuc), accession pro-
tein (APro) (
như bảng 9 bên dưới).
Tệp influenza.faa là tệp tin fasta chứa số accession của nucleotide của GenBank,
s
ố accession của protein của GenBank , chỉ ra là protein coding region, hai trường
ti
ếp theo (nếu có) là lặp lại nếu một chuỗi của nucleotide mã hóa nhiều hơn một
protein và sau cùng là chu
ỗi (bảng 10).
Tệp influenza.fna là tệp tin fasta chứa thông tin về gi|genbank identify|gb| acces-
sion|name và s
au đó là chuỗi (như bảng 11).
Nghiên cứu sự phát triển của virut cúm
19
Tệp influenza_aa.dat là tệp tin chứa thông tin về protein như accession, host, seg-
ment, subtype, country, year, length, name, gender, full length of genomeset (
như
bảng
12).
Tệp influenza_na.dat là tệp chứa thông tin về nucleotide như accession, host, seg-
ment, subtype, country, year, length, name, gender, full length of genomeset (
như
bảng
13).
Cập nhập thêm thông tin chi tiết về Việt Nam từ tệp “listTown.txt” được xây dựng

ng thêm link trong quá trình truy xuất của người dùng để có thể sử dụng khi
Nghiên cứu sự phát triển của virut cúm
21
dùng offline cũng như online. Những file này được chứa tương ứng trong thư mục

GENBANK” và “FASTA”.
Sau khi xây d
ựng xong dữ liệu thì việc đầu tiên ngân hàng gen cung cấp
cho người dùng là tìm kiếm chuỗi.
2.2. Tìm kiếm các chuỗi
Người dùng có thể tìm kiếm
các chu
ỗi về protein, nucleo-
tide, coding region, genome
(
ở tab Genomes set) bằng
cách ch
ọn nút radio tương

ng với phần đó.
Trong phần tìm kiếm
v
ề kiểu virut cúm người
dùng có th
ể chọn kiểu cúm
A, B, C hay b
ất kỳ kiểu cúm
A, B, C nào (any)
trong trường “Virus Species”. Mục “Host” cho phép chọn cúm
gia c

ụ Vietnam/2003).
2.
Tìm kiếm theo accession
được cho ở trường “Search by ac-
cession
” cho phép chúng ta tìm
ki
ếm theo “accession” (accession là
key trong cơ sở dữ liệu của ngân
hàng gene được quy định chung
cho các ngân hàng gene trên th
ế
giới).
3.
Tìm kiếm với các lựa chọn
cơ bản là phần dưới cùng “Get se-
quences
” cho phép tìm kiếm các
chu
ỗi với các điều kiện đã chọn ở
đầ
u tiên, không bao hàm phần
“search by string”.
K
ết quả chúng ta nhận được
khi tìm ki
ếm như hình 12 bên.
Ph
ần tìm kiếm genomset cũng
tìm kiếm giống như phần tìm kiếm

sion. Hình
ảnh minh họa tải tệp tin
dạng FASTA khi người dùng nhấp
vào l
ựa chọn tải chuỗi như hình 15
bên.
D
ạng tệp tin FASTA tải về có định dạng như bảng 18 dưới đây.
Tệp tin chứa các chuỗi tải về chính là đầu vào cho phần “sắp hàng đa chuỗi” để
tìm quan hệ nguồn gốc giữa các loài sinh vật
(xem thêm phần 2.1.Sắp hàng đa
chuỗi
, chương I ở trên).
2.4. Tiện ích sắp hàng đa chuỗi
Phần mềm xây dựng sử dụng phần mềm MUSCLE (Multiple squence comparison
by
log epectation) (Edgar, 2004) version 3.6 tải tại địa chỉ: ve-
Nghiên cứu sự phát triển của virut cúm
24
5.com/muscle để thực
hi
ện sắp hàng đa chuỗi
các chuỗi tìm kiếm được
của người dùng. Phần
m
ềm cho phép người
dùng trực tuyến sử dụng
sắp hàng đa chuỗi tối đa
cho 1000 chuỗi. Nếu vượt
quá con s

pháp phòng và ch
ống lây lan dịch
cúm. Hình 17 là ví d
ụ về một cây tiến hóa.

Trích đoạn Biểu đồ thống kê về virut cúm
Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status