Lời cảm ơn
Hoàn thành đề tài luận văn này, tôi đã nhận được sự giúp đỡ rất nhiệt tình
của các Thầy, Cô, gia đình, của các bạn bè và đồng nghiệp. Tôi xin gởi lời
cảm ơn chân thành đến với những người đã luôn sẳn lòng chia sẽ thời gian,
công việc và kiến thức để giúp tôi hoàn thành luận văn một cách tốt nhất.
Tôi xin chân thành bày tỏ lời cảm ơn đến Tiến sĩ Trần Văn Hoài, người Thầy
đã hết sức nhiệt tình hướng dẫn tôi thực hiện luận văn này. Nguyễn Gia Khoa
MỤC LỤC
Phần Mở Đầu 1
1. Lý do thực hiện đề tài 1
2. Mục tiêu đề tài 6
3. Nội dung thực hiện 6
4. Ý nghĩa khoa học và thực tiễn của đề tài 6
Chương 1: Cơ Sở Dữ Liệu Virus Cúm 8
1.1 Khái quát 8
1.2 Xây dựng cở sở dữ liệu virus cúm 10
1.3 Kết luận 12
Chương 2: Xây Dựng Hệ Thống Cập Nhật 13
Tự Động Cơ Sở Dữ Liệu Virus Cúm 13
2.1 Những thách thức khi muốn cập nhật dữ liệu tự động 13
2.2 Xây dựng hệ thống cập nhật tự động cơ sở dữ liệu virus cúm 13
2.2.1 Mô hình hoạt động 13
2.2.2 Mô tả một số khối chức năng chính của hệ thống 15
2.2.2.1 Phần tương tác với người quản trị 15
2.2.2.2 Quyết định cập nhật dữ liệu 15
2.2.2.3 Lấy dữ liệu tự động 16
2.2.2.4 Phân tích dữ liệu mới cần lấy về 16
5.2 Hướng phát triển 58
Tài Liệu Tham Khảo
PHỤ LỤC
CƠ SỞ DỮ LIỆU VIRUS CÚM Danh Mục Các Từ Viết Tắt
A Adenine
API Application Programming Interface
BLAST Basic Local Alignment Search Tool
C Cytosine
cDNA Complementary DNA
CSDL Cơ sở dữ liệu
DDBJ DNA Data Bank of Japan
DNA Deoxyribonucleic acid
EMBL European Molecular Bioinformatic Laboratory
IVDBVN Influenza Virus DataBase Vietnam
FASTA Fast Aligment Search Tool
G Guanine
GC Guanine Cytosine
INSDC International Nucleotide Sequence Database Collaboration
mRNA messager RNA
NCBI National Center for Biotechnology Information
RNA Ribonucleic acid
rRNA robosomal RNA
T Thymine, Thymidine
tRNA transfer RNA
U Uracil
Danh Mục Các Hình
Bảng 3.1: So sánh và đánh giá với các hệ thống thông tin virus cúm 23
Bảng 3.2: Các loại gene của virus cúm 36
Bảng 4.1: Danh sách các luật của virus cúm các tỉnh thành Việt Nam 49
Bảng 4.2: Danh sách các luật của virus cúm Việt Nam 52
Bảng 4.3: Danh sách các luật (tính chất) đặc trưng của virus cúm Việt Nam 56
1
Phần Mở Đầu
Tên đề tài:
NGHIÊN CỨU MỘT SỐ VẤN ĐỀ LIÊN QUAN ĐẾN
CƠ SỞ DỮ LIỆU VIRUS CÚM Ở VIỆT NAM
1. Lý do thực hiện đề tài
Virus cúm (influenza) - là nguyên nhân gây ra bệnh cúm ở người và động vật.
Virus cúm được chia thành ba loại chính là cúm A, cúm B, và cúm C. Cúm A bao
gồm nhiều chủng (subtype) khác nhau (ví dụ H1N1, H2N2, H5N1,…) và là virus
cúm phổ biến và nguy hiểm nhất. Với khả năng biến đổi và lan truyền nhanh từ
động vật sang động vật, từ động vật sang người, và đặc biệt là từ người sang
người, virus cúm là một trong những loài virus nguy hiểm nhất cho nền kinh tế
cũng như sức khỏe con người trên toàn thế giới từ trước đến nay.
Hiện nay, một lượng lớn dữ liệu sinh học phân tử (các trình tự DNA/protein) của
virus cúm đã được giải mã và lưu trữ ở các cơ sở dữ liệu dùng chung của thế giới
như Trung tâm Thông tin về công nghệ sinh học Hoa Kỳ - NCBI (National Center
for Biotechnology Information) [4]. Theo thống kê ngày 22 tháng 03 năm 2011,
NCBI hiện đang lưu giữ hơn 150.000 trình tự DNA/protein của virus cúm được
thu thập và giải mã từ nhiều quốc gia trên thế giới trong suốt thời gian qua (Hình
1).
2
Hình 1: Số lượng trình tự virus cúm được lưu trữ tại NCBI
Do tính chất đặc biệt nguy hiểm của virus cúm, hàng loạt các nghiên cứu về virus cúm
đã được tiến hành ở Việt Nam. Sự phát triển mạnh mẽ của công nghệ sinh học ở Việt
Nam đã giúp chúng ta đã tiến hành nhiều nghiên cứu về virus cúm ở mức độ sinh học
phân tử (molecular biology). Việc giải mã các trình tự DNA/protein hay thậm chí cả hệ
gen của virus đã được tiến hành trong thời gian qua. Hiện tại có hơn 2.951 trình tự
DNA/protein của virus cúm (chủ yếu là cúm gia cầm H5N1) đã được giải mã trên
nhiều tỉnh thành ở Việt Nam từ năm 2001 đến nay.
Cục thú y trung ương đã tiến hành nhiều nghiên cứu về virus cúm, đặc biệt là cúm gia
cầm H5N1. Tiêu biểu là nhóm nghiên cứu của TS. Nguyễn Tiến Dũng đã tiến hành giải
mã toàn bộ hệ gen của 33 virus cúm ở nhiều tỉnh thành khác nhau từ 10/2005 đến
5/2007: Đồng tháp, Sóc Trăng, An Giang, Hà Tây, Vĩnh Long, Hà Nội,… Nhóm đã
5
đưa ra được mối quan hệ giữa các virus cúm gia cầm H5N1 của các tỉnh thành phố
khác nhau của Việt Nam [7].
Nhóm nghiên cứu của TS. Lê Sỹ Vinh ở Trường Đại học Công nghệ, thuộc Đại học
Quốc gia Hà Nội tiến hành phát triển các phương pháp và công cụ tin sinh học để phân
tích dữ liệu virus cúm thu được. Nhóm đã đưa ra được mô hình biến đổi amino acid
của virus cúm, giúp nâng cao độ chính xác khi phân tích các trình tự protein của virus
cúm so với các mô hình trước đó [6].
Nhóm nghiên cứu của PGS.TS Trần Văn Lăng ở Phân viện Công nghệ thông tin tại
TPHCM trước đây, nay là Viện Cơ học và Tin học ứng dụng (Institute of Mechanics
and Informatics – IAMI) thuộc Viện Khoa học và Công nghệ Việt Nam đã nhiều năm
nghiên cứu, xây dựng các công cụ tin sinh phục vụ cho việc nghiên cứu các trình tự
DNA/protein làm nền tảng cho việc nghiên cứu vi khuẩn và virus. Một số phần mềm
tiêu biểu là sắp hàng đa trình tự, vẽ bản đồ plasmid, thiết kế phần mềm mô phỏng cắt
enzym, xây dựng cây phân loài,…[2][3]
Mặc dù có nhiều nghiên cứu về virus cúm ở Việt Nam, các nghiên cứu chủ yếu tập
trung vào việc giải mã các trình tự DNA và protein, qua đó tiến hành một số phân tích
để tìm hiểu mối quan hệ giữa chúng.
Tuy nhiên, hiện nay chúng ta còn thiếu một hệ thống thông tin giúp cho các nhà quản
của virus cúm ở nhiều tỉnh thành trong suốt gần 10 năm qua. Theo thống kê vào ngày
22 tháng 03 năm 2011 trên hệ thống của NCBI, đã có hơn 2.951 trình tự DNA/protein
của virus cúm (chủ yếu là cúm gia cầm H5N1) đã được giải mã trên nhiều tỉnh thành ở
Việt Nam từ năm 2001 đến nay.
Thông thường, các trình tự DNA/protein được lưu trữ ở cơ sở dữ liệu quốc tế NCBI để
chia sẻ với mọi người. Tuy nhiên, đa số dữ liệu lưu trữ ở NCBI, IVDB không chứa
7
thông tin chi tiết đến các tỉnh thành. Chính vì vậy, chúng ta không có đầy đủ thông tin
để biểu diễn quá trình lây nhiễm, cũng như phân tích virus cúm ở Việt Nam một cách
chi tiết. Việc xây dựng một hệ thống có khả năng tự động cập nhật dữ liệu virus cúm từ
một số ngân hàng dữ liệu sinh học dùng chung của thế giới, đồng thời cung cấp thông
tin chi tiết dữ liệu virus cúm ở Việt Nam cho đến mức độ tỉnh thành là hết sức cần
thiết.
Với dữ liệu chi tiết đến các tỉnh thành, chúng ta có thể áp dụng công nghệ “google
map” để hiển thị và theo dõi quá trình lan truyền của virus cúm. Qua đó giúp các nhà
quản lý và người dân thấy được phân bố của virus cúm trên các tỉnh thành dựa vào dữ
liệu sinh học phân tử được giải mã.
Mặc dù nhiều nghiên cứu về virus cúm đã được tiến hành ở Việt Nam, các nghiên cứu
chủ yếu tập trung vào việc giải mã các trình tự DNA và protein, qua đó tiến hành một
số phân tích để tìm hiểu mối quan hệ giữa chúng.
Tuy nhiên, hiện nay chúng ta còn thiếu một hệ thống tin giúp các nhà quản lý (bộ,
ngành y tế); các nhà chuyên môn; và người dân có được thông tin, dữ liệu, cũng như
những công cụ phân tích (thống kê) về virus cúm trên thế giới, đặc biệt chi tiết hóa cho
virus cúm ở Việt Nam.
Với dữ liệu được rút trích từ các ngân hàng dữ liệu trên thế giới, chúng ta sử dụng khai
phá dữ liệu để chiết xuất các thông tin hữu ích cho cộng đồng. Việc chiết xuất các
thông tin tiềm ẩn từ CSDL trình tự virus của các quốc gia sẽ giúp cho các nhà nghiên
cứu; các nhà quản lý có những thông tin hữu ích. Với những thông tin này, họ có thể
chủ động đưa ra các dự báo, sự chuẩn bị trong việc ứng phó với dịch cúm.
Ngoài ra, việc xây dựng hệ thống thông tin virus cúm chi tiết hóa đến mức tỉnh thành
source 1 1733
/organism="Influenza A virus (A/Duck/Viet
Nam/367/2005(H5N1))"
/mol_type="viral cRNA"
/strain="A/Duck/Viet Nam/367/2005"
/serotype="H5N1"
/host="duck"
/db_xref="taxon:438170"
/segment="4"
/country="Viet Nam: Tien Giang"
/collection_date="08-May-2005"
/note="passage level allantoic fluid"
gene 7 >1733
/gene="HA"
CDS 7 >1733
/gene="HA"
/codon_start=1
/product="hemagglutinin"
9
/protein_id="ABQ09853.1"
/db_xref="GI:146215498"
/translation="MEKIVLLFAIVSLVKSDQICIGYHANNSTEQVDTIMEKNVTVTH
AQDILEKTHNGKLCDLDGVKPLILRDCSVAGWLLGNPMCDEFINVPEWSYIVEKANPV
NDLCYPGDFNDYEELKHLLSRINHFEKIQIIPKSSWSSHEASLGVSAACPYQGKSSFF
RNVVWLIKKNSTYPTIKRSYNNTNQEDLLVMWGIHHPNDAAEQTKLYQNPTTYISVGT
STLNQRLVPRIATRSKVNGQSGRMEFFWTILKPNDAINFESNGNFIAPEYAYKIVKKG
DSTIMKSELEYGNCNTKCQTPMGAINSSMPFHNIHPLTIGECPKYVKSNRLVLATGLR
NSPQRERRRKKRGLFGAIAGFIEGGWQGMVDGWYGYHHSNEQGSGYAADKESTQKAID
GVTNKVNSIIDKMNTQFEAVGREFNNLERRIENLNKKMEDGFLDVWTYNAELLVLMEN
ERTLDFHDSNVKNLYDKVRLQLRDNAKELGNGCFEFYHKCDNECMESVRNGTYDYPQY
1621 gtggcgagtt ccctagcact ggcaatcatg gtagctggtc tatccttatg gatgtgctcc
1681 aatgggtcgt tacaatgcag aatttgcatt aaatttgtga gttcagatga tag
Một vấn đề đặt ra là làm như thế nào để chúng ta có thể xác định được nguồn gốc xuất
xứ của một trình tự virus cúm. Nghĩa là trình tự này được phân lập ở địa phương nào
trong một Quốc gia. Trong một trình tự, thuộc tính /country là nơi lưu giữ thông tin
về nguồn gốc của trình tự. Chẳng hạn như trình tự trên là /country="Viet
Nam:Tien Giang", cho chúng ta biết là virus này có nguồn gốc ở tỉnh Tiền Giang,
Việt Nam.
10
Bên cạnh đó, một số trình tự không ghi thông tin tỉnh thành ở thuộc tính /country thì
ta phải sử dụng thêm thông tin ở thuộc tính /organism để xác định nguồn gốc trình
tự.
Ví dụ: trình tự có Accession là GU186770 có thông tin sau:
/organism="Influenza A virus (A/duck/Hau Giang/07-12/2007(H5N1))"
/country="Viet Nam"
Với hai thông tin trên, cho ta biết trình tự này có nguồn gốc ở tỉnh Hậu Giang, Việt
Nam.
Các trình tự không thuộc hai trường hợp trên thì ta chỉ căn cứ vào thuộc tính
/country để xác định nguồn gốc xuất xứ của trình tự. Tức là trình tự không chú
thích thông tin nguồn gốc đến mức tỉnh thành phố mà chỉ chú thích đến mức quốc gia.
Những thông tin trên là cơ sở rất quan trọng để ta xây dựng được một CSDL nhằm đáp
ứng được việc lưu trữ nguồn gốc của trình tự cho tất cả các trường hợp. Nghĩa là CSDL
phải lưu trữ được các trình tự có tính địa phương (tỉnh/thành phố) và các trình tự chỉ
xác định được nguồn gốc ở mức quốc gia.
1.2 Xây dựng cở sở dữ liệu virus cúm
Như đã phân tích ở trên, ta cần xây dựng một CSDL đáp ứng các yêu lưu trữ được tất
cả các trường hợp về nguồn gốc xuất xứ của trình tự. Để đáp ứng được các yêu cầu đó,
CSDL của virus cúm đã được xây dựng như hình 1.1. Cơ sở dữ liệu này được thiết kế
theo hướng mở rộng để có thể đáp ứng cho sự phát triển của hệ thống sau này. Hiện tại,
EXPERIMENT
GENE_SYNONYM
CONTINENT
CONTINENT_ID
CONTINENT_NAME
GEN_TYPE
GENE_TYPE
DESCRIPTION_GT
GENECOMPLETE
ACCESSION
LOCUS_ID
KIND_ID
DEFINITION
VERSION
KEYWORDS
ORGANISM
COMMENTION
FEATURES
SOURCE_FEATURE_ID
GENE
CDS_ID
BASE_COUNT
TAX_ID
ORIGIN
DATE_UP
GENBANK_ID
GENVIRUS
VIRAL_ID
GENE_TYPE
LOCATION
SEGMENT
SEX
STRAIN
COLLECTED_BY
COLLECTION_DATE
PUBLISH_DATE
IDENTIFIED_BY
HOST
SEROTYPE
H
N
GENE_TYPE
TYPE
LOCATION_ID
AGE
GENDER
FULL_LENGTH
SUBTYPE_H
H
SUBTYPE_HN
H
N
SUBTYPE_N
N
ViralType
VIRAL_ID
DECRIPTION
GEN_REFERENCE
ACCESSION
REFERENCE_ID
dùng thường sử dụng các công cụ tìm kiếm và lấy trình tự của hệ thống NCBI hoặc
DDBJ. Các hệ thống này cho phép người dùng tìm kiếm và lấy trình tự về khi người
dùng sử dụng các từ khóa tìm kiếm. Kết quả trả về cho người dùng là một danh sách
các trình tự, sau đó người dùng chọn các trình tự cần lấy về, hệ thống sẽ cho phép họ
lấy dữ liệu về. Trong trường hợp số lượng trình tự của một kết quả tìm kiếm là lớn
(hàng ngàn kết quả) thì người sử dụng phải mất rất nhiều thời gian để chọn các trình tự
cần lấy. Mà chúng ta đã biết, số lượng các trình tự virus mới được giải mã và công bố
trên các ngân hàng này là thường xuyên. Cho nên, mỗi lần muốn lấy trình tự mới thì
người sử dụng phải mất khá nhiều thao tác và thời gian.
Vấn đề đặt ra là làm như thế nào mà chúng ta có thể lấy các trình tự mới một cách tự
động. Nghĩa là cần phải xây dựng một hệ thống có khả năng phát hiện các dữ liệu trình
tự mới, rồi sau đó lấy chúng về một cách tự động.
2.2 Xây dựng hệ thống cập nhật tự động cơ sở dữ liệu virus cúm
2.2.1 Mô hình hoạt động
Để thuận lợi cho việc quản lý, phân tích và tự cập nhật cơ sở dữ liệu cần phải thực hiện
kịp thời và thường xuyên nhằm hỗ trợ cho quá trình cập nhật được dễ dàng, đạt hiệu
quả cao và đảm bảo luôn luôn có được dữ liệu virus cúm mới nhất từ các cơ sở dữ liệu
trên thế giới.
Để đạt được những yêu cầu đề ra ở trên, hệ thống tự động cập nhật cơ sở dữ liệu virus
cúm được xây dựng theo mô hình sau (Hình 2.1).
14
Hình 2.1: Mô hình hoạt động của hệ thống quản lý, tự động cập nhật dữ liệu.
Nhận xét:
Các ngân hàng dữ liệu sinh học lớn trên thế giới (NCBI, DDBJ, EMBL, ) thường
được các nhà nghiên cứu sinh học sử dụng và cống bố các dữ liệu nghiên cứu của
mình. Do đó, dữ liệu trong các cơ sở dữ liệu này luôn chứa đựng các thông tin mới.
Thông thường, các dữ liệu mới sẽ được cập nhật và có sự liên thông giữa các hệ thống
Lấy dữ liệu tự
động
Quyết định cập nhật dữ
li
ệuPhân tích cập
nh
ật dữ liệu virus
cúm
CSDL
Ngân hàng d
ữ
liệu thế giới
Tương tác với người
quản trị
6.1 Gửi thông tin quá
trình lấy dữ liệu
15
Hình 2.2: Trao đổi dữ liệu giữa ba ngân hàng DDBJ-NCBI-EMBL, từ đó tạo thành cơ
sở dữ liệu trình tự Nucleotide Quốc tế (International Nucleotide Sequence Database
Collaboration – INSDC)
2.2.2 Mô tả một số khối chức năng chính của hệ thống
nhất từ các ngân hàng trên thế giới của hệ thống sẽ dựa vào tập tin influenza_na.dat
trên hệ thống của NCBI. Tập tin này sẽ được hệ thống NCBI cập nhật thường xuyên
khi có một trình tự virus mới được công bố [4]. Hệ thống có một mô đun làm nhiệm vụ
so sánh dữ liệu hiện có với dữ liệu trên NCBI theo lịch trình đã định trước, khi phát
hiện có dữ liệu mới thì mô đun này sẽ kích hoạt chức năng lấy dữ liệu mới về.
2.2.3 Hoạt động của hệ thống cập nhật
Để hiểu rõ hơn về cách thức hoạt động của hệ thống, chúng ta cần tìm hiểu về thông tin
lưu trữ trên hai hệ thống của NCBI và DDBJ. Đây là hai hệ thống chính mà hệ thống
cập nhật tự động cơ sở dữ liệu virus cúm sẽ kết nối để lấy dữ liệu về.
17
2.2.3.1 Thông tin truy cập trên hệ thống của NCBI
NCBI cung cấp các tập tin cho phép truy cập thông tin tổng quan về các trình tự
Nucleotide, Protein của virus cúm đã được giải mã trên thế giới. Thông tin tại hệ thống
này luôn được cập nhật mới [4]. Khi một trình tự sinh học được công bố thì các ngân
hàng trong hệ thống INSDC sẽ cấp phát cho trình tự đó một mã số truy cập duy nhất,
mã số này được gọi là ACCESSION của trình tự. Với thông tin này, người sử dụng có
thể truy xuất trực tiếp nội dung chi tiết các trình tự đã được các phòng thí nghiệm
nghiên cứu và công bố thông qua mã số truy cập của trình tự.
2.2.3.2 Cơ sở dữ liệu từ NCBI
Hệ thống thông tin virus cúm của NCBI cung cấp đầy đủ các thông tin tổng quan về
các trình tự virus cúm đã được giải mã trên toàn thế giới.
Tại địa chỉ truy cập sẽ cung
cấp cho người sử dụng các tập tin sau:
genomeset.dat – Tập tin chứa dữ liệu tổng quan về gen
influenza_na.dat – Tập tin chứa dữ liệu tổng quan về nucleotide
influenza_aa.dat – Tập tin chứa dữ liệu tổng quan về protein
Để hiểu rõ hơn về nội dung các tập tin, ta cần xem phần mô tả các thuộc tính trong
(H5N1))
yes
EF566199 Avian 4 H5N1 Viet Nam 2005/
01/24
1709 Influenza A virus
(A/Chicken/Viet
Nam/NCVD10/2005
(H5N1))
yes
EF566213 Avian 6 H5N1 Viet Nam 2005 1330 Influenza A virus
(A/Chicken/Viet
Nam/NCVD10/2005
(H5N1))
yes
EF566198 Avian 4 H5N1 Viet Nam 2005 1709 Influenza A virus
(A/Chicken/Viet
Nam/NCVD12/2005
(H5N1))
yes
EF566214 Avian 6 H5N1 Viet Nam 2005 1331 Influenza A virus
(A/Chicken/Viet
Nam/NCVD12/2005
(H5N1))
yes
EU124169 Avian 4 H5N1 Viet Nam 2005/
08/10
1729 Influenza A virus
(A/Chicken/Vietnam
/Binh
Duong477/2005(H5
ACCESSION GU186747