1
XÂY DỰNG ỨNG DỤNG HỖ TRỢ PHÁT TRIỂN SINH TIN HỌC
Trần Văn Lăng
1
Phân viện Công nghệ thông tin tại TP Hồ Chí Minh Tóm tắt: Việc xây dựng các ứng dụng hỗ trợ nghiên cứu và huấn luyện về sinh tin học là
vô cùng cần thiết, qua đó giúp chúng ta nhanh chóng hòa nhập với cộng đồng thế giới,
mở ra cơ hội hợp tác với các nước trong khu vực. Bài báo trình bày một số kết quả có
được trong những năm vừa qua của nhóm nhiên cứu về Sinh tin học của Phân viện Công
nghệ thông tin tại TP.Hồ Chí Minh. Bài báo gồm ba phần, phần thứ nhất trình bày một số
bài toán cơ bản về Sinh tin hoc như: thiết kế mồi, tìm các enzym cắt, vẽ cây sinh loài,
chẩn đoán cấu trúc protein,.... Phần thứ hai trình bày những kết quả hiện thực các bài
toán trên vào trong ứng dụng Sinh tin hoc có tên gọi HiBio của nhóm và các nghiên cứu
đang tập trung phát triển khác. Phần cuối cùng nêu một số kết luận, so sánh kết quả đạt
được so với một số phần mềm khác cùng lĩnh vực. Đồng thời nêu lên một số kiến nghị.
1. Mở đầu
Trong vài thập kỷ qua, sinh học phân tử đã có nhiều bước phát triển mạnh mẽ, một loạt các
công cụ ứng dụng sinh học ra đời góp phần thúc đẩy quá trình giải mã một số lượng lớn trình
tự bộ gene ở nhiều loài sinh vật. Cho đến nay, nhiều bộ gene vi khuẩn đã được giải mã gần
như hoàn toàn. Dự án giải trình tự tất cả 24 nhiễm sắc thể của bộ gene người cũng đã hoàn
thành từ cuối năm 2000. Có thể nói chưa bao giờ thông tin sinh hoc trở nên phong phú và đa
dạng như hiện nay. Để ứng phó với khối lượng thông tin đồ sộ như vậy, công nghệ thông tin
đã được ứng dụng vào sinh học một cách khá triệt để. Từ đó, một ngành khoa học hoàn toàn
mới ra đời, đó là Sinh tin hoc (Bioinformatics).
Thực chất Sinh tin hoc gắn liền với nhiều ngành khoa học khác nhau, nghiên cứu trên nhiều
lĩnh vực khác nhau. Nhằm thu thập, lưu trữ và phân tích các dữ liệu sinh học. Khi đó, vai trò
Biotechnology Information) của Mỹ [9].
EMBL - Phòng thí nghiệm Sinh học phân tử (European Molecular Biology
Laboratory) của Châu Âu [10], hoặc một phần của nó là EBI - Viện Sinh tin hoc
Châu Âu đặt ở Anh (European Bioinformatics Institute [11]).
DDBJ - Ngân hàng dữ liệu DNA, Nhật Bản (DNA Data Bank of Japan [12]).
Về phần mềm, hiện nay có khá nhiều phần mềm giúp xử lý các trình tự sinh học DNA và
Protein như: Phần mềm FastA, Blast, Cn3D, Phylip, PepTool, GeneTool, ClustalX, BioEdit,
SeqVISTA, SAGA, Primer3, PC-Genes, Discovery Studio Gene, DNASIS, DNAMAN,
VECTOR NTI, AnnHyb, DNA Club, Plasmid Processor, Oligos, v.v... Những phần mềm này
có một số chức năng:
Chuyển mã trình tự DNA sang RNA.
Hiển thị cặp trình tự chính và trình tự bắt cặp.
Tìm vị trí của một enzyme giới hạn trong một trình tự.
Vẽ bản đồ plasmid, hỗ trợ thiết kế phân tử
Tìm kiếm các đoạn mồi (primer)
So sánh mức độ tương đồng (similarity) giữa các trình tự
Vẽ cây biểu diễn mức độ tương đồng giữa các trình tự (biểu đồ dendogram)
Tìm kiếm các trình tự, các đoạn lặp (motif), các enzyme trong cơ sở dữ liệu.
Đối với Việt Nam chúng ta, lĩnh vực này cũng chỉ xuất hiện ở các viện nghiên cứu, trong một
vài trường đại học lớn, và cũng chỉ dừng lại ở trong giới nghiên cứu về Công nghệ sinh học.
Hoạt động của Khoa Công nghệ Sinh học, trường Đại học Khoa học tự nhiên TP. Hồ Chí
Minh; Viện Công nghệ sinh học, Viện Khoa học và Công nghệ Việt Nam; Trường Đại học Y
Dược TP. Hồ Chí Minh là những minh chứng.
2. Phương pháp và kết quả
2.1 Xử lý về gene và protein
Lĩnh vực Sinh tin hoc vô cùng phát triển trên thế giới. Tuy nhiên ở Việt Nam, sự tham gia của
những người làm Tin học vô cùng hiếm hoi, việc tạo ra các sản phẩm phân mềm để đưa vào
áp dụng không thấy có. Phân
viện Công nghệ thông tin tại
TP. Hồ Chí Minh, trong những
Phần mềm HiBio là tập hợp gồm các module chương trình độc lập, trong đó mỗi module thực
hiện một chức năng riêng như: module nhập và soạn thảo dữ liệu trình tự, module so sánh bắt
cặp trình tự, module tạo vector cắt, ...
2.1.1 Chuyển đổi trình tự
DNA động thực vật được cấu thành
chủ yếu từ 4 base cơ bản A, T, G, C, có
khả năng tạo nên 64 codon (mỗi codon
gồm 3 base), được gói gọn thành 20
amino acid. Các amino acid này lại góp
phần hình thành nên các protein đặc
trưng. Tuy nhiên, các sinh vật không
giống nhau nên sự hình thành amino
acid cũng không giống nhau. Có những
loài với codon này thì tạo nên amino
acid này nhưng đối với loài khác thì lại
là một acid amin khác. Chẳng hạn, bộ
ba (codon) “CTT” ở động vật có xương
sống hình thành nên Leucine thì ở nấm
men là Threonine. Do đó, cũng có
tương ứng nhiều bảng dịch mã khác nhau cho từng loài, từng trường hợp khác nhau. Trong hệ
thống HiBio hiện có 17 bảng dịch mã từ DNA sang Protein.
Thuật toán Six Frame, như tên gọi của nó, dựa trên nguyên lý hợp thành bộ 3 chuyển mã để
đưa ra 6 khả năng phân tích có thể. Theo đó, chúng ta có 3 frame theo chiều thuận và 3 frame
còn lại theo chiều nghịch. Chỉ 1 trong 6 frame này được xem là sản phẩm dịch mã đúng.
2.1.2 Thiết kế mồi
4
Thông thường, việc triển khai các
ứng dụng sinh học phân tử thường
vấp phải trở ngại về số lượng vật chất
tblastx: so sánh biến đổi six-frame của một chuỗi nucleotid với biến đổi six-frame
của các chuỗi trong cơ sở dữ
liệu nucleotid
Mục đích chính của việc tìm kiếm trên
cơ sở dữ liệu là tìm các gene có trong
cơ sở dữ liệu có chứa một chuỗi trình
tự cho trước. Thông thường cức năng
này được hiện thực thông qua ứng
dụng Web.
Dữ liệu trong trường hợp này là một
trình tự DNA. Từ đó, HiBio sẽ tìm
kiếm những gene đã biết có thông tin
giống hoặc tương tự với trình tự đưa
vào. Ngoài thông số chính là trình tự
5
DNA, chương trình còn nhận thêm các thông số như E (expect value), đây là giá trị mong đợi
khi so sánh; W (word) là số nucleotid trong một từ dùng đề so sánh.
2.1.4 So sánh trình tự
Khi so sánh trình tự sinh học, có hai vấn đề đặt ra, đó là việc so sánh đối xứng toàn cục và so
sánh đối xứng cục bộ. So sánh đối xứng toàn cục là quá trình so sánh đối xứng cho toàn bộ
các phần tử của hai trình tự. Mỗi một phần tử của một trình tự sẽ được so sánh đối xứng với
một phần tử của trình tự kia hoặc ứng với một ký tự trống (gap). Trong HiBioClustalX việc so
sánh đối xứng đa trình tự dựa trên cơ sở sử dụng giải thuật Needleman - Wunsch, giải thuật
này có những đặc điểm sau [1]:
Tìm so sánh đối xứng toàn cục tốt nhất giữa hai trình tự bất kỳ. Số phần tử so khớp
giữa hai trình tự lớn nhất và cho phép chèn ký tự trống.
Tất cả các phần tử của hai trình tự sẽ được sử dụng để tạo ma trận hai chiều. Mọi khả
năng so sánh đối xứng đều có thể biểu diễn thông qua ma trận này
Khác với giải thuật so sánh đối xứng toàn cục, giải thuật so sánh đối xứng cục bộ chỉ thực
chính xác nhằm phục vụ