Xây dựng cơ sở dữ liệu hai gene HSP-70 và Reverse transcripte-rnaseH ở một số loài virus thực vật - Pdf 96

TRƢỜNG ĐẠI HỌC NÔNG LÂM TP. HỒ CHÍ MINH
BỘ MÔN CÔNG NGHỆ SINH HỌC
***000***
KHÓA LUẬN TỐT NGHIỆP

XÂY DỰNG CƠ SỞ DỮ LIỆU HAI GENE HSP-70
và REVERSE TRANSCRIPTE-RNaseH Ở MỘT SỐ
LOÀI VIRUS THỰC VẬT
Nghành học: CÔNG NGHỆ SINH HỌC
Niên khóa: 2001-2005
Sinh viên thực hiện: NGUYỄN VĂN THÁI

Cử Nhân. LƢU PHÚC LỢI

Thành phố Hồ Chí Minh
Tháng 8/2005

Sinh viên thực hiện:
NGUYỄN VĂN THÁI

iii
LỜI CẢM TẠ

Thành kính ghi ơn công lao dạy dỗ, tận tụy suốt đời vì
con của cha mẹ.

Xin bày tỏ lòng biết ơn sâu sắc đến:
TS. Trần Thị Dung
Cử Nhân. Lưu Phúc Lợi
Đã tận tụy hướng dẫn, truyền đạt kiến thức cho tôi
hoàn thành khóa luận này, đặc biệt là thầy Lưu Phúc Lợi đã
trang bị cho tôi những kiến thức quí báu và là người đầu
tiên đưa tôi đến với Bioinformatics.

Xin chân thành cảm ơn đến quí thầy cô bộ môn Công Nghệ
Sinh Học, khoa Công Nghệ Thông Tin. Đã nhiệt tình giúp đỡ,

Nông Lâm TP. Hồ Chí Minh. Trong khoảng thời gian từ tháng 3/2005 đến 8/2005. Với
sự phát triển của kỹ thuật giải trình tự, một số lƣợng lớn các gene hsp-70 và RT-
RNaseH đã đƣợc giải trình tự. Những trình tự gene này đƣợc lƣu trữ trong CSDL sinh
học lớn nhƣ NCBI, EMBL, DDBj,…Vì các CSDL này quá lớn và chứa rất nhiều thông
tin khác nhau, không tập trung thành từng gene cụ thể nên khó có thể thực hiện việc
truy xuất các thông tin phục vụ trực tiếp cho một nghiên cứu chuyên biệt. Do vậy, mục
tiêu của chúng tôi là tiến hành xây dựng cơ sở dữ liệu hai gene hsp-70 và reverse
transcriptase-RNaseH ở một số loài virus thực vật.
Để đạt đƣợc mục tiêu trên, khóa luận cần đảm bảo thực hiện nội dung nhƣ sau:
Dùng Perl script để thu nhận trình tự các nucleotide và protein của hai gene từ
trang CSDL GenBank (NCBI cơ sở dữ liệu nucleotide).
Xác định gene và protein của hai gene hsp-70 và Reverse transcriptase-RNaseH
(RT-RNaseH) trong genome hay ORF (Open Reading Frame) của virus.
Tìm hiểu về mô hình dữ liệu quan hệ, sử dụng mô hình này vào việc lƣu trữ dữ
liệu các trình tự nucleotide và protein của hai gene, tạo CSDL hai gene này.
Dùng Perl script để chuyển tự động các dữ liệu vào CSDL.
Sử dụng giao thức CGI kết hợp với ngôn ngữ lập trình Perl, để thiết kế trang
web CSDL về hai gene hsp-70 và RT-RNaseH ở trên hai họ virus
Closteroviridae và Caulimoviridae. v
Sau khi thực hiện các nội dung trên chúng tôi đạt đƣợc những kết quả nhƣ sau:
 Chúng tôi đã tải đƣợc 325 trình tự gene hsp-70 và RT-RNaseH từ cơ sở dữ
liệu NCBI.
 Thông qua việc tìm hiểu về hai họ virus, trình tự gene tƣơng đồng, trình tự
protein bảo tồn và kết hợp với ClustalW. Chúng tôi đã xác định đƣợc vị trí

Lời Cảm Tạ .................................................................................................................... iii
Tóm Tắt Luận Văn ......................................................................................................... iv
Mục Lục .......................................................................................................................... vi
Danh Sách Các Bảng ...................................................................................................... ix
Danh Sách Các Hình ....................................................................................................... x
Danh Sách Các Chử Viết Tắt ........................................................................................ xii
Phần 1. LỜI MỞ ĐẦU .................................................................................................. 1
Phần 2. TỔNG QUAN TÀI LIỆU ................................................................................ 4
2.1. SƠ LƢỢC VỀ CƠ SỞ DỮ LIỆU .......................................................................... 4
2.1.1. Định nghĩa .................................................................................................... 4
2.1.2. Hệ quản trị CSDL ......................................................................................... 4
2.1.3. Các mô hình dữ liệu ...................................................................................... 5
2.1.3.1. Định nghĩa ........................................................................................ 5
2.1.3.2. So sánh các mô hình dữ liệu………………………………………..5
2.2. NGÔN NGỮ LẬP TRÌNH PERL, MẠNG INTERNET VÀ WEB .................... 6
2.2.1. Perl ................................................................................................................ 6
2.2.1.1. Tóm tắt lịch sử phát triển .................................................................. 6
2.2.1.2. Ứng dụng .......................................................................................... 7
2.2.1.3. Một số module của Perl thƣờng đƣợc sử dụng ................................. 7
2.2.2. Giới thiệu về mạng Internet ......................................................................... 8
2.2.2.1. Tóm lƣợc lịch sử phát triển ............................................................... 8
2.2.2.2. Một số khái niệm .............................................................................. 9
2.2.3. Web ............................................................................................................... 9
2.2.3.1. Tóm lƣợt lịch sử phát triển ............................................................... 9
2.2.3.2. Tích hợp CSDL với web dùng CGI ................................................ 10
2.3. CƠ SỞ DỮ LIỆU SINH HỌC ........................................................................... 11
2.3.1. NCBI ........................................................................................................... 11

vii
2.3.1.1. Vài nét về NCBI ............................................................................. 11

3.1.2.2. Chƣơng trình tìm kiếm các trình tự tƣơng đồng – BLAST ............. 25

viii
3.1.2.3. Hệ quả trị CSDL quan hệ MySQL .................................................. 26
3.1.2.4. Apache web Server .......................................................................... 27
3.1.2.5. Ngôn ngữ lập trình Perl và các gói sử dụng .................................... 27
3.2. Phƣơng pháp ....................................................................................................... 28
3.2.1. Thu nhận trình tự ........................................................................................ 28
3.2.2. Xác định gene và protein trong bộ gene virus ............................................ 29
3.2.3. Thiết kế CSDL trình tự gene và protein hsp-70 và RT-RNaseH ................ 32
3.2.3.1. Phân tích dữ liệu .............................................................................. 32
3.2.3.2. Thiết kế CSDL dạng bảng ............................................................... 34
3.2.3.3. Lƣu trữ các thông tin vào CSDL ..................................................... 35
3.2.4. Tích hợp CSDL gene hsp-70 và RT-RNaseH với trang Web .................... 37
Phần 4. KẾT QUẢ VÀ THẢO LUẬN ....................................................................... 39
4.1. Kết quả thu nhận trình tự của hai họ Closteroviridae và Caulimoviridae .......... 39
4.2. Kết quả thu nhận trình tự hai gene hsp-70 và Reverse transcriptase-RNaseH ... 41
4.3. CSDL trình tự gene hsp-70 và RT-RNaseH ........................................................ 42
4.4. Trang web thể hiện thông tin CSDL gene hsp-70 và RT-RNaseH ..................... 46
4.4.1. Trang thông tin chung về CSDL gene hsp-70 và RT-RNaseH .................... 47
4.4.2. Trang tìm kiếm ............................................................................................ 47
4.4.3. Trang công cụ .............................................................................................. 49
4.4.4. Trang cây phân loài ..................................................................................... 52
4.4.4.1. Trang Caulimoviridae ..................................................................... 52
4.4.4.2. Trang Closteroviridae ..................................................................... 54
4.4.5. Trang liên kết ............................................................................................... 54
4.4.6. Trang thông tin về bộ môn công nghệ sinh học .......................................... 54
PHẦN 5. KẾT LUẬN VÀ ĐỀ NGHỊ ......................................................................... 55
4.1. KẾT LUẬN ........................................................................................................ 55
4.2. ĐỀ NGHỊ ........................................................................................................... 55

Hình 2.6 Tổ chức genome của virus CaMV .................................................................. 19
Hình 2.7 Một số loài trong họ Caulimoviridae ............................................................. 20
Hình 2.8 Cơ chế nhân bản, sao mã và dịch mã vào tế bào ký chủ của virus dsDNA ......... 21
Hình 2.9 Hình thái virion của Citrus tristeza virus thuộc Closterovirus ...................... 22
Hình 2.10 Cơ chế nhân bản, sao mã và dịch mã vào tế bào ký chủ của virus
(+)ssRNA ...................................................................................................................... 22
Hình 2.11 Vị trí gene RT-RNasseH nằm trong cấu trúc genome Cauliflower mosaic
virus ...................................................................................................................... 23
Hình 2.12. Protein reverse transcriptase ........................................................................ 24
Hình 2.13 Vị trí gene hsp-70 nằm trong tổ chức genome của Beet yellows virus .............. 24
Hình 2.14 Protein HSP-70 ............................................................................................. 24
Hình 3.1 Sơ đồ tóm tắt quá trình thu nhận trình tự ....................................................... 28
Hình 3.2 Sơ đồ xác định gene trong genome virus ....................................................... 29
Hình 3.3 Định dạng FASTA để thực hiện sắp gióng cột hai trình tự ............................ 30
Hình 3.4 Kết quả sắp gióng cột cặp trình tự gene RT-RNaseH (đã biết vị trí) với RT-
RNaseH trong ORF hay genome của virus .......................................................... 31
Hình 3.5 Sơ đồ các đối tƣợng của CSDL gene hsp-70 và RT-RNaseH ........................ 32
Hình 3.6 Tiến trình lấy thông tin từ CSDL hai gene ở hai loài virus ........................... 37
Hình 3.7 Sơ đồ chi tiết các bảng quan hệ trong CSDL hai gene và protein hsp-70 và
RT-RNaseH ở hai họ virus Caulimoviridae và Closteroviridae …………………………38
Hình 4.1 File chứa accession number và dòng định nghĩa của giống Crinivirus.......... 39

xi
Hình 4.2 Mẫu tin về gene hsp-70 của Sweet potato chlorotic stunt virus trên
NCBI………..40
Hình 4.3 Mô hình thu nhận gene RT-RNaseH trong ORF5 của CMV………………..41
Hình 4.4 Sơ đồ cấu trúc của trang web CSDL gene hsp-70 và RT-RNaseH ................. 46
Hình 4.5 Trang HOME PAGE ...................................................................................... 47
Hình 4.6 Trang tìm kiếm trình tự khi biết ACCESSION NUMBER ............................ 48
Hình 4.7 Trang kết quả tìm kiếm trình tự khi biết ACCESION NUBER ..................... 48

DBI Database Interface
DBD Datadbase Driver
WWW World Wide Web
HTML Hypertext Markup Language
HTTP Hypertext Transfer Protocol
NCBI Center for Bioinformatic Information
BLAST Basic Local Alignment Search Tool
EBI European Bioinformatics Insiture
EMBL European Molecular Biology Laboratory
SIB Swiss Insitute of Bioiformatics
DDBJ DNA Data Bank Japan
PDBj Protein Database Japan
CaMV Caulimoflower mosaic virus
1

PHẦN 1
LỜI MỞ ĐẦU
Với những bƣớc tiến vƣợt bậc trong việc khám phá và ứng dụng những kỹ thuật

Công nghệ sinh học
Bioinformatics:
giúp hiểu biết và
khám phá những
nguyên lý trong
sinh học
Hình 1.1 Định nghĩa Bioinformatics theo NCBI.
Công nghệ tin học
2

TOÁN HỌC
KHOA HỌC MÁY TÍNH
THỐNG KÊ
SINH HỌC
HÓA HỌC
VẬT LÝ

Bioinformatics

Hình 1.2 Định nghĩa bioinformatics đƣợc mở rộng
Thật vậy, sự kết hợp này đã giải quyết hàng loạt những nghiên cứu trong sinh
học mà đòi hỏi thời gian khá dài hay khó có thể thực hiện bằng tay và mắt thƣờng
đƣợc.
Nhƣng định nghĩa trên chƣa hoàn toàn đầy đủ, vì bioinformatics không chỉ đơn
thuần là sự kết hợp giữa công nghệ sinh học và công nghệ thông tin, mà là sự kết hợp
của nhiều ngành khoa học khác nhau nhƣ toán học, thống kê, khoa học máy tính, sinh
học, hóa học, vật lý,… Ngoài ra, sự kết hợp này có sự đan xen tƣơng hỗ với nhau. Vì
thế, thành quả nghiên cứu mang lại của ngành học này không chỉ đóng góp cho sinh
học mà còn cho các ngành khác. Một ví dụ rõ ràng nhất là trong qui trình nghiên cứu
về hệ thần kinh của động vật, con ngƣời đã phát hiện ra neuron thần kinh và cách xung

Vì vậy, khóa luận đƣợc thực hiện với các mục tiêu lần lƣợt nhƣ sau. Một là xây
dựng cơ sở dữ liệu (CSDL) về trình tự nucleotide và protein của 2 gene hsp-70 và
Reverse transcriptase-RNaseH (RT-RNaseH). Hai là dùng giao diện web để truy xuất
thông tin về cơ sở dữ liệu và thực hiện việc chia sẻ thông tin đó.
Để đạt đƣợc mục tiêu này, khóa luận cần đảm bảo thực hiện nội dung nhƣ sau:
Dùng Perl script để thu nhận trình tự các nucleotide và protein của hai gene từ
CSDL GenBank (NCBI cơ sở dữ liệu nucleotide).
Xác định gene và protein của hai gene hsp-70 và Reverse transcriptase-RNaseH
(RT-RNaseH) trong genome hay ORF (Open Reading Frame) của virus.
Tìm hiểu về mô hình dữ liệu quan hệ, sử dụng mô hình này vào việc lƣu trữ dữ
liệu các trình tự nucleotide và protein của hai gene, tạo CSDL hai gene này.
Dùng Perl script để chuyển tự động các dữ liệu vào CSDL.
Sử dụng giao thức CGI kết hợp với ngôn ngữ lập trình Perl, để thiết kế trang
web CSDL về hai gene hsp-70 và RT-RNaseH trên hai họ virus Closteroviridae
và Caulimoviridae. 4

PHẦN 2
TỔNG QUAN TÀI LIỆU
2.1. SƠ LƢỢC VỀ CƠ SỞ DỮ LIỆU
2.1.1. Định nghĩa [3, 8]
Cơ sở dữ liệu (CSDL) là một tập hợp dữ liệu đƣợc tổ chức theo một cấu trúc

 Tính chủ quyền của dữ liệu: đó là phải bảo đảm vấn đề an toàn dữ liệu
và tính chính xác của dữ liệu.
 Tính bảo mật và quyền khai thác thông tin của ngƣời sử dụng.
 Tranh chấp dữ liệu: do có thể cùng một lúc có nhiều ngƣời cùng truy cập
vào một nguồn tài nguyên dữ liệu với các mục đích khác nhau nên hệ quản trị
CSDL phải có cơ chế ƣu tiên truy cập dữ liệu. Cơ chế ƣu tiên có thể đƣợc thực
hiện bằng cách cấp quyền ƣu tiên cho ngƣời khai thác (ngƣời đƣợc cấp quyền
hạn ƣu tiên cao hơn thì đƣợc phép truy cập dữ liệu trƣớc) hay dựa vào thời điểm
truy cập (ngƣời truy xuất trƣớc thì có quyền truy cập dữ liệu trƣớc).
 Phục hồi dữ liệu khi có sự cố.
2.1.3. Các mô hình dữ liệu [2, 3]
2.1.3.1. Định nghĩa
Mô hình dữ liệu là sự trừu tƣợng hóa thế giới thực, là sự biểu diễn dữ liệu
mức quan niệm. Mô hình dữ liệu đƣợc phân loại dựa trên các cách tiếp cận dữ liệu
khác nhau của các nhà phân tích, thiết kế CSDL. Mô hình dữ liệu hoàn toàn độc lập
giữa hệ thống máy tính và cấu trúc dữ liệu.
Hiện nay, có năm loại mô hình dữ liệu chính. Đó là:
 Mô hình dữ liệu mạng: thập niên 60-70.
 Mô hình dữ liệu phân cấp: thập niên 60-70.
 Mô hình dữ liệu quan hệ: thập niên 80.
 Mô hình dữ liệu thực thể kết hợp: thập niên 90.
 Mô hình dữ liệu hƣớng đối tƣợng: thập niên 90.
2.1.3.2. So sánh các mô hình dữ liệu [2]
Sự ra đời của mô hình dữ liệu quan hệ đã khắc phục đƣợc những khó
khăn khi thiết kế và quản lí CSDL theo mô hình mạng và mô hình phân cấp.
 Thứ nhất, mô hình mạng và mô hình phân cấp sử dụng nguyên lý chủ
nhân – thành viên, cha – con rất khó khăn cho việc thiết kế, sắp xếp và sau
khi thiết kế xong muốn sửa đổi rất phức tạp, hầu nhƣ phải làm lại từ đầu.
Mô hình quan hệ tổ chức dữ liệu dƣới dạng bảng dễ hiểu và đơn giản hơn
6

rãi.
7

Năm 1989, Perl 3.0 ra đời, nhƣng phiên bản này đƣợc phát hành dƣới bản
quyền đƣợc bảo vệ của GNU. Với phiên bản này Perl nhanh chóng trở thành tiêu
chuẩn để viết CGI script dùng cho việc xử lý dữ liệu đƣợc gửi trên Internet.
Năm 1991, phiên bản 4.0 đƣợc đƣa ra vào tháng 3. Đến thời điểm này, Perl đã
trở thành ngôn ngữ khá hoàn chỉnh mặc dù vẫn còn một số khuyết điểm nhỏ.
Năm 1994, phiên bản Perl 5.0 ra đời cùng với sự ra đời của DBI (Database
Interface) và DBD (Datadbase Driver) cho hệ quản trị CSDL Oracle của Tim Bunce.
Từ đó, các DBD của các hệ quản trị CSDL khác cũng dần xuất hiện.
Năm 2000, phiên bản 5.6 xuất hiện vào tháng 3. Phiên bản này đã chuyển
sang định dạng tiêu chuẩn và có sự hỗ trợ cả Unicode và UTF-8.
Năm 2002, phiên bản Perl 5.8 ra đời cùng với nhiều cải tiến mới đƣợc bổ
sung.
2.2.1.2. Ứng dụng [6]
Perl đƣợc dùng để xử lý tập tin, truy cập dữ liệu và đƣợc dùng cho giao diện
cổng chung (Common Gateway Interface – CGI), tiến hành tạo script của Microsoft
Windows, tạo giao diện ngƣời dùng đồ họa (graphical user interface – GUI).
Ƣu điểm: là ngôn ngữ dễ nắm bắt, thích hợp cho xử lý chuỗi và văn bản thuần
túy, đƣợc sự hổ trợ của nhiều hệ điều hành. Vì vậy, Perl là ngôn ngữ lập trình thích
hợp cho các nhà tin – sinh học vì nó có thể giúp cho việc thao tác trên các chuỗi trình
tự sinh học, tạo CSDL sinh học dễ dàng hơn. Ngoài ra, Perl còn đƣợc sự hỗ trợ module
(tập các hàm) giúp kết nối, truy xuất CSDL với trang Web, tạo ra trang web động.
Nhƣợc điểm: chỉ có thể dùng để viết các chƣơng trình, script nhỏ.
2.2.1.3. Một số module của Perl thƣờng đƣợc sử dụng [20, 21]
Mudule CGI (Common Gateway Interface – CGI) của Perl: do Lincoln D.
Stein viết và bổ sung, nâng cấp thêm các tính năng từ version 1.44 đến version 3.04.
Module này gồm các hàm giúp viết kịch bản Perl theo giao thức CGI. Các script này
giúp lấy thông tin từ trình diệt khách gởi đến máy chủ, đƣa vào chƣơng trình sử lý và

Từ năm 1969 đến 1986, số lƣợng máy chủ tăng lên khoảng năm ngàn.
Đến năm 1973, mạng xuyên quốc gia đầu tiên đƣợc thiết lập giữa hai nƣớc
Anh và Na Uy.
Năm 1982, giao thức TCP/IP ra đời và nhanh chóng trở thành giao thức
chuẩn.
Internet dần dần đƣợc phát triển và đột phá từ khi có sự ra đời của dịch vụ
WWW (World Wide Web). Và từ đây, Internet đƣợc mở rộng sử dụng cho các ngành
nghiên cứu khác và trở thành một công cụ có mụch đích thƣơng mại.
P
E
R
L

S
C
R
I
P
T
D
B
I

S
w
it
c
h
DBD
DBD

chƣơng trình để duyệt các thông tin này gọi là web browser. Đến năm 1993, trung tâm
ứng dụng siêu máy tính quốc gia NCSA (National Center Supercomputer Application)
xây dựng trình duyệt web, có tên là Mosaic, đầu tiên có giao diện đồ họa.
Năm 1995, đánh dấu sự ra đời của trình duyệt Netscape và sau đó là
Microsoft Internet Explorer. Các trình duyệt này cho phép truy xuất dữ liệu khu trú
trên máy WWW. Hai công cụ hỗ trợ WWW là ngôn ngữ đánh dấu siêu văn bản
HTML (Hypertext Markup Language) dùng để tạo ra các trang web và giao thức
truyền siêu văn bản HTTP (Hypertext Transfer Protocol).
10

Tuy nhiên, các trang web này chỉ là những trang web tĩnh. Khi nhu cầu trao
đổi thông tin ngƣời sử dụng và các nhà cung cấp thông tin ngày càng tăng, các trang
web động dần dần thay thế các trang web tĩnh. Trang web động là trang web đƣợc tạo
ra để đáp ứng các dữ liệu nhập vào của ngƣời dùng trực tiếp hay gián tiếp và trả lại kết
quả thông qua sự tƣơng tác với hệ thống CSDL.
Có nhiều kỹ thuật đƣợc dùng để tích hợp CSDL với web để tạo ra trang web
động nhƣ CGI, PHP, ASP, JSP, Coldfusion. Trong đó:
 CGI (Common Gateway Interface): là kỹ thuật ra đời sớm nhất và
đƣợc các nhà tin – sinh học sử dụng. Cụ thể CGI đƣợc định nghĩa là
một cách thức mà web server chạy một chƣơng trình một cách cục bộ
và trả lại kết quả thông qua máy server về trình duyệt web (ở máy
client) của ngƣời dùng yêu cầu nội dung động. Nhiều ngôn ngữ lập
trình đƣợc sử dụng để viết CGI nhƣ Perl, C, C++.
 ASP (Active Server Page): là kỹ thuật của Microsoft sử dụng Visual
Basic hay các ngôn ngữ khác để viết, thƣờng chỉ ứng dụng trên hệ điều
hành Windows.
 JSP (Java Server Page): là thuật ngữ dùng Java để viết, có thể chạy trên
các hệ điều hành nhƣ Unix, Linux, Windows, Mac,…
 PHP (Hypertext Preprocessior): là dự án của Apache Software
Foundation. Tƣơng tự nhƣ ASP và JSP, PHP có một tập các thẻ mã

2.3.1. NCBI (National Center for Bioinformatic Information) [22]
2.3.1.1. Vài nét về NCBI
NCBI là chữ viết tắt của “Center for Bioinformatic Information”. Đây là trung
tâm quốc gia về Công nghệ sinh học, thuộc viện sức khỏe quốc gia của Hoa kỳ (NIH –
National Insitute of Health). NCBI chính thức đƣợc thành lập vào ngày 4/10/1988.
Đến năm 1991, NCBI đảm nhiệm việc quản lý CSDL trình tự DNA và từ đó NCBI
còn đƣợc gọi là GenBank.
NCBI là nơi cung cấp, trao đổi thông tin về sinh học phân tử của Mỹ, thông
qua những CSDL trực tuyến. Ngoài ra, NCBI còn tham gia những nghiên cứu về “sinh
học tính toán” (computation biology), phát triển những công cụ phân tích dữ liệu bộ
gene, protein,…
2.3.1.2. Một số cơ sở dữ liệu trong NCBI
Nucleotide (GenBank): là CSDL về trình tự nucleotide.
Protein: là CSDL về trình tự amino acid.
Genome: trình tự toàn bộ genome của một số sinh vật.
12

Structure: hay còn có tên gọi là MMDB (Molecular Modeling Database)
chứa cấu trúc ba chiều của những đại phân tử bao gồm cả protein lẫn những chuỗi
nucleotide.
Ngoài ra, NCBI còn một số CSDL khác. Chúng là các CSDL trung gian, đƣợc
tạo thành từ sự kết hợp của hai hay nhiều CSDL trên, hay do liên kết đến các CSDL
khác.
2.3.1.3. Một số công cụ trong NCBI

phần mềm này còn kèm theo một số công cụ nhỏ nhƣ công cụ tìm khung đọc mở, công
cụ gióng cột trình tự,… phần mềm này thích hợp cho việc góp nhiều trình tự cùng một
lúc.
 NCBI còn tích hợp khá nhiều những công cụ, phần mềm phân tích
trình tự DNA, protein nhƣ:
BanklIt, ORF Finder, Electronic-PCR (e-PCR), VecScreen, Homologene,
COGs, COGnitor, GEO, MGC, Clone Registry, CDD, LocusLink,…
2.3.2. EBI (European Bioinformatics Insiture) [23]
2.3.2.1. Vài nét về EBI
EBI là viện Tin - sinh học của Cộng đồng chung Châu Âu, EBI đặt tại
Welcome Trust Genome Campus nƣớc Anh, thành lập năm 1992. EBI bắt nguồn từ
EMBL (European Molecular Biology Laboratory). EBML đƣợc thành lập năm 1980
tại phòng thí nghiệm sinh học phân tử Heidelberg của Đức và đây là CSDL trình tự
nucleotide đầu tiên của thế giới.
EBI phục vụ cho việc nghiên cứu trong các lĩnh vực nhƣ sinh học phân tử, di
truyền, y học, nông nghiệp,… bằng cách xây dựng, duy trì những CSDL chia sẻ trực
tuyến thông tin cần thiết. Bên cạnh đó, EBI còn thực hiện những nghiên cứu trong lĩnh
vực Tin-sinh học và sinh học phân tử tính toán.
2.3.2.2. Một số cơ sở dữ liệu trong EBI
EMBL (European Molecular Biology Laboratory): còn đƣợc gọi là EMBL-
BANK chứa CSDL về trình tự DNA, RNA.
MSD (Macromolecular Structure Database): chứa thông tin cấu trúc của các
đại phân tử sinh học nhƣ protein, DNA, RNA,…
ArrayExpress: tích trữ nguồn dữ liệu về sự biểu hiện của gene dựa trên kỹ
thuật microArray.
TrEMBL (Translate EMBL): là cơ sở dữ liệu về protein. Do lƣợng trình tự
này ngày càng nhiều và để quản lý tốt hơn, TrEMBL đã kết hợp với Swiss-Prot (CSDL

Trích đoạn VIRUS CAULIMOVIRIDAE VÀ CLOSTEROVIRIDAE Gene Hsp-70 và Reverse transcriptase-RNaseH Xác định gene và protein trong bộ gene virus Thiết kế CSDL dạng bảng Lƣu trữ các thông tin vào CSDL

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Xây dựng cơ sở dữ liệu hai gene HSP-70 và Reverse transcripte-rnaseH ở một số loài virus thực vật - Pdf 96

Tài liệu, ebook tham khảo khác

Học thêm