Luận văn : XÂY DỰNG CƠ SỞ DỮ LIỆU HAI GENE HSP-70 và REVERSE TRANSCRIPTE-RNaseH Ở MỘT SỐ LOÀI VIRUS THỰC VẬT part 5 - Pdf 19

25 PHẦN 3
PHƢƠNG PHÁP VÀ CHƢƠNG TRÌNH SỬ DỤNG
3.1. Các chƣơng trình và ngôn ngữ lập trình đƣợc sử dụng
3.1.1. Hệ điều hành: Windows XP (Microsoft). Xây dựng CSDL trình tự
nucleotide, protein ở Caulimoviridae và Closteroviridae trên hệ điều hành này.
3.1.2. Các chƣơng trình phân tích trình tự
3.1.2.1. Chƣơng trình so sánh trình tự ClustalW [26]
ClustalW là một phần mềm (chạy trên nền Dos) dùng để so sánh sự tƣơng
đồng của hai hay nhiều trình tự sinh học (pairswise or mutiple alignment). ClustalW
mô tả kết quả bằng hệ thống các kí hiệu làm nổi bậc những nét đặc trƣng trong những
đoạn tƣơng đồng. ClustalW ngày càng trở nên hữu ích cho các nhà nghiên cứu trong
việc tìm kiếm những vùng bảo tồn trên những trình tự DNA hoặc protein. Sự hiểu biết
về mutiple alignment giúp ích rất nhiều cho các nhà khoa học trong việc dự đoán cấu
trúc bậc hai, bậc ba của protein, đồng thời phát hiện sự tƣơng đồng giữa những đoạn
gene (hoặc protein) vừa đƣợc giải trình tự với những gene (hoặc protein) đã tồn tại.
ClustalW tiến hành so sánh tƣơng đồng nhiều trình tự sinh học qua ba giai đoạn:
Đầu tiên chƣơng trình sử dụng thuật toán alignment xấp xỉ của Wilbur và
Lipman năm 1983 để tính hệ số tƣơng đồng giữa mỗi cặp trình tự.
Những hệ số tƣơng đồng tính đƣợc sẽ đƣợc sử dụng để thành lập cây phả hệ
(“Guide tree” hay dendrogram) bằng phƣơng pháp UPGMA (Unwieghted Pair –
Group Method) của Sneath và Sokal năm 1973.
Cuối cùng các trình tự đƣợc so sánh với những nhóm trình tự lớn hơn và cứ
thế tiếp tục. Ở mỗi giai đoạn so sánh này, ClustalW sẽ sử dụng thuật toán của Myers
và Miller (1998) nhằm tối ƣu kết quả.
ClustalW 1.83 đƣợc sử dụng trong khóa luận này, đƣợc tải về từ trang web
(
3.1.2.2. Chƣơng trình tìm kiếm các trình tự tƣơng đồng – BLAST [27]
BLAST là một chƣơng trình tìm kiếm và so sánh trình tự tƣơng đồng đƣợc

đặt nền móng cho sự phát triển của MySQL). MySQL đƣợc viết dựa trên ngôn ngữ C
và C++, hoạt động trên nhiều hệ điều hành khác nhau. Phiên bản mới nhất của MySQL
là MySQL 5.0.
Ƣu điểm.
 Dể sử dụng.
 Mã nguồn mở.
27

 Thích hợp cho việc xây dựng CSDL vừa và nhỏ.
Nhƣợc điểm:
 Không thích hợp cho việc xây dựng CSDL lớn.
Phiên bản MySQL 4.0.15 đƣợc sử dụng trong khóa luận này.
3.1.2.4. Apache web Server [28]
Trên thế giới hiện nay có rất nhiều trình chủ web hỗ trợ CGI và một trong
số đó là Apache web Server. Apache web Server là một trình chủ web đƣợc nhiều
ngƣời dùng nhất hiện nay trên Internet. Theo số liệu thăm dò của NetCraft, có trên
60% trình chủ web đang đƣợc sử dụng trên Internet hiện nay là sử dụng Apache web
Server. Sở dĩ Apache có đƣợc một vị trí đáng nể nhƣ thế là nhờ vào việc nó là một
chƣơng trình mã nguồn mở và hoàn toàn miễn phí. Hai ƣu điểm này đã giúp Apache
đƣợc yêu thích đối với những công việc vừa và lớn của nhiều công ty trên thế giới.
Hơn thế, Apache hoạt động ổn định, an toàn và đáng tin cậy. Chỉ trong thời gian 5 năm
qua, Apache đã trở thành một trình chủ web có chức năng tƣơng đƣơng, thậm chí còn
vƣợt trội so với nhiều trình chủ web thƣơng mại khác.
Một trong những điểm mạnh của Apache là khả năng nâng cấp trình chủ web
thông qua các module. Có 2 loại module trong Apache đó là external module và
internal module. Cả hai loại module này điều có thể đƣợc sửa chữa, thay thế hoặc
nâng cấp vì chúng có kèm theo mã nguồn mở. Khi một yêu cầu từ trình tự khách đƣợc
gởi đến Apache phải trải qua một loạt nhiều giai đoạn sử lý để cuối cùng trả về kết quả
cho ngƣời dùng.
Apache có một chế độ bảo mật đáng tin cậy. Quy trình làm việc của Apache

Trình tự nucleotide và protein của hai gene hsp-70 (heat sock protein 70)
và RT-RNaseH (Reverse transcriptase-RNaseH), dùng để tạo CSDL đƣợc thu nhận từ
trang CSDL NCBI. Sơ đồ tóm tắt quá trình thu nhận nhƣ sau: Các bƣớc thực hiện tuần tự theo sơ đồ sau:
Từ khóa sử dụng là:
“Caulimovirus[ORGANISM]reverse transcriptase-RNaseH[GENE]”
“Badnavius[ORGANISM]reverse transcriptase-RNaseH[GENE]”
“Soymovirus[ORGANISM]reverse transcriptase-RNaseH[GENE]”
“Cavemovirus[ORGANISM]reverse transcriptase-RNaseH[GENE]”
29

Tách lấy tất cả các trình tự
Thực hiện sắp gióng cột từng cặp

30

Các bƣớc thực hiện
Bƣớc 1: thu nhận trình tự gene về gene RT-RNaseH đã biết và chƣa biết (các
mẫu tin chứa toàn bộ genome hay ORF).
Để xác định đƣợc vị trí của một gene trong các gene khác trong ORF hay
genome của virus, phải thông qua các trình gene đã biết thu nhận đƣợc.
Từ đó, thông qua trình tự gene đã biết này ta xác định vị trí của gene RT-
RNasH nằm trong genome hay nằm cùng với các gene trong ORF của virus.
Bƣớc 2: tách các trình tự gene trong các file text tải về từ NCBI có chứa gene
mong muốn, nằm cùng với các gene khác trong ORF hay genome. Các trình tự sau khi
rút trích đƣợc lƣu vào file dƣới dạng FASTA (Hình 3.3), đây là một trong những dạng

tgattggaag cttattaaag agatcaaggc tattgtggag aagctcccac cgcttgatta
tccaccagag caagcataca tcattattga atctgatggc tgtatggat
>NC_007002
tggtgctgaa aagaaaggca aagaacgtct tgtcttcaat tataaaaggc ttaatgacaa
tactgaaaag gatcagtatt ccttacctgg gataaacaca atcatagcta gaatcagcca
ttcaaaaata tattctaaat ttgacttgaa gagcggtttt catcaagtag ctatggagga
ggaatctatc ccatggacgg ccttttgggc tattaacggg ttatacgaat ggctcgtaat
gccgtttggt ctgaagaacg cacctgccat atttcaacga aagatggaca actgcttccg
aggtacagaa aaatttatag ctgtttacat agatgatatt ctaatctttt cagatagcaa
ggaagcccat cgaacccatc tcagacaatt catcaccata tgtgaagaaa atgggctggt
actaagccca acgaagatga agataggagt ccaacaagtg gatttcttgg gtgcaaccat
tggcgattct aaagtaaggc ttcagcctca catagtcaaa aaagtgctag aaacaaagga
agaaagcctg tctgaaacga aggccttaag aagatggtta ggcatactca attatgccag
agcatatatt cctgatcttg gaaaaatcct aggtccctta tactcaaaaa cctcaggaaa
aggggagcga aaactcaatc accaagacat gaagataatt caccagatca aggaaaaggt
aaaaaatctc cctgaattag aggttcctcc accagagtcc atcatactaa ttgaaacaga
cggatgtatg gatggttggg gtggcatttg caaatggaag ttaaacaaag gggaaccccg
atccgctgaa aagatctgtg cttatgcaag tggacgtttc aaccccatca aaggagctat
tgacgctgaa atacaggctg ttatctacag tctagaaaaa tttaagatct actatcttga
caaaagggag cttattttaa gaactgacag caaggcaatt gtcaggttct acgaaaaatg
(…)
ttcagaacac aaaccctctc gtgtccgatg gatgactcta actgactaca tctcgggatg
cggagtcaag gtatattttg aacacatcga tggaaaagat aatacacttg cagacgaact
atcacgactt gttcaagcaa ttctcatcaa caaagaagaa tctcctataa tactatctct
aatcaaagca acaacggagg tattacaaaa ggaaaatcct atttccagga gtagattagc
tctatgcatt tccagagcac tgggtaacaa atatcaagtc aatttcatga cttgggaaca
accccagctg aagtgtgcct gtggagaaaa tgccgtactc cttacttcac ataccagccg
aaatccagga cggagattct atagatgtgg taccaacact tgtcatgtat ggtactgggc
tgatctaatc gaagattata ttgcgcaact tagcaatctt cagaatcttg actcaggaca
(…)
Khi thu nhận mẫu tin trình tự gene thì chúng đồng thời chứa luôn trình tự
protein của gene đó. Nên chúng tôi tiến hành thu nhận trình tự protein với các bƣớc đã
đƣợc thực hiện để thu nhận đƣợc một trình tự gene.
(…)
NC_007002 GCCGTTTGGTCTGAAGAACGCACCTGCCATATTTCAACGAAAGATGGACAACTGCTTCCG
AY186615 AGCCATATTTCAAAGAAAAATGGACTCGGTATTCAA
************ **** ****** ***

NC_007002 AGGTACAGAAAAATTTATAGCTGTTTACATAGATGATATTCTAATCTTTTCAGATAGCAA
AY186615 AGGGTGTGAAAAATTCCTCGCTGTTTATATTGATGATATTCTGGTATTTTCTAACAATGA
*** ******** * ******** ** *********** * ***** * * *

NC_007002 GGAAGCCCATCGAACCCATCTCAG-ACAATTCATCACCATATGTGAAGAAAATGGGCTGG
AY186615 GGAAGATCATGCAAAACACCTGACTATCATGCTACAAC-TGTGTAAAGAACATGGTCTTG
***** *** ** ** ** * * ** * ** * * *** ***** **** ** *

NC_007002 TACTAAGCCCAACGAAGATGAAGATAGGAGTCCAACAAGTGGATTTCTTGGGTGCAACCA
AY186615 TTCTTTCACCCACCAAGATGAATATTGCAGTCAAAGAAGTTAATTTTCTCGGAGCTACTA
* ** ** ** ******** ** * **** ** **** **** * ** ** ** *

NC_007002 TTGGCGATTCTAAAGTAAGGCTTCAGCCTCACATAGTCAAAAAAGTGCTAGAAACAAAGG
AY186615 TTGGCAGCAGAAAAGTAAAGCTCCAGGAAAATATTATTAAGAAGATCCTTGACTTCAATG
***** ******* *** *** * ** * ** ** * ** ** ** *

NC_007002 AAGAAAGCCTGTCTGAAACGAAGGCCTTAAGAAGATGGTTAGGCATACTCAATTATGCCA Đối tƣợng sinh vật cung cấp các thông tin về:
 Tên sinh vật trong hai họ virus là Caulimoviridae và Closteroviridae.
 Ký chủ nhạy cảm.
 Ký chủ không nhạy cảm
 Ký chủ trung gian.
 Hình thể.
 Đặc tính hóa lý và vật lý.
 Vùng phân bố địa lý
 Nucleic acid
 Protein
 Phƣơng pháp chẩn đoán.
CSDL tham khảo của sinh vật nhƣ accession number, họ,…
Đối tƣợng trình tự cung cấp các thông tin về:
 Trình tự các gene hsp-70 và RT-RNaseH.
 Trình tự các protein HSP-70 và RT-RNaseH tƣơng ứng với các trình tự
nucleotide nói trên.
 Tên của các trình tự nucleotide và protein trên.
 Chiều dài của gene hsp-70 và RT-RNaseH.
CSDL tham khảo của trình tự tác giả, bài báo,…
Sinh vật
Trình tự

Hình 3.5 Sơ đồ các đối tƣợng của CSDL gene hsp-70 và RT-RNaseH

Protein
Chứa sự mã hóa của virus cho
các protein
Symptom_and_host
Chứa các triệu chứng virus
gây ra cho ký chủ
Susceptible_host
Ký chủ nhạy cảm
Insusceptible_host
Ký chủ không nhạy cảm
Transmission
Ký chủ trung gian
Geographic_distribution
Chứa vùng phân bố của virus
Diagnostic_and_method
Phƣơng pháp chuẩn đoán
Char
Chứa các
thông tin về
quan hệ họ
hàng
Family
Chứa họ virus
genus
Giống
species
Loài
RNA_stage
Trạng thái RNA
Acc


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status