XÂY DỰNG QUY TRÌNH ĐỊNH HCV GENOTYPE BẰNG PHƯƠNG PHÁP GIẢI TRÌNH TỰ VÙNG GENE NS5B - Pdf 50

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC NÔNG LÂM TP.HỒ CHÍ MINH
BỘ MÔN CÔNG NGHỆ SINH HỌC

KHÓA LUẬN TỐT NGHIỆP

XÂY DỰNG QUY TRÌNH ĐỊNH HCV GENOTYPE
BẰNG PHƯƠNG PHÁP GIẢI TRÌNH TỰ VÙNG GENE NS5B

Ngành học

: CÔNG NGHỆ SINH HỌC

Sinh viên thực hiện

: HOÀNG NGỌC MẠNH

Niên khóa

: 2009 - 2013

Tháng 6/2013

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC NÔNG LÂM TP.HỒ CHÍ MINH
BỘ MÔN CÔNG NGHỆ SINH HỌC

KHÓA LUẬN TỐT NGHIỆP

XÂY DỰNG QUY TRÌNH ĐỊNH HCV GENOTYPE

Tp. Hồ Chí Minh, ngày 20 tháng 06 năm 2013
Hoàng Ngọc Mạnh

i

TÓM TẮT
Bệnh xơ gan, ung thư gan đang có dấu hiệu gia tăng đáng báo động trong những
năm qua. Phần lớn số bệnh nhân tử vong do xơ gan, ung thư gan đều liên quan tới virút viêm gan C. Số bệnh nhân mắc các bệnh xơ gan, ung thư gan liên quan tới vi-rút
viêm gan C chiếm 80%, số người chết hàng năm do biến chứng xơ gan giai đoạn nặng
hoặc ung thư gan. Vi-rút viêm gan C là loại virus nguy hiểm. Hiện nay trên thế giới có
khoảng 2 tỷ người nhiễm virus viêm gan, cứ 12 người thì có 1 người bị viêm gan mạn
tính do nhiễm vi-rút viêm gan C. Trong những năm gần đây Việt Nam đã trở thành
quốc gia có tỉ lệ người mắc bệnh ung thư gan hàng đầu thế giới. Phần lớn các bệnh
nhân lại phát hiện bệnh trong giai đoạn trễ hoặc không xác định chính xác chủng viêm
gan C nên việc chữa trị không còn hiệu quả.
Nghiên cứu này được tiến hành nhằm xác định chính xác chủng vi-rút viêm gan C
dựa trên vùng gen NS5B. Vùng trình tự được xem là có nhiều biến động phù hợp mục
tiêu không những xác định kiểu gen mà còn cả đến mức subtype. Một quy trình đã
được thiết lập bao gồm thực hiện RT-PCR khuếch đại vùng NS5B, giải trình tự, hiệu
chỉnh trình tự sau khi giải và xây dựng các cây phân loài. Dù mới được thử nghiệm
trên số bệnh phẩm ít ỏi (chỉ có 6 mẫu), nhưng quy trình với tính logic khoa học cao sẽ
được tiếp tục thử nghiệm với cỡ mẫu lớn hơn trong thời gian tới.

ii

DANH SÁCH CÁC BẢNG ........................................................................... vii
DANH SÁCH CÁC HÌNH ........................................................................... viii
Chương 1 MỞ ĐẦU ........................................................................................1
1.1 Đặt vấn đề..................................................................................................................... 1
Chương 2 TỔNG QUAN TÀI LIỆU ...................................................................3
2.1 Tổng quan bệnh viêm gan siêu vi C ............................................................................ 3
2.2 Cấu trúc vi-rút HCV .................................................................................................... 5
2.3 Bộ gen vi-rút HCV....................................................................................................... 5
2.4 Sự phân bố các kiểu gen và kiểu phụ HCV: ................................................................ 7
2.5. Vai trò của nghiên cứu xác định kiểu gen (genotype) và kiểu phụ (subtype) bao ..... 8
2.6. Các phương pháp chẩn đoán bệnh viêm gan siêu vi C ............................................... 8
2.6.1 Phát hiện kháng thể Anti-HCV ............................... Error! Bookmark not defined.
2.6.2 Các thử nghiệm kháng thể HCV ............................................................................... 8
2.6.3 Thử nghiệm số lượng siêu vi .................................................................................... 9
2.6.4 Thử Nghiệm Chức Năng và Sinh Hóa của Gan ....................................................... 9
2.6.5 Sinh thiết gan (Liver Biopsy) ................................................................................. 10
2.7 Một số nghiên cứu trong và ngoài nước .................................................................... 10
2.7.1 Nghiên cứu nước ngoài ........................................................................................... 10
2.7.2 Nghiên cứu trong nước ........................................................................................... 11
2.8 Định danh HCV dựa vào vùng non-structure NS5B ................................................ 12
2.8.1 Phương pháp giải trình tự ....................................................................................... 12
2.8.2 Hiệu chỉnh trình tự (Proofreading) ......................................................................... 13
2.8.3 Nghiên cứu phát sinh loài ....................................................................................... 14
Chương 3 VẬT LIỆU VÀ PHƯƠNG PHÁP NGHIÊN CỨU ..................................18
iv

3.1 Thời gian và địa điểm nghiên cứu ............................................................................. 18

DANH SÁCH VIẾT TẮT VÀ THUẬT NGỮ
Nu

: Nucleotide

HCV

: Hepatitis C virus.

HCC

: Hepatocellular carcinoma.

HBV

: Hepatitis B virus.

rNTP

: Ribonucleoside triphosphate

RNA

: Ribonucleic acid

DNA

: Deoxyribonucleic acid

DANH SÁCH CÁC HÌNH
Hình 2.1 Diễn biến bệnh viêm gan C. ...................................................................... 4
Hình 2.2 Cấu trúc vi-rút HCV. ................................................................................. 5
Hình 2.3 Cấu trúc bộ gen HCV. ............................................................................... 6
Hình 3.1 Sơ đồ tổng quan quy trình xác định kiểu gen HCV. ...............................16
Hình 3.2 Hiện tượng gap và đa nu. ........................................................................19
Hình 3.3 Trình tự sau khi giải. ...............................................................................20
Hình 3.4 Peak nghi ngờ ..........................................................................................20
Hình 3.5 Cách xác định subtype.............................................................................21
Hình 4.1 Mẫu database cục bộ ...............................................................................22
Hình 4.2 Vùng trình tự đầu của mạch xuôi bị nhiễu tín hiệu .................................24
Hình 4.3 vùng trình tự đầu của mạch ngược bị nhiễu tín hiệu ...............................24
Hình 4.2 Peak Nu 306, 307, 308 ...........................................................................25
Hình 4.2 Cây phân loài ...........................................................................................26

viii

Chương 1 MỞ ĐẦU
1.1 Đặt vấn đề
Viêm gan do siêu vi C (HCV) là một bệnh nguy hiểm, khó điều trị vì triệu chứng
lâm sàng mơ hồ, trong khi đó hậu quả của bệnh để lại rất nặng nề: 50%-80% chuyển

kết quả không thể xác định được genotype. Phương pháp giải trình tự trên vùng 5’NC
cũng được tiến hành để xác định type HCV nhưng người ta thấy rằng giải trình tự trên
vùng 5’NC để xác định kiểu gien không thể phân biệt genotype 6 và genotype 1. Mà
type 6 thường xuất hiện ở các nước Đông Nam Á. (Nguyễn Thanh Bảo và Phạm Hùng
Vân. 2008.)
Bên cạnh đó, có một số nhà nghiên cứu cho rằng nếu định genotype bằng giải trình
tự vùng 5’-NC sẽ không cho kết quả chính xác mà phải giải trình tự vùng NS5B trên
bộ gen của HCV. Một số y văn trên thế giới chứng minh rằng nếu định genotype HCV
trên vùng NS5B thì sẽ có thể phân biệt được các subtype tốt hơn là dựa trên vùng 5’NC, cũng như là phân biệt được type 6 với subtype 1b hay 1a và 1b chính xác hơn
(Laperche S. 2005, Jean-Jacques Lefrère. 2005).

Vì vậy đề tài này được xây dựng nhằm xác định type HCV dựa trên vùng NS5B
của virus HCV.
1.2 Yêu cầu đề tài
Giải trình tự gene NS5B và xác định các genotype của virus HCV bằng phương
pháp phả hệ phân tử nhằm phục vụ cho việc chẩn đoán và điều trị bệnh viêm gan do
vi-rút HCV gây ra tại Việt Nam.
1.3 Nội dung đề tài
Sau khi giải trình tự vùng gen này và hiệu chỉnh vùng gen sau khi giải.
Thu thập trình tự mẫu trên cơ sở dữ liệu sinh học, tiến hành dựng cây phân loài
cùng với bộ mẫu đã thu thập và chọn lọc trên các cơ sở dữ liệu sinh học.
Xác định chủng vi-rút có trong mẫu bệnh phẩm.

2

phần lớn bệnh nhân không có triệu chứng lâm sàng trong khi một số khác có triệu
chứng giống như bị cảm cúm nhẹ như buồn nôn, mệt mỏi, sốt, nhức đầu, ăn không

3

ngon, đau vùng bụng, và nhức bắp thịt hay ở khớp, có thể vàng da, vàng mắt, nước
tiểu đậm màu. Chẩn đoán bệnh dựa vào xét nghiệm máu.
-

Nhiễm trùng mãn tính: Khoảng 80% trường hợp, cơ thể của họ không đào thải

được hết vi-rút sau 6 tháng, nên chuyển thành viêm gan mãn tính. Ðặc điểm nổi bật
của bệnh viêm gan C mạn tính là sự tiến triển rất thầm lặng qua 10-30 năm, vì thế
người bệnh thường không được chẩn đoán và điều trị kịp thời. Tỉ lệ nhiễm HCV đưa
đến xơ gan 15-20% sau 20 năm, tỉ lệ càng tăng nếu thời gian nhiễm càng lâu.Trong
nhóm bệnh nhân xơ gan do HCV, mỗi năm 1.4-3.3% chuyển sang ung thư gan và 2.64% tử vong. (Stephen L Chen, 2006).
Nhiễm SVC cấp

20% có triệu chứng
80% không triệu chứng
10-20% hồi phục

80-90% viêm gan C mãn tính
60-70% viêm gan mạn sau 10 năm

gai nhỏ khoảng 6nm được cấu tạo bằng glycoprotein, bao quanh một nucleocapsid 3035 nm có cấu trúc đối xứng 20 mặt. Các thể hình cầu HCV có mặt trong hệ tuần hoàn
dưới dạng các phức hợp miễn dịch hoặc kết hợp với lipoprotein huyết thanh.
2.3 Bộ gen vi-rút HCV
Bộ gen của vi-rút viêm gan C là một chuỗi đơn RNA dương, gồm khoảng 9600
nucleotide, được chia làm 3 vùng (Hình 2.3):
- Đầu 5’ không mã hóa (non-cording region) gồm 341 - 344 nucleotid, đây là vùng
ít biến đổi.
- Vùng mã hóa nằm giữa hai đầu 5’ và 3’. Vùng này chỉ có một khung đọc mở duy
nhất gồm 9379-9481 nucleotide. Khung đọc mở duy nhất này được dịch mã và
tiến hành sản xuất một sản phẩm protein duy nhất, mà sau đó được tiếp tục xử lý
để sản xuất các protein hoạt động nhỏ hơn.
- Đầu 3’ không mã hóa 3 'UTR chứa khoảng 225 nucleotide, bao gồm ba cấu trúc
vòng lặp SL1, SL2 và SL3. 3 'UTR tương tác với NS5B RdRp và với hai trong số
bốn cấu trúc vòng lặp ổn định nằm ở đầu 3' của trình tự NS5B.
5

Rfd

RNA virut viêm gan C
(9600 nt base)
Gene gốc mã hóa polyprotein

5’NTR

protein cấu trúc

NS5
A

NS5
B

Hình 2.3 Cấu trúc bộ gen HCV (Mónica Anzola và cvt, 2003).
Các protein cấu trúc bao gồm:
- E1: Là glycoprotein xuyên màng đóng vai quan trọng trong nhập bào tạo điều
kiện cho các phản ứng tổng hợp.
- E2: Đóng vai trò quan trọng trong quá trình xâm nhiễm vào tế bào chủ. Vi-rút
xâm nhập tế bào thông qua sự tương tác E2 với một hoặc một số thành phần của
phức hợp thụ thể. (Chevaliez S, Pawlotsky JM. 2006)
Các protein không cấu trúc bao gồm:
- NS2: là một protein màng đóng vai trò là một protease và tương tác với các
protein tế bào chủ
- NS3: là protein có đầu N serine protease hoạt động và đầu C chứa NTPase /
helicase hoạt động. Nằm trong mạng lưới nội chất và tạo thành một phức hợp
heterodimeric với NS4A.
- NS4B: là protein màng, nằm trong mạng lưới nội chất và đóng một vai trò quan
trọng đối với việc thu nhận các protein virus khác. Nó tạo ra những thay đổi về
hình thái đối với mạng lưới nội chất tạo thành một cấu trúc gọi là hệ thống màng
- NS5A: là một phosphoprotein, đóng vai trò quan trọng trong việc nhân lên của
virus, điều khiển các phản ứng interferon. Nó có nguồn gốc từ một polyprotein
lớn được dịch từ bộ gen HCV, và tiếp tục được xử lý bởi protein 3(NS3)
protease. (Chevaliez.S và Pawlotsky.JM. 2006)

6

- Kiểu 2b thường gặp ở Mỹ và Bắc Âu.
- Kiểu 2c thường gặp ở Tây và Nam Âu.
- Kiểu 3a thường gặp ở Australia và Nam Á.
- Kiểu 4a thường gặp ở Ai cập và Zaire.
- Kiểu 4c thường gặp ở miền trung Châu Phi.
7

- Kiểu 5a thường gặp ở Nam Phi.
- Kiểu 6a thường gặp ở Nam Á, Việt Nam
- Kiểu 7a và 7b thường gặp ở Thái Lan.
- Kiểu 8a, 8b và 9a thường gặp ở Việt nam.
- Kiểu 10a và 11a gặp ở Indonesia.
- Kiểu 1b, 2b và 2a chủ yếu gặp ở vùng Viễn đông và miền nam Châu Phi.
(Nizar N. Zein, 2000)
2.5 Vai trò của nghiên cứu xác định kiểu gen (genotype) và kiểu phụ (subtype)
- Xác định nguy cơ lây nhiễm: Genotype 1b thường gặp ở bệnh nhân được truyền
máu, genotype 3a thường gặp ở đối tượng tiêm chích ma túy. Hiện nay nhiễm vi rút C
genotype 3a gia tăng do số người tiêm chích ma túy tăng lên, còn những người nhiễm
HCV genotype 1b thì giảm do tiến bộ trong kỹ thuật truyền máu.
- Liên quan giữa genotype và mô học: Genotype 1b có nguy cơ trở thành HCC
(ung thư gan) cao gấp 3 lần so với các genotype khác điều này được lý giải là do
những người nhiễm genotype 1b thường sớm hơn những người nhiễm genotype 2 và 3
vài thập kỷ. Các nghiên cứu ở Ý và Pháp lại thấy các tổn thương mô học độc lập với
các genotype.
- Genotype và dự đoán đáp ứng với điều trị: Thông tin về genotype rất quan trọng

trong máu khi gan bị hư và thường tăng cao ở người bị nhiễm HCV. Bệnh nhân bị
nhiễm HCV cho chỉ số hai loại men gan này cao, đây là dấu hiệu đầu tiên họ đã bị
nhiễm bệnh. Những cách đo lường khác là ALK và GGT (alkaline phosphatase &
gamma-glutamyl transpeptidase) cũng được sử dụng trong việc thử nghiệm. Mức độ
bất thường có thể biểu lộ tình trạng xơ gan hoặc ống dẫn mật bị nghẹt, cũng như một
số trường hợp bất thường khác. Ngoài ra có thể đo thời gian đông máu bằng phương
pháp đo thời lượng "prothrombin" và mức độ mật vàng (bilirubin). Bilirubin là một sắc
tố thường thấy trong máu của người có viêm gan. Chất bilirubin cao sẽ gây ra chứng
vàng da (Philippe Halfon, 2006).
2.6.4 Thử Nghiệm Chức Năng và Sinh Hóa của Gan
Một số thử nghiệm máu để đo lường sức hoạt động của gan. Số đo lường phổ thông
nhất là ALT và AST (alanine aminotransferase & aspartate aminotransferase - mà
trước đây gọi là SGPT và SGOT). ALT và AST là những chất men (enzymes) được
tiết vào trong máu khi gan bị hư và thường tăng cao ở người bị nhiễm HCV. Bệnh
nhân bị nhiễm HCV cho chỉ số hai loại men gan này cao, đây là dấu hiệu đầu tiên họ
đã bị nhiễm bệnh. Những cách đo lường khác là ALK và GGT (alkaline phosphatase
& gamma-glutamyl transpeptidase) cũng được sử dụng trong việc thử nghiệm. Mức
độ bất thường có thể biểu lộ tình trạng xơ gan hoặc ống dẫn mật bị nghẹt, cũng như
một số trường hợp bất thường khác. Ngoài ra có thể đo thời gian đông máu bằng
phương pháp đo thời lượng (prothrombin) và mức độ mật vàng (bilirubin). Bilirubin là
một sắc tố thường thấy trong máu của người có viêm gan. Chất bilirubin cao sẽ gây ra
chứng vàng da.
9

2.6.5 Sinh thiết gan (Liver Biopsy)

10

cho thấy nếu nhắm mục tiêu vào khu vực có nhiều biến đổi như vùng gen NS5B có
khả năng làm suy yếu hiệu quả khuếch đại. Những biến đổi tiềm tàng trên vùng gen
này có thể làm giảm hiệu năng của mồi PCR và các đầu dò.
Sueli M Nakatani và ctv (2011) tiến hành so sánh hiệu năng xác định kiểu gen HCV
dựa trên khu vực 5 'UTR với một phần trình tự trên khu vực NS5B của 171 bệnh nhân
Brazil mắc bệnh viêm gan C mãn tính. Kết quả cho thấy không có sự khác biệt trong
việc phân loại của tất cả 171 mẫu bằng hai phương pháp phân tích trình tự NS5B và
Lipa (5'UTR). Tuy nhiên, sự khác biệt ở cấp subtype đã được tìm thấy tới 47,9%
(82/171). Trong đó phương pháp Lipa không thể phân biệt 39,6% (40/101) kiểu gen ở
cấp subtype mà chủ yếu là nhầm lẫn giữa subtype 1a, 1b. Hiện nay, xét nghiệm dựa
trên khu vực 5’UTR chính xác với hơn 95% với các kiểu gen đã được xác định trình tự
nucleotide của khu vực NS5B hoặc vùng mã hóa khác của bộ gen HCV (Simmonds P
và ctv,1993 ). Trong nghiên cứu này, phương pháp Lipa và giải trình tự trên vùng gen
NS5B cho thấy sự phù hợp 100% xác chính xác các type. Tuy nhiên, tùy thuộc vào
khu vực địa lý, kiểu gen xác định dựa trên 5'UTR có thể không đáng tin cậy bởi vì một
số kiểu gen 6 biến thể đã được tìm thấy ở Đông Nam Á có trình tự 5'UTR giống hệt
các kiểu gen 1a hoặc 1b ( Murphy DG và ctv, 2007).
2.7.2 Nghiên cứu trong nước
song song với những nghiên cứu của thế giới, ở Việt Nam cũng có những đề
nghiên cứu để có khả năng đáp ứng điều trị cho căn bệnh nguy hiểm này.
Hồ Tấn Đạt và cộng sự (2005). Xác định HCVRNA bằng kỹ thuật nested PCR
cho 327 trường hợp bệnh nhân người Việt Nam. Kết quả cho thấy kiểu gen HCV chủ
yếu ở người Việt Nam là kiểu gen 1 (Chiếm 58,4%), tiếp theo là kiểu gen 6 (23,9%),

khác nhau về độc lực, khả năng gây bệnh và khả năng đáp ứng điều trị và genotype 1
thường đáp ứng thấp hơn với các genotype khác.
2.8 Định danh HCV dựa vào vùng non-structure NS5B
Vùng NS5B thuộc vùng gen không cấu trúc, nằm ở gần đầu 3’UTR.Vùng NS5B có
độ bảo tồn và độ biến động cao, đặc trưng cho từng genotype và có thể dùng để phân
biệt đến từng subtype.
2.8.1 Phương pháp giải trình tự
Phương pháp giải trình tự vùng NS5B được xem là phương pháp chuẩn để xác định
genotype và subtype của virus HCV. Hai phương pháp chính được thực hiện là:
phương pháp hóa học của Maxam-Gilbert và phương pháp enzyme học của Sanger sử
dụng các dideoxynucleotide và một phương pháp được sử dụng hiện nay là phương
pháp giải trình tự bằng máy tự động.
Phương pháp hóa học của Maxam-Gilbert
Vào năm 1977, Maxam và Gilbert lần đầu tiên phát minh ra phương pháp giải trình
tự gen bằng phương pháp hóa học. Nguyên tắc của phương pháp là dựa vào sự thủy
phân phân tử DNA bằng phương pháp hóa học. Trước hết, tạo mạch khuôn DNA trên
cơ sở các phân tử DNA được đánh dấu phóng xạ P32 ở đầu 5’ và biến tính phân tử
DNA thành các mạch đơn không tự xoắn lại với nhau. Sau đó, thực hiện kĩ thuật xử lý
12

hóa học đặc hiệu để phân cắt các mạch đơn thành các đoạn ngắn hơn kém nhau một
nucleotide, từ đó xác định trình tự DNA bằng phương pháp điện di.
Ưu điểm: dễ tiến hành, chi phí thấp.
Nhược điểm: độ chuẩn xác không cao, cần phải thực hiện nhiều lần và loại bỏ các
sai sót để chọn kết quả gần đúng nhất.

tượng này xảy ra do nhiều nguyên nhân như bản chất của trình tự khảo sát, sự nhiễm
các mẫu DNA khi thực hiện, thao tác và loại phương pháp giải trình tự sử dụng.
Mặc dù những cải tiến về mặt kỹ thuật và thuật toán nhằm cải thiện độ chính xác
trong việc đọc các base của máy đang được nghiên cứu tích cực, tuy nhiên tỷ lệ sai sót
vẫn có thể xảy ra và khó có thể đọc chính xác tuyệt đối bằng phương pháp tự động.
Khi một base bị đọc sai có thể dẫn đến nhiều sai lầm nghiêm trọng trong việc phân tích
sau này. Do vậy, biện pháp hiệu chỉnh lại trình tự cần được thực hiện trực tiếp bằng
phương pháp thủ công (quan sát) nhằm khắc phục tối đa việc xác định sai base.
(Ewing và ctv, 1998)
2.8.3 Nghiên cứu phát sinh loài
Nghiên cứu quan hệ phát sinh chủng loài là một lĩnh vực đã được tìm hiểu từ hàng
thế kỷ nay. Các nhà hệ thống học luôn cố gắng sử dụng các phương pháp có độ tin cậy
cao nhằm mô phỏng, suy luận cây tiến hoá chính xác nhất có thể từ các dữ liệu sinh
học. Trong những năm trước đây, việc thiếu những tiêu chuẩn khách quan cũng như
những phương pháp hỗ trợ đã khiến cho việc xây dựng các mô hình này rất khó khăn.
Các nghiên cứu thường tập trung xem xét các vấn đề về định nghĩa loài, sự hình thành
loài mới mà ít quan tấm đến vấn đề phát sinh loài. Ngày nay, việc nghiên cứu phát
sinh chủng loài không chỉ dừng lại ở việc mô tả, định danh mà còn góp phần giải thích
những quá trình sinh học diễn ra trong tế bào, cơ thể sống hay mối quan hệ giữa các
nhóm loài với nhau.
Những thành tựu của Sinh học phân tử vào những năm 1960 và sự hỗ trợ của máy
tính trong việc phân tích dữ liệu đã giúp đây nhanh việc nghiên cứu phát sinh loài rất
nhiều. Phản ứng PCR, lai DNA-DNA, kỹ thuật RAPD, hay DNA fingerprinting là
những kỹ thuật mới được ứng dụng. Bên cạnh đó, những kỹ thuật cũ như điện di dị
enzyme hay di truyền học tế bào vẫn tiếp tục được sử dụng trong nghiên cứu phát sinh
loài. Và hiện nay, để có thể xây dựng một mô hình phát sinh loài chính xác cần kết

tích một họ gene thì 2 điều kiện bắt buộc phải thỏa mãn là: sinh vật chọn lấy mẫu phải
đảm bảo tính đa dạng sinh học, gene trực giao và gene đẳng giao (orthologous và
paralogous) trong cùng một sinh vật lấy mẫu phải được đọc trình tự đầy đủ.
Để xác định hướng tiến hóa, việc thêm nhóm đối chứng (outgroup) có ý nghĩa quan
trọng đáng kể. Thông thường để tăng độ chính xác của cây tiến hóa, nhóm outgroup
được chọn thường là nhóm có quan hệ gần nhất với nhóm đang được phân tích.
Đọc trình tự gene, hiệu chỉnh trình tự và sắp cột thẳng hàng
Các phân tích phát sinh chủng loài dựa trên sự khác biệt khi quan sát các trình tự
được so sánh thẳng hàng. Do đó lỗi trình tự có thể làm cây tiến hóa không chính xác.
Đặc biệt với trường hợp vùng DNA có độ bảo tồn cao và nhà phân tích chọn mô hình
tiến hóa phức tạp thì lỗi trình tự sẽ cho ra kết quả có độ sai khác rất lớn. Để tránh
trường hợp này, người ta đọc trình tự cả hai sợi để việc hiệu chỉnh sau đó được đảm
bảo tính khách quan hơn.
Việc sắp cột thằng hàng có thể thực hiện bằng máy tính một cách tự động. Tuy
nhiên, với những gene hay vùng DNA kém bảo tồn thì quá trình sắp xếp thẳng hàng tự
15

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

XÂY DỰNG QUY TRÌNH ĐỊNH HCV GENOTYPE BẰNG PHƯƠNG PHÁP GIẢI TRÌNH TỰ VÙNG GENE NS5B - Pdf 50

Tài liệu, ebook tham khảo khác

Học thêm