ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
YZ
LÊ NGỌC CHÂU
PHÂN TÍCH TÍNH ĐA HÌNH CỦA TRÌNH TỰ 16S RNA,
CYTOCHROME B TY THỂ VÀ MỐI QUAN HỆ PHÁT SINH
LOÀI CỦA HEO RỪNG VIỆT NAM
Chuyên ngành: Di truyền học
Mã số chuyên ngành: 60 42 70
LUẬN VĂN THẠC SĨ: SINH HỌC
NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS. HOÀNG NGHĨA SƠN
Thành phố Hồ Chí Minh, năm 2012
LỜI CẢM ƠN
Lời đầu tiên, con xin gửi lòng biết ơn sâu sắc đến Ba Mẹ, người đã sinh thành
và dưỡng dục con nên người. Ba Mẹ là chỗ dựa vững chắc, nguồn động viên, cho con
nghị lực mạnh mẽ vượt qua những khó khăn, thử thách trong cuộc sống.
Và với tất cả lòng biết ơn chân thành, em xin gửi lời cảm ơn đến:
Thầy Hoàng Nghĩa Sơn đã tận tình hướng dẫn, tạo mọi điều kiện tinh thần và
vật chất tốt nhất cho em học tập, nghiên cứu và hoàn thành luận văn này.
Anh Lê Thành Long đã chỉ dạy tận tình, cho em những lời khuyên bổ ích và giúp
đỡ em tháo gỡ khó khăn trong suốt thời gian làm luận văn.
Cô Vân, chị Phương Thảo, anh Phúc Chiến và bạn Khánh Thanh thuộc phòng
Công nghệ sinh học động vật, viện Sinh học Nhiệt đới thành phố Hồ Chí Minh, đã
Một số marker phân tử .................................................................................. 15
1.6.
Các nghiên cứu về quan hệ phát sinh loài phân tử của heo rừng .................... 21
Chương 2: Vật liệu – Phương pháp
2.1.
Vật liệu ......................................................................................................... 24
2.2.
Phương pháp ................................................................................................. 27
Chương 3: Kết quả ‒ Biện luận
3.1.
Mối quan hệ phát sinh loài dựa trên trình tự gen cytochrome b ..................... 35
3.2.
Mối quan hệ phát sinh loài dựa trên trình tự 16S ........................................... 44
3.3.
Xây dựng cây phát sinh loài dựa trên mối quan hệ với gen
cytochrome b và gen 16S ......................................................................................... 53
Kết luận .................................................................................................................. 57
Deoxyribonucleic Acid
EN
Endangered
G
Guanine
HSP
H-Strand Promoter
IUCN
International Union for Conservation of Nature
LSP
Light-Strand Promoter
ME
Minimum Evolution
ML
Maximum Likelihood
ribosomal Ribonucleic Acid
SNP
Single-Nucleotide Polymorphism
T
Thymine
TAE
Tris-Acetate-EDTA
TAS
Termination Associated Sequence
tRNA
transfer Ribonucleic Acid
UPGMA
Unweighted Pair-Group Method with Arithmetic mean
ii
Danh mục bảng
Danh mục hình
Lê Ngọc Châu
Danh mục hình
Hình 1: Heo rừng trong môi trường tự nhiên ............................................................. 5
Hình 2: Heo rừng khi còn non ................................................................................... 7
Hình 3: Phân loại cây phát sinh loài theo Page và Holmes (1998) ............................ 10
Hình 4: Những mối quan hệ giữa loài tổ tiên và loài hiện tại .................................... 12
Hình 5: Cấu trúc DNA ty thể của người..................................................................... 16
Hình 6: Cấu trúc của protein cytochrome b ............................................................... 18
Hình 7: Cấu trúc vùng kiểm soát của ty thể ở động vật có vú..................................... 19
Hình 8: Một số thiết bị sử dụng ................................................................................. 24
Hình 9: Một số dụng cụ sử dụng ................................................................................ 25
Hình 10: Kit PureLinkTM Spin Column ...................................................................... 26
Hình 11: Sơ đồ tóm tắt thí nghiệm ............................................................................. 27
Hình 12: Một cá thể heo rừng lai thu nhận ở khu vực Lâm Đồng .............................. 29
Hình 13: Sơ đồ tóm tắt quy trình tách chiết ............................................................... 30
Hình 14: Hình đại diện kết quả khuếch đại vùng gen CY2 ở các mẫu heo rừng ......... 35
Hình 15: Vị trí các điểm đột biến và điểm đa hình trong vùng trình tự cytochrome b
(1140 bp) ở các cá thể heo rừng ................................................................................ 39
Hình 16: Vùng trình tự polypeptide cytochrome b gồm 336 amino acid được dịch mã từ
đoạn gen cytochrome b dài 1140 bp .......................................................................... 41
Hình 17: Cây phát sinh loài NJ (Neighbor‒Joining) mô tả mối quan hệ giữa các cá thể
heo rừng Việt Nam, heo rừng lai, Hàn Quốc, Tây Ban Nha, Trung Quốc và Rumani
dựa trên trình tự 1140 bp của gen cytochrome b........................................................ 43
Hình 18: Hình đại diện kết quả khuếch đại vùng gen S1 ở các mẫu heo rừng ............ 44
Hình 19: Vị trí các điểm đột biến và điểm đa hình trong vùng trình tự 16S (997 bp) ở
các cá thể heo rừng ................................................................................................... 48
(J. Koji Lum, 2006), cytochrome b (Y. N. Jiang, 2008),… giúp xác định những biến dị
cũng như cây phát sinh loài giữa các loài heo bản địa trên thế giới, từ đó xác định được
mức độ đa dạng cũng nguồn gốc của loài heo trên thế giới (E. Giuffra, 2000).
Hiện nay một số nghiên cứu trên heo rừng thuần Việt Nam đã được tiến hành.
Vùng D‒loop của DNA heo rừng của Việt Nam ở một số tỉnh miền Bắc đã được giải
trình tự và xác định các biến dị giữa các loài heo bản địa cũng như so sánh loài heo
Việt Nam với loài heo của Nhật Bản (Naotaka Ishiguro, 2008) hay việc sử dụng
microsatellites để đánh giá so sánh tính đa hình cũng như mức độ đa dạng di truyền của
một số loài heo rừng miền Bắc với châu Âu (N.T.D. Thuy, 2006). Tuy nhiên, các
nghiên cứu sử dụng heo rừng khu vực miền Trung, miền Nam cũng như trình tự
cytochrome b và 16S trong đánh giá biến dị và đa dạng di truyền vẫn chưa được quan
tâm nghiên cứu đầy đủ.
Trong đề tài này, chúng tôi tiến hành giải trình tự vùng cytochrome b và 16S của
DNA ty thể heo rừng Việt Nam khu vực Tây Nguyên và phân tích điểm đa hình cũng
như những khác biệt di truyền của heo rừng Việt Nam khu vực Tây Nguyên so với một
số loài heo rừng các nước khác. Kết quả nghiên cứu này là cơ sở cho các nghiên cứu
tiếp theo như bảo tồn hay sử dụng nguồn gen heo rừng Tây Nguyên trong công tác lai
tạo giống.
1
Mở đầu
Lê Ngọc Châu
Mục tiêu đề tài
1. Giải trình tự gen cytochrom b và gen 16S. Xác định các SNP (single nucleotide
polymorphism) và thiết lập bộ đa hình đặc trưng của heo rừng Việt Nam khu vực
Tây Nguyên.
Tổng quan tài liệu
Lê Ngọc Châu
1.1. Giới thiệu về heo rừng
1.1.1. Phân loại
Heo rừng (Sus scrofa) không phải là loài thú quý hiếm, nổi tiếng như sao la
(Psendoyx nghetinhensis) hay mang lớn (Megamuntiacus vuquangensis) nhưng lại là
loài thú có giá trị kinh tế cao. Theo IUCN, heo rừng được xếp vào nhóm gặp nguy
hiểm (Endangered – EN). Chúng phải đối mặt với nguy cơ tuyệt chủng trong tự nhiên
rất cao (Oliver, 2008).
Heo rừng còn gọi là lợn lòi, tên khoa học là Sus scrofa (Linnaeus, 1758) thuộc
họ heo (Suidae), bộ guốc chẵn (Artiodaclyta). Heo rừng có rất nhiều loài phụ. Các loài
phụ khác nhau có thể được phân biệt dựa trên chiều dài, hình dáng của xương hốc mắt
ví dụ như S.scrofa cristatus và S.scrofa vittatis có xương hốc mắt ngắn hơn các loài
Châu Âu (Kingdon, 1997). Dưới đây là một số phụ loài heo rừng đã được nhận biết
(Groves, 2008):
Nòi Viễn Tây (nhóm scrofa)
a. Heo rừng phổ biến nhất: sus scrofa scrofa: phân bố chính từ Pháp tới vùng
phía tây Châu Âu (Nga).
b. Heo rừng Iberia: sus scrofa baeticus: một phụ loài nhỏ trên bán đảo Iberia.
c. Heo rừng Castilia: sus scrofa castilia: lớn hơn S. s. baeticus, phía bắc Tây
Ban Nha (Wilson, 2005).
d. Heo rừng Sandinia: sus scrofa meridionalis: một loài heo rừng nhỏ từ
Corsica, Sadinia và Andalisua. Heo rừng Italia: sus scrofa majori: loài heo
rừng này nhỏ hơn S. s. scrofa.
e. Sus scrofa Attila: loài heo rừng rất lớn sống ở phía tây Châu Âu từ
Kazakhstan, tới bắc Caucausus và Iran (Groves, 2008).
f. Heo rừng Barbary: sus scrofa algria: sống ở vùng Maghreb phía tây bắc
và Indonesia từ đảo Sumatra và Java tới Komodo.
4
Tổng quan tài liệu
Lê Ngọc Châu
(A)
(B)
Hình 1: Heo rừng trong môi trường tự nhiên:
(A) Sus scrofa cristatus (Nguồn: haryana-online.com)
(B) Sus scrofa scrofa (Nguồn: en.wikipedia.org)
1.1.2. Đặc điểm chung
Heo rừng phân bố khắp nơi trên thế giới. Ở Việt Nam, chúng có mặt từ trung du
đến miền núi. Phạm vi hoạt động của heo rừng rất rộng. Chúng sống được trong nhiều
sinh cảnh khác nhau như rừng thứ sinh, rừng thưa (trừ núi đá) nhưng thích hợp nhất là
những thung lũng ven các suối nước có độ ẩm cao, nhiều thức ăn như rừng tre nứa, gần
nương rẫy. Chúng sống theo bầy đàn, có những bầy đàn lớn từ 20–100 con. Tuy nhiên,
chúng ta thường chỉ gặp những đàn dưới 20 con. Những con đực bình thường vẫn kiếm
ăn một mình, đến mùa động dục chúng mới nhập đàn, tìm bạn tình. Chúng thường
kiếm ăn vào ban đêm từ chập tối đến gần sáng và nghỉ ngơi trong bụi rậm vào buổi
5
Tổng quan tài liệu
6
Tổng quan tài liệu
Lê Ngọc Châu
Hình 2: Heo rừng khi còn non (Nguồn: fieldguides.eol.org)
1.2. Tiến hoá phân tử và phát sinh loài phân tử
Thông tin di truyền của mọi sinh vật trong sinh giới (trừ vài virus) được quy
định bởi trình tự sắp xếp của bốn loại nucleotide: adenine (A), thymine (T), guanine
(G), cytosine (C). Trong quá trình tồn tại và phát triển, trải qua quá trình tiến hóa, trình
tự thông tin di truyền của sinh vật xuất hiện những sai khác ở một hay một vài vị trí
nucleotide so với trình tự ban đầu. Vì vậy, trình tự thông tin di truyền của sinh vật này
có thể so sánh với các sinh vật khác để tìm ra mối quan hệ tiến hóa giữa chúng.
Kỷ nguyên sinh học phân tử thực sự bắt đầu sau sự kiện toàn bộ trình tự bộ gen
của Haemophilus influenza được công bố vào tháng 7 năm 1995. Ngày 14–04‒2003,
toàn bộ trình tự DNA người đã được giải mã và công bố tại hội nghị thường niên của
7
Tổng quan tài liệu
Lê Ngọc Châu
NIH. Theo đánh giá của các nhà khoa học: “đây là ngày chúng ta hoàn tất lần xuất bản
đầu tiên Cuốn sách của sự sống.” Rõ ràng, trình tự DNA được công nhận là tài liệu vô
giá ghi nhận lịch sử sự sống trên trái đất. Những thông tin sự sống được mã hóa bằng
trình tự gen như thế nào hay bằng cách nào có thể khôi phục lại nguồn thông tin này là
Loài tiến hóa
“Loài là một dòng duy nhất các cá thể hậu duệ của một tổ tiên chung, duy trì và
phân biệt đặc điểm với loài khác, chịu sự tác động của lịch sử và quá trình tiến hóa”,
(Wiley,1978). Theo quan điểm này, tất cả các loài trong quá khứ và loài hiện tại có
chung một con đường tiến hóa; không có dòng sinh vật nào có thể được chia thành loài
tổ tiên và loài hậu duệ. Mayr (1982) đã chỉ ra các khuyết điểm của khái niệm loài tiến
hóa như: giảm thiểu các vấn đề của loài, quá trình tích lũy và duy trì những gián đoạn
giữa các loài, làm thế nào để phân loại các loài đa chiều…(Ouithavon, 2009)
Loài phát sinh
“Loài là một nhóm nhỏ nhất các cá thể mang một phần đặc điểm của tổ tiên và
của bố mẹ”, (Cracraft, 1983). Cracraft cho rằng nếu cách ly sinh sản không được coi là
vấn đề chính trong sự khác biệt phân loại thì đó phải là hoạt động sơ khai và sinh sản
ngẫu nhiên. Theo khái niệm này, loài được ghi nhận rất nghiêm ngặt về tình trạng của
chúng, chẳng hạn như thông tin quá trình tiến hóa. Theo đó, hai đơn vị phân loại thân
thuộc có thể giao phối và vẫn được xem là loài nếu như chúng có những đặc điểm riêng
biệt nhau (Ouithavon, 2009).
1.4. Các khái niệm về phát sinh loài
Ngày nay, các đặc tính loài kế thừa từ tổ tiên, được lưu giữ thông qua trình tự
DNA đã bổ sung thêm thông tin cho hình thái học, cung cấp những hiểu biết tốt hơn về
phát sinh loài. Điều này giúp cho chúng ta hiểu hơn về lịch sử của loài cũng như mối
quan hệ giữa loài này với các loài khác. Phát sinh loài hay cây tiến hóa là một cấu trúc
toán học được sử dụng để mô hình hóa thực tế lịch sử tiến hóa của các nhóm trình tự
hay các sinh vật.
1.4.1. Cây phát sinh loài
Một cây phát sinh loài gồm có các node (điểm) được nối với nhau bởi các
“nhánh”. Cấu trúc của nó bao gồm: “điểm tận cùng” là thông tin đại diện cho nhóm
trình tự hay loài sinh vật, vẫn đang tồn tại hoặc đã tuyệt chủng; “điểm trung gian” thể
9
Plesiomorphy: sinh vật có trình tự thông tin tương đồng với tổ tiên chung của tất
cả những trình tự đã nghiên cứu trước đó.
Apomorphy: ngược lại với plesiomorphy, là nhánh sinh vật có những khác biệt
cơ bản so với tổ tiên chung.
Autapomorphy: tương tự như apomorphy, nhưng là những tình trạng đặc tính
tồn tại duy nhất.
Synapomorphy: tương tự như apomorphy, nhưng chia sẻ những tình trạng tồn tại
với nhau và không tìm thấy những loài thân cận.
Homoplasy: sinh vật có những trình tự di truyền tương tự nhau, được thừa
hưởng một cách độc lập từ những tổ tiên của chúng. Những sinh vật này không
thấy rõ mối quan hệ tiến hóa do những điểm tương đồng không phản ánh được
mối quan hệ tổ tiên.
11
Tổng quan tài liệu
Lê Ngọc Châu
Hình 4: Những mối quan hệ giữa loài tổ tiên và loài hiện tại
Chỉ số bootstrap: là tần số xuất hiện của một nhóm (cluster) trên số lần giản đồ
được thiết lập. Đơn vị tính là % (phần trăm). Theo Felsenstein (1985), bootstrap
là một công cụ hỗ trợ cho việc xây dựng cây phát sinh loài. Chỉ số bootstrap nói
lên độ tin cậy của sự gần gũi các thành viên trong nhóm của cây phát sinh loài.
Chỉ số CI (Consistency Index): là tỷ số đo tương thích giữa một cây bất kỳ nào
đó trong tổng số các cây được phân tích có tổng số nhánh ít nhất. Giá trị CI biến
động trong khoảng 1.0 (tương thích tối đa) tiệm cận đến 0 (ít tương thích nhất).
quan hệ chức năng trong số các giá trị khoảng cách .
Goodness of fit measures: phương pháp này tạo ra cây tốt nhất cho khoảng cách
quan sát đầu tiên, bước thứ hai tạo ra cây có tổng chiều dài nhánh là tối thiểu.
Phương pháp ME (Minimum Evolution): cây tiến hóa ME là cây có tổng chiều
dài nhánh thấp nhất. Tuy nhiên, chiều dài trong trường hợp này được tính toán
từ khoảng cách pair–wise giữa những trình tự thì ít hơn từ vị trí của các
nucleotide. Một cây tương đồng được thiết lập trước tiên. Sau đó, cây này sẽ
được tính toán và sắp xếp lại tạo ra một cây tiến hóa ngắn hơn.
13
Tổng quan tài liệu
Lê Ngọc Châu
Phương pháp NJ (Neighbor‒Joining): là phương pháp được sử dụng rộng rãi để
xây dựng cây tiến hóa dựa trên sự kết hợp giữa tốc độ tính toán và tính duy nhất
của kết quả. Phương pháp này là một phương pháp phân nhóm chứ không phải
phương pháp tối ưu. Tuy nhiên, đây là một phương pháp hữu ích để kiểm chứng
cây tiến hóa tối thiểu cũng được xem như dạng đơn giản của phương pháp tiến
hóa tối thiểu. Điểm chính của phương pháp này là hai đơn vị phân loại được kết
nối với nhau bằng một node nội bộ riêng lẻ thành một cây chia hai nhánh không
có gốc. Như vậy, hai loài được coi là có quan hệ thân thuộc nếu chúng được liên
kết bằng một node nội bộ riêng lẻ.
Phương pháp UPGMA (Unweighted Pair‒Group Method with Arithmetic
mean): đây là phương pháp đơn giản nhất để xây đựng cây tiến hóa. Phương
pháp này ban đầu được sử dụng trong những bản ghi xây dựng nhưng nó cũng
được dùng để dựng cây tiến hóa khi tỷ lệ tiến hóa gần như không đổi. Trừ khi tỷ
lệ thay đổi vị trí thông tin di truyền là một hằng số, UPGMA thường cho một
chứa hệ gen mã hóa cho khoảng 13 protein của riêng ty thể. Các dạng mRNA, tRNA,
rRNA trong ty thể đều được phiên mã từ DNA ty thể và chúng là cơ sở để ty thể tự
tổng hợp lấy một số protein của mình. Hệ gen của ty thể được sắp xếp rất hiệu quả:
không có intron, vùng “trống” do khung đọc mở chồng lên nhau nhỏ. Vùng kiểm soát
là vùng không mã hóa chính, có chức năng điều hòa quá trình phiên mã ở chuỗi nặng
và chuỗi nhẹ cũng như quá trình sao chép chuỗi nặng.
15
Tổng quan tài liệu
Lê Ngọc Châu
Hình 5: Cấu trúc DNA ty thể của người
DNA ty thể được xem như một marker phân tử nhờ những ưu điểm sau
(Ouithavon, 2009):
Tỷ lệ đột biến của DNA ty thể cao gấp 10 lần so với DNA trong nhân do cơ chế
sửa sai trong quá trình sao chép không hiệu quả. Chính vì vậy DNA ty thể rất
hữu ích cho việc phân tích mối quan hệ di truyền của từng cá thể trong nhóm
của cùng một loài hoặc đánh giá mối quan hệ giữa các cá thể (mối quan hệ tiến
hóa) giữa các loài khác nhau, từ đó có thể biết được khoảng cách tiến hóa giữa
các loài. Khi một loài nào đó có mối quan hệ tiến hóa càng xa thì số lượng sự
khác biệt trở nên lớn hơn.
Những vùng khác nhau của DNA ty thể có mức độ tiến hóa khác nhau. Điều này
tạo điều kiện thuận lợi cho việc lựa chọn vùng gen thích hợp với từng mục tiêu
nghiên cứu.
16