426
21.1. Các phơng pháp mới đ giúp gia tăng tốc độ
giải trình tự các hệ gen
21.2. Các nhà khoa học ứng dụng tin sinh học để
phân tích các hệ gen và chức năng của chúng
21.3. Các hệ gen khác nhau về kích cỡ, số gen và
mật độ gen
21.4. Sinh vật nhân thật đa bào có nhiều ADN không
m hóa và nhiều họ đa gen
21.5. Lặp đoạn, tái sắp xếp và đột biến trong trình tự
ADN đóng góp vào quá trình tiến hóa
21.6. So sánh các trình tự hệ gen cung cấp bằng
chứng về các quá trình tiến hóa và phát triển gời phụ nữ trên Hinh 21.1 và con tinh tinh bên cạnh
cô đang cời đùa với nhau có thật vậy không? Họ có
hiểu những câu đùa giỡn và đáp lại bằng vẻ mặt cùng
với các tiếng phát âm của nhau không? Nhờ những kỹ thuật
đợc phát triển gần đây trong việc giải trình tự nhanh toàn bộ
các hệ gen, giờ đây chúng ta có thể tuyên bố về cơ sở di truyền
liên quan đến các câu hỏi hấp dẫn nh vừa đợc nêu.
Tinh tinh (Pan troglodytes) là loài có quan hệ sống gần
chúng ta nhất trên cây tiến hóa của sự sống. Hệ gen của nó
đợc giải trình tự hoàn toàn vào năm 2005, nghĩa là khoảng 2
năm sau khi việc giải trình tự hệ gen ngời hoàn thành phần
lớn. Giờ đây chúng ta đã có thể so sánh hệ gen của chúng ta với
đang tăng lên nhanh chóng đã dẫn đến sự hình thành của lĩnh
vực tin sinh học (bioinformatics), lĩnh vực ứng dụng các
phơng pháp khoa học máy tính vào việc lu giữ và phân tích
các số liệu sinh học.
Chúng ta sẽ bắt đầu chơng này bằng việc thảo luận về hai
hớng nghiên cứu, gồm các kỹ thuật giải trình tự hệ gen và một
số tiến bộ trong việc ứng dụng tin sinh học. Sau đó chúng ta sẽ
sơ lợc về những hiểu biết thu nhận đợc từ việc giải trình tự
các hệ gen đã đợc tiến hành đến nay. Sau đó chúng ta sẽ mô tả
về thành phần hệ gen ngời nh một hệ gen đại diện cho các
sinh vật nhân thật đa bào. Cuối cùng, chúng ta sẽ cùng tìm hiểu
những quan điểm về quá trình tiến hóa và các cơ chế phát triển
vốn là cơ sở tạo nên sự đa dạng vĩ đại của sự sống hiện có trên
Trái Đất.
N
Các khái niệm chínhTổng quan
Đọc các lá trên cây sự sống
Hình 21.1 Thông tin nào trong hệ gen đã tạo nên
con ngời và tinh tinh
?
Các hệ gen
và sự tiến hóa
của chúng
Chơng 21 Các hệ gen và sự tiến hóa của chúng 427
Khi đã có trong tay bản đồ di truyền tế bào của các nhiễm
sắc thể, giai đoạn đầu tiên của tiến trình giải trình tự hệ gen
ngời là xây dựng một bản đồ liên kết (một loại bản đồ di
truyền; xem Chơng 15) của khoảng vài nghìn dấu chuẩn di
truyền đợc phân bố khắp các nhiễm sắc thể (Hinh 21.2 giai
đoạn ). Trật tự vị trí của các dấu chuẩn và khoảng cách giữa
chúng trên bản đồ đợc xác định trên cơ sở tần số tái tổ hợp
(xem Hình 15.11). Các dấu chuẩn di truyền có thể là các gen
hoặc là các đoạn trình tự ADN khác có thể xác định đợc,
chẳng hạn nh các RFLP hay các trình tự lặp lại kế tiếp ngắn
(STR) đã đợc đề cập ở Chơng 20. Tính đến năm 1992, các
nhà nghiên cứu đã tập hợp đợc một bản đồ liên kết ở ngời
gồm khoảng 5000 dấu chuẩn khác nhau. Một bản đồ nh vậy
đã giúp họ xác định đợc vị trí của các dấu chuẩn khác, bao
gồm cả các gen, bằng việc kiểm tra tính liên kết di truyền của
chúng với các dấu chuẩn đã biết trớc đó. Ngoài ra, nó còn có
giá trị là phần cốt lõi của việc lập bản đồ chi tiết hơn tại những
vùng nhất định trong hệ gen.
Giai đoạn tiếp theo là việc lập bản đồ vật lý hệ gen ngời.
Trong bản đồ vật lý, khoảng cách giữa các dấu chuẩn đợc
biểu diễn bởi đơn vị vật lý, thờng là số cặp bazơ nitơ (bp) dọc
theo phân tử ADN. Để lập một bản đồ hệ gen hoàn chỉnh, một
bản đồ vật lý đợc thiết lập bằng cách cắt phân tử ADN tơng
ứng với một nhiễm sắc thể thành một số các phân đoạn giới hạn
rồi xác định trật tự của các phân đoạn trên phân tử ADN nhiễm
sắc thể gốc. Chìa khóa để thực hiện điều này là cần tạo ra các
phân đoạn ADN gối lên nhau, rồi sử dụng các mẫu dò hoặc
phơng pháp giải trình tự tự động các trình tự đầu cuối của
những phân đoạn này để tìm ra các trình tự gối lên nhau đó
(Hình 21.2, giai đoạn ). Bằng cách đó, có thể đặt các phân
đặc thù đợc xác định bằng
phơng pháp lai insitu (FISH)
Vị trí gen đợc xác
định bằng FISH
Các băng nhiễm sắc thể
sau khi đợc nhuộm
Bản đồ liên kết
Xác định trật tự của các
dấu chuẩn di truyền
nh RFLP, STR và các
đa hình di truyền khác
(khoảng 200 dấu chuẩn
trên mỗi nhiễm sắc thể)
Bản đồ vật lý
Xác định trật tự của các
phân đoạn lớn gối lên
nhau đợc nhân dòng
bởi các vectơ YAC và
BAC; sau đó là trật tự
của các đoạn ngắn hơn
đợc nhân dòng bởi các
vectơ plasmid và phagơ
Giải trình tự ADN
Xác định trình tự của các
nucleotide trên mỗi đoạn
ngắn và ghép nối các trình tự
thành phần với nhau thành
trình tự hệ gen hoàn chỉnh
Các dấu chuẩn
đợc chúng ta đề cập; tuy vậy, mô hình này phản ánh đúng
chiến lợc nghiên cứu tổng thể đợc dùng trong Dự án Hệ gen
Ngời. Trong quá trình thực hiện dự án, một chiến lợc khác
nhằm giải trình tự hệ gen đã xuất hiện và sau đó đợc áp dụng
rộng rãi nhờ hiệu quả cực kỳ cao của nó. Phần tiếp theo, chúng
ta đề cập đến chiến lợc giải trình tự này.
Giải trình tự ngẫu nhiên toàn hệ gen
Năm 1992, mạnh dạn dựa trên các thành tựu mới của kỹ thuật
giải trình tự và công nghệ máy tính, J. Craig Venter - một nhà
sinh học phân tử - đã phát minh ra một phơng pháp giải trình
tự toàn hệ gen mới. Đợc đặt tên là phơng pháp giải trình tự
ngẫu nhiên toàn hệ gen (hay phơng pháp shotgun), thực chất
phơng pháp này đã bỏ qua các giai đoạn lập bản đồ liên kết và
bản đồ vật lý; thay vào đó, nó bắt đầu ngay bằng việc giải trình
tự các phân đoạn ADN ngẫu nhiên của toàn hệ gen. Sau đó, các
chơng trình máy tính mạnh sẽ tiến hành sắp xếp một số lợng
lớn các phân đoạn ADN đã đợc giải trình tự, dựa trên các đoạn
trình tự ngắn nằm gối lên nhau của chúng, thành một trình tự
liên tục duy nhất (Hinh 21.3).
Mặc dù ban đầu bị hoài nghi bởi nhiều nhà khoa học, giá trị
của phơng pháp Vender trở nên rõ ràng vào năm 1995 khi ông
và cộng sự công bố hệ gen của một loài sinh vật đợc giải trình
tự hoàn chỉnh đầu tiên, đó là vi khuẩn gây bệnh tiêu chảy
Haemophilus influenza. Năm 1998, Venter thành lập một công
ty có tên là Celera Genomics và tuyên bố dự định giải trình tự
toàn bộ hệ gen ngời của mình. Năm năm sau, Cerela
Genomics và Tổ hợp HGP đồng thời thông báo việc giải trình
tự hệ gen ngời đã hoàn thành phần lớn, nghĩa là sớm hơn hai
năm so với tiến độ dự kiến ban đầu của Dự án Hệ gen Ngời.
Các đại diện của Tổ hợp HGP chỉ ra rằng việc hoàn thành
nhiễm sắc thể thành
các phân đoạn gối
lên nhau có chiều
dài đủ ngắn để có
thể giải trình tự.
Nhân dòng mỗi phân
đoạn trong các vectơ
plasmid hoặc phagơ
(xem các Hình 20.4
và 20.5)
Giải trình tự từng
phân đoạn (xem
Hình 20.12)
Sử dụng phần
mềm máy tính
sắp xếp các
phân đoạn theo
đúng trật tự vị trí
của chúng
Hình 21.3 Giải trình tự ngẫu nhiên toàn hệ gen.
Theo phơng pháp này, đợc phát triển bởi Craig Venter và các đồng nghiệp
tại Công ty Celera Genomics do chính ông sáng lập, các đoạn ADN đợc giải
trình tự ngẫu nhiên, rồi sau đó chúng đợc sắp xếp theo đúng trật tự vị trí
tơng đối với nhau. Hãy so sánh phơng pháp này với phơng pháp giải trình
tự toàn hệ gen qua ba giai đoạn đợc mô tả trên Hình 21.2.
Các phân đoạn ở giai đoạn 2 trên hình này đợc vẽ nằm rải rác, trong
khi những phân đoạn ở giai đoạn 2 trên Hình 21.2 đợc vẽ nằm theo
trật tự vị trí. Sự khác biệt trong cách vẽ nh vậy phản ánh sự khác biệt
giữa hai phơng pháp nh thế nào?.
Chơng 21 Các hệ gen và sự tiến hóa của chúng 429
theo dõi tất cả các trình tự đã đợc phát hiện. Nhờ đã chuẩn bị
từ trớc, các nhà khoa học và các cơ quan quản lý tham gia Dự
án Hệ gen Ngời đã đặt ra một mục tiêu ngay từ đầu là thiết lập
các ngân hàng dữ liệu, hay còn gọi là cơ sở dữ liệu, và ngày
càng hoàn thiện các phần mềm phân tích dữ liệu. Những cơ sở
dữ liệu và những phần mềm này sau đó đợc tập hợp lại và có
thể dễ dàng truy cập và sử dụng trên môi trờng Internet. Việc
hoàn thành mục tiêu này của dự án đã góp phần thúc đẩy việc
phân tích các trình tự ADN nhờ tạo điều kiện cho các cộng
đồng khoa học toàn thế giới có thể tiếp cận các tài nguyên tin
sinh học, cũng nh thúc đẩy việc truyền bá và trao đổi các
thông tin có liên quan.
Tập hợp dữ liệu để phân tích các hệ gen
Các cơ quan đợc chính phủ tài trợ thực hiện vai trò thiết lập
các cơ sở dữ liệu và cung cấp các phân mềm nhờ đó các nhà
khoa học có thể phân tích các dữ liệu trình tự hệ gen. Chẳng
hạn, ở Mỹ, một chơng trình hợp tác giữa Th viện Y học Quốc
gia và Viện Y học Quốc gia (NIH) đã thiết lập nên Trung tâm
Quốc gia về Thông tin Công nghệ Sinh học (NCBI) đồng thời
duy trì một trang Web (www.ncbi.nlm.nih.gov) lu giữ các tài
nguyên tin sinh học hết sức phong phú. Tại trang Web này, các
đờng link dẫn đến các cơ sở dữ liệu, các phần mềm và các
kho chứa các thông tin về các hệ gen và các chủ đề có liên quan
khác. Các trang Web tơng tự cũng đã đợc thiết lập bởi Phòng
thí nghiệm Sinh học phân tử Châu Âu và Ngân hàng Dữ liệu
ADN Nhật Bản; đây cũng chính là hai trung tâm nghiên cứu hệ
gen cùng hợp tác với NCBI. Những trang Web lớn và toàn diện
này còn đợc bổ sung thêm bởi những trang Web khác đợc
duy trì bởi các phòng thí nghiệm nhỏ hơn hoặc bởi các cá nhân.
Các trang Web nhỏ hơn thờng cung cấp các cơ sở dữ liệu và
5.25). Bằng phần mềm máy tính, ngời xem có thể quay những
cấu trúc này để có thể quan sát protein từ mọi phía. Giả sử một
nhà nghiên cứu có một trình tự axit amin là trình tự đầy đủ hoặc
một phần của một protein cha biết nào đó, mà nó lại có trình
tự giống với một trình tự axit amin có cấu trúc không gian đã
biết. Trong trờng hợp này, nhà nghiên cứu có thể dự đoán cấu
trúc của protein cha biết bằng một phần mềm, và sử dụng một
phần mềm khác để so sánh nó với tất cả các cấu trúc protein đã
biết. Những thông tin này có thể giúp nhà nghiên cứu xác định
đợc chức năng của protein cha biết.
Hiện nay, trên toàn thế giới có rất nhiều nguồn tài nguyên
sẵn có cho các nhà nghiên cứu sử dụng. Bây giờ chúng ta sẽ nói
đến các chủ đề mà những nguồn tài nguyên này đề cập đến.
Xác định các gen m hóa protein trong
các trình tự ADN
Bằng việc sử dụng các trình tự ADN sẵn có, các nhà di truyền
học có thể nghiên cứu trực tiếp các gen mà không nhất thiết
phải phỏng đoán về kiểu gen trên cơ sở phân tích kiểu hình nh
trong các nghiên cứu di truyền học kinh điển trớc đây. Tuy
vậy, cách tiếp cận này lại có một trở ngại khác: đó là việc xác
định kiểu hình trên cơ sở kiểu gen đã biết. Trên cơ sở một trình
21
.
2
K
há
i niệm
Các nhà khoa học ứng dụng tin
tự ADN dài có trên cơ sở dữ liệu nh Genbank, bằng cách nào
chúng ta có thể nhận ra các gen mã hóa protein vốn cha từng
đợc biết tới và xác định chức năng của chúng?
Cách thông thờng là sử dụng một phần mềm để tìm kiếm
trong những trình tự này sự có mặt hay không của các tín hiệu
khởi đầu và kết thúc phiên mã hoặc dịch mã, hoặc là các vị trí
cắt - nối ARN hay các tín hiệu khác thờng có ở các gen mã
hóa protein. Phần mềm này đồng thời cũng tìm kiếm các đoạn
trình tự ngắn tơng ứng với các trình tự thờng có trên các phân
tử mARN đã biết. Hàng nghìn các trình tự nh vậy, đợc gọi là
các đoạn đánh dấu trình tự biểu hiện hay EST đợc thu thập từ
các trình tự cADN và đợc máy tính tập hợp lại thành các cơ sở
dữ liệu. Kiểu phân tích này cho phép xác định đợc các trình tự
tơng ứng với các gen mã hóa protein mà trớc đó cha từng
đợc biết tới.
Khoảng một nửa số gen ở ngời đã đợc biết từ trớc khi dự
án hệ gen ngời bắt đầu. Vậy đối với những gen còn lại, việc
phân tích các trình tự ADN bằng cách nào cho biết chúng là các
gen cha đợc biết trớc đó? Manh mối để xác định những gen
này xuất phát từ việc so sánh trình tự của các gen ứng cử viên
(các trình tự đợc dự đoán là gen) với trình tự của các gen đã
biết có nguồn gốc từ các sinh vật khác bằng việc sử dụng các
phần mềm đã đợc nhắc đến ở trên. Do tính thoái hóa của mã
di truyền, bản thân trình tự ADN có thể có mức độ biến đổi lớn
hơn so với các trình tự protein tơng ứng. Vì vậy, với các nhà
khoa học quan tâm đến protein, họ thờng tiến hành so sánh
giữa trình tự axit amin của protein phỏng đoán với các trình tự
của các protein đã biết.
Đôi khi một trình tự vừa mới đợc xác định khớp hoàn toàn
những miền giống nhau ở các protein có
quan hệ với nhau, cũng nh các phần
mềm quan sát ba chiều - Cn3D - cho phép
quan sát mô hình ba chiều của các miền
cấu trúc đã đợc xác định. Hình ảnh
đợc minh họa ở trên là kết quả tìm
kiếm các vùng protein giống với một
trình tự axit amin tìm thấy ở một protein
của da hấu.Trong cửa sổ này, một phần trình tự axit amin từ một protein cha biết
("Query") ở da hấu đợc xếp thẳng hàng với các trình tự của các protein
khác mà chơng trình máy tính tìm thấy giống với nó. Các trình tự ở đây biểu
diễn một miền đợc gọi là WD40. Bốn dấu hiệu điển hình của miền này đợc
nhấn mạnh bằng nền màu vàng. (Sự giống nhau giữa các trình tự đợc nhận
biết chủ yếu dựa trên các đặc điểm hóa học của các axit amin, vì vậy các axit
amin ở các vùng đợc nhấn mạnh không nhất thiết giống nhau hoàn toàn.)
Chơng trình Cn3D hiển thị
một mô hình ruy băng ba
chiều của protein transductin
của bò (protein đợc tô bằng
nền màu tím nhạt trong cửa sổ
Sequence Aligment Viewer).
Protein này là loại duy nhất
trong các protein trình diện ở
đây có cấu trúc đã đợc xác
định. Sự giống với transductin
bò của các protein khác cho