phát hiện các đột biến đảo đoạn trong hệ gen giải mã từ thiết bị đọc trình tự thế hệ mới - Pdf 24

1
Số hóa bởi Trung tâm Học liệu ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG NGUYỄN VĂN THÀNH

PHÁT HIỆN CÁC ĐỘT BIẾN ĐẢO ĐOẠN
TRONG HỆ GEN GIẢI MÃ TỪ THIẾT BỊ
ĐỌC TRÌNH TỰ THẾ HỆ MỚI
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Thái Nguyên – 2014
2
Số hóa bởi Trung tâm Học liệu

những tài liệu, sự tận tình hƣớng dẫn và những lời động viên của Thầy đã
giúp tôi vƣợt qua nhiều khó khăn trong quá trình thực hiện luận văn này.
Tôi cũng xin cám ơn quý Thầy (Cô) giảng dạy chƣơng trình cao học
“Khoa học máy tính” đã truyền dạy những kiến thức quý báu, những kiến
thức này rất hữu ích và giúp tôi nhiều khi thực hiện nghiên cứu.
Xin cám ơn các quý Thầy (Cô) công tác tại Trƣờng Đại học Công
nghệ thông tin và truyền thông – Đại học Thái Nguyên đã tạo điều kiện cho
tôi đƣợc tham gia và hoàn thành khóa học.

Tôi xin chân thành cám ơn.

Học viên Nguyễn Văn Thành
4
Số hóa bởi Trung tâm Học liệu MỤC LỤC
LỜI CAM ĐOAN 1
LỜI CÁM ƠN 3
MỤC LỤC 4
DANH MỤC CÁC HÌNH ẢNH 6

3.5 - Đánh giá kết quả phân tích. 68
3.6 - So sánh với các phƣơng pháp hiện tại. 74
3.7 - Những hạn chế và cách khắc phục 76
KẾT LUẬN 78
TÀI LIỆU THAM KHẢO 80

6
Số hóa bởi Trung tâm Học liệu DANH MỤC CÁC HÌNH ẢNH
Hình 1.1: Trong mỗi tế bào có một nhân chính giữa. 13
Hình 1.2: Gen đƣợc cấu tạo từ DNA. Mỗi NST có nhiều gen 13
Hình 1.3: Cấu trúc một phần của gen 13
Hình 1.4: Đột biến đảo đoạn trong hệ gen. 15
Hình 1.5: Các giai đoạn của đọc trình tự thế hệ mới 22
Hình 1.6: Định dạng SAM 25
Hình 1.7: Bản sao - số biến thể ( CNVs) 28

Bảng 1.3: Mô tả chuỗi CIGAR 26
Bảng 1.4 Bảng cho thấy CNVs và đảo đoạn 28
Bảng 3.1: Những tham số đƣợc đặt mô phỏng cho các đoạn trình tự có lỗi. 66
Bảng 3.2: Kết quả của Inverse Variant ở trình tự lý tƣởng có độ dài 100bp 69
Bảng 3.3: Kết quả của Inverse Variant ở trình tự lý tƣởng có độ dài 200bp 69
Bảng 3.4: Kết quả của Inverse Variant ở trình tự lý tƣởng có độ dài 400bp 69
Bảng 3.5: Kết quả của Inverse Variant ở trình tự lý tƣởng với độ bao phủ 10X 70
Bảng 3.6: Kết quả của Inverse Variant ở trình tự lỗi với độ bao phủ là 10X 70
Bảng 3.7: Bảng so sánh InverseVariantvới BreakDancer. 75
8
Số hóa bởi Trung tâm Học liệu DANH MỤC CÁC TỪ VIẾT TẮT-THUẬT NGỮ
STT
Từ viết tắt/thuật ngữ
Nghĩa/Mô tả
1
DNA
Deoxyribo Ducleic Acid
2
BP
Base Pair
3

13
SNP
Đa hình đơn điểm/đơn nucleotide
14
CNV
Bản sao số biến thể
15
InDel
Vị trí thể hiện sự chèn hoặc xóa trong gen
16
BWA (hoặc Bowtie)
Công cụ ánh xạ trình tự với dữ liệu tham chiếu
17
TMAP
Chƣơng trình để xây dựng bản đồ di truyền
18
Wgsim
Công cụ mô phỏng các đoạn trình tự ngắn từ dữ
liệu hệ gen tham chiếu
19
Single end reads
Phƣơng pháp đọc trình tự theo chiều đơn
20
PPV
Dự đoán dƣơng tính giả
21
Hg19
Trình tự hệ gen ngƣời phiên bản 19
22
MAQ

sống của cá thể, nhƣng nógóp phần lớn tăng cƣờng sự sai khác giữa các
nhiễm sắc thể (NST) tƣơng đồng điều này dẫn đến tăng sự đa dạng giữa các
thứ,các nòi trong cùng một nòi, ít ảnh hƣởng tới sức sống của cá thểvà trong
đó sự sắp xếp lại hệ gen trên NST do đột biến đảo đoạn góp phần tạo sự đa
dạng trong tự nhiên. Đối với con ngƣời việc đọc trình tự hệ gen rất quan
trọng, nó góp phần trong việc nghiên cứu sinh học cơ bản và trong nhiều
lĩnh vực ứng dụng nhƣ chẩn đoán bệnh tật, công nghệ sinh học, sinh học
pháp y, sinh học hệ thống Nhận thấy tính thiết thực của vấn đề và với sự
10
Số hóa bởi Trung tâm Học liệu định hƣớng của giáo viên hƣớng dẫn, học viên đã chọn đề tài “Phát hiện
các đột biến đảo đoạn trong hệ gen giải mã từ thiết bị đọc trình tự thế
hệ mới” để làm rõ các vấn đề đã nêu trên.
Đối tƣợng và phạm vi nghiên cứu
 Kiến trúc về các thành phần và các đột biến cấu trúc trong hệ gen.
 Ứng dụng thiết bị đọc trình tự thế hệ mới trong công nghệ sinh học.
 Phƣơng pháp phát hiện các đột biến đảo đoạn khi sử dụng các thiết bị
đọc trình tự thế hệ mới để giải mã.
Hƣớng nghiên cứu của đề tài
 Nghiên cứu, tìm hiểu mô hình, cách làm việc và giải mã hệ gen từ
thiết bị đọc trình tự thế hệ mới.
 Nghiên cứu cấu trúc dữ liệu, các phƣơng pháp tiền xử lý và lắp ráp
hệ gen từ thiết bị đọc trình tự thế hệ mới.
 Tìm hiểu, tham khảo các tài liệu liên quan đến các đột biến đảo đoạn
trong hệ gen, từ đó xây dựng thuật toán phát hiện ra các đột biến gen
đảo đoạn trong hệ gen giải mã từ thiết bị đọc trình tự thế hệ mới.
Phƣơng pháp nghiên cứu
 Nghiên cứu lý thuyết về các thiết bị đọc trình tự thế hệ mới, đột biến

nhận đƣợc bằng các kỹ thuật sinh học với lƣu lƣợng và mức độ lớn. Nhƣ
vậy, về phƣơng diện này lĩnh vực khai phá dữ liệu (data mining) có sự trùng
lắp với sinh học tính toán. Bài toán đặc trƣng trong sinh học tính toán bao
gồm việc lắp ráp (assembly) những trình tự ADN chất lƣợng cao từ những
đoạn ngắn ADN đƣợc thu nhận từ kỹ thuật xác định ADN và việc dự đoán
quy luật điều hoà gen (gene regulation) với dữ liệu từ các mARN,
microarray hay khối phổ (mass-spectrometry).
Các lĩnh vực nghiên cứu chính của tin sinh học gồm hệ gen học phân
tích trình tự, tìm kiếm gen, tìm kiếm các đột biến, phân loại học phân tử,
bảo tồn đa dạng sinh học, phân tích chức năng gen hay biểu hiện nhận diện
chuỗi polypeptid dự đoán cấu trúc của protein các hệ thống sinh học kiểu
mẫu, phân tích hình ảnh mức độ cao, công cụ phần mềm.
Định hƣớng nghiên cứu tìm kiếm các đột biến là một bài toán rộng
trong Tin sinh học. Bởi vì, các hệ gen thƣờng có nhiều kiểu đột biến với
12
Số hóa bởi Trung tâm Học liệu mức độ đột biến khác nhau nhƣ là: Đột biến cấu trúc (trong đó có đột biến
mất đoạn, đột biến thêm đoạn, đột biến đảo đoạn, …), đột biến điểm (đột
biến đa hình đơn SNP, đột biến mất nucleotide, đột biến thêm nucleotite, ).
Trong luận văn này, tôi sẽ tiến hành nghiên cứu phƣơng pháp phát
hiện đột biến đảo đoạn, một dạng của đột biến cấu trúc hệ gen.
1.2 – Cơ sở lý thuyết bài toán đột biến đảo đoạn
1.2.1 - Gen và đột biến cấu trúc hệ gen
Ngày nay với tiến bộ của khoa học sinh học phân tử, ngƣời ta đã biết
rõ rằng đơn vị sinh học cơ bản nhất trong một con thể sống là tế bào (cells),
nhƣ cơ thể chúng ta đƣợc cấu tạo bằng khoảng 60.000 tỉ tế bào (có ƣớc tính
khác cho rằng con số này là 100.000 tỉ), trong đó nhiều tế bào có những
nhiệm vụ khác nhau, chẳng hạn nhƣ tế bào thần kinh có khả năng điều khiển

lƣợng gen cũng nhƣ cơ cấu tổ chức của gen trong cơ thể con ngƣời là một
điều tất yếu để mang lại những tiến bộ mới và quan trọng của y sinh học.
Nhƣng không phải gen nào cũng có chức năng rõ ràng. Trong thực tế, có
khoảng 47% gen không có chức năng cụ thể (hay chúng ta chƣa biết chức
năng của chúng).
Đột biến gen là những biến đổi nhỏ xảy ra trong cấu trúc của gen. Những
biến đổi này thƣờng liên quan đến 1 cặp nucleotide (đột biến điểm) hoặc 1 số
cặp nucleotide.
Trong những cá thể tự nhiên, các gen đều có thể bị đột biến nhƣng với tần
số thấp (từ 10
-6
đến 10
-4
). Các cá thể mang đột biến đã biểu hiện thành kiểu hình
là thể đột biến. Đột biến gen làm thay đổi cấu trúc của gen từ đó tạo ra alen mới
so với dạng ban đầu.
VD: Ở ruồi giấm gen A qui định mắt đỏ, sau khi bị đột biến tạo thành gen
a qui định mắt trắng
Các dạng đột biến
Đột biến mất đoạn : Đột biến này làm NST bị mất đoạn (đoạn đó không
chứa tâm động), làm giảm số lƣợng gen trên NST thƣờng gây chết hoặc giảm
sức sống của cá thể
Đột biến thêm đoạn: Một đoạn nào đó của NST lặp lại một vài lần xen
vào NST. Việc thêm đoạn này là giảm hoặc tăng thêm cƣờng độ biểu hiện tính
trạng vì làm tăng hoặc giảm số lƣợng gen trên NST
Đột biến chuyển đoạn: Một đoạn NST bị chuyển dịch trên cùng một NST
hay giữa hai NST khác nhau. Cả hai NST cùng cho và nhận một đoạn (chuyển
đoạn tƣơng hỗ) hay một bên cho, một bên nhận (chuyển đoạn không tƣơng hỗ).
Đột biến chuyển đoạn thƣờng gây chết hoặc mất khả năng sinh sản.
15

bản sao so với một mẫu tham chiếu hoặc bản gốc khác nhau về chi tiết và áp
dụng các xét nghiệm phân tử. Tuy nhiên với kỹ thuật này có thể phát hiện ra
sự thay đổi cấu trúc nhƣ chèn, xóa là đáng kể, phát hiện đảo đoạn gen chỉ là
số ít.
b. Phƣơng pháp đơn phân tích phân tử
Đơn phân tích phân tử[7] là một cách quan trọng để hình dung và
hiểu đƣợc vị trí và cấu trúc của các biến thể lớn hơn ở cấp độ đơn phân tử.
Phƣơng pháp phân tích này bao gồm các kỹ thuật nhƣ huỳnh quang lai tại
chỗ (FISH), Fiber-FISH. Kỹ thuật này mang lại hiệu quả cho việc xác định
những sự biến đổi cấu trúc chung và hiếm có của hệ gen. Tuy nhiên, chất
lƣợng và độ phân giải không cao của các kỹ thuật trên gây ra giới hạn ứng
dụng của chúng khi thực hiện trên các cấu trúc đặc biệt lớn (~ 500 kb - 5
Mb). Nhiều phƣơng pháp khác nhau đang đƣợc phát triển để sử dụng các
đoạn DNA lớn hoặc dài hơn với quy mô lớn để hiển thị trực tiếp cải thiện
độ phân giải và khả năng mở rộng của phƣơng pháp này. Lập bản đồ quang
học là một kỹ thuật dựa trên một sửa đổi của bản đồ hạn chế truyền thống.
Trong kỹ thuật này sự tiêu chuẩn hóa kỹ thuật đƣợc thực hiện trên DNA cố
định để xác định kích thƣớc mảnh, nhỏ và thay đổi thứ tự tƣơng đối của
DNA trên cơ sở so sánh với một mẫu tiêu chuẩn hóa trong phiên bản của
chuỗi gen tham. Ban đầu, nó đƣợc phát triển để phân tích bộ gen của nấm
men nhƣng đã đƣợc sử dụng để phân tích cấu trúc và tính quy mô của bộ
gen ngƣời, những phát hiện về sự đảo đoạn, thay thế, cũng nhƣ thay đổi số
lƣợng bản sao và điểm dừng của hệ gen. Lập bản đồ kỹ thuật quang học có
17
Số hóa bởi Trung tâm Học liệu thông lƣợng rất hạn chế và toàn bộ phân tích của nó phụ thuộc vào bộ gen
tham chiếu. Phƣơng pháp mã vạch DNA cũng đang đƣợc phát triển nhƣ là
kỹ thuật thay thế đó sẽ là hữu ích để phát hiện thông lƣợng cao của sự khác

khuôn kéo dài đƣợc một nucleotide. Để làm đƣợc điều này, dung dịch chứa
các loại nucleotide A hoặcT hoặc C hoặc G đƣợc lập trình để cho vào giếng
phản ứng có chứa đoạn DNA muốn đọc trình tự, mồi đọc trình tự, và các
thành phần cho phản ứng tổng hợp sợi khuôn. Mỗi khi dung dịch nucleotide
cho vào là đúng với nucleotide đƣợc bắt cặp vào sợi khuôn để tổng hợp sợi
bổ sung thì sẽ giải phóng ra một pyrophosphate (PPi) sẽ đƣợc phóng ra và
đƣợc enzyme sulfurylase chuyển hóa tạo ra một ATP, ATP này sẽ giúp hệ
thống phát quang luciferin-luciferase phát ra ánh sáng do enzyme luciferase
oxi hóa luciferin thành oxyluciferin và phát quang[15] . Với sự ghi nhận tín
hiệu phát quang từ ống phản ứng theo trình tự bổ sung dung dịch các loại
nucleotide, thiết bị pyrosequencing sẽ dịch ra trình tự các nucleotide trên
đoạn DNA đƣợc đọc trình tự. Để huỷ đƣợc ATP và các nucleotide tự do còn
thừa sau mỗi lần bổ sung nucleotide, enzyme apyrase cũng đƣợc cho vào
giếng phản ứng sau khi tín hiệu phát quang đƣợc ghi nhận.
Pyrosequencing là một bƣớc tiến về kỹ thuật trong đọc trình tự, cho
phép đọc trình tự ngay trong quá trình tổng hợp sợi bổ sung đoạn DNA, do
vậy pyrosequencing chính là công nghệ khởi đầu cho kỹ thuật “đọc trình tự
tổng hợp”, nền tảng của kỹ thuật đọc trình tự bộ gen hay còn gọi là kỹ thuật
đọc trình tự thế hệ mới sau này. Với ƣu thế thời gian đọc trình tự nhanh, độ
chính xác cao, nên pyrosequencing có nhiều ứng dụng và có ƣu thế hơn kỹ
thuật đọc trình tự Sanger, đặc biệt là trong chẩn đoán và chỉ định điều trị
bệnh
[16]
. Vì đây là kỹ thuật mở, và có sẵn các bộ hóa chất thƣơng mại, cho
nên pyrosequencing là một kỹ thuật không thể thiếu trong các phòng thí
nghiệm sinh học phân tử.
Phƣơng pháp đọc trình tự thế hệ mới
Đọc trình tự thế hệ mới là một bƣớc tiến vƣợt bậc về công nghệ đọc
trình tự. Từ khả năng đọc trình tự đoạn ngắn 1500 bp (Sanger) hay 100 bp

ghép nối (SBL): đƣợc phát minh bởi George Church. SBL đã đƣợc sử dụng
20
Số hóa bởi Trung tâm Học liệu để xác định trình tự gen và là nền tảng cho các thiết bị đọc trình tự thế hệ
mới. SBL là một chu trình tuần hoàn gồm 4 bƣớc:
Đƣa vào các primer neo đƣợc thiết kế trình tự bổ sung với trình tự trên adapter.
Quá trình lai của nonamers ngẫu nhiên với nhau. Mỗi hỗn hợp
nonamer gồm có 4 loại nonamers, mỗi loại có các trình tự và vị trí đã đƣợc
biết đến. Các chất phát quang khác nhau đƣợc gắn ở cuối của mỗi loại
nonamer sẽ cho phép xác định trình tự trên nonamer.
Các nonamer lai với các primer neo. Sau đó, thiết bị ghi hình và phần
mềm sẽ xác định trình tự ở vị trí tham chiếu.
Primer neo, phức hệ nonamer đƣợc đọc phóng và quá trình đƣợc lặp
lại cho các vị trí query trong hỗn hợp nonamer. SBL hoạt động trong cả hai
chiều: chiều xuôi (5 'đến 3') và chiều ngƣợc (3 'đến 5').
Công nghệ đọc trình tự gen thế hệ mới theo 3 bước chính như sau:
Bƣớc 1 : Chuẩn bị các đoạn DNA và gắn lên các giá bám: Trƣớc hết
DNA của bộ gen đƣợc cắt nhỏ thành các đoạn DNA ngắn nhờ siêu âm hay
nhờ khí dung, sau đó 2 đầu các đoạn DNA ngắn này đƣợc gắn 2 đoạn
adapter có trình tự nhận biết bởi các đoạn dò và trình tự mồi PCR. Các đoạn
DNA này sẽ đƣợc gắn lên các giá bám là các hạt nano (Roche 454,
SOLiDhay Ion Torrent) hay trên các vi bản (Illumina) nhờ các đoạn dò đặc
hiệu adapter đã gắn sẵn trên các giá bám này.
Bƣớc 2: Khuếch đại các đoạn DNA trên giá bám bằng mồi đặc hiệu
adapter: Nếu giá bám là vi bản thì thành phần PCR đƣợc bơm trải lên vi bản
và khi thực hiện PCR sẽ có từng cụm sản phẩm khuếch đại đƣợc gắn trên
các vị trí tách rời nhau. Nếu giá bám là các vi hạt thì phải nhủ hoá thành
phần PCR để các giọt nhủ chỉ chứa một vi hạt, nhờ vậy sau khi thực hiện

huỳnh quang (Illumina) hay pH (ion Torrent) đƣợc ghi nhận, hay có thể là
kéo dài đầu 3‟ của mạch bổ sung mỗi lần 2 base nhờ sự kéo dài và nối đoạn
dò dựa trên sợi khuôn và cứ mỗi khi tổng hợp đƣợc 2 base thì sẽ có một tín
hiệu huỳnh quang đƣợc ghi nhận (SOLiD).
Thứ tự của các lần bổ sung các thành phần đọc trình tự vào chip
nanowell hay vào vi bản đƣợc máy tính ghi lại đồng thời với thứ tự và
cƣờng độ tín hiệu tổng hợp sợi bổ sung của từng cụm DNA bám lên vi bản
hay trên vi hạt, nhờ vậy mà sẽ đọc đƣợc trình tự của các đoạn DNA trên
23
Số hóa bởi Trung tâm Học liệu từng cụm. Vì có đến hàng trăm ngàn cụm nên sẽ có hàng trăm ngàn trình tự
sẽ đƣợc đọc, tƣơng ứng với hàng trăm ngàn đoạn DNA từ bộ gen sẽ đọc
đƣợc. Các trình tự của các đoạn đọc đƣợc sẽ đƣợc phần mềm của thiết bị nối
lại với nhau bằng cách so sánh trình tự, tìm các đoạn trùng lặp ở hai đầu và
nhƣ vậy là sẽ có kết quả của trình tự nguyên bộ gen.
Do phƣơng pháp dựa trên tình tự gen có chi phí thấp và có độ chính
xác cao nên phƣơng pháp này đƣợc nghiên cứu và phát triển rộng rãi. Trong
khuôn khổ luận văn này, tôi sẽ đi sâu vào nghiên cứu các thuật toán theo
phƣơng pháp dựa trên trình tự gen đƣợc giải mã từ các thiết bị đọc trình tự
thế hệ mới.
1.2.3 - Định dạng cơ sở dữ liệu
a) Định dạng FASTA
Định dạng FASTA[2] đƣợc dùng để mô tả thông tin về một chuỗi
DNA (protein) bao gồm 2 phần: Phần tiêu đề và phần nội dung
Tiêu đề: bao gồm 1 dòng bắt đầu với kí từ “>” và kết thúc bởi một kí
tự xuống dòng. Phần này sẽ lƣu trữ toàn bộ thông tin mô tả về đoạn trình tự
DNA (protein) nhƣ tên chuỗi, độ dài chuỗi, ngày tháng tiến hành giải mã,
loại dữ liệu

định danh chuỗi
Dòng 4 là điểm chất lƣợng khi giải mã các nucletit bởi các thiết bị đọc
trình tự. Chất lƣợng của trình tự đƣợc mã hóa dƣới dạng mã ASCII.
VD:
@SRR566546.970 HWUSI-EAS1673_11067_FC7070M:4:1:2299:1109 length=50
TTGCCTGCCTATCATTTTAGTGCCTGTGAGGTGGAGATGTGAGGAT
+
hhhhhhhhhhghhghhhhhfhhhhhfffff

c) Định dạng SAM
Định dạng SAM (Sequence Aligment Map) là chuẩn lƣu trữ dữ liệu
trình tự đƣợc lắp ráp hoặc ánh xạ tới tham chiếu đƣợc cộng đồng Tin sinh
học trên thế giới thừa nhận và sử dụng phổ biến trong tất cả các phần mềm.
25
Số hóa bởi Trung tâm Học liệu Định dạng SAM là các thẻ đƣợc định danh. Tiêu đề đƣợc bắt đầu với ký
hiệu @ và có các thành phần khác theo thứ tự sau:
Bảng 1.1: Các thẻ định danh trong SAM
1
Tên truy vấn / khuôn mẫu / cặp
2
Cờ (Cờ đảo bit)
3
Tên tham chiếu
4
Vị trí (tại 1 vị trí cuối cùng bên trái)
5
Chất lƣợng ánh xạ (Trong quy mô Phred )

Cờ
Tên tham
chiếu
Vị trí
CIGAR
Chất lƣợng
ánh xạ
Tên trình tự

Trích đoạn Ánh xạ các đoạn trình tự 3 Lọc và hoàn thiện điểm dừng 7 Những hạn chế và cách khắc phục

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

phát hiện các đột biến đảo đoạn trong hệ gen giải mã từ thiết bị đọc trình tự thế hệ mới - Pdf 24

Tài liệu, ebook tham khảo khác

Học thêm