VIỆN CÔNG NGHỆ SINH HỌC BÁO CÁO TỔNG KẾT ĐỀ TÀI
XÂY DỰNG CƠ SỞ KHOA HỌC CHO DỰ ÁN KHẢ THI
GIẢI TRÌNH TỰ VÀ PHÂN TÍCH BỘ GEN
NGƯỜI VIỆT NAM CNĐT : NÔNG VĂN HẢI 9175
HÀ NỘI – 2011
rt nh (0,1%) v cu trúc h gen (hay ~3 triu/ ~3,2 t bp ca cu trúc toàn b b/ h
gen). Tuy nhiên, phn khác bit rt nh này li vm
nhân chng hc ca mt dân tc, là yu t di truyn sc khe ca c dân
tc và mi cá th.
c phát trin logic tip theo ca công trình gii mã h gen u tiên
các d liu v h gen (trình t chuc công b và s dng
min phí, các qum gen ca các dân tc, các cá th
khe mnh và mc các bnh khác nhau cc mình;
2
Thu nhn vt liu gen (DNA) và sn phm gen (protein) cn các dân
tc, các cá th nghiên cu sâu v cu trúc, chng nghiên
cng dng trong chu tr.
Mt trong nhng thành tu mi nht v nghiên cu h gen i là vic gii
mã xong h gen ca c 4 thành viên trong u tiên (gm b m, 1 con trai
và 1 con gái) ti Vin Sinh hc H thng, Seatle (Hoa K) phi hp vi mt s
i ta phát hic các gen ng c viên ln hi
chng Miller - bnh di truyn có tính chet al., 2010).
Tin sinh hc là b môn khoa hc mi liên ngành gia sinh hc và tin hc, trong
d liu gen khng l c thit
ln mm, công c c phát tri phân tích, x lý s
liu sinh hc, mô hình hóa, mô ph nghiên cu ch
B c ht là h gen ty th và mt s gen cha h gen
c các nhà khoa hc Vit Nam quan tâm nghiên cu t u nh
2000 tr lc bic phê duy
sinh ht s phòng thí nghim trm, các nghiên cng
c nhng kt qu c u.
- Gii mã gen, bim ci khe m tham
chiu cho các nghiên ct bin gen i bnh;
Vit Nam, quc gia vi trên 86 tring th 13 trên th gii v dân s)
vi 54 dân tc anh em, cn có mt chic lâu p bách và c
th v nghiên cn, nhng ng dn h gen i
Vit Nam. Tuy nhiên, vic nghiên cng b v h gen i Vit Nam (vi trang
thit b tn có) s rn kém v thi gian và chi phí và
không kh thi. Vì vy, cn có mt d m c quc gia và hi
nhp quc t thì mi thc hic.
4
c tp th khoa hc m
thc h
Mc tiêu c th:
- Gic h gen ca mt s cá th i VN (thành viên ca mt s gia
t Nam;
6
- u trúc phân t
n cho các nhóm dân tng
i Vinh ngun gc các dân tc, quan h chng loi phát
sinh và tin hóa nhân chng hc tii Vit;
-u hi
ng, tim mm phát hin các
ch th phân t cho chu tr.
- Xây dc tp th khoa hc m gii quyt các v khoa
hc công ngh trong gi
ng, vt
nuôi, vi sinh v
- o và hp tác quc t vi các Trung tâm/ Vin nghiên cu genome
u ca th gii.
1.8. Ni dung, t chc và ti thc hin
1.8.1. Nội dung
1.8.1.1. Các ni dung khoa hc ca d án
-2015):
- trình t:
-
- (exome)
1.8.1.2. Yêu ct b và xây d h tng
Tt b cho d án và Vin Nghiên cu H c
c b u t n 201 n II t
2016-a chn, tu thuc vào ngun kinh phí
có th la chc III.
- Phương án I là phương án tối thiểu, ch có 01 thit b gii trình t th h mi,
01 h thng siêu máy tính ti thiu (512 CPU cores, 1,4 TB RAM và 500 TB storage).
Mc tiêu ci trình t và phân tích h i Vit Nam vi
quy mô t 100 500 cá th.
- Trong phương án IIt b gii trình t th h mi ca Roche
và 01 máy khi ph phân tích cu trúc và cht b gii trình t
Roche có th gii trình t n 800 nucleotide.
Ngoài mc tiêu gii trình t và phân tích h i, vi thit b gii trình t th h
mi ca Roche, chúng ta có th thc hin gii trình t các sinh vt có giá tr khác.
Cùng vi các thit b gii trình t th h mi là h thng phân tích h protein (máy
khi ph) cho phép ti h protein hc ci, t
có th tìm ra các ch th sinh hc giúp chu tr các bnh i (truyn
nhi
- Phương án III i vi mt Vin nghiên cu h gen
và hu h gen. Tng mn so v thit b gii
trình t 4 máy (có máy d ng hp máy kia
8
gp trc trc), kh ca h thc
1.8.2. Tổ chức thực hiện
Hin nay, Vin Công ngh sinh h trì Phòng thí nghim trng
m Công ngh gen thc hin các nhim v ng nghiên cu h gen hc, tin
sinh hc, h protein hc. Tuy nhiên, Phòng thí nghim trm Công ngh gen là
Giai đoạn I, thành lp t chc nghiên cu mi là Vin Nghiên cu H gen
(Genome) do Ch tch Vin Khoa hc và Công ngh Vit Nam quynh thành lp,
vi quy mô v nhân s, t 20-30 (ch yu xin Ch tch Vi i t
9
Phòng Công ngh ADN ng dng, Vin Công ngh sinh ht b
u cn thi thc hin vic gii mã và phân tích h i Vit, vi mc
tiêu kn I có th gic 100 h gen ni Vio
ngun nhân lc cn thi thc hin các d án gii mã h i và các sinh vt
có giá tr kinh t và khoa hc ca Vit Nam. Thc hin vic gii mã toàn b h gen
ci Vit Nam.
Giai đoạn II, nâng cp Vin nghiên cu H nghiên
cu Quc gia (Ngh nh chính ph) thuc Vin Khoa hc và Công ngh Vit Nam,
khu vc quc t, vi quy mô v nhân lc t 50 i. Tip tu
p trang thit b phc v do vic gii mã h gen i, nghiên cu chc
sinh vt có giá tr khoa hc và kinh t ca Vit Nam.
Tip t ngun nhân l có th thc hin các d
án gii mã h gen. Tin hành gii mã h i Vit Nam, vi mc tiêu kt thúc
n II s gic 1000+ h i Vit Nam. Thc hin các nghiên cu
hu gic hin các d án gii
sinh vt có giá trnh khoa hc và kinh t ca Vit Nam.
Tầm nhìn đến năm 2030 và xa hơn: Nâng quy mô Vin Nghiên cu H gen
(Genome) lên mc 150 i, v quc t v các
c h gen hc (genomics), tin sinh hc (bioinformatics), h protein hc
thit b th h mi phc v các d án ca Vin.
Tip tc gii mã và phân tích h i Vit Nam vi s ng ln hành
các nghiên cu hu gii mã và các nghiên cu gii mã các sinh vt khác.
1.9.
1.9.1. Giai đoạn I (2012- 2015): “100 genome người Việt”
mã hoàn chnh và phân tích s liu chi tit.
Tip tc tham gia thc hin mt s d án gii mã h gen các sinh vt khác: vi
sinh vt, cây trng, vt nuôi (kinh phí vn hành t c tài, d án khác).
Vi gen Qu
quc ti và các sinh v h tng
phòng thí nghim cho Trung tâm/ Vin nghiên cu H c trin khai cui giai
n II, kt thúc trong 2 -
1.8.3. Tầm nhìn đến 2030 và xa hơn:
Phát trin nhanh các nghiên cu gii mã h gen cá th i Vi
con s h c gii mã lên 10
4
- 10
5
, thm chí lên 10
6
khoa hc cho
phát trin h c hc (Pharmacogenomics), h gen hc cá th (Individual
Genomics) và y hc cá nhân (Personal Medicine).
Phát tring nghiên cu ng dng và dch v ca nghiên cu h gen
i khe mnh và các loi bnh nan y.
Phát trin nhanh các nghiên gii mã h gen và ng di vi các sinh vt
c hu ca Vit Nam, bao gm: vi sinh vt, cây trng, vt nuôi.
Phát trin Vi gen Qu khu vc và quc t.
11
1.10. -2020):
1.10.1. Phương án I, phương án tối thiểu: 13 005 000 USD
T-2015): 7
- Kinh phí mua thit b gii trình t gen th h mi (Illumina Hiseq 2000): 1 h
- Các thit b tha
u tra, thu thp mi dân tc thiu s): 190 000
USD
12
- Kinh phí vn hành (thc hin các no, hp tác quc t): 1 265
- Kinh phí mua sm thit b ph tr: 1,3 tri
- Kinh phí xây dng h tng Phòng thí nghim ca Trung tâm/ Vin nghiên cu
H gen: 2,5 tri 2 và th 3 cn I: 2014-2015).
T-
- Mua thêm 1 máy gii trình t gen th h mu USD
- Thay th ph tùng, nâng cp máy mua trong c: 0,2 triu USD
- Nâng cp h siêu máy tính: 0,8 triu USD
- Kinh phí vn hành: 0,5 tri
- Kinh phí tr thù lao cán b tham gia thc hi
- Kinh phí mua sm thit b ph tr mi: 0,4 tri
- o/ hp tác quc t: 0,1 tri
282 tring
1.10.3. Phương án III, phương án tối đa: 18 390 000 USD
Tng kinh p-2015): 12
- Kinh phí mua thit b gii trình t gen th h mi (Illumina Hiseq 2000): 2 h
thng = 2,4 triu USD
- Thit b gii trình t th h mi Roche FS FLX+: 700 nghìn USD
- Kinh phí mua h thng siêu máy tính (HPC): 1 h thng (1000 cores, 3TB
RAM, 1000 TB storage) = 2,4 triu USD
- H thng phân tích proteome (máy khi ph, UHPLC, FPLC ): 1.935.000
USD
c tp th khoa hc m
c h
Mc tiêu c th:
- Gic h gen ca mt s cá th i VN (thành viên ca mt s
t Nam;
- u trúc phân t
n cho các nhóm dân tc trong công
i Vinh ngun gc các dân tc, quan h chng loi
phát sinh và tin hóa nhân chng hc tii Vit;
-u hi
ng, tim mm phát hin các ch
th phân t cho chu tr.
- Xây dc tp th khoa hc m gii quyt các v
khoa hc công ngh trong gi
ng, vt nuôi,
vi sinh v
- o và hp tác quc t vi các Trung tâm/ Vin nghiên cu h
u ca th gii.
15
III. KHOA HC CA D ÁN
3.1.
3.1.1. Dự án Genome người (Human Genome Project, HGP)
Tóm tt lch s ca d án
D án H gen i thc hin trong khoc khng t
quan khoa
các mt ra bao gm:
- Lp b di truyn
Hoàn thành b v phân gii 2 -
Phát trin k thunh nhanh kiu gen;
Phát trin các du chun (marker) d s dng;
Phát trin các k thut lp b mi.
- Lp b hình th
Hoàn thành b các v u trên trình t (sequence tagged site -
STS) ca h gen i v phân gii 100 kb.
- Gii trình t DNA
Phát triu qu gii trình t mt ti vài vùng DNA
quan tâm có chiu dài hàng Mb;
Phát trin k thut gii trình t nhanh, tp trung và các h thng tích hp tt
c c t chun b khuôn DNA ti phân tích d liu;
Xây dng công sut gii trình t cho phép gii trình t vi t 50 Mb/
i cun.
- nh các gen
Phát triu qu nh các gen và sp xp các gen
t vào b vt lý hoc gii trình t.
- Phát trin k thut
M rng h tr phát trin các k thut mi tin k thut hin
ti v gii trình t u ca d án H gen
i nói chung.
- Các sinh vt mô hình
Hoàn thành b STS ca h gen chut v phân gii 300 kb;
Hoàn thành trình t h gen vi khun Escherichia coli và nm men
Saccharomyces cerevisiae ti c s
17
Tip tc gii trình t h gen Caenorhabditis elegans và Drosophila
Hoàn thành trình t h gen hoàn chnh ci vào cu
Hoàn thành 1/3 trình t i vào cu
bao ph ít nht 90% h gen trong bn nháp dp
b c vào cu
18
Hoàn chnh toàn b trình t và cung cp các công c phân tích d liu min
phí.
- K thut gii trình t
Tip t ng vt lim giá thành ca k thut gii
trình t hin ti;
H tr nghiên cu các k thut mi có th i nhng ci ti
trong k thut gii trình t;
Phát triu qu ci tin k thu thut
gii trình t mi vào quá trình gii trình t.
- h gen i
Phát trin các k thut nhnh nhanh và trên quy mô ln và/ hoc
ghi l
DNA;
bin trong các vùng mã hóa ca phn ln các gen
c gii mã trong sun này;
To ra b SNP ca ít nht 100 000 marker;
Phát tri trí tu phc v các nghiên cu v ng trình t;
To ra các ngun min phí v mu DNA và dòng t bào.
- H gen hc ch
To ra mt b p các trình t và c hoàn
chnh mang các gen ci và ca sinh vt mô hình;
H tr nghiên cu v u cha các trình
t mã hóa các phân t không phi protein;
Phát trin k thut phân tích toàn din s biu hin ca gen;
Phát trin và ci tin các công c d liu v các nghiên cu chc
n;
Phát trin và ci tin các công c nhm th hin và phân tích m
ng ca trình t;
T nhm h tr u qu trong vic sn
xut các phn mm mnh và có tit khu có th c s dng
rng rãi sau này.
- o ngun nhân lc
o các nhà khoa hc thành tho trong nghiên cu h gen hc;
H tr ng s nghip khoa hc cho các nhà khoa hc nghiên cu h
gen;
Nâng cao s ng các hc gi có kin thc chuyên sâu v khoa hc h gen,
di truyn hc và c c v c, lut pháp hoc khoa hc
xã hi.
Các kt qu c ca d án
20
Hin nay, d án trên quy mô lc công ngh sinh h
c rt nhiu thành tt k thut mi, các
b di truyn, b hình th và phiên mã ca h gen ca mt vài loài sinh vt,
mt s u khoa hc song song tih
nghiên cu v c sinh hc (bioethics), và mt bn trình t hoàn chnh ca h gen
và s dng min phí cho tt c ng. D án H gen i
không ch hoàn thành tt c các m u mà tht mc các
mBng 1) (Collins et al., 2003).
Kt qu quan trng nht sau khi có bh gen ngi (2003) cho chúng
ta rt nhiu thông tin v s c trong h gen, t l mã hóa protein, s
sp xp/ phân b ca các vùng trong h gen, m t bin trong h gen
i và nhng so sánh v h gen gii vi mt s sinh vt khác.
V c, h gen i cha 3.164,7 triu nucleotide (A, C, T và G). Kích
Tháng 4/2003
Công sut và giá
thành ca trình t
hoàn chnh
500 Mb trình ti
i 0,25 USD/
nucleotide
1.400 Mb trình t
v i 0,09 USD/
nucleotide
Tháng
11/2002
ng trình t
i
Lp b
(SNP)
p b 3,7 triu
SNP
Tháng 2/2003
nh gen
Các cDNA có chiu dài
hoàn chnh
15.000 cDNA có chiu dài
hoàn chnh
Tháng 3/2003
Sinh vt mô hình
Trình t h gen hoàn
chnh ca E. coli, S.
cerevisiae, C. elegans, D.
M rng quy mô ca h
thng two-hybrid cho
-protein
V s ng gen, tng s gen trong h gen c tính khong 30 000 gen,
con s này thu so vi con s d n 140 000) da trên các
ngoi suy t các vùng giàu gen (h gen c gii thuyt cha các vùng giàu gen
và các vùng ít gen). Trong s c phát hin, có t
ch t c trình t u ging nhau tt c các
chng tc, các cá th ngi và ch khác nhau vi mt t l rt nh (0,1%) v cu trúc
h gen (hay ~3 triu/ ~3,2 t bp ca cu trúc toàn b b/ h gen). Tuy nhiên, phn
khác bit rt nh này li vm nhân chng hc ca
mt dân tc, là yu t di truyn sc khe ca c dân tc và mi cá th.
V t l mã hóa protein, ch mt phn trình t rt nh trong h gen i 2%)
là các trình t mã hóa cho protein. Các trình t lp l
n- m ít nht 50% h gen i. Các trình t lp li này mc dù
c tip nào trong vic cho là
góp phn quan trng và cng lc hc ca các nhim sc th. Bng cách tái
sp xp, nhn lp li này s sp xp li thành phn trong h gen, t o ra
các gen hoàn toàn mi, và bii và/ hoc ci to ln ti trong h
gen. Trong sut 50 tri n lp li trong h gen i
.
V s sp xp/ phân b, các vùng tp trung nhiu gen trong h gen là các vùng
c li, các vùng ít gen là các vùng DNA giàu A và T. Các
i kính hin t i d
sáng và ti trên các nhim sc th. Các gen tp trung thành các vùng ngu nhiên trong
h gen, xen gia bi các vùng DNA không mã hóa. Các vùng lp li giàu GC dài ti
22
30.000 nucleotide ng xut hin bên cnh các vùng giàu gen, to ra mt hàng rào
gii. 23
ng dng, thách th
Nhng hiu bit vô cùng hc t trình t o ti cho
nghiên cu trong các thp niên sp tng h thng hc sinh hc. Nhim v to
ln này s chuyên môn và s sáng to ca nhiu nhà khoa hc t
nhiu ngành trong c các t ch gii.
Trình t t phn quan trng vào vic tìm ra nhng gen có liên
quan ti các bnh i. Nhinh và ch ra có liên quan ti ung
nh v c, và mù lòa. Ngoài ra, vic phát hin các trình t DNA liên
quan ti các bnh ph bich, ting, viêm khn
c s h tr rt ln t các b ng c to ra trong d án
H gen i cùng vi s cng tác ca mt s
c tiêu c th trong vic phát tri liu mi.
Bên c h gen thành mt công c mi cho nghiên
cu sinh hc và y hu ch nghiên cu mt hoc mt
vài gen ti mt thn nay, vi trình t h gen hoàn chnh và các k
thut mi thc hin trên quy mô ln, h hoàn toàn có th tip cn các câu h
li git cách h thng và trên quy mô ln. Ví d, có th nghiên cu tt c các
gen trong h gen hoc tt c các bn sao phiên mã trong mt mô, mt
khi u c th hoc nghiên cu cách tha hàng chc nghìn gen và protein
phi hp, duy trì s hong ca các h th.
Bc phát trin logic tip theo ca công trình gii mã h gen ngu tiên
n ti nhiu quc gia trên th gii. Trên s s
các d liu v h gen (trình t chuc công b và s dng min phí, các quc
gia s m gen ca các dân tc, các cá th khe mnh và
mc các bnh khác nhau ca nng thi thu nhn vt liu gen (DNA) và
c xâu chui vi nhau trong 23 cp nhim sc th tn ti
trong mi t i. Các trình t di truyn này cha các thông tin ng ti
các tính trng sinh lý c, s mn cm vi các loi bng
ci vi các tác nhân t ng.
Trình t di truyn các cá th ng vi nhau ti 99,9%. Khi so sánh
các nhim sc th c i hoàn toàn không có quan h h hàng g i
nhau, có th thy rng các trình t DNA ca h có th ging nhau t
nucleotide. Tuy nhiên, trung bình trên mi 1200 nucleotide trình t s có 1 nucleotide
sai khác nhau. Ví d, mi, trình t ti mt v DNA có