Xây dựng cơ sở khoa học cho dự án khả thi giải trình tự và phân tích bộ gen người việt nam - Pdf 18

VIỆN CÔNG NGHỆ SINH HỌC BÁO CÁO TỔNG KẾT ĐỀ TÀI

XÂY DỰNG CƠ SỞ KHOA HỌC CHO DỰ ÁN KHẢ THI
GIẢI TRÌNH TỰ VÀ PHÂN TÍCH BỘ GEN
NGƯỜI VIỆT NAM CNĐT : NÔNG VĂN HẢI 9175

HÀ NỘI – 2011

rt nh (0,1%) v cu trúc h gen (hay ~3 triu/ ~3,2 t bp ca cu trúc toàn b b/ h
gen). Tuy nhiên, phn khác bit rt nh này li vm
nhân chng hc ca mt dân tc, là yu t di truyn sc khe ca c dân
tc và mi cá th.
c phát trin logic tip theo ca công trình gii mã h gen  u tiên

 các d liu v h gen (trình t chuc công b và s dng
min phí, các qum gen ca các dân tc, các cá th
khe mnh và mc các bnh khác nhau cc mình;
2

Thu nhn vt liu gen (DNA) và sn phm gen (protein) cn các dân
tc, các cá th  nghiên cu sâu v cu trúc, chng nghiên
cng dng trong chu tr.
Mt trong nhng thành tu mi nht v nghiên cu h gen i là vic gii
mã xong h gen ca c 4 thành viên trong u tiên (gm b m, 1 con trai
và 1 con gái) ti Vin Sinh hc H thng, Seatle (Hoa K) phi hp vi mt s 
i ta phát hic các gen ng c viên ln hi
chng Miller - bnh di truyn có tính chet al., 2010).
Tin sinh hc là b môn khoa hc mi liên ngành gia sinh hc và tin hc, trong
 d liu gen khng l c thit
ln mm, công c c phát tri phân tích, x lý s
liu sinh hc, mô hình hóa, mô ph nghiên cu ch
B c ht là h gen ty th và mt s gen cha h gen
c các nhà khoa hc Vit Nam quan tâm nghiên cu t u nh
2000 tr lc bic phê duy
sinh ht s phòng thí nghim trm, các nghiên cng
c nhng kt qu c u.
- Gii mã gen, bim ci khe m tham
chiu cho các nghiên ct bin gen  i bnh;

Vit Nam, quc gia vi trên 86 tring th 13 trên th gii v dân s)
vi 54 dân tc anh em, cn có mt chic lâu p bách và c
th v nghiên cn, nhng ng dn h gen i
Vit Nam. Tuy nhiên, vic nghiên cng b v h gen i Vit Nam (vi trang
thit b tn có) s rn kém v thi gian và chi phí và
không kh thi. Vì vy, cn có mt d m c quc gia và hi
nhp quc t thì mi thc hic.
4


c tp th khoa hc m
thc h

Mc tiêu c th:
- Gic h gen ca mt s cá th i VN (thành viên ca mt s gia
 
t Nam;
6

- u trúc phân t
n cho các nhóm dân tng
i Vinh ngun gc các dân tc, quan h chng loi phát
sinh và tin hóa nhân chng hc tii Vit;
-u hi
ng, tim mm phát hin các
ch th phân t cho chu tr.
- Xây dc tp th khoa hc m gii quyt các v khoa
hc công ngh trong gi
ng, vt
nuôi, vi sinh v
- o và hp tác quc t vi các Trung tâm/ Vin nghiên cu genome
u ca th gii.
1.8. Ni dung, t chc và ti thc hin
1.8.1. Nội dung
1.8.1.1. Các ni dung khoa hc ca d án
 -2015):
- trình t: 
-

-  (exome)


1.8.1.2. Yêu ct b và xây d h tng
Tt b cho d án và Vin Nghiên cu H c
  c b u t n 201 n II t
2016-a chn, tu thuc vào ngun kinh phí
có th la chc III.
- Phương án I là phương án tối thiểu, ch có 01 thit b gii trình t th h mi,
01 h thng siêu máy tính ti thiu (512 CPU cores, 1,4 TB RAM và 500 TB storage).
Mc tiêu ci trình t và phân tích h i Vit Nam vi
quy mô t 100  500 cá th.
- Trong phương án IIt b gii trình t th h mi ca Roche
và 01 máy khi ph  phân tích cu trúc và cht b gii trình t
Roche có th gii trình t        n 800 nucleotide.
Ngoài mc tiêu gii trình t và phân tích h i, vi thit b gii trình t th h
mi ca Roche, chúng ta có th thc hin gii trình t các sinh vt có giá tr khác.
Cùng vi các thit b gii trình t th h mi là h thng phân tích h protein (máy
khi ph) cho phép ti h protein hc ci, t 
có th tìm ra các ch th sinh hc giúp chu tr các bnh  i (truyn
nhi
- Phương án III i vi mt Vin nghiên cu h gen
và hu h gen. Tng mn so v thit b gii
trình t   4 máy (có máy d ng hp máy kia
8

gp trc trc), kh  ca h thc

1.8.2. Tổ chức thực hiện
Hin nay, Vin Công ngh sinh h trì Phòng thí nghim trng
m Công ngh gen thc hin các nhim v ng nghiên cu h gen hc, tin
sinh hc, h protein hc. Tuy nhiên, Phòng thí nghim trm Công ngh gen là

Giai đoạn I, thành lp t chc nghiên cu mi là Vin Nghiên cu H gen
(Genome) do Ch tch Vin Khoa hc và Công ngh Vit Nam quynh thành lp,
vi quy mô v nhân s, t 20-30 (ch yu xin Ch tch Vi   i t
9

Phòng Công ngh ADN ng dng, Vin Công ngh sinh ht b
u cn thi thc hin vic gii mã và phân tích h i Vit, vi mc
tiêu kn I có th gic 100 h gen ni Vio
ngun nhân lc cn thi thc hin các d án gii mã h i và các sinh vt
có giá tr kinh t và khoa hc ca Vit Nam. Thc hin vic gii mã toàn b h gen
ci Vit Nam.
Giai đoạn II, nâng cp Vin nghiên cu H  nghiên
cu Quc gia (Ngh nh chính ph) thuc Vin Khoa hc và Công ngh Vit Nam,
 khu vc quc t, vi quy mô v nhân lc t 50  i. Tip tu
p trang thit b phc v do vic gii mã h gen i, nghiên cu chc
 sinh vt có giá tr khoa hc và kinh t ca Vit Nam.
Tip t ngun nhân l có th thc hin các d
án gii mã h gen. Tin hành gii mã h i Vit Nam, vi mc tiêu kt thúc
n II s gic 1000+ h i Vit Nam. Thc hin các nghiên cu
hu gic hin các d án gii
 sinh vt có giá trnh khoa hc và kinh t ca Vit Nam.
Tầm nhìn đến năm 2030 và xa hơn: Nâng quy mô Vin Nghiên cu H gen
(Genome) lên mc 150  i, v quc t v các
 c h gen hc (genomics), tin sinh hc (bioinformatics), h protein hc
 thit b th h mi phc v các d án ca Vin.
Tip tc gii mã và phân tích h i Vit Nam vi s ng ln hành
các nghiên cu hu gii mã và các nghiên cu gii mã các sinh vt khác.

1.9. 
1.9.1. Giai đoạn I (2012- 2015): “100 genome người Việt”

mã hoàn chnh và phân tích s liu chi tit.
 Tip tc tham gia thc hin mt s d án gii mã h gen các sinh vt khác: vi
sinh vt, cây trng, vt nuôi (kinh phí vn hành t c tài, d án khác).
 Vi gen Qu
quc ti và các sinh v h tng
phòng thí nghim cho Trung tâm/ Vin nghiên cu H c trin khai cui giai
n II, kt thúc trong 2 - 
1.8.3. Tầm nhìn đến 2030 và xa hơn:
 Phát trin nhanh các nghiên cu gii mã h gen cá th i Vi
con s h c gii mã lên 10
4
- 10
5
, thm chí lên 10
6
 khoa hc cho
phát trin h  c hc (Pharmacogenomics), h gen hc cá th (Individual
Genomics) và y hc cá nhân (Personal Medicine).
 Phát tring nghiên cu ng dng và dch v ca nghiên cu h gen
i khe mnh và các loi bnh nan y.
 Phát trin nhanh các nghiên gii mã h gen và ng di vi các sinh vt
c hu ca Vit Nam, bao gm: vi sinh vt, cây trng, vt nuôi.
 Phát trin Vi gen Qu khu vc và quc t.

11

1.10. -2020):
1.10.1. Phương án I, phương án tối thiểu: 13 005 000 USD
T-2015): 7 
- Kinh phí mua thit b gii trình t gen th h mi (Illumina Hiseq 2000): 1 h

- Các thit b  tha
u tra, thu thp mi dân tc thiu s): 190 000
USD
12

- Kinh phí vn hành (thc hin các no, hp tác quc t): 1 265

- Kinh phí mua sm thit b ph tr: 1,3 tri
- Kinh phí xây dng h tng Phòng thí nghim ca Trung tâm/ Vin nghiên cu
H gen: 2,5 tri 2 và th 3 cn I: 2014-2015).
T-
- Mua thêm 1 máy gii trình t gen th h mu USD
- Thay th ph tùng, nâng cp máy mua trong c: 0,2 triu USD
- Nâng cp h siêu máy tính: 0,8 triu USD
- Kinh phí vn hành: 0,5 tri
- Kinh phí tr thù lao cán b tham gia thc hi

- Kinh phí mua sm thit b ph tr mi: 0,4 tri
- o/ hp tác quc t: 0,1 tri
  282 tring

1.10.3. Phương án III, phương án tối đa: 18 390 000 USD
Tng kinh p-2015): 12 
- Kinh phí mua thit b gii trình t gen th h mi (Illumina Hiseq 2000): 2 h
thng = 2,4 triu USD
- Thit b gii trình t th h mi Roche FS FLX+: 700 nghìn USD
- Kinh phí mua h thng siêu máy tính (HPC): 1 h thng (1000 cores, 3TB
RAM, 1000 TB storage) = 2,4 triu USD
- H thng phân tích proteome (máy khi ph, UHPLC, FPLC ): 1.935.000
USD

c tp th khoa hc m
 c h

Mc tiêu c th:
- Gic h gen ca mt s cá th i VN (thành viên ca mt s

t Nam;
- u trúc phân t
n cho các nhóm dân tc trong công
i Vinh ngun gc các dân tc, quan h chng loi
phát sinh và tin hóa nhân chng hc tii Vit;
-u hi
ng, tim mm phát hin các ch
th phân t cho chu tr.
- Xây dc tp th khoa hc m gii quyt các v
khoa hc công ngh trong gi
ng, vt nuôi,
vi sinh v
- o và hp tác quc t vi các Trung tâm/ Vin nghiên cu h
u ca th gii.

15

III.  KHOA HC CA D ÁN

3.1. 
3.1.1. Dự án Genome người (Human Genome Project, HGP)
 Tóm tt lch s ca d án
D án H gen i thc hin trong khoc khng t
 quan khoa

các mt ra bao gm:
- Lp b di truyn
 Hoàn thành b v phân gii 2 - 
 Phát trin k thunh nhanh kiu gen;
 Phát trin các du chun (marker) d s dng;
 Phát trin các k thut lp b mi.
- Lp b hình th
 Hoàn thành b các v u trên trình t (sequence tagged site -
STS) ca h gen i v phân gii 100 kb.
- Gii trình t DNA
 Phát triu qu  gii trình t mt ti vài vùng DNA
quan tâm có chiu dài hàng Mb;
 Phát trin k thut gii trình t nhanh, tp trung và các h thng tích hp tt
c c t chun b khuôn DNA ti phân tích d liu;
 Xây dng công sut gii trình t cho phép gii trình t vi t 50 Mb/
i cun.
- nh các gen
 Phát triu qu  nh các gen và sp xp các gen
t vào b vt lý hoc gii trình t.
- Phát trin k thut
 M rng h tr phát trin các k thut mi tin k thut hin
ti v gii trình t u ca d án H gen
i nói chung.
- Các sinh vt mô hình
 Hoàn thành b STS ca h gen chut v phân gii 300 kb;
 Hoàn thành trình t h gen vi khun Escherichia coli và nm men
Saccharomyces cerevisiae ti c s
17

 Tip tc gii trình t h gen Caenorhabditis elegans và Drosophila

 Hoàn thành trình t h gen hoàn chnh ci vào cu
 Hoàn thành 1/3 trình t i vào cu
  bao ph ít nht 90% h gen trong bn nháp dp
b c vào cu
18

 Hoàn chnh toàn b trình t và cung cp các công c phân tích d liu min
phí.
- K thut gii trình t
 Tip t ng vt lim giá thành ca k thut gii
trình t hin ti;
 H tr nghiên cu các k thut mi có th i nhng ci ti
trong k thut gii trình t;
 Phát triu qu  ci tin k thu thut
gii trình t mi vào quá trình gii trình t.
-  h gen i
 Phát trin các k thut nhnh nhanh và trên quy mô ln và/ hoc
ghi l
DNA;
  bin trong các vùng mã hóa ca phn ln các gen
c gii mã trong sun này;
 To ra b SNP ca ít nht 100 000 marker;
 Phát tri trí tu phc v các nghiên cu v ng trình t;
 To ra các ngun min phí v mu DNA và dòng t bào.
- H gen hc ch
 To ra mt b p các trình t và c hoàn
chnh mang các gen ci và ca sinh vt mô hình;
 H tr nghiên cu v u cha các trình
t mã hóa các phân t không phi protein;
 Phát trin k thut phân tích toàn din s biu hin ca gen;

 Phát trin và ci tin các công c  d liu v các nghiên cu chc
n;
 Phát trin và ci tin các công c nhm th hin và phân tích m 
ng ca trình t;
 T   nhm h tr u qu trong vic sn
xut các phn mm mnh và có tit khu có th c s dng
rng rãi sau này.
- o ngun nhân lc
 o các nhà khoa hc thành tho trong nghiên cu h gen hc;
 H tr ng s nghip khoa hc cho các nhà khoa hc nghiên cu h
gen;
 Nâng cao s ng các hc gi có kin thc chuyên sâu v khoa hc h gen,
di truyn hc và c c v c, lut pháp hoc khoa hc
xã hi.
 Các kt qu c ca d án
20

Hin nay, d án trên quy mô lc công ngh sinh h
c rt nhiu thành tt k thut mi, các
b di truyn, b hình th và phiên mã ca h gen ca mt vài loài sinh vt,
mt s u khoa hc song song tih
nghiên cu v c sinh hc (bioethics), và mt bn trình t hoàn chnh ca h gen
 và s dng min phí cho tt c ng. D án H gen i
không ch hoàn thành tt c các m u mà tht mc các
mBng 1) (Collins et al., 2003).
Kt qu quan trng nht sau khi có bh gen ngi (2003) cho chúng
ta rt nhiu thông tin v s c trong h gen, t l mã hóa protein, s
sp xp/ phân b ca các vùng trong h gen, m t bin trong h gen
i và nhng so sánh v h gen gii vi mt s sinh vt khác.
V c, h gen i cha 3.164,7 triu nucleotide (A, C, T và G). Kích

Tháng 4/2003
Công sut và giá
thành ca trình t
hoàn chnh
500 Mb trình ti
 i 0,25 USD/
nucleotide
1.400 Mb trình t  
v  i 0,09 USD/
nucleotide
Tháng
11/2002
 ng trình t
i
Lp b   
  
(SNP)
 p b  3,7 triu
SNP
Tháng 2/2003
nh gen
Các cDNA có chiu dài
hoàn chnh
15.000 cDNA có chiu dài
hoàn chnh
Tháng 3/2003
Sinh vt mô hình
Trình t h gen hoàn
chnh ca E. coli, S.
cerevisiae, C. elegans, D.

M rng quy mô ca h
thng two-hybrid cho
-protein

V s ng gen, tng s gen trong h gen c tính khong 30 000 gen,
con s này thu so vi con s d n 140 000) da trên các
ngoi suy t các vùng giàu gen (h gen c gii thuyt cha các vùng giàu gen
và các vùng ít gen). Trong s c phát hin, có t
ch t c trình t u ging nhau  tt c các
chng tc, các cá th ngi và ch khác nhau vi mt t l rt nh (0,1%) v cu trúc
h gen (hay ~3 triu/ ~3,2 t bp ca cu trúc toàn b b/ h gen). Tuy nhiên, phn
khác bit rt nh này li vm nhân chng hc ca
mt dân tc, là yu t di truyn sc khe ca c dân tc và mi cá th.
V t l mã hóa protein, ch mt phn trình t rt nh trong h gen i 2%)
là các trình t mã hóa cho protein. Các trình t lp l
n- m ít nht 50% h gen i. Các trình t lp li này mc dù
c tip nào trong vic cho là
góp phn quan trng và cng lc hc ca các nhim sc th. Bng cách tái
sp xp, nhn lp li này s sp xp li thành phn trong h gen, t o ra
các gen hoàn toàn mi, và bii và/ hoc ci to ln ti trong h
gen. Trong sut 50 tri n lp li trong h gen i
.
V s sp xp/ phân b, các vùng tp trung nhiu gen trong h gen là các vùng
c li, các vùng ít gen là các vùng DNA giàu A và T. Các
i kính hin t i d
sáng và ti trên các nhim sc th. Các gen tp trung thành các vùng ngu nhiên trong
h gen, xen gia bi các vùng DNA không mã hóa. Các vùng lp li giàu GC dài ti
22

30.000 nucleotide ng xut hin bên cnh các vùng giàu gen, to ra mt hàng rào

gii. 23

 ng dng, thách th
Nhng hiu bit vô cùng hc t trình t o ti cho
nghiên cu trong các thp niên sp tng h thng hc sinh hc. Nhim v to
ln này s   chuyên môn và s sáng to ca nhiu nhà khoa hc t
nhiu ngành trong c các t ch gii.
Trình t t phn quan trng vào vic tìm ra nhng gen có liên
quan ti các bnh  i. Nhinh và ch ra có liên quan ti ung
nh v c, và mù lòa. Ngoài ra, vic phát hin các trình t DNA liên
quan ti các bnh ph bich, ting, viêm khn
c s h tr rt ln t các b ng  c to ra trong d án
H gen i cùng vi s cng tác ca mt s 
c tiêu c th trong vic phát tri liu mi.
Bên c h gen  thành mt công c mi cho nghiên
cu sinh hc và y hu ch nghiên cu mt hoc mt
vài gen ti mt thn nay, vi trình t h gen hoàn chnh và các k
thut mi thc hin trên quy mô ln, h hoàn toàn có th tip cn các câu h
li git cách h thng và trên quy mô ln. Ví d, có th nghiên cu tt c các
gen trong h gen hoc tt c các bn sao phiên mã trong mt mô, mt
khi u c th hoc nghiên cu cách tha hàng chc nghìn gen và protein
 phi hp, duy trì s hong ca các h th.
Bc phát trin logic tip theo ca công trình gii mã h gen ngu tiên
n ti nhiu quc gia trên th gii. Trên s s
các d liu v h gen (trình t chuc công b và s dng min phí, các quc
gia s m gen ca các dân tc, các cá th khe mnh và
mc các bnh khác nhau ca nng thi thu nhn vt liu gen (DNA) và

c xâu chui vi nhau trong 23 cp nhim sc th tn ti
trong mi t i. Các trình t di truyn này cha các thông tin ng ti
các tính trng sinh lý c, s mn cm vi các loi bng
ci vi các tác nhân t ng.
Trình t di truyn các cá th ng vi nhau ti 99,9%. Khi so sánh
các nhim sc th c i hoàn toàn không có quan h h hàng g i
nhau, có th thy rng các trình t DNA ca h có th ging nhau t  
nucleotide. Tuy nhiên, trung bình trên mi 1200 nucleotide trình t s có 1 nucleotide
sai khác nhau. Ví d,  mi, trình t ti mt v  DNA có


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status