PHÂN TÍCH TÍNH ĐA DẠNG VỀ DI TRUYỀN potx - Pdf 17

Chương 2

PHÂN TÍCH TÍNH ĐA DẠNG VỀ DI TRUYỀN

Phương pháp đo lường khoảng cách của các nhóm trên cơ sở nhiều tính trạng khác
nhau được đề xuất (Mahalanobis 1928).

Phương pháp nầy còn được gọi là hiệu số "bình phương" (D
2
- Mahalonobis).
Các bước phân tích bao gồm:
(i) Thu thập số liệu
(ii) Trắc nghiệm mức độ ý nghĩa
(iii) Chuyển đổi các giá trị
(iv) Tính hiệu số D
2

(v) Trắc nghiệm mức độ ý nghĩa của D
2
với phép thử Chi bình phương
(vi) Mức độ đóng góp của các tính trạng vào sự phân nhóm.
(vii) Xếp nhóm các cluster di truyền:

- Phương pháp Tocher
- Canonical graph.

Chương trình phân tích đã có trong cá mô hình thống kê sinh học
Trước tiên, chúng ta thiết lập một ma trận có chứa các giá trị phương sai (variance) và
hợp sai (covariance) giữa các tính trạng có quan hệ với nhau, để tìm ra các phương trình biến
đổi của các biến số có tương quan.
Kế đến tính D

Kumar (1964), Mukherjee và ctv.(1971), Venketrao và ctv. (1973)

2-2. HIỆU SỐ D
2

pD
2
= b
1
d
1
+ b
2
d
2
+ b
3
d
3
+ + bpdp
pD
2
= Wij (mean xi
1
- mean xi
2
) (mean xj
1
- mean xj
2

=
(σ
2
X
1
)
1/2

trong đó σ
2
X
1
là phương sai của tính trạng 1
aX
1
+ X
2

Y
2
=
(A)
1/2

trong đó a là hệ số kết qủa cột 1 của hệ phương trình (2) trong ma trận đơn vị khi tính tóan.
A là hệ số kết qủa của số đầu tiên bên vế trái khi tính toán, tương ứng với hệ phương trình (2)
bX
1
+ cX
2

nhau
6. Lập bảng giá trị mới rồi tính hiệu s
ố bình phương
Var 1 Cova1.2 Cova1.3 Cova1.4
Var 2 Cova2.3 Cova2.4
Var 3 Cova3.4
Var 4
Quần thể Y
1
Y
2
Y
3
Y
4

1
2
D (1-2) hiệu số giữa 1 và 2
D
2
(1-2) hiệu số bình phương giữa 1 và 2 = Σdi
2

Tương tự, chúng ta tính hiệu số bình phương của từng cặp genotypes trong phân tích
đa dạng di truyền của quần thể. Thí dụ:
D
2
(1-3), D
2

2
nhỏ nhất ở hàng
đầu tiên của tất cả các cột (biểu thị từng giống so với giống còn lại) và mức độ sai biệt có ý
nghĩa với giá trị D
2
lớn nhất ở hàng đầu tiên. Chú ý, những giá trị D
2
ở mỗi cột được xếp theo
thứ tự từ thấp đến cao.

Phương pháp Canonical:
Tính toán giá trị tổng bình phương (sum of square), giá trị SS và tổng của các tích
(sum of products), giá trị SP, đối với tất cả giá trị Y (gía trị chuyển đổi). Hình thành ma trận
chứa các giá trị SS và giá trị SP. Đặt tên ma trận này là [A]. Tính [A]
p
, trong đó p là số tính
trạng mục tiêu được sử dụng để phân nhóm. Thí dụ với 4 tính trạng ta sẽ có [A]
4
.
Sau cùng,
chúng ta phải tính giá trị Z.

2-4. NGHIÊN CỨU CHUYÊN ĐỀ
“Phân tích độ khác biệt di truyền của các giống lúa nướcsâu được sử dụng làm vật liệu lai “
(Bùi chí Bửu 1987)
Phân tích độ khác biệt hay độ phong phú về di truyền (divergence analysis) được áp
dụng để phân lập các kiểu gen khác nhau, phục vụ cho việc lai tạo giống có hiệu quả mong
muốn.
Áp dụng phép thử D
2

Nhóm I Nhóm II Nhóm III Nhóm IV
Ba bông Lem lùn Ba thiệt Cù là
Chệt cụt Lúa phi Chùm ruột
Nàng tây đùm Trắng chùm
Nàng keo Trắng lùn
Tất nợ Trắng tép
Nàng tây lớn Trắng phước
2-4-4. Khoảng cách di truyền giữa nhóm và trong nhóm được trình bày ở hinh 12, bảng 20.
Khoảng cách I và III, II và IV, III và IV khá lớn.
Các genotypes ở trong cùng một nhóm ít khác biệt hơn ở kiểu gen ở nhóm khác. Hệ số
D trong nhóm nhỏ hơn rất nhiều so với hệ số D giữa các nhóm.
Người ta thường đề cậ
p đến 3 đặc điểm quan trọng trong khi chọn lựa các genotype là
(Singh và Chaudhary 1985):
Bảng 1: Phương sai và hệ số di truyền của các tính trạng.

Ngày trổ bông Cao cây Bông/m
2
Năng suất
2
g
σ

276.95 643.39 518.31 0.22
2
e
σ

45.45 36.78 50.06 0.27

Hình 2-1: Khoảng cách di truyền giữa các nhóm
I
V
I
I
I
II
- Chọn nhóm genotype được dùng làm bố mẹ

i khá phổ biến.
Theo nội dung này, chúng ta cho điểm 1 khi có băng thể hiện, và điểm 0 khi băng không thể
hiện trong điện di.

2-5-1. Phân tích ma trận tương đồng, ma trận khoảng cách
(similarity / distance matrix)
Các giá trị tương đồng và khoảng cách là những giá trị ước đoán về mặt số lượng
nhằm mô tả sự gần gủi và khoảng cách di truyền giữa hai cặp đơn vị mục triêu. Giá trị tương
đồng bi
ến thiên từ 0 đến 1. Khoảng cách giảm khi giá trị tương đồng tăng. Khoảng cách
(distances) còn được dùng với thuật ngữ “dissimilarities”
Sokal và Sneath (1963) mô tả nhiều cách tính toán khoảng cách và mức độ giống nhau
giữa hai đơn vị mục tiêu. Khi giá trị ở dạng nhị phân (binary), nghĩa là 1 (có) và 0 (không có),
chúng ta đưa chúng về bảng hai chiều như sau
Isolate j m = a + d
u = b + c
n = m + u

Trong đó, m là số dữ liệu tương ứng, u là số dữ liệu không tương
ứng, u là tổng số
băng ghi nhận được a b

c d

=
2a + u
Khi đề cập đến thành phần các băng thể hiện trong điện di, chỉ số Dice có thể được
viết lại thành công thức như sau

2a
S
b
=
n
i
+ n
j

Trong đó, n
i
là số băng của “isolate i”, và n
j
là số băng của “isolate j”

Giá trị khoảng cách

Giá trị khoảng cách là độ lệch của những chỉ số biểu thị mức độ giống nhau. Chỉ số
tương đồng S (similarity) biến thiến từ 0 đến 1 có thể được chuyển đổi thành giá trị d
(distance) theo công thức
d = 1 - S
Chúng ta có thể tính toán bằng tay để chuyển đổi chỉ số Dice thành chỉ số khoảng
cách, nhưng với phần mềm chuyên dùng NTSYS, chúng ta sẽ
dễ dàng hơn rất nhiều để có kết
qủa với nhiều cặp đơn vị mục tiêu.

d
D
= 1 -S
D

Lập lại qui trình nói trên với những cặp isolate còn lại, thí dụ 1 và 3, 1 và 4, 2 và 3, 2 và 4,
v.v

2-5-3. Xếp nhóm bằng phương pháp UPGMA

Phân tích nhóm (cluster analysis) thực sự là phương pháp sắp xếp các giống thành
những cụm nhóm khác nhau trên cơ sở mức độ giống nhau theo qui ước (người ta còn gọi với
thuật ngữ agglomerative clustering). Nó được thực hiện theo qui trình tiêu chuẩn, nên người
ta còn gọi đó là “greedy algorithm”. Qui trình theo cácbướctiến hành như sau:

• Tìm các cặp (i, j) có giá trị khoảng cách nhỏ
nhất (hoặc giống nhau nhất)
• Nhập các cặp này lại thành một nhóm (cluster)
• Tạo ra nhóm lớn hơn tương ứng với nhóm mới sao cho các cặp (i, j) mới tương thích
với giá trị mức độ giống nhau
• Lập lại qui trình
Một trong những phương pháp đơn giản nhất là phương pháp tính khoảng cách trung
bình với giá trị số đại số UPGMA (được viết tắt từ chữ unweighted pair-group method with
arithmetic mean)

Cách tính bằng tay

• Tìm giá trị khoảng cách nhỏ nhất trong ma trận khoảng cách
• Xếp nhóm 2 isolate này lại với nhau, theo giá trị khoảng cách cụ thể, ghi giữa hai điểm
• Xây dựng ma trận khoảng cách mới phối hợp giữa hai isolate gần nhất trong một
Trong đó, d
ij
là khoảng cách giữa isolate i và isolate j
Thí dụ khoảng khoảng giữa isolate 3 và 4 (d
34
) là ngắn nhất. Hai isolate này được xếp vào một
nhóm với khoảng cách điểm nhánh là (d
34
/2)

d
34
/ 2 d
34
/ 2 Ma trận khoảng cách mới trên cơ sở nhóm (3, 4) và những isolate khác

Isolate 1 2 (3, 4)
2 d
12

(3, 4) d
1(3,4)

=
2

d
35
+ d
45

d
5(3,4)
=
2

Trong ma trận mới, tìm giá trị khoảng cách nhỏ nhất. Thí dụ ở đây là d
12
, như vậy có nhóm (1,
2) được hình thành

d
12
/ 2
d
12
/ 2
Như vậy, có thêm một ma trận khoảng cách mới

Isolate (1, 2) (3, 4)

Trong khi đọc giá trị khoảng cách của ma trận mới, thí dụ chúng ta ghi nhận d
(12)(34)
có
khoảng cách ngắn nhất. Điều này có nghĩa là hai nhóm (1, 2) và (3, 4) nằm cùng trong nhóm
((1, 2), (3, 4)) với khoảng cách :
d
(12)(34)

2 d
(12)(34)
/ 2
Ma trận mới được tính toán bằng cách lấy trung bình của d
5(12)
và d
5(34)
.

Isolate ((1, 2), (3, 4))
5 d
5((1, 2), (3, 4))

2
3

4

Cuối cùng, chúng ta có giản đồ phân 5 nhóm như sau

d
5((1, 2), (3, 4))
/ 2

Biến thiên trong quần thể có thể được định tính bằng hiện tượng dị hợp hoặc hiện
tượng đa dạng di truyền, trong đó đa dạng di truyền tưong thích với quần thể cận giao hơn.
Phương sai của những tính trạng đo đếm được trên cơ sở trung bình giữa các loci, cần phân ra
ở các mức độ khácnhau về sự biến thiên tại những loci này, và chúng cũng cần
được kết hợp
theo mức độ biến dị ở những loci khác nhau (Weir 1996)

2-5-4. Phân tích thông qua chương trình NTSYS-pc trên computer
NTSYS-pc là chương trình phần mềm do Rohlf (1992) thiết kế dùng để tìm kiếm và

1 2
3

4

5
Matrix data lines
Thành phần của ma trận sẽ được viết vào thành hàng tương ứng với một hoặc nhiều
hàng của đầu số liệu vào, sao cho ma trận luôn luôn ở trạng thái “rowwise”. Ma trận vuông
được nhập số liệu thành hàng, bắt đầu từ cột 1

Chạy chương trình NTSYS

Đánh chữ ntsys, rồi ấn phím Enter ở DOS prompt. Màn hình NTSYS hiện ra. Ấn
phím làm rõ màn hình và khởi động ở ô “main program”
Ấn “Page Down
” để ô cửa sổ biểu thị nhiều chương trình chọn lựa tiếp theo. Chúng ta
có thể trở lại trang chủ bằng cách sử dụng lệnh “Page Up”

F2 để chạy chương trình. Ấn ESC hai lần để trở lại “main program”
In giản đồ
1. Đưa về Name of tree matrix. Lúc bấy giờ chúng ta có thể thay đổi tên file nếu cần
2. Ấn F2, chương trình sẽ vẽ giản đồ giống như cây gia hệ, biểu thị các cluster và
khoảng cách di truyền. Ấn Alt-P để in cây gia hệ
3. Nếu chúng ta muốn điều chỉnh, nhấn ESC hai lần để trở về “Tree entry window”.
Nhập thông tin mong muốn trong Minimum for scale. Lập lại bướ
c 2.
Muốn thoát ra chương trình, nhấn ESC trở về “main program” NTSYSpc trong WINDOW
Hiện nay, người ta đã có thể sử dụng NTSYS trong Window. Chúng ta vào số liệu
trong Excel theo như qui định chung. Sau khi nhập số liệu, ở hành đầu tiên chúng ta ký hiệu
cột đầu tiên là 1 trong trường hợp ma trận hình chữ nhật, cột thứ hai ghi số hàng, cột thứ ba
ghi số cột, và cột thứ tư ghi số 0 nếu không có số liệu thiếu (giống như nguyên t
ắc trong
DOS).
Kế tiếp, chúng ta lưu trữ file với tên file trong excel, rồi đóng lại
Chúng ta mở chương trình NTSYS, nhấp chuột vào “similarity”, xong nhấp “interval
data”. Khung chương trình sẽ hỏi tên file ở “Input”. Nhấp chuột hai lần (double click) và
chọn tên file vừa nhập số liệu trong Excel. Thanh điều khiển “distance” được nhấp chuột để
tìm phương án, thí dụ ta chọn “DIST” để tính khoảng cách giữa các nhóm, nhấn chuột.
Khung chương trình sẽ hỏi tên “Output”. Nh
ấp chuột hai lần và đặt tên file mới của
output. Kế đến chúng ta bấm chuột vào lệnh “compute”. Chúng ta có thể kiểm tra lại cách xếp
đặt ma trận có chuẩn không trên màn hình. nếu có một sai sót nào đó, màn hình sẽ báo lỗi
ngay lập tức. Nếu ma trận được lập đúng, chúng ta thực hiện tiếp chương trình phân nhóm.
Chọn “clustering”, màn hình sẽ hiện giản đồ cácphương án khácnhau, chọn tiếp phương pháp
SAHN trong các phương pháp trên màn hình, chương trình sẽ h

1 17 40 0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
O.14 0 0 0 0 0 0 1 0 0 0 1 000111001 0 0 0 0 0 0 0 0 0 0 0 0 11010000
O.33-A 1 1 0 0 1 0 1 0 0 0 0 11 0 1 0 11 0 1 0 0 0 0 0 0 0 0 0 1 0011 101000
O.33-B 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 11 0 0 0 1 001 0011 10 1 000
O.34 0 0 0 0 0 1 0 0 0 0000 0000000000 0 0000000000000000
O.35 1 1 1 1 1 1 1 0 1 000 0 1 0 1 00 1 001 0 1 0001 0 110 11 110000
O.163 1 1 0 0 1 0 0 0 1 000 0 1 000000 011 1 100001110 1 0 110 11
R.202-A 0 0 1 0 1 0 1 0 0 0 0 0 110 1 00 0 1 0 1 0 0 1 0 110 110 1 0 1 000 0 1
R.202-B 0 0 1 0 0 0 0 0 0 0 0 1 0 0 1 00001 0 1 0 1 0 11011 0 1 0 1 0000 0 1
R.206-A 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0000 00 0 0 0000000000 0000 0 0
R.206-B 0 0 0 0 0 0 1 0 0 1 1 0 0 0 0 1 00 110 0 0 0 1 000000001 000000
R.215 1 0 1 1 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 001100 0 110 1 00000
R.220-A 1 1 0 0 1 1 0 1 0 0 0 1 1 0000000000 0 0000000000000000
R.220-B 0 0 0 0 0 0 0 0 0 1 1 0 0 1100111 0 1 0 1 000001 00011001 00
R.220-C 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
R.231 1 0 0 1 0 1 0 0 0 0 0 0 0 0 1100 0 0 00 0 1 1 001 0 1 0 1 00 1 00111
R.235 0 0 1 1 1 1 0 0 1 1 1 0 110 110 11 0 0 0 0 0 0 0 0 0 1 0000 0000 00

37
24
32
25
39
40
3
27
4
6
28
33
35
7

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

PHÂN TÍCH TÍNH ĐA DẠNG VỀ DI TRUYỀN potx - Pdf 17

Tài liệu, ebook tham khảo khác

Học thêm