Báo cáo nghiên cứu khoa học: "NGHIÊN CỨU VỀ SỰ KHÁC BIỆT CỦA MẠNG CYTOKINE TRONG HỆ THỐNG MIỄN DỊCH BẰNG GIẢI THUẬT TIẾN HOÁ DỰA TRÊN MẠNG BAYES" - Pdf 19

173
TẠP CHÍ KHOA HỌC, Đại học Huế, Số 59, 2010

NGHIÊN CỨU VỀ SỰ KHÁC BIỆT CỦA MẠNG CYTOKINE
TRONG HỆ THỐNG MIỄN DỊCH BẰNG GIẢI THUẬT TIẾN HOÁ
DỰA TRÊN MẠNG BAYES
Nguyễn Hoài Tưởng, Ramstein Gérard, Leray Philippe
Phòng thí nghiệm Tin học vùng Nantes-Atlantique
Jacques
Yannick
Trung tâm nghiên cứu Ung thư Nantes/Angers

TÓM TẮT
Bài báo giới thiệu cách tiếp cận dùng mạng Bayes để suy diễn sự khác biệt
của
sự
ảnh hưởng lẫn nhau giữa các cytokine (một loại protein quan trọng của hệ thống
miễn
dịch)
trong những điều kiện thí nghiệm khác nhau. Chúng ta sẽ được giới thiệu phương pháp tiến
hóa để học cấu trúc của mạng Bayes. Phương pháp này cho phép
chọn
lọc được một tập
hợp các mạng có tỷ lệ học tốt nhất. Mỗi mạng nhận được sau kết
quả
học sẽ được kiểm
nghiệm bằng phương pháp kiểm định thống kê với hai quần thể dữ
liệu
bệnh nhân: một có
174
nhà nghiên cứu bởi khả năng giải quyết phần lớn các vấn đề đặt ra của nó: (1) các tương
tác phức tạp tạo ra bởi một số lượng lớn gien đã được phân tích từ các nguồn dữ liệu rời
rạc và nhiễu; (2) một khối lượng khổng lồ các biến (trên 30.000 gien) trong khi rất hạn
chế về dữ liệu mẫu (vài chục đến vài trăm thí nghiệm); (3) độ phức tạp tính toán của các
cấu trúc mạng và ý nghĩa thống kê giữa các biến trong mạng.
Trong bài báo này, tác giả muốn giới thiệu một cách tiếp cận bằng phương
pháp tiến hóa để duy
trì
tập hợp các mạng Bayes có tỷ lệ học tốt nhất từ dữ liệu vi
mảng về IL-15. Tập hợp này cho phép
một
so sánh các kết quả thu được từ mỗi
mạng bằng kiểm định thống kê trên hai tập dữ liệu bệnh
nhân:
một có điều trị bằng
thuốc, còn lại không điều trị bằng thuốc (hai điều kiện thí nghiệm khác
nhau).
Nói
cách khác, chúng ta sẽ đi trả lời cho câu hỏi: “Làm thế nào dùng mạng Bayes để suy
luận sự
ảnh
hưởng của IL-15 trong những điều kiện thí nghiệm khác
nhau?”.

2. Phương
pháp

Hình 1. Mô hình đầu tiên của bài toán xây dựng lại mạng tương tác gien bằng mạng Bayes đề
nghị bởi Friedman và cộng sự vào năm 2000.
175
Những kết quả đầu tiên của các tác giả này được phân tích nghiên cứu dựa
trên
một tập dữ liệu có dung lượng ở mức trung bình. Họ đã áp dụng các phương
pháp đơn giản để rời
rạc
hóa và học cấu trúc mạng. Các tác giả cũng đã nêu lên một
số vấn đề mở cho các nghiên cứu
tiếp
theo: tập dữ liệu mẫu ít, tính liên tục của dữ
liệu, phương pháp rời rạc hóa, dữ liệu biểu lộ có
phụ
thuộc thời gian, các tính năng
suy diễn và cuối cùng độ khớp với kiến thức của chuyên
gia.

Mô hình thứ hai được Pe’er và đồng nghiệp giới thiệu sau công trình thứ nhất
một năm (2001)
[10].
Họ đã nghiên cứu trên một bộ dữ liệu lớn hơn và chú trọng vào
việc phân tích, đánh giá các mạng
con
dựa vào ngưỡng của độ tin cậy được qui định
bởi các ràng buộc về tính trội/lặn giữa các gien.
Ngoài
176

Hình 3. Mô hình đề nghị của tác
giả

Trong giai đoạn đầu, chúng tôi sử dụng cách tiến cập bằng giải thuật tiến
hóa (được trình bày
cụ
thể ở phần 2.3) để tạo ra một tập các mạng Bayes được
đánh giá là tốt nhất theo tỉ số (score)
nhận
được từ phân tích dữ liệu thí
nghiệm.

Tùy vào đặc thù của từng điều kiện thí nghiệm khác nhau, mà ở giai đoạn hai,
chúng tôi sẽ kiểm
tra
kết quả đạt được của các mạng này bằng phương pháp kiểm
định thống kê (xem mô hình chi tiết
ở
hình số 4). Cụ thể hơn, chúng tôi sẽ dùng
phương pháp kiểm định giả thuyết trên hai quần thể dữ
liệu:
một có điều trị bằng
thuốc, và ngược lại. Kết quả đạt được của nghiên cứu này cho phép chúng ta
đánh
giá
tầm ảnh hưởng của liệu pháp điều trị đến sự tương tác

trong
một mạng Bayes, mỗi biến
phụ thuộc có điền kiện vào các biến họ hàng mà không phải là con
cháu
của nó.
Khi đó, phân phối có điều kiện của A khi biết cha mẹ nó pa
A
là P(A/pa
A
) (người ta
gọi đây
là
thông số mạng – network parameter). Với luật đơn giản này, chúng ta có
thể suy diễn được một
mạng
Bayes có thể giải thích được tính chất của dữ liệu quan
sát được như thế
nào.

Ví dụ: Đối với mạng Bayes như hình 5 bên trên, ta có thể biểu diễn phân
phối có điều kiện
như
công thức 1 sau đây
:
(
1
)

Trường hợp đơn giản nhất, cấu trúc của một mạng Bayes được miêu tả và qui
định bởi các

5
,

G
6
)

=

P(
G
1
).P(
G
3
).
P(
G
2
|
G
1
).P(
G
4
|
G
2
).P(
G

Mỗi nghiên cứu, các tác giả đề nghị các phương pháp hiệu quả
riêng của họ để cải thiện độ chính
xác
của phép suy luận. Đặc biệt, trong số các
nghiên cứu này chúng tôi quan tâm đến nghiên cứu mới
gần
đây của C.Auliac [2],
người vừa bảo vệ thành công luận án tiến sĩ vào đầu năm 2009 với đề tài
“Các
tiếp
cận tiến hóa để xây dựng lại mạng tương tác gien bằng cách học mạng Bayes”. Cách
tiếp cận
này
sẽ được trình bày trong phần tiếp
theo.

2.3. Giải thuật tiến hóa cho việc học cấu trúc mạng
Bayes

Giải thuật tiến hóa (Evolutionary Algorithm - EA) là nhánh ngành con của
tính toán tiến hóa,
một
giải thuật tối ưu hóa bằng kinh nghiệm dựa vào quần thể. EA
cho phép duy trì một tập các giải
pháp
tối ưu. Một trong các đại diện rất quen thuộc
của EA là giải thuật di truyền (Genetic Algorithm -
GA).
mở. Thật vậy, đã có rất nhiều phiên bản khác nhau của EDA được đề nghị để trả
lời
vấn đề này như: EBNA (Estimation of Bayesian networks Algorihtm), FDA
(Factorized
Distribution
Algorithm), LFDA (Learning Factorized Distribution
Algorithm), BOA (Bayesian
Optimization
Algorithm). Vì vậy, đây là một đề tài hứa
hẹn sẽ vẫn còn tiếp tục thu hút các đầu tư nghiên
cứu.

Trở lại trường hợp ứng dụng cho việc học cấu trúc mạng Bayes, EDA được
xếp vào loại
các
phương pháp tìm kiếm và tính tỉ số (xem lại phần 2.2) [12], [2].
Theo giải thuật này, mỗi mạng Bayes
ứng
viên được biểu diễn bằng một chuỗi nhị
phân C
ij
kích thước n×n (công thức 3):

Theo ngôn ngữ của lý thuyết di truyền thì mỗi mạng Bayes là một nhiễm sắc
thể. Có nghĩa
là
mỗi nhiễm sắc thể, sẽ đại diện cho một cá thể của tập quần thể, và
được biểu diễn bởi một chuỗi
nhị
phân có dạng như sau (xem hình 7):

c
1n
c
2n

::: c
nn
180
Thuật toán và quá trình huấn luyện được mô tả như sau:

Hình 8 dưới đây sẽ minh họa cho việc ứng dụng giải thuật này bằng một ví dụ
đơn giản để kết thúc bài báo. Ví dụ mô tả các tiến trình tính toán của EDA cho việc học
cấu trúc của mạng Bayes. Kết quả đầu ra là tập hợp các mạng Bayes có chỉ số thích nghi
cao nhất. Đây cũng chính là các mạng kết quả tiềm năng cho bước nghiên cứu tiếp theo
sử dụng các phương pháp kiểm định thống kê nhằm đánh giá hiệu quả suy luận và mức
độ tương tác giữa các đối tượng của mạng gien (cytokine):

Hình 8. Ví dụ của việc biểu diễn một mạng Bayes theo ngôn ngữ của giải thuật di
truyền.

3. Kết luận và hướng phát
triển

Mục tiêu quan trọng nhất của nghiên cứu này là phân tích sự khác biệt về
tầm ảnh hưởng giữa
các

4. Lời cảm ơn
Dự án này được tài trợ bởi BIL (BioInformatique Lingérienne), vùng Pays de
la Loire, Cộng hòa
Pháp.

TÀI LIỆU THAM KHẢO
1. Arena, Ra. Merendino, L. Bonina, D. Iannello, G. Stassi, and
P.
Mastroeni, The
new microbiologica, Official journal of the Italian Society for
Medical,
Odontoiatric, and Clinical Microbiology (SIMMOC), 23(2),
2000.

2. C. Auliac, Approches évolutionnaires pour la reconstruction de réseaux
de
régulation
génétique par apprentissage de réseaux bayésiens, PhD Thesis, Université
d'Evry-Val
d'Essonne, France,
2008.

3. M. Dejori, Analyzing gene expression data with bayesian networks, PhD
thesis,
Technical University of Graz,
2002.

4. Z. Dongxiao, O. H. Alfred, C. Hong, K. Ritu, And Anand S., Network
constrained
clustering for gene microarray data, Bioinformatics,

2007.

10. D. Pe'er, A. Regev, G. Elidan, And N. Friedman, Inferring subnetworks
from
perturbed 182
expression profiles, Bioinformatics (Oxford, England), 17(1),
2001.

11. J. Schferand And K. Strimmer, Learning large-scale graphical gaussian models
from
genomic data. J. F. Mendes. (Ed.). Proceedings of CNET,
2005.

12. G. Thibault, S. Bonnevay, And A. Aussem, Learning bayesian network structures
by
estimation of distribution algorithms: An experimental analysis, IEEE International
Conference
on
Digital Information Management (ICDIM 07), Lyon, France,
2007.

13. L. Tiefei, Learning gene network using bayesian network framework, PhD thesis,
National
University of Singapore,
2005.

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Báo cáo nghiên cứu khoa học: "NGHIÊN CỨU VỀ SỰ KHÁC BIỆT CỦA MẠNG CYTOKINE TRONG HỆ THỐNG MIỄN DỊCH BẰNG GIẢI THUẬT TIẾN HOÁ DỰA TRÊN MẠNG BAYES" - Pdf 19

Tài liệu, ebook tham khảo khác

Học thêm