Bước đầu xây dựng cơ sở dữ liệu các hợp chất thiên nhiên việt nam phục vụ cho việc sàng lọc ảo - Pdf 43

ĐẠI HỌC QUỐC GIA HÀ NỘI
KHOA Y – DƯỢC

NGUYỄN THỊ THU HÀ

BƯỚC ĐẦU XÂY DỰNG CƠ SỞ DỮ LIỆU
CÁC HỢP CHẤT THIÊN NHIÊN VIỆT NAM
PHỤC VỤ CHO VIỆC SÀNG LỌC ẢO

KHÓA LUẬN TỐT NGHIỆP DƯỢC SĨ ĐẠI HỌC

Hà Nội – 2017


ĐẠI HỌC QUỐC GIA HÀ NỘI
KHOA Y DƯỢC

NGUYỄN THỊ THU HÀ

BƯỚC ĐẦU XÂY DỰNG CƠ SỞ DỮ LIỆU
CÁC HỢP CHẤT THIÊN NHIÊN VIỆT NAM
PHỤC VỤ CHO VIỆC SÀNG LỌC ẢO
KHÓA LUẬN TỐT NGHIỆP DƯỢC SĨ ĐẠI HỌC
Khóa: QH.2012.Y
Người hướng dẫn:
1. TS. Lê Thị Thu Hường
2. PGS.TS. Dương Thị Ly Hương

Hà Nội – 2017




Cơ sở dữ liệu

YHCT

Y học cổ truyền

FDA

Food and Drug Administration
(Cục quản lý thuốc và thực phẩm Mỹ)

IUPAC

International Union of Pure and Applied Chemistry
(Liên minh Quốc tế về Hóa học thuần túy và Hóa học ứng dụng)

NIST

National Institute of Standards and Technology
(Viện Tiêu chuẩn và Công nghệ Mỹ)

SMILES

Simplified Molecular Identification and Line Entry System
(Hệ thống đơn giản hóa với đầu vào dưới dạng dòng để biểu diễn
phân tử)

InChi


1.1.3. Tổng quan về quá trình nghiên cứu phát triển thuốc mới ............................................................6
1.2. Tổng quan về CSDL các hợp chất có nguồn gốc tự nhiên ...........................................................7
1.2.1. Trên thế giới .................................................................................................................................7
1.2.2. Tại Việt Nam ................................................................................................................................8
1.3. Cơ sở dữ liệu các hợp chất ..............................................................................................................9
1.3.1. Biểu diễn và nhận dạng các hợp chất hóa học bởi máy tính........................................................9
1.3.2. Thông tin liên quan về hợp chất được phân lập ........................................................................ 11
1.3.3. Các đặc tính vật lý và hóa hoc của hợp chất ............................................................................ 11
1.4. Khai thác CSDL ........................................................................................................................... 11
1.4.1. Sử dụng CSDL ........................................................................................................................... 12
1.4.2. Ứng dụng CSDL cho quá trình sàng lọc ảo in silico ................................................................ 12
1.4.3. Xây dựng các hệ thống để xác định mục tiêu phân tử của các hợp chất................................... 13
CHƯƠNG 2. ĐỐI TƯỢNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU ................................................. 14
2.1. Đối tượng nghiên cứu.................................................................................................................. 14
2.2. Phương pháp, thiết bị nghiên cứu.............................................................................................. 14
2.2.1. Phương pháp thu thập số liệu .................................................................................................... 14
2.2.2. Phương pháp xử lý số liệu.......................................................................................................... 14
2.2.3. Thiết lập giao diện website ........................................................................................................ 17
2.2.4. Thiết bị nghiên cứu..................................................................................................................... 19
CHƯƠNG 3. KẾT QUẢ VÀ THẢO LUẬN ....................................................................................... 20
3.1. Nội dung CSDL các hợp chất có nguồn gốc thiên nhiên Việt Nam ........................................ 20
3.1.1. Số lượng các hợp chất ................................................................................................................ 20
3.1.2. Phân loại các hợp chất theo đặc điểm cấu trúc hóa học ........................................................... 20


3.1.3. Phân loại các hợp chất theo nhóm tác dụng sinh học................................................................ 27
3.1.4. Đánh giá mức độ giống thuốc theo quy tắc số 5 của Lipinski ................................................... 30
3.2. VNPD website ................................................................................................................................ 31
KẾT LUẬN VÀ KIẾN NGHỊ .............................................................................................................. 35



21

3.2

Số vi phạm quy tắc Lipinski của các hợp chất trong CSDL

30


DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ

Hình

Tên hình

Trang

1.1

Quá trình nghiên cứu và phát triển thuốc mới

6

2.1

CSDL ban đầu với các thông tin được thu thập và trình bày trên
Exel

15

CSDL

28

3.4

Thống kê tác dụng dược lý đã được chứng minh của các hợp chất
ghi nhận được trong CSDL

29

3.5

Các biểu đồ biểu thị sự đánh giá các hợp chất trong CSDL dựa
theo quy tắc số 5 của Lipinski

30

3.6

Giao diện VNPD cung cấp các thông tin về hợp chất Barlupulin A

32

3.7

Kết quả tìm kiếm “sterol” ở trường “Tên thông thường” trong
VNPD

33

mô quốc tế. Nhưng các báo cáo này chỉ dừng lại ở mức độ công bố mà chưa thực sự
đem lại được một giá trị thực tiễn. Các báo cáo cung cấp cho chúng ta những thông
tin tương đối đầy đủ và đáng tin cậy về các hợp chất hóa học được phân lập từ cây
thảo dược với cấu trúc hóa học, định danh, tác dụng dân gian, tác dụng dược lý đã
được chứng minh, nguồn dược liệu làm thí nghiệm …
Mặc dù ta có được một lượng thông tin lớn và đa dạng về các hợp chất, nhưng
chỉ có một tỷ lệ nhỏ trong sự đa dạng đó được khai thác nghiêm túc cho tiềm năng
dược lý của nó. Những thông tin này đã được nghiên cứu và công bố rộng rãi nhưng
chưa có một sự quy tụ hay quản lý chung, là một vấn đề khó khăn trong công tác tìm
kiếm và chọn lựa đối với các nhà khoa học. Do vậy, việc đưa ra các giải pháp thu
thập và quản lý một cách hiệu quả là vấn đề rất cần thiết hiện nay, đặc biệt là những
đề xuất, giải pháp mang tính công nghệ ứng dụng. Đối với vấn đề quản lý hiệu quả


thì việc đề xuất các giải pháp ứng dụng công nghệ thông tin vào xây dựng CSDL và
hệ thống phần mềm giúp cho việc thu thập, quản lý và tra cứu là hết sức cần thiết.
Trên thế giới, một số quốc gia phát triển như Trung Quốc, Nam Phi, Brasil đã
xây dựng thành công hệ CSDL về các hợp chất phân lập từ thảo dược thiên nhiên ở
đất nước họ [1, 8, 22]. Và đã có một số báo cáo ghi nhận các trường hợp thiết kế
thuốc thành công dựa trên các tìm kiếm CSDL cấu trúc đó. Ngày nay, việc tìm kiếm
các hoạt chất tự nhiên có hoạt tính sinh học cao để làm thuốc là một xu thế được rất
nhiều các nhà khoa học quan tâm. Việt Nam là một trong những quốc gia thuộc các
vùng nhiệt đới – nơi chứa đựng giá trị đa dạng sinh học cao chưa được khám phá, đây
như là một tiềm năng và cũng là một thách thức lớn cho việc xây dựng và khai thác
CSDL một cách tối ưu nhất.
Do đó, chúng tôi tiến hành đề tài: “Bước đầu xây dựng cơ sở dữ liệu các hợp
chất thiên nhiên Việt Nam phục vụ cho việc sàng lọc ảo” với các mục tiêu chính
sau:
-


tổng hợp trong ống nghiệm. Nhiều loại thuốc tổng hợp và bán tổng hợp gây ra các
phản ứng phụ nghiêm trọng, nhất là các thuốc dùng điều trị cho bệnh nhân ung thư
với các tác dụng phụ biểu hiện trên da một cách rất nghiêm trọng. Các chất chuyển
hóa được phát hiện trong một số loài thực vật có thể tránh tác dụng phụ của thuốc
tổng hợp vì chúng đã từng tích tụ trong các tế bào sống [36].
Việc khám phá và phân lập nhiều hợp chất dược liệu từ các nguồn tự nhiên một
phần là do các đặc tính đã biết của các sinh vật chứa các chất này. Một trong những
hợp chất tinh khiết được phân lập đầu tiên trong lịch sử y học là morphin vào khoảng
năm 1804 bởi Friedrich Serturner từ thuốc phiện [49]. Vào thời điểm đó, thuốc phiện
được gọi là thuốc gây nghiện, mặc dù nó đã được sử dụng nhiều trong điều trị giảm


đau vào thời Trung cổ. Thuốc kháng sốt rét, quinin đã được Pelletier và Caventou
phân lập từ cây vỏ cây cinchona vào năm 1820 [47]. Loại vỏ cây này đã được sử dụng
để điều trị sốt rét từ những năm 1600 và cũng là một phần của y học cổ truyền Nam
Mỹ để điều trị bệnh sốt. Sự gia tăng tính kháng thuốc đối với quinin và dẫn chất của
nó dẫn đến nhu cầu về thuốc sốt rét thay thế và ta có artemisinin được phân lập từ cây
thanh hao hoa vàng [44]. Một thuốc giảm đau tự nhiên khác, và là một trong những
loại thuốc được sử dụng rộng rãi nhất mọi thời đại [51], là axit acetylsalicylic, được
đăng ký dưới tên "Aspirin" [23]. Tiền thân của nó là axit salicylic từ vỏ cây liễu, lá
của cây này được người Ai Cập cổ đại sử dụng với tác dụng giảm đau và chống viêm.
Sự khám phá ngẫu nhiên penicillin vào năm 1928 đã đánh dấu một mốc quan
trọng cho nền Y học hiện đại. Alexander Fleming đã nghiên cứu và quan sát được vi
khuẩn Staphylococcus không thể phát triển xung quanh một khu vực nhỏ xung quanh
khuôn của chi Penicillium [6]. Fleming đã thử nghiệm ảnh hưởng này lên các vi sinh
vật khác nhau và suy luận rằng nó có tính kháng khuẩn.
1.1.2. Y học cổ truyền
Theo Tổ chức Y tế Thế giới (WHO), định nghĩa Y học cổ truyền bao gồm các kỹ
năng, kiến thức và thực hành được sử dụng trong chăm sóc sức khoẻ dựa trên kinh
nghiệm hoặc tín ngưỡng của các nền văn hoá khác nhau [52].

Đặc biệt dưới thời nhà Trần, trong lúc triều đình và giới quan lại quyền quý
sính dùng thuốc Bắc thì thầy thuốc Tuệ Tĩnh với tinh thần độc lập tự chủ đã đề xướng
lên quan điểm “Nam dược trị Nam nhân” qua tác phẩm Nam dược thần hiệu (được
bổ sung và in lại năm 1761). Tuy nhiên, phải đến thời Hậu Lê, thì toàn bộ những lý
luận, học thuật của Trung Quốc và Việt Nam mới được tổng kết ở mức độ uyên thâm
nhất qua tác phẩm Hải Thượng Y Tôn Tâm lĩnh của Lê Hữu Trác (1720 - 1791).
Ngoài tác phẩm kinh điển vĩ đại của Hải Thượng Lãn ông Lê Hữu Trác còn có thêm:
Nam Dược của Nguyễn Hoành (Tây Sơn) giới thiệu 500 dược thảo và 130 dược liệu
từ khoáng vật và động vật. Trong thế kỷ 20 các vị danh y Việt Nam cũng đã biên
soạn trên 200 tập sách có giá trị về Đông y bằng tiếng Quốc ngữ.
Ngày nay dược liệu nói chung và thuốc YHCT nói riêng đã có trong danh mục
thuốc thiết yếu.
1.1.2.2. Tiềm năng nguồn dược liệu Viêt Nam
Theo kết thống kê của Viện Dược liệu, tính đến năm 2017 đã ghi nhận được
5.117 loài thực vật và nấm lớn, 52 loài tảo biển, 408 loài động vật và 75 loài khoáng
vật có công dụng làm thuốc. Trong số đó, có khoảng 70 loài có tiềm năng khai thác
với tổng trữ lượng khoảng 18.000 tấn/năm như diếp cá (5.000 tấn), cẩu tích (1.500
tấn), lạc tiên (1.500 tấn), rau đắng đất (1.500 tấn)…Đặc biệt, Việt Nam sở hữu nhiều
loài dược liệu quý, hiếm, đặc hữu như: Sâm Ngọc Linh, Ba kích, Châu thụ, Ngân
đằng… Kết quả này cho thấy nguồn dược liệu ở nước ta rất phong phú. Con số này
còn có thể sẽ tăng thêm, nếu đi sâu điều tra cụ thể hơn một số nhóm động – thực vật
tiềm năng, mà trong đó số loài Tảo, Rêu, Nấm và Côn trùng làm thuốc mới được
thống kê còn quá ít.


Chiến lược quốc gia phát triển ngành dược đến năm 2020 đã đặt mục tiêu phấn
đấu sản xuất được 20% nhu cầu nguyên liệu cho sản xuất thuốc trong nước; thuốc
sản xuất trong nước chiếm 80% tổng giá trị thuốc tiêu thụ trong năm, trong đó thuốc
từ dược liệu chiếm 30%.
1.1.3. Tổng quan về quá trình nghiên cứu phát triển thuốc mới

về thiết kế thuốc, phát triển các hợp chất ức chế trên đích sinh học khác nhau, điển
hình như các đích phân tử cho những bệnh đang được quan tâm hiện nay như ung
thư, bệnh do ký sinh trùng, bệnh HIV,…
1.2. Tổng quan về CSDL các hợp chất có nguồn gốc tự nhiên
1.2.1. Trên thế giới
Ngày nay trên thế giới, đặc biệt là ở các nước phát triển như Mỹ, Trung Quốc,
các nước châu Âu… đã xây dựng và đưa vào ứng dụng thành công các CSDL, các
ngân hàng cấu trúc về các hợp chất. Các hợp chất hóa học được biểu diễn dưới các
định dạng khoa học thống nhất, bằng ngôn ngữ máy tính được tập hợp và lưu trữ
trong các kho dữ liệu phục vụ hữu ích cho các nhà nghiên cứu; đặc biệt trong quá
trình sàng lọc in silico để tìm ra hợp chất dẫn đường, có tiềm năng làm thuốc [11,
19]. Bảng 1.1 và Phụ lục 1 tổng hợp một số CSDL lớn và được dùng phổ biến hiện
nay, chúng gồm các hợp chất có nguồn gốc tự nhiên và các hợp chất tổng hợp bán
tổng hợp nhân tạo. Ngày nay các ngân hàng cấu trúc được biệt lập và phát triển hơn
với những CSDL đặc thù về các hợp chất có nguồn gốc tự nhiên, hầu hết các CSDL
này có tính chất phi thương mại và được xây dựng dưới dạng một giao diện web.
Người dùng có thể tìm kiếm thông tin về hợp chất dựa trên nhiều lựa chọn tìm kiếm
khác nhau theo tên thông thường, tên IUPAC, SMILES, InChi, tính chất phân tử…
[8, 22]. Một số CSDL còn hỗ trợ cho phép người dùng tải về cấu trúc hợp chất dưới
dạng molfile hoặc sdffile. Một số CSDL lớn cung cấp cho người truy cập thêm thông
tin về các dự đoán với mục tiêu phân tử của hợp chất tiềm năng trong Y học hiện đại
hay ước tính hoạt động phân tử theo tác dụng cổ truyền của thảo dược.


Bảng 1.1: Một số CSDL công cộng có chứa các hợp chất có nguồn gốc thiên nhiên [29].
Địa chỉ website

Tên CSDL

Số lượng

oad_ncidb3.html
pubchem.ncbi.nlm.nih.gov

PubChem

∼2.000

>260.000

Chưa có thông tin

>5.000.000

Chưa có thông tin

TCMDatabase@Taiwan [8] được coi là hệ CSDL lớn nhất hiện nay. CSDL
chứa 37.170 hợp chất (32.364 không trùng lặp) được phân lập từ 352 loài thảo dược
Trung Quốc.
Bảng 1.3: Một số CSDL về hợp chất có nguồn gốc tự nhiên trên thế giới
CSDL
TCM Database@Taiwan
(Traditional Chinese Medicine
Database@Taiwan)

Địa chỉ website
.
edu.tw/

Số lượng
hợp chất


RIKEN, Japan

640

Đại học Sao Paulo

600

Đại học Rhodes

.
NuBBE database
(A database of natural products unesp.br/portal/
associated with Brazil)
nubbedb.html
SANCDB
(South African natural
compound database)

https://sancdb.r
ubi.ru.ac.za/

1.2.2. Tại Việt Nam
Thảo dược và các sản phẩm của chúng ngày càng nhận được sự quan tâm từ
các nhà khoa học và các đề xuất nghiên cứu hiện nay. Từ xu hướng chung cùng nhu


cầu thực tế, các công trình nghiên cứu về hợp chất thiên nhiên đã nở rộ và phát triển
mạnh ở nhiều đơn vị. Đặc biệt trong một số dự án nghiên cứu tìm kiếm các hợp chất

SMILES (Simplified Molecular Identification and Line Entry System) là một
dạng ký hiệu ngôn ngữ hóa học được thiết kế đặc biệt để sử dụng trên máy tính [17].
SMILES cho phép biểu diễn chính xác các đặc điểm cấu trúc bằng ngôn ngữ đơn giản
và tự nhiên hơn. Nó dễ dàng được truy cập và sử dụng trong các chương trình máy
tính hiện đại. Tương tự như ký hiệu hóa học, nhưng nó được cải thiện về phương
pháp phần mềm do đó tốc độ nhanh hơn và sử dụng tốt hơn trên máy tính.


Được phát triển như là một sự thay thế cho ký hiệu công thức dòng để biểu
diễn cấu trúc hợp chất hóa học theo ngôn ngữ máy tính. Nó cho phép một hợp chất
được viết như một chuỗi văn bản theo năm quy tắc [30].
Cấu trúc phân tử là duy nhất và xác định, có thể được sử dụng với CSDL hóa
chất, hệ thống SMILES được thiết kế để có thể tương tác tốt hơn với máy tính. Sự mã
hóa một cách nghiêm ngặt các hợp chất đầu vào giúp đơn giản hóa việc sử dụng
SMILES trên các chương trình máy tính. Hệ thống ký hiệu SMILES [10] rất thích
hợp để chạy trong các chu trình sàng lọc hiệu năng cao.
1.3.1.2. InChI
InChi [38] (IUPAC International Chemical Identifier) được thiết kế là một
định danh không độc quyền, duy nhất cho một cấu trúc hóa học, được thiết kế để tạo
thuận lợi cho việc tìm kiếm và sử dụng các thông tin trong CSDL và trên web [3].
Ban đầu được phát triển bởi IUPAC và NIST 2000-2005, định dạng và các thuật toán
là không độc quyền, mã nguồn mở, được sử dụng tự do. Miễn phí truy cập vào các
chương trình máy tính phát triển. Nó được mô tả là một loại mã vạch chứa thông tin
cấu trúc. InChi gồm nhiều lớp, mỗi lớp được phân tách bằng một dấu gạch chéo, mô
tả các loại thông tin khác nhau. InChI có thể chứa một số lớp khác nhau cùng xác
định công thức, kết nối, đồng vị, cấu trúc và các tautomers của cấu trúc hóa học [3].
Các thuật toán Inchi chuyển đổi thông tin đầu vào thành một định dạng Inchi duy
nhất trong một quá trình ba bước [38]: tiêu chuẩn hóa (để loại bỏ thông tin dự phòng),
hợp quy (để gán số duy nhất cho mỗi nguyên tử), và tuần tự (đưa ra một chuỗi ký tự) .
Định danh mô tả các chất hóa học dựa trên các thông tin về nguyên tử và các liên kết của

thời gian, địa điểm thu mẫu; bộ phận sử dụng; các tác dụng dân gian và tác dụng dược
lý được chứng minh (nếu có). Đối với các nhà nghiên cứu dược liệu, các thông tin
trên là hết sức quan trọng và cần thiết để xác định chính xác hợp chất được đề cập
tới. Các thành phần hóa học của dược liệu vốn rất đa dạng và phức tạp; như với cùng
một cây, thời gian thu hái khác nhau hoặc địa điểm thu hái ở các vùng khác nhau, khi
phân lập ra có mẫu sẽ thu được hợp chất này, nhưng có mẫu sẽ không thu được; điều
này do cấu tạo sinh học kỳ diệu của các loài. CSDL tập hợp đầy đủ các thông tin liên
quan nhất có thể về nguồn phân lập giúp cho người sử dụng có thể dễ dàng tiếp cận
và có cơ sở để nghiên cứu thêm về các hợp chất.
1.3.3. Các đặc tính vật lý và hóa hoc của hợp chất
Thông tin về các đặc tính hóa, lý của hợp chất [14] được cung cấp về phân loại
nhóm cấu trúc; khối lượng phân tử; XlogP; Số liên kết cho Hydro; Số liên kết nhận
Hydro; Số vi phạm quy tắc số 5 của Lipinski; Số liên kết xoay đồng vị; Diện tích bề
mặt hạt mang điện và MACCS trong tính toán vân tay điện tử (Fingerprints).
CSDL cung cấp một vài thông số cơ bản về đặc tính lý, hóa đặc trưng của mỗi
hợp chất, những dữ liệu này có thể được sử dụng như nguồn tham khảo hữu ích phục
vụ cho các nghiên cứu khoa học hiện đại. Đặc biệt là các nghiên cứu về tìm kiếm hợp
chất dẫn đường, hợp chất giống thuốc, hợp chất có tiềm năng làm thuốc bằng các
phương pháp sàng lọc ảo “insilico”.
1.4. Khai thác CSDL


1.4.1. Sử dụng CSDL
CSDL được thiết kế dưới hình thức một giao diện web dễ tiếp cận và truy cập.
Người dùng có thể dễ dàng tìm kiếm được các thông tin về một hợp chất với nhều
cách thức truy vấn khác nhau [1]. Có thể tìm kiếm hợp chất theo tên thông thường,
tên IUPAC, theo SMILES, InChi, InChiKey…
Khi tìm kiếm một hợp chất có trong CSDL, hệ thống sẽ trả về cho người sử
dụng tất cả thông tin liên quan về hợp chất đó, từ thông tin liên quan đến cấu trúc,
thông tin về nguồn dược liệu đến các thông tin về một số hợp chất tương tự…

1.4.3. Xây dựng các hệ thống để xác định mục tiêu phân tử của các hợp chất
Y học hiện đại có xu hướng tập trung nhiều vào phân tích các thành phần hóa
sinh của thực vật để lý giải các tác dụng dược lý của chúng. Các loài thực vật có chứa
một lượng lớn các hợp chất khác nhau trong thành phần của mình, các hợp chất ấy có
những hoạt tính riêng và rất khó để kết luận là tác dụng dược lý gây ra bởi hợp chất
nào [33]. Từ các nghiên cứu thực nghiệm, các nhà khoa học đã phân lập và định danh
được nhiều hợp chất với các đặc tính hóa sinh được ghi nhận.
Từ các hệ CSDL đa dạng trên thế giới, các thông tin về các hợp chất được tập
hợp, có tính chất mở rộng và đầy đủ hơn. Cùng là một hợp chất hóa học phân lập từ
một loài thảo dược nhưng với các điều kiện địa lý (nơi thu hái mẫu) hay bộ phận sử
dụng khác nhau đã mang lại những tính chất khác biệt. Qua sự liên kết, tổng hợp và
chia sẻ từ các CSDL trên thế giới với nhau, cùng với các CSDL, các ngân hàng dữ
liệu về các chất hóa học, sinh học, protein, genome… các nhà nghiên cứu sẽ có được
một hệ thống tri thức phong phú và tương đối đầy đủ. Từ đây việc xác định mục tiêu
phân tử của các hợp chất dần trở lên đơn giản hơn.


CHƯƠNG 2. ĐỐI TƯỢNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU
2.1. Đối tượng nghiên cứu
Những bài báo về các hợp chất có nguồn gốc thiên nhiên Việt Nam, đã được
phân lập và công bố trên các tạp chí hay ấn phẩm khoa học uy tín trong nước và quốc
tế từ năm 1992 đến năm 2016.
Các tạp chí quốc gia: tạp chí Dược học, Dược liệu, Khoa học công nghệ, Hóa
học, Nghiên cứu dược và thông tin thuốc…
Các tạp chí quốc tế : Phytochemistry, American Chemical Society and American
Society of Pharmacognosy, Chem Pharm Bull (Tokyo), Pharmaceutical Society of
Japan, Archives of Pharmacal Research, Bioorganic & Medicinal Chemistry
Letters…
2.2. Phương pháp, thiết bị nghiên cứu
2.2.1. Phương pháp thu thập số liệu

một cách thủ công trên phần mềm ChemBioDraw 13.0. Với mỗi hợp chất hóa học ta
thu được 1 SMILES, 1 InChi, 1 InChikey.
Bước 3: Trong CSDL, mỗi hợp chất sẽ được chỉ định gán cho một định danh
(số đăng ký) để cho việc tìm kiếm và quản lý các hợp chất trong CSDL được thuận
tiện hơn. Chuỗi số định danh duy nhất cho các hợp chất hóa học trong CSDL được
đặt tên là số VNPD_ID (Vietnam Natural Products Database_Identification).
Bước 4: Sử dụng phần mềm Endnote để trích xuất các tài liệu tham khảo
tương ứng của mỗi hợp chất hóa học trong CSDL, mỗi hợp chất đều được liên kết với
một tài liệu tham khảo để đảm bảo độ chính xác của thông tin.

Hình 2.1: CSDL ban đầu với các thông tin được thu thập và trình bày trên Excel

2.2.2.2. Làm sạch CSDL
 Tìm kiếm các hợp chất trùng nhau: Sắp xếp theo trường InChi và InChiKey
để đưa những hợp chất giống nhau khu trú lại gần nhau hơn.
 Lọc các hợp chất trùng nhau: So sánh InChiKey, SMILES, InChi của các
hợp chất. Các trường giống nhau sẽ được gộp lại thành một trường lớn chung.
2.2.2.3. Phân loại các nhóm chất
Phân loại các nhóm chất bằng ClassyFire, một ứng dụng để phân loại cấu trúc
tự động của các hợp chất hóa học. ClassyFire giúp phân loại hóa học theo phân cấp
của các cấu trúc. Các phân loại hóa học và phân cấp cấu trúc của nó được cung cấp


bằng cách sử dụng định dạng Ontology sinh học và Biomedical mở (OBO) [5, 16].
Định dạng chính được sử dụng để biểu diễn cấu trúc hóa học trong thuật toán phân
loại là định dạng SMARTS (SMiles ARbitrary Target Specification) [12]. SMARTS
là một định dạng phù hợp với ngôn ngữ phân tử SMILES, có thể được sử dụng để
xác định mô hình cấu trúc tiểu phân trong các phân tử. ClassyFire kết hợp nhiều
phương pháp để phát hiện mẫu kết cấu. Hầu hết các tính năng được phát hiện thông
qua tìm kiếm cấu trúc thượng tầng, được thực hiện trên thư viện của hơn 9.000 mẫu

- Nhóm chính

- Tên tài liệu tham khảo

- Công thức

- Nhóm phụ

- Tạp chí/Nhà xuất bản

- SMILES
- Thời gian xuất bản
- InChi
- Số báo

- InChiKey

- Mục

- VNPD_ID

- Số trang

Nguồn dược liệu

Các thông số lý hóa
- Khối lượng phân tử

- Tên thông thường


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status