Nhóm:
Trần Thắng Bình
Ngô Mạnh Quyền
Chu Thị Phương Thảo
Hà nội, tháng 11 năm 2013
Đề tài: Mô hình chủ đề ẩn trích
xuất thực thể y sinh
1
Mô hình chủ để: LSA, LDA
Nguồn dữ liệu và tài nguyên: Pubmed Central, UMLS
Công cụ: Mallet
Mô hình
Kết quả
Đánh giá chất lượng cụm tự động
Hướng nghiên cứu tiếp
Nội dung
2
Mục đích nghiên cứu:
Xây dựng các cụm từ vựng(word clusters) liên quan đến nhau thuộc miền dữ
liệu y sinh dựa vào mô hình học không giám sát
LSA sử dụng phân phối Gaussian có thể không phù hợp với nhiều trường
hợp. Ví dụ như các từ trong tài liệu thường có phân phối tuân theo phân
phối Poisson hơn.
LSA không thể xử lý trường hợp đa nghĩa (một từ có nhiều nghĩa)
Khó cập nhật lại khi có một tài liệu mới xuất hiện.
LSA (Latent Semantic Analysis)
5
LDA giả sử mô hình sinh cho mỗi tài liệu
Sinh ngẫu nhiên ra phân bố chủ đề của văn bản đó
Với mỗi từ trong văn bản
Chọn ngẫu nhiên chủ đề từ phân bố chủ đề ở trên
Chọn ngẫu nhiên từ trong phân bố từ của chủ đề.
Input: Tập các tài liệu
Output:
Ma trận Từ - Chủ đề
Ma trận Chủ đề - Tài liệu
LDA (Latent Dirichlet Allocation)
6
Xử lý dữ liệu:
Dữ liệu down về dưới dạng nén “tar.gz” chứa các file dạng “nxml”
Nguồn dữ liệu và tài nguyên
9
Pubmed Central
Xử lý dữ liệu:
Nguồn dữ liệu và tài nguyên
10
UMLS:
UMLS là tập các file và phần mềm đưa ra nhiều tập từ vựng về y sinh [um]
3 công cụ UMLS:
Metathesaurus: Thuật ngữ và mã số từ nhiều tập từ vựng như CPT, ICD-10-CM,
MeSH,…
Semantic Network: các loại ngữ nghĩa và quan hệ giữa chúng.
SPECIALIST lexicon và Lexical Tools: công cụ xử lý ngôn ngữ tự nhiên.
Số liệu thống kê: UMLS có 133 nhãn về lĩnh vực hoặc chủ đề y sinh gồm
khoảng 6 triệu từ vựng.
Nguồn dữ liệu và tài nguyên
11
Dirichlet Allocation, Pachinko Allocation, and Hierarchical LDA.
Công cụ
14
Input
File dữ liệu text đầu vào với mỗi dòng là một document.
Tham số k(số chủ đề muốn sinh ra từ tập dữ liệu đầu vào).
Output
Ma trận từ/chủ đề
Công cụ
15
Mô hình
PMCWebsite
Tiền xử lý
Docs
Web
UMLS
UMLS
Tiền xử lý
Dict
Longest
matching
UMLS term
Mallet
Model
Ma trận
từ/chủ đề
Kết quả
Cụm nhiễu
Các từ trong 1 cụm hướng đến
nhiều nhãn.
(không xuất hiện các cột nổi trội)
21
Hoàn thành đánh giá chất lượng cụm được sinh ra bởi mô hình chủ đề
Hoàn thành thực tập chuyên ngành (20/11/2013)
Viết một báo cáo gửi Workshop sinh viên tại EACL 2013 (deadline: 22/11/2013)
Nghiên cứu tiếp 2 nhóm phương pháp về sinh cụm từ vựng
Áp dụng các cụm từ vựng cho một bài toán cụ thể (dự kiến: active re-ranking
model for biomedical search engine)
Công việc tiếp theo
22
[bl03] 03_#Latent Dirichlet Allocation_BleiNgJordan2003
[bl11] Blei2011_Probabilistic topic models
[ls]
/>atent-semantic-analysis-tutorial.html?start=5
[pm] />
[um] />Tài liệu tham khảo
23