Báo cáo thực tập chuyên ngành LDA y sinh : Mô hình chủ đề ẩn trích xuất thực thể y sinh - Pdf 24

Nhóm:
Trần Thắng Bình
Ngô Mạnh Quyền
Chu Thị Phương Thảo

Hà nội, tháng 11 năm 2013
Đề tài: Mô hình chủ đề ẩn trích
xuất thực thể y sinh
1

Mô hình chủ để: LSA, LDA

Nguồn dữ liệu và tài nguyên: Pubmed Central, UMLS

Công cụ: Mallet

Mô hình

Kết quả

Đánh giá chất lượng cụm tự động

Hướng nghiên cứu tiếp
Nội dung
2

Mục đích nghiên cứu:

Xây dựng các cụm từ vựng(word clusters) liên quan đến nhau thuộc miền dữ
liệu y sinh dựa vào mô hình học không giám sát



LSA sử dụng phân phối Gaussian có thể không phù hợp với nhiều trường
hợp. Ví dụ như các từ trong tài liệu thường có phân phối tuân theo phân
phối Poisson hơn.

LSA không thể xử lý trường hợp đa nghĩa (một từ có nhiều nghĩa)

Khó cập nhật lại khi có một tài liệu mới xuất hiện.
LSA (Latent Semantic Analysis)
5

LDA giả sử mô hình sinh cho mỗi tài liệu

Sinh ngẫu nhiên ra phân bố chủ đề của văn bản đó

Với mỗi từ trong văn bản

Chọn ngẫu nhiên chủ đề từ phân bố chủ đề ở trên

Chọn ngẫu nhiên từ trong phân bố từ của chủ đề.

Input: Tập các tài liệu

Output:

Ma trận Từ - Chủ đề

Ma trận Chủ đề - Tài liệu
LDA (Latent Dirichlet Allocation)
6

Xử lý dữ liệu:

Dữ liệu down về dưới dạng nén “tar.gz” chứa các file dạng “nxml”
Nguồn dữ liệu và tài nguyên
9

Pubmed Central

Xử lý dữ liệu:
Nguồn dữ liệu và tài nguyên
10

UMLS:

UMLS là tập các file và phần mềm đưa ra nhiều tập từ vựng về y sinh [um]

3 công cụ UMLS:

Metathesaurus: Thuật ngữ và mã số từ nhiều tập từ vựng như CPT, ICD-10-CM,
MeSH,…

Semantic Network: các loại ngữ nghĩa và quan hệ giữa chúng.

SPECIALIST lexicon và Lexical Tools: công cụ xử lý ngôn ngữ tự nhiên.

Số liệu thống kê: UMLS có 133 nhãn về lĩnh vực hoặc chủ đề y sinh gồm
khoảng 6 triệu từ vựng.
Nguồn dữ liệu và tài nguyên
11


Dirichlet Allocation, Pachinko Allocation, and Hierarchical LDA.
Công cụ
14

Input

File dữ liệu text đầu vào với mỗi dòng là một document.

Tham số k(số chủ đề muốn sinh ra từ tập dữ liệu đầu vào).

Output
Ma trận từ/chủ đề
Công cụ
15
Mô hình
PMCWebsite
Tiền xử lý
Docs
Web
UMLS
UMLS
Tiền xử lý
Dict
Longest
matching
UMLS term
Mallet
Model
Ma trận
từ/chủ đề

Kết quả
Cụm nhiễu
Các từ trong 1 cụm hướng đến
nhiều nhãn.
(không xuất hiện các cột nổi trội)
21

Hoàn thành đánh giá chất lượng cụm được sinh ra bởi mô hình chủ đề

Hoàn thành thực tập chuyên ngành (20/11/2013)

Viết một báo cáo gửi Workshop sinh viên tại EACL 2013 (deadline: 22/11/2013)

Nghiên cứu tiếp 2 nhóm phương pháp về sinh cụm từ vựng

Áp dụng các cụm từ vựng cho một bài toán cụ thể (dự kiến: active re-ranking
model for biomedical search engine)
Công việc tiếp theo
22

[bl03] 03_#Latent Dirichlet Allocation_BleiNgJordan2003

[bl11] Blei2011_Probabilistic topic models

[ls]
/>atent-semantic-analysis-tutorial.html?start=5

[pm] />
[um] />Tài liệu tham khảo
23


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status