ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN THỊ QUYÊN
XÂY DỰNG HỆ THỐNG TRÍCH CHỌN TÊN RIÊNG
CHO VĂN BẢN TIẾNG VIỆT BẰNG PHƯƠNG PHÁP
HỌC THỐNG KÊ
XÂY DỰNG HỆ THỐNG TRÍCH CHỌN TÊN RIÊNG
CHO VĂN BẢN TIẾNG VIỆT BẰNG PHƯƠNG PHÁP
HỌC THỐNG KÊ
Ngành: Công nghệ thông tin
Mã số: 10110
LUẶN VĂN THẠC SĨ
NGƯỜI HƯỚNG DẪN KHOA HỌC
TS. Nguyễn Lê Minh
45
46
II.2.4 47
47
48
50
52
2
52
55
56
58
63
70
III.4
75
76
78
III.5
80
10
80
,
sinh/
.
,
.
,
.
DANH MỤC TỪ VIẾT TẮT
Tư
̀
hoă
̣
c cu
̣
m tư
̀
Viê
́
t tă
́
t
Conditional Random Field
CRF
HMMs
Information Extraction
IE
Information Retrieval
-
80
Bảng 6:
-
81
Bảng 7:
t
10
83
Bảng 10:
t
10
83
7
DANH MỤC HÌNH VẼ
Hình 1: 18
Hình 2: 18
Hình 3: 28
Hình 4: 30
Hình 5: 37
Hình 6: 50
Hình 7: 53
Hình 8: 57
Hình 9: -perceptron 59
Hình 10: 64
Hình 11:
I.1 Lược sử về trích chọn thông tin
I.1.1 Tính cần thiết của trích chọn thông tin
.
terabyte
thu th [4]
9
u
-
.
I.1.3 Một số hệ IE trong thời kỳ đầu
:
. H
tin,
11
: Phương pháp máy tri
thức Phương pháp học tự động.
. V
K
.
. H
. K
K
13
. D
-
a
15
16
. C
17
Bảng 1: Một số tiêu chí cần xem xét để lựa chọn phương pháp xây dựng
hệ trích chọn thông tin.
Dùng phương pháp máy tri thức khi:
Dùng phương pháp học tự động khi:
bng
Hình 1: Các bước cơ bản trong một hệ trích chọn thông tin.
-
Hình 2: Cụ thể hóa các bước cơ bản của một hệ trích chọn thông tin.
I.2.2.1
Tokenization
Morphological and
lexical processing
Syntactic Analysis
Domain Analysis
Word segmentation
Part-of-speed tagging
Word sense tagging
Full Parsing
, Đồng Tháp Đồng
Tháp là tỉnh thuộc vùng Đồng bằng Sông Cửu LongĐồng Tháp ra sân với
đội hình mạnh nhất. T
I.2.2.3 P
T
I.2.2.4
-
21
. C
I.3 Phương pháp đánh giá hệ thống
precision
recall :
Precision = correct answers/answers produced
o
P)
Recall = correct answers/total possible correct answers
o
R)
P R
F-F
F =
2
2
( 1) *
()
PR
PR
<org>[Indonesia]</org>, <loc>[Trung Quốc]</loc>, <loc>[Thái Lan]</loc>,
<loc>[Hàn Quốc]</loc>, <loc>[Nhật Bản]</loc>
:
67096 ./ P
75086 ./ R
1
710
7506701
75067011
.
) *(
.*.*)(
F