Nghiên cứu xây dựng phân hệ trích lọc và phân loại dữ liệu - Pdf 10

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG NGUYỄN VĂN TẤN NGHIÊN CỨU XÂY DỰNG PHÂN HỆ TRÍCH LỌC
VÀ PHÂN LOẠI DỮ LIỆU Chuyên ngành: TRUYỀN DỮ LIỆU VÀ MẠNG MÁY TÍNH
Mã số: 60.48.15 TÓM TẮT LUẬN VĂN THẠC SĨ

HÀ NỘI - 2012
2

LỜI CẢM ƠN

Lời ñầu tiên tôi xin chân thành cảm ơn TS.Trần Thiện Chính ñã tận tình hướng dẫn,
gợi mở và ñộng viên tôi suốt quá trình học tập và thực hiện luận văn

Tôi xin chân thành cảm ơn các thầy, các cô Khoa Sau ñại học - Học viện Công nghệ Bưu

trong tổ chức cũng như tìm kiếm thông tin trên nguồn tài nguyên lớn. Phân lớp dữ liệu là
một nhiệm vụ rất quan trọng trong việc tổ chức cũng như tìm kiếm dữ liệu trên nhiều nguồn
khác nhau. Mặt khác, phân lớp dữ liệu là một trong những thành phần cơ bản nhưng quan
trọng nhất trong kiến trúc tổng thể của hầu hết các máy tìm kiếm. Hiện nay, bài toán này ñã
và ñang nhận ñược nhiều sự quan tâm, nghiên cứu của các nhà khoa học.
ðể tổng hợp trích lọc dữ liệu và phân loại dữ liệu cần phải xây dựng công cụ hỗ trợ tác
nghiệp xử lý thành thông tin ñể hỗ trợ nhu cầu phân tích của các nhà lãnh ñạo, các nhà chiến
lược trong tổ chức và sự ra ñời ứng dụng mới phục vụ cho mục ñích này ñược gọi là “Hệ
trích lọc và xử lý dữ liệu”. Dữ liệu ñược lưu trữ, xử lý, kết xuất theo các nhóm và loại, các
mục ñích cụ thể dưới dạng hướng chủ ñề.
1.2. Mục tiêu và phạm vi luận văn
1.2.1.
Mục tiêu luận văn
Với xu hướng phát triển mạnh mẽ trong công nghệ thông tin, ñặc biệt là lượng thông
tin, nguồn dữ liệu cực kỳ lớn ñã ñòi hỏi phải có hệ thống lọc, xử lý và phân loại dữ liệu. Do
vậy nhu cầu cần nghiên cứu và xây dựng các công cụ trích lọc, phân loại dữ liệu ñược ñặt ra
nhằm nâng cao hiệu quả sử dụng nguồn dữ liệu.
Xuất phát từ yêu cầu ñó, tác giả ñặt vấn ñề nghiên cứu xây dựng phân hệ trích lọc và
phân tích dữ liệu. Mục ñích của ñề tài là hướng tới xây dựng bộ công cụ trích lọc, phân tích
dữ liệu từ các nguồn khác nhau.
1.2.2.
Phạm vi luận văn
ðối tượng của ñề tài là các nguồn dữ liệu khác nhau trên Web hay Internet. Phạm vi
nghiên cứu của ñề tài trong lĩnh vực trao ñổi, xử lý dữ liệu trên trang Web và các nguồn
RSS, do thời hạn thực hiện luận văn có hạn nên trong phạm vi của luận văn này, sẽ thực
hiện nghiên cứu phương pháp rút trích và phân loại trên công cụ GATE Framework 7.0 .
4

1.3. Kết quả ñạt ñược
Nghiên cứu hệ thống trích lọc và phân loại dữ liệu từ nguồn URLs, RSS dụng GATE

5 1.6. Nguyên tắc rút trích thông tin
Theo tiến sĩ Diana Maynard hầu hết các hệ thống rút trích thông tin(IE) nói chung
thường tiến hành các bước sau:
- Tiền xử lý .
- Nhận biết ñịnh dạng tài liệu (Format detection).
- Tách từ (Tokenization).
- Phân ñoạn từ (Word Segmentation).
- Giải quyết nhập nhằng ngữ nghĩa (Sense Disambiguation).
- Tách câu (Sentence Splitting).
- Gán nhãn từ loại (POS Tagging).
- Nhận diện thực thể ñịnh danh (Named Entity Detection).
- Nhận biết thực thể (Entity Detection).
- Xác ñịnh ñồng tham chiếu (Coreference).

1.7. Phương pháp tiếp cận rút trích thông tin
Các phương pháp trích xuất hiện nay có thể chia thành hai cách tiếp cận chính: tiếp
cận công nghê tri thức (Knowledge Engineering) và tiếp cận học máy tự ñộng (Automatic
Training).
1.8. Phương pháp ñánh giá rút trích thông tin Sadflk
ðể ñánh giá kết quả của thông tin ñược trích xuất, các chuyên gia ñã ñưa ra ñộ ño và
ñược sử dụng trong lĩnh vực truy vấn thông tin (IR) ñó là ñộ chính xác “Precision” và ñộ tin
cậy “Recall”.
ðộ chính xác Precision (P): Là phân số thể hiện tỷ lệ thông tin ñược rút trích ñúng.
Bao nhiêu phần trăm thông tin ñược rút là ñúng. Tỷ lệ giữa số lượng câu trả lời ñúng tìm
thấy với tổng số câu trả lời ñúng có thể.
ðộ tin cậy Recall (R): Là ñộ ño hay phân số thể hiện khả năng tin cậy của thông tin
ñược trích xuất. Tỷ lệ giữa tổng số câu trả lời ñúng tìm thấy với tổng số câu trả lời tìm thấy.

+
×
×
=1.9. Một số phương pháp trích lọc và phân loại dữ liệu hiện nay
1.9.1.
Phương pháp rút trích cụm từ khóa (Keyphrase Extraction)
Việc rút trích trước ñây hầu hết dựa vào tiếp cận phân tích cú pháp, tách câu, thống kê
tần xuất xuất hiện tf*idf ñể rút ra các cụm. Kết quả rút trích vẫn chưa thực sự tốt, còn khá
nhiều “rác” (cụm vô nghĩa, cụm không thể hiện ñiện ngữ nghĩa của tài liệu ñề cập). Vấn ñề
xác ñịnh chính xác các cụm từ khóa, cũng như xác ñịnh ñược biên giới của các từ khóa, cụm
từ khóa từ tài liệu tiếng Việt hiện nay vẫn là một bài toán khó và vẫn ñang ñược quan tâm
nghiên cứu.
1.9.2.
Phương pháp sinh cụm từ khóa tự ñộng
Phương pháp gán cụm từ khóa (Keyphrase Assignment):Tìm kiếm và chọn các cụm từ
khóa từ từ vựng quản lý (Controlled Vocabulary) thích hợp nhất ñể mô tả tài liệu. Tập dữ
liệu huấn luyện là một tập hợp các tài liệu với mỗi cụm từ trong từ vựng và dựa vào ñó ñể
xây dựng một bộ phân lớp (classifier).
Phương pháp trích xuất cụm từ khóa (Keyphrase Extraction):Sẽ dùng các kỹ thuật truy
vấn thông tin và xử lý từ vựng ñể chọn ra các cụm từ khóa từ chính tài liệu ñang xét thay vì
dùng các cụm từ ñịnh nghĩa trước trong từ vựng quản lý.
1.9.3.
Phương pháp trích xuất các cụm từ khóa (KEA)
KEA dùng phương pháp học máy Naïve Bayes ñể huấn luyện và rút trích các cụm từ
khóa.
7


thuộc tính ñộc lập nhau. Xác suất của câu s thuộc về tóm tắt ñược tính như sau:

Sau khi tính xác suất các câu, n câu có xác suất cao nhất sẽ ñược rút trích.
+ Kết hợp thêm nhiều ñặc trưng phong phú hơn: tf.idf(singleword, two-noun word,
named-entities), discourse(cohension) (sử dụng Wordnet và kỹ thuật sử lý ngôn ngữ tự
nhiên ñể phân tích sự tham chiếu ñối với các thực thể).
1.9.7.
Phương pháp mô hình Makov ẩn (Hidden Makov Model)
Tác giả ñưa ra khái niệm về sự phụ thuộc cục bộ (local dependencies) giữa các câu và
8

sử dụng mô hình HMM ñể xác ñịnh sự phụ thuộc này.
Các ñặc trưng sử dụng: position, number of term, like lihood of sentence.
Mô hình HMM bao gồm 2s+1 trạng thái, trong ñó s là số trạng thái tóm tắt (câu thuộc
tóm tắt) và s+1 là câu không thuộc tóm tắt.

Hình 1.1
: Mô hình Hidden Makov Model
Mô hình HMM xây dựng ma trận chuyển vị M, coi các ñặc trưng là ña biến và tính
xác suất của các câu qua từng trạng thái.
1.9.8.
Phương pháp máy học SVM

SVM là một phương pháp phân loại xuất phát từ lý thuyết học thống kê. Ý tưởng của
nó là ánh xạ (tuyến tính hoặc phi tuyến) dữ liệu vào không gian các vector ñặc trưng (space
of feature vectors) mà ở ñó một siêu phẳng tối ưu ñược tìm ra ñể tách dữ liệu thuộc hai lớp
khác nhau.
Giả sử, chúng ta lựa chọn ñược tập các ñặc trưng là T={t
1
, t

l
)}, (x
i

R
n
), y
i

{+1, -1}, cặp (x
i
, y
i
) ñược hiểu là
vector x
i
ñược gán nhãn là y
i
.
Nếu coi mỗi x
i
ñược biểu diễn tương ứng với một ñiểm dữ liệu trong không gian R
n
thì
ý tưởng của SVM là tìm một mặt hình học (siêu phẳng) f(x) “tốt nhất” trong không gian n-
chiều ñể phân chia dữ liệu sao cho tất cả các ñiểm x
+
ñược gán nhãn 1 thuộc về phía dương
của siêu phẳng (f(x
+


Theo quan sát Hình 3.6, chúng ta chọn ra 3 vector hỗ trợ ñể thực thi các phép toán
10

nhằm tìm ra mặt phẳng phân tách tối ưu nhất:
{s
1
= (1,0), s
2
= (3,1), s
3
= (3, -1)}

Hình 1.4
: Các vector hỗ trợ (support vector) ñược chọn
Các vector hỗ trợ ñược tăng cường (augmented) bằng cách thêm 1. Tức là s
1
= (1, 0),
thì nó sẽ ñược chuyển ñổi thành
s
%
= (1, 0, 1). Theo kiến trúc SVM, công việc của chúng ta
là tìm ra những giá trị
i
α
.
1 1 1 2 2 1 3 3 1
1 1 2 2 2 2 3 3 2
1 1 1 2 2 3 3 3 3
( ). ( ) ( ). ( ) ( ). ( ) 1

s s s s s s
α α α
α α α
α α α
+ + = −
+ + = +
+ + = +
% % % % % %
% % % % % %
% % % % % %

Rút gọn biểu thức trên thông qua việc tính toán tích vô hướng giữa các vector.
1 2 3
1 2 3
1 2 3
2 4 4 1
4 11 9 1
4 9 11 1
α α α
α α α
α α α
+ + = −
+ + = +
+ + = +

Giải hệ phương trình 3 ẩn trên ta có: α
1
= -3.5, α
2
= 0.75, α

1.10. Phạm vi ứng dụng rút trích thông tin
Khả năng ứng dụng của từ khóa và cụm từ khóa có thể kể ñến như sau:
- Các kho dữ liệu văn bản lớn như các thư viện số phát triển rất nhanh dẫn ñến gia
tăng giá trị thông tin tóm tắt.
- Hỗ trợ người dùng nhận biết về nội dung của tài liệu và kho tài liệu.
- Ứng dụng trong truy vấn thông tin  mô tả những tài liệu trả về từ kết quả truy vấn.
ðịnh hướng tìm kiếm cho người dùng.
- Nền tảng cho chỉ mục tìm kiếm.
- Là ñặc trưng dùng trong kỹ thuật phân loại, gom cụm tài liệu.
Việc gán các keyphrases cho tài liệu: Các cụm từ khóa thường ñược gán bằng tay,
tức các tác giả chủ ñộng gán các cụm từ khóa cho tài liệu họ viết. ðối với các bộ chỉ mục
chuyên nghiệp thường chọn các cụm từ một từ vựng quản lý.
 Vấn ñề gặp phải ñối với các tài liệu không có cụm từ khóa. Việc gán bằng tay là
quá trình tốn nhiều thời gian, công sức, cũng như cần có kiến thức chuyên môn.
 Rất cần thiết các kỹ thuật rút trích tự ñộng.

1.11. Các ñặc trưng dữ liệu
Các ñặc trưng ñộc lập nhau.
Các ñặc trưng rời rạc: Vector ñặc trưng d
i
có thể có nhiều thành phần mang giá trị 0 do
có nhiều ñặc trưng không xuất hiện trong dữ liệu d
i
(nếu tiếp cận theo cách sử dụng giá trị
nhị phân 1, 0 ñể biểu diễn cho việc có xuất hiện hay không một ñặc trưng nào ñó trong dữ
liệu ñang ñược biểu diễn thành vector), do ñó một cách tiếp cận khác là không sử dụng số
nhị phân 0, 1 mà sử dụng giá trị số thực ñể phần nào giảm bớt sự rời rạc trong vector dữ
liệu.
Quá trình phân tích xử lý ngôn ngữ tự nhiên có các mức ñộ sâu xử lý khác nhau như:
mức hình thái, mức cú pháp và mức ngữ nghĩa.

Dữ liệu ñầu vào
a. Các ñối tượng dữ liệu có thể là kho tài liệu hay các tài nguyên ngôn ngữ như :
danh sách, bộ từ vựng hay một cấu trúc phức tạp như bản thể học.
Mỗi ñối tượng dữ liệu có thể bao gồm tối thiểu các thuộc tính như sau:
- Tên: Tên của ñối tượng.
- Vị trí lưu trữ: ðường dẫn vật lý ñến tập tin hay thư mục.
- ðịnh dạng: Text, doc, pdf, xml, URL, RSS từ nguồn internet
- Tính chất: xử lý tạm thời trong bộ nhớ hay xử lý và lưu trữ thường trực trên thiết
bịlưu trữ.
- Loại: Kho dữ liệu, danh mục từ, các bản thể học.
- Bộ nhãn: Các thành phần trong ñối tượng dữ liệu như từ (word), cụm từ (chunk),
13

ñoạn (paragraph), câu (sentence) sẽ ñược gán nhãn theo một bộ nhãn nào ñó.
b. Cách thức thu thập dữ liệu, tiền xử lý dữ liệu từ nguồn Internet(RSS, URL) như sau:
Tiền sử lý dữ liệu: lọa bỏ dữ liệu dư thừa, sắp xếp dữ liệu ñầu vào, ñưa dữ liệu thành
cấu trúc mới gọi là dữ liệu thô. Sử dụng công cụ Dacqpipe ñể xử lý dữ liệu cho Annotation
GATE có nghĩa là dữ liệu ñầu vào (Corpus) ñã làm sạch nhiễu.
Quá trình Dacqpipe xử lý ADC (Annotated Document corpus) cho GATE là
dạng cấu trúc dữ liệu ñược loại bỏ nhiễu.
Kết quả ñưa ra một tập dữ liệu thô ñã sắp xếp và làm sạch nhiễu ñóng nhãn có dạng
(Token, Câu, Tên thực thể) ñược diễn tả với ñặc trưng XML.
2.1.2.
Hướng tiếp cận nhận diện thực thể
Hệ thống nhận diện thực thể có tên phổ biến: có thể kể ñến các hệ thống phổ biến hiện
nay như:
Hầu hết các phương pháp rút trích quan hệ tiếp cận theo các hướng như dựa trên luật
(rule-base), dựa trên ñặc trưng (feature-based) và các phương pháp kernel (kernel-based).
2.2. Phương pháp trích lọc và phân loại dữ liệu từ một số nguồn khác nhau
2.2.1.

ưng

ðóng
nhãn
Thuật toán
huấn luyện
Dữ liệu
test
Nguồn
dữ liệu
Tập Luật
Rút trích
ñặc trưng
Kết quả rút
rich d
ữ liệu

15

dữ liệu kiểm thử.
+ Bước 2: Phân lớp từng dòng ñộc lập theo 15 ñặc trưng, và gán nhãn tạm thời cho
từng dòng.
+ Bước 3: Biểu diễn từng dòng lại theo 15 + 150 ñặc trưng. ðưa vào bộ phân lớp
theo ngữ cảnh (context) và tiến hành gán nhãn lại.

2.2.3.
Phương pháp tiếp cận rút trích thông tin:
2.2.3.1. Phương pháp rút trích thông tin dựa trên học máy (Machine Learning)
Bằng cách học từ tập huấn luyện (quan sát các ñặc trưng của tập dữ liệu ñã ñược xác
ñịnh bởi chuyên gia), hệ thống sẽ phân tích nội dung dữ liệu mà người dùng ñưa vào

:NonDictWord: Một từ ñược viết thường, không có trong từ ñiển.
:Dig[3]: Một chữ số với 3 ký tự

Bảng 2.1
: Những ñặc trưng dòng

Những ñặc trưng trên ñược kết hợp với các bộ từ ñiển ñã biên soạn trước ñó:
Các ñặc trưng trên phải ñược chuẩn hóa ( ) trọng số ñặc trưng về khoảng [0, 1]
ñể nâng cao khả năng thực thi phân lớp của SVM.

Mỗi dòng l
i
trong header h sẽ ñược biểu diễn thành một vector x
i
: x
i
=(w
i1
, w
i2
, …, w
in
),
w
in
∈R là trọng số của ñặc trưng t
n
trong dòng l
i
. Như vậy, bài toán ñã ñược biểu diễn thành

Engineering
The Pennsylvania State University
Token + bigram : (look up into exist DB and
List word)
CsenLen : 6
ClinePos : 2

Database :
USA state
USA city name
8441 fist name last
List word :
Affiliation.
Adrress.
Degree.
Publish name
….
Ví d
ụ :

17

từng dòng
2.3.3.
Bước 3: Biểu diễn từng dòng lại theo 15 + 150 ñặc trưng.
ðưa vào bộ phân lớp theo ngữ cảnh (context) và tiến hành gán nhãn lại:
- Thông qua bộ phân lớp ñộc lập ta xây dựng tập Ω
1
với 15 ñặc trưng ñược ñề cập ở
phần trên, bộ phân lớp theo ngữ cảnh Ω

- Corpus Layer (LRs): lớp quản lý kho tài liệu (tập hợp một nhóm các tài liệu)
- Processing Layer (PRs): lớp quản lý các ñối tượng xử lý tài liệu: NE, Co-ref, Tes, …
- Language Resource Layer (LRs): lớp quản lý các ñối tượng dữ liệu ñặc biệt trong
GATE như: Ontology, Word-net, Gazetteer, …
- DataStore and Index Layers: lớp quản lý về lưu trữ như lưu lại trạng thái.
3.1.1.2. Tài nguyên ngôn ngữ (LR)
ðược chia làm 3 thành phần chính: tài nguyên ngôn ngữ, tài nguyên xử lý và tài
nguyên hiển thị.
3.1.1.3. Dữ liệu trong GATE
Khi ta tạo một GATE Document thì GATE sẽ cần xác ñịnh ñó là loại dữ liệu thuộc
ñịnh dạng nào (xml, html, ) ñể ñưa ra thuật toán thích hợp ñể xử lý cho từng loại dữ liệu
riêng biệt.
3.1.1.4. Xác ñịnh bộ ñọc(Right Reader)
3.1.2.
Giới thiệu về GATE-ANNIE
3.1.2.1. Giới thiệu về ANNIE
19

ANNIE (A Nearly New Information Extraction System) là hệ thống rút trích thông tin
bao gồm tập hợp các tài nguyên xử lý.
3.1.2.2. Các thành phần trong ANNIE
Tokeniser: Tokeniser chia dữ liệu thành các thành phần ñơn giản, ñược gọi là
TOKENS, với nhiều loại khác nhau như là: từ, số, dấu chấm câu, các ký tự ñặt biệt ($, £, &,
# …) và khoảng trắng.
Tokeniser Rules: một luật gồm có LHS (Left Hand Side) và RHS (Right Hand Side).
LHS và RHS cách nhau bởi dấu ‘>’.
Toán tử của LHS:
- “|” hay
- “:” xuất hiện 0 lần hoặc nhiều lần hơn.
- “?” xuất hiện 0 lần hoặc 1 lần.

Vế phải bao gồm các chú thích do ta tự ñịnh nghĩa, chúng chứa thông tin về tên nhãn.
Ngoài ra vế phải có thể chứa mã code Java ñể tạo hoặc chỉnh sửa các chú thích.
Mỗi pattern mô tả chú thích bên vế trái có thể ñược tham chiếu tới vế phải bằng tên
nhãn ñược gắn vào mỗi pattern. Tên nhãn này ñược ñặt sau dấu “:”.
Ví dụ:ðoạn ngữ pháp ñơn giản gán nhãn cho môn thể thao “Soccer”.

Hình 3.2
: Từ “Soccer” ñược gán nhãn là “Lookup”

21 Hình 3.3
: JAPE Grammar dùng ñể gán nhãn cho “Soccer” là “Sport”
Sau khi thực hiện ñoạn JAPE Grammar trên thì từ “Soccer” ñã ñược gán nhãn là
“Sport” với “rule=SportCategory”.
- Phase: firstpass: Một JAPE Grammar gồm có một tập nhiều phần, mỗi phần bao
gồm nhiều pattern.
- Input: Lookup: là ñối số ñầu vào của JAPE Grammar, ở ñây là nhãn “Lookup”. Nếu
không ghi mặc ñịnh sẽ là nhãn “Token”, “SpaceToken” và “Lookup”.
- Option: control=brill: ñịnh nghĩa phương thức của luật tương ứng. Trong ñó control
có các thuộc tính sau: appelt, brill, first, all, once.
- Rule: SportCategory : là tên của luật.
- Priority: 1 : dùng ñể thiết lặp ñộ ưu tiên của luật so với những luật khác trong cùng
một tập tin.
- ( {Lookup.majorType == “sport”} ): label: ñây là một pattern, nó ñịnh nghĩa một
ñoạn dữ liệu nào ñược gán nhãn là “Lookup” mà có “majorType” là “sport” thì sẽ ñược gán
nhãn phụ là “label”. Nếu trong JAPE Grammar này có nhiều pattern thì tên nhãn phụ không
ñược trùng >: là dấu hiệu phân biệt vế trái và vế phải, ñứng trước nó là vế trái, theo sau là
vế phải.

Rule: YearContext1
(
{Token.string == "in"}|
{Token.string == "by"}
)
(YEAR)
: date
>
:date.Timex = {kind = "date", rule = "YearContext1"}
23 3.1.3.5. JAPE use of priority
Một JAPE Grammar sẽ có 1 trong 5 kiểu control (control style) sau: “brill”, “all”,
“first”, “once” và “appelt”. Các kiểu này ñược ghi rõ ở phần bắt ñầu của mỗi gammar.
3.1.3.6. Mặt phía trái (LEFT-HAND SIDE)
Vế trái của ngữ pháp JAPE cho phép ta xây dựng các pattern ñể so khớp, tìm ra những
vùng phù hợp trong tài liệu. Một pattern có thể ñược ñịnh nghĩa ñể so khớp với một chuỗi
cụ thể nào ñó trong tài liệu, hay có thể so khớp với những vùng tài liệu ñã ñược gán nhãn
trước ñó. Ngoài ra JAPE còn cung cấp những toán tử nhằm cho phép ñịnh nghĩa các pattern
một cách uyển chuyển; cho phép khai báo các MACRO ñể sử dụng lại các pattern ñã ñược
ñịnh nghĩa trước ñó.
3.1.3.7. So khớp với chuỗi ký tự.
Phase:
UrlPre
Input: Token SpaceToken
Options: control = appelt
Rule: Urlpre
(
(({Token.string == "http"} |

Kiến trúc hệ thống.
a. Tiền xử lý câu truy vấn.
b. Nhận diện thực thể có tên:
c. Nhận diện thực thể không tên:
d. Nhận diện từ quan hệ.
e. Nhận diện giữa các thực thể(Annotation): Coextensive, Overlaps,…
3.2. Triển khai kiểm thử và phân tích, ñánh giá kết quả
Dữ liệu ñầu vào là bài báo khoa học từ các thư viện số và tạp chí chuyên ngành Khoa
học Máy tính như ACM, Springer, IEEE, Citeseer, … ñể thực nghiệm. ðã thực nghiệm với
200 bài báo ñược download. ðể ñánh giá kết quả cách tiếp cận sử dụng các ñộ ño truyền
thống ñược dùng trong truy vấn thông tin ñó là chính xác Precision (P), ñộ tin cậy Recall
(R), và ñộ ño F-measure.
)(
tntp
tp
R
+
=
;
)(
fptp
tp
P
+
=
;
)(
2
RP
RP

- ðề xuất phương pháp rút trích metadata dựa trên việc xây dựng các luật, mẫu kết hợp
các từ ñiển, thông tin tiền tố và hậu tố.
- Xây dựng công cụ trên nền API GATE Frameword trích lọc dữ liệu cho các ñặc
trưng kinh tế.
Kiến nghị hướng phát triển:
Xây dựng mô hình tri thức cho tài liệu văn bản gồm các thành phần chính: siêu dữ liệu
(Metadata), cụm từ khóa, thực thể (Entity) và quan hệ (Relationship) trên công cụ API
GATE Framework từ Internet.
Ứng dụng GATE-JAPE vào một số lĩnh vực xử lý dữ liệu Kinh tế, xã hội …nhằm mục
ñích tra cứu, ñánh giá chỉ số phát triển cho các lĩnh vực khác nhau.
Ứng dụng xây dựng hệ thống truy vấn tài liệu thông minh (tìm kiếm,tra cứu, hỏi ñáp).


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status