LUẬN VĂN: PHÂN LỚP TÀI LIỆU WEB ĐỘC LẬP NGÔN NGỮ - Pdf 10

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Thị Thuỳ Linh PHÂN LỚP TÀI LIỆU WEB
ĐỘC LẬP NGÔN NGỮ KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY

Ngành: Công nghệ thông tin Cán bộ hướng dẫn: NCS. Phan Xuân Hiếu
Cán bộ đồng hướng dẫn: TS. Hà Quang Thuỵ

Xin chân thành cảm ơn!
Hà Nội, ngày 25 tháng 05 năm 2006
Sinh viên
Nguyễn Thị Thuỳ Linh i
TÓM TẮT NỘI DUNG
Phân lớp văn bản là một trong những bài toán cơ bản và quan trọng nhất của
lĩnh vực xử lý ngôn ngữ tự nhiên. Nó có ứng dụng rất nhiều trong các bài toán thực tế
ví dụ như: ứng dụng lọc nội dung văn bản (lọc thư rác, lọc trang web có nội dung phản
động, trang web có nội dung không lành mạnh,…), bài toán phân lớp văn bản sau tìm
kiếm,… Hiện nay có rất nhiều bộ phân lớp đạt được
độ chính xác cao (đều xấp xỉ
90%), tuy nhiên các bộ phân lớp này hầu hết chỉ áp dụng cho một ngôn ngữ cụ thể.
Thực tế cho thấy, đối với bài toán lọc nội dung trang Web thì một vấn đề đặt ra là phải
xử lý trên nhiều ngôn ngữ khác nhau. Một trong hướng nghiên cứu phân lớp văn bản
được quan tâm gần đây là phân lớp đa ngôn ngữ [7]. Khoá luận này nghiên cứu và đề
xuất một phương pháp phân lớp nộ
i dung Web độc lập ngôn ngữ. Phương pháp này
cho phép tích hợp thêm các ngôn ngữ mới vào bộ phân lớp và giải quyết vấn đề bùng
nổ đặc trưng thông qua hướng tiếp cận entropy cực đại và sử dụng chiến lược tối ưu
hoá hàm nhiều biến rất hiệu quả. Các kết quả thực nghiệm cho thấy hướng tiếp cận của
khoá luận rất khả quan, cụ thể, khi huấn luyện riêng bi
ệt trên từng ngôn ngữ đều nhận
được kết quả rất cao (Anh trên 98%, Việt trên 91%), còn khi có sự kết hợp của hai
ngôn ngữ kết quả đạt được cũng rất khả quan (Anh-Việt xấp xỉ 95%). Đặc biệt khi cho

2.3. Tổng kết chương 16
CHƯƠNG 3. PHÂN LỚP TÀI LIỆU WEB ĐỘC LẬP NGÔN NGỮ VỚI MÔ HÌNH
ENTROPY CỰC ĐẠI 17

3.1 Giới thiệu 17
3.2. Bài toán phân lớp văn bản độc lập ngôn ngữ 17
3.2.1. Vấn đề nhập nhằng ngôn ngữ 17
3.2.2. Vấn đề bùng nổ đặc trưng 18
3.3. Quy trình xây dựng bộ phân lớp 19
3.3.1. Tiền xử lý dữ liệu 19
3.3.2. Xây dựng đặc trưng 20
3.3.3. Lựa chọn đặc trưng 21
3.3.4. Huấn luyện mô hình 23
3.3.5. Phân lớp văn bản mới 23
3.4. Đánh giá độ chính xác của bộ phân lớp 24

iii
3.4.1. Các độ đo 24

3.4.2. Áp dụng phương pháp ước lượng chéo trên k tập con 25
3.5. Xây dựng bộ phân lớp trên cây phân lớp thông minh 25
3.5.1. Bản chất bài toán 26
3.5.2. Phân lớp cho văn bản mới 26
3.5.3. Thảo luận 27
3.6. Tổng kết chương 27
CHƯƠNG 4. KẾT QUẢ THỬ NGHIỆM VÀ ĐÁNH GIÁ 28
4.1. Môi trường thử nghiệm 28
4.1.1. Môi trường phần cứng 28
4.1.2. Công cụ phần mềm 28
4.2. Dữ liệu kiểm thử 29

Bảng 2. Bảng ví dụ cho cây phân lớp thông minh 26
Bảng 3. Cấu hình hệ thống chạy thử nghiệm 28
Bảng 4. Danh sách phần mềm sử dụng để thử nghiệm 28
Bảng 5. Danh sách công cụ sử dụng để thử nghiệm 29
Bảng 6. Cây phân lớp thông tin 31
Bảng 7. Tập dữ liệu huấn luyện của cả 3 mô hình 31
Bảng 8. Độ chính xác 10 lần huấn luyện của tiếng Anh 32
Bảng 9. Độ chính xác 10 lần huấn luyện của tiếng Việt 32
Bảng 10. Độ chính xác 10 lần huấn luyện kết hợp Anh-Việt 32 vi
DANH MỤC HÌNH ẢNH
Hình 1. Tập ràng buộc C 12
Hình 2. Mô tả các bước xây dựng bộ phân lớp 19
Hình 3. Trang tin tức tiếng Việt VnExpress.net 29
Hình 4. Trang tin tức tiếng Anh BBC News 30
Hình 5. Độ chính xác của 3 bộ phân lớp trong 10 lần huấn luyện 33
Hình 6. Sự phụ thuộc độ chính xác theo bước lặp của cả 3 mô hình 34
Hình 7. Kết quả kiểm tra bộ dữ liệu độc lập Anh-Việt 35
1
MỞ ĐẦU
Hiện nay, nhờ khả năng cho phép mã hoá được phần lớn các ngôn ngữ thông
dụng trên toàn thế giới của bảng mã Unicode, khoảng cách giữa các quốc gia, dân tộc
do hạn chế về ngôn ngữ gây ra đang dần được xoá đi. Theo thống kê [20] hiện nay đã
có 141 ngôn ngữ được sử dụng trên Internet và xu hướng tất yếu là sẽ ngày càng xuất
hiện thêm nhiều ngôn ngữ trên Internet. Bộ phân lớp văn bản đã có hiện nay mới chỉ

2
phân lớp trên cơ sở áp dụng mô hình entropy cực đại. Đưa ra một đề xuất
mới có thể áp dụng và các ứng dụng vừa và nhỏ.
9 Chương 4: Trình bày những kết quả đánh giá thử nghiệm của khoá luận
áp dụng cho bài toán cây phân lớp tin tức với hai ngôn ngữ Anh và Việt.
Cuối cùng là kết luận lại những điểm chính, những đóng góp chính của luận
văn, đồng th
ời chỉ ra những điểm cần khắc phục và vạch ra hướng cải tiến nhằm
hướng tới xây dựng một hệ ứng dụng thực trên môi trường Internet.

3
Chương 1
KHÁI QUÁT VỀ PHÂN LỚP VĂN BẢN
ĐỘC LẬP NGÔN NGỮ
Bài toán phân lớp độc lập ngôn ngữ là một bài toán con, phát triển trên nền
của bài toán phân lớp văn bản. Trước khi trình bày về bài toán chính, chương này trình
bày một cách sơ lược lịch sử cũng như ứng dụng của bài toán phân lớp văn bản.
1.1. Bài toán phân lớp văn bản
1.1.1. Tổng quan
Phân lớp văn bản được coi là quá trình phân loại một văn bản bất kì vào một
hay nhiều lớp cho trước. Theo phương pháp học máy (machine learning), quá trình này
gồm hai bước. Ở bước thứ nhất, một mô hình phân lớp (classfication model) được xây
dựng dựa trên tri thức kinh nghiệm. Ở đây, tri thức kinh nghiệm chính là một tập dữ
liệu huấn luyện (training dataset) được cung cấp bởi con người bao gồm một tập văn
b
ản và phân lớp tương ứng của chúng. Bước này còn gọi là bước xây dựng huấn luyện
(training process) hay ước lượng mô hình phân lớp. Ở bước thứ hai, mô hình phân lớp
xây dựng ở bước đầu sẽ được sử dụng để phân lớp cho những văn bản (chưa được
phân loại) trong tương lai. Bước đầu tiên được xem như là việc học có giám sát mà
chúng ta có thể sử dụng rất nhiều các kĩ thuậ

Nếu thường xuyên theo dõi các trang tin của các hãng tin lớn, chúng ta dễ
dàng nhận thấy chúng được thể hiện trên nhiều ngôn ngữ. Trên BBC hiện nay có tới
33 ngôn ngữ, CNN có 5 ngôn ngữ,… Hoặc khi chúng ta nhập câu truy vấn trong một
hệ thống tìm kiếm trực tuyến (Google, Yahoo) để tìm kiếm thông tin mà ta quan tâm,
kết quả trả về là một danh sách các địa chỉ trang web chứa từ khoá cần tìm và chúng
hiển thị dưới nhiều ngôn ngữ khác nhau. Như vậy có th
ể thấy rằng khá nhiều ngôn ngữ
đã được đưa lên Internet. Hiện nay theo thống kê [20] đã có tới 141 ngôn ngữ được mã
hoá và được sử dụng trên Internet, và theo xu thế này thì sẽ còn có nhiều hơn nữa các
ngôn ngữ được mã hoá và đưa vào sử dụng.
Trong giai đoạn nền kinh tế hội nhập này, không chỉ các hãng tin lớn mà cả
các tập đoàn xuyên quốc gia cũng xây dựng trang web của mình trên nhiều ngôn ngữ
khác nhau. Bên cạnh đó còn có các quốc gia muốn gi
ới thiệu về nền văn hoá, lịch sử
nước mình bằng việc xây dựng các trang web trên Internet nhằm giao lưu văn hoá và
thu hút khách du lịch.
Hơn thế nữa, hiện nay thư rác, các trang web thương mại, trang web phản
động, trang web có nội dung không lành mạnh,… ngày càng xuất hiện dưới nhiều hình
thức phong phú hơn. Chúng không chỉ được biểu diến một ngôn ngữ mà còn bởi đồng
thời nhiều ngôn ngữ nhằm đi qua bộ lọc thư rác, hay các b
ộ lọc nội dung của máy tìm
kiếm. Vì thế, việc xây dựng bộ phân lớp văn bản tự động cho nhiều ngôn ngữ là rất
cần thiết.

5
Chúng ta có thể xây dựng một bộ phân lớp như vậy bằng cách sử dụng một bộ
nhận dạng ngôn ngữ cho văn bản rồi mới tiến hành phân lớp. Đây là một phương pháp
hay, tuy nhiên khó khăn gặp khi phân lớp các tài liệu có nhiều ngôn ngữ xuất hiện
đồng thời. Hướng đến việc xây dựng công cụ áp dụng cho các ứng dụng vừa và nhỏ,
trong khoá luận này, chúng tôi đề xuất tiế

Phân lớp tài liệu Web độc lập ngôn ngữ là bài toán có ý nghĩa và ứng dụng
thực tiễn cao. Nó cho phép áp d
ụng vào các bài toán như:

6
- Bài toán lọc nội dung: lọc thư rác, lọc web phản động, web không lành
mạnh,… Hiện nay, bất kì ai sử dụng email cũng đối mặt với nạn thư rác
được viết bằng đủ mọi thứ tiếng Anh, Pháp, Nga, Nhật, Hàn,… Chúng vào
hòm thư của chúng ta và gây nhiều phiền toái nên việc ngăn chặn chúng là
rất cần thiết. Bên cạnh đó, trên Internet hiện nay xuất hiện ngày càng nhiều
các trang Web không lành mạnh có ảnh hưởng xấu t
ới các em thiếu niên,
học sinh. Web không lành mạnh ở đây không chỉ có sex mà còn có thể có
nội dung về “chế tạo hoặc sử dụng vũ khí mang tính bạo lực” hay “web
hướng dẫn về tự tử tập thể” (như ở Nhật),… Bảo vệ các em thiếu niên
trước những thông tin không lành mạnh như vậy là điều rất cần thiết.
- Sử dụng làm bộ phân lớp cho các hãng tin, tổ chức xuyên qu
ốc gia, thậm
chí là các trang web giới thiệu về mình của các quốc gia trên toàn thế giới.
- Một ứng dụng cũng rất hữu ích là làm công cụ phân lớp cho các thư viện
sách lớn, thay thế cho công việc của một thủ thư. Ở đây, mô hình được xây
dựng bằng cách đọc các tóm tắt trên mỗi quyển sách và sau đó tiến hành
phân lớp. Xếp mỗi quyển sách vào một trong cách lĩnh vực: Toán học, Vật
lý, Hoá họ
c, Văn học,… một cách chính xác; khi đó người thủ thư sẽ dễ
dàng sắp xếp các quyển sách vào các khu vực với lĩnh vực tương ứng mà
không phải đọc và phân tích tóm tắt của quyển sách.
- Hiện nay, chúng tôi đang đề xuất ứng dụng nghiên cứu của khoá luận vào
dự án “Nghiên cứu, phát triển hệ thống lọc nội dung hỗ trợ quản lý và đảm
bảo an toàn – an ninh thông tin trên mạng Internet”.

2.2. Mô hình Maximum Entropy
Mô hình entropy cực đại [4][11][12][14][15][16][17] là mô hình dựa trên xác
suất có điều kiện cho phép tích hợp các thuộc tính đa dạng từ dữ liệu mẫu nhằm hỗ trợ
quá trình phân lớp.
2.2.1. Giới thiệu
Trước khi trình bày về mô hình entropy cực đại, chúng ta cùng xem xét một ví
dụ đơn giản sau. Xét một quá trình ngẫu nhiên: gieo con súc sắc, đồng chất, cân đối.
Quan sát 1.000 lần thử, thống kê xác suất xuất hiện của từng mặt ta có nhận xét:

8

6
1
() 1
i
pi
=
=
∑
(1)
p(i) là xác suất xuất hiện của mặt có i chấm.
Dễ dàng nhận thấy có rất nhiều nghiệm thoả mãn phương trình (1), ví dụ với
()
11p =
và tất cả các mặt khác có xác suất bằng 0 nghĩa là mặt xuất hiện luôn là mặt
1.
Tuy nhiên, ta biết rằng trong thực tế quá trình sinh các mặt là ngẫu nhiên nên
phân phối giống với phân phối thực nhất là: xác suất xuất hiện cho từng mặt là bằng
nhau, hay nói khác phân phối xác suất ở đây là phân phối đều:
() ( )

23561/2pppp
+
++=
(3)
Rõ ràng có rất nhiều phân phối thoả mãn cho cả phương trình (2) và (3), ví dụ
với
() ( )
11/3,41/6pp== và
(
)
21/8p
=
, các mặt 3, 5, 6 có xác suất xuất hiện là 0.
Tuy nhiên, lại một lần nữa ta thấy rằng, phân phối giống với phân phối thực nhất là:
(
)
(
)
141/4pp
=
=
(
)
(
)
(
)
(
)
23561/8pppp

xy
H
ppxpyxpyx≡−
∑
%

2.2.2. Xây dựng mô hình
Xem xét bài toán phân lớp, với Y là tập các lớp, X là tập các thông tin ngữ
cảnh, là những thông tin quan trọng cần cho việc phân lớp văn bản vào lớp Y một cách
chính xác.
Nhiệm vụ trong bài toán phân lớp là xây dựng một mô hình thống kê mà dự
đoán chính xác lớp của văn bản bất kì. Mô hình như vậy chính là phương pháp ước
lượng xác suất có điều kiện
(
)
xyp | .
Mô hình entropy cực đại cung cấp một phương pháp đơn giản để ước lượng
xác suất có điều kiện
()
xyp | thông qua việc thống kê các thuộc tính quan trọng quan
sát được từ tập dữ liệu huấn luyện.
2.2.2.1. Tập dữ liệu huấn luyện
Như các phương pháp học máy khác, để làm bài toán phân lớp trước tiên phải
xây dựng tập dữ liệu huấn luyện
(
)
(
)
{
}

ii
px y
N
=
%
× số lần xuất hiện của
(
)
,
ii
x
y trong tập dữ liệu mẫu
Thông thường thì mỗi cặp
(
)
,
ii
x
y không thể không xuất hiện trong tập mẫu,
mà nó sẽ xuất hiện ít nhất một lần.

10
2.2.2.2. Thống kê, đặc trưng và ràng buộc
Những thống kê từ dữ liệu mẫu chính là những viên gạch đầu tiên để xây dựng
mô hình. Ví dụ, khi xét bài toán lọc thư rác. Một thư được xếp vào một trong 3 nhóm
sau: thư rác (Spam), không phải thư rác (non-Spam), để xem xét (warning). Quan sát
từ tập dữ liệu mẫu là 1.000 thư đã được gán nhãn, ta có nhận xét như sau: “nếu thư có
chứa cụm từ “sản phẩm mới”, thì xác suất thư đó là thư rác là 80%”. Đây chính là m
ột
thống kê.

,
,,
pi i
xy
Ef pxyf xy=
∑
%
%
(4)
Bất kì thống kê nào sinh ra từ tập dữ liệu mẫu cũng có thể được biểu diễn một
hàm kì vọng của đặc trưng f theo quy tắc như trên.
Trong [16] cung cấp một cách có hệ thống cách xây dựng hàm đặc trưng.
Thông tin “thư có chứa cụm từ “sản phẩm mới”” được xây dựng thành một mệnh đề
thông tin ngữ cảnh:
[document_has sản phẩm mới] →
{
}
,true false
kí hiệu là
()
cp x , hàm này là một ánh xạ cặp
(
)
,
x
y một giá trị trong tập
{
}
,true false .
Nó có dạng tổng quát như sau:

Thống kê vừa nêu trong ví dụ ở phần trước là một thông tin quan trọng: xác
suất xuất hiện lên tới 80%. Trong quá trình quan sát tập dữ liệu, ta sẽ nhận được rất
nhiều thống kê hữu ích. Vì thế, nếu coi đó là một điều kiện mà mô hình ph
ải tuân theo
thì sẽ giúp mô hình dự đoán được lớp của văn bản một cách chính xác hơn. Biểu diễn
theo toán học, ta có phương trình như sau:

p
ipi
Ef Ef
=
%
(5)
Phương trình này được gọi là
ràng buộc, gọi đầy đủ là phương trình ràng
buộc, trong đó:

(
)
(
)
(
)
,
|,
pi i
xy
Ef pxpyxf xy=
∑
%

theo dữ liệu mẫu, điều này được biễu diễn một cách hình học ở Hình 1. Đến đây,
chúng ta thấy được ý nghĩa của việc biễu diễn các cứ liệu thống kê được từ dữ liệu
mẫu (chính là
p
i
Ef
%
), và ý nghĩa của việc ràng buộc mô hình của chúng ta tuân theo
những sự kiện đó (chính là
p
ipi
Ef Ef
=
%
).
2.2.2.3. Nguyên lý entropy cực đại
Giả sử quá trình thống kê từ tập dữ liệu huấn luyện sinh ra n đặc trưng
i
f
, mỗi
đặc trưng này sẽ xác định một ràng buộc. Gọi
P là không gian của tất cả các phân phối
xác suất,
C là tập con của P sẽ được mô tả như sau:
{
}
{
}
| 1,2, ,
pi pi

13
CC
∩
=∅
), không có
P
p ∈ nào thoả
mãn cả hai ràng buộc đó.
(a)
(b)
(c)
(d)
P
P
P
C
1
C
1
C
2
C
1
C
3

Hình 1. Tập ràng buộc C
Nguyên lý entropy cực đại được phát biểu rằng: “Từ tập các phân bố xác suất
có thể được là
C, sẽ tìm ra được một mô hình

13
các ràng buộc, tức tìm ra được
*
p
C
∈
làm cực đại
(
)
H
p
. Trong những trường hợp
đơn giản, chúng ta dễ dàng tìm ra mô hình phù hợp bằng các phương pháp giải tích.
Tuy nhiên trong thực tế, số các ràng buộc là rất lớn và chồng chéo nhau. Vì vậy,
chúng ta sẽ giải bài toán này theo một hướng tiếp cận khác.
Với mỗi một đặc trưng
i
f
, ta đưa vào một tham số
i
λ
là một thừa số nhân
Lagrange. Hàm Lagrange
(
)
,
p
λ
Λ
được định nghĩa như sau:

p
λ
là mô hình làm cực đại hàm Lagrange
()
,
p
λ
Λ , và
()
λ
Ψ là giá trị cực đại.

(
)
argmax ,
pP
p
p
λ
λ
∈
=
Λ (8)

(
)
(
)
,p
λ

⎛⎞
=
⎜⎟
⎝⎠
∑
(10)

()
(
)
(
)
log
ipi
xi
p
xZx Ef
λ
λλ
Ψ=− +
∑
∑
%
%
(11)
Trong đó
()
Z
x
λ

cực đại hàm đối ngẫu
()
λ
Ψ không còn ràng buộc.

14
Kết quả này có một ý nghĩa quan trọng. Khi đó, bất kì một thuật toán tìm cực
đại
*
λ
cho hàm
()
λ
Ψ
có thể sử dụng để tìm ra phân phối cực đại
*
p
của
()
H
p
thoả
mãn
*
p
C∈ .
2.2.2.5. Mối quan hệ với Maximum Likelihood
Maximum likelihood là một phương pháp thống kê cổ điển, tư tưởng của nó là
làm cực đại độ đo likelihood giữa phân phối mô hình và phân phối thực nghiệm.
Hàm log-likelihood

p
λ
là mô hình làm cực đại hàm likelihood
(
)
p
Lp
%
, thay (10) vào phương
trình (12) ta thu được biểu thức nằm bên vế phải của phương trình (11). Từ đó ta có:
(
)
(
)
p
Lp
λ
λ
Ψ
=
%

Đến đây với kết quả từ phần trước, ta kết luận được rằng: “Mô hình
*
p
C
∈

với entropy cực đại là mô hình dưới dạng tham số
(

i
p
yx f xy
Zx
λ
λ
λ
⎛⎞
=
⎜⎟
⎝⎠
∑

Huấn luyện mô hình entropy cực đại chính là ước lượng tập trọng số
{
}
, ,
ik
λ
λλ
= để phân phối mũ ở trên đạt cực đại cao nhất.

15
Thuật toán L-BFGS là phương pháp giới hạn bộ nhớ cho phương pháp quasi-
Newton (Limited memory BFGS). Phương pháp này cung cấp khả năng tối ưu hàng
triệu tham số với tốc độ rất nhanh vì vậy trong các nghiên cứu mới đây nó được đánh
giá là hiệu quả hơn các phương pháp khác.
Viết lại hàm log-likelihood khi thay

(

Lp
λ
. Tại mỗi
bước lặp ta tìm vec-tơ gradient nào có hướng tiến tới cực đại toàn cục nhất. Trên bề
mặt của một hàm lồi, vec-tơ gradient thoả mãn điều kiện đó sẽ có giá trị bằng
0
r
. Với
mỗi một vec-tơ gradient
(
)
(
)
1
, ,
N
Lp Lp
λλ
λλ
∂∂⎛⎞
⎜⎟
∂∂
⎝⎠
hiện tại xác định cho ta một tập các
trọng số.
Thành phần thứ i của vec-tơ gradient của
(
)
Lp
λ

yY
NN
ijj ji j
jjyY
pi p i
f
yx f yx
Lp
fxy
fyx
fxy p yx fyx
E f xy E f xy
λ
λ
λ
λ
λ
λ
∈
==
∈
==∈
∂
=−
∂
=−
=−
∑∑
∑∑
∑∑

)
(
)
()
|
|
p
xypy
pyx
px
=16
2.3. Tổng kết chương
Trong chương này chúng ta đã xem xem xét các vấn đề cơ bản của nguyên lý
entropy cực đại theo hướng ứng dụng vào bài toán phân lớp văn bản. Chúng ta đã hiểu
được tư tưởng chủ đạo của nguyên lý entropy, thấy được khả năng cho phép tích hợp
được hàng nghìn đặc trưng của mô hình này. Chương này cũng trình bày được mối
liên hệ giữa lilelihood cực đại và entropy cực đại, đó là sự tương đương trong ước
lượng tham số
cho mô hình tối ưu. Thuật toán ước lượng L-BFGS là phương pháp ước
lượng tham số tối ưu thông qua log-likelihood cũng đã được trình bày ở đây. Điều đó
khẳng định sức mạnh của phương pháp entropy cực đại, đặc biệt là khi ứng dụng vào
bài toán phân lớp văn bản.
Chương đầu đã giới thiệu về bài toán phân lớp văn bản độc lập ngôn ngữ nói
chung và bài toán phân lớp tài li
ệu web độc lập ngôn ngữ nói riêng. Chương tiếp theo
sẽ đề cập đến bài toán chính của khoá luận một cách chi tiết, phân tích những vấn đề
sẽ gặp phải với bài toán phân lớp văn bản độc lập ngôn ngữ. Và cũng trong chương

nhiệm vụ cốt lõi cho bài toán là phải có những chiến lược trích chọn đặc
trưng tốt.
3.2.1. Vấn đề nhập nhằng ngôn ngữ
Trường hợp xuất hiện các từ giống nhau giữa hai ngôn ngữ không phải hiếm,
trong khoá luận này tạm gọi đó là hiện tượng nhập nhằng ngôn ngữ. Ở đây đã loại trừ

Trích đoạn Xây dựng đặc trưng Phân lớp cho văn bản mới Môi trường thử nghiệm

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

LUẬN VĂN: PHÂN LỚP TÀI LIỆU WEB ĐỘC LẬP NGÔN NGỮ - Pdf 10

Tài liệu, ebook tham khảo khác

Học thêm