Tóm tắt văn bản tiếng việt dựa phương pháp không giám sát - Pdf 31

Trường Đại học Điện Lực

Đề tài 3: Tóm tắt văn bản

MỤC LỤC
6.1. Kết luận :.........................................................................................................................................39
6.2. Hướng phát triển:...........................................................................................................................39
TÀI LIỆU THAM KHẢO.......................................................................................................................40

Báo cáo kết thúc môn Máy Học

1

Trường Đại học Điện Lực

Đề tài 3: Tóm tắt văn bản

LỜI MỞ ĐẦU
Mặc dù sự gia tăng nhanh chóng của lượng thông tin trên Internet chỉ bắt đầu từ
thập kỷ cuối của thế kỷ trước, nhưng các phương pháp cho việc xử lý thông tin văn bản
như : tóm tắt, trích rút thông tin, phân loại, đánh chỉ số văn bản,…đã bắt đầu từ những
năm 59,60. Tóm tắt văn bản hiện nay vẫn thu hút được nhiều sự quan tâm của các nhà
nghiên cứu, các hội thảo chuyên đề tóm tắt văn bản được tổ chức hàng năm (DUC) luôn
đề cập tới vấn đề tìm phương pháp xử lý tóm tắt văn bản một cách tốt nhất.
Những nghiên cứu sớm nhất về tóm tắt văn bản đều sử dụng phương pháp trích rút câu
dựa trên đặc trưng về từ và tần suất nhóm từ ( Luhn, 1958), vị trí của câu trong văn bản
( Baxendale,1958) và nhóm từ quan trọng ( Edmundson, 1969). Xác định độ quan trọng
của từ dựa trên mô hình tần suất tf*idf là một trong những phương pháp chủ yếu hiện
nay.
Một trong những vấn đề thách thức và được sự quan tâm trong những năm gần

dụng thuật toán vào việc tóm tắt văn bản dựa trên môi trường C#.

1.2.

Bài toán tóm tắt văn bản tự động:

Theo Inderjeet Mani, mục đích của tóm tắt văn bản tự động là: “Tóm tắt văn bản tự động
nhằm mục đích trích xuất nội dung từ một nguồn thông tin và trình bày các nội dung
quan trọng nhất cho người sử dụng theo một khuôn dạng súc tích và gây cảm xúc đối với
người sử dụng hoặc một chương trình cần đến”.
Việc đưa ra được một văn bản kết quả tóm tắt có chất lượng như là văn bản do con
người làm ra mà không bị giới hạn bởi miền ứng dụng là được xác định là cực kỳ khó
khăn. Vì vậy, các bài toán được giải quyết trong tóm tắt văn bản thường chỉ hướng đến
một kiểu văn bản cụ thể hoặc một kiểu tóm tắt cụ thể.

2.1.

Một số khái niệm của bài toán tóm tắt và phân loại tóm tắt:

2.1.1. Một số khái niệm:
- Tỷ lệ nén(Compression Rate): là độ đo thể hiện bao nhiêu thông tin được cô đọng
trong văn bản tóm tắt được tính bằng công thức:
SourceLength
CompressionRate =
SummaryLength
SummaryLength: Độ dài văn bản tóm tắt
Báo cáo kết thúc môn Máy Học

3

Báo cáo kết thúc môn Máy Học

4

Trường Đại học Điện Lực

Đề tài 3: Tóm tắt văn bản

là một tập các tài liệu có liên quan đến nhau như: các tin tức có liên quan đến cùng một
sự kiện, các trang web cùng chủ đề hoặc là cụm dữ liệu được trả về từ quá trình phân
cụm.
- Miền dữ liệu: dựa vào miền của dữ liệu như cụ thể về một lĩnh vực nào đó, ví dụ
như: y tế, giáo dục… hay là miền dữ liệu tổng quát, có thể chia tóm tắt ra thành từng loại
tương ứng.
• Tóm tắt trên cơ sở mục đích thực chất là làm rõ cách tóm tắt, mục đích tóm tắt là
gì, tóm tắt phục vụ đối tượng nào ...
- Nếu phụ thuộc vào đối tượng đọc tóm tắt thì tóm tắt cho chuyên gia khác cách
tóm tắt cho các đối tượng đọc thông thường.
- Tóm tắt sử dụng trong tìm kiếm thông tin (IR) sẽ khác với tóm tắt phục vụ cho
việc sắp xếp.
- Dựa trên mục đích tóm tắt, còn có thể chia ra thành tóm tắt chỉ thị (Indicative)
và tóm tắt thông tin (Informative). Tóm tắt chỉ thị (indicative) chỉ ra loại của thông tin, ví
dụ như là loại văn bản chỉ thị “tối mật”. Còn tóm tắt thông tin chỉ ra nội dung của thông
tin.
- Tóm tắt trên cơ sở truy vấn (Query-based) hay tóm tắt chung (General). Tóm tắt
general mục đích chính là tìm ra một đoạn tóm tắt cho toàn bộ văn bản mà nội dung của
đoạn văn bản sẽ bao quát toàn bộ nội dung của văn bản đó. Tóm tắt trên cơ sở truy vấn
thì nội dung của văn bản tóm tắt sẽ dựa trên truy vấn của người dùng hay chương trình
đưa vào, loại tóm tắt này thường được sử dụng trong quá trình tóm tắt các kết quả trả về

cho kết quả tốt hơn tóm tắt theo tóm lược. Nguyên nhân tạo ra sự khác biệt này là do các
vấn đề trong bài toán tóm tắt theo tóm lược như: biểu diễn ngữ nghĩa, suy luận và sinh ra
ngôn ngữ tự nhiên được đánh giá là khó và chưa có nhiều kết quả nghiên cứu khả quan
hơn so với hướng trích xuất câu của bài toán tóm tắt theo trích xuất. Trong thực tế, theo
đánh giá của Dragomir R. Radev (Đại học Michigan, Mỹ) chưa có một hệ thống tóm tắt
theo tóm lược đạt đến sự hoàn thiện, các hệ thống tóm tắt theo tóm lược hiện nay thường
dựa vào thành phần trích xuất có sẵn. Các hệ thống này thường được biết đến với tên gọi
tóm tắt theo nén văn bản.

Báo cáo kết thúc môn Máy Học

6

Trường Đại học Điện Lực

Đề tài 3: Tóm tắt văn bản

Tóm tắt theo nén văn bản (Text Compaction): là loại tóm tắt sử dụng các
phương pháp cắt xén(truncates) hay viết gọn(abbreviates) đối với các thông tin quan
trọng sau khi đã được trích xuất.
Mặc dù dựa vào nhiều cơ sở có nhiều loại tóm tắt khác nhau tuy nhiên hai loại tóm
tắt là tóm tắt đơn văn bản và tóm tắt đa văn bản vẫn được sự quan tâm lớn của các nhà
nghiên cứu về tóm tắt tự động.
2.2.

Khái quát tóm tắt văn bản:

Bài toán tóm tắt văn bản đơn cũng giống như các bài toán tóm tắt khác, là một quá trình
tóm tắt tự động với đầu vào là một văn bản, đầu ra là một đoạn mô tả ngắn gọn nội dung

• Tóm tắt theo tóm lược:
Các phương pháp tóm tắt không sử dụng trích xuất để tạo ra tóm tắt có thể xem như là
một phương pháp tiếp cận tóm tắt theo tóm lược. Các hướng tiếp cận có thể kể đến như
dựa vào trích xuất thông tin (information extraction), ontology, hợp nhất và nén thông
tin… Một trong những phương pháp tóm tắt theo tóm lược cho kết quả tốt là các phương
pháp dựa vào trích xuất thông tin, phương pháp dạng này sử dụng các mẫu đã được định
nghĩa trước về một sự kiện hay là cốt truyện và hệ thống sẽ tự động điền các thông tin
vào trong mẫu có sẵn rồi sinh ra kết quả tóm tắt. Mặc dù cho ra kết quả tốt tuy nhiên các
phương pháp dạng này thường chỉ áp dụng trong một miền nhất định.

Báo cáo kết thúc môn Máy Học

8

Trường Đại học Điện Lực

Đề tài 3: Tóm tắt văn bản

CHƯƠNG 2- CƠ SỞ LÝ THUYẾT VÀ CÔNG CỤ PHÁT TRIỂN
ĐỀ TÀI
2.1. Giới thiệu về ngôn ngữ C#:
C# là ngôn ngữ được dẫn xuất từ C và C++, nhưng nó được tạo từ nền tảng phát
triển hơn. Microsoft bắt đầu với công việc trong C và C++ và thêm vào những đặc tính
mới để làm cho ngôn ngữ này dễ sử dụng hơn. Nhiều trong số những đặc tính này khá
giống với những đặc tính này khá giống với những đặc tính có trong ngôn ngữ Java.
Microsoft đưa ra một số mục đích khi xây dựng ngôn ngữ này. Những mục đích đó là:
1. C# là ngôn ngữ đơn giản:
- C# loại bỏ được một vài sự phức tạp và rối rắm của các ngôn ngữ C++ và Java.
- C# khá giống C / C++ về diện mạo, cú pháp, biểu thức, toán tử.

ngữ này có thể được sử dụng để làm bất cứ nhiệm vụ nào.
5. C# là ngôn ngữ hướng module:
- Mã nguồn của C# được viết trong Class (lớp). Những Class này chứa các Method
(phương thức) thành viên của nó.
- Class (lớp) và các Method (phương thức) thành viên của nó có thể được sử dụng lại
trong những ứng dụng hay chương trình khác.
6. C# sẽ trở nên phổ biến:
C# mang đến sức mạnh của C++ cùng với sự dễ dàng của ngôn ngữ Visual Basic..

2.2. Giới thiệu về Access :
1. Cơ sở dữ liệu là gì?
Cơ sơ dữ liệu là một tập hợp các thông tin có liên quan. Ví dụ, nếu tập hợp tất cả các bức
ảnh cùng nhau, bạn sẽ có một cơ sở dữ liệu ảnh. Nếu tập hợp tất cả các bức ảnh có cùng
chủ đề, bạn sẽ có một cơ sở dữ liệu gốc hoặc một tập con trong toàn bộ cơ sở dữ liệu.
Nếu cơ sơ dữ liệu nhỏ (ví dụ như các hợp đồng bảo hiểm của bạn), bạn có thể quản lý
thông tin bình thường. Trong những trường hợp như vậy, bạn phải sử dụng các phương
pháp quản lý cũ như một bảng file hay một danh sách đơn giản trên giấy. Tuy nhiên, cơ
sở dữ liệu ngày càng nhiều, các thao tác quản lý trở nên khó hơn. Ví dụ, sẽ rất khó để
quản lý bằng tay cơ sở dữ liệu về khách hàng trong một công ty lớn. Đây là lúc máy tính
của bạn và hệ quản trị cơ sở dữ liệu có ích. Phần mềm quản trị cơ sở dữ liệu giúp bạn
quản lý thông tin được nhanh và dễ dàng hơn.
Trong Access, một cơ sở dữ liệu không chỉ có thông tin mà còn có các bảng thông tin đã
được sắp xếp, cơ sở dữ liệu Access còn bao gồm cả mối quan hệ các truy vấn, báo biểu,
báo cáo và các lệnh lập trình. Dưới đây là khái niệm về một số thuật ngữ thường dùng
trong Access:
2. Thế nào là một Table (bảng)?
Trong Access, các bảng chứa thông tin thực tế trong cơ sơ dữ liệu, có thể có nhiều hơn
một bảng. Thông tin trong mỗi bảng có thể liên quan tới thông tin trong các bảng khác.
Ví dụ, bạn có một bảng chứa bản ghi của tất cả các khóa cửa trong tòa nhà, một bảng

4. Thế nào là Form (biểu mẫu)?
Một cơ sở dữ liệu tồn tại để lưu giữ thông tin. Sau khi xác định thông tin chứa trong cơ
sơ dữ liệu, đó là nơi bạn cần nhập dữ liệu; sau đó xem, thêm, hoặc thay đổi dữ liệu. Bạn
nên sử dụng chế độ Datasheet view khi hoàn thành mỗi thao tác, có thể tạo một biểu mẫu
hiển thị lên màn hình để nhập, xem và thay đổi thông tin.
Trong Access, biểu mẫu (Form) hiển thị lên màn hình được gọi là form. Sử dụng form có
thể hiển thị thông tin trong một bảng, đồng thời thêm các nút, text box, các nhãn và đối
tượng khác để dữ liệu nhập dễ dàng hơn.
5. Record (Bản ghi) là gì?
Bản ghi là một khối thông tin độc lập, như dữ liệu về công nhân hay khách hàng. Một
bảng được tạo lên từ nhiều bản ghi. Ví dụ, nếu bạn có bảng chứa thông tin về tập hợp các
thẻ chơi bóng chày, một bản ghi sẽ là thông tin riêng về 1 thẻ. Thông thường, các bản ghi
Báo cáo kết thúc môn Máy Học

11

Trường Đại học Điện Lực

Đề tài 3: Tóm tắt văn bản

đặt theo dòng trong một bảng, Access trình bày các bản ghi theo các dòng.
6. Trường (Field) là gì?
Bảng được tạo lên từ các bản ghi, bản ghi được tạo từ các trường. Như vậy, một trường là
vùng thông tin nhỏ nhất trong cơ sở dữ liệu. Ví dụ, nếu bạn có một bảng chứa danh bạ
điện thoại, mỗi bản ghi biểu thị cho một người hay doanh nghiệp khác nhau. Lần lượt,
các bản ghi này được tạo từ các trường riêng (như tên, địa chỉ, số điện thoại).

Báo cáo kết thúc môn Máy Học

từ điển . Nếu như thực hiện thao tác tách từ bằng cách sử dụng từ điển hoàn chỉnh
thì trong thực tế việc xây dựng một bộ từ điển hoàn chỉnh là khó thực hiện vì đòi
hỏi nhiều thời gian và công sức . Nếu tiếp cận theo hướng sử dụng từ điển thành
phần thì sẽ giảm nhẹ hạn chế , khó khăn khi xây dựng từ điển , vì khi đó chúng ta
sẽ sử dụng các hình vị từ và các từ đơn giản và các từ khác để hình thành nên từ ,
cụm từ hoàn chỉnh.

 Hướng tiếp cận theo Hybrid : Với mục đích kết hợp các hướng tiếp cận khác
nhau để thừa hưởng được các ưu điểm của nhiều kỹ thuật và các hướng tiếp cận
khác nhau nhằm nâng cao kết qủa . Hướng tiếp cận này thường kết hợp giữa
hướng dựa trên thống kê và dựa trên từ điển nhằm tận dụng các mặt mạnh của các
Báo cáo kết thúc môn Máy Học

13

Trường Đại học Điện Lực

Đề tài 3: Tóm tắt văn bản

phương pháp này . Tuy nhiên hướng tiếp cận Hybrid lại mất nhiều thời gian xử lý ,
không gian đĩa và đòi hỏi nhiều chi phí.
3.2. Các hướng tiếp cận dựa trên ký tự
Trong tiếng việt, hình vị nhỏ nhất là “tiếng” được hình thành bởi nhiều ký tự trong
bảng chữ cái . Hướng tiếp cận này đơn thuần rút trích ra một số lượng nhất định các tiếng
trong văn bản như rút trích từ 1 ký tự (unigram) hay nhiều ký tự (n-gram) và cũng mang
lại một số kết qủa nhất định được minh chứng thông qua một số công trình nghiên cứu đã
được công bố , như của tác giả Lê An Hà [2003] xây dựng tập ngữ liệu thô 10MB bằng
cách sử dụng phương pháp qui hoạch động để cựa đại hóa xác suất xuất hiện của các
ngữ.Rồi công trình nghiên cứu của H. Nguyễn[2005] làm theo hướng tiếp cận là thay vì

hiện ra những cách tách từ gây nhập nhằng , như ở ví dụ trên , giả sử C 1 là từ và C1C2
cũng là một từ , khi đó chúng ta kiểm tra ký tự kế tiếp trong chuỗi C 1, C2 , ….. ,Cn để tìm
tất cả các đoạn ba từ có bắt đầu với C1 hoặc C1C2 .
Ví dụ : Giả sử chúng ta có được các đoạn sau :
- C1 C2 C3 C4
-C1C2 C3C4 C5
-C1C2 C3C4 C5C6
Khi đó chuỗi dài nhất sẽ là chuỗi thứ ba . Do đó từ đầu tiên của chuỗi thứ ba (C 1C2) sẽ
được chọn . Thực hiện các bước cho đến khi được chuỗi từ hoành chỉnh.
Nhận xét :
Phương pháp này thực hiện tách từ đơn giản , nhanh và chỉ cần dựa vào từ điển để thực
hiện . Tuy nhiên , khuyết điểm của phương pháp này cũng chính là từ điển , nghĩa là độ
chính xác khi thực hiện tách từ phụ thuộc hoàn toàn vào tính đủ , tính chính xác của từ
điển.
3.3.2.Phương pháp Transformation – based Learning – TBL :
Phương pháp này tiếp cận dựa trên tập ngữ liệu đã đánh dấu .Theo cách tiếp cận này để
cho máy tính có thể nhận biết ranh giới giữa các từ để có thể tách từ chính xác , chúng ta
sẽ cho máy học các câu mẫu trong tập ngữ liệu đã được đánh dấu ranh giới giữa các từ
đúng .Rõ ràng chúng ta thấy phương pháp rất đơn giản , vì chỉ cần cho máy học các tập
câu mẫu và sau đó máy sẽ tự rút ra qui luật của ngôn ngữ và để từ đó sẽ áp dụng chính
xác khi có những câu đúng theo luật mà máy đã rút ra . Và rõ ràng để tách từ được hoàn
toàn chính xác trong mọi trường hợp thì đòi hỏi phải có một tập ngữ liệu tiếng Việt thật
đầy đủ và phải được huấn luyện lâu để có thể rút ra các luật đầy đủ.
3.3.3.Mô hình tách từ bằng WFST và mạng Neural :
Mô hình mạng chuyển dịch trạng thái hữu hạn có trọng số WFST – Weighted Finit State
Transducer đã được áp dụng trong tách từ từ năm 1996 . Ý tưởng cơ bản là áp dụng
WFST với trọng số là xác suất xuất hiện của mỗi từ trong kho ngữ liệu. Dùng WFST để
Báo cáo kết thúc môn Máy Học

15

từ điển , không có phải là tứ láy , không phải là danh từ riêng ,…) thì tác giả loại
bỏ các nhánh xuất phát từ cách phân đoạn đoạn đó.
o Bước 3: Lựa chọn khả năng phân đoạn từ tối ưu : Sau khi có được danh sách các
cách phân đoạn từ có thể có của câu , tác giả đã chọn trường hợp phân đoạn từ có
trọng số bé nhất.
Báo cáo kết thúc môn Máy Học

16

Trường Đại học Điện Lực

Đề tài 3: Tóm tắt văn bản

3.3.3.2 Tầng mạng Neural : Mô hình được sử dụng để khử nhập nhằng khi tách từ bằng
cách kết hợp so sánh với từ điển.
Nhận xét : Mô hình này đạt được độ chính xác trên 97% theo như công bố trong công
trình của tác giả , bằng việc sử dụng thêm mạng Neural kết hợp với từ điển để khử các
nhập nhằng có thể có khi tách ra các được nhiều từ từ một câu và khi đó tầng mạng
Neural sẽ loại bỏ đi các từ không phù hợp bằng cách kết hợp với từ điển. Bên cạnh đó,
cũng tương tự như phương pháp TBL điểm quan trọng của mô hình này cần tập ngữ liệu
học đầy đủ.
3.3.4. Phương pháp tách tách từ tiếng Việt dựa trên thống kê từ Internet và thuật
giải di truyền
Phương pháp tách tách từ tiếng Việt dựa trên thống kê từ Internet và thuật giải di truyền –
IGATEC (Internet and Genetics Algorithm based Text Categorization for Documents in
Vietnamese) do H. Nguyễn đề xuất năm 2005 như một hướng tiếp cận mới trong tách từ
với mục đích phân loại văn bản mà không cần dùng đến một từ điển hay tập ngữ liệu học
nào . Trong hướng tiếp cận này , tác giả kết hợp giữa thuật toán di truyền với dữ liệu
thống kê được lấy từ Internet .

p( w1 & w 2)
p( w1)

Thông tin phụ thuộc lẫn nhau (mutual information) của các từ ghép được cấu tạo bởi
n tiếng ( cw = w1w2…wn)
MI(cw) =

p( w1 & w 2 & ..... & w n )

( )

n
∑ p w j − p( w1 & w 2 & ..... & w n )
j =1

b. GA Engine for Text Segmentation : mỗi cá thể trong quan thể được biểu diễn bởi
chuỗi các bit 0,1 , trong đó , mỗi bit đại diện cho một tiếng trong văn bản , mỗi nhóm bit
cùng loại đại diện cho cho một segment. Các cá thể trong quần thể được khởi tạo ngẫu
nhiên , trong đó mỗi segment được giới hạn trong khoảng 5 . GA engine sau đó thực hiện
các bước đột biến và lai ghép nhằm mục đích làm tăng giá trị fitness của các cá thể để đạt
được cách tách từ tốt nhất có thể.
3.4. Kết luận
Sau khi xem xét một số hướng tiếp cận trong tách từ văn bản tiếng Việt , các
nghiên cứu đã được công bố đều chỉ ra rằng phương pháp tách từ dựa trên từ mang lại kết
qủa có độ chính xác khá cao , điều này có được nhờ vào tập huấn luyện lớn , được đánh
dấu ranh giới giữa các từ chính xác giúp cho việc học để rút ra các luật để tách từ cho các
văn bản khác được tốt đẹp , tuy nhiên chúng ta cũng dễ nhận thấy hiệu suất của phương
pháp hoàn toàn phụ thuộc vào tập ngữ liệu huấn luyện. Do đó để khắc phục sự phụ thuộc
của từ điển, chúng ta đề nghị sử dụng hướng tiếp cận của H.Nguyễn (sẽ được trình bày
chi tiết trong phần sau ) để tách từ .

Như chúng ta đã biết ở trên tóm tắt văn bản nói chung là bài toán thuộc lĩnh vực
xử lý ngôn ngữ tự nhiên. Trong phân tích xử lý ngôn ngữ tự nhiên có các mức độ sâu xử
lý khác nhau được sắp xếp theo thứ tự như sau: đầu tiên là mức hình thái
(Morphological), tiếp theo là mức cú pháp (Syntactic), tiếp đến là mức ngữ nghĩa
(Semantic) và cuối cùng là mức ngữ dụng (Pragmatic). Tương tự như các độ sâu xử lý
của xử lý ngôn ngữ tự nhiên, phương pháp tiếp cận để giải quyết bài toán tóm tắt văn bản
cũng có thể được phân loại dựa vào độ sâu xử lý được thực hiện trong quá trình tóm tắt.
Tuy nhiên phương pháp tiếp cận để giải quyết bài toán tóm tắt văn bản chỉ có ba mức, là
các mức: hình thái, cú pháp và ngữ nghĩa.
Mức hình thái: tại mức xử lý này, trong các văn bản, đơn vị được sử dụng để so
sánh là các ngữ, câu hay đoạn văn (paragraph). Các phương pháp tại mức này thường sử
dụng độ đo tương đồng dựa trên mô hình không gian vector (Vector space model) áp
dụng trọng số TF.IDF cho các từ và các câu. Phương pháp tóm tắt MMR [CG98] là
phương pháp nổi bật tại mức xử lý này.
Mức cú pháp: đơn vị được sử dụng để so sánh tại mức xử lý này là sử dụng việc
phân tích những cấu trúc ngữ pháp tương ứng trong văn bản. Các phương pháp tại mức
này tập trung vào việc phân tích cấu trúc ngữ pháp giữa các câu hay các ngữ trong từng
đoạn văn thuộc văn bản. Phương pháp do Barzilay và các đồng tác giả khác đề xuất năm
1999 [BME99] thuộc mức xử lý này.
Mức ngữ nghĩa: tại mức xử lý này tập trung nhiều vào việc phân tích các tên thực
thể, mối quan hệ giữa các thực thể cũng như các sự kiện nảy sinh thực thể để xác định
được độ quan trọng của thông tin. Phương pháp của McKeown và Radev đề xuất năm
1995[MR95] là một dạng của tóm tắt tại mức xử lý này.
Báo cáo kết thúc môn Máy Học

20

Trường Đại học Điện Lực

thông tin kém.

Mức cú pháp

So sánh giữa các

Có khả năng phát

Không thể mô tả

cây cú pháp của câu

hiện các khái niệm

các đặc trưng khác,

hay ngữ trong văn

tượng đồng trong

đòi hỏi phải mở

bản

các ngữ,cho phép

rộng các luật so

tổng hợp thông tin.

Báo cáo kết thúc môn Máy Học

21

Trường Đại học Điện Lực

Đề tài 3: Tóm tắt văn bản

bản.Việc đánh giá tự động này nhằm mục đích là tìm ra được một độ đo đánh giá tóm tắt
gần với những đánh giá của con người nhất.
Độ hồi tưởng (recall) tại các tỷ lệ nén khác nhau chính là thước đo đánh giá hợp
lý, mặc dù nó không chỉ ra được sự khác nhau về hiệu suất của hệ thống. Vì vậy độ đo về
sự bao phủ được tính theo công thức:
C=R×E
Ở đây, R là độ hồi tưởng câu được trả về bởi công thức.
R = Số đơn vị bao phủ/ Tổng số đơn vị trong mô hình tóm tắt.
E là tỷ lệ hoàn thành nằm trong khoảng từ 0 đến 1 (1 là hoàn thành tất cả, ¾ là một
phần, ½ là một số, ¼ là khó, 0 là không có).
DUC 2002 đã sử dụng một phiên bản để điều chỉnh chiều dài của thước đo bao
phủ, C’:

Với B là sự ngắn gọn và α là tham số phản tầm quan trọng. Các loại nhãn cho E
cũng đã được thay đổi thành 100%, 80%, 60%, 40%, 20%, và 0% tương ứng.
Phương pháp ROUGE.
BiLingual Evaluation Understudy (BLEU) [KST02] là một phương pháp của cộng
động dịch máy đưa ra để đánh giá tự động các hệ thống dịch máy. Phương pháp này có
hiểu qua nhanh, độc lập với ngôn ngữ và sự liên quan với các đánh giá của con người.
Recall Oriented Understudy of Gisting Evaluation (ROUGE) [LH03] là một phương pháp

Calculate F(wi) in noun set by: F ( wi ) =

N D ( wi )
ND

4.3.2 Testing phase:
Input: d: original document, r: rate of summary.
Output: d’: summary of document
Reprocessing:
- d has been segmented a set of sentences S={s1, s2, …, sn}
- In each sentence:
+ Segment into 2 word sets: noun set and other word set (not noun).

+ Calculate I(wi) in noun set by:

I ( wi ) =

N S ( wi )
+ F ( wi )
∑ wj
w j ∈d

Báo cáo kết thúc môn Máy Học

23

Trường Đại học Điện Lực

Đề tài 3: Tóm tắt văn bản

25

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Tóm tắt văn bản tiếng việt dựa phương pháp không giám sát - Pdf 31

Tài liệu, ebook tham khảo khác

Học thêm