Xây dựng mục lục cho văn bản - pdf 14

Download miễn phí Luận văn Xây dựng mục lục cho văn bản



MỤC LỤC
LỜI CẢM ƠN . i
LỜI CAM ĐOAN. ii
MỤC LỤC.iii
DANH MỤC CÁC KÍ HIỆU, CÁC CHỮVIẾT TẮT . v
DANH MỤC CÁC BẢNG. vi
DANH MỤC CÁC HÌNH VẼ, ĐỒTHỊ. vii
MỞ ĐẦU . 1
Chương 1. GIỚI THIỆU BÀI TOÁN . 3
1.1. Bài toán tóm tắt văn bản. 3
1.2. Bài toán xây dựng mục lục cho văn bản . 5
1.3. Phương hướng giải quyết bài toán . 5
1.4. Các công trình liên quan . 6
Chương 2. PHÂN ĐOẠN VĂN BẢN VÀ SINH TIÊU ĐỀ. 8
2.1. Phân đoạn văn bản. 8
2.2. Các phương pháp phân đoạn văn bản . 9
2.2.1. Sửdụng mối liên kết từvựng. 9
2.2.2. Sửdụng mô hình nhát cắt cực tiểu. 13
2.3. Sinh tiêu đềcho văn bản . 17
2.4. Các phương pháp sinh tiêu đềcho văn bản. 18
2.4.1. Phương pháp trích chọn cụm từ. 18
2.4.2. Phương pháp hai pha. 19
2.5. Tóm tắt chương hai . 20
Chương 3. XÂY DỰNG MỤC LỤC CHO VĂN BẢN. 21
3.1. Mô hình tích hợp thuật toán . 21
3.2. Đảm bảo tính hợp lí của mục lục . 22
3.3. Các phương pháp đánh giá. 23
3.3.1. Đánh giá thuật toán phân đoạn. 23
Độ đo Pk. 24
Độ đo WindowDiff . 26
3.3.2. Đánh giá thuật toán sinh tiêu đề. 26
3.4. Tóm tắt chương ba . 27
Chương 4. THỬNGHIỆM VÀ ĐÁNH GIÁ. 28
4.1. Môi trường thửnghiệm . 28
4.2. Dữliệu thửnghiệm. 29
4.3. Quá trình thửnghiệm . 32
4.4. Kết quảthửnghiệm . 32
4.4.1. Kết quảphân đoạn văn bản . 32
4.4.2. Kết quảsinh tiêu đề. 33
4.5. Đánh giá thửnghiệm . 34
4.5. Phương hướng cải tiến . 35
4.6. Tóm tắt chương bốn . 35
KẾT LUẬN . 37
TÀI LIỆU THAM KHẢO. 38



Để tải bản DOC Đầy Đủ xin Trả lời bài viết này, Mods sẽ gửi Link download cho bạn sớm nhất qua hòm tin nhắn.
Ai cần download tài liệu gì mà không tìm thấy ở đây, thì đăng yêu cầu down tại đây nhé:
Nhận download tài liệu miễn phí

Tóm tắt nội dung:

m với vai trò là yếu tố chỉ ra mối liên kết từ vựng.
Thuật toán này một mở rộng của thuật toán được trình bày trong [Morris]
với khả năng ghi lại chuỗi các khái niệm lặp lại. Thuật toán này xác định đường
biên bằng cách xem xét các vị trí mà ở đó có sự kết thúc của một chuỗi khái
niệm và bắt đầu một chuỗi khái niệm mới.
Thuật toán bao gồm ba phần chính:
- Tokenization.
- Xác định độ tương tự.
- Nhận diện biên.
Tokenization là quá trình chia văn bản đầu vào thành các đơn vị từ vựng
độc lập. Trong quá trình này, văn bản được chia thành các “câu giả” với độ dài
cố định w cho trước (đây là một tham số của thuật toán) chứ không phải là dùng
các câu được xác định mang tính cú pháp hoàn chỉnh mặc dù điều này sẽ gây ra
10
vấn đề chuẩn hoá. Quá trình này sẽ tạo ra các nhóm token và được gọi là chuỗi
token. Theo các kết quả thực nghiệm, độ dài w là 20 sẽ phù hợp với hầu hết các
loại văn bản khác nhau. Các token được phân tính hình thái và được lưu trong
một bảng và tương ứng với mỗi token là số thứ tự của chuỗi token và tần suất
xuất hiện của token tương ứng trong chuỗi token. Đồng thời với nó là vị trí các
điểm ngắt đoạn (paragraph break) trong văn bản cũng được lưu trữ. Những từ
dừng và từ quá phổ biến cũng được loại ra trong quá trình phân tích hình thái.
Bước tiếp theo sau quá trình tokenization là tiến hành so sánh độ tương tự
từ vựng của các cặp khối (block) liền kề của các chuỗi từ vựng. Một tham số
quan trọng khác của thuật toán được đưa vào là kích thước khối (blocksize) được
định nghĩa là số các chuỗi token được nhóm lại cùng nhau để so sánh với một
nhóm chuỗi token liền kề khác. Giá trị này được kí hiệu là k thay đổi tuỳ theo
các văn bản khác nhau, tuy nhiên người ta thường lấy nó là độ dài trung bình
tính theo chuỗi token của các đoạn văn bản (paragraph). Trong thực tế, giá trị k
là 6 sẽ phù hợp với hầu hết các loại văn bản khác nhau. Các đoạn thực sự trong
văn bản không được sử dụng do độ dài của nó không đều nhau và gây ra việc so
sánh không cân bằng.
Giá trị tương tự sẽ được tính cho tất cả các vị trí ở giữa các chuỗi token.
Nghĩa là tại mỗi vị trí i ở giữa các chuỗi token, độ tương tự sẽ được tính trên hai
khối, khối thứ nhất là các chuỗi token từ i k− tới i và khối thứ hai là từ 1i + tới
1i k+ + . Các tiếp cận theo kiểu cửa sổ trượt này sẽ làm mỗi chuỗi token được
tính 2k lần.
Độ tương tự sim sẽ được tính theo độ đo cosin cho hai khối 1b và 2b với
độ dài k chuỗi token cho mỗi khối:
( ) 1 2
1 2
, ,
1 2
2 2
, ,1
sim , t b t bt
n
t b t bt t
w w
b b
w w=
= ∑∑ ∑
Trong đó khái niệm t được tính trên tập tất cả các token thu được trong
quá trình tokenization và , it bw là trọng số được gán cho khái niệm t trong khối ib .
Ở đây, trong số được tính đơn giản bằng tần suất của khái niệm tương ứng trong
khối (TF). Ngoài ra trọng số còn có thể được tính theo công thức TF IDF∗ , tuy
nhiên trong các thử nghiệm cho thấy việc chỉ dùng độ đo TF thường cho kết quả
tốt hơn. Theo công thức này thì nếu độ tương tự giữa hai khối là cao thì chứng
tỏ hai khối có nhiều khái niệm chung. Giá trị của độ đo này nằm trong đoạn
[ ]0;1 . Ví dụ ta có 2 khối với nội dung như sau:
11
Khối 1: I like apples.
Khối 2: Apples are good for you
Khi biểu diễn dưới dạng vectơ, hai khối này có nội dung như sau:
Bảng 1. Ví dụ về độ tương tự giữa 2 khối văn bản
Từ Apples Are For Good I Like You
Khối 1 1 0 0 0 1 1 0
Khối 2 1 1 1 1 0 0 1
Khi đó độ đo tương tự giữa 2 khối này có giá trị:
( ) ( )( )1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
1 1 0 1 0 1 0 1 1 0 1 0 0 1sim , 0.26
1 0 0 0 1 1 0 1 1 1 1 0 0 1
K K ∗ + ∗ + ∗ + ∗ + ∗ + ∗ + ∗= =
+ + + + + + + + + + + +
Độ đo tương tự này có thể được đồ thị hoá để có cái nhìn trực quan hơn
về sự biến đổi trong đó trục x là số thứ tự của token và trục y là giá trị độ đo
tương tự. Tuy nhiên, do độ đo tương tự được tính giữa hai khối 1b và 2b , trong
đó 1b bao gồm các chuỗi token từ i k− đến i và 2b bao gồm các chuỗi token từ
1i + đến 1i k+ + nên độ đo sẽ rơi vào vị trí giữa chuỗi token i và 1i + . Và
trong thuật toán này, chúng ta sẽ sử dụng đồ thị khác đi với trục x là số thứ tự
của điểm giữa của các chuỗi token. Đồ thị được làm trơn bằng kĩ thuật làm trơn
trung bình. Trong thực nghiệm cho thấy, việc sử dụng kĩ thuật làm trơn trung
bình với kích thước cửa sổ là 3 thích hợp với hầu hết các văn bản và chỉ cần sử
dụng một vòng làm trơn.
Các vị trí biên được xác định thông qua sự thay đổi trong chuỗi các độ đo
tương tự thu được ở bước trước. Số thứ tự của các điểm giữa của các chuỗi
token không được sắp xếp theo giá trị độ đo tương tự ở đó mà lại được sắp xếp
phụ thuộc vào mức độ dốc của đồ thị tại điểm đó so với các điểm xung quanh.
Với một điểm giữa của chuỗi token i, thuật toán sẽ xem xét độ đo tương tự tại
điểm giữa của chuỗi token bên trái của i miễn là giá trị của nó đang tăng. Khi giá
trị so với bên trái đạt cực đại, sự sai khác về độ đo tương tự giữa độ đo tại điểm
đạt cực đại và độ đo tại i được ghi lại. Công việc này được áp dụng tiếp tục với
các điểm giữa của các chuỗi token phía bên phải của i, độ tương tự của các điểm
đó sẽ được kiểm tra, miễn là chúng vẫn tiếp tục tăng. Độ cao tương đối của điểm
cực đại so với bên phải của i được cộng với độ cao tương đối của điểm cực đại
so với điểm bên trái (Một điểm giữa xuất hiện tại điểm cực đại sẽ có độ đo bằng
0 vì cả hai điểm bên cạnh đều không cao hơn nó). Độ đo mới này được gọi là độ
12
sâu, tương ứng với mức độ thay đổi xuất hiện ở hai phía của một điểm giữa của
chuỗi token. Đường biên của các phân đoạn sẽ được ấn định cho các điểm giữa
của các chuỗi token có độ đo tương ứng lớn nhất và sẽ được điều chỉnh để lấy
được điểm ngăn cách thực sự giữa các đoạn. Một thủ tục kiểm tra sẽ được thực
hiện để đảm bảo các phân đoạn không quá gần nhau. Theo thực nghiệm, nên có
ít nhất 3 chuỗi token giữa 2 đường biên. Điều này sẽ giúp ngăn những văn bản
có thông tin tiêu đề giả và các đoạn chỉ có một câu. Một ví dụ cho trường hợp
này chính là trong văn bản có sẵn câu tiêu đề cho mỗi đoạn và thông thường câu
đó được ngăn với đoạn văn bản tương ứng cũng bằng một dấu ngắt đoạn.
Thuật toán phải xác định có bao nhiêu phân đoạn (segment) sẽ được ấn
định cho một văn bản vì mỗi đoạn (paragraph) cũng có thể là một đường biên
tiềm năng. Không thể có một ngưỡng cố định cho trường hợp này vì nó phụ
thuộc theo kiểu văn bản và độ dài văn bản.
Hearst đã đưa ra một phương pháp tham ăn cho phép xác định số lượng
đường biên được ấn định phụ thuộc theo chiều dài văn bản và phụ thuộc theo
các độ đo tương tự trong văn bản đó: giá trị ngưỡng là một hàm của giá trị trung
bình và độ lệch chuẩn củ...
Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status