Xây dựng hệ thống tóm tắt văn bản tiếng việt sử dụng mạng nơ ron cho việc huấn luyện - Pdf 37

MỤC LỤC
LỜI NÓI ĐẦU


2

DANH MỤC BẢNG

DANH MỤC HÌNH

Giảng viên hướng dẫn: TS Nguyễn Thị Thu Hà

Sinh viên thực hiện: Trịnh Thị Lan


4

DANH MỤC TỪ VIẾT TẮT

TỪ VIẾT

TÊN ĐẦY ĐỦ

SVM

Support vector machines

Ý NGHĨA

TẮT
Bộ phân loại máy vector

được đề xuất cho tiếng anh cũng mang lại một số kết quả đáng kể. Tuy nhiên, vẫn còn
một số vấn đề khó khăn để nghiên cứu với xử lý ngôn ngữ tiếng việt. Bởi vì đặc điểm
ngôn ngữ khác nhau giữa tiếng anh và tiếng việt. Tiếng việt là ngôn ngữ đơn âm tiết.
Không giống như tiếng anh, từ trong văn bản tiếng việt không thể được xác định bởi
không gian.
Với sự phát triển của nhiều kỹ thuật máy học trong xử lý ngôn ngữ, một số nhà
nghiên cứu đã ứng dụng các kỹ thuật này vào trong tóm tắt văn bản tự động. Một số
nghiên cứu điển hình của phương pháp này là : Naïve-Bayes, Decision Tree, Hidden
Makov Model, Log-Linear, Mạng nơ-ron, SVM.
Nhờ các khả năng: Học, nhớ lại và khái quát hoá từ các mẫu huấn luyện hoặc dữ
liệu, mạng nơ-ron nhân tạo trở thành một phát minh mới đầy hứa hẹn của hệ thống
xử lý thông tin. Các tính toán mạng nơ-ron cho phép giải quyết tốt những bài

Giảng viên hướng dẫn: TS Nguyễn Thị Thu Hà

Sinh viên thực hiện: Trịnh Thị Lan


8

toán đặc trưng. Mạng nơ-ron có thể được huấn luyện và ánh xạ từ các dữ liệu vào
tới các dữ liệu ra mà không yêu cầu các dữ liệu phải đầy đủ.
Trong đề tài thực tập này, em đã lựa chọn đề tài: “Xây dựng hệ thống tóm tắt
văn bản tiếng việt sử dụng mạng nơ ron cho việc huấn luyện”.
2. Mục

3.

tiêu đề tài:
-

-

4.

Chương trình thực nghiệm

Bố cục đồ án gồm 4 chương
Chương 1 Trình bày tổng quan về khai phá dữ liệu, tóm tắt văn bản
Chương 2 Ứng dụng mạng nơ ron trong tóm tăt văn bản
Chương 3 Phân tích thiết kế và xây dựng chương trình tóm tắt văn bản
Chương 4 Kết quả thực nghiệm

Giảng viên hướng dẫn: TS Nguyễn Thị Thu Hà

Sinh viên thực hiện: Trịnh Thị Lan


9

Chương 1 TỔNG QUAN VỀ TÓM TẮT VĂN BẢN
Các tiến bộ gần đây trong công nghệ thông tin và truyền thông đã dẫn đến sự tăng
trưởng chưa từng thấy trong dữ liệu và thông tin có sẵn. Do vậy một phương pháp mới
xử lý lượng dữ liệu và thông tin lớn đó là vô cùng cần thiết. Chúng ta cần có phương
pháp khai thác hiệu quả thông tin văn bản để phân loại, phân cụm, tổng hợp thông tin
sẵn đó. Chương này trình bày tổng quan về khai phá thông tin văn bản và đặc biệt là
tóm tắt văn bản.
1.1.Khai phá văn bản
1.1.1.

Khái niệm

đầu ra dễ hiểu đồng nghĩa với việc tóm tắt các tính năng nổi bật từ một nội dung lớn
các văn bản, một trường con trong của nó: tóm tắt văn bản.
1.1.2.

Các kỹ thuật khai phá văn bản
Phân loại văn bản: là một nhiệm vụ chủ yếu của khai phá văn bản[3]. Phân loại

văn bản là sự sắp xếp các văn bản ngôn ngữ tự nhiên với các chuyên mục xác định
trước theo nội dung của chúng. Tập hợp các chuyên mục thường được gọi là một ” từ
vựng có kiểm soát”. Phân loại văn bản là kỹ thuật truyền thống lâu đời để lấy thông tin
trong các thư viện, nơi mà tác giả chuyên ngành như một cổng vào chiếm ưu thế với
nội dung của thư viện.
Phân cụm văn bản: Phân loại văn bản là sự sắp xếp các văn bản ngôn ngữ tự
nhiên với các chuyên mục hoặc lớp không được xác đinh trước nhưng nhóm của văn
bản cùng loại sẽ được tìm kiếm.
Tóm tắt văn bản: Tóm tắt văn bản cố gắng để tạo ra một đại diện cô đọng của
đầu vào. Giúp cho con người dễ dàng nắm bắt được tri thức có thể đọc ít ma hiểu
nhiều.
Tra cứu văn bản: Với một ngữ liệu của văn bản và thông tin của người dùng cần
hiển thị như một số liệu truy vấn, tìm kiếm văn bản là nhiệm vụ nhận biết và đưa ra các
văn bản phù hợp nhất.
1.2.Tóm tắt văn bản
1.2.1.

Định nghĩa

Giảng viên hướng dẫn: TS Nguyễn Thị Thu Hà

Sinh viên thực hiện: Trịnh Thị Lan



+

Theo nội dung: Tóm tắt chung, tóm tăt hướng truy vấn.

+

Theo miền dữ liệu: Tóm tắt trên một miền dữ liệu, tóm tắt trên một thể loại,

tóm tắt độc lập.
+

Theo mức độ chi tiết: Tóm tắt tổng quan, tóm tắt tập trung sự kiện.

+

Theo số lượng: Tóm tắt đơn văn bản, tóm tắt đa văn bản.

Giảng viên hướng dẫn: TS Nguyễn Thị Thu Hà

Sinh viên thực hiện: Trịnh Thị Lan


12

+

Theo ngôn ngữ: Tóm tắt đơn ngôn ngữ, tóm tắt đa ngôn ngữ, tóm tắt xuyên
ngôn ngữ.


1.3.Một số phương pháp tiếp cận tóm tắt và ngôn ngữ tiếng việt
Có 2 loại tóm tắt là tóm tắt rút trích và tóm tắt tóm lược. Để thực hiện tóm lược
cần có một lượng tri thức đầy đủ về lĩnh vực cần tóm tắt. Điều này hiện nay còn hạn
chế nhiều, do đó các hướng tiếp cận đa số tập trung vào dạng tóm tắt rút trích câu.
1.3.1.

Phương pháp thống kê

Giảng viên hướng dẫn: TS Nguyễn Thị Thu Hà

Sinh viên thực hiện: Trịnh Thị Lan


13

Hầu hết các nghiên cứu đầu tiên cho tóm tắt đơn văn bản đều tập trung trên
những văn bản kỹ thuật (các bài báo khoa học). Các phương pháp cổ điển thường tập
trung vào các đặc trưng hình thái để tính điểm cho các câu và rút trích các câu quan
trọng để đưa vào tóm tắt.
Ý tưởng chính của hướng tiếp cận :
-

Thu tập ngữ liệu

-

Tạo các bản tóm tắt thủ công

-


14

Một số nghiên cứu điển hiển của phương phát này là: Naïve-Bayes, Decision
Tree, Hidden Makov Model, Log-Linear, Neural Network, Support vector machines
(SVM).


Phương pháp Naïve-Bayes
Phương pháp này giả định rằng các đặc trưng của văn bản độc lập nhau. Sử dụng

bộ phân lớp Naïve-Bayes để xác định câu nào thuộc về tóm tắt và ngược lại:
Cho s là các câu cần xác định. F1,F2…Fk là các đặc trưng đã được chọn, và giả
định các thuộc tính độc lập nhau. Xác suất của câu s thuộc về tóm tắt được tính như
sau:

Sau khi tính xác suất các câu, n câu có xác suất cao nhất sẽ được rút trích.


Phương pháp Decision Tree
Decision Tree là một cây phân cấp có cấu trúc được dùng để phân lớp các đối

tượng dựa vào dãy các luật.
Phương pháp dựa trên giả định các đặc trưng không độc lập với nhau, ảnh hưởng
của đặc trưng lên quá trình rút trích. Hệ thống tóm tắt là loại tóm tắt hướng về truy vấn.
Các đặc trưng : vị trí (position), số thông tin(numeric data), danh từ riêng(proper
name), danh từ và tính từ(pronoun & adjective), ngày tháng(weekday or month. Cùng
với 2 đăc trưng mới : query signature (số từ truy vấn có trong câu) và số thông tin tìm
kiếm có trong câu(IR signature).





Phương pháp mạng Neural và đặc trưng
Là phương pháp áp dụng mạng nơ ron vào huấn luyện với thuật toán của mạng để

tìm ra đầu ra thỏa mãn điều kiện mong muốn.
Các đặc trưng sử dụng : vị trí, tần suất từ, thông tin quan trọng...


Phương pháp phân tích ngôn ngữ tự nhiên
Phương pháp tiếp theo xử dụng các kỹ thuật phân tích ngôn ngữ tự nhiên phức

tạp. Không phải tất cả các phương pháp phân tích ngôn ngữ tự nhiên đều xử dụng máy
học, đôi khi phương pháp chỉ sử dụng một số các biến đổi để tạo rút trích.

Giảng viên hướng dẫn: TS Nguyễn Thị Thu Hà

Sinh viên thực hiện: Trịnh Thị Lan


16

Hầu hết các phương pháp này đều dựa trên cấu trúc diễn ngôn hay cấu trúc diễn
đạt của văn bản, như : cấu trúc các phần của văn bản, liên kết ngữ pháp (trùng lặp, tĩnh
lược, liên hợp), liên kết từ vựng (đồng nghĩa, bao hàm, lặp lại), cấu trúc chính phụ.
1.4. Kết luận
Trong chương này đồ án đã giới thiệu một số khái niệm và kỹ thuật cơ bản tóm
tắt văn bản. Bên cạnh đó đồ án cũng trình bày một số khái niệm về khai phá dữ liệu
văn bản. Để nâng cao hiệu quả tóm tắt, đồ án tập trung vào phương pháp tóm tắt văn
bản tiếng việt sử dụng mạng nơ ron.

đường truyền này dài khoảng hơn một mét. Các nơron có nhiều đặc điểm chung với
các tế bào khác trong cơ thể, ngoài ra chúng còn có những khả năng mà các tế bào khác
không có được, đó là khả năng nhận, xử lý và truyền các tín hiệu điện hóa trên các
đường mòn nơron, các con đường này tạo nên hệ thống giao tiếp của bộ não.
Mỗi nơron sinh học có 4 thành phần cơ bản:
-

Thân nơron (soma),

-

Nhánh hình cây (dendrite),

Giảng viên hướng dẫn: TS Nguyễn Thị Thu Hà

Sinh viên thực hiện: Trịnh Thị Lan


18

-

Sợi trục (axon) và

-

Khớp (synapse).

Các nhánh hình cây truyền tín hiệu vào đến thân nơron. Thân nơron tổng hợp và
xử lý cho tín hiệu đi ra. Sợi trục truyền tín hiệu ra từ thân nơron này sang nơron khác.

Là hệ phi tuyến: Mạng nơron có khả năng to lớn trong lĩnh vực nhận dạng và điều

khiển các đối tượng phi tuyến.
Là hệ xử lý song song: Mạng nơron có cấu trúc song song, do đó có tốc độ tính
toán rất cao giúp nâng cao hiệu quả tính toán.
Là hệ học và thích nghi: Mạng được luyện từ các số liệu quá khứ, có khả năng tự
chỉnh khi số liệu đầu vào bị mất, rất phù hợp với các hệ thống máy học.
Là hệ nhiều biến, là hệ nhiều đầu vào, nhiều đầu ra (Many Input Many Output MIMO), rất tiện dùng khi đối tượng có nhiều biến.
2.1.3.

Các thành phần nơron nhân tạo
Một nơron là một đơn vị xử lý thông tin và là thành phần cơ bản của một mạng

nơron. Cấu trúc của một nơron được mô tả trên.

Hình 2.2 Cấu trúc một nơron

Giảng viên hướng dẫn: TS Nguyễn Thị Thu Hà

Sinh viên thực hiện: Trịnh Thị Lan


20

Các thành phần cơ bản của một nơron nhân tạo bao gồm:
-

Tập các đầu vào: Là các tín hiệu vào (input signals) của nơron, các tín hiệu này
thường được đưa vào dưới dạng một vector n chiều.


Đồ thị

Định nghĩa

Hàm bước nhị
phân

Giảng viên hướng dẫn: TS Nguyễn Thị Thu Hà

Sinh viên thực hiện: Trịnh Thị Lan


21

Linear

y=x

Hàm đồng nhất
Saturating Linear
(satlin)

Log-Sigmoid
Hàm sigmoid

Các hàm truyền của đơn vị lớp ẩn là cần thiết để biểu diễn sự phi tuyến
trong mạng. Đối với luật học lan truyền ngược, hàm phải khả vi và sẽ có nếu như
hàm được gán với một khoảng nào đó. Do vậy hàm sigmoid là sự lựa chọn phổ
biến nhất.
Đối với các đơn vị đầu ra, các hàm truyền cần được chọn sao cho phù hợp

tới đầu ra, đầu ra của một tầng bất kì sẽ không ảnh hưởng tới tầng đó. Các mạng kiểu
Perceptron (là mô hình đơn giản nhất của mạng nơ-ron chỉ có 1 tầng) là mạng truyền
thẳng.
Mạng hồi qui (Feedback architecture): là kiểu kiến trúc mạng có các kết nối từ
nơron đầu ra tới nơron đầu vào. Mạng lưu lại các trạng thái trước đó, và trạng thái tiếp
theo không chỉ phụ thuộc vào các tín hiệu đầu vào mà còn phụ thuộc vào các trạng thái
trước đó của mạng.
2.1.5.

Các phương pháp học
Khái niệm: Học là quá trình thay đổi hành vi của các vật theo một cách nào đó

làm cho chúng có thể thực hiện tốt hơn trong tương lai.
Một mạng nơron được huyấn luyện(học) sao cho với một tập các vector đầu vào
X, mạng có khả năng tạo ra tập các vector đầu ra mong muốn Y của nó. Tập X được sử
dụng cho huấn luyện mạng được gọi là tập huấn luyện (training set). Các phần tử x
thuộc X được gọi là các mẫu huấn luyện (training example). Quá trình huấn luyện bản
chất là sự thay đổi các trọng số liên kết của mạng. Trong quá trình này, các trọng số
của mạng sẽ hội tụ dần tới các giá trị sao cho với mỗi vector đầu vào x từ tập huấn
luyện, mạng sẽ cho ra vector đầu ra y như mong muốn.

Giảng viên hướng dẫn: TS Nguyễn Thị Thu Hà

Sinh viên thực hiện: Trịnh Thị Lan


23

Có ba phương pháp học phổ biến là học có giám sát (supervised learning), học
không giám sát (unsupervised learning) và học tăng cường (Reinforcement learning):


24

Về cơ bản, thuật toán lan truyền ngược là dạng tổng quát của thuật toán trung
bình bình phương tối thiểu (Least Means Square-LMS). Thuật toán này thuộc dạng
thuật toán xấp xỉ để tìm các điểm mà tại đó hiệu năng của mạng là tối ưu. Chỉ số tối ưu
thường được xác định bởi một hàm số của ma trận trọng số và các đầu vào nào đó mà
trong quá trình tìm hiểu bài toán đặt ra.
Xét một mạng nơ-rơn 3 lớp: lớp đầu vào(input), lớp ẩn(hiden), lớp đầu
ra(output).
Hàm kích hoạt của các nơ-ron: logistic sigmoid
g(x)=

(2-1)

Giải thuật lan truyền ngược gồm 2 giai đoạn:
+

Truyền tuyến tính (tính output của các nơ-ron): Dữ liệu từ lớp đầu vào
qua lớp ẩn và đến lớp đẩu ra để thay đổi giá trị của trọng số liên kết w
của các nơ ron trong mạng biểu diễn dữ liệu học. Sự khác nhau giữa giá
trị mong muốn và giá trị mà mạng tính được gọi là lỗi.

+

Truyền ngược (thay đổi trọng số của các cung, dùng thông tin gradient
của hàm lỗi): giá trị lỗi sẽ được truyền ngược lại sao cho quá trình huấn
luyện sẽ tìm ra trọng số để lỗi nhỏ nhất.

Hàm lỗi :


+

Đạo hàm riêng của hàm lỗi theo trọng số a:

Ta có :



Giảng viên hướng dẫn: TS Nguyễn Thị Thu Hà

Sinh viên thực hiện: Trịnh Thị Lan


26



Đặt

q=

Ta được :

Sau khi tính được đạo hàm riêng của hàm lỗi theo từng trọng số. Trọng số sẽ
được điều chỉnh bằng cách trừ bớt 1 lượng bằng tích của đạo hàm riêng và tốc độ học:
(2-3)
2.2.

Tóm tắt văn bản ứng dụng mạng nơ-ron

Phương pháp tách câu trong văn bản

2.2.1.

Một tập văn bản huấn luyện sẽ được biểu diễn như là một tập gồm các câu

S={s1,s2,…,sn}.
Câu là đơn vị dùng từ hay đúng hơn dùng ngữ mà cấu tạo nên trong quá trình tư
duy, thông báo, có nghĩa hoàn chỉnh, có cấu tạo ngữ pháp, và có tính chất độc lập.
Nhận diện câu với mục đích xác định ranh giới rõ ràng và nhất quán giữa các câu tiếng
Việt. Phân biệt đơn vị câu với các đơn vị nhỏ hơn câu (từ, ngữ…) và lớn hơn câu
(đoạn, văn bản), làm tiêu chí chính để xây dựng nên câu tiếng Việt trong ngữ liệu tiếng
Việt. Ở đồ án này việc tách câu giúp chúng ta đánh giá được giá trị thông tin của từng
câu phục vụ cho việc trích rút những câu quan trọng trong văn bản.
Để tách câu ta dựa vào việc nhận diện câu. Câu được nhân diện thông qua dấu
câu: dấu chấm, dấu chấm than, dấu chấm hỏi...
2.2.2.

Các đặc trưng của câu

Sử dụng kỹ thuật trích rút câu cho văn bản tóm tắt. Vì vậy ta cần sử dụng các đặc
trưng của câu để tính trọng số của câu.

Giảng viên hướng dẫn: TS Nguyễn Thị Thu Hà

Sinh viên thực hiện: Trịnh Thị Lan


28



là số văn bản trong tập huấn luyện D.
: là giá trị lớn nhất của thông tin quan trọng nhất của w i xuất hiện

+

trong câu.
Đặc trưng về vị trí của câu: Đặc trưng về vị trí của câu thể hiện trọng số về vị trí
của câu có ảnh hưởng thế nào đối với văn bản.Đây là đặc trưng dựa trên giả định rằng

Giảng viên hướng dẫn: TS Nguyễn Thị Thu Hà

Sinh viên thực hiện: Trịnh Thị Lan



Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status