XÂY DỰNG MÔ HÌNH HỆ THỐNG HỎI ĐÁP TỰ ĐỘNG HỖ TRỢ ĐÀO TẠO TRỰC TUYẾN TÓM TẮT LUẬN VĂN THẠC SĨ - Pdf 39

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
---------------------------------------

HÀ THỊ MINH LỘC
CHUYÊN NGÀNH : TRUYỀN DỮ LIỆU VÀ MẠNG MÁY TÍNH

MÃ SỐ: 60.48.15
XÂY DỰNG MÔ HÌNH HỆ THỐNG HỎI ĐÁP TỰ ĐỘNG HỖ TRỢ ĐÀO TẠO TRỰC TUYẾN
TÓM TẮT LUẬN VĂN THẠC SĨ
HÀ NỘI – 2012


Luận văn được hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Người hướng dẫn khoa học: TS. Hoàng Xuân Dậu
Phản biện 1: ……………………………………………………………………………
Phản biện 2: …………………………………………………………………………..
Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện Công nghệ Bưu chính
Viễn thông
Vào lúc:

....... giờ ....... ngày ....... tháng ....... .. năm ...............

Có thể tìm hiểu luận văn tại:
- Thư viện của Học viện Công nghệ Bưu chính Viễn thông


1

MỞ ĐẦU
Mục tiêu của luận văn là xây dựng thử nghiệm mô hình hệ thống hỏi-đáp tự động tiếng Việt cho một miền cụ



3

Hình 1.1. Hệ thống tìm kiếm thông tin (IR)

Hình 1.2: Kiến trúc chung hệ thống hỏi – đáp


4
1.3.1. Giao diện người dùng (User Interface): Từ một giao diện Web, người dùng có thể nhập vào câu hỏi.Sau
khi câu hỏi được gửi đi, hệ thống sẽ xử lý và trả về cho người dùng một câu trả lời dưới định dạng tương tự.
1.3.2 Phân tích câu hỏi (Question Analyzer): Câu hỏi được phân tích và xử lý để trích lọc thông tin nhằm sử
dụng trong giai đoạn tìm kiếm sau này. Câu hỏi đặt ra là làm thế nào để phân lớp và chuẩn hóa các câu hỏi một
cách tốt nhất. Tùy vào việc phân tích câu hỏi nông hay sau mà bước này sẽ cho ra các kết quả khác nhau.
1.3.3. Tìm kiếm dữ liệu (Data Retrieval): Một số thông tin đã được trích xuất trong giai đoạn phân tích câu hỏi
sẽ được sử dụng để tìm kiếm thông tin trong cơ sở tri thức. Trong phần này, thông tin được tiền xử lý nhiều lần
để tăng hiệu quả của hệ thống.
1.3.4. Rút trích câu trả lời (Answer Extraction): Thông tin đã được trả về trong giai đoạn này có thể là các tài
liệu hoặc các văn bản từ việc truy vấn cơ sở dữ liệu. Những thông tin này được sử dụng để rút trích các đoạn
(passage) có liên quan ngữ nghĩa đến câu hỏi mà người dùng đưa ra. Khi mục đích câu hỏi đã được làm rõ. Hệ
thống xử lý và chọn ra một tập các câu trả lời có liên quan đến nội dung hỏi (lĩnh vực hỏi).
1.3.5. Chiến lược xếp hạng (Ranking): Nếu các kết quả của giai đoạn rút trích câu trả lời có nhiều hơn một câu
trả lời thì các câu trả lời sẽ được xếp hạng dựa trên mức độ liên quan về mặt ngôn ngữ với câu hỏi của người
dùng.
1.3.6 Xác minh câu trả lời (Answer Verification): Một số hệ thống QA cải thiện thêm tính chính xác bằng cách
phân tích các câu trả lời thu được, qua việc sử dụng phương pháp xử lý ngôn ngữ tự nhiên bằng cách phân tích


5


TIỀN XỬ LÝ VÀ PHÂN LOẠI CÂU HỎI
2.1. Tiền xử lý dữ liệu
2.1.1. Phân tích câu hỏi
2.1.1.1. Các phương pháp phân tích câu hỏi
 Phương pháp nông (Shallow Method): Dựa trên từ khóa để xác định vị trí các đoạn và các câu từ các tài
liệu được trả về trong giai đoạn tìm kiếm, sau đó lọc ra câu trả lời dựa trên sự hiện diện của loại câu trả lời trong
văn bản được trả về đó.
 Phương pháp sâu (Deep Method): Là phương pháp sử dụng các kỹ thuật xử lý cú pháp, ngữ nghĩa và ngữ
cảnh phức tạp hơn để trích xuất hoặc xây dựng các câu trả lời.

2.1.1.2. Phân tích câu hỏi trong ngôn ngữ tiếng Việt
Khi phân tích câu hỏi tiếng Việt, khác với các câu hỏi tiếng Anh, chúng ta phải giải quyết:
- Xác định ranh giới giữa các từ trong câu.
- Cùng hỏi về một thông tin, nhưng câu hỏi có thể được diễn đạt theo nhiều cách khác nhau, sử dụng từ
ngữ, cấu trúc khác nhau.


8
- Có quá nhiều từ có mật độ xuất hiện cao nhưng không mang ý nghĩa cụ thể nào.
- Chính tả tiếng Việt còn một số điểm chưa thống nhất.
- Tồn tại nhiều bảng mã tiếng Việt đòi hỏi khả năng xử lý tài liệu ở các bảng mã khác nhau.
Tuỳ vào mục đích bộ phân loại mà chúng ta sẽ có những phương pháp tiền xử lý văn bản khác nhau

2.1.2. Tách từ
2.1.2.1. Các hướng tiếp cận dựa trên từ
Hướng tiếp cận này có thể chia ra theo 3 hướng: dựa trên thống kê (statistics - based), dựa trên từ điển
(dictionary – based) và hydrid (kết hợp nhiều phương pháp với hy vọng đạt được những ưu điểm của các phương
pháp này) .



2.2. Phân loại câu hỏi
2.2.1. Rút trích đặc trưng văn bản
2.2.1.1. Loại bỏ các stop word: Sau khi đã tiến hành tách từ trong văn bản, chúng ta sẽ tiến hành loại bỏ các từ
stopword ra khỏi văn bản
2.2.1.2. Trích chọn đặc trưng văn bản: Các phương pháp rút trích thông tin cổ điển coi mỗi một văn bản như là
tập các từ khóa và gọi tập các từ khóa này là tập các term. Một phần tử trong tập term đơn giản là một từ, mà
ngữ nghĩa của từ này giúp tạo thành nên nội dung của văn bản.Vì vậy, tập term được sử dụng để tạo các chỉ mục
và tóm lược nội dung của văn bản.


11
2.2.1.3. Các phương pháp rút trích đặc trưng văn bản
2.2.1.3.1. Phương pháp truyền thống: Một văn bản D được biểu diễn bằng một vector đặc trưng có dạng (d1,
d2,…, dn), trong đó di là trọng số của đặc trưng thứ i và n là số lượng các đặc trưng. Mỗi một đặc trưng tương
ứng với một từ xuất hiện trong tập huấn luyện sau khi loại bỏ các stopword ra khỏi các văn bản.
2.2.1.3.2. Rút trích dựa trên công nghệ tác nhân thông minh: Tác nhân (agent) máy tính là những chương trình
phần mềm có sự sống, có những đặc tính và hành động giống như hoạt động của con người.
2.2.1.3.3. Công cụ rút trích đặc trưng tự động
Thuật toán 1 – Thuật toán rút trích đặc trưng văn bản
B0: Chọn tất cả các từ một từ có xuất hiện trong n văn bản, trong đó n>= ngưỡng đưa vào từ tập Words.
B1: Tìm các cụm từ (kết hợp từ 2 từ trở lên) đưa vào Associated Words.
B2: Tập các từ và cụm từ được chọn là Words  Associated Words.
B3: Tiến hành lọc từ và cụm từ dựa trên công thức độ tốt của một từ trong một lớp. Độ tốt của từ và cụm từ
được tính theo công thức:


12
Trong đó:
G(w): Độ tốt của từ w.

-

B2: Tiến hành ghép từ.

-

B3: Tính số lần xuất hiện của của từ ghép trong toàn bộ văn bản đưa vào. Nếu số lần xuất hiện > =
ngưỡng thì chọn. Ngược lại, không chọn từ ghép.

-

B4: Kết quả thu được là danh sách từ ghép (danh sách 3). Nếu danh sách khác rỗng thì tiến hành lại B1
vớ danh sách 2 = danh sách 3. Nếu rỗng thì dừng.

2.2.2. Phân loại câu hỏi tiếng Việt
- Bước 1 : Rút trích đặc trưng câu hỏi và biểu diễn câu hỏi bằng mô hình vector.
- Bước 2 : Áp dụng thuật toán phân loại văn bản để phân loại câu hỏi.

2.2.2.1. Các phương pháp phân loại và phân phối câu hỏi
2.2.2.1.1. Phương pháp SVM – Support Vector Machine
Cho trước một tập huấn luyện được biểu diễn trong không gian vector, trong đó mỗi một văn bản được xem
như một điểm trong không gian này. Phương pháp này tìm ra một siêu mặt phẳng h quyết định tốt nhất có thể
chia các điểm trên không gian này thành hai lớp riêng biệt tương ứng, tạm gọi là lớp + ( cộng ) và lớp – ( trừ).
Chất lượng của siêu mặt phẳng này được quyết định bởi một khoảng cách (được gọi là biên) của điểm dữ liệu


14
gần nhất của mỗi lớp đến mặt phẳng này. Khoảng cách biên càng lớn thì càng có sự phân chia tốt các điểm ra
thành hai lớp, nghĩa là sẽ đạt được kết qủa phân loại tốt. Mục tiêu của thuật toán SVM là tìm được khoảng cách
biên lớn nhất để tạo kết qủa phân loại tốt .

2.2.3.3. Hệ số Cosine


16
Chương 3

XÂY DỰNG MÔ HÌNH HỆ THỐNG
3.1 Lựa chọn mô hình và thuật toán
3.1.1. Lựa chọn thuật toán tách từ: Phương pháp do tác giả H.Nguyễn có ưu điểm là không cần sử dụng bất cứ
tập huấn luyện hoặc từ điển nào, do đó không mất thời gian để huấn luyện. Phương pháp tách từ cũng không
phức tạp. Do đó, trong đồ án này, việc tách từ được lựa chọn theo công trình của H. Nguyễn.
3.1.2. Lựa chọn phương pháp biểu diễn văn bản: Hiện nay, phương pháp phổ biến nhất là biểu diễn văn bản
bằng mô hình không gian vector. Trong mô hình này, đồ án xin lựa chọn theo mô hình này.
3.1.3. Lựa chọn phương pháp rút trích đặc trưng: Ta sẽ sử dụng phương pháp truyền thống.
3.3.4. Lựa chọn phương pháp phân lớp câu hỏi: Trong đồ án này sẽ chọn Naïve Bayes để phân loại văn bản.
Tuy nhiên việc ứng dụng ở đây có một số cải tiến.


17hỏi mới
Câu
3.2. Mô hình kiến trúc hệ thống
Phân tích
Không
thành
công
Phân loại
câu hỏi

Unknown


18
3.2.1. Giai đoạn phân tích câu hỏi

Tách từ, tách câu

Trích từ khóa

Phân tích câu hỏi

Xây dựng véc tơ đặc
trưng câu hỏi
Hình 3.2: Giai đoạn phân tích câu hỏi

3.2.2. Phân loại câu hỏi
Câu hỏi mới

Véc tơ đặc
trưng của câu
hỏi

So sánh độ
tương tự

Tập luật phân
lớp
Hình 3.3: Tiến trình phân lớp

Quyết định phân loại



lời

Trả lời


20
3.2.5. Chuyển câu hỏi tới chuyên gia tương ứng
Câu hỏi mới

Lớp mà câu hỏi
được phân vào

Quyết định chuyên gia
cần chuyển tới
So sánh

Chuyên gia ứng với
lớp câu hỏi
Hình 3.6: Tiến trình chuyển câu hỏi tới chuyên gia

3.3. Cài đặt
Hệ thống hỏi-đáp tự động phục vụ tư vấn trực tuyến được cài đặt trên máy tính có cấu hình: CPU Intel B800,
RAM 2GB. Chương trình được cài đặt bằng ngôn ngữ Java.
Hệ thống được xây dựng theo mô hình Client/ Server trên nền web. Do đó cần một máy chủ chạy với hệ điều
hành Windows 2003 server trở lên. Người sử dụng có thể nối đến máy chủ để truy xuất hệ thống thông qua
mạng LAN hay Internet.


21
KẾT LUẬN


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status