Xây dựng mô hình hệ thống hỏi đáp tự động hỗ trợ đào tạo trực tuyến - Pdf 10

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG HÀ THỊ MINH LỘC
CHUYÊN NGÀNH : TRUYỀN DỮ LIỆU VÀ MẠNG MÁY TÍNH
MÃ SỐ: 60.48.15
XÂY DỰNG MÔ HÌNH HỆ THỐNG HỎI ĐÁP TỰ ĐỘNG HỖ TRỢ ĐÀO TẠO TRỰC TUYẾN
TÓM TẮT LUẬN VĂN THẠC SĨ

HÀ NỘI – 2012 Luận văn được hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Người hướng dẫn khoa học: TS. Hoàng Xuân Dậu
Phản biện 1: ……………………………………………………………………………
Phản biện 2: …………………………………………………………………………
Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện Công nghệ Bưu chính
Viễn thông
Vào lúc: giờ ngày tháng năm
Có thể tìm hiểu luận văn tại:
- Thư viện của Học viện Công nghệ Bưu chính Viễn thông

1
MỞ ĐẦU
Mục tiêu của luận văn là xây dựng thử nghiệm mô hình hệ thống hỏi-đáp tự động tiếng Việt cho một miền cụ
thể là hỗ trợ việc đào tạo trực tuyến hiện nay. Những nghiên cứu này làm cơ sở lý thuyết cũng như thực nghiệm
cho việc xây dựng các hệ thống hỏi - đáp tiếng Việt có hiệu quả trong tương lai.
Luận văn được trình bày với các nội dung chính như sau:
 Chương 1: Những vấn đề khái quát, lịch sử phát triển và kiến trúc cơ bản của hệ thống hỏi đáp nói
chung, các vấn đề cần quan tâm và những yêu cầu khi xây dựng hệ thống hỏi đáp.
Hình 1.1. Hệ thống tìm kiếm thông tin (IR)
Hình 1.2: Kiến trúc chung hệ thống hỏi – đáp
4

1.3.1. Giao diện người dùng (User Interface): Từ một giao diện Web, người dùng có thể nhập vào câu hỏi.Sau
khi câu hỏi được gửi đi, hệ thống sẽ xử lý và trả về cho người dùng một câu trả lời dưới định dạng tương tự.
1.3.2 Phân tích câu hỏi (Question Analyzer): Câu hỏi được phân tích và xử lý để trích lọc thông tin nhằm sử
dụng trong giai đoạn tìm kiếm sau này. Câu hỏi đặt ra là làm thế nào để phân lớp và chuẩn hóa các câu hỏi một
cách tốt nhất. Tùy vào việc phân tích câu hỏi nông hay sau mà bước này sẽ cho ra các kết quả khác nhau.
1.3.3. Tìm kiếm dữ liệu (Data Retrieval): Một số thông tin đã được trích xuất trong giai đoạn phân tích câu hỏi
sẽ được sử dụng để tìm kiếm thông tin trong cơ sở tri thức. Trong phần này, thông tin được tiền xử lý nhiều lần
để tăng hiệu quả của hệ thống.
1.3.4. Rút trích câu trả lời (Answer Extraction): Thông tin đã được trả về trong giai đoạn này có thể là các tài
liệu hoặc các văn bản từ việc truy vấn cơ sở dữ liệu. Những thông tin này được sử dụng để rút trích các đoạn
(passage) có liên quan ngữ nghĩa đến câu hỏi mà người dùng đưa ra. Khi mục đích câu hỏi đã được làm rõ. Hệ
thống xử lý và chọn ra một tập các câu trả lời có liên quan đến nội dung hỏi (lĩnh vực hỏi).
1.3.5. Chiến lược xếp hạng (Ranking): Nếu các kết quả của giai đoạn rút trích câu trả lời có nhiều hơn một câu
trả lời thì các câu trả lời sẽ được xếp hạng dựa trên mức độ liên quan về mặt ngôn ngữ với câu hỏi của người
dùng.


7
Chương 2
TIỀN XỬ LÝ VÀ PHÂN LOẠI CÂU HỎI
2.1. Tiền xử lý dữ liệu
2.1.1. Phân tích câu hỏi
2.1.1.1. Các phương pháp phân tích câu hỏi
 Phương pháp nông (Shallow Method): Dựa trên từ khóa để xác định vị trí các đoạn và các câu từ các tài
liệu được trả về trong giai đoạn tìm kiếm, sau đó lọc ra câu trả lời dựa trên sự hiện diện của loại câu trả lời trong
văn bản được trả về đó.
 Phương pháp sâu (Deep Method): Là phương pháp sử dụng các kỹ thuật xử lý cú pháp, ngữ nghĩa và ngữ
cảnh phức tạp hơn để trích xuất hoặc xây dựng các câu trả lời.
2.1.1.2. Phân tích câu hỏi trong ngôn ngữ tiếng Việt
Khi phân tích câu hỏi tiếng Việt, khác với các câu hỏi tiếng Anh, chúng ta phải giải quyết:
- Xác định ranh giới giữa các từ trong câu.
- Cùng hỏi về một thông tin, nhưng câu hỏi có thể được diễn đạt theo nhiều cách khác nhau, sử dụng từ
ngữ, cấu trúc khác nhau.
8
- Có quá nhiều từ có mật độ xuất hiện cao nhưng không mang ý nghĩa cụ thể nào.
- Chính tả tiếng Việt còn một số điểm chưa thống nhất.
- Tồn tại nhiều bảng mã tiếng Việt đòi hỏi khả năng xử lý tài liệu ở các bảng mã khác nhau.
Tuỳ vào mục đích bộ phân loại mà chúng ta sẽ có những phương pháp tiền xử lý văn bản khác nhau
2.1.2. Tách từ
2.1.2.1. Các hướng tiếp cận dựa trên từ

10
2.1.3.1. Các mô hình lý thuyết tập hợp: Các phương pháp này biểu diễn các tài liệu thành một tập hợp các từ
và các cụm từ. Tính tương tự giữa các tài liệu được rút ra từ tập hợp các toán tử của lý thuyết tập hợp trên các
tập hợp này
2.1.3.2. Các mô hình xác suất: Mô hình này coi việc tìm kiếm tài liệu như là một suy luận có tính xác suất.
Tính tương tự được xem như là xác suất mà một tài liệu liên quan đến một truy vấn đã cho.
2.1.3.3. Các mô hình đại số: Các phương pháp này biểu diễn các tài liệu và truy vấn thành các vector, ma trận
hoặc các bộ dữ liệu. Tính tương tự giữa vector truy vấn và vector tài liệu được biểu diễn như một đại lượng vô
hướng.
2.2. Phân loại câu hỏi
2.2.1. Rút trích đặc trưng văn bản
2.2.1.1. Loại bỏ các stop word: Sau khi đã tiến hành tách từ trong văn bản, chúng ta sẽ tiến hành loại bỏ các từ
stopword ra khỏi văn bản
2.2.1.2. Trích chọn đặc trưng văn bản: Các phương pháp rút trích thông tin cổ điển coi mỗi một văn bản như là
tập các từ khóa và gọi tập các từ khóa này là tập các term. Một phần tử trong tập term đơn giản là một từ, mà
ngữ nghĩa của từ này giúp tạo thành nên nội dung của văn bản.Vì vậy, tập term được sử dụng để tạo các chỉ mục
và tóm lược nội dung của văn bản.
11
2.2.1.3. Các phương pháp rút trích đặc trưng văn bản
2.2.1.3.1. Phương pháp truyền thống: Một văn bản D được biểu diễn bằng một vector đặc trưng có dạng (d
1
,
d
2
,…, d
n
), trong đó d
i
là trọng số của đặc trưng thứ i và n là số lượng các đặc trưng. Mỗi một đặc trưng tương
ứng với một từ xuất hiện trong tập huấn luyện sau khi loại bỏ các stopword ra khỏi các văn bản.

cho các từ và cụm từ với W
ij
được tính theo công thức:
Trong đó:
F
ij
: Là tần số của từ hoặc cụm từ i trong văn bản j.
N: Số văn bản trong tập.
N
i
: Là số văn bản chứa từ hoặc cụm từ i.
Dựa trên W
ij
ta có thể lọc các từ, cụm từ dựa trên giá trị này bằng cách đưa ra một ngưỡng cho W
ij.

Thuật toán 2 – Thuật toán tìm cụm từ
- Đầu vào: Danh sách các từ một từ được chọn theo ngưỡng.
13
- Đầu ra: Danh sách các từ liên kết (2 từ trở lên)
- B0: Giả sử đầu vào ta nhận được danh sách có n từ một từ (danh sách 1), danh sách 2 = danh sách 1.
- B1: Tạo ma trận danh sách 1 x danh sách 2.
- B2: Tiến hành ghép từ.
- B3: Tính số lần xuất hiện của của từ ghép trong toàn bộ văn bản đưa vào. Nếu số lần xuất hiện > =
ngưỡng thì chọn. Ngược lại, không chọn từ ghép.
- B4: Kết quả thu được là danh sách từ ghép (danh sách 3). Nếu danh sách khác rỗng thì tiến hành lại B1
vớ danh sách 2 = danh sách 3. Nếu rỗng thì dừng.

khi hệ thống có các câu hỏi mới đến (cảm nhận được sự thay đổi của hệ thống), tiến hành phân loại câu hỏi (đưa
ra hành động thích hợp). Tác nhân phân loại là một chương trình nhỏ được xây dựng như một serviece trên hệ
điều hành.
2.2.2.1.7. Kết luận
Thuật toán sử dụng để phân loại phải có thời gian xử lý hợp lý , thời gian này bao gồm: thời gian học, thời
gian phân loại văn bản, ngoài ra thuật toán này phải có tính tăng cường (incremental function) nghĩa là không
phân loại lại toàn bộ tập văn bản khi thêm một số văn bản mới vào tập dữ liệu mà chỉ phân loại các văn bản mới,
khi đó thuật toán phải có khả năng giảm độ nhiễu (noise) khi phân loại văn bản.
2.2.3. Đánh giá độ tương đồng giữa các tài liệu
2.2.3.1. Mô hình vector
2.2.3.2.Phương pháp trọng số tf-idf
2.2.3.3. Hệ số Cosine
16
Chương 3
XÂY DỰNG MÔ HÌNH HỆ THỐNG
3.1 Lựa chọn mô hình và thuật toán
3.1.1. Lựa chọn thuật toán tách từ: Phương pháp do tác giả H.Nguyễn có ưu điểm là không cần sử dụng bất cứ
tập huấn luyện hoặc từ điển nào, do đó không mất thời gian để huấn luyện. Phương pháp tách từ cũng không
phức tạp. Do đó, trong đồ án này, việc tách từ được lựa chọn theo công trình của H. Nguyễn.
3.1.2. Lựa chọn phương pháp biểu diễn văn bản: Hiện nay, phương pháp phổ biến nhất là biểu diễn văn bản
bằng mô hình không gian vector. Trong mô hình này, đồ án xin lựa chọn theo mô hình này.
3.1.3. Lựa chọn phương pháp rút trích đặc trưng: Ta sẽ sử dụng phương pháp truyền thống.
3.3.4. Lựa chọn phương pháp phân lớp câu hỏi: Trong đồ án này sẽ chọn Naïve Bayes để phân loại văn bản.
Tuy nhiên việc ứng dụng ở đây có một số cải tiến.

câu hỏi
So khớp câu trả lời
Chuyên gia
Không
thành
công
T
hành công

Có câu
hỏi tương
t


K
hông có câu h
ỏi t
ương t


Câu trả lời
Phân
phối
bằng
tay

Phân
phối
tự
đ

Hình 3.2: Giai đoạn phân tích câu hỏi
Quy
ết định phân loại

Câu hỏi mới
Véc tơ đ
ặc
trưng của câu
hỏi
T
ập luật phân
l
ớp

So sánh đ

tương tự
Hình 3.3: Tiến trình phân lớp
19
3.2.3. So khớp (tìm kiếm) câu hỏi 3.2.4. So khớp (tìm kiếm) câu trả lời


20
3.2.5. Chuyển câu hỏi tới chuyên gia tương ứng
3.3. Cài đặt
Hệ thống hỏi-đáp tự động phục vụ tư vấn trực tuyến được cài đặt trên máy tính có cấu hình: CPU Intel B800,
RAM 2GB. Chương trình được cài đặt bằng ngôn ngữ Java.
Hệ thống được xây dựng theo mô hình Client/ Server trên nền web. Do đó cần một máy chủ chạy với hệ điều
hành Windows 2003 server trở lên. Người sử dụng có thể nối đến máy chủ để truy xuất hệ thống thông qua
mạng LAN hay Internet.
Quy
ết định chuy
ên gia
cần chuyển tới
Câu hỏi mới
L
ớp m
à câu h
ỏi
được phân vào
Chuyên gia
ứng với
lớp câu hỏi


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status