Nghiên cứu, phát triển phương pháp tính độ
tương tự truy vấn trong hệ tìm kiếm và ứng
dụng thử nghiệm và một hệ tìm kiếm tiếng Việt
Nguyễn Thị Thu Chung
Trường Đại học Công nghệ
Luận văn Thạc sĩ ngành: Hệ thống thông tin; Mã số: 60.48.05
Người hướng dẫn: PGS.TS Hà Quang Thụy
Năm bảo vệ: 2011
Abstract: Trình bày các vấn đề khái quát, tổng quan về độ tương tự câu truy vấn.
Nghiên cứu các hướng tiếp cận khác nhau, nhằm giải quyết bài toán tính độ tương tự
câu truy vấn trong máy tìm kiếm, đó là các phương pháp: phương pháp thống kê,
phương pháp sử dụng xử lý ngôn ngữ tự nhiên, phương pháp sử dụng lưu vết truy vấn
của máy tìm kiếm. Đề xuất một cải tiến về việc đưa thêm giá trị trọng số cho các liên
kết web để nâng cao độ chính xác của kết quả trả về. Xây dựng phần mềm thực nghiệm
thi hành mô hình đề xuất, thực thi việc tạo thành truy vấn mới. Thực nghiệm, luận văn
sử dụng cách đánh giá định tính, lấy 10 cặp câu truy vấn tương tự nhau đầu tiên trong
khối dữ liệu đưa vào thực nghiệm để đánh giá đồng thời tạo ra câu truy vấn tổng hợp
để cùng đưa vào truy vấn tại máy tìm kiếm Google tiếng Việt, thấy kết quả trả về là
phù hợp với kết quả tính độ tương tự của các truy vấn tương ứng
Keywords: Tìm kiếm thông tin; Nhận dạng mẫu hình; Tin học; Câu truy vấn
Content
MỞ ĐẦU
Tìm kiếm thông tin trên web là nhu cầu không thể thiếu trên thế giới cũng như ở Việt
Nam. Với tốc độ phát triển internet rất nhanh chóng và mạnh mẽ tại Việt Nam, theo báo cáo
mới đây – tháng 4/2011 của Netcitizens [20], Việt Nam là quốc gia có tỷ lệ tăng trưởng
Internet nhanh nhất trong khu vực và nằm trong số các quốc gia có tỷ lệ tăng trưởng cao nhất
Tài liệu tiếng Việt
[1] Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang,
Nguyễn Cẩm Tú (2009). Giáo trình khai phá dữ liệu Web, Nhà xuất bản giáo dục Việt
Nam.
[2] Nguyễn Thị Thu Chung (2009). Xây dựng danh bạ web Tiếng Việt với phương pháp phân
cụm phân cấp văn bản, Khóa luận đại học, Trường Đại học Công nghệ, ĐHQGHN.
[3] Nguyễn Thị Thu Chung, Nguyễn Thu Trang, Hà Quang Thụy (2009). Xây dựng danh bạ
web tiếng Việt với phân cụm phân cấp văn bản, Hội thảo Quốc gia Một số vấn đề chọn
lọc về Công nghệ thông tin và Truyền thông lần thứ XII, Đồng Nai, 5-7/8/2009.
Tài liệu tiếng Anh
[4] Amac Herdagdelen, Massimiliano Ciaramita, Daniel Mahler, Maria Holmqvist, Keith Hall,
Stefan Riezler, Enrique Alfonseca (2010). Generalized syntactic and semantic models of
query reformulation, SIGIR 2010: 283-290.
[5] Bodo Billerbeck (2005). Efficient Query Expansion, PhD Thesis, RMIT University,
Australia.
[6] Caroline Gherbaoui (2008). Similarity Measures for Query Expansion in TopX, Master
Thesis, Universität des Saarlandes.
[7] Donald Metzler, Susan T. Dumais, Christopher Meek (2007). Similarity Measures for
Short Segments of Text, ECIR 2007: 16-27.
[8] Eui-Kyu Park, Seong-In Moon, Dong-Yul Ra, Myung-Gil Jang (2002). Web Document
Retrieval Using Sentence-Query Similarity, TREC 2002.
[9] Fan Yang, Bin An, Xizhao Wang (2009), Co – clustering for queries and corresponding
advertisement, Machine Learning and Cybernetics, International Conference on 2009.
3
[10] Francisco J. Ribadas, Manuel Vilares Ferro, Jesús Vilares Ferro(2005), Semantic
Similarity Between Sentences Through Approximate Tree Matching. IbPRIA (2) 2005:
638-646.
[11] Fu, L., Goh, H. L., Foo, S. B., & Na, J. C. (2003). Collaborative querying through a
[23] http://www.google.com.vn/