PHẦN V KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN - Pdf 63

PHẦN V: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
1. KẾT LUẬN
Ngày nay, internet đã chở thành cuộc cách mạng lớn của nhân loại mà động lực của
nó chính là sự phát triển kinh tế mang tính toàn cầu. Nhưng sự phát triển đó cũng đòi hỏi
ngày càng nhiều cơ sở lưu trữ dữ liệu hơn dẫn đến việc khai thác hiệu quả dữ liệu trở
nên khó khăn. Để nâng cao khả năng sử lý dữ liệu thì dữ liệu phải được chọn lọc trước.
Một hướng chọn lọc dữ liệu hiểu quả đó là phân tích ngữ nghĩa của văn bản. Toàn bộ
văn bản được cô đọng trong ngữ nghĩa của nó. Chính vì vậy nếu phân tích được ngữ
nghĩa của văn bản chúng ta sẽ giảm được một khối lượng lớn câu chữ không hàm chứa
thông tin.
Việc nghiên cứu ngữ nghĩa của văn bản mở ra một hướng phát triển mới trong khai
thác thông tin trên dữ liệu. Ngữ nghĩa của văn bản mang lại nhiều thuận lợi như vậy
nhưng để thật sự hiểu rõ được các phương pháp nghiên cứu phân tích ngữ nghĩa là
không dễ dàng. Do vậy mục tiêu của đồ án đặt ra gồm hài vấn đề chính như sau:
Về lý thuyết: Mục tiêu tìm hiểu, nghiên cứu về ngữ nghĩa của văn bản bao gồm các
phần như: Phân tích, tách văn bản thành tập từ khoá, lọc tách từ khoá của văn bản nhằm
cô đọng những từ khoá đặc trưng cho ngữ nghĩa của văn bản, thống kê và trích lọc
những văn bản có ngữ nghĩa tương đồng.
Về phần ứng dụng minh hoạ: Mục tiêu là xây dựng được một ứng dụng mang tính
demo sự khả thi của các kỹ thuật phân tích ngữ nghĩa.
Nội dung của đề tài đưa ra khá rộng và chỉ được thực thiện trong vòng 4 tháng do
vậy để hoàn tất đề tài này chúng em gặp rất nhiều khó khăn về mặt tìm kiếm tài liệu, đọc
hiểu tài liệu và một số kỹ thuật để vận dụng kiến thức mình đã tìm hiểu được. Nhưng bù
đắp lại những khó khăn vất vả đó là chúng em đã tiếp thu được rất nhiều kiến thức mới
lạ và rất bổ ích về ứng dụng ngữ nghĩa của văn bản trong công nghệ thông tin – mở ra
một hướng phát triển mới trong thế giớ công nghệ thông tin. Kết quả xứng đáng đó
chính là chúng em đã hoàn thành được những mục tiêu, yêu cầu đề ra của đồ án.
1
Kết quả về mặt nghiên cứu
Qua quá trình nghiên cứu và tìm hiều về lĩnh vực ứng dụng ngữ nghĩa của văn bản,
chúng em đã hiểu được và ghi nhận lại một số kết quả đạt được như sau:

chính của đồ án đó là phân tích ngữ nghĩa của văn bản. Việc phát triển thuật toán so sánh
độ tương đồng của văn bản và khai thác dữ liệu đã đạt được nhiều thành công. Dựa vào
những thành quả đó chúng ta có thể mở ra những hướng mới nhằm tối ưu hoá thuật toán
và nâng cao độ chính xác của kết quả. Đồng thời mở rộng nguồn dữ liệu nhờ trực tiếp
tìm kiếm các dữ liệu trên mạng hay cải thiện tính năng tìm kiếm nhờ sử dụng các engine
có sẵn. Dựa trên những khả năng phát triển đó, đồ án có thể hoàn thiện khi có thêm các
tính năng sau:
Thu thập dữ liệu trực tuyến
2
Dữ liệu trực tuyến trên mạng là một tài nguyên gần như vô hạn. Nếu có một cơ chế
cho phép khai thác dữ liệu trên mạng là đầu vào cho hệ thống thì các chức năng của hệ
thống sẽ đạt hiệu quả cao và phong phú hơn. Hơn nữa, việc có một nguồn dữ liệu động
như vậy thì công việc cập nhập dữ liệu sẽ không cần thiết, việc quả lý dữ liệu coi như
tiến hành tự động. Tóm lại, hệ thống rất cần một module cho phép lấy dữ liệu trực tuyến.
Đây chính là một hướng phát triển chủ chốt củ đồ án nhằm làm cho đồ án hoàn thiện
hơn và có tính ứng dụng thực tế cao hơn.
Thông tin người dùng
Thông tin người dùng hiện tại ở các hệ thống website chỉ đơn thuần được tổ chức
lưu trữ dưới dạng bảng dữ liệu. Thông tin người dùng chỉ đáp ứng vai trò xác thực trong
hệ thống chưa góp phần thể hiện được nhu cầu của từng cá nhân. Việc nghiên cưa các
thức tổ chức và lưu trữ thông tin người dùng hiệu quả sẽ đem lại một kết quả bất ngờ,
giúp hệ thống có thể gợi ý tìm kiếm đối với từng các nhân người dùng. Đây cũng là một
điển nhấn của thế hệ web mới, hướng tới cá nhân người dùng. Vậy cách thức tổ chức lưu
trữ thông tin người dùng thế nào đó là một hướng mở ra của đồ án. Đồng thời việc thu
thập thông tin người dùng thế nào cũng là một kỹ thuật cần phải nghiên cứu. Hiện tại
chúng em chú ý tới hai cách thức thu thập thông tin người dùng. Một là thu thập tĩnh,
dựa trên nhưng form đăng ký và feedback của người dùng. Hai là thu thập động, dựa
trên các kỹ thuật trích lọc thông tin thông qua phân tích logfile.
Các kỹ thuật phân tích logfile đã được phát triển và ứng dụng ngay từ khi internet ra
đời. Tuy nhiên tuỳ vào mục đích của hệ thống việc phân tích logfile có thể sử dụng

[8] Compilers : Principles, Technique and Tools - Alfred V.Aho, Jeffrey D.Ullman -
Addison - Wesley Publishing Company, 1986.
[9] Compiler Design – Reinhard Wilhelm, Dieter Maurer - Addison - Wesley Publishing
Company, 1996.
[10] Design of Compilers : Techniques of Programming Language Translation -
Karen A. Lemone - CRC Press, Inc, 1992.
[11] Modern Compiler Implementation in C - Andrew W. Appel - Cambridge
University Press, 1997.
[12] Hoàng Văn Hành.1997. Ngữ nghĩa học – Các khuynh hướng và phương pháp
phân tích ngữ nghĩa. Hà nội.
[13] PTS. Vương Tất Đạt . Logich hình thức. Trường Đại học Sư Phạm Hà Nội 1
[14] Đặng Thị Hưởng. Semantics, TP.Hồ Chí Minh 1997 (Tài liệu lưu hành nội bộ)
[15]. Trương Gia Vinh. Những bài giảng Cơ sở Ngôn ngữ học. BXB Đại Học mở Bán
công TP.HCM.(Tài liệu lưu hành nội bộ)
[16]. Nguyễn Thiện Giáp (chủ biên) Dẫn luận Ngôn ngữ học. NXB Giáo dục. 2000
[17]. Trần Văn Cơ . Ngôn ngữ. Đại học sư phạm TP.Hồ Chí Minh.1986.
[18]. Roderick A. Jacobs. English syntax. A Grammar for English language
professionals. Oxford American English.
[19]. A.S. Hornby. Guide to patterns and usage in English. Second edition.
4


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status