slike thuyết trình báo cáo sử lý ngôn ngữ tự nhiên tách từ và xác định từ khóa trong văn bản tiếng việt - Pdf 23

Đề tài:
Tách từ và xác định từ khóa trong văn
bản tiếng Việt

Thành viên:
-
Đoàn Trung Kiên - 20086096
-
Phạm Trí Dũng - 20086081
-
Phạm Văn Chí - 20086077
-
Phạm Tiến Dũng – 20086080
Nội dung trình bày
1. Yêu cầu thực tế
2. Giới thiệu về chương trình
3. Các bước tiến hành
4. Sử dụng chương trình
5. Demo chương trình
1. Yêu cầu thực tế

Tách từ và xác định từ khóa là một phần
rất quan trọng trong quá trình xử lí văn
bản.

Kết quả của việc tách từ có thể sử dụng để
thực hiện một số công việc xử lí văn bản
cao hơn như phân loại văn bản, tóm tắt
văn bản, xác định ngữ nghĩa của văn bản.
2. Giới thiệu về chương trình


phần trăm nhất định của các từ có điểm
IF*IPF cao nhất sẽ được chọn làm từ khóa.
(Sử dụng thuật toán Quick sort)
4. Sử dụng chương trình

Dữ liệu cần cung cấp cho chương
trình gồm 1 tệp văn bản tiếng Việt

Kết quả: Một tệp văn bản kết quả
được ghi dưới định dạng XML. Tệp
kết quả chứa tất cả các từ trong
văn bản và được sắp xếp theo
chiều giảm dần của chỉ số TF*IPF
4. Sử dụng chương trình (2)

java -jar KeywordDetermining.jar -i
<tệp-input> -o <tệp-output>

Hai tùy chọn -i và -o là bắt buộc

Ví dụ: java -jar
KeywordDetermining.jar -i
samples/5.txt -o samples/5.xml

Tìm từ khóa tệp samples/5.txt và
ghi kết quả vào tệp samples/5.xml
5. DEMO

java -jar KeywordDetermining.jar -i
samples/3.txt -o samples/3.xml


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status