Đề tài:
Tách từ và xác định từ khóa trong văn
bản tiếng Việt
Thành viên:
-
Đoàn Trung Kiên - 20086096
-
Phạm Trí Dũng - 20086081
-
Phạm Văn Chí - 20086077
-
Phạm Tiến Dũng – 20086080
Nội dung trình bày
1. Yêu cầu thực tế
2. Giới thiệu về chương trình
3. Các bước tiến hành
4. Sử dụng chương trình
5. Demo chương trình
1. Yêu cầu thực tế
Tách từ và xác định từ khóa là một phần
rất quan trọng trong quá trình xử lí văn
bản.
Kết quả của việc tách từ có thể sử dụng để
thực hiện một số công việc xử lí văn bản
cao hơn như phân loại văn bản, tóm tắt
văn bản, xác định ngữ nghĩa của văn bản.
2. Giới thiệu về chương trình
phần trăm nhất định của các từ có điểm
IF*IPF cao nhất sẽ được chọn làm từ khóa.
(Sử dụng thuật toán Quick sort)
4. Sử dụng chương trình
•
Dữ liệu cần cung cấp cho chương
trình gồm 1 tệp văn bản tiếng Việt
•
Kết quả: Một tệp văn bản kết quả
được ghi dưới định dạng XML. Tệp
kết quả chứa tất cả các từ trong
văn bản và được sắp xếp theo
chiều giảm dần của chỉ số TF*IPF
4. Sử dụng chương trình (2)
•
java -jar KeywordDetermining.jar -i
<tệp-input> -o <tệp-output>
•
Hai tùy chọn -i và -o là bắt buộc
•
Ví dụ: java -jar
KeywordDetermining.jar -i
samples/5.txt -o samples/5.xml
•
Tìm từ khóa tệp samples/5.txt và
ghi kết quả vào tệp samples/5.xml
5. DEMO
java -jar KeywordDetermining.jar -i
samples/3.txt -o samples/3.xml