slike thuyết trình đề tài sử dụng từ điển để tách từ trong câu tiếng việt - Pdf 23

Nguyễn Đức Long-20071778
Nguyễn Văn Khải-20071562
Sử dụng từ điển để tách từ trong câu
Tiếng Việt
Giới thiệu đề tài

Khái niệm từ trong tiếng việt: 1 từ được cấu
trúc bởi nhiều tiếng, có thể có từ đơn( gồm 1
tiếng) hoặc từ phức( nhiều tiếng)

Tách từ trong câu: tách 1 câu cho trước
thành các từ có nghĩa

Các phương pháp chính:

Tiếp cận dựa trên từ:

Tiếp cận dựa trên ký tự: chia văn bản thành
các kí tự rồi sử dụng thuật toán như quy hoạch
động,di truyền hay thống kê để phân chia
Các hướng tiếp cận dựa trên từ

Dựa vào từ điển: dựa vào từ điển sẵn có rồi
dùng so khớp để tách các từ,cụm từ. Các
phương pháp thường gặp gồm có:

Longest matching

Shortest matching

Hybrid

tất cả các cấu hình phù hợp
Cách thực hiện:

Lưu trữ các tiếng trong câu vào cấu trúc cây,mỗi
nút gồm có id của nút, parent_id của nút liền trước
và value chứa giá trị của tiếng

Với mỗi nhập nhằng sẽ sinh ra 1 nhánh mới của cây

Duyệt ngược từ các nút lá lên nút gốc để lấy ra 1
cấu hình thỏa mãn
Phân tích giải quyết

Với câu ‘ông quan tài giỏi’ ta sẽ tách ra được
thành các từ ông,quan,quan tài,tài giỏi….
tương ứng với cây được xây dựng như sauj:
Phân tích giải quyết

Chuỗi cấu hình sau khi lấy ra sẽ được tính
độ dài và độ phù hợp dựa trên chỉ số
mutual information được lấy từ thống kê
internet dựa các trên công thức:
function MI_calculate($array){
$MI=0;
foreach ($array as $val) {
echo $val["value"];
if(substr_count($val["value"]," ")==0)$MI++;
else{
$MI_cal= array();
$MI_cal=explode(" ",$val["value"]);


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status