Nghiên cứu phát triển một số sản phẩm thiết yếu về xử lý tiếng nói và văn bản tiếng việt - Pdf 13

BỘ KHOA HỌC VÀ CÔNG NGHỆ VIỆN CÔNG NGHỆ THÔNG TIN

CHƯƠNG TRÌNH KHCN CẤP NHÀ NƯỚC KC01/06-10
BÁO CÁO TỔNG HỢP
KẾT QUẢ KHOA HỌC CÔNG NGHỆ ĐỀ TÀI
NGHÊN CỨU PHÁT TRIỂN MỘT SỐ SẢN PHẨM
THIẾT YẾU VỀ XỬ LÝ TIẾNG NÓI
VÀ VĂN BẢN TIẾNG VIỆT

MÃ SỐ:
KC 01.01/06-10 Cơ quan chủ trì đề tài:
Viện Công nghệ thông tin,
Viện Khoa học và Công nghệ Việt Nam
Chủ nhiệm đề tài: PGS.TS. Lương Chi Mai

GS.TS. Nguyễn Thúc Hải Hà Nội - 2009

3

VIỆN CÔNG NGHỆ THÔNG TIN
VIỆN KHOA HỌC VÀ CÔNG NGHỆ
VIỆT NAM

__________________
CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc

Hà nội, ngày 28 tháng 07 năm 2009.
BÁO CÁO THỐNG KÊ
KẾT QUẢ THỰC HIỆN ĐỀ TÀI

I. THÔNG TIN CHUNG
1. Tên đề tài: Nghiên cứu và phát triển một số sản phẩm thiết yếu về
tiếng nói và văn bản tiếng Việt
Mã số đề tài: KC01.01/06-10
Thuộc:
Chương trình (tên, mã số chương trình): Nghiên cứu phát triển

- Theo Hợp đồng đã ký kết: từ tháng 05/2007 – 05/2009
- Thực tế thực hiện: từ tháng 05/2007 đến tháng 31/08/2009
- Được gia hạn (nếu có):
- Lần 1 từ tháng 05/2009 đến tháng 31/08/2009
- Lần 2
2. Kinh phí và sử dụng kinh phí:
a) Tổng số kinh phí thực hiện: 3.000 tr.đ, trong đó:
+ Kính phí hỗ trợ từ SNKH: 3.000 tr.đ.
+ Kinh phí từ các nguồn khác: không
b) Tình hình cấp và sử dụng kinh phí từ nguồn SNKH:
Theo kế hoạch Thực t
ế đạt được
Số
TT
Thời gian
(Tháng,
năm)
Kinh phí
(Tr.đ)
Thời gian
(Tháng, năm)
Kinh phí
(Tr.đ)
Ghi chú
(Số đề nghị
quyết toán)

2007 865,460,000 5/2007 600,000,000

1 2008 1,572,440,000 4/2007 265,460,000

5 Chi khác
143.0 143.0 114.4 114.4

Tổng cộng 3000.0 3000.0 2823.2 2823.2
- Lý do thay đổi (nếu có):

3. Các văn bản hành chính trong quá trình thực hiện đề tài/dự án:
(Liệt kê các quyết định, văn bản của cơ quan quản lý từ công đoạn xác định nhiệm vụ, xét chọn,
phê duyệt kinh phí, hợp đồng, điều chỉnh (thời gian, nội dung, kinh phí thực hiện nếu có); văn
bản của tổ chức chủ trì đề tài, dự án (đơn, kiến nghị điều chỉnh nếu có)
Số
TT
Số, thời gian ban
hành văn bản
Tên văn bản Ghi chú
1 22/09/2006 Quyết định số 2089/QĐ-BKHCN ngày 22
tháng 9 năm 2006 của Bộ trưởng Bộ Khoa
học và Công nghệ về việc phê duyệt nội
dung và kinh phí các đề tài đã trúng tuyển
thuộc Chương trình khoa học và công
nghệ trọng điểm cấp nhà nước giai đoạn
2006-2010, mã số KC.01.01/06-10;

2 15/5/2007
Hợp đồng “Nghiên cứu phát triển một số
sản phẩm thiết yếu về xử lý tiếng nói và
văn bản tiếng Việt”, mã số KC01.01/06-10
thuộc Chương trình KC.01/06-10 theo các
đăng ký theo
Thuyết minh
Tên tổ chức
đã tham gia
thực hiện
Nội dung
tham gia chủ yếu
Sản
phẩm
chủ yếu
đạt được
1 Viện Công nghệ
thông tin, Viện
KHCN VN
Viện Công
nghệ thông tin,
Viện KHCN
VN
– Xây dựng Hệ thống tổng hợp
tiếng nói cho người khiếm thị
– Xây dựng Hệ thống tổng hợp
tiếng nói, tích hợp cho các cổng
tiếng nói
– Xây dựng Hệ thống đối thoại
sử dụng công nghệ tổng hợp và
nhận dạng tiếng tiếng Việt trên
môi trường thiết bị di động dòng
công nghệ mới
SP1.1
SP1.2

thanh
SP1.4
SP1.5
4 Trung tâm Từ
điển học, Hà
nội
Trung tâm Từ
điển học, Hà
nội
– Xây dựng Từ điển từ tiếng
Việt cho máy tính
SP7.2
5 Khoa CNTT,
ĐH Công nghệ,
ĐHQG HN
Khoa CNTT,
ĐH Công
nghệ, ĐHQG
HN
– Xây dựng Kho ngữ liệu câu
tiếng Việt được chú giải (Viet
Treebank)
SP7.3

6 Khoa CNTT,
ĐH KHTN,
TpHCM
Khoa CNTT,
ĐH KHTN,
TpHCM

ĐHKHTN,
ĐHQG HN
Khoa Toán-
Cơ-Tin học,
ĐHKHTN,
ĐHQG HN
– Xây dựng công cụ Phân đoạn
từ Việt
SP8.2
- Lý do thay đổi (nếu có):

8
5. Cá nhân tham gia thực hiện đề tài, dự án:
(Người tham gia thực hiện đề tài thuộc tổ chức chủ trì và cơ quan phối hợp, không quá 10
người kể cả chủ nhiệm)
Số
TT
Tên cá nhân
đăng ký theo
Thuyết minh
Tên cá nhân
đã tham gia
thực hiện
Nội dung tham
gia chính
Sản
phẩm
chủ
yếu đạt
được

Tú Bảo
- Phụ trách khối Xử
lý văn bản và

- Nghiên cứu Dịch tự
động
- Tham gia SP7.2

Phụ
trách
khối Xử
lý văn
bản và
SP3
Phụ
trách
khối Xử
lý văn
bản và

3
KS.Ngô Cao
Sơn

KS.Ngô Cao
Sơn
Thư ký đề tài

Thư ký
Đề tài

7 Phạm Thị Ngọc
Yến
TS. Mathias
Rosignol
Nghiên cứu xây dựng
Hệ thống giám sát và
điều khiển quá trình
sử dụng kỹ thuật
nhận dạng tiếng Việt
SP1.4

8 Phạm Thị Ngọc
TS. Nguyễn

SP1.5 9
Yến
Công Phương
9
CN.Vũ Xuân
Lương

CN.Vũ Xuân
Lương
Nghiên cứu, xây
dựng Từ điển từ tiếng
Việt cho máy tính
SP7.2

SP8.2

13
TS. Phan Xuân
Hiếu

TS. Phan Xuân
Hiếu
Nghiên cứu, xây
dựng công cụ Phân
loại từ Việt
SP8.3

14
TS.Nguyễn Lê
Minh
TS.Nguyễn Lê
Minh
Nghiên cứu, xây
dựng công cụ Gộp
nhóm từ Việt
SP8.4

15
TS. Lê Thanh
Hương

TS. Lê Thanh
Hương
Nghiên cứu, xây

1
Tham dự Hội nghị Khoa học – Trao đổi Khoa học, trình bày Theo kế

10
Quốc tế về tiếng nói tại Châu Âu
hoặc Mỹ
seminar khoa học về Đề tài và
những nghiên cứu liên quan đến
dịch các ngôn ngữ nói, tại Trung
tâm Nghiên cứu Quốc tế về
Công nghệ truyền thông tiến tiến
InterACT (International Center
for Advanced Communication
Technologies), Đại học
Carnegie Mellon, Pittsburgh
– Trình bày seminar khoa học
tại CSLU với các nội dung chủ
yếu như đã trình bày trên, có
điểm nhấn về khía cạnh ứng
dụng của Nh
ận dạng cho
smarrtphone và Tổng hợp tiếng
nói cho người khiếm thị (Center
of Spoken Language
Understanding – Trung tâm
nghiên cứu về hiểu ngôn ngữ
nói), Oregon Graduate
Instiutute, Portland

2. Tổng hợp tiêng Việt
3. Dịch tự động Anh – Việt,
Việt – Anh
và đã tích hợp vào Hệ thống
dịch tiêng nói sang tiếng nói
giữa các ngôn ngữ sau: Anh,
Nhật, Trung quốc, Hàn, Thái,
Được
phát triển
trong quá
trình thực
hi
ện Đề
tài

11
Indonessia, Ấn độ, Mã lai, Việt
Nam
4
Đang triển khai hợp tác với Công
ty Axonite (Hoa kỳ) đưa hệ thống
tổng hợp tiếng Việt – VieTalk
trên nền của VOIP.

- Gửi một tin nhắn bằng tiếng
nói tổng hợp đến bất kỳ một
máy điện thoại để bàn hoặc
mobile với nội dung văn bản
được soạn trước.
- Các ứng dụng tiếp theo trong

Được mời báo cáo về xây dựng
tài nguyên cho NLP tại
International Symposium on
Asian Language Resources
(ALR) tại Thailand, 20-
21/03/2009
Có báo cáo mời về tài nguyên văn
bản của Đề atif để chia sẻ với
cộng đồng
Được
phát triển
trong quá
trình thực
hiện Đề
tài
7
TCAST (Technology and Corpora
for Asia-Pacific Speech
Translation, 2009, Singapore
Có 01 báo cáo khoa học về nghiên
cứu và phát triển Hệ thống Tổng
hợp tiếng Việt dựa trên mô hình
Markov ẩn
Được
phát triển
trong quá
trình thực
hiện Đề
tài
8

phí, địa điểm )
Ghi chú*
1
Tổ chức Hội nghị Khoa học quốc
tế về nhận dạng, ngôn ngữ, tại Hà
nội.

Tổ chức Hội thảo Quốc tế
khu vực Châu Á lần thứ 10
“Oriental-COCOSDA” 6-
7/12/2007 về thiết kế, xây
dựng, CSDL ngữ âm và
các công cụ đánh giá trong
các nước Châu Á

Thực hiện theo
kế hoạch
2
Trung tâm MICA – ĐHBK
tổ chức SLTU (Spoken
Languages Technologies for
Under-resources
Languages), 5-7/5/2008 tại
ĐHBK Hà nội

Thực hiện vượt
kế hoạch

- Lý do thay đổi (nếu có):

Nghiên cứu các công nghệ
nhằm tích hợp vào các môi
Trong cả giai
đoạn thực
hiện đề tài

Trong cả
giai đoạn
thực hiện đề
tài

Viện CNTT.
MICA

13
trường ứng dụng: đọc màn
hình cho người khiếm thị, tích
hợp vào cổng tiếng nói, các
thiết bị di động dòng công
nghệ mới, điều khiển thiết bị,
phân tích luồn âm thanh trong
ngôi nhà thông minh…2 Nghiên cứu và triển khai để xây
dựng các kho ngữ liệu ngữ âm cho
tổng hợp và nhận dạng tiếng nói
− Kho ngữ liệu ngữ âm cho
tổng hợp tiếng Việt
− Kho ngữ liệu ngữ âm từ vựng

hiện
đề tài
Trong cả
giai đoạn
thực hiện đề
tài

- Trung tâm từ
điển học, - Đại
học Công nghệ
4
Nghiên cứu và triển khai để xây
dựng các công cụ cơ bản của xử
lý tiếng Việt
− Công cụ phân tách từ
− Công cụ gán nhãn từ loại
− Công cụ gộp nhóm từ
− Công cụ phân tích cú pháp
câu tiếng Việt
Trong cả giai
đoạn thực
hiện đề tài

Trong cả
giai đoạn
thực hiện đề
tài

vào phần mềm JAWS cho phép:
- Làm trơn biên ghép các đơn vị theo hai đặc trưng:
o Ghép nối ở mức sóng âm
o Thay đổi trường độ khi đọc cho các âm tiết tận
cùng là p-t-c-ch
o Thay đổi được tốc độ phát âm.
- Nâng cao chất lượng giọng nói tổng hợp so với giai
đoạn 2001-2004
o Chất lượng âm tổng hợp ở mức độ âm tiết tốt
hơn
- Phân tích và chuyển đổi văn bản tiếng Việt với mã
Unicode, VNI thành tiếng nói.
- Phát âm chữ cái, dấu thanh, chữ số, các dấu nhảy
đơn, nhảy kép, mở ngoặc thành tiếng nói khi người
sử dụng đang gõ văn bản trong Word, Outlook, hoặc
một điều khiển sọan thảo bất kỳ của m
ột ứng dụng
đang chạy, hỗ trợ tiếng nói khi duyệt Web.
- Phát âm bằng tiếng Anh các từ tiếng Anh (không
đánh vần từng ký tự)
- .Kết xuất in ra tài liệu chữ nổi: phần mềm chuyển đổi
tệp văn bản được soạn thảo bằng MS Word,
Wordpad … với các bộ font .VnTime (ABC), vni-
times (VNI), Times New Roman (UNICODE) sang
tệp văn bản chữ bơ-rai tiếng Việt, tuân thủ theo luật
ký hiệu ch
ữ bơ-rai do hội người mù Việt nam quy
định, đảm bảo chuyển đổi định dạng cơ bản nhất như
dòng tiêu đề, đoạn văn bản, chữ đậm… Người khiếm
thị có thể đọc được hầu hết các tệp văn bản bao gồm

cùng là p-t-c-ch
o Thay đổi bộ đơn vị phụ thuộc ngữ cảnh để tăng
độ tự nhiên khi đọc từ và câu.
- Nâng cao chất lượng giọng nói tổng hợp so với giai
đoạn 2001-2004
o Chất lượng âm tổng hợp ở mức độ âm tiết tốt
hơn
o Phát triển, cài đặt thêm các phương pháp tổng
hợp tốt hơn TD-PSOLA (cộng chồng đồng bộ
miền thời gian)
o Chất lượng âm tổng hợp cho từ, cụm từ và câu
tự nhiên hơn.
o Tổng hợp các đoạn ngắn cho các khuôn mẫu câu
(voice template)
- Tổng hợp được một khuôn mẫu câu có chứa biến
(voice template), là một câu trộn lẫn giữa câu ghi âm
cố định và đọan âm tổng hợp ngắn.
- Chuyển đổi được đọan văn bản tiếng Việt bất kỳ (có
thể có tiếng Anh trộn lẫn) thành âm thanh để phát
trên điện thoại.
- Chạy được trong 2 ch
ế độ: đồng bộ và không đồng
bộ.
- Thay đổi được tốc độ phát âm nhanh hoặc chậm.
- Chương trình trình diễn: Một cổng thoại báo điểm
học tập, tu dưỡng của học sinh. Các thông tin được
lưu trong cơ sở dữ liệu SQL Server với vài chục
nghìn bản ghi.

Đạt được

động dòng
công nghệ
mới
(SP1.3)
người nói
o Độ chính xác nhận dạng khoảng 90% trong môi
trường không quá ồn (môi trường văn phòng
bình thường, môi trường ngoài trời không có
những tín hiệu nhiễu đặc biệt …).
o Tiêu chuẩn đánh giá độ chính xác trên bộ dữ liệu
test đủ lớn về: số lượng câu, số lượng người,
giọng 2 miền Bắc và Nam, giới tính, nói bình
thường không qua nhanh
- Tổng hợp
o Đọc các tin nhắn bằng tiếng Việt, phát âm rõ các
âm tiết tiếng Việt.
o Đánh giá độ hiểu tiếng Việt tổng hợp đạt quãng
90%. Tiêu chuẩn đánh giá: 1/ đánh gía theo các
tham số ngữ âm của tiếng tổng hợp, 2/ đánh giá
theo các nhóm người nghe về học vấn, tuổi, giới
tính, có/không chuyên môn về ngôn ngữ, …

4
Hệ thống
giám sát
và điều
khiển quá
trình sử
dụng kỹ
thuật nhận

Hệ thống
phân tích
luồng âm
thanh
(SP1.5)
Dò tìm tự động trong thời gian thực tiếng nói trong một
luồng âm thanh ứng dụng trong các công việc giám sát:
- Phân loại tiếng nói và các âm thanh khác (với tiếng
ồn và tiếng nhạc): Hệ thống phân tích trong thời
gian thực luồng dữ liệu âm thanh ghi vào từ micro
nhằm mục đích phân loại xem âm thanh ghi được
Đạt được
theo kế
hoạch17
thuộc loại nào : tiếng người nói, tiếng âm nhạc hay
các loại tiếng động khác trong cuộc sống thường
nhật.
- Quá trình phân tích, dò tìm tự động tiến hành trong
thời gian thực bằng cách khai thác các đặc tính phổ
của âm thanh.
- Độ chính xác phân loại 80%
- Trong trường hợp nhận ra sự có mặt của tín hiệu
giọng nói, hệ thống sẽ có thể kết nối với bộ nhận
dạng các câu lệnh gi
ọng nói (như lmô tả trong
SP1.4) để điều khiển một phần mềm hoặc một thiết
bị máy móc nào đó.

dụng trong tiếng Việt với số lượng cân bằng.
• Âm vị: đủ tất cả các âm vị khác nhau của tiếng
Việt gồm 22 âm đầu, 16 âm chính, 8 âm cuối và
2 âm đệm với số lượng cân bằng.
• Thanh điệu: đủ 6 thanh điệu của tiếng Việt gồm
ngang (không dấu), hỏi, sắc, nặng, huyền và ngã
với số lượng cân bằng.
b. Độ lớn và chất lượng:
• Số giờ thu âm: 3-5 giờ.
Đạt được
theo kế
hoạch18
• Số lượng âm tiết là khoảng 3000 tương đương
với số lượng 300 câu với độ dài trung bình 10-15
âm tiết.
• Chất lượng âm thanh ghi ở dạng PCM, tần số lấy
mẫu 16kHz và mã hoá 16 bit.
c. Người nói và điều kiện thu âm:
• Người nói gồm 01 nam giọng cao và 01 nữ giọng
trầm tình trạng sức khoẻ tốt, tuổi trong khoảng
18-45, giọng phát thanh viên miền Bắc Hà nội
chuẩn, tố
c độ đọc chuẩn của phát thanh viên.
• Điều kiện thu âm: Môi trường phòng thu tiêu
chuẩn cách âm.
d. Gán nhãn:
• Yêu cầu gán nhãn cơ sở dữ liệu ở mức từ, âm

bởi chuyên gia hoặc tự động đảm bảo cân bằng
về ngữ âm và dễ phát âm.
• Về mặt ngữ âm học, cơ sở dữ liệu bao gồ
m một
số lượng từ vựng lớn, kỳ vọng đạt gần đủ tất cả
âm tiết khác nhau theo thống kê xuất hiện trong
tiếng Việt. Cụ thể số lượng âm tiết khác nhau
khoảng 5.000, số lượng âm tiết không thanh điệu
khác nhau khoảng 2.000. Tần số xuất hiện của
mỗi âm tiết thể hiện đúng mức độ phổ biến của
âm tiế
t theo thống kê thực tế từ dữ liệu thu được
Đạt được
theo kế
hoạch19
một cách ngẫu nhiên qua các websites .
b. Độ lớn và chất lượng:
• Số giờ thu âm: 100 giờ.
• Số câu trên 20.000 với độ dài trung bình 10 âm
tiết mỗi câu.
• Chất lượng âm thanh ghi ở dạng PCM, tần số lấy
mẫu 16kHz và mã hoá 16 bit.
c. Người nói và điều kiện thu âm:
• Số lượng đối tượng thu âm khoảng 50-60 người,
trong đó 50% nam và 50% nữ, độ tuổi từ 18 đến
45, sức khoẻ
tốt, giọng đọc với tỷ lệ cân bằng

biến thể khác của các chữ số, ví dụ: 5 có thể đọc
là “lăm”, “nhăm” và “năm”. Do đó, bộ dữ liệu
gồm 17 âm vị khác nhau. Tần suất xuất hiện của
các âm vị là tương đương nhau.
• Về tên người Việt: nguồn có thể là họ tên đầy đủ
lấy danh sách cán bộ hoặc danh sách h
ọc sinh
đảm bảo thu thập đủ những tên phổ biến trong
tiếng Việt.
• Tên địa danh: tên các tỉnh, thành phố và địa
phương cấp thấp hơn của Việt nam.
b. Độ lớn và chất lượng:
• Về dữ liệu chữ số: Số lượng chuỗi số trên 1000,
mỗi chuỗi có độ dài 10 âm vị.
• Về tên người Việt: Số lượng từ vự
ng khoảng
2000 từ khác nhau.
• Về tên địa danh: Khoảng 100 tên khác nhau.
Đạt được
theo kế
hoạch20
• Chất lượng âm thanh ghi ở dạng PCM, tần số lấy
mẫu 16kHz và mã hoá 16 bit.
c. Người nói và điều kiện thu âm:
• Số lượng người nói 30-50 người với tỷ lệ nam nữ
cân bằng, độ tuổi 18-45, sức khoẻ tốt, giọng đọc
Hà nội chuẩn và địa phương miền Bắc. Thu âm 3

Đạt được
theo kế
hoạch

10
Kho ngữ
liệu câu
tiếng Việt
có chú giải
(VieTree
Bank)
(SP7.3)
- Tài liệu mô tả tập nhãn cú pháp và tập qui tắc gán
nhãn cú pháp
- Kho ngữ liệu 10.000 câu được gán nhãn cú pháp đầy
đủ, khuôn dạng như các TreeBank khác.
- Tài liệu hướng dẫn.

Đạt được
theo kế
hoạch

11
Hai kho
ngữ liệu
câu Anh-
Việt phổ
quát và
chuyên
ngành

theo kế
hoạch

13
Hệ phân
loại từ
Việt
(SP8.3)
- Tập quy tắc phân loại từ tiếng Việt thống nhất với
Viet TreeBank
- Hệ phân loại từ tiếng Việt dạng phần mềm mã nguồn
mở xây dựng các hệ phân lớp từ loại từ tiếng Việt
(Bộ phân lớp từ loại đến mức 4)
- Mã nguồn mở với khả nă
ng kết nối trong các phần
mềm khác.
- Độ chính xác dự kiến khoảng 90% trở lên, huấn
luyện bộ phân lớp trên tập dữ liệu câu gắn nhãn sẵn
(khoảng 10.000 câu)
- Tài liệu đặc tả chính xác quá trình phát triển, các
nguyên lý, quy tắc tuân theo và tài liệu hướng dẫn sử
dụng đi kèm.
Đạt được
theo kế
hoạch

14
Hệ phân
cụm từ
Việt

- Tài liệu hướng dẫn.
Đạt được
theo kế
hoạch22
- Lý do thay đổi (nếu có):

c) Sản phẩm Dạng III:
Yêu cầu khoa học
cần đạt

Số lượng, nơi công
bố
(Tạp chí, nhà xuất bản)
Số
TT
Tên sản phẩm

Theo
kế hoạch
Thực tế đạt được

Các bài báo công bố trong
các tuyển tập Hội nghị, hội
thảo:
- Quốc tế:
- Trong nước:
Số lượng bài theo đăng

COCOSDA, Kyoto, 25-27 December 2008, pp.242-45
4
Bui Quang Trung, Luong Chi Mai, Le Hai Son, “A Lexical Tree Based Search Network
in Continuous Vietnamese Speech Recognition”, Proceedings of Oriental COCOSDA,
Kyoto, 25-27 December 2008, pp.253-256.
5
Tran Do Dat, Eric Castelli, “Register of Vietnamese tone in continuous speech”,
The first International Workshop on Spoken Languages Technologies for Under-
resourced languages (SLTU - 2008), Hanoi, 3/2008.

23
6
Viet-Bac Le, Laurent Besacie, Sopheap Seng, Brigitte Bigi, Thi-Ngoc-Diep Do,
“Recent advances in automatic speech recognition for Vietnamese”, The first
International Workshop on Spoken Languages Technologies for Under-resourced
languages (SLTU - 2008), Hanoi, 3/2008.
7
ROSSIGNOL, Mathias and TRẦN, Đỗ Đạt, “Introducing Hoa Sen, a modular and
portable software toolkit for speech analysis and recognition”, in: ICT.rda '08, 2008
8
NGUYỄN, Thị Minh Tuyền and ROSSIGNOL, Mathias, “ADRPhone: a Lightweight,
Standalone Phonetizer for Vietnamese and its Dialects”, in: 10th Worksphop of the
Oriental chapter of the International Committee for the Co-ordination and
Standardization of Speech Databases and Assessment Techniques (Oriental
COCOSDA ’07), 2007.
9
Bui Quang Trung, Luong Chi Mai, Vu Tat Thang, Nguyen Trung Thanh, Nguyen Tien
Dung, “ A smartphone Spoken Dialog System using Vietnamese Text-To-Speech and
Speech recognition”, Proceeding of FAIR, Nha trang, 10-12 August, 2007.
Phần xử lý Văn bản

tiếng Việt”, In Proc. of the 4rd National Symposium on Research, Development and
Application of Information and Communication Technology (ICTrda'2008, August 8-
9, Ha Noi, Viet Nam), Science and Technics Publishing House, 249-257
17
Phan Xuân Hiếu, Lê Minh Hoàng, Nguyễn Cẩm Tú, “Gắn nhãn từ loại tiếng Việt dựa

24
trên các phương pháp học máy thống kê”, ICT.rda 2008, Hà Nội, Việt Nam.
18
Ho, T.B., Pham, N.K., Ha, T.L., Nguyen, P.T., “Issues and First Phase Development of
the English-Vietnamese Translation System EVSMT1.0”, Special Issue in Journal of
Science, Natural Sciences and Technology, Vol. 24, N3S, Vietnam National
University- Hanoi Publishers, 59-66, 2008.
19
Ho, T.B., “Vietnamese Language Processing: Issues and Challenges”, Special Issue in
Journal of Science, Natural Sciences and Technology, Vol. 24, N3S, Vietnam National
University- Hanoi Publishers, 10-16, 2008.
20
N.T.M. Huyen, R. Mathias, L.H. Phuong, D.Q. Thang, V.X. Luong, N.C. Tu, “Word
segmentation of Vietnamese texts: a comparison of approaches”, Proceedings of the
6th Language Resources and Evaluation Conference LREC 2008, 2008.
21
P. T. Ha, N. T. M. Huyen, L. H. Phuong, L. V. Tang, “Building a Syntactic Annotation
Framework for Vietnamese”, Proceedings of the National Symposium on Research,
Development and Application of Information and Communication Technology
ICT.rda, Vietnam, 8/2008.
22
Đỗ Bá Lâm, Lê Thanh Hương. 2008. Xây dựng hệ thống phân tích cú pháp tiếng Việt
sử dụng văn phạm HPSG. Kỷ yếu hội thảo ICT.rda’08, Hà Nội, Việt Nam.

Nguyễn Thị Phương Thảo, 2008
Nguyễn Cẩm Tú, 2008

25
Nguyễn Thị Hương Thảo, 2009

- Tiến sỹ (đã thực hiện trước khi bắt đầu đề tài nhưng theo hướng nghiên cứu của Đề tài):
Phan Xuân Hiếu, 2008
Nguyễn Phương Thái, 2008
Nguyễn Công Phương, 2009
Đang thực hiện:
Ngô Hoàng Huy

đ) Tình hình đăng ký bảo hộ quyền sở hữu công nghiệp
Kết quả
Số
TT
Tên sản phẩm
đăng ký
Theo
kế hoạch
Thực tế
đạt được
Ghi chú
(Thời gian kết
thúc)
1
0
2

nước ngoài. Dưới đây là một vài thí dụ:
● Kho ngữ liệu có chú giải (VieTreebank)

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Nghiên cứu phát triển một số sản phẩm thiết yếu về xử lý tiếng nói và văn bản tiếng việt - Pdf 13

Tài liệu, ebook tham khảo khác

Học thêm