Giải quyết vấn đề nhận dạng tiếng Việt bằng phân tích cú pháp - Pdf 25

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
TỪ TRUNG HIẾU
GIẢI QUYẾT VẤN ĐỀ NHẬN DẠNG TIẾNG VIỆT
BẰNG PHÂN TÍCH CÚ PHÁP
LUẬN VĂN THẠC SỸ
HÀ NỘI - 2004
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
TỪ TRUNG HIẾU
GIẢI QUYẾT VẤN ĐỀ NHẬN DẠNG TIẾNG VIỆT
BẰNG PHÂN TÍCH CÚ PHÁP
Chuyên ngành : Công nghệ thông tin
Mã số : 1.01.10
LUẬN VĂN THẠC SỸ
NGƯỜI HƯỚNG DẪN KHOA HỌC
TS. Lương Chi Mai
HÀ NỘI - 2004
2
Mục lục
Lời cảm ơn 1
Mục lục 2
Chỉ mục hình vẽ 6
Chỉ mục bảng biểu 7
Mở đầu 9
Chương 1 TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI 10
1.1. Cơ sở và tiềm năng của nhận dạng tiếng nói 10
1.2. Các ứng dụng hay gặp 11
1.2.1. Chương trình quay số bằng giọng nói (voice dialer) 11
1.2.2. Chương trình soạn thảo bằng giọng nói (voice editor) 13
1.2.3. Chỉ mục đa phương tiện (Multimedia Indexer) 14

2.4.2. Định nghĩa triển khai 38
2.4.3. Thuật toán xây dựng 39
2.5. Sơ đồ chuyển trạng thái đẩy xuống (pushdown state transition diagram) .40
2.5.1. Định nghĩa hình thức 40
2.5.2. Định nghĩa triển khai 42
2.5.3. Thuật toán xây dựng 43
2.6. Chuỗi con chung lớn nhất 44
2.6.1. Định nghĩa chuỗi con chung lớn nhất 45
2.6.2. Thuật toán tìm chuỗi con chung lớn nhất 46
2.6.3. Vai trò của chuỗi con chung 47
Chương 3 TÍN HIỆU TIẾNG NÓI 49
3.1. Định nghĩa tín hiệu 49
3.2. Lấy mẫu tín hiệu (signal sampling) 49
3.3. Phân đoạn tín hiệu 51
3.4. Tham số hoá tín hiệu 52
3.4.1. Số lần vượt qua điểm không (zero crossing) 52
3.4.2. Năng lượng (energy) 53
3.4.3. Số mỏm (number of hills) 54
3.4.4. Biên độ (amplitude) 55
3.4.5. Độ dừng (duration) 56
3.4.6. Tần số cơ bản (fundamental frequency) 57
4
3.5. Biến đổi tín hiệu (signal transformation) 59
3.5.1. Gây nhiễu (noising) 60
3.5.2. Biến đổi biên độ tổng thể (global amplitude transformation) 60
3.5.3. Thu nhỏ tín hiệu (zoom smaller) 61
3.5.4. Phóng to tín hiệu (zoom bigger) 61
3.5.5. Cắt bỏ biên độ (amplitude cutoff) 61
3.5.6. Biến đổi Fourier 62
Chương 4 PHƯƠNG PHÁP NHẬN DẠNG DỰA TRÊN PHÂN TÍCH

5.2.4. Huấn luyện trực tuyến và huấn luyện hàng loạt 92
5.3. Các thư viện dùng để triển khai 93
5.3.1. WaveBuffer 93
5.3.2. WaveBufferQueue 95
5.3.3. WaveRecorder 96
5.3.4. WaveMapper 97
5.4. Chương trình smartphone 98
5.5. Chương trình wordrec 98
5.6. Đánh giá kết quả triển khai 100
Kết luận 102
Kết quả đạt được 102
Đề xuất phát triển 103
Tài liệu tham khảo 104
Tiếng Việt 104
Tiếng Anh 105
6
Chỉ mục hình vẽ
Hình 1-1. Sơ đồ của hệ quay số bằng giọng nói 13
Hình 1-2. Câu "cộng hoà xã hội chủ nghĩa việt nam" phát âm rời rạc 18
Hình 1-3. Câu "cộng hoà xã hội chủ nghĩa việt nam" phát âm liên tục 19
Hình 1-4. Nhận dạng trên máy tính cá nhân (phụ thuộc người nói) 20
Hình 1-5. Nhận dạng trên máy phục vụ công cộng (độc lập người nói) 21
Hình 2-1. Ví dụ về sơ đồ chuyển trạng thái tuyến tính 38
Hình 2-2. Ví dụ về sơ đồ chuyển trạng thái đẩy xuống 41
Hình 3-1. Tín hiệu và số lần vượt qua điểm không 53
Hình 3-2. Tín hiệu và năng lượng 54
Hình 3-3. Các từ ma, má, mà, mả, mã, mạ 57
Hình 3-4. Chu kỳ cơ bản 57
Hình 3-5. Tín hiệu sau khi bị tách ngưỡng 58
Hình 3-6. Tín hiệu sau khi bị tách ngưỡng (trường hợp xấu) 58

Bảng 2-17. Định nghĩa hình thức sơ đồ chuyển trạng thái tuyến tính 37
Bảng 2-18. Định nghĩa triển khai sơ đồ chuyển trạng thái tuyến tính 39
Bảng 2-19. Định nghĩa trạng thái tuyến tính 39
Bảng 2-20. Định nghĩa phép chuyển tuyến tính 39
Bảng 2-21. Thuật toán xây dựng sơ đồ chuyển trạng thái tuyến tính 40
Bảng 2-22. Định nghĩa hình thức sơ đồ chuyển trạng thái đẩy xuống 41
Bảng 2-23. Ví dụ về sơ đồ chuyển trạng thái đẩy xuống 42
Bảng 2-24. Định nghĩa hình thức sơ đồ chuyển trạng thái đẩy xuống 42
Bảng 2-25. Định nghĩa trạng thái đẩy xuống 43
Bảng 2-26a. Thuật toán xây dựng sơ đồ chuyển trạng thái đẩy xuống 43
Bảng 2-26b. Thuật toán xây dựng sơ đồ chuyển trạng thái đẩy xuống 44
Bảng 2-27. Thuật toán chuỗi con chung 46
Bảng 2-28. Ví dụ về thuật toán chuỗi con chung 47
Bảng 3-1. Các giá trị của độ phân giải mẫu 51
Bảng 3-2. Công thức tính ZC 53
Bảng 3-3. Công thức tính năng lượng 54
Bảng 3-4. Thuật toán đếm số mỏm 54
Bảng 3-5. Thuật toán đếm số mỏm với ngưỡng 55
Bảng 3-6. Thuật toán tìm tần số cơ bản 59
Bảng 3-7. Biến đổi biên độ tổng thể 60
Bảng 3-8. Xấp xỉ của tín hiệu bằng chuỗi Fourier 63
Bảng 4-1. Mô hình hoá phát âm 68
Bảng 4-2a. Ví dụ về từ điển phát âm 68
Bảng 4-2b. Ví dụ về từ điển phát âm 68
8
Bảng 4-3. Ví dụ về văn phạm tiếng Việt 70
Bảng 4-4. Các lỗi không thống nhất 70
Bảng 4-5. Thuật toán nhận dạng dựa trên từ điển 76
Bảng 4-6. Ví dụ về thuật toán nhận dạng dựa trên từ điển 77
Bảng 4-7. Thuật toán huấn luyện 77

Chương 1 giới thiệu tổng quan về vấn đề nhận dạng tiếng nói và các khái
niệm hay gặp trong nhận dạng tiếng nói.
Chương 2 được chúng tôi dành để đưa ra các khái niệm toán học cần thiết để
hiểu cũng như triển khai hệ thống nhận dạng.
Chương 3 bao gồm các vấn đề về tín hiệu và xử lý tín hiệu. Các khái niệm của
chương này được dùng trong các chương 4 và 5.
Chương 4 bao gồm các kết quả lý thuyết và chương 5 bao gồm các kết quả
triển khai của chúng tôi trong thời gian nghiên cứu.
Trong suốt quá trình nghiên cứu, chúng tôi giả định bài toán nhận dạng của
chúng tôi có đầu vào là chuỗi các véc tơ đặc trưng và đầu ra là một chuỗi các ký
hiệu nhận dạng (nhãn). Vì có phương pháp nhận dạng dựa trên phân tích cú pháp,
khái niệm nhãn được mở rộng để bao gồm cả các ký hiệu trung gian hay ký hiệu
sinh của văn phạm.
10
Chương 1
TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NÓI
Trong phần này, chúng tôi muốn nêu ra các khái niệm cơ bản cũng như các
vấn đề cơ bản của nhận dạng tiếng nói. Các khái niệm và vấn đề này sẽ được làm rõ
và cụ thể hoá trong các phần tiếp theo của tài liệu.
Các vấn đề trong phần này sẽ được bố trí theo thứ tự xuất hiện của chúng.
Nghĩa là các vấn đề sau sẽ ít nhiều liên quan đến các vấn đề trước và do đó chúng ta
cần hiểu các vấn đề theo cách tuần tự. Trong phần sau, chúng tôi sẽ trình bày theo
cách phát triển của vấn đề.
1.1. Cơ sở và tiềm năng của nhận dạng tiếng nói
Các tín hiệu hữu tuyến cũng như vô tuyến xuất phát từ hành động bấm nút đã
tồn tại rất lâu trong lịch sử điều khiển điện tử. Việc ta bấm nút Power trong bảng
điều khiển từ xa của vô tuyến cũng giống như việc ta ra lệnh vô tuyến hãy bật lên
hoặc tắt đi (chuyển trạng thái làm việc). Việc ta bấm nút Volume+ trong bảng điều
khiển từ xa của vô tuyến cũng giống việc ta ra lệnh vô tuyến hãy tăng tiếng lên một
chút. Thực chất việc phát một tín hiệu bằng sóng hồng ngoại vào mắt thần của vô

Trong phần này, chúng tôi muốn trình bày một số chương trình ứng dụng đã
được thương mại hoá có sử dụng các nghiên cứu liên quan đến nhận dạng tiếng nói.
Qua đó người đọc có thể hiểu được tính hiện thực hay khả thi của vấn đề nhận dạng
tiếng nói. Người đọc cũng có thể cảm nhận được các hệ thống nhận dạng tiếng nói
là cụ thể, gần gũi, và thiết thực trong đời sống hàng ngày cũng như công việc văn
phòng. Và cuối cùng người đọc có cái nhìn tổng quát về bài toán nhận dạng tiếng
nói thông qua các ví dụ cụ thể.
1.2.1. Chương trình quay số bằng giọng nói (voice dialer)
Chương trình quay số bằng giọng nói là một chương trình rất đơn giản và hiệu
quả được cài đặt trong một số máy điện thoại di động. Tác dụng rất lớn của chương
12
trình này là tìm ra một số điện thoại nhanh chóng và ít thao tác nhất. Chúng ta biết
điện thoại di động vốn nhỏ gọn và bàn phím chỉ gồm các con số và vài phím chức
năng. Do đó việc đánh các ký tự được thực hiện bằng cách lặp phím. Nên việc đánh
một tên người để gọi cho người đó rất khó khăn. Chính vì vậy việc quay số bằng
giọng nói, tức là nói một tên người vào lỗ nghe của máy điện thoại thì trên màn
hình của điện thoại xuất hiện một hộp thoại bao gồm tên người vừa nói, số điện
thoại của người đó, nút chấp nhận gọi cho số tìm được, và nút huỷ bỏ kết quả tìm
được. Như vậy quá trình gọi cho một người hầu như chỉ mất hai thao tác đọc tên
người gọi và bấm nút chấp nhận.
Để một máy điện thoại di động có thể quay số đến một người bất kỳ, chúng ta
cần huấn luyện cho máy. Việc huấn luyện chỉ đơn giản là gắn cho mỗi số điện thoại
với một đoạn âm thanh. Do đó một từ điển hay ánh xạ từ tập các đoạn âm thanh tới
tập các số điện thoại sẽ được thiết lập.
Quá trình nhận dạng sẽ sử dụng từ điển đã được thiết lập trong quá trình huấn
luyện để đưa ra kết quả. Mỗi khi người nói có nhu cầu quay số, họ sẽ đưa vào lỗ
nghe của máy điện thoại một đoạn âm thanh. Đoạn âm thanh này sẽ được so sánh
với các đoạn âm thanh trong từ điển đã được thiết lập trong khi huấn luyện. Nếu
việc so sánh là khớp thì số điện thoại tương ứng sẽ được đưa ra.
Ứng dụng nhận dạng tiếng nói này có lẽ là đơn giản nhất trong tất cả các ứng

name
parameterize vector
name
add to
dictionary
Hình 1-1. Sơ đồ của hệ quay số bằng giọng nói
Nói chung nhận dạng trong điện thoại di động cũng chỉ dừng ở mức độ lưu trữ
thành từ điển và nhận dạng dựa trên khớp mẫu. Vì đơn giản là các bộ vi xử lý của
điện thoại di động không có nhiều chỉ thị hay chưa đủ thông minh. Bộ nhớ trong
của điện thoại di động nói chung không đủ lớn để có thể tổ chức được mạng lưới
tìm kiếm.
1.2.2. Chương trình soạn thảo bằng giọng nói (voice editor)
Chúng tôi muốn đưa vào phần tổng quan một ứng dụng đã được thương mại
hoá của Microsoft như một kết quả đã đạt được của những người đi trước trong lĩnh
vực nhận dạng.
14
Chương trình đọc chính tả là một chương trình đơn giản nhất và thường được
coi như ví dụ kinh điển của nhận dạng tiếng nói. Khi chương trình khởi động, một
cơ sở tri thức về tiếng nói sẽ được tải lên. Cơ sở tri thức này có thể bị thay đổi, hoặc
bị tải lại, cũng như bị lưu lại trong quá trình hoạt động. Cũng trong quá trình khởi
động, một màn hình soạn thảo được mở ra để đón các từ nhận dạng và thiết bị ghi
âm cũng được chuẩn bị để đón nhận tín hiệu tiếng nói. Sau khi các công việc khởi
động hoàn tất, người dùng có thể đọc các từ và trên màn hình soạn thảo sẽ xuất hiện
từ tương ứng. Trong khi đọc chính tả, có thể một từ do người đọc phát âm chưa có
trong từ điển, do đó từ này có thể không được nhận dạng. Do vậy người sử dụng có
thể thêm một từ vào từ điển đồng thời với việc thêm mẫu phát âm của từ đó vào để
nhận dạng. Kết quả là tri thức nhận dạng được cập nhật.
Về cơ bản, Microsoft cho phép người dùng đưa vào các từ bằng giọng nói và
các từ hiện ra ở một số cửa sổ soạn thảo hỗ trợ nhận dạng tiếng nói như Microsoft
Word, Microsoft Excel. Kết quả nhận dạng cũng không cao và thường phải mất

Một cách đơn giản, chỉ mục đa phương tiện có thể được hiểu là sinh tự động
tương ứng với mỗi tập tin đa phương tiện một tập tin chỉ mục tương ứng bằng văn
bản. Việc này cũng dẫn tới bài toán nhận dạng tiếng nói khi tập tin đa phương tiện
là đoạn phim hoặc bài hát hay bản tin thời sự.
1.2.4. Chương trình ra lệnh bằng giọng nói (voice commander)
Một ứng dụng khác xem ra đơn giản hơn trong bộ công cụ nhận dạng của
Microsoft cũng đã được chúng tôi phân tích. Chúng tôi muốn giới thiệu ứng dụng
này vì nó gần với mục đích nghiên cứu của chúng tôi, đó là sử dụng lời nói như
mệnh lệnh cho máy tính.
Microsoft giới hạn các câu lệnh nhận dạng trong các ứng dụng văn phòng hỗ
trợ nhận dạng tiếng nói, trong khi đáng nhẽ họ có thể làm cho tất cả các ứng dụng
có trong hệ thống. Một số tín hiệu tiếng nói được dùng để thay cho tổ hợp phím
nóng cố định trong các ứng dụng của Microsoft ví dụ như nói từ bold thay cho ấn
Ctrl+B, nói từ open thay cho ấn Ctrl+O. Một số tín hiệu nối nhau liên tiếp theo ngữ
cảnh thay cho việc dùng phím kích hoạt các mệnh lệnh, ví dụ nói các từ Format,
16
Font, Arial để chọn tên phông hiện tại là Arial, hoặc nói các cụm từ Tools, Option,
View, Field codes để bật tắt việc xem các trường trong văn bản.
Tất nhiên các tên mở rộng trong danh sách sẽ không được hỗ trợ. Ví dụ sẽ
không có chuỗi âm thanh nào cho tên phông có VnTime hoặc VnArialH. Chúng ta
cũng không sử dụng được các mệnh lệnh này vào những chương trình không hỗ trợ
nhận dạng tiếng nói, thậm chí các chương trình có hệ lệnh tương tự như Microsoft
Excel hoặc Microsoft Word. Chúng ta cũng không sử dụng được các mệnh lệnh đơn
giản của hệ thống như tắt máy (shutdown), hiện bàn làm việc (show desktop), hiện
cửa sổ tìm kiếm (show file finder) mà đáng nhẽ chương trình nhận dạng nên hỗ trợ
các mệnh lệnh hệ thống như vậy như chương trình thông dịch đã làm với phím
Win+D, Win+F, Win+Break. Chúng ta cũng không can thiệp được các hệ thống
lệnh không hỗ trợ phím nóng và có giao diện đặc biệt chuyên dụng như Printer,
Properties trong cửa sổ quản lý lệnh in, hoặc Game, Save Game trong một số
chương trình trò chơi.

giản nhất là chữ "trợ" và "chợ" trong tiếng Hà Nội không thể phân biệt được như
chữ "trợ" và "chợ" trong tiếng Nghệ An. Cũng như vậy một số nơi của Hải Phòng
và Hải Dương phát âm các tiếng "nồng" thành "lồng" mặc dù họ vẫn viết chính tả
đúng các chữ này. Các chữ "giường", "rường", và "dường" trong tiếng Hà Nội nói
chung là giống nhau nhưng khác nhau trong phương ngữ một số vùng Nam Định.
Trong phần huấn luyện, Microsoft khuyến cáo người dùng phát âm theo giọng
nói ngang (even tone) mà không phải giọng nói tự nhiên (natural tone) để nhằm
nhận dạng chính xác. Họ cũng khuyến cáo người dùng phát âm các từ rời rạc nhau
để bộ nhận dạng khỏi nhầm lẫn. Thực chất các khuyến cáo trên chỉ nhằm tăng chất
lượng của tiếng nói.
18
1.3.2. Các từ tách biệt và tiếng nói liên tục
Do tốc độ nói nhanh hay chậm, người ta phân biệt ra tiếng nói rời rạc và tiếng
nói liên tục. Tiếng nói rời rạc là tiếng nói trong đó các từ thường được phát âm cách
quãng, nghĩa là có các khoảng lặng giữa các từ. Do đó ranh giới giữa các từ hầu như
rõ ràng, nhất là đối với các ngôn ngữ đơn âm. Nhận dạng các từ tách biệt (isolated
word recognition) là nhận dạng các tín hiệu tiếng nói rời rạc. Dựa vào đặc điểm của
tiếng nói rời rạc, chúng ta có thể tách các phát âm thành các đoạn nhỏ, so sánh
chúng với các mẫu phát âm trong từ điển, và đưa ra từ tương ứng như kết quả nhận
dạng. Nhược điểm của nhận dạng từ rời rạc là không hoạt động với tín hiệu tiếng
nói không chứa các khoảng lặng, do đó người sử dụng các chương trình nhận dạng
từ rời rạc luôn phải cố gắng đọc thật chậm. Kết quả là quá trình nhập liệu bằng
giọng nói thường bị chậm.
Hình 1-2. Câu "cộng hoà xã hội chủ nghĩa việt nam" phát âm rời rạc
Nhận dạng tiếng nói liên tục (continuous speech recognition) hoạt động trên
các tín hiệu tiếng nói liên tục. Tiếng nói liên tục là tiếng nói được phát âm liên tục,
nghĩa là cuối của từ trước sẽ là đầu của từ sau. Tiếng nói liên tục là tiếng nói tự
nhiên mà chúng ta vẫn dùng để giao tiếp. Tuy nhiên tiếng nói liên tục thường có
những đặc điểm đặc biệt làm trở ngại quá trình nhận dạng. Ví dụ các nguyên âm
liền nhau có xu hướng biến thành một từ "cô ạ" thành "quạ", "chị hằng" thành

đoạn âm thanh của hai đoạn văn bản khác nhau càng khác nhau càng tốt để kết quả
nhận dạng được duy nhất.
Nói chung, số lượng người nói khác nhau càng nhiều thì hệ thống cần phải lưu
trữ nhiều mẫu hơn và tìm kiếm mất nhiều công hơn trên các mẫu lưu trữ. Vì vậy số
lượng người nói cũng là khó khăn lớn của quá trình nhận dạng. Tất nhiên chúng ta
có thể giải quyết khó khăn này bằng cách triển khai các hệ thống dùng cho một cá
nhân, nhưng chúng ta vẫn cần các hệ thống dùng cho máy công cộng.
1.3.5. Độc lập người nói và phụ thuộc người nói
Nhận dạng độc lập người nói (speaker-independent) là nhận dạng hoạt động
tốt với nhiều người nói khác nhau, trừ những trường hợp có giọng nói quá đặc biệt
hoặc dị tật. Nói chung các ứng dụng độc lập người nói thường cho kết quả không
cao do phải tìm kiếm trên không gian dữ liệu quá lớn và phải sử dụng các mô hình
quá tổng quát cho nhiều dạng người nói khác nhau. Mặc dù vậy các ứng dụng nhận
dạng độc lập người nói vẫn cần thiết, đặc biệt trong các dịch vụ công cộng.
Hình 1-4. Nhận dạng trên máy tính cá nhân (phụ thuộc người nói)
Các ứng dụng nhận dạng tiếng nói phụ thuộc người nói (speaker-dependent)
hoạt động tốt với người nói này nhưng không hoạt động tốt với người nói khác.
Thông thường các chương trình nhận dạng phụ thuộc người nói cần phải được huấn
21
luyện lại mỗi khi sử dụng để nhằm thích nghi với người sử dụng. Ưu điểm của các
ứng dụng nhận dạng phụ thuộc người nói có kích thước nhỏ và độ chính xác cao
hơn so với các ứng dụng nhận dạng độc lập người nói viết bằng thuật toán tương
ứng. Các ứng dụng nhận dạng phụ thuộc người nói do vậy phổ biến hơn trong các
máy tính cá nhân.
Hình 1-5. Nhận dạng trên máy phục vụ công cộng (độc lập người nói)
1.3.6. Biến đổi theo phương ngữ (dialect)
Các vùng khác nhau thường sử dụng tập từ vựng khác nhau và có cách kết hợp
các từ khác nhau để tạo thành câu. Cho nên nói chung ta cần phải đương đầu với
nhiều tập câu khác nhau cũng như tập từ vựng khác nhau nếu chúng ta muốn có hệ
thống nhận dạng.

1.4. Các bài toán liên quan tới nhận dạng tiếng nói
Trong phần này, chúng tôi muốn trình bày các bài toán trong lĩnh vực xử lý
tiếng nói (speech processing). Mặc dù mục tiêu và do đó kết quả của các bài toán
khác nhau, nhưng chúng đều thao tác trên tiếng nói và do đó chúng có chung không
những các thư viện xử lý tín hiệu mà còn chung về cấu trúc hệ thống, nghĩa là đều
có các tầng xử lý ngữ âm học (Phonetics), từ vựng học (lexicology), và ngữ pháp
học (syntatics).
23
1.4.1. Nhận dạng tiếng nói và tổng hợp tiếng nói
Nhận dạng tiếng nói (speech recognition) và tổng hợp tiếng nói (speech
synthesis) thường được xem như hai bài toán đối ngược, nhưng nói chung hai bài
toán này đều thuộc dạng các bài toán chuyển đổi và do đó có cấu trúc tương tự như
nhau. Bài toán tổng hợp tiếng nói thường được xem là đơn giản hơn bài toán nhận
dạng tiếng nói nhưng các thành phần để triển khai hệ nhận dạng và hệ tổng hợp là
giống nhau. Chúng ta cũng cần có tri thức cú pháp hay cấu trúc câu để chúng ta
tổng hợp được ngữ điệu. Chúng ta cũng cần có tri thức phát âm để có thể phát ra
được các âm chính xác từ văn bản. Nhưng quá trình tổng hợp tiếng nói có thể dùng
từ để tìm ra phát âm một cách chính xác, duy nhất, và nhanh chóng, trong khi quá
trình nhận dạng phải hoạt động mệt mỏi trên tập các mẫu để tìm ra một vài từ mà
không phải duy nhất một từ, chưa chắc chính xác với ý định của người nói.
1.4.2. Nhận diện người nói (speaker identification)
Bài toán nhận dạng tiếng nói có quan hệ với một số bài toán khác như xác
minh người nói và nhận diện người nói. Mặc dù đầu vào và đầu ra của chúng tương
tự nhau, nhưng cách mà chúng quan tâm đến dữ liệu đầu vào lại hoàn toàn trái
ngược. Các bài toán xác minh người nói và nhận diện người nói tập trung vào các
đặc điểm riêng biệt của giọng nói trong khi bài toán nhận dạng tiếng nói tập trung
vào các đặc điểm chung nhất của giọng nói.
Nhận diện người nói (speaker identification) là dựa vào giọng nói nghe được
hay thu được để nhận ra người nói tương ứng dựa trên tri thức đã có về các cá nhân
và giọng nói của cá nhân. Ví dụ nghe một bài hát mới trên đài phát thanh, chúng ta

cho độ chính xác của quá trình nhận dạng giảm đi đáng kể. Chúng tôi đã có thử
nghiệm trên tiếng nói liên tục nhưng chưa tìm ra phương pháp giải quyết.
Mục tiêu của chúng tôi là phát triển các ứng dụng nhận dạng trên máy tính cá
nhân và cho người dùng cụ thể, do đó chúng tôi tập trung nghiên cứu các hệ nhận

Trích đoạn Nhận dạng dựa trên bộ phân tích cú pháp Huấn luyện bộ nhận dạng dựa trên phân tích cú pháp Tập tin âm thanh Tập tin văn phạm (grammar file format) Nhận dạng trực tuyến
Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status