Xử lý năng cao chất lượng tiếng nói - pdf 18

Download miễn phí Xử lý năng cao chất lượng tiếng nói

LỜI CAM ĐOAN . 1
MỤC LỤC. 2
DANH MỤC CÁC TỪ VIẾT TẮT VÀ CÁC THUẬT NGỮ TIẾNG ANH . 8
MỞ ĐẦU. 10
CHƯƠNG 1: TỔNG QUAN VỀ NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI . 13
1.1 Giới thiệu chương . 13
1.2 Nâng cao chất lượng tiếng nói là gì ? . 13
1.3 Lý thuyết về tín hiệu và nhiễu . 15
1.3.1 Tín hiệu, hệ thống và xử lý tín hiệu .15
1.3.1.1 Tín hiệu . 15
1.3.1.2 Nguồn tín hiệu. 15
1.3.1.3 Hệ thống và xử lý tín hiệu. 16
1.3.1.4 Phân loại tín hiệu. 16
1.4 Lý thuyết về nhiễu . 17
1.4.1 Nguồn nhiễu .17
1.4.2 Nhiễu và mức tín hiệu tiếng nói trong các môi trường khác nhau.19
1.5 Tín hiệu rời rạc theo thời gian . 20
1.5.1 Tín hiệu bước nhảy đơn vị .21
1.5.2 Tín hiệu xung đơn vị .21
1.5.3 Tín hiệu hàm mũ .21
1.5.4 Tín hiệu hàm sin rời rạc .21
1.6 Phép biến đổi Fourier của tín hiệu rời rạc DTFT . 22
1.6.1 Sự hội tụ của phép biến đổi Fourier .22
1.6.2 Quan hệ giữa biến đổi Z và biến đổi Fourier .22
1.6.3 Phép biến đổi Fourier ngược .23
1.6.4 Các tính chất của phép biến đổi Fourier .23
1.6.5 Phân tích tần số (phổ) cho tín hiệu rời rạc .24
1.6.6 Pổ tín hiệu và phổ pha .25
1.7 Các thuật toán sử dụng nâng cao chất lượng tiếng nói. 26
1.7.1 Trừ phổ .26
1.7.2 Mô hình thống kê .26
1.8 Tín hiệu tiếng nói. 26
1.9 Cơ chế tạo tiếng nói. 28
1.9.1.1 Bộ máy phát âm của con người. 28
1.9.2 Mô hình kỹ thuật của việc tạo tiếng nói.28
1.9.3 Phân loại âm .29
1.9.4 Thuộc tính âm học của tiếng nói .29
1.10 Kết luận chương . 29
CHƯƠNG 2 : ĐÁNH GIÁ CHẤT LƯỢNG TIẾNG NÓI . 30
2.1 Giới thiệu chương . 30
2.2 Phương pháp đánh giá chủ quan. 30
2.2.1 Các phương pháp đánh giá tuyệt đối.31
2.2.1.1 Phương pháp đánh giá tuyệt đối ACR . 31
2.2.2 Các phương pháp đánh giá tương đối .31
2.2.2.1 Đánh giá bằng phương pháp so sánh các mẫu tín hiệu . 31
2.2.2.2 Phương pháp đánh giá theo sự suy giảm chất lượng . 32
2.3 Phương pháp đánh giá khách quan. 33

Để tải bản Đầy Đủ của tài liệu, xin Trả lời bài viết này, Mods sẽ gửi Link download cho bạn sớm nhất qua hòm tin nhắn.
Ai cần download tài liệu gì mà không tìm thấy ở đây, thì đăng yêu cầu down tại đây nhé:
Nhận download tài liệu miễn phí

Tóm tắt nội dung tài liệu:

ỗi tín hiệu đều có một đặc điểm riêng của nó. Ví dụ như, tín hiệu sin chỉ có duy nhất một tần số đơn, trong khi nhiễu trắng chứa tất cả các thành phần tần số. Sự biến thiên chậm của tín hiệu là do tần số thấp, trong khi
sự biến thiến nhanh và những xung nhọn là do tần số cao. Như xung vuông chẳng hạn, nó chứa tất cả tần số và cả tần số cao.
Phổ của tín hiệu là mô tả chi tiết các thành phần tần số chứa bên trong tín hiệu. Ví dụ như tín hiệu xung vuông, phổ của nó chỉ ra tất cả các đỉnh nhọn của các sóng sin riêng có thể kết hợp lại hợp với nhau tạo ra xung vuông. Thông tin này quan trọng vì nhiều lý do. Ví dụ, thành phần tần số trong một mẫu nhạc chỉ cho ta biết các đặc trưng của loa, để từ đó khi sản xuất ta lại có cải tiến cho hay hơn. Để đoán các ảnh hưởng của bộ lọc trên tín hiệu, cần biết không chỉ
bản chất của bộ lọc mà còn phải biết cả phổ của tín hiệu nữa.
1.6.6 Phổ tín hiệu và phổ pha
Phổ của tín hiệu gồm hai phần: phổ biên độ (magnitude spectrum) và phổ pha (phase spectrum). Phổ biên độ chỉ ra độ lớn của từng thành phần tần số. Phổ pha chỉ quan hệ pha giữa các thành phần tần số khác nhau. Công cụ để tính phổ
tín hiệu rời rạc không tuần hoàn là DTFT.
Để tính phổ tín hiệu , ta qua hai bước : một là tính DTFT của tín hiệu – là
X( ), hai là tính biên độ và pha của X( )
X ( ) = X (

) e jq ( )

(1.21)
ở đây |X( )| là phổ biên độ và q ( ) là phổ pha.
Ta dễ dàng chứng minh được rằng đối với tín hiệu thực, phổ biên độ là một hàm chẵn theo tần số và phổ pha là một hàm lẻ theo .
Do đó, nếu biết phổ X( ) trong khoảng 0 đến p , ta có thể suy ra phổ trong toàn dải tần số. Để dễ giải thích phổ, tần số số từ 0 đến p thường được chuyển
đổi thành tần số tương tự từ 0 đến fs/2 nếu tần số lấy mẫu là fs.
Hình 1.6 Mẫu tiếng nói “eee” được lấy mẫu với tần số lấy mẫu 8kHz [11].
1.7 Các thuật toán sử dụng nâng cao chất lượng tiếng nói
1.7.1 Trừ phổ
Spectral-subtraction (SS) hay còn gọi là trừ phổ là một thuật toán giảm nhiễu đơn giản nhất. Nó dựa trên nguyên lý cơ bản là nó sẽ mô tả và cập nhật nhiễu trong tín hiệu có nhiễu bằng cách thu nhiễu khi không có sự hiện diện của
tín hiệu. Và nhiễu đó sẽ được trừ với tín hiệu có nhiễu, kết quả là tín hiệu của chúng ta sau khi xử lý bằng thuật toán này sẽ được loại đi nhiễu và xét trên phương diện lý tưởng thì nó là tín hiệu sạch. SS lúc ban đầu được đề xuất bởi Weiss[8] trong miền tương quan, và sau đó được đề xuất bởi Boll [9] trong miền chuyển đổi Fourier.
1.7.2 Mô hình thống kê
Vấn đề của nâng cao chất lượng tiếng nói là phải đề ra được khung mô tả mang tính thống kê. Nó là một tập các phép đo tương ứng với hệ chuyển đổi Fourier của tín hiệu nhiễu, và chúng ta mong muốn sẽ tìm ra được một cách ước lượng tuyến tính hay phi tuyến các tham số có lợi, đó là hệ chuyển đổi của tín hiệu sạch. Hai thuật toán được sử dụng đó là thuật toán Wiener và minium mean-squared error(MMSE)[10].
1.8 Tín hiệu tiếng nói
Tín hiệu tiếng nói là tín hiệu liên tục và có phổ năng lượng thay đổi theo thời gian. Tuy nhiên khi khảo sát trong một khoảng thời gian đủ ngắn (khoảng 10
đến 30 ms) thì đặc tính phổ của nó coi như không thay đổi.
Hình 1.7 Dạng sóng tín hiệu tiếng nói của câu “The wife helped her
husband” và dạng sóng của phụ âm “f” trong từ “wife, dạng sóng của đoạn nguyên âm “er” trong từ “her” [11].
Dạng sóng của tín hiệu có thể được chia thành một số phân đoạn tương ứng với các âm/từ. Trong ví dụ trên ta thấy một số phân đoạn có dạng sóng gần như tuần hoàn còn số khác thì không có tính tuần hoàn và bị nhiễu
Những kiểu của đoạn tiếng nói_chu kỳ, nhiễu, khoảng lặng… thường được tìm thấy trong tiếng nói trôi chảy với sự thay đổi về cường độ, khoảng thời gian
và đặc tính phổ.
1.9 Cơ chế tạo tiếng nói
1.9.1.1 Bộ máy phát âm của con người
Hình 1.8 mặt cắt dọc của cơ quan tạo tiếng nói [11].
1.9.2 Mô hình kỹ thuật của việc tạo tiếng nói
Hình 1.9 mô hình kỹ thuật tạo tiếng nói[11].
1.9.3 Phân loại âm
Các âm trong tiếng Anh được phân loại gồm: nguyên âm và nguyên âm đôi, bán nguyên âm, âm mũi, âm stops, fricative, africatives, whisper.
Hình 1.10 bảng phân loại âm vị trong tiếng Anh của người Mỹ [11]
1.9.4 Thuộc tính âm học của tiếng nói
Tín hiệu tiếng nói là tín hiệu tương tự, biểu diễn cho thông tin về mặt ngôn ngữ và được thể hiện bằng các âm vị khác nhau. Số lượng các âm vị tuỳ từng trường hợp vào từng ngôn ngữ, vào khoảng 20 đến 30 và không vượt quá 50. Đối với từng loại âm vị nó có đặc tính âm thanh khác nhau.Tổ hợp các âm vị tạo nên âm tiết. Âm tiết đóng vai trò một từ trọn vẹn mang ngữ nghĩa.
1.10 Kết luận chương
Chương này đã trình bày được mục đích chính của speech enhancement là triệt nhiễu hay là nén nhiễu trong tín hiệu tiếng nói đã bị nhiễu. Ngoài ra, nội dung của chương cũng đã nêu rõ được các loại nhiễu xuất hiện trong từng môi trường cụ thể để từ đó chúng ta có tìm ra được thuật toán xử lý thích hợp ứng với
mỗi trường hợp cụ thể.
CHƯƠNG 2 : ĐÁNH GIÁ CHẤT LƯỢNG TIẾNG NÓI
2.1 Giới thiệu chương
Cho đến nay đã có rất nhiều thuật toán nâng cao chất lượng tiếng nói, nhưng làm thế nào để đánh giá đúng hiệu quả của chúng. Phần này cung cấp các phương pháp đánh giá khác nhau được sử dụng để đánh giá hiệu quả của thuật toán nâng cao tiếng nói
Đánh giá chất lượng có thể thực hiện bằng cách sử dụng phương pháp đánh
giá theo cảm nhận của người nghe theo một thang đo đã được xác định trước (Subjective Evaluation_ SE) hay dựa trên phép đo các thuộc tính của tín hiệu (Objective Evaluation_ OE). Dù OE có giá trị thì nó vẫn phải tương quan với cảm nhận của người nghe
Phần này sẽ cung cấp một cái nhìn tổng quan về các phương pháp đánh giá chất lượng của tiếng nói đã được xử lý
2.2 Phương pháp đánh giá chủ quan
Đánh giá chất lượng chủ quan là đánh giá chất lượng dựa trên cảm nhận nghe của con người đối với tiếng nói
Chất lượng là một trong các thuộc tính của tín hiệu tiếng nói. Về bản chất
thì chất lượng có tính chủ quan cao và khó có thể đánh giá một cách đáng tin cậy.Nó chỉ đóng vai trò phần nào trong kỹ thuật đánh giá vì mỗi cá nhân người nghe có những tiêu chuẩn riêng về chất lượng “tốt” hay “xấu”, chất lượng là kết quả của sự cảm nhận và phán đoán chủ quan của người nghe, dẫn đến sự chênh lệch lớn trong kết quả đánh giá. Chất lượng có rất nhiều chỉ tiêu không thể đếm
hết được. Tùy vào các mục đích thực tế và tùy vào mỗi ứng dụng mà chỉ tập trung vào một số chỉ tiêu chất lượng tiếng nói.
Đánh giá chất lượng tiếng nói là một công việc đầy khó khăn do tính đa chỉ tiêu và tính chủ quan cao. Có một số lượng lớn các đặc trưng để đánh giá khi thực hiện phương pháp nghe chủ quan này. Để kết quả đánh giá là đáng tin cậy
thì sự lựa chọn đúng đắn các tham số cho việc đánh giá là điều cần thiết. Dựa
trên thực tế đó ITU-T đã đưa ra các...

Yêu cầu Download

Tài liệu, ebook tham khảo khác

Xử lý năng cao chất lượng tiếng nói - pdf 18

Tóm tắt nội dung tài liệu:

Tài liệu, ebook tham khảo khác

Học thêm