luận văn Thạc sĩ Tìm kiếm âm nhạc trên cơ sở nội dung và ứng dụng tại trường đại học văn hóa, thể thao và du lịch thanh hóa - Pdf 42

Header Page 1 of 133.
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
---------------------------------------

TÀO NGỌC BIÊN

ĐỀ TÀI:
TÌM KIẾM ÂM NHẠC TRÊN CƠ SỞ NỘI DUNG VÀ ỨNG DỤNG
TẠI TRƯỜNG ĐẠI HỌC VĂN HÓA, THỂ THAO VÀ DU LỊCH
THANH HÓA

CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH
MÃ SỐ: 60.48.01
TÓM TẮT LUẬN VĂN THẠC SĨ

HÀ NỘI - 2012
Footer Page 1 of 133.

Header Page 2 of 133.
Luận văn được hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

Người hướng dẫn khoa học: PGS. TS ĐẶNG VĂN ĐỨC

Phản biện 1: ……………………………………………………………………………

Phản biện 2: …………………………………………………………………………...

Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện Công nghệ Bưu chính
Viễn thông

hay chậm), tâm trạng (vui, buồn...) và xác định được tính tương đồng với đoạn âm
thanh khác. Tuy nhiên, máy tính coi đoạn âm thanh như dãy giá trị mẫu. Cho đến
hiện tại, phương pháp chung nhất để xâm nhập âm thanh dựa trên cơ sở tiêu đề và
tên tệp. Do tên tệp và mô tả văn bản là không đầy đủ và chủ quan cho nên việc tìm
ra đoạn âm thanh thõa mãn người sử dụng là rất khó khăn. Thêm nữa, kỹ thuật truy
tìm này không hỗ trợ câu truy vấn như “tìm đoạn âm thanh tương tự đoạn đang
nghe” (truy vấn theo thí dụ).
Để giải quyết vấn đề này, các kỹ thuật truy tìm âm thanh trên cơ sở nội dung là
cần thiết. Truy tìm âm thanh trên cơ sở nội dung đơn giản nhất sử dụng so sánh mẫu
với mẫu giữa câu truy vấn và đoạn âm thanh lưu trữ. Tiệm cận này sẽ không hoạt
động tốt vì tín hiệu âm thanh biến đổi và các đoạn âm thanh khác nhau có thể biểu
diễn với tốc độ mẫu khác nhau và có thể sử dụng tổng số bit lấy mẫu khác nhau. Do
vậy, truy tìm âm thanh trên cơ sở nội dung được thực hiện trên cơ sở tập các đặc
tính âm thanh được trích chọn như cường độ trung bình hay phân bổ tần số.

Footer Page 3 of 133.

Header Page 4 of 133.

2

Nhận thấy những tiện ích Cơ sở dữ liệu đa phương tiện cũng như việc tìm
kiếm âm nhạc trên cơ sở nội dung, em lựa chọn và thực hiện đề tài “Tìm kiếm âm
nhạc trên cơ sở nội dung và ứng dụng tại trường Đại học Văn hóa, Thể thao và Du
lịch Thanh Hóa” nhằm nghiên cứu về cơ sở dữ liệu đa phương tiện, các kỹ thuật
tìm kiếm âm thanh trên cơ sở nội dung và xây dựng ứng dụng.
Cấu trúc luận văn
Ch ơng 1: Tổng quan về Cơ sở dữ liệu âm thanh
- Tình hình nghiên cứu trong và ngoài nước về CSDL đa phương tiện

Footer Page 4 of 133.

Header Page 5 of 133.

3

Ch ơng 1 - TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU ÂM THANH
1.1 Tình hình nghiên cứu trong và ngoài n ớc về Cơ sở dữ liệu đa
ph ơng tiện
1.2 Tổng quan về hệ quản trị CSDL đa ph ơng tiện.
Trung tâm của một hệ thống thông tin đa phương tiện chính là hệ quản trị
CSDL đa phương tiện (MDBMS - Multimedia Database Management System). Một
CSDL MM là một tập các loại dữ liệu Multimedia như văn bản, hình ảnh, video, âm
thanh, các đối tượng đồ hoạ…. Một hệ quản trị CSDL MM cung cấp hỗ trợ cho các
loại dữ liệu MM trong việc tạo lập, lưu trữ, truy cập, truy vấn và kiểm soát.
1.2.1 Mục đích của MDBMS
1.2.2 Các yêu cầu của một MDBMS

1.2.2.1 Khả năng quản trị lưu trữ lớn
Các yêu cầu về khả năng lưu trữ của các hệ thống MM có thể được đặc trưng
bởi khả năng lưu trữ lớn và cách thức tổ chức theo thứ bậc (dạng kim tự tháp) của
hệ thống lưu trữ. Việc lưu trữ theo thứ bậc đặt các đối tượng dữ liệu MM trong một
hệ thống phân bậc bao gồm các thiết bị khác nhau, có thể là trực tuyến (online),
không trực tuyến (offline). Một cách tổng quát, mức cao nhất của hệ thống sẽ cho ta
hiệu suất cao nhất, khả năng lưu trữ nhỏ nhất, chi phí cao nhất và sự cố định ít nhất.
Các lớp cao trong hệ thống phân cấp này có thể sử dụng để lưu trữ các đối tượng
tóm tắt nhỏ hơn của một dữ liệu MM hoàn chỉnh với mục đích cung cấp khả năng
duyệt và xem trước nhanh đối với nội dung của dữ liệu.

1.2.2.5 Hiệu suất.
Hiệu suất là một vấn đề quan trọng cần được xem xét đối với một MDBMS.
Các hệ thống CSDL MM tạo ra hiệu suất dựa trên sự tối ưu hoá việc truy nhập tới
các media, lưu trữ, chỉ số hoá, khai thác và truy vấn . Sự có tham gia của nhiều kiểu
dữ liệu khác nhau trong CSDL MM có thể đòi hỏi một số phương thức đặc biệt để
tối ưu hoá việc truy cập, lưu trữ, chỉ số hoá và khai thác. Các yêu cầu này bao gồm
hiệu quả, tính ổn định, đảm bảo và đồng bộ việc trao đổi dữ liệu, chất lượng của
dịch vụ (QoS – Quality of service).

1.2.3 Các vấn đề của MDBMS
1.2.3.1 Mô hình hoá dữ liệu MM
Có hai cách tiếp cận cơ bản trong việc mô hình hoá dữ liệu MM là:
- Ph ơng pháp thứ nhất: xây dựng một mô hình dữ liệu MM trên nền tảng
của mô hình dữ liệu của một CSDL truyền thống (thường là CSDL quan hệ hoặc

Footer Page 6 of 133.

Header Page 7 of 133.

5

CSDL hướng đối tượng) bằng cách sử dụng các giao diện tương ứng đối với dữ liệu
MM. Các vấn đề nẩy sinh với cách tiếp cận này là các cấu trúc bên dưới (của CSDL
truyền thống) không được thiết kế dành cho dữ liệu MM, hơn nữa sự khác biệt cơ
bản các yêu cầu của một CSDL truyền thống đối với CSDL MM khiến cho giao
diện trở thành nơi nghẽn cổ chai trong toàn bộ hệ thống. Các vấn đề này dẫn tới
cách tiếp cận thứ hai.
- Ph ơng pháp thứ hai: phát triển các mô hình dữ liệu thực thụ dành cho dữ
liệu MM từ đầu chứ không xây dựng trên cơ sở của các CSDL truyền thống, tuy

Cũng như trong các CSDL truyền thống, các dữ liệu MM có thể được khai
thác thông qua các định danh, các thuộc tính, các từ khoá và sự liên kết giữa chúng.
Các từ khoá là phương thức chiếm ưu thế trong việc sử dụng để chỉ số hoá dữ liệu
MM. Con người thường chọn các từ khoá từ một tập các từ vựng nhất định, điều
này tạo ra một số khó khăn khi áp dụng đối với dữ liệu MM vì chúng thường được
làm một cách thủ công và rất tốn thời gian và các kết quả thường là chủ quan và rất
hạn chế phụ thuộc vào từ vựng.
Một phương thức khác được sử dụng dựa trên việc truy cập nội dung, nó
xem xét đến nội dung thực sự của dữ liệu MM hoặc xuất phát từ ngữ cảnh của
thông tin. Trong thời gian gần đây, việc nghiên cứu chỉ số hoá dựa trên nội dung đã
được tiến hành hết sức mạnh mẽ với mục đích là chỉ số hoá dữ liệu MM dựa trên
các đặc trưng xác định thu được trực tiếp từ dữ liệu. Các đặc trưng khác nhau như
mầu sắc, hình dạng, kết cấu bề mặt, các chuỗi đặc trưng và các đặc trưng khác đã
được dùng để chỉ số hoá các ảnh.

1.2.3.5 Hỗ trợ truy vấn Multimedia, khai thác và duyệt qua.
1.2.3.6 Quản trị CSDL MM phân tán
1.2.3.7 Sự hỗ trợ của hệ thống
1.4 Các kỹ thuật chủ yếu tìm kiếm âm thanh trong cơ sở dữ liệu.
1.4.1 Đo tính tương tự
1.4.1.1 Thuật toán LSH (Locality Sensitve Hashing)
Đưa ra một đoạn giai điệu được định nghĩa bởi điểm pi, chúng ta có thể tìm
các đoạn tương tự trong chỉ mục bằng các tìm kiếm các hàng xóm gần nhất (NNs)
của điểm pi. ví dụ tất cả các điểm mà khoảng cách nhỏ hơn một ngưỡng cụ thể r nào
đó. Điều này có thể được làm bởi việc đo khoảng cách đơn giản pi đến tất cả các
vector trong cơ sở dữ liệu.

Footer Page 8 of 133.

d ij  d(x i , y j ) trên cả đường đi của quá trình biến dạng thời gian. Khoảng cách tích

luỹ D ij  D(x1...xi , y1... y j )được xác định theo công thức
0





dDDD





,,min

ijjijiji

I=J=0
I>0, J>0
 

Và khoảng cách tổng D(X,Y)=DTS.

1.4.1.3 Thuật toán HMM (Hidden Markov Model )
Mô hình Markov ẩn được sử dụng trong việc thống kê mô hình tạo âm thanh.
Tính hiệu quả của mô hình được thể hiện trong việc mô tả tín hiệu âm thanh theo
dạng toán học dễ dàng cho việc xử lý tín hiệu. Các trạng thái của HMM có được

1.5.1.2 Nội dung âm thanh trên cơ sở tín hiệu
CSDL âm thanh có thể có thể được chỉ số hóa bằng tín hiệu âm thanh theo
cách sau đây:

Footer Page 10 of 133.

Header Page 11 of 133.

9

Phân đoạn (Segmentation): Chia tín hiệu âm thanh thành các cửa sổ đồng nhất.
Điều này có thể thực hiện bằng hai cách. Một khả năng là người phát triển ứng dụng
có thể xác định kích thước cửa sổ w (đơn vị giây hay ms) và giả sử rằng các đặc tính
sóng trong cửa sổ này có được bằng lấy trung bình. Khả năng thứ hai là người sử
dụng có thể phân đoạn tín hiệu âm thanh tương tự phân đoạn ảnh nhờ thuộc tính
tính đồng nhất H.
Tách đặc trưng (Feature extraction): Một khi đã thực hiện phân ảnh tín hiệu
âm thanh được xem như trình tự của n cửa sổ w1,...,wn. Với từng cửa sổ, chúng ta
tách vài đặc trưng kết hợp với tín hiệu âm thanh. Nếu k đặc trưng được tách, thì tín
hiệu âm thanh được xem như trình tự của n điểm trong không gian k-chiều. Chúng
ta có thể chỉ số hóa trình tự của n điểm này. Một vài đặc trưng quen thuộc nhất và
sử dụng rộng rãi để chỉ số hoá bao gồm:
- Cường độ (Intensity): Cường độ của sóng được hiểu như năng lượng của tín
hiệu do sóng phát sinh. Không đi chi tiết kỹ thuật để tính giá trị này, chúng ta xác
định cường độ của tín hiệu âm thanh là:

I=2 x 2 x f2 x  x a2 x v

biểu diễn một tín hiệu tương đối trơn tru.

1.5.3 Chỉ số hóa dữ liệu âm thanh
Chỉ số hoá dữ liệu âm thanh trên cơ sở tín hiệu có thể được thực hiện theo
cách không phức tạp lắm. Giả sử chúng ta có tập 1,...,K của tín hiệu trong kho âm
thanh. Gọi N là số nguyên xác định tổng số cửa sổ mà người phát triển ứng dụng
muốn gán cho mỗi tín hiệu âm thanh i. Khi chọn N, có nghĩa rằng chúng ta muốn
lưu trữ tập véctơ N chiều. Tuy nhiên, khi quan sát véctơ, ta thấy khó xác định nó
được suy diễn từ tín hiệu âm thanh nào. Do vậy, ta giả sử rằng mỗi véctơ có độ dài
(N+1). Trường phụ ở cuối chứa chỉ số i của tín hiệu i mà véctơ suy diễn từ nó. Bây
giờ ta có thể phát triển CSDL âm thanh bằng các bước như sau đây, sử dụng quan
niệm cây TV để chỉ số hoá dữ liệu nhiều chiều.
Thuật toán CreateAudioIndex(K, N)
Index = NIL; (*Ban đầu chỉ số có giá trị rỗng*)
for i=1 to K do
{
i

for j=0 to (N-1) do A [j]=DFT(i);
Ai[N]=i;
(*Chèn véctơ Ai[j] vào cây TV*)
Index = Insert(Ai[j].Index)
}

Footer Page 12 of 133.

Header Page 13 of 133.

11

Header Page 14 of 133.

12

Ch ơng 2 - KỸ THUẬT TÌM KIẾM CƠ SỞ DỮ LIỆU ÂM
NHẠC
2.1 Đặc tr ng chính của âm thanh
2.1.1 Đặc trưng trong miền thời gian.
Biểu diễn trong miền thời gian hay thời gian - biên độ là kỹ thuật trình diễn tín
hiệu cơ bản nhất, trong đó tín hiệu được biểu diễn như biên độ biến đổi theo thời
gian. Giá trị tín hiệu có thể âm hay dương phụ thuộc vào áp suất âm thanh cao hơn
hay thấp hơn áp suất cân bằng khi im lặng. Giả sử rằng sử dụng 16 bít để mã hóa
mẫu audio, thì ta có giá trị tín hiệu sẽ trong khoảng từ 32767 đến -32767.
Từ cách biểu diễn trên đây ta dễ dàng có được năng lượng trung bình, tốc độ
vượt qua 0 (zero crossing rate) và tỷ lệ câm (silence ratio).

2.1.1.1 Năng lượng trung bình
Năng lượng trung bình chỉ ra âm lượng (loudness) của tín hiệu audio. Có
nhiều cách để tính nó. Một cách tính đơn giản như sau:
N 1

 x(n)
E

2

N 0

N

tỷ lệ giữa tổng chu kỳ câm và tổng độ dài của đoạn âm thanh.

2.1.2 Đặc trưng trong miền tần số.
2.1.2.1 Phổ âm thanh
Biểu diễn miền thời gian không chỉ ra được các thành phần tần số và phân bổ
tần số của tín hiệu âm thanh. Biểu diễn miền tần số suy diễn từ biểu diễn miền
không gian bằng biến đổi Fourier. Biến đổi Fourier được xem như tách tín hiệu
thành các thành phần tần số. Trong miền tấn số, tín hiệu được biểu diễn bởi biên độ
biến đổi theo tần số, chỉ ra tổng năng lượng tại các tần số khác nhau. Biểu diễn miền
tần số của tín hiệu được gọi là phổ của tín hiệu.
Vì quan tâm đến tín hiệu số cho nên ta sử dụng DFT để suy diễn ra phổ tín
hiệu. Công thức tính DFT như sau:
N 1

 jn

X (k)   x(n)e

k



n0

trong đó, k  2k , x(n) là tín hiệu rời rạc với N mẫu, k là DFT bin.
N

Nếu tần số lấy mẫu tín hiệu là fs Hz thì tần số fk của bin k sẽ là:
fk  fs

lệch tần số giữa tần số cao nhất với tần số thấp nhất của các thành phần phổ khác
không. Trong một số trường hợp, “nonzero” được xác định khoảng 3 dB trên mức
câm.

2.1.2.3 Phân bổ năng lượng
Từ phổ tín hiệu, chúng ta dễ dàng nhận thấy phân bổ tín hiệu theo các thành
phần tần số. Việc tính toán năng lượng dải tần số cao và tần số thấp là cần thiết.
Thực sự, khái niệm “low”, “high” phụ thuộc vào ứng dụng. Thí dụ tần số tín hiệu
tiếng nói ít khi vượt qua 7 kHz. Do vậy, ta có thể chia toàn bộ phổ dọc theo đường
ngang 7 kHz: nửa dưới thuộc tần số thấp và nửa trên thuộc tần số cao. Tổng năng
lượng cho mỗi băng được tính bằng tổng năng lượng mỗi mẫu trong băng.
Một đặc trưng quan trọng suy diễn từ phân bổ năng lượng là trọng tâm phổ
(centroid). Nó là điểm giữa của phân bổ năng lượng phổ tín hiệu. Tiếng nói có trọng
tâm thấp so với âm nhạc. Trọng tâm còn được gọi là độ chói (brightness).

2.1.2.4 Điều hòa
Đặc trưng thứ hai trong miền tần số của âm thanh là điều hòa. Trong âm
thanh điều hòa, các thành phần phổ là số lần nguyên của tần số thấp nhất và tần số
thường xuyên cao nhất. Tần số thấp nhất được gọi là tần số cơ bản. Âm nhạc

Footer Page 16 of 133.

Header Page 17 of 133.

15

thường điều hòa hơn âm thanh khác. Để xác định được âm thanh có điều hòa hay
không hãy kiểm tra xem tần số của các thành phần trội là số lần tần số cơ bản hay
không. Thí dụ, phổ âm thanh nốt G4 của tiếng sáo có dãy tần số cao độ (pitch) như

Header Page 18 of 133.

16

Hệ số ceptral được sử dụng trong MMDBMS (tìm kiếm âm thanh) và trong
nhận dạng tiếng nói.
Mel là đơn vị độ cao âm thanh (pitch). Một cặp âm thanh cảm nhận có độ
cao như nhau nếu giá trị mel của chúng như nhau.
Mel-scale: Xấp xỉ tuyến tính dưới 1 kHz, và loga trên 1 kHz.

2.2 Phân lớp âm thanh
2.2.1 Đặc điểm chính của các lớp âm thanh
Mọi phương pháp phân lớp âm thanh trên cơ sở tính toán các giá trị đặc
trưng. Chúng khác nhau ở chỗ các đặc trưng được sử dụng như thế nào. Nhóm thứ
nhất: mỗi đặc trưng được sử dụng riêng rẽ trong các bước phân lớp. Nhóm thứ hai:
tập các đặc trưng được sử dụng chung như véctơ để tính toán mức độ “gần gũi” của
đầu vào đến các tập huấn luyện.

2.2.2 Phân lớp âm thanh
2.2.2.1 Phân lớp âm thanh theo từng bước
Trong phân lớp âm thanh theo từng bước, ta sử dụng riêng biệt mỗi đặc trưng
audio để xác định âm thanh đó là âm nhạc hay tiếng nói.
Mỗi đặc trưng được xem như tiêu chí lọc hay trích chọn. Tại mỗi bước lọc,
đoạn âm thanh được xác định là kiểu này hay kiểu khác. Trước hết tính trọng tâm
của của các đoạn âm thanh. Nếu trọng tâm cao hơn ngưỡng cho trước thì nó có thể
là âm nhạc. Nếu không đoạn âm thanh có thể là tiếng nói hay âm nhạc (vì không
phải mọi âm nhạc đều có trọng tâm cao).
Tiếp theo tính tỷ lệ câm. Nếu đoạn âm thanh có tỷ lệ câm thấp thì chúng có
thể là âm nhạc. Nếu không, nó là tiếng nói hay nhạc solo.

rộng rãi vào nhận dạng mẫu. Một ANN là hệ thống xử lý thông tin mô phỏng tiến
trình nhận thức của bộ não người. ANN bao gồm nhiều neuron nối với nhau bằng
các liên kết có trọng số. Nhận dạng tiếng nói với ANN bao gồm hai giai đoạn: huấn
luyện và nhận dạng. Trong giai đoạn huấn luyện, các véctơ đặc trưng của dữ liệu
tiếng nói huấn luyện được sử dụng để huấn luyện ANN. Trong giai đoạn nhận dạng,
ANN sẽ nhận ra âm vị có khă năng nhất trên cơ sở véctơ đặc trưng đầu vào.

2.2.3 Chỉ số hóa và truy tìm âm thanh
Sau khi phân lớp âm thanh thành âm nhạc và tiếng nói, ta có thể áp dụng các
kỹ thuật riêng cho từng lớp. Tiệm cận cơ bản của chỉ số hóa và truy tìm tiếng nói là

Footer Page 19 of 133.

Header Page 20 of 133.

18

áp dụng các kỹ thuật nhận dạng tiếng nói để chuyển đổi tín hiệu tiếng nói thành văn
bản và sau đó áp dụng các kỹ thuật IR để chỉ số hóa và tìm kiếm.

2.3 Chỉ số hóa và truy tìm âm nhạc.
2.3.1 Chỉ mục và truy tìm âm nhạc cấu trúc và các hiệu ứng âm thanh
Âm nhạc cấu trúc và hiệu ứng âm thanh rất phù hợp truy vấn đòi hỏi đối sánh
chính xác giữa câu truy vấn và các tệp âm thanh trong CSDL. Người sử dụng có thể
chỉ ra trình tự các nốt làm câu truy vấn và nó tương đối dễ tìm ra các tệp âm thanh
cấu trúc chứa trình tự các nốt nhạc này. Mặc dù tìm ra trình tự các nốt phù hợp hoàn
toàn, nhưng âm thanh sinh ra từ tệp có thể chưa phải là cái mà người sử dụng mong
đợi bởi vì cùng các tệp âm thanh ấu trúc có thể phát ra các âm khác nhau trên các
thiết bị khác nhau.

- Audio: {d1, ..., dm}  Rn
- Ma trận Term X Giai điệu: A
- Tij – độ đo mức độ quan trọng

(trọng số) của khái niệm i trong giai

điệu j. Có thể là nhị nguyên, tf.idf hay loại khác.
Giai điệu Dj và truy vấn Qj được biểu diễn như các véctơ n-chiều của các trọng
số.
Di  Ti1,Ti2 ,...,Tik ,...,TiN 



Q j  Q j1, Q j2 ,...,Qjk ,...,QjN



Mô hình không gian véctơ đánh giá mức độ tương tự Giai điệu Di với câu
truy vấn Qj như tính tương quan giữa hai véctơ.
N

S(Di , Q j )   Tik.Q jk
k1

Chuẩn hóa kích thước Di và Qj: Mức độ tương tự xác định bởi cosine góc
giữa hai véctơ.
N

Di.Qj
S(Di , Qj )  cos 

biểu diễn bởi trọng tâm của các véctơ đặc trưng trong cụm. Trong khi truy vấn, ta
tính toán độ tương tự giữa câu truy vấn và từng cụm Cụm nào có mức độ tương tự
lớn hơn ngưỡng cho trước là được chọn. Tiếp theo đối sánh véctơ câu truy vấn với
từng véctơ đặc trưng trong cụm và k đối tượng gần nhất là kết quả.

Footer Page 21 of 133.

Header Page 22 of 133.

20

* Thuật toán phân cụm
Phương pháp cây phân cấp
- Input: O – Danh sách các đối tượng trong CSDL
- Out: T – Cây phân cấp
Gán mỗi giai điệu của O vào cụm riêng, tạo lập danh sách các cụm L (khởi
đầu giá trị lá của T):

L = O1, O2, O3, ..., On-1, On.

Tính toán véctơ đại diện của từng cặp phần tử trong L để tìm ra hai cụm gần
nhất {Oi, Oj}.
Hủy bỏ Oi và Oj khỏi L.
Trộn Oi và Oj để hình thành nút mới Oij trong T, nó là cha của Oi và Oj
trong cây kết quả.
Lặp lại bước (2) cho đến khi chỉ còn một tập.

2.4.3 Lọc trên cơ sở bất đẳng thức tam giác
Hầu hết các độ đo khoảng cách đặc trưng là độ đo metric và thỏa mãn tính

3.2.1. Đặc trưng MFCC
3.2.2 Phương pháp phân tích MFCC
3.2.2.1 Quá trình lọc theo thang Mel Cepstral
3.2.2.2 Lấy mẫu
3.2.2.3 Phân khung tín hiệu
3.2.2.4 Lấy cửa sổ tín hiệu
3.2.2.5 Biến đổi Fourier nhanh
3.2.2.6 Chuyển đổi sang thang tần số Mel
3.2.2.7 Biến đổi Cosin rời rạc
3.3.3. Kỹ thuật phân cụm K-means
Thuật toán Kmean thực hiện theo các bước sau:
Bước 1: Đặt K điểm vào vùng phân cụm các đối tượng. Các điểm này mô tả
nhóm trung tâm đầu tiên.
Bước 2: Gán mỗi đối tượng vào một nhóm có điểm trung tâm gần nhất.

Footer Page 23 of 133.

Header Page 24 of 133.

22

Bước 3: Khi tất cả các đối tượng đã được đưa vào các nhóm, tính toán lại vị trí
của K điểm trung tâm.
Bước 4: Thực hiện lặp lại bước 2 và 3 cho tới khi bỏ đi được các điểm trung
tâm ở xa. Điều này giúp phân cách các đối tượng thành các nhóm có kích thước nhỏ
nhất có thể.
Thủ tục lặp sẽ luôn kết thúc khi điểm trung tâm không thay đổi. Tuy nhiên,
cần lưu ý rằng các thuật toán không nhất thiết phải đưa ra những kết quả tối ưu.

đa phương tiện nói chung và cơ sở dữ liệu âm thanh nói riêng.
- Tìm hiểu các đặc trưng của âm thanh, âm nhạc và tiếng nói.
- Nghiên cứu, khảo sát một số giải pháp và kỹ thuật phân loại, phân lớp âm
thanh. Nghiên cứu các đặc trưng cơ bản phục vụ việc trích chọn đặt trưng và truy tìm
âm nhạc trên cơ sở nội dung.
- Tìm hiểu một phương pháp trích chọn đặc trưng sử dụng MFCC.
- Tìm hiểu một số kỹ thuật phân cụm dữ liệu K-means và DTW
- Đề xuất một mô hình cho hệ thống tìm kiếm âm nhạc trên cơ sở nội dung.
Cài đặt được phần mềm thử nghiệm trên nền Matlab. Hệ thống tìm kiếm âm nhạc
dựa trên đặc trưng MFCC, sử dụng kỹ thuật phân cụm k-means, độ đo khoảng cách
Ơclit.
Tuy nhiên Luận văn vẫn còn một số hạn chế cần phát triển thêm :
- Bộ dữ liệu thử nghiệm quá nhỏ.
- Chưa nghiên cứu và cài đặt các kỹ thuật chỉ mục cho cơ sở dữ liệu.
- Chưa khảo sát đánh giá được tính hiệu quả về mặt thời gian tìm kiếm cũng
như sự ảnh hưởng của các tham số như độ dài tệp nhận dạng, số lượng mẫu cần huấn
luyện, số hệ số MFCC và số băng lọc sử dụng…

Footer Page 25 of 133.

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

luận văn Thạc sĩ Tìm kiếm âm nhạc trên cơ sở nội dung và ứng dụng tại trường đại học văn hóa, thể thao và du lịch thanh hóa - Pdf 42

Tài liệu, ebook tham khảo khác

Học thêm