HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
TÀO NGỌC BIÊN ĐỀ TÀI:
TÌM KIẾM ÂM NHẠC TRÊN CƠ SỞ NỘI DUNG VÀ ỨNG DỤNG
TẠI TRƯỜNG ĐẠI HỌC VĂN HÓA, THỂ THAO VÀ DU LỊ
CH
THANH HÓA CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH
MÃ SỐ: 60.48.01
TÓM TẮT LUẬN VĂN THẠC SĨ
HÀ NỘI - 2012
Luận văn được hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Người hướng dẫn khoa học: PGS. TS ĐẶNG VĂN ĐỨC
MỞ
ĐẦU
Cùng
với
sự
phát
triển
của
Công
nghệ
thông
tin
thì
khối
lượng
kiếm
đơn
giản
nên
hiệu quả còn chưa cao. Vì vậy mục tiêu của luận văn này nhằm tìm hiểu một số kỹ
thuật nâng cao tìm kiếm thông tin, cụ thể ở đây là tìm kiếm âm nhạc theo nội dung
trong
cơ
sở
dữ
liệu
đa
phương
tiện
nhằm
đáp
ứng
các
kiểu
âm thanh.
Cho
trước
một
đoạn
âm
thanh, ta có thể nói loại âm thanh đó (tiếng nói, âm nhạc hay nhiễu), tốc độ (nhanh
hay chậm), tâm trạng (vui, buồn ) và xác định được tính tương đồng với đoạn âm
thanh khác. Tuy nhiên, máy tính coi đoạn âm thanh như dãy giá trị mẫu. Cho đến
hiện tại, phương pháp chung nhất để xâm nhập âm thanh dựa trên cơ sở tiêu đề và
tên tệp. Do tên tệp và mô tả văn bản là không đầy đủ và chủ quan cho nên việc tìm
ra đoạn âm thanh thõa mãn người sử dụng là rất khó khăn. Thêm nữa, kỹ thuật truy
tìm
này
không
hỗ
trợ
vậy, truy tìm âm thanh trên cơ sở nội dung được thực hiện trên cơ sở tập các đặc
tính âm thanh được trích chọn như cường độ trung bình hay phân bổ tần số.
2
Nhận thấy những tiện
ích Cơ sở dữ liệu đa phương tiện cũng như
việc tìm
kiếm âm nhạc trên cơ sở nội dung, em lựa chọn và thực hiện đề tài “Tìm kiếm âm
nhạc trên cơ sở nội dung và ứng dụng tại trường Đại học Văn hóa, Thể thao và Du
lịch Thanh Hóa”
nhằm nghiên cứu về cơ sở dữ liệu đa phương tiện, các kỹ thuật
tìm kiếm âm thanh trên cơ sở nội dung và xây dựng ứng dụng.
Cấu
trúc
luận
văn
Chơng
1:
Chơng
2:
Kỹ
thuật
tìm
kiếm
cơ
sở
dữ
liệu
âm
nhạc
- Đặc trưng chính của âm thanh
- Phân lớp âm thanh
- Chỉ số hóa và truy tìm âm nhạc
- Kỹ thuật đối sánh trong cơ sở dữ liệu âm thanh
Chơng
Thể
thao
và
Du
lịch
Thanh
Hóa
- Nhu cầu tìm kiếm âm nhạc theo nội dung phục vụ giảng dạy
- Trình bày các thuật toán tìm kiếm âm thanh theo nội dung.
- Phân tích, thiết kế, xây dựng và cài đặt thử nghiệm
Kết
luận
và
hớng
phát
triển
3
Tình
hình
nghiên
cứu
trong
và
ngoài
nớc
về
Cơ
sở
dữ
liệu
đa
phơng
thanh, các đối tượng đồ hoạ…. Một hệ quản trị CSDL MM cung cấp hỗ trợ cho các
loại dữ liệu MM trong việc tạo lập, lưu trữ, truy cập, truy vấn và kiểm soát.
1.2.1
Mục
đích
của
MDBMS1.2.2
Các
yêu
cầu
của
một
MDBMS1.2.2.1 Khả năng quản trị lưu trữ lớn
trực
tuyến
(online),
không trực tuyến (offline). Một cách tổng quát, mức cao nhất của hệ thống sẽ cho ta
hiệu suất cao nhất, khả năng lưu trữ nhỏ nhất, chi phí cao nhất và sự cố định ít nhất.
Các lớp cao trong hệ thống phân cấp này có thể sử dụng để lưu trữ các đối tượng
tóm tắt nhỏ hơn của một dữ liệu MM hoàn chỉnh với mục đích cung cấp khả năng
duyệt và xem trước nhanh đối với nội dung của dữ liệu.
1.2.2.2 Hỗ trợ truy vấn và khai thác dữ liệu.
Truy vấn
đối
với
dữ
liệu
MM
bao
gồm các
thể
có
các
cách
suy nghĩ
khác
nhau về dữ liệu MM vì vậy kết quả thu được từ việc truy vấn dữ liệu MM
có thể
không hoàn toàn chính xác và có thể chỉ là các kết quả tương tự hoặc là một phần
của kết quả hơn là các kết quả chuẩn xác.
4
1.2.2.3 Tích hợp các phương tiện, tổng hợp và thể hiện
Giả sử tính đa dạng của các kiểu dữ liệu đã được hỗ trợ, một MDBMS cũng
phải cung cấp khả năng để tích hợp các loại dữ liệu này để tạo nên các kiểu dữ liệu
MM mới và thể hiện các dữ liệu này khi có yêu cầu trong một khung thời gian yêu
cầu. Độ phức tạp của việc tích hợp, tổng hợp và thể hiện bị tăng thêm bởi các đặc
tính cơ bản của dữ liệu MM như tính liên tục (tạm thời) của dữ liệu MM đặc biệt là
với các kiểu dữ liệu như video, hoạt hình hoặc âm thanh.
chất lượng
của
dịch vụ (QoS – Quality of service).
1.2.3
Các
vấn
đề
của
MDBMS1.2.3.1 Mô hình hoá dữ liệu MM
Có hai cách tiếp cận cơ bản trong việc mô hình hoá dữ liệu MM là:
-
Phơng
pháp
thứ
nhất
: xây dựng một mô hình dữ liệu MM trên nền tảng
với
CSDL
MM
khiến
cho
giao
diện
trở
thành
nơi
nghẽn
cổ
chai
trong
toàn
từ
đầu
chứ
không
xây dựng
trên
cơ
sở
của
các
CSDL
truyền
thống,
tuy
nhiên
mọi
1.2.3.2 Lưu trữ đối tượng MM
Lưu
trữ
vật
lý
các
dữ
liệu
Multimedia
đòi
hỏi
các
phương
thức
để
chuyển
các
hệ
thống
Multimedia
thông
thường
sử
dụng
phương
thức
phân
cấp
đối
với
các
thiết
tục
của
một
số
kiểu
dữ
liệu
MM
mà
chúng đòi hỏi thể hiện một số lượng nhất định dữ liệu trong một khoảng thời gian
nhất định mà kết quả đem lai cho người dùng vẫn phải đảm bảo được đặc trưng của
các kiểu dữ liệu đó. Khi mà dữ liệu MM được bố trí phân tán và truyền đi trên mạng
thì các vấn đề về thể hiện càng trở nên cấp thiết hơn, chúng ta đã bắt gặp điều này
trong trường hợp băng thông hạn chế.
6
1.2.3.4 Chỉ số hoá Multimedia
Cũng như trong các CSDL truyền thống, các dữ liệu
việc
truy
cập
nội
dung,
nó
xem
xét
đến
nội
dung
thực
sự
của
dữ
1.4
Các
kỹ
thuật
chủ
yếu
tìm
kiếm
âm
thanh
trong
cơ
sở
dữ
liệu.
min
7
Để thu được
một thời gian tuyến tính dưới một cách phức tạp, chúng ta sử
dụng vị trí của hàm băm miền nhạy cảm LSH là một thuật toán ngẫu nhiên cho việc
tìm kiếm khoảng cách hàng xóm gần nhất trong không gian nhiều chiều. Thuật toán
LSH là thuật toán tìm kiếm K hàng xóm gần nhất hoặc tìm kiếm xấp xỉ K hàng xóm
gần nhất.
1.4.1.2 Thuật toán DTW(Dynamic Time Warping)
Cho
chuỗi
âm
tiết
có
chuỗi
vector
đặc
tính
X
x
1
,
x
2
,
x
T
,
gì và
trong quá trình xử lý
cần phải
giảm thiểu tối
đa các
sai số
quyết
định.
Mỗi
tín
hiệu
âm
tiết
đầu
vào
W
đặc
tính
của
tín
hiệu
âm
tiết
W
l
.
Nhằm
tăng
khả
năng
nhận
,
M
l
.
Quá
trình
quyết
định âm tiết phù hợp với một mẫu dựa theo nguyên tắc sau:
l
*
argminmin
D
(
X
,
Y
l
với
mẫu
Y
l
tìm
được.Khoảng
cách
D(X,Y)
giữa
dữ
liệu
đầu
vào
và
dữ
xác
định
bằng
tổng
các
khoảng
cách
cục
bộ
d
ij
d
(
x
i
,
cách
tíchluỹ
D
ij
D
(
x
1
x
i
,
y
1y
j
cách
tổng
D(X,Y)=D
TS
.1.4.1.3 Thuật toán HMM (Hidden Markov Model )
Mô hình Markov ẩn được sử dụng trong việc thống kê mô hình tạo âm thanh.
Tính hiệu quả của mô hình được thể hiện trong việc mô tả tín hiệu âm thanh theo
dạng toán học dễ dàng
cho việc xử lý tín
hiệu. Các trạng thái của HMM có được
8
trước khi thực hiện việc xử lý các trạng thái. Như thế đầu vào của HMM chính là
chuỗi các thông số vector rời rạc theo thời gian. Mô hình Markov ẩn là một tập các
trạng
thái
hữu
1.4.2
Các
kiểu
truy
vấn1.4.2.1 Truy vấn trên cơ sở meta-data
1.4.2.2 Truy vấn trên cơ sở mô tả
1.4.2.3 Truy vấn trên cơ sở mẫu
hay đặc trưng
1.4.2.4 Truy vấn theo thí dụ
1.4.2.5 Truy vấn ứng dụng cụ thể
1.5
Các
nguyên
lý
của
dữ
liệu
âm
thanh1.5.1.1 Biểu diễn nội dung âm thanh bằng metadata
Tổng
quát
thì
metadata
được
sử
dụng
để
biểu
số
hoá
trên cơ sở
metadata.
1.5.1.2 Nội dung âm thanh trên cơ sở tín hiệu
CSDL âm thanh có thể có thể được chỉ số hóa bằng tín hiệu âm thanh theo
cách sau đây:
log
10
x
9
Phân đoạn (Segmentation): Chia tín hiệu âm thanh thành các cửa sổ đồng nhất.
Điều này có thể thực hiện bằng hai cách. Một khả năng là người phát triển ứng dụng
có thể xác định kích thước cửa sổ w (đơn vị giây hay ms) và giả sử rằng các đặc tính
sóng trong cửa sổ này có được bằng lấy trung bình. Khả năng thứ hai là người sử
tính
tính đồng nhất H.
Tách đặc trưng (Feature extraction): Một khi đã thực hiện phân ảnh tín hiệu
âm
thanh
được
xem
như
trình
tự
của
n
cửa
sổ
w
1
, ,w
n
liệu truyền dẫn
sóng (tính bằng kg/m
3
), a là biên độ của sóng (tính bằng m), v là vận tốc của sóng
(tính bằng m/s). Cường độ được tính bằng watt/m
2
.
I
L
0
-
Âm
lượng
(Loudness):
sử
rằng
gọi
L
0
là
âm
lượng
kết
hợp
với
tần
số
thấp
mà
tai
- Độ cao (Pitch): Độ cao p(f, a) của tín hiệu âm thanh được tính từ tần số f và
biên độ a của tín hiệu.
10
- Độ trong (Brightness): Độ trong của tín hiểutong cửa sổ w là thước đo độ
“sạch” của âm thanh. Thí dụ, âm thanh ngẹt ít trong hơn âm thanh của kính vỡ.
1.5.2
Thu
thập
nội
dung
âm
thanh
thông
qua
không
phức
tạp
lắm.
Giả
sử
chúng
ta
có
tập
1
, ,
K
của
tín
hiệu
chọn
N,
có
nghĩa
rằng
chúng
ta
muốn
lưu trữ tập véctơ
N chiều. Tuy nhiên, khi quan sát véctơ, ta thấy khó xác
định nó
được suy diễn từ tín hiệu âm thanh nào. Do vậy, ta giả sử rằng mỗi véctơ có độ dài
(N+1).
Trường
phụ
ở
Bây
giờ ta có thể phát triển CSDL âm thanh bằng các bước như sau đây, sử dụng quan
niệm cây TV để chỉ số hoá dữ liệu nhiều chiều.
Thuật
toán
CreateAudioIndex(K, N)
Index = NIL; (*Ban đầu chỉ số có giá trị rỗng*)
for i=1 to K do
{
for
j=0
to
(N-1)
do
A
i
[j]=DFT(
tìm
kiếm
dữ
liệu
Đa
phơng
tiệnQueries
Query
features
Information
Items
Processing and
feature extraction
Preprocessing
liệu
đa
phơng
tiện1.7
Các
giai
đoạn
phát
triển
MMDBMS
x(n)
n 1
Chơng
2
-
KỸ
THUẬT
TÌM
KIẾM
CƠ
SỞ
DỮ
LIỆU
ÂM
NHẠC2.1
Đặc
mẫu audio, thì ta có giá trị tín hiệu sẽ trong khoảng từ 32767 đến -32767.
Từ cách biểu diễn trên đây ta dễ dàng có được năng lượng trung bình, tốc độ
vượt qua 0 (zero crossing rate) và tỷ lệ câm (silence ratio).
2.1.1.1 Năng lượng trung bình
Năng lượng trung bình chỉ ra âm lượng (loudness) của tín hiệu audio. Có
nhiều cách để tính nó. Một cách tính đơn giản như sau: E
N 1
N 0
N
2
trong đó, E là năng lượng trung bình của đoạn audio, N là tổng số mẫu trong đoạn
audio, x(n) là giá trị của mẫu n.
2.1.1.2 Tốc độ vượt qua 0
Tốc độ vượt qua 0 chỉ ra tần số thay đổi của dấu biên độ tín hiệu. Nói cách
khác nó chỉ ra tần số trung bình của tín hiệu. Tốc độ vượt qua 0 được tính như sau:
Hình
2.1.
x
(
n
)
e
jn
k
X
(
k
)
e
13
2.1.1.3 Tỷ lệ câm
hiệu
âm
thanh.
Biểu
diễn
miền
tần
số
suy
diễn
từ
biểu
diễn
miền
không
gian
Vì quan tâm đến tín hiệu số cho nên ta sử dụng DFT để suy diễn ra phổ tín
hiệu. Công thức tính DFT như sau:
N
1n
0trong
đó,
k
2k
N
, x(n) là tín hiệu rời rạc với N mẫu, k là DFT bin.
Nếu
tần
sẽ
là:
f
k
f
s
k
2
f
s
k
Như nói trên, DFT làm việc với tín hiệu rời rạc có giới hạn độ dài (N). Thực
tế, rất nhiều tín hiệu trong khoảng thời gian dài. Rất khó tính toán DFT với
N rất
lớn.
Để
giải
quyết
vấn
đề
này,
người
ta
sử
dụng
thành
các
khối
gọi
là
frame và DFT áp dụng cho từng frame. Frame được hình thành bằng cách nhân tín
hiệu gốc với hàm cửa sổ. Thông thường độ dài frame khoảng 10 đến 20 ms được sử
dụng vào phân tích không gian.
2.1.2.2 Băng thông
Băng
thông
chỉ
ra
dải
tần
số
của
tính
toán
năng
lượng
dải
tần
số
cao
và
tần
số
thấp
là
cần
thiết.
thanh
là
điều
hòa.
Trong
âm
thanh điều hòa, các thành phần phổ là số lần nguyên của tần số thấp nhất và tần số
thường
xuyên
cao
nhất.
Tần
số
thấp
nhất
được
nó
quan
hệ
nhưng
không
tương
đương
với
tần
số
cơ
bản.
Tuy nhiên,
trong
thực tế chúng ta sử dụng các tần số cơ bản để xấp xỉ cao độ.
hệ
giữa
ba
biến:
nội
dung
tần
số,
thời
gian
và
cường độ. Trong ảnh phổ, nội dung tần số được biểu diễn theo các trục tung, thời
gian theo trục hoành. Cường độ (intensity, power) của các thành phần tần số khác
nhau của tín hiệu được chỉ ra bằng độ xám, cường độ lớn hơn biểu diễn bởi mức độ
xám cao hơn.
2.1.4
Đặc
cặp âm thanh cảm nhận có độ
cao như nhau nếu giá trị mel của chúng như nhau.
Mel-scale: Xấp xỉ tuyến tính dưới 1 kHz, và loga trên 1 kHz.
2.2
Phân
lớp
âm
thanh2.2.1
Đặc
điểm
chính
của
các
lớp
giá
trị
đặc
trưng. Chúng khác nhau ở chỗ các đặc trưng được sử dụng như thế nào. Nhóm thứ
nhất: mỗi đặc trưng được sử dụng riêng rẽ trong các bước phân lớp. Nhóm thứ hai:
tập các đặc trưng được sử dụng chung như véctơ để tính toán mức độ “gần gũi” của
đầu vào đến các tập huấn luyện.
2.2.2
Phân
lớp
âm
thanh2.2.2.1 Phân lớp âm thanh theo từng bước
Trong phân lớp âm thanh theo từng bước, ta sử dụng riêng biệt mỗi đặc trưng
audio để xác định âm thanh đó là âm nhạc hay tiếng nói.
Mỗi đặc trưng được xem như tiêu chí lọc hay trích chọn. Tại mỗi bước lọc,
đoạn âm thanh được xác định là kiểu này hay kiểu khác. Trước hết tính trọng tâm
của của các đoạn âm thanh. Nếu trọng tâm cao hơn ngưỡng cho trước thì nó có thể
là âm nhạc. Nếu không đoạn âm thanh có thể là tiếng nói hay âm nhạc (vì không
phải mọi âm nhạc đều có trọng tâm cao).
để
phân
lớp.
Trình
tự
thông
thường
được
quyết định bởi độ phức tạp tính toán và khả năng phân biệt (differentiating power)
của các đặc trưng khác nhau. Đặc trưng ít phức tạp, có khả năng phân
biệt cao sẽ
được sử dụng trước. Điều này làm giảm tổng số bước thực hiện lọc trên đoạn âm
nhạc, dẫn tới làm giảm đáng kể tính toán đòi hỏi.
2.2.2.2 Phân lớp âm thanh theo vectơ đặc trưng
Trong phân lớp âm thanh trên cơ sở véctơ đặc trưng, các giá trị của tập đặc
trưng được tính toán và sử dụng như véctơ đặc trưng. Trong giai đoạn huấn luyện,
véctơ đặc trưng trung bình
được tìm ra cho mỗi lớp âm thanh. Trong quá trình phân
lớp, véctơ đặc trưng của đoạn âm thanh vào được tính và những khoảng cách giữa
véctơ đặc trưng vào và từng véctơ tham chiếu được tính toán. Âm thanh vào được
dụng
rộng rãi vào nhận dạng mẫu. Một ANN là hệ thống xử lý thông tin mô phỏng tiến
trình nhận thức của bộ não người. ANN bao gồm nhiều neuron nối với nhau bằng
các liên kết có trọng số. Nhận dạng tiếng nói với ANN bao gồm hai giai đoạn: huấn
luyện và nhận dạng. Trong giai đoạn huấn luyện, các véctơ đặc trưng của dữ liệu
tiếng nói huấn luyện được sử dụng để huấn luyện ANN. Trong giai đoạn nhận dạng,
ANN sẽ nhận ra âm vị có khă năng nhất trên cơ sở véctơ đặc trưng đầu vào.
2.2.3
Chỉ
số
hóa
và
truy
tìm
âm
thanh
Sau khi phân lớp âm thanh thành âm nhạc và tiếng nói, ta có thể áp dụng các
kỹ thuật riêng cho từng lớp. Tiệm cận cơ bản của chỉ số hóa và truy tìm tiếng nói là
18
và
truy
tìm
âm
nhạc
cấu
trúc
và
các
hiệu
ứng
âm
thanhÂm nhạc cấu trúc và hiệu ứng âm thanh rất phù hợp truy vấn đòi hỏi đối sánh
chính xác giữa câu truy vấn và các tệp âm thanh trong CSDL. Người sử dụng có thể
chỉ ra trình tự các nốt làm câu truy vấn và nó tương đối dễ tìm ra các tệp âm thanh
2.3.2.1 Truy tìm âm nhạc trên cơ sở tập các đặc trưng
Trong tiệm cận truy tìm âm nhạc này, tập các đặc trưng âm học được trích
chọn
cho
mỗi
âm
thanh.
Tập
N
đặc
trưng
này
được
biểu
diễn
bởi
gọi
chung
là
tracking
độ
cao.
Tracking là dạng đơn giản của việc tự động chuyển đổi âm nhạc thành biểu diễn ký
tự. Ý tưởng chính của tiệm cận này khá đơn giản. Mỗi nốt nhạc
được biểu diễn bởi
độ
cao
của
nó.
Vậy,
một
đoạn
)
T
ik
.
Q
jk
T
T
ik
2
.
Q
19
hình
véctơ
đa
chiều
Vector Space Model
- Terms: {t1, , tm} Rn
- Audio: {d1, , dm} Rn
- Ma trận Term X Giai điệu: A
- Tij – độ đo mức độ quan trọng (trọng số) của khái niệm i trong giai
điệu j. Có thể là nhị nguyên, tf.idf hay loại khác.
Giai điệu Dj
và truy vấn Qj được biểu diễn như các véctơ n-chiều của các trọng
số.
D
i
T
i
1
,
T
i
, ,
Q
jN
Mô hình không gian véctơ đánh giá mức độ tương tự Giai điệu Di
với câu
truy vấn Qj như tính tương quan giữa hai véctơ.
Nk
1
Chuẩn hóa kích thước Di và Qj: Mức độ tương tự xác định bởi cosine góc
giữa hai véctơ. S
(
D
i
,
.
Q
j
|
D
i
||
Q
j
|
Nk
1
Nk
là
sắp
xếp
đối
tượng/véctơ
đặc
trưng
tương
tự
vào
cùng
nhóm/cụm và việc tìm kiếm chỉ thực hiện trong các cụm liên quan. Mỗi cụm được
biểu diễn bởi trọng tâm của các véctơ đặc trưng trong cụm. Trong khi truy vấn, ta
tính toán độ tương tự giữa câu truy vấn và từng cụm Cụm nào có mức độ tương tự
lớn hơn ngưỡng cho trước là được chọn. Tiếp theo đối sánh véctơ câu truy vấn với
từng véctơ đặc trưng trong cụm và k đối tượng gần nhất là kết quả.
20
và
Oj
để
hình
thành
nút
mới
Oij
trong
T,
nó
là
cha
của
Oi
bất
đẳng
thức
tam
giác.
Khoảng
cách
giữa
hai
đối
tượng
không
thể
nhỏ
hơn
trong đó, d-độ đo khoảng cách, i, q, k - các véctơ đặc trưng
Bất đẳng thức trên đúng với mọi k, khi đối sánh nhiều đặc trưng ta có:
d
(
i
,
q
)
max
1
j
m
d
(
i
,
–
PHÁT
TRIỂN
HỆ
THỐNG
THỬ
NGHIỆM
ỨNG
DỤNG
TẠI
TRỜNG
ĐẠI
HỌC
VĂN
HÓA,
theo
nội
dung
phục
vụ
giảng
dạy
Tính
toán
độ
tương
tự
của
tín
hiệu
bày
các
thuật
toán
tìm
kiếm
âm
thanh
theo
nội
dung.3.2.1.
Đặc
trưng
MFCC
3.3.3.
Kỹ
thuật
phân
cụm
K-means
Thuật toán Kmean thực hiện theo các bước sau:
Bước 1: Đặt K điểm vào vùng phân cụm các đối tượng. Các điểm này mô tả
nhóm trung tâm đầu tiên.
Bước 2: Gán mỗi đối tượng vào một nhóm có điểm trung tâm gần nhất.
22
Bước 3: Khi tất cả các đối tượng đã được đưa vào các nhóm, tính toán lại vị trí
của K điểm trung tâm.
Bước 4: Thực hiện lặp lại bước 2 và 3 cho tới khi bỏ đi được các điểm trung
tâm ở xa. Điều này giúp phân cách các đối tượng thành các nhóm có kích thước nhỏ
nhất có thể.
của tác giả Roger Jang thuộc nhóm phát triển Mirlab [] và thư viện mã nguồn mở
Voicebox của tác giả Mike Brookes, khoa kỹ thuật điện và điện tử, đại học kỹ thuật
Hoàng gia, London, UK []. Hệ thống tìm kiếm âm nhạc dựa trên đặc trưng MFCC,
sử dụng kỹ thuật phân cụm k-means, độ đo khoảng cách Ơclit.
3.3.1
Mô
hình
hệ
thống3.3.2.Các
tham
số
thực
nghiệm3.3.3
Một
LUẬNViệc xây dựng cơ sở dữ liệu đa phương tiện đã và đang được nhiều nhà khoa
học trong và ngoài nước quan tâm vì nó có nhiều ứng dụng trong thực tế. Trong các
năm trước đây, các nghiên cứu tập trung vào xây dựng quy trình và các kỹ thuật liên
quan tới quá trình truyền thông đa phương tiện. Khi đã có khối lượng dữ liệu khổng
lồ,
vấn
đề
đặt
ra
là cần
có các phương pháp tìm kiếm nhanh.
Tìm kiếm âm
thanh
theo nội dung nói chung và
tìm kiếm âm nhạc nói riêng
là một vấn đề khó, đòi hỏi
Luận văn đã thực hiện được:
- Nghiên cứu cấu phần, nguyên lý cơ bản và các nhiệm vụ thiết kế cơ sở dữ liệu
đa phương tiện nói chung và cơ sở dữ liệu âm thanh nói riêng.
- Tìm hiểu các đặc trưng của âm thanh, âm nhạc và tiếng nói.
-
Nghiên
cứu,
khảo
sát một
số
giải
pháp
và
kỹ thuật
phân loại,