HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
---------------------------------------
TÀO NGỌC BIÊN
ĐỀ TÀI:
TÌM KIẾM ÂM NHẠC TRÊN CƠ SỞ NỘI DUNG VÀ ỨNG DỤNG
TẠI TRƯỜNG ĐẠI HỌC VĂN HÓA, THỂ THAO VÀ DU LỊCH
THANH HÓA
CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH
MÃ SỐ: 60.48.01
TÓM TẮT LUẬN VĂN THẠC SĨ
HÀ NỘI - 2012
Luận văn được hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Người hướng dẫn khoa học: PGS. TS ĐẶNG VĂN ĐỨC
Phản biện 1: ……………………………………………………………………………
Phản biện 2: …………………………………………………………………………...
Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện Công nghệ Bưu chính
Viễn thông
Vào lúc:
Để giải quyết vấn đề này, các kỹ thuật truy tìm âm thanh trên cơ sở nội dung là
cần thiết. Truy tìm âm thanh trên cơ sở nội dung đơn giản nhất sử dụng so sánh mẫu
với mẫu giữa câu truy vấn và đoạn âm thanh lưu trữ. Tiệm cận này sẽ không hoạt
động tốt vì tín hiệu âm thanh biến đổi và các đoạn âm thanh khác nhau có thể biểu
diễn với tốc độ mẫu khác nhau và có thể sử dụng tổng số bit lấy mẫu khác nhau. Do
vậy, truy tìm âm thanh trên cơ sở nội dung được thực hiện trên cơ sở tập các đặc
tính âm thanh được trích chọn như cường độ trung bình hay phân bổ tần số.
2
Nhận thấy những tiện ích Cơ sở dữ liệu đa phương tiện cũng như việc tìm
kiếm âm nhạc trên cơ sở nội dung, em lựa chọn và thực hiện đề tài “Tìm kiếm âm
nhạc trên cơ sở nội dung và ứng dụng tại trường Đại học Văn hóa, Thể thao và Du
lịch Thanh Hóa” nhằm nghiên cứu về cơ sở dữ liệu đa phương tiện, các kỹ thuật
tìm kiếm âm thanh trên cơ sở nội dung và xây dựng ứng dụng.
Cấu trúc luận văn
Ch ơng 1: Tổng quan về Cơ sở dữ liệu âm thanh
- Tình hình nghiên cứu trong và ngoài nước về CSDL đa phương tiện
- Giới thiệu chung về hệ thống thông tin đa phương tiện.
- Tổng quan về hệ quản trị CSDL đa phương tiện.
- Các kỹ thuật chủ yếu tìm kiếm âm thanh trong cơ sở dữ liệu.
- Các nguyên lý chung thiết kế cơ sở dữ liệu âm thanh
- Tiến trình tìm kiếm dữ liệu Đa phương tiện
- Các giai đoạn phát triển MDBMS
Ch ơng 2: Kỹ thuật tìm kiếm cơ sở dữ liệu âm nhạc
-
Đặc trưng chính của âm thanh
loại dữ liệu MM trong việc tạo lập, lưu trữ, truy cập, truy vấn và kiểm soát.
1.2.1 Mục đích của MDBMS
1.2.2 Các yêu cầu của một MDBMS
1.2.2.1 Khả năng quản trị lưu trữ lớn
Các yêu cầu về khả năng lưu trữ của các hệ thống MM có thể được đặc trưng
bởi khả năng lưu trữ lớn và cách thức tổ chức theo thứ bậc (dạng kim tự tháp) của
hệ thống lưu trữ. Việc lưu trữ theo thứ bậc đặt các đối tượng dữ liệu MM trong một
hệ thống phân bậc bao gồm các thiết bị khác nhau, có thể là trực tuyến (online),
không trực tuyến (offline). Một cách tổng quát, mức cao nhất của hệ thống sẽ cho ta
hiệu suất cao nhất, khả năng lưu trữ nhỏ nhất, chi phí cao nhất và sự cố định ít nhất.
Các lớp cao trong hệ thống phân cấp này có thể sử dụng để lưu trữ các đối tượng
tóm tắt nhỏ hơn của một dữ liệu MM hoàn chỉnh với mục đích cung cấp khả năng
duyệt và xem trước nhanh đối với nội dung của dữ liệu.
1.2.2.2 Hỗ trợ truy vấn và khai thác dữ liệu.
Truy vấn đối với dữ liệu MM bao gồm các kiểu dữ liệu khác nhau, các từ
khoá, thuộc tính, nội dung vv…Do người dùng có thể có các cách suy nghĩ khác
nhau về dữ liệu MM vì vậy kết quả thu được từ việc truy vấn dữ liệu MM có thể
không hoàn toàn chính xác và có thể chỉ là các kết quả tương tự hoặc là một phần
của kết quả hơn là các kết quả chuẩn xác.
4
1.2.2.3 Tích hợp các phương tiện, tổng hợp và thể hiện
Giả sử tính đa dạng của các kiểu dữ liệu đã được hỗ trợ, một MDBMS cũng
phải cung cấp khả năng để tích hợp các loại dữ liệu này để tạo nên các kiểu dữ liệu
MM mới và thể hiện các dữ liệu này khi có yêu cầu trong một khung thời gian yêu
cầu. Độ phức tạp của việc tích hợp, tổng hợp và thể hiện bị tăng thêm bởi các đặc
MM. Các vấn đề nẩy sinh với cách tiếp cận này là các cấu trúc bên dưới (của CSDL
truyền thống) không được thiết kế dành cho dữ liệu MM, hơn nữa sự khác biệt cơ
bản các yêu cầu của một CSDL truyền thống đối với CSDL MM khiến cho giao
diện trở thành nơi nghẽn cổ chai trong toàn bộ hệ thống. Các vấn đề này dẫn tới
cách tiếp cận thứ hai.
- Ph ơng pháp thứ hai: phát triển các mô hình dữ liệu thực thụ dành cho dữ
liệu MM từ đầu chứ không xây dựng trên cơ sở của các CSDL truyền thống, tuy
nhiên mọi người đều nhất trí rằng các nỗ lực như vậy đều phải dựa trên kỹ thuật
hướng đối tượng.
1.2.3.2 Lưu trữ đối tượng MM
Lưu trữ vật lý các dữ liệu Multimedia đòi hỏi các phương thức để chuyển
đổi, quản lý, trao đổi và phân phối một số lượng dữ liệu khổng lồ, các hệ thống
Multimedia thông thường sử dụng phương thức phân cấp đối với các thiết bị lưu
trữ.
Với việc sắp xếp lưu trữ phân cấp, các đối tượng MM có thể được lưu trữ ở
các mức độ khác nhau, khi mà tỷ lệ sử dụng các đối tượng dữ liệu MM thay đổi các
đối tượng này cần phải được phân phối lại có thể là được lưu trữ trên các thiết bị
khác, tại các mức khác nhau của hệ thống lưu trữ.
1.2.3.3 Tích hợp Multimedia, thể hiện và chất lượng của dịch vụ
Khác với các dữ liệu truyền thống, dữ liệu MM đòi hỏi các ràng buộc về sự
thể hiện điều này bắt nguồn từ đặc tính liên tục của một số kiểu dữ liệu MM mà
chúng đòi hỏi thể hiện một số lượng nhất định dữ liệu trong một khoảng thời gian
nhất định mà kết quả đem lai cho người dùng vẫn phải đảm bảo được đặc trưng của
các kiểu dữ liệu đó. Khi mà dữ liệu MM được bố trí phân tán và truyền đi trên mạng
thì các vấn đề về thể hiện càng trở nên cấp thiết hơn, chúng ta đã bắt gặp điều này
trong trường hợp băng thông hạn chế.
7
Để thu được một thời gian tuyến tính dưới một cách phức tạp, chúng ta sử
dụng vị trí của hàm băm miền nhạy cảm LSH là một thuật toán ngẫu nhiên cho việc
tìm kiếm khoảng cách hàng xóm gần nhất trong không gian nhiều chiều. Thuật toán
LSH là thuật toán tìm kiếm K hàng xóm gần nhất hoặc tìm kiếm xấp xỉ K hàng xóm
gần nhất.
1.4.1.2 Thuật toán DTW(Dynamic Time Warping)
Cho chuỗi âm tiết đầu vào w w1, w2 ,...wL có độ dài L và có chuỗi vector đặc
tính X x 1, x 2 ,...xT , nhiệm vụ của hệ thống là phải nhận dạng xem chuỗi âm đầu
vào là các ký tự gì và trong quá trình xử lý cần phải giảm thiểu tối đa các sai số
quyết định. Mỗi tín hiệu âm tiết đầu vào Wl sẽ được so sánh với các mẫu Yl. Mỗi Yl
là chuỗi các vector đặc tính của tín hiệu âm tiết Wl . Nhằm tăng khả năng nhận
dạng, mỗi âm tiết có một tập hợp các mẫu khác nhau: Yl,1,...,Yl,M . Quá trình quyết
l
định âm tiết phù hợp với một mẫu dựa theo nguyên tắc sau:
*
l argminmin D( X ,Yl,m )
m
l
Như vậy âm tiết Wl* là âm tiết phù hợp nhất với mẫu Yl tìm được.
Khoảng cách D(X,Y) giữa dữ liệu đầu vào và dữ liệu mẫu Y=y1….ys có độ dài
thời gian khác nhau S T được xác định bằng tổng các khoảng cách cục bộ
d ij d(x i , y j ) trên cả đường đi của quá trình biến dạng thời gian. Khoảng cách tích
8
trước khi thực hiện việc xử lý các trạng thái. Như thế đầu vào của HMM chính là
chuỗi các thông số vector rời rạc theo thời gian. Mô hình Markov ẩn là một tập các
trạng thái hữu hạn, mà mỗi trạng thái có liên quan đến hàm phân phối xác xuất.
Việc chuyển tiếp giữa các trạng thái được định nghĩa bởi một tập xác suất được gọi
là xác suất chuyển tiếp.
1.4.2 Các kiểu truy vấn
1.4.2.1 Truy vấn trên cơ sở meta-data
1.4.2.2 Truy vấn trên cơ sở mô tả
1.4.2.3 Truy vấn trên cơ sở mẫu hay đặc trưng
1.4.2.4 Truy vấn theo thí dụ
1.4.2.5 Truy vấn ứng dụng cụ thể
1.5 Các nguyên lý chung thiết kế cơ sở dữ liệu âm thanh.
1.5.1 Mô hình tổng quát của dữ liệu âm thanh
1.5.1.1 Biểu diễn nội dung âm thanh bằng metadata
Tổng quát thì metadata được sử dụng để biểu diễn nội dung âm thanh được
xem như tập các đối tượng trải dài theo đường thời gian, tương tự video. Các đối
tượng, đặc trưng và hoạt động xảy ra trong âm thanh hoàn toàn tương tự như trong
video. Sự khác biệt ở chỗ, âm thanh để nghe, còn video để cả nghe và nhìn. Như
vậy, chúng ta có thể chỉ số hóa metadata kết hợp với âm thanh theo cách tương tự
cách chỉ số hoá video, và kỹ thuật xử lý truy vấn video cũng được sử dụng lại ở đây.
Phần lớn CSDL âm thanh đang tồn tại sử dụng lược đồ chỉ số hoá trên cơ sở
metadata.
1.5.1.2 Nội dung âm thanh trên cơ sở tín hiệu
CSDL âm thanh có thể có thể được chỉ số hóa bằng tín hiệu âm thanh theo
cách sau đây:
nghe to hơn các sóng có cường độ thấp hơn nhưng âm lượng không tăng tuyến tính
với cường độ. Giả sử rằng gọi L0 là âm lượng kết hợp với tần số thấp mà tai người
có thể phân biệt (khoảng 15 Hz), giả sử ta quan sát sóng có cường độ I. Sau đó âm
lượng của I tính bằng decibel như sau:
Chú ý rằng khi I=L0 thì L = 10 x log(1) = 0.
- Độ cao (Pitch): Độ cao p(f, a) của tín hiệu âm thanh được tính từ tần số f và
biên độ a của tín hiệu.
10
- Độ trong (Brightness): Độ trong của tín hiểutong cửa sổ w là thước đo độ
“sạch” của âm thanh. Thí dụ, âm thanh ngẹt ít trong hơn âm thanh của kính vỡ.
1.5.2 Thu thập nội dung âm thanh thông qua biến đổi rời rạc
Khi xem xét dải tần số con người nghe được từ 15 Hz đến 20 kHz, ngay cả đoạn
ghi âm ngắn (khoảng 10 phút) đã có tới 100000 cửa sổ với giả sử rằng mỗi cửa sổ
biểu diễn một tín hiệu tương đối trơn tru.
1.5.3 Chỉ số hóa dữ liệu âm thanh
Chỉ số hoá dữ liệu âm thanh trên cơ sở tín hiệu có thể được thực hiện theo
cách không phức tạp lắm. Giả sử chúng ta có tập 1,...,K của tín hiệu trong kho âm
thanh. Gọi N là số nguyên xác định tổng số cửa sổ mà người phát triển ứng dụng
muốn gán cho mỗi tín hiệu âm thanh i. Khi chọn N, có nghĩa rằng chúng ta muốn
lưu trữ tập véctơ N chiều. Tuy nhiên, khi quan sát véctơ, ta thấy khó xác định nó
được suy diễn từ tín hiệu âm thanh nào. Do vậy, ta giả sử rằng mỗi véctơ có độ dài
(N+1). Trường phụ ở cuối chứa chỉ số i của tín hiệu i mà véctơ suy diễn từ nó. Bây
giờ ta có thể phát triển CSDL âm thanh bằng các bước như sau đây, sử dụng quan
niệm cây TV để chỉ số hoá dữ liệu nhiều chiều.
Thuật toán CreateAudioIndex(K, N)
features
Similarity
computation
Retrieval of similar
items
Hình 1.12 Mô hình tìm kiếm dữ liệu đa ph ơng tiện
1.7 Các giai đoạn phát triển MMDBMS
12
Ch ơng 2 - KỸ THUẬT TÌM KIẾM CƠ SỞ DỮ LIỆU ÂM
NHẠC
2.1 Đặc tr ng chính của âm thanh
2.1.1 Đặc trưng trong miền thời gian.
Biểu diễn trong miền thời gian hay thời gian - biên độ là kỹ thuật trình diễn tín
hiệu cơ bản nhất, trong đó tín hiệu được biểu diễn như biên độ biến đổi theo thời
gian. Giá trị tín hiệu có thể âm hay dương phụ thuộc vào áp suất âm thanh cao hơn
hay thấp hơn áp suất cân bằng khi im lặng. Giả sử rằng sử dụng 16 bít để mã hóa
mẫu audio, thì ta có giá trị tín hiệu sẽ trong khoảng từ 32767 đến -32767.
Từ cách biểu diễn trên đây ta dễ dàng có được năng lượng trung bình, tốc độ
vượt qua 0 (zero crossing rate) và tỷ lệ câm (silence ratio).
2.1.1.1 Năng lượng trung bình
Năng lượng trung bình chỉ ra âm lượng (loudness) của tín hiệu audio. Có
nhiều cách để tính nó. Một cách tính đơn giản như sau:
N 1
2.1.1.3 Tỷ lệ câm
Tỷ lệ câm chỉ ra kích thước đoạn âm thanh câm. Câm được định nghĩa như
chu kỳ trong đó giá trị biên độ tuyệt đối của một số mẫu nhỏ hơn ngưỡng nào đó.
Có hai loại ngưỡng: ngưỡng biên độ và ngưỡng thới gian. Tỷ lệ câm được tính bằng
tỷ lệ giữa tổng chu kỳ câm và tổng độ dài của đoạn âm thanh.
2.1.2 Đặc trưng trong miền tần số.
2.1.2.1 Phổ âm thanh
Biểu diễn miền thời gian không chỉ ra được các thành phần tần số và phân bổ
tần số của tín hiệu âm thanh. Biểu diễn miền tần số suy diễn từ biểu diễn miền
không gian bằng biến đổi Fourier. Biến đổi Fourier được xem như tách tín hiệu
thành các thành phần tần số. Trong miền tấn số, tín hiệu được biểu diễn bởi biên độ
biến đổi theo tần số, chỉ ra tổng năng lượng tại các tần số khác nhau. Biểu diễn miền
tần số của tín hiệu được gọi là phổ của tín hiệu.
Vì quan tâm đến tín hiệu số cho nên ta sử dụng DFT để suy diễn ra phổ tín
hiệu. Công thức tính DFT như sau:
N 1
jn
X (k) x(n)e
k
n0
trong đó, k 2k , x(n) là tín hiệu rời rạc với N mẫu, k là DFT bin.
thông cao hơn tín hiệu tiếng nói. Cách tính băng thông đơn giản nhất là lấy chênh
lệch tần số giữa tần số cao nhất với tần số thấp nhất của các thành phần phổ khác
không. Trong một số trường hợp, “nonzero” được xác định khoảng 3 dB trên mức
câm.
2.1.2.3 Phân bổ năng lượng
Từ phổ tín hiệu, chúng ta dễ dàng nhận thấy phân bổ tín hiệu theo các thành
phần tần số. Việc tính toán năng lượng dải tần số cao và tần số thấp là cần thiết.
Thực sự, khái niệm “low”, “high” phụ thuộc vào ứng dụng. Thí dụ tần số tín hiệu
tiếng nói ít khi vượt qua 7 kHz. Do vậy, ta có thể chia toàn bộ phổ dọc theo đường
ngang 7 kHz: nửa dưới thuộc tần số thấp và nửa trên thuộc tần số cao. Tổng năng
lượng cho mỗi băng được tính bằng tổng năng lượng mỗi mẫu trong băng.
Một đặc trưng quan trọng suy diễn từ phân bổ năng lượng là trọng tâm phổ
(centroid). Nó là điểm giữa của phân bổ năng lượng phổ tín hiệu. Tiếng nói có trọng
tâm thấp so với âm nhạc. Trọng tâm còn được gọi là độ chói (brightness).
2.1.2.4 Điều hòa
Đặc trưng thứ hai trong miền tần số của âm thanh là điều hòa. Trong âm
thanh điều hòa, các thành phần phổ là số lần nguyên của tần số thấp nhất và tần số
thường xuyên cao nhất. Tần số thấp nhất được gọi là tần số cơ bản. Âm nhạc
15
thường điều hòa hơn âm thanh khác. Để xác định được âm thanh có điều hòa hay
không hãy kiểm tra xem tần số của các thành phần trội là số lần tần số cơ bản hay
không. Thí dụ, phổ âm thanh nốt G4 của tiếng sáo có dãy tần số cao độ (pitch) như
sau: 400 Hz, 800 Hz, 1200 Hz, 1600 Hz...
2.1.2.5 Cao độ
Mel là đơn vị độ cao âm thanh (pitch). Một cặp âm thanh cảm nhận có độ
cao như nhau nếu giá trị mel của chúng như nhau.
Mel-scale: Xấp xỉ tuyến tính dưới 1 kHz, và loga trên 1 kHz.
2.2 Phân lớp âm thanh
2.2.1 Đặc điểm chính của các lớp âm thanh
Mọi phương pháp phân lớp âm thanh trên cơ sở tính toán các giá trị đặc
trưng. Chúng khác nhau ở chỗ các đặc trưng được sử dụng như thế nào. Nhóm thứ
nhất: mỗi đặc trưng được sử dụng riêng rẽ trong các bước phân lớp. Nhóm thứ hai:
tập các đặc trưng được sử dụng chung như véctơ để tính toán mức độ “gần gũi” của
đầu vào đến các tập huấn luyện.
2.2.2 Phân lớp âm thanh
2.2.2.1 Phân lớp âm thanh theo từng bước
Trong phân lớp âm thanh theo từng bước, ta sử dụng riêng biệt mỗi đặc trưng
audio để xác định âm thanh đó là âm nhạc hay tiếng nói.
Mỗi đặc trưng được xem như tiêu chí lọc hay trích chọn. Tại mỗi bước lọc,
đoạn âm thanh được xác định là kiểu này hay kiểu khác. Trước hết tính trọng tâm
của của các đoạn âm thanh. Nếu trọng tâm cao hơn ngưỡng cho trước thì nó có thể
là âm nhạc. Nếu không đoạn âm thanh có thể là tiếng nói hay âm nhạc (vì không
phải mọi âm nhạc đều có trọng tâm cao).
Tiếp theo tính tỷ lệ câm. Nếu đoạn âm thanh có tỷ lệ câm thấp thì chúng có
thể là âm nhạc. Nếu không, nó là tiếng nói hay nhạc solo.
Cuối cùng tính ZCR. nếu đoạn âm thanh có biến đổi ZCR rất cao, nó là tiếng
nói. Nếu không nó là nhạc solo.
17
Trong tiệm cận phân lớp này, điều quan trọng là xác định trình tự trong đó
18
áp dụng các kỹ thuật nhận dạng tiếng nói để chuyển đổi tín hiệu tiếng nói thành văn
bản và sau đó áp dụng các kỹ thuật IR để chỉ số hóa và tìm kiếm.
2.3 Chỉ số hóa và truy tìm âm nhạc.
2.3.1 Chỉ mục và truy tìm âm nhạc cấu trúc và các hiệu ứng âm thanh
Âm nhạc cấu trúc và hiệu ứng âm thanh rất phù hợp truy vấn đòi hỏi đối sánh
chính xác giữa câu truy vấn và các tệp âm thanh trong CSDL. Người sử dụng có thể
chỉ ra trình tự các nốt làm câu truy vấn và nó tương đối dễ tìm ra các tệp âm thanh
cấu trúc chứa trình tự các nốt nhạc này. Mặc dù tìm ra trình tự các nốt phù hợp hoàn
toàn, nhưng âm thanh sinh ra từ tệp có thể chưa phải là cái mà người sử dụng mong
đợi bởi vì cùng các tệp âm thanh ấu trúc có thể phát ra các âm khác nhau trên các
thiết bị khác nhau.
2.3.2 Chỉ mục và truy tìm âm nhạc trên cơ sở mẫu
2.3.2.1 Truy tìm âm nhạc trên cơ sở tập các đặc trưng
Trong tiệm cận truy tìm âm nhạc này, tập các đặc trưng âm học được trích
chọn cho mỗi âm thanh. Tập N đặc trưng này được biểu diễn bởi N-véctơ. Tính
tương tự giữa câu truy vấn và mỗi đoạn âm thanh lưu trữ được tính toán trên cơ sở
khoảng cách gần nhất giữa các véctơ đặc trưng tương ứng của chúng. Tiệm cận này
có thể áp dụng cho mọi loại âm thanh như âm nhạc, tiếng nói và hiệu ứng âm thanh.
2.3.2.2 Truy tìm âm thanh trên cơ sở độ cao
Tiệm cận này tương tự truy tìm âm nhạc cấu trúc trên cơ sở độ cao. Sự khác
nhau chính là độ cao của từng nốt phải được trích chọn và ước lượng trong trường
hợp này. Trích chọn và ước lượng độ cao được gọi chung là tracking độ cao.
Tracking là dạng đơn giản của việc tự động chuyển đổi âm nhạc thành biểu diễn ký
tự. Ý tưởng chính của tiệm cận này khá đơn giản. Mỗi nốt nhạc được biểu diễn bởi
N
S(Di , Q j ) Tik.Q jk
k1
Chuẩn hóa kích thước Di và Qj: Mức độ tương tự xác định bởi cosine góc
giữa hai véctơ.
N
Di.Qj
S(Di , Qj ) cos
| Di || Qj |
T
ik
.Qjk
k1
N
2
Tik .
k1
N
Hủy bỏ Oi và Oj khỏi L.
Trộn Oi và Oj để hình thành nút mới Oij trong T, nó là cha của Oi và Oj
trong cây kết quả.
Lặp lại bước (2) cho đến khi chỉ còn một tập.
2.4.3 Lọc trên cơ sở bất đẳng thức tam giác
Hầu hết các độ đo khoảng cách đặc trưng là độ đo metric và thỏa mãn tính
chất bất đẳng thức tam giác. Khoảng cách giữa hai đối tượng không thể nhỏ hơn
hiệu khoảng cách giữa chúng tới đối tượng khác.
d(i, q) d(i, k) d(q, k)
trong đó, d-độ đo khoảng cách, i, q, k - các véctơ đặc trưng
Bất đẳng thức trên đúng với mọi k, khi đối sánh nhiều đặc trưng ta có:
d (i, q) max 1 jm d (i, k j ) d (q, k j )
trong đó, m-tổng số đặc trưng sử dụng để đối sánh
21
Ch ơng 3 – PHÁT TRIỂN HỆ THỐNG THỬ NGHIỆM ỨNG
DỤNG TẠI TR ỜNG ĐẠI HỌC VĂN HÓA, THỂ THAO VÀ
DU LỊCH THANH HÓA
3.1 Nhu cầu tìm kiếm âm nhạc theo nội dung phục vụ giảng dạy
Tính toán độ tương tự của tín hiệu âm thanh là một chủ đề lớn bắt đầu được
nghiên cứu trong lĩnh vực xử lý âm thanh từ những năm 1960. Kỹ thuật nhận dạng
âm thanh có rất nhiều ứng dụng rộng rãi. Đối với trường Đại học Văn hóa, Thể thao
và Du lịch Thanh Hóa có thể sử dụng các hệ tìm kiếm âm thanh để đối sánh giai
điệu của các bản nhạc trong việc bảo vệ bản quyền âm nhạc, sử dụng hệ tìm kiếm
âm thanh để đối sánh chất giọng của các sinh viên ngành Thanh nhạc và Sư phạm
Hệ thống nhận dạng người nói SpeakIden được phát triển trên nền ngôn ngữ
lập trình kỹ thuật Matlab phiên bản R2009a, sử dụng một số thư viện mã nguồn mở
của tác giả Roger Jang thuộc nhóm phát triển Mirlab [] và thư viện mã nguồn mở
Voicebox của tác giả Mike Brookes, khoa kỹ thuật điện và điện tử, đại học kỹ thuật
Hoàng gia, London, UK []. Hệ thống tìm kiếm âm nhạc dựa trên đặc trưng MFCC,
sử dụng kỹ thuật phân cụm k-means, độ đo khoảng cách Ơclit.
3.3.1 Mô hình hệ thống
3.3.2.Các tham số thực nghiệm
3.3.3 Một số chức năng của chương trình
23
KẾT LUẬN VÀ H ỚNG PHÁT TRIỂN
KẾT LUẬN
Việc xây dựng cơ sở dữ liệu đa phương tiện đã và đang được nhiều nhà khoa
học trong và ngoài nước quan tâm vì nó có nhiều ứng dụng trong thực tế. Trong các
năm trước đây, các nghiên cứu tập trung vào xây dựng quy trình và các kỹ thuật liên
quan tới quá trình truyền thông đa phương tiện. Khi đã có khối lượng dữ liệu khổng
lồ, vấn đề đặt ra là cần có các phương pháp tìm kiếm nhanh. Tìm kiếm âm thanh
theo nội dung nói chung và tìm kiếm âm nhạc nói riêng là một vấn đề khó, đòi hỏi
kết hợp nhiều phương pháp khác nhau, sử dụng nhiều bộ tham số đặc trưng khác
nhau. Luận văn đã thực hiện được:
- Nghiên cứu cấu phần, nguyên lý cơ bản và các nhiệm vụ thiết kế cơ sở dữ liệu
đa phương tiện nói chung và cơ sở dữ liệu âm thanh nói riêng.
- Tìm hiểu các đặc trưng của âm thanh, âm nhạc và tiếng nói.
- Nghiên cứu, khảo sát một số giải pháp và kỹ thuật phân loại, phân lớp âm
thanh. Nghiên cứu các đặc trưng cơ bản phục vụ việc trích chọn đặt trưng và truy tìm
âm nhạc trên cơ sở nội dung.