Chuỗi đặc trưng và ứng dụng trong tìm kiếm dữ liệu đa phương tiện - Pdf 25

ĐẠI HỌC QUỐC GIA HÀ NỘI
CHUỖI ĐẶC TRƯNG VÀ ỨNG DỤNG
TRONG TÌM KIẾM DỮ LIỆU ĐA
PHƯƠNG TIỆN
Mã số: QC.08.01
Chủ nhiệm đề tài: Nguyễn Hải Châu
Hà Nội - 2009
ĐẠI HỌ C Q UÕ C GIA HÀ NỘI
TRUNG TÂM THỔNG TIN THƯ VIỆN
PT/
Mục lục
B ả n g giải th íc h các chữ viết tắ t 3
D anh sách cán bộ th a m gia th ự c hiện đề tà i 4
D a n h m ụ c b ả n g 5
1 T óm t ắ t n h ữ n g kết qu ả nghiên cứu ch ín h củ a đ ề tà i 6
1.1 Tên đề t à i 6
1.2 Chủ trì đề t à i 6
1.3 Những kết quả c h í n h 6
1.3.1 Kết quả về khoa h ọ c 6
1.3.2 Kết quả phục vụ thực t ế 7
1.3.3 Kết quả đào t ạ o 7
1.3.4 Kết quả nâng cao tiềm lực khoa học 7
1.3.5 Tình hình sử dụng kinh p h í 7
2 B áo cáo tố n g k ế t 8
2.1 Đặt vấn đ ề 8
2.2 Tổng quan tình hình nghiên cứu chuỗi đặc trư n g 8
2.3 Các phương pháp xác định chuỗi đặc trư n g

9
2.3.1 Các loại đặc trưng của chuỗi tín hiệu âm t h a n h

Distortion Discriminant Analysis
FLAC
Free Lossless Audio Codec
LDA Linear Discriminant Analysis
MFCC
Mel-Frequency Cepstrum Coefficients
MPEG
Movie Picture Experts Group
MP3
MPEG-1 Audio Layer 3
OPCA Oriented Principal Components Analysis
PCA Principal Components Analysis
WAV Waveform Audio Format
3
Mục lục
B ản g giải th ích các chữ v iế t tắ t 3
D a n h sách cán bộ th a m gia th ự c hiệ n đề tà i 4
D a n h m ục b ả n g 5
1 T óm t ắ t n h ữ n g k ế t q u ả n g h iên cứu ch ín h c ủ a đề tà i 6
1.1 Tên đề t à i 6
1.2 Chủ trì đề t à i 6
1.3 Những kết quả c h ín h 6
1.3.1 Kết quả về khoa h ọ c 6
1.3.2 Kết quả phục vụ thực t ế 7
1.3.3 Kết quả đào t ạ o 7
1.3.4 Kết quả nâng cao tiềm lực khoa học
7
1.3.5 Tình hình sử dụng kinh p h í 7
2 B á o cáo tổ n g k ế t 8
2.1 Đặt vấn đ ề . 8

2.9 Kết luận và kiến nghị
Tài liệu th a m khả o
P h ụ lục
Bảng giải thích các chữ viết tắt
Bảng 1: Giải thích các chữ viết tắt
C h ữ viế t t ắ t G iải th íc h
BFCC
Bark Frequency Cepstrura Coefficients
DDA Distortion Discriminant Analysis
FLAC
Free Lossless Audio Codec
LDA Linear Discriminant Analysis
MFCC
Mel-Frequency Cepstrum Coefficients
MPEG
Movie Picture Experts Group
MP3
MPEG-1 Audio Layer 3
OPCA
Oriented Principal Components Analysis
PCA
Principal Components Analysis
WAV Waveform Audio Format
Danh sách cán bộ tham gia thực
hiện đề tài
Bảng 2: Đanh sách cán bộ, cộng tác viên, học viên cao học và sinh viên tha
thực hiện dề tài
__________________________________________________________
S T T H ọ và tê n
H ọc h à m

1 Giải thích các chữ viết t ắ t 3
2 Danh sách cán bộ, cộng tác viên, học viên cao học và sinh viên tham
gia thực hiện đề t à i 4
Tóm tắt những kết quả nghiên C1
chính của đề tài
1.1 Tên đề tài
C huỗ i đặc trư n g và ứng dụng tro n g tìm kiếm d ữ liệu đ a p h ư ơ n g tiệ]
(Acoustic fingerprint and its application in searching m ultimedia content).
Mã số: QC.0fs.01.
1.2 Chủ trì đề tài
Người chủ trì: TS. Nguyễn Hải Châu
Cơ quan: Trường Dại học Cóng nghệ. Dại học Quốc gia Hà Nội.
Dịa chỉ: 144 Xuân Thủy, c ầ u Giấy, Hà Nội.
Diện thoại: 04-37547813
1.3 Những kết quả chính
1.3.1 Kết quả về khoa học
• Chúng tôi đã nghiên cứu về nhận dạng âm thanh dựa trên chuỗi đặc tru
đề xuất các bước đề xây dựn£ mnt hệ thống nhân dạng trong thực tế.
tôi đã thử nghiệm xâv dưns một cơ sở dữ liệu âm thanh, huấn luyện (
để trích rút các đặc trưng va thủ nghiệm tìm kiếm dựa trên tín hiệu âm
vào từ micro với đỏ chính xác t.ốt. Các két quả nói trên đã được trìn h 1
tiết trong 01 bài báo khoa học gửi đcing tạp chí Tạp chí Khoa học, E
Quor cia Hà Nôi.
• UI bân cáo chuyên de (technical report tổng quan ve rhuỗi đạr tri
thanh và COI ứng dụng.
f,
1. TÓM TẮT NHỮNG KET q u ả n g h iê n c ứ u c h ín h c ủ a d ề t à i 7
1.3.2 Kết quả phục vụ thực tế
Dã hoàn thành bộ chương trình thử nghiệm tìm kiếm âm thanh dựa trên chuỗi đặc
trưng với độ chính xác cao. Bộ chương trình có thể được tiếp tục phát triển để hoạt

Chuỗi đặc trưng được sử dụng để tìm kiếm các mẫu âm thanh hoặc phát hiện cá
mẫu âm thanh tương tự nhau trong một cơ dữ liệu âm thanh.
Chuỗi đặc trưng có nhiều ứng dụng, trong đó có thể kể đến: nhận dạng các bỉ
hát. các bản thu âm, quảng cáo: giám sát phát thanh; quản lý thư viện hiệu ứn
âm thanh; nhận dạng video v.v Chính vì vậy chuỗi đặc trưng đã trở thành đ(
tượng nghiên cứu được quan tâm [l]-[27]. đồng thời các ứng dụng của chuỗi dă
trưng ngàv càng phong phú Ị28]-[40].
Trong báo cáo này. chúng tôi trình bày một cách tổng quan các phương phá
nghiên cứu về xác định, so sánh và tìm kiếm chuỗi đặc trưng; và một số ứng dụn
đã đư<ir triển khai.
( 'huõi đặc trưng như đã nói ở trên, là một bản tóm tắ t của một chuỗi tín hiệ
ãm thanh. Như vậy đi có dưcic chuỗi đặc trưng của một chuỗi âm thanh ta cần X£
dựr> - mi't ham / anh xa một r-huui bit A vào một chuỗi bít A Ị có độ dài nhỏ hơ]
Dt sanh mư« đó tương tự giữa hai chuỏi bit (tín hiệu âm th anh' ,4i và A 2 chúr
*
2. BẢO CÁO TỔNG KẾT
9
ta so sánh mức độ tương tự của hai chuỗi đặc trưng tương ứng A ìf và A 2f ■ c ầ n lưu
ý rằng việc so sánh A it và A 2f không phải là so sánh bằng nhau tuyệt đối về m ặt
toán học mà cần có tính cảm quan. Người nghe thường nhận dạng được cùng một
bản nhạc được phát đi với chất lượng tín hiệu âm thanh khác nhau, chẳng hạn từ
chất lượng âm thanh từ DVD tốt hơn chất lượng âm thanh phát qua radio.
Do đó cần có một số tiêu chí để đánh giá hàm / nói trên. Sau đây là m ột số tiêu
chí thường được sử dụng:
• T ín h b ề n vững: Chuỗi đặc trưng phải ít thay đổi khi tín hiệu âm th an h bị
suy giảm hoặc tín hiệu âm thanh bị nhiễu, bị méo v.v Tính chất này làm
tăng độ tin cậy khi nhận dạng âm than h trong môi trường thực, có nhiễu và
tạp âm hoặc biên độ tín hiệu nhỏ.
• T ín h tin cậy: Chuỗi đặc trưng cho khả năng nhận dạng đúng trong nhiều
trường hợp.

trích rút các đặc trưng [15]. Cửa sổ gối được sử dụng dê I 11} n in a ie
hệ số dịch thời gian (time-shift) trong các trường hợp c ũng a long
theo kiểu căn thời gian. . A - , „1
Biểu diễn phô của tín hiệu âm thanh có thể được xây dựng bằng nhiêu each, cl
hạn đo năng lượng MFCC (Mcl-FYequency Cepstrum Coefficients) hoặc V t M ị l
FVequency Cepstrum Coefficients). J. Haitsma và cộng sự [15] (la sư t ụng ^ ,
xác định chuỗi đặc trưng. TVong bài báo của các tác gia nạy, 33 l>ạng tan
được sử dụng trong dải tần 300-2000 Hz và cứ môi 11,6 mill giay lại có mọt í.
đặc trưng con (sub-fingerprint) được tạo ra trong một frame 370 mill giâỵ. D(
frame gối nhau nên các chuỗi đặc trưng biến đổi chậm theo thời gian. Khi đo
so sánh độ tương tự giữa hai bản nhạc sẽ qui về so sánh nhiều chuổi đặc trưng
Việc so sánh các chuỗi này là khá đơn giản dựa vào việc tính khoang cach Ham]
giữa các chuỗi đặc trưng con tương ứng. Ưu điểm của phương pháp này là tính
giản và tốc độ tính toán cao.
2.3.3 Phương pháp cửa sổ gối kết hợp học máy
Phương pháp thứ hai được đưa ra gần đây, được xem là mở rộng của cửa sổ
Y. Ke và các cộng sự [19] sử dụng nền tảng tương tự như J. H aitsm a [15] nhưi
thêm tính năng học máy khi xác định các đặc trưng. Một đặc điểm quan trọng
là Y. Ke đã biểu diễn tín hiệu âm thanh 1-D như m ột ảnh số khi biểu diễn t
không gian hai chiều với các trục thời g ian-tần số.
Kỹ thuật học máy Y. Ke sử dụng [19] là AdaBoost, là m ột kỹ thuật khá
biến trong các ứng dụng về thị giác máy, chẳng hạn như phát hiện m ặt người t
ảnh [26]. Y. Ke và các cộng sự đã sử dụng AdaBoost cho hệ thống của m ình họ
đặc trưng về năng lượng trên một số tần số chọn lọc theo thời gian. Dộ dài vi
số được chọn thông qua thuật toán AdaBoost. Áp dụng thuật toán AdBoost, (
đặc trưng được lựa chọn, từ đó tạo được chuỗi đặc trưng con tương ứng có 3'.
Khi có yêu cầu tìm kiếm bản nhạc, hệ thống của Y. Ke [20] trước hết xử lý di
âm thanh vào tương tự như [15] để tạo chuỗi đặc trưng con. Sau đó, tính kh
cách Hamming giữa các chuỗi đặc trưng con để tìm độ tương tự.
2.3.4 Phương pháp DDA

Giám sát phát thanh (broadcast monitoring) là một ứng dụng quan trọng của chuỗi
đặc trưng [1], [14], [23], [12], [39], [40]. TYong giám sát phát thanh truyền thống,
cơ quan giám sát có các nhân viên theo dõi trên các kênh phát than h và so sánh
với chương trìn h phát để phát hiện sai sót. Các hệ giám sát phát than h dựa trên
chuỗi đặc trưng thường có hai loại máy chủ: Máy chủ giám sát và máy chủ trung
tâm. Máy chủ giám sát đóng vai trò như nhân viên giám sát của p hát thanh truyền
thống, theo dõi các kênh phát thanh và báo cáo các chuồi đặc trưng cho máy chủ
trung tâm . Máy chủ trung tâm sử dụng các chuỗi đặc trưng này để tìm kiếm trong
cơ sở dữ liệu và sinh ra được báo cáo về chương trìn h phát của các kênh bị giám sát.
2.4.2 Các ứng dụng liên thông âm thanh
Các ứng dụng liên thông âm thanh (connected audio) là th uật ngữ chung chỉ các
ứng dụng dành cho người dùng có liên quan tới âm th anh/âm nhạc cùng với các
thông tin liên quan. Một ví dụ đặc trưng nhất là ứng dụng tìm kiếm bản nhạc qua
điện thoại di động. Người dùng ư nghe bản nhạc phát qua loa, hoặc đài phát than h
và muốn biết tên bản nhạc, ca sĩ thể hiện. Người này sẽ gọi điện thoại đến m ột số
điện thoại dịch vụ để bản nhạc thu qua điện thoại được truyền tới server chứa cơ sở
dữ liệu âm nhạc. Server căn cứ vào chuỗi đặc trưng để tìm tên bản nhạc, ca sĩ thể
2. DÁO CÁO TỔXG KẾT
hiện V.V và gửi kết quả cho người dùng. Dây là một ứng dụng rất kho VI tí <
âm thanh sau nhièu lần truyền đã bị suy giảm và có nhiêu n Lieu [. -j, [■ jji [ *)■
2.4.3 Các bộ lọc trong ứng dụng dùng chung file
Trong các ứng dụng dùng chung file, chuỗi đặc trưng được sư dụng đe nhạn ra c
file âm nhạc có bản quyen và không cho người dùng download các file này. Na
2001. Napster [31] cài đặt bộ lọc dựa trên tên file nhưng bộ lọc này hoạt động khôi
hiệu quả. Do đó vào tháng 5/2001, Napster đã sử dụng bộ lọc dựa trên chuỗi đ
trưng của Relatable [301.
2.4.4 Tự động tổ chức thư viện âm nhạc
Chuỗi đặc trưng có thể được sử dụng vào việc tự động tô chức th ư viện âm nhí
Hiện nay MP3 là khuôn dạng file thường được sử dụng đé lưu trữ trong các tl
viện âm nhạc. Các file MP3 được tạo ra từ nhiều nguồn khác nhau do đó siêu I

uptol28M B / DVD-RW/ Gigabit NIC / lx PC I Ex - dùng làm server cơ sở dữ
liệu và thực hiện tìm kiếm âm thanh. Máy trạm này được trang bị theo dự
án " Tăng cường năng lực nghiên cứu cho Phòng thí nghiệm chuyên đề Các Hệ
thống Thông tin Tích hợp và Công nghệ Phần m ềm " năm 2008-2009.
• 02 máy tính xách tay, 02 micro và 01 bộ loa ngoài (do cá nhân tự trang bị).
2.7 K ết quả nghiên cứu
2.7.1 Kết quả khoa học
Chúng tối đã đề xuất các bước để xây dựng một hệ thống nhận dạng âm thanh
trong thực tế. Chúng tôi đã thử nghiệm xây dựng một cơ sở dữ liệu âm thanh, huấn
luyện dữ liệu để trích rút các đặc trưng và thử nghiệm tìm kiếm dựa trẽn tín hiệu
âm thanh vào từ micro với độ chính xác tốt. Các kết quả nói trên đã được trình bày
chi tiết trong 01 bài báo khoa học đang gửi đãng tạ p chí Tạp chí Khoa học (Dại học
Quốc gia Hà Nội). Kết quả nghiên cứu của chúng tối cho thấy việc triển khai một
ứng dụng nhận dạng bản nhạc qua tín hiệu thu được từ micro là hoàn toàn khả thi.
2.7.2 Kết quả đào tạo
Dã có hai sinh viên thực hiện khóa luận tố t nghiệp theo hướng nghiên cứu của đề
tài. Hai khóa luận này đã được bảo vệ thành công vào ngày 2/6/2009 tại Khoa Cõng
nghệ Thống tin, trường Đại học Công nghệ, Đại học Quốc gia Hà Nội:
1. Bùi Thanh Xuân, Chuỗi đặc trưng âm thanh và ứng dụng trong tìm kiếm nhạc
số, Khóa luận tố t nghiệp Đại học, trường Dại học Cõng nghệ, 2009.
2. Vũ Thị Tư, Tìm kiếm dữ liệu âm thanh bằng phương pháp QbH (Query by
Humming) và ứng dụng, Khóa luận tố t nghiệp Đại học, trường Đại học Công
nghệ, 2009.
2.8 Thảo luận
Chúng tối đã đ ạt được các kết quả chính sau đây trong đề tài nghiên cứu QC.08.01:
• Chúng tõi đã nghiên cứu tổng quan về chuỗi đặc trưng âm thanh, các phương
pháp xây dựng và tìm kiếm, so sánh các chuỗi đặc trưng âm thanh đang được
2. DÁO CÁO TỔNG KẾT
nghicn cứu và phát triển; và các ứng dụng của nó trong giam sa p
tìm kiếm dữ liệu đa phương tiện, tạo các bộ lọc trong cac ưng

est neighbor in high dimensions, in 47th Annual IEEE Symposium on Founda
tions of Com puter Science ( F 0 c s ’06), 2006, pp. 459-468.
[3] Baluja, Covell, Content fingerprinting using wavelets, Proceedings of the 3rd
European Conference on Visual Media Production (CVMP), 2006.
[4] S. Baluja, M. Covell, Audio Fingerprinting: Combining Computer Vision &
I Data Stream Processing, Proceeding of the IEEE International Conference on
Acoustics, Speech and Signal Processing (ICASSP), 2007.
[5] M. Covell, S. Baluja, M. Fink, Advertisem ent Replacement using Acoustic and
Visual Repetition, Proceedings of the IEEE Workshop on M ultimedia Signal
Processing, 2006.
[6] c . Burges, J. Platt, s. Jana, Distortion Discriminant Analysis fo r Audio Fin
gerprinting, IEEE Transactions on Pattern Analysis and Machine Intelligence,
11 (3), 2003.
■[7] P. Cano, E. Batlle, T. Kalker, J. Haitsma, A review of algorithms for audio
fingerprinting, In Workshop on Multimedia Signal Processing, 2002.
[8] Y. Cheng, Music Database Retrieval Based on Spectral Similarity, International
Symposium on Music Information Retrieval (ISMIR) 2001, Bloom ington, USA,
October 2001.
[9] M. Covell, S. Baluja, Known-Audio Detection Using Waveprint: Spectrogram
Fingerprinting By Wavelet Hashing, Proceedings of the IEEE International
Conference on Acoustics. Speech and Signal Processing (ICASSP), 2007.
[10] A. Duda, A. Niirnberger, and s. Stober, Towards query by hum m ing/singing on
audio databases, in Proceedings of the 7th International Conference on Music
Inform ation Retrieval, 2007.
TÀI LIỆU THAM KHẢO
I
[111 M. Fink, M Covell, s. Baluja. Social- and Interactive-Television Apphcatioj
Based on Real-Time Ambient-Audio Identification, Proceedings of EuroITN
2006.
[12] D. Fragoulis D., G. Rousopoulos, T. Panagopoulos, c . Alexiou, c . Pi

TÀI LIỆU THAM KHẢO
17
[24] J. Oostveen, T. Kalker, J. Haitsma, Feature Extraction and a Database Strategy
fo r Video Fingerprinting, 5th International Conference on Visual Information
Systems, Taipei, Taiwan, March 2002, published in Recent advances in Visual
Information Systems, LNCS 2314, Springer, Berlin, pp. 117-128.
[25] R. Typke, Music Retrieval based on Melodic Similarity, Ph.D. thesis, Univer-
siteit Utrecht, 2007.
[26] P. Viola, M. Jones, Robust Real-time Object Detection. Proceedings of the
International Conference for Computer Vision, 2001.
[27] X. Wu, M. Li, J. Yang, and Y. Yan, A top-down approach to melody match
in pitch countour for query by humming, in Proceedings of the International
Conference of Chinese Spoken Language Processing, 2006.
[28] Auditude website h t t p : //www. a u d itu d e . com
[29] ID3Man website h t t p : //www. id3man. com
[30] Relatable website h t t p : //www. r e la t a b l e . com
[31] Napster website h t t p : //www. n a p s te r . com
[32] Website All Media Guide h ttp ://w w w .a llm ed ia g u id e .c o m /la sso /
[33] h t t p : / /b u s i n e s s .m ufin. com /en/p ro d u cts/
m ufin -a u d io id -m usic-re c o g n itio n -a n d -m u sic -m o n ito rin g /
[34] Website Gracenote h ttp : //www. g rac e n o te. com/
[35] Website Last.fm h ttp : //www. l a s t . fm/
[36] Website Music Brainz h ttp ://m u s ic b r a in z .o r g /
[37] Website Shazam h t t p : / /www. shazam . com/
[38] Website Tunatic h ttp ://w w w .w ild b its .c o m /tu n a tic/
[39] Moodlogic website h t t p : //www .m oodlogic. com
[40] Yacast website h t t p : //www. y a c a s t . com
đ ạ i h ọ c q u ố c G 'a Hà Nộ '
tr un g Tâ m t h ò n g -Iin thu v iệ n
Phụ lục

nhất trong thực tế đó là tìm kiếm dựa trên chuỗi đặc trưng âm thanh
(fingerprint) cùa các bản nhạc và tìm kiểm dựa trên giai điệu của bài hát. Một
hệ thống tìm kiếm âm nhạc dựa trên fingerprint xem xét cơ sở dữ liệu các bài
hát như một tập các fingerprint, việc tìm kiếm thông tin về một bài hát sẽ tuơng
ứng với việc tìm kiếm một fingerprint phù hợp nhất trong tập các fingerprint.
Khi sử dụng một hệ thống tìm kiểm âm nhạc kiểu này, chẳng hạn Tunatic [10]
hay Shazam [9], người sử dụng có thể gửi các bản nhạc đã thu âm qua micro từ
máy tính cá nhân của mình cho server và nhận kết quả trả về là thông tin liên
quan đến bài hát gốc.
Hệ thống tìm kiếm dựa trên giai điệu hay còn gọi là Query by humming
(Qbh) là một hệ thống phân loại bản nhạc theo tên bài hát, nghệ sỹ biểu diễn,
1
lác giả bài hát và thể loại. Hệ thống nhận đâu vào là giai điẹu cua cac ban nhạc
và so sánh nó với giai điệu của các bản nhạc khác trong cơ sơ dư liẹu roi đưa ra
một danh sách sẳp thứ tự các bài hát có giai điệu giong VƠI ban nhạc đo nhat.
Một hệ Query by humming kiểu như Musipedia [11] hay Midomi [12] cho
phép người dùng nhập vào giai điệu bài hát theo nhiêu cach khac nhau như
huýt sáo, sử dụng bàn phím piano ảo, vẽ nôt nhạc hay theo kiêu contour search.
Từ thực tế đó kết hợp với việc nghiên cứu các phương pháp tìm kiêm âm
nhạc đang được nghiên cứu phổ biến hiện nay, đặc biệt là phương phap chuoi
đặc trưng âm thanh kết hợp với học máy thông kê cùa Yan Ke [6], [7], chung
tôi tiến hành xây dựng một hệ thống tìm kiêm âm nhạc dựa trên các fingerprint.
Mỗi khi một bài hát được thêm mới vảo cơ sở dữ liệu, hệ thống sẽ lưu lại các
trường thông tin của bài hát như tên tác giả, ca sỹ thể hiện, thể loại nhạc
đồng thời thực hiện các biến đổi Fourier và tính toán càn thiết để trích ra được
các fingerprint tương ứng với bài hát đó và lun trữ nó như một trường đặc biệt,
trường fingerprint. Khi người sử dụng gửi một truy vấn là một bản nhạc đã thu
âm tới hệ thống, trước tiên hệ thống thực hiện các phương pháp tiền xử lý như
lọc nhiễu để khử tiếng ồn, tăng âm lượng thu âm của bài hát, sau đó tiến hành
tính toán ra fingerprint của bàn nhạc đó, tim kiếm trong cơ sở dữ liệu những

tính đúng đắn và ghi lại kết quả cho các mục đích thống kê sau này.
2.1. Xây dụng cơ sở dữ liệu các fingerprint
Hai chương trình chính sử dụng để xây dựng cơ sờ dữ liệu khóa là
makekeys và builddb. Chương trình đầu tiên nhận đầu vào là các một danh sách
các file nhạc định dạng WAV, thực hiện tính toán khỏa (các fingerprint) cho
mỗi bài hát, sau đó ghi khóa đó vào một thư mục chung chứa các khỏa. Để
chạy được, chương trình cần các thư viện là codewav.cc - chuyển đổi các file
WAV thành dạng bit và sigproc.cc - chứa hầu hểt mã nguồn cho xử lý tín hiệu.
Chương trình thứ hai sừ dụng các thư viện keypointdb.cc - quản lý cơ sở dữ
liệu khóa và directhash.cc - xây dựng các bảng băm trực tiếp của tất cả các
khóa trong cơ sờ dữ liệu khóa. Chương trình sẽ đọc một danh sách các khóa và
xây dựng cơ sở dữ liệu từ tập hợp khóa đó.
Tuy nhiên, trong thực tế, việc lưu trữ các file nhạc định dạng WAV gặp
nhiều khỏ khăn do kích thước các file nhạc là rất lớn, chúng tôi đã kết hợp sử
dụng thư viện ffmpeg trong cải tiến chương ưình sinh khóa để hệ thống có thể
tính khóa từ tập các bài hát định dạng MP3.
2.2. Xây dụng dữ liệu huấn luyện cho việc tìm kiếm
Để xây dựng cơ sở dữ liệu cho việc tìm kiểm, trước hết cần phải cỏ một
tập các bài hát đã được thu âm trong môi trường có nhiều nhiễu. Tập các bài
3
hát đã thu âm này và các bải hát gốc cùa nỏ sau đó được chia thanh cac snippet
ngắn (30 giây cho mỗi snippet). Các snippet tương ứng sau khi thực hiện trích
rút đặc trưng sẽ được so sánh với nhau đê tạo thành tạp dư liẹu học. Chung tôi
đã xây dựng các chương trình giúp cho việc xây dựng dữ liẹu huan luyẹn được
thuận tiện.
• Chương trình balchrec: sử dụng thư viện ffmpeg và mpg 123 thực hiện
tự dộng mở và thu âm lại các bài hát từ đâu đên khi ket thuc, ghi
chúng vào thư mục các bài hát đã thu âm.
• Chương trinh batchsplit: sử dụng thư viện ffmpeg đế chia nhỏ một bài
hát thành các snippet kế tiếp nhau theo một khoảng thời gian nào đó

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Chuỗi đặc trưng và ứng dụng trong tìm kiếm dữ liệu đa phương tiện - Pdf 25

Tài liệu, ebook tham khảo khác

Học thêm