ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Lê Thị Cẩm Bình
TÌM KIẾM ÂM THANH THEO NỘI DUNG
TRONG CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN
LUẬN VĂN THẠC SĨ
Hà Nội- 2007
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Lê Thị Cẩm Bình
TÌM KIẾM ÂM THANH THEO NỘI DUNG
TRONG CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN
Ngành: Công nghệ thông tin
Mã số: 1.01.10
LUẬN VĂN THẠC SĨ
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS ĐẶNG VĂN ĐỨC
Hà Nội- 2007
2.1.2.2. Băng thông ............................................................................. 33
2.1.2.3. Phân bổ năng lượng ............................................................... 34
2.1.2.4. Điều hòa ................................................................................. 34
2.1.2.5. Cao độ .................................................................................... 35
2.1.3. Ảnh phổ ............................................................................................... 35
2.2. CSDL âm thanh ........................................................................................... 37
2.2.1. Mô hình tổng quát của dữ liệu âm thanh ............................................ 37
2.2.1.1. Biểu diễn nội dung âm thanh bằng metadata ........................ 37
2.2.1.2. Nội dung âm thanh trên cơ sở tín hiệu .................................. 37
2.2.2. Thu thập nội dung âm thanh thông qua biến đổi rời rạc ..................... 41
2.2.3. Chỉ số hóa dữ liệu âm thanh ............................................................... 42
2.3. Phân lớp âm thanh .......................................................................................... 43
2.3.1. Đặc điểm chính của các lớp âm thanh ................................................ 45
2.3.2. Phân lớp âm thanh............................................................................... 45
2.3.2.1. Phân lớp âm thanh theo từng bước ........................................ 45
2.3.2.2. Phân lớp âm thanh theo vectơ đặc trưng ............................... 47
2.3.2.3. Phân lớp âm thanh ứng dụng mạng nơron ............................ 47
2.3.3. Chỉ số hóa và truy tìm âm thanh ......................................................... 53
2.3.3.1. Nhận dạng và truy tìm tiếng nói ............................................ 54
2.3.3.2. Nhận dạng và truy tìm âm nhạc............................................. 70
Chương III. Phát triển ứngdụng truy tìm âm thanh trên cơ sở nội dung ....... 80
3.1. Yêu cầu hệ thống ............................................................................................. 80
3.1.1. Yêu cầu phần cứng.............................................................................. 80
3.1.2. Yêu cầu phần mềm.............................................................................. 80
3.2. Giới thiệu thư viện chương trình ACTNow C/C++ ....................................... 81
3.2.1. Create/Delete....................................................................................... 81
3.2.2. Error code............................................................................................ 81
3.2.3. Handle ................................................................................................. 81
T
tới PGS.TS Đặng Văn Đức- Viện Công nghệ thông tin,
người thầy luôn nhiệt tình hướng dẫn, cung cấp các tài liệu hữu ích và
giúp đỡ tôi rất nhiều trong quá trình thực hiện luận văn.
Tôi xin cám ơn các thầy cô giáo Khoa Công nghệ thông tin đã
truyền đạt những kiến thức quí báu, bổ trợ cho đề tài luận văn của tôi,
xin cảm ơn các Phòng ban chức năng của Trường Đại học Công nghệ,
các bạn học viên lớp Cao học K11T2 và gia đình đã tạo điều kiện, giúp
đỡ tôi trong quá trình học tập và hoàn thành luận văn này.
2
DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT
Ký hiệu
Tên đầy đủ
Ý nghĩa
ACT
Audio Classification
Technologies
các kỹ thuật phân lớp âm thanh
biến đổi Fourier rời rạc
EBF
Elliptical Basis Function
hàm cơ sở êlíp
EED
diagonal covariance
matrices
ma trận đồng biến chéo
EM
Expectation Maximization
giải thuật khả năng cực đại
FAR
false acceptance rate
tỷ lệ chấp nhận sai số
FRR
false rejection rate
K-Nearest- Neighbours
query
Truy vấn lân cận K gần nhất
3
LVQ
Learning Vector
Quantization
lƣợng tử hóa vectơ học
MARS
Multimedia Analysis and
Retrieval System
hệ thống chỉ mục và phân tích đa
phƣơng tiện
MDC
Multimedia Data Cartridge
môđun chứa dữ liệu đa phƣơng
tiện
Operating System
hệ điều hành
QoS
Quality of Service
chất lƣợng dịch vụ
RBF
Radial Basis Function
hàm cơ sở xuyên tâm
RF
Relevance Feedback
truy vấn phản hồi thích hợp
SDK
Software Development Kit
công cụ phát triển phần mềm
SR
tin, nhƣng nhiều ứng dụng âm thanh và đa phƣơng tiện còn đem lại nhiều lợi
ích hơn thế nếu thể hiện bằng nội dung của chúng thay cho việc mô tả hoặc
dùng các từ khóa.
Hiện nay, một số hãng tìm kiếm khổng lồ trên mạng nhƣ Yahoo,
Google hay Alta Vista đã và đang triển khai các hoạt động nghiên cứu theo
cách tìm kiếm theo nội dung thay vì từ khóa. Yahoo bắt đầu thử nghiệm dịch
vụ tìm kiếm tệp âm thanh Yahoo Audio () từ
ngày 2 tháng 8 năm 2005. Dịch vụ này cho phép ngƣời sử dụng tìm kiếm 50
triệu bài hát và tệp âm thanh miễn phí qua Internet. Ngƣời dùng chỉ cần gõ
5
những từ hoặc cụm từ liên quan đến bài hát và Yahoo sẽ liệt kê một danh sách
các file âm thanh, cho phép khách hàng nghe trực tuyến. Công cụ tìm kiếm
âm nhạc này hoạt động dựa trên khả năng đọc nội dung đƣợc nhúng trong tệp
âm thanh, còn đƣợc gọi là metadata, để phân loại kết quả tìm kiếm. Hãng
IBM dự định cung cấp cho các nhà phát triển phần mềm chƣơng trình UIMA
(Unstructured Information Management Architecture - Sơ đồ quản lý thông
tin không kết cấu), một công nghệ có khả năng phân tích văn bản và những
file nghe nhìn khác để hiểu những ý nghĩa, mối quan hệ và số liệu tiềm ẩn bên
trong tài liệu ( Hiện nay, khoảng
15 công ty đã quyết định sử dụng UIMA để tìm kiếm và phân tích văn bản
cho những dữ liệu đa phƣơng tiện của họ. IBM cũng đồng thời xây dựng phần
mềm WebSphere OmniFind nhằm hỗ trợ ngƣời sử dụng thực hiện tìm kiếm
thông tin đa phƣơng tiện trên nhiều định dạng và ngôn ngữ khác nhau nhƣ
trong cơ sở dữ liệu, e-mail, và file âm thanh. Phƣơng pháp tìm kiếm dữ liệu
kiểu mới là kết quả hơn 4 năm phát triển của IBM và UIMA đã đƣợc phổ biến
rộng rãi vào cuối năm 2005. Quaero (tiếng Latin nghĩa là tìm kiếm) là một dự
án về công cụ tìm kiếm đa phƣơng tiện của châu Âu (Pháp và Đức). Các
Chƣơng III. PHÁT TRIỂN ỨNG DỤNG TÌM ÂM THANH TRÊN CƠ SỞ NỘI
DUNG.
7
Chƣơng I.
TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU ĐA PHƢƠNG TIỆN
- MỘT SỐ KHÁI NIỆM CƠ SỞ
Trong những năm gần đây, nhu cầu sử dụng thông tin đa phƣơng tiện
ngày càng lớn. Chúng đƣợc sử dụng trong đời sống hàng ngày của con ngƣời
và đem lại hiệu quả mạnh hơn nhiều so với các dữ liệu truyền thống khác.
Mặt khác, sự tiến bộ của công nghệ truyền thông và máy tính đã tạo điều kiện
cho thông tin đa phƣơng tiện phát triển mạnh mẽ, có thể kể đến nhƣ:
Tốc độ máy tính
Tốc độ máy tính đƣợc cải thiện đáng kể. Theo thống kê, cứ sau 18 tháng,
tốc độ của máy tính tăng lên gấp đôi.
Băng thông mạng ngày càng lớn
Ngƣời ta ƣớc tính, cứ sau mỗi 12 tháng, băng thông của các hệ thông
tin tăng gấp ba lần.
Sự xuất hiện đa dạng của các thiết bị vào/ ra kỹ thuật số
Ti vi, CD, máy ảnh, máy ghi hình kỹ thuật số... là các thiết bị cho phép
dễ dàng tạo lập, sửa đổi, truyền, sao chép và quản lý các dữ liệu đa phƣơng
tiện.
Các hệ thống cơ sở dữ liệu đa phƣơng tiện là mục tiêu và đem lại lợi
ích cho nhiều đối tƣợng sử dụng. Ví dụ, các cá nhân lƣu trữ và sở hữu một
lƣợng lớn dữ liệu đa phƣơng tiện trên máy tính của mình, họ có thể sử dụng
nói đơn sắc đƣợc lƣu với định dạng .WAV trong thời gian 1 phút có kích
thƣớc khoảng 2640 kByte (đã nén) hoặc xấp xỉ 6-8 MB (chƣa nén). Một cảnh
video rất ngắn chứa hàng trăm bức ảnh với kích thƣớc có thể lên đến hàng
chục MB..., xem bảng minh họa:
9
Kiểu
Mô tả
Kích thƣớc
Plain text
khoảng 200 từ (1000 ký tự)
1 kByte
tệp Winword
khoảng 200 từ (1000 ký tự)
15 kByte
Ảnh GIF
khoảng 200 từ (1000 ký tự, 210 x 100mm) 10 kByte
Đồng bộ
Một số ứng dụng đa phƣơng tiện sử dụng hệ thống thời gian thực. Hệ
thống thời gian thực là hệ thống mà trong đó sự đúng đắn của việc thực hiện
thao tác không chỉ phụ thuộc vào việc thu đƣợc kết quả đúng mà còn phải đƣa
ra kết quả đúng thời điểm. Ví dụ, các tệp phim, bài giảng, truyền hình trực
tiếp, hội nghị, hội thảo qua mạng (video conference), xem video theo yêu cầu
(video on demand) ... thì yêu cầu hình ảnh phải đƣợc đồng bộ với âm thanh.
Chất lượng dịch vụ (Quality of Service- QoS)
QoS là một tập các yêu cầu về chất lƣợng đối với các hoạt động tổng
thể chung của một hoặc nhiều đối tƣợng. Các tham số QoS mô tả tốc độ và độ
tin cậy của việc truyền dữ liệu nhƣ thông lƣợng, trễ, tỷ lệ lỗi... Các ứng dụng
đa phƣơng tiện khi truyền qua mạng thƣờng đòi hỏi yêu cầu cao về QoS, nhất
là các dịch vụ đa phƣơng tiện tƣơng tác thời gian thực nhƣ điện thoại internet,
hội thảo qua mạng. Các dịch vụ này thƣờng đòi hỏi khắt khe về độ trễ (tối đa
là vài trăm ms). Để xác định QoS, ngƣời ta dựa vào các tham số sau đây:
- Độ trễ: là khoảng thời gian cực đại để truyền dữ liệu.
- Jitter: là độ biến đổi độ trễ.
- Thông lƣợng: là tổng số dữ liệu cực đại đƣợc truyền đi trên một đơn
vị thời gian.
- Tỷ số mất tin: là số dữ liệu cực đại bị mất trên một đơn vị thời gian.
1.1.2. Hệ thống quản trị cơ sở dữ liệu đa phƣơng tiện
(MMDBMS)
Hệ thống quản trị cơ sở dữ liệu đa phƣơng tiện là hệ thống tổ chức và
lƣu giữ gồm các dữ liệu truyền thống và các loại dữ liệu trừu tƣợng.
Một định nghĩa khác, theo Libor Janek và Goutham Alluri, hệ thống
quản trị cơ sở dữ liệu đa phƣơng tiện là một cơ cấu tổ chức quản lý các kiểu
11
Quản lý một lượng dữ liệu lớn: hệ thống cần phải có khả năng lƣu trữ
và quản lý lƣợng dữ liệu lớn và thỏa mãn các truy vấn đối với các quan hệ của
dữ liệu.
Vấn đề truyền dữ liệu đa phương tiện dựa trên thời gian thực: điều
khiển việc đọc/ghi dữ liệu liên tục phải đƣợc thực hiện dựa trên thời gian
thực. Do lƣợng dữ liệu có thể là rất lớn (ví dụ, truyền video) nên việc truyền
dữ liệu có thể tốn nhiều thời gian và nó còn đòi hỏi phải đƣợc thực hiện một
cách chính xác.
1.1.3. Truy tìm thông tin
Truy tìm thông tin- Information Retrieval (IR) là kỹ thuật tìm kiếm
thông tin đƣợc lƣu trữ trên máy tính. Đối với dữ liệu đa phƣơng tiện, việc truy
tìm thông tin hiệu quả là dựa trên tìm kiếm tƣơng tự. Hệ thống lƣu trữ một tập
các đối tƣợng đa phƣơng tiện trong cơ sở dữ liệu. Ngƣời dùng đƣa ra các truy
vấn, và hệ thống tìm ra các đối tƣợng tƣơng tự truy vấn trong cơ sở dữ liệu đã
lƣu trữ thỏa mãn yêu cầu của ngƣời dùng. Truy tìm thông tin trong
MMDBMS có một số đặc điểm sau đây:
- Sử dụng một khối lƣợng dữ liệu đặc tả lớn và phức tạp.
- Việc tiếp cận IR chủ yếu dựa trên các đặc trƣng.
- Các dữ liệu thƣờng có kích thƣớc lớn.
- Sự cần thiết phải có các kỹ thuật chỉ mục dữ liệu kích thƣớc lớn để xử
lý các truy vấn một cách hiệu quả và thực hiện nhanh hơn so với phƣơng pháp
tìm kiếm tuần tự.
- Sự cần thiết phải tích hợp các đặc trƣng media phức tạp một cách
thƣờng xuyên (ví dụ, dữ liệu ảnh có thể chứa các đặc trƣng nhƣ: hình dạng,
biểu đồ màu, kết cấu...).
Ý tƣởng của phƣơng pháp tìm kiếm tƣơng tự đƣa ra nhƣ sau:
- Cho một tập các đối tƣợng đa phƣơng tiện trong MMDBMS.
14
c, Mô hình:
Mô hình thao tác MMDBMS nêu trên đƣợc thể hiện nhƣ sau:
Cơ sở dữ liệu
đa phƣơng tiện
Truy vấn thông tin
Trích chọn đặc trƣng
Trích chọn đặc trƣng
Vectơ truy vấn: Q
Vectơ đặc trƣng: P
Tìm kiếm tính tƣơng tự
(Đo khoảng cách D(P,Q))
Kết quả (danh sách các kết quả
có giá trị d nhỏ nhất)
Hình 1. Mô hình thao tác MMDBMS
d, Tính chất:
Cho P và Q là hai đối tƣợng trong không gian Metric. Khoảng cách
D(P,Q) đo tính tƣơng tự của P và Q có một số tính chất sau đây:
- Tính đối xứng (Symmetry):
D(P,Q) = D(Q,P)
tả nhƣ sau:
- Ngƣời dùng đặc tả một đối tƣợng truy vấn Q và một sai số chấp
nhận đƣợc.
- Hệ thống tìm ra các đối tƣợng nào trong tập hợp có khoảng cách trong
giới hạn từ đối tƣợng truy vấn.
O
P
D(P,O)
Q
D(P,Q)
Hình 2. Minh họa phương pháp truy vấn dải
Loại bỏ P nếu D(P,Q) > , loại bỏ O nếu D(P,Q)-D(P,O)>
do D(O,Q)>=D(P,Q)-D(P,O).
16
Tuy nhiên, kiểu truy vấn dải có nhƣợc điểm là có thể hoặc đƣa ra quá
nhiều, hoặc không đƣa ra kết quả nào nếu giá trị sai số không hợp lý, xem
hình minh hoạ dƣới đây:
Hình 3. a, quá nhiều kết quả
b, không có kết quả
sai số chấp nhận đƣợc.
- Hệ thống tìm kiếm xấp xỉ K đối tƣợng tƣơng tự nhất với đối tƣợng
truy vấn từ MMDBMS: K = |A|, ADB, PA, P'DB-A; D(P,Q)
(1+)D(P',Q)
Truy vấn phản hồi thích hợp RF (Relevance Feedback)
Truy vấn phản hồi thích hợp là phƣơng pháp dựa trên quyết định của
ngƣời dùng về tính thích hợp của các kết quả, từ đó điều chỉnh truy vấn sao
cho thích hợp. Kiến trúc chung của phƣơng pháp RF đƣợc mô tả nhƣ sau:
người dùng
Giao diện người dùng đồ họa
(GUI):
Cơ sở dữ liệu
- Đƣa ra câu truy vấn
- Xem kết quả
- Chọn lọc kết quả
Truy vấn và phản hồi
Phân tích đối tượng
Trích chọn đặc trưng
Trích chọn đặc trưng
và tiếp thu phản hồi
Sắp xếp các kết quả
và hiển thị
Lọc truy vấn
Dựa vào yêu cầu cụ thể của ứng dụng để lƣu dữ liệu và các đặc trƣng
của chúng vào hệ thống.
Bƣớc 4. Tổ chức media
Tổ chức các đặc trƣng để phục vụ việc truy tìm. Ví dụ, chỉ mục các đặc
trƣng với các cấu trúc giúp khai thác hiệu quả.
Bƣớc 5. Xử lý truy vấn media
Là quá trình làm cho thích nghi với cấu trúc chỉ mục. Thiết kế các giải
thuật tìm kiếm hiệu quả.
Kiến trúc chung cho một MMDBMS đƣợc minh họa nhƣ sau:
19
Trích
chọn đặc
trƣng
Xây dựng
truy vân đặc
trƣng
Chỉ mục
MM
DB
MS
Các đối tƣợng media
nén
hay từ bất kỳ thiết bị nhập kỹ thuật số khác. Dữ liệu đa phƣơng tiện
cũng có thể đƣợc lấy từ các tệp đã lƣu sẵn.
- Bƣớc 2. Sau khi dữ liệu đa phƣơng tiện đƣợc bổ sung, nội dung
của chúng đƣợc trích chọn bằng công cụ trích chọn đặc trƣng.
20
- Bƣớc 3. Các dữ liệu đa phƣơng tiện đƣợc bổ sung cùng với các
đặc trƣng của nó, thông qua bộ quản lý truyền tin sẽ đƣợc gửi về máy
chủ.
- Bƣớc 4. Tại máy chủ, các đặc trƣng sẽ đƣợc bố trí về các vị trí
phù hợp dựa vào lƣợc đồ chỉ số hóa.
- Bƣớc 5. Các dữ liệu đa phƣơng tiện bổ sung cùng với các đặc
trƣng và chỉ số hóa phát sinh đƣợc lƣu vào bộ quản lý lƣu trữ.
Truy vấn
Thao tác truy vấn đƣợc thực hiện theo trình tự các bƣớc nhƣ sau:
- Bƣớc 1. Tại giao diện ngƣời dùng, ngƣời sử dụng truy vấn
thông tin thông qua một thiết bị nhập nào đó, thông qua tệp đã đƣợc lƣu trƣớc
đó hoặc có thể lấy trực tiếp từ cơ sở dữ liệu MMDBMS.
- Bƣớc 2. Nếu truy vấn của ngƣời sử dụng không đƣợc lấy trực
tiếp từ cơ sở dữ liệu trong MMDBMS thì thực hiện nhƣ sau:
+ Thực hiện trích chọn đặc trƣng truy vấn
+ Gửi các trích chọn đặc trƣng đó đến máy chủ
+ Môtơ chỉ số hóa sẽ tìm kiếm các mục dữ liệu phù hợp với truy
vấn trong cơ sở dữ liệu
+ Hiển thị kết quả đến ngƣời sử dụng thông qua giao diện ngƣời
dùng.
1.3. MỘT SỐ HỆ THỐNG CƠ SỞ DỮ LIỆU ĐA PHƢƠNG TIỆN
HIỆN CÓ