K
hoa C
N
TT - Ð
H
KHTN TP.H
C
M
K
hoa C
N
TT - Ð
H
KHTN TP.H
C
M
-i-
MỤC LỤC
LỜI MỞ ĐẦU..................................................................................................... 1
CHƯƠNG 1 : MỞ ĐẦU..................................................................................... 3
1.1 Lý do chọn đề tài:................................................................................. 4
1.2 Mục đích nghiên cứu:........................................................................... 5
1.3 Đối tượng nghiên cứu:.......................................................................... 5
1.4 Phạm vi nghiên cứu:............................................................................. 6
CHƯƠNG 2 : TỔNG QUAN............................................................................. 7
2.1 Giới thiệu:............................................................................................. 8
2.2 Mô tả hệ thống ẩn dữ liệu:.................................................................. 11
2.3 Phân loại các kỹ thuật ẩn dữ liệu:....................................................... 13
2.4 Các ứng dụng của ẩn dữ liệu: ............................................................. 15
2.5 Các hướng nghiên cứu về ẩn dữ liệu: ................................................. 16
2.5.1 Trên văn bản:.................................................................................. 16
3.3.1.1 Nhúng dữ liệu bằng cách dịch chuyển dòng:.......................... 24
3.3.1.2 Nhúng dữ liệu bằng cách dịch chuyển từ:............................... 25
3.3.1.3 Nhúng dữ liệu đặc trưng:........................................................ 26
3.3.2 Các kỹ thuật của Bender:................................................................ 26
3.3.2.1 Phương pháp khoảng trắng mở (open space methods): .......... 27
3.3.2.2 Phương pháp cú pháp (syntactic methods): ............................ 29
3.3.2.3 Phương pháp ngữ nghĩa (semantic methods):......................... 30
3.4 Các kỹ thuật ẩn dữ liệu trên ảnh tĩnh:................................................. 30
3.4.1 Các hướng tiếp cận của các kỹ thuật ẩn dữ liệu trên ảnh tĩnh:........ 31
3.4.1.1 Hướng tiếp cận chèn vào bit LSB:.......................................... 31
3.4.1.2 Phương pháp ngụy trang và lọc:............................................. 32
3.4.1.3 Các thuật toán và phép biến đổi:............................................. 33
3.4.2 Các kỹ thuật ẩn dữ liệu trên ảnh tĩnh:............................................. 33
3.4.2.1 Ẩn dữ liệu với tỉ lệ bit thấp:.................................................... 34
3.4.2.2 Mã hóa với dữ liệu bit cao – Mã hóa affine:........................... 39
3.5 Các kỹ thuật ẩn dữ liệu trên mô hình ba chiều: .................................. 53
3.5.1 Lý thuyết của ẩn dữ liệu trên mô hình ba chiều:............................. 53
3.5.1.1 Các yêu cầu của ẩn dữ liệu trong mô hình ba chiều: .............. 53
K
hoa C
N
TT - Ð
H
KHTN TP.H
C
M
K
hoa C
N
TT - Ð
N
TT - Ð
H
KHTN TP.H
C
M
K
hoa C
N
TT - Ð
H
KHTN TP.H
C
M
-iv-
4.6.1.2 Phương án giải quyết:............................................................. 83
4.6.2 Phương pháp áp dụng thuật giải TVR: ........................................... 91
4.6.2.1 Phát biểu bài toán: .................................................................. 91
4.6.2.2 Phương án giải quyết:............................................................. 91
4.7 Hướng dẫn sử dụng chương trình:...................................................... 94
CHƯƠNG 5 : KẾT QUẢ THỰC NGHIỆM VÀ HƯỚNG PHÁT TRIỂN101
5.1 Kết quả thực nghiệm: ....................................................................... 102
5.1.1 Kết quả thực nghiệm trên ảnh tĩnh: .............................................. 102
5.1.2 Kết quả thực nghiệm trên mô hình ba chiều:................................ 107
5.2 Các khó khăn khi thực hiện luận văn:............................................... 113
5.3 Hướng phát triển: ............................................................................. 113
5.3.1 Hướng phát triển trên ảnh tĩnh:..................................................... 113
5.3.2 Hướng phát triển trên mô hình ba chiều:...................................... 113
TÀI LIỆU THAM KHẢO ............................................................................. 115
K
Hình 11. Sự sắp xếp các mảnh ........................................................................... 38
Hình 12. Một ví dụ về phương pháp mã hóa kết cấu khối.................................. 38
Hình 13. Nhúng 3 bit vào ảnh 6 x 6 ................................................................... 44
Hình 14. Ảnh F, ma trận khóa K và ma trận trọng lượng W. ............................. 50
Hình 15. Ảnh F sau khi thực hiện toán tử XOR và ảnh chứa bị thay đổi dữ liệu51
Hình 16. Các phương pháp sắp xếp các đối tượng nhúng. (a) sắp xếp toàn cục,
(b) sắp xếp cụcbộ, (c) sắp xếp theo chỉ số ......................................................... 58
Hình 17. Các đặc trưng đồng dạng trong tam giác ............................................. 60
Hình 18. Cấu trúc một MEP............................................................................... 62
Hình 19. Lưới tam giác và các MEP với dữ liệu nhúng là "data hiding"............ 63
K
hoa C
N
TT - Ð
H
KHTN TP.H
C
M
K
hoa C
N
TT - Ð
H
KHTN TP.H
C
M
-vi-
Hình 20. Cạnh xác định tứ diện chính là bốn đỉnh của hai tam giác có cạnh này là
cạnh chung ......................................................................................................... 65
Hình 21. Quá trình tạo chuỗi tỉ số thể tích.......................................................... 66
hoa C
N
TT - Ð
H
KHTN TP.H
C
M
-vii-
Hình 41. Thử nghiệm thuật giải TSQ trên mô hình con chó với sự thay đổi trên c
......................................................................................................................... 110
Hình 42. Thử nghiệm thuật giải TVR trên mô hình con mèo với sự thay đổi trên
d ....................................................................................................................... 111
Hình 43. Thử nghiệm thuật giải TVR trên mô hình con chó với sự thay đổi trên c
......................................................................................................................... 112
K
hoa C
N
TT - Ð
H
KHTN TP.H
C
M
K
hoa C
N
TT - Ð
H
KHTN TP.H
C
M
được sự quan tâm của các nhà sản xuất, phân phối thông tin kỹ thuật số và kỹ
thuật ẩn dữ liệu là kỹ thuật được sử dụng trong các ứng dụng bảo vệ bản quyền,
nhúng dấu hiệu đặc trưng, truyền thông mật,… Tuy nhiên, tại Việt Nam, các ứng
dụng trên chưa có nhiều. Luận văn này được thực hiện với sự mong muốn được
thử nghiệm các kỹ thuật ẩn dữ liệu trong truyền thông mật. Trong phạm vi một
luận văn có sự giới hạnvề thời gian, một đề tài tương đối mới tại Việt Nam, một
nguồn tài liệu không nhiều, tôi thực hiện luận văn này chắc hẳn không thiếu sự
sai sót, tôi mong muốn được thử nghiệm các kỹ thuật mới và mong muốn sự chỉ
dạy của các thầy cô và các ý kiến của các bạn. Luận văn được trình bày theo cấu
trúc sau:
Chương 1 trình bày tổng quan về nội dung của luận văn, các đối tượng và
các phạm vi nghiên cứu trong luận văn.
Chương 2 bao gồm khái niệm về ẩn dữ liệu, các ứng dụng của ẩn dữ liệu
và phân loạicác kỹ thuật ẩn dữ liệu. Đồng thời chương 2 còn giới thiệu một số
hướng nghiên cứu trên văn bản và ảnh tĩnh của các nhà nghiên cứutại các phòng
thí nghiệm nổi tiếng trên thế giới.
Chương 3 đi sâu vào lý thuyết của các kỹ thuật ẩn dữ liệu, giới thiệu một
số kỹ thuật ẩn dữ liệu trên văn bản, ảnh tĩnh và mô hình ba chiều. Các yếu tố
trong ẩn dữ liệu cũng được đề cập trong chương 3.
K
hoa C
N
TT - Ð
H
KHTN TP.H
C
M
K
hoa C
N
M
-3-
CHƯƠNG 1 : MỞ ĐẦU
Chương mở đầu trình bày về lý do chọn đề tài này, mục đích của đề tài,
các vấn đề, các đối tượng được luận văn đề cập đến, đồng thời nói rõ phạm vi
nghiên cứu trong đề tài.
K
hoa C
N
TT - Ð
H
KHTN TP.H
C
M
K
hoa C
N
TT - Ð
H
KHTN TP.H
C
M
-4-
1.1 Lý do chọn đề tài:
Ngày nay, cùng với sự phát triển của Internet và sự xuất hiện của các
phương tiện thông tin đại chúng, các định dạng lưu trữ số hóa nhưảnh số, âm
thanh,..., cùng với các thiết bị lưu trữ dung lượng cao như CD-ROM, DVD-
ROM, thì những sự xâm phạm trên hình thức sở hữu trí tuệ ngày càng nhiều và
càng tinh vi. Các hình thức xâm phạm hiện nay là giả mạo, ăn cắp tác phẩm, sử
dụng các tác phẩm của tác giả mà không có bản quyền... Hàng ngày trên mạng
C
M
-5-
Các kỹ thuật ẩn dữ liệu xuất hiện vào thập niên 90 cua thế kỷ XX, và ngày
nay đã trở nên phổ biến. Một dạng quan trọng của ẩn dữ liệu, Steganography, là
một dạng của mã hóa, còn được gọi là mã hóa vô hình, nó đã được phát triển rất
lâu, trước Công Nguyên, nhưng việc ứng dụng Steganography trên dữ liệu số chỉ
mới xuất hiện gần đây. Steganography là một ứng dụng quan trọng trong truyền
thông mật (anonymous communication), đây là phương pháp truyền thông tin
trên các phương tiện thông tin đại chúng nhưng vẫn bảo đảm được tính bảo mật
của thông tin. Truyền thông mật đượcsử dụng chủ yếu trong các hệ thống truyền
thông trong quân đội. Ở Việt Nam, các kỹ thuật và ứng dụng của ẩn dữ liệuchưa
được sự quan tâm thích đáng của các nhà nghiên cứu. Với nhu cầu bảo mật
thông tin, truyền thông các thông điệp mà người trung gian không nhận biết và
không thể giải mã, tôi thực hiện luận văn này nhằmthử nghiệmcác kỹ thuật ẩn
dữ liệu nói chung và Steganography nói riêng hiện đang còn là các kỹ thuậtkhá
mớitạiViệtNam.
1.2 Mục đích nghiên cứu:
Mục đích nghiên cứu của luận văn này nhằm tìm hiểu và đánh giá các kỹ
thuật ẩn dữ liệu và đi sâu vào các kỹ thuật Steganography - kỹ thuật hiện nay
đang được quan tâm trong lĩnh vựctruyền thông mật.
Để minh họa và khảo sát các ưu khuyết điểm của các kỹ thuật
Steganography, tôi tiến hành cài đặt một số kỹ thuật Steganography trên ảnh tĩnh
và mô hình ba chiều.
1.3 Đối tượng nghiên cứu:
Các đối tượng hiện nay đang phổ biến để nhúng dữ liệu vào là văn bản,
ảnh tĩnh, âm thanh và video vì các dạng thức số này được phổ biến trên Internet
K
hoa C
N
đưa ra một số điều chỉnh, phát kiến trên các kỹ thuật.
------------------------------------------------
K
hoa C
N
TT - Ð
H
KHTN TP.H
C
M
K
hoa C
N
TT - Ð
H
KHTN TP.H
C
M
-7-
CHƯƠNG 2 : TỔNG QUAN
Chương 2 giới thiệutổng quan về ẩn dữ liệu, phân loại của các kỹ thuật ẩn
dữ liệu. Chương 2 trình bày các hướng nghiên cứu về ẩndữ liệu của các nhà
nghiên cứuvàcácứng dụng của ẩn dữ liệu.
K
hoa C
N
TT - Ð
H
KHTN TP.H
C
K
hoa C
N
TT - Ð
H
KHTN TP.H
C
M
K
hoa C
N
TT - Ð
H
KHTN TP.H
C
M
-9-
Năm 1992 1993 1994 1995 1996 1997 1998
Số lượng
xuất bản
22 4 132964103
Bảng 1. Số lượng các ấn phẩm về kỹ thuật ẩn dữ liệu
Ẩn dữ liệu (data hiding) là thao tác nhúng dữ liệu vào các dạng lưu trữ số
hóa như tập tin văn bản, tập tin ảnh nhị phân, các tập tin âm thanh,..., nhằm mục
đích nhận diện, chú thích, bảo vệ bản quyền tác giả và truyền thông mật. Ẩn dữ
liệu bao gồm hai quá trình: nhúng dữ liệu (embedding) vào đối tượng nhúng và
rút trích dữ liệu (extracting) từ đối tượng chứa. Quá trình nhúng dữ liệu và quá
trình rút trích dữ liệu còn được gọi là quá trình mã hóa và quá trình giải mã. Đối
tượng nhúng là đối tượng được chọn để nhúng dữ liệu vào, đối tượng nhúng có
ký hiệu Cover <data type>, trong đó data type là loại đối tượng (văn bản, ảnh
Những tác động không mong muốn trong việc truy cập dữ liệu dễ dàng là
sự gia tăng khả năng xâm phạm bản quyền tác giả, việc giả mạo có hay không có
thay đổi nội dung dữ liệu. Mục đích của các phương pháp ẩn dữ liệu là bảo vệ
quyền sở hữu trí tuệ, cung cấp phương tiện chú thích và truyền thông mật. Các
dữ liệu nhúng, thường là thông tin về bản quyền, được nhúng vào các dạng
truyền thông như văn bản, ảnh, âm thanh với số lượng tín hiệu bị suy biến tối
thiểu để không ảnh hưởng nhiều đến đối tượng chứa. Đối với ứng dụng truyền
thông mật, dữ liệu còn phải vô hình với các hệ thống tri giác của người, ví dụ dữ
liệu nhúng trong ảnh phải vô hình vớihệ thống thị giác HVS (Human Visuality
System), với âm thanh phải không bị hệ thống thính giác HAS (Human
Auditory System) nhận ra. Các phương pháp này ngăn chặn hay điều chỉnh việc
truy cập đến dữ liệu nhúng trong tín hiệu chứa, và trên hết là phải bảo đảm dữ
liệu nhúng không bị xâm phạm và có thể phục hồi lại. Tín hiệu chứa là tín hiệu,
dữ liệu của đối tượng chứa.
Các ứng dụng của ẩn dữ liệu phụ thuộc vào số lượng dữ liệu được nhúng
và sự cần thiết của việc các dữ liệu nhúng không bị biến đổi qua các thao tác trên
đối tượng chứa. Bất cứ vị trí nào trong tín hiệu chứa đều có thể là mục tiêu của
sự di chuyển hay phá hủy trong các chuẩn nén mất dữ liệu. Để có hiệu quả lớn,
các kỹ thuật ẩn dữ liệu phải nhúng dữ liệu vào các vị trí mà không bị thuật toán
nén xén mất.
K
hoa C
N
TT - é
H
KHTN TP.H
C
M
K
hoa C
TT - Ð
H
KHTN TP.H
C
M
K
hoa C
N
TT - Ð
H
KHTN TP.H
C
M
-12-
Thuật toán rút trích
M and/or I
Test image I”
Key (K)
M hay độ tin cậy
Hình 2. Q trình rút trích dữ liệu
Q trình từ nhúng dữ liệu sang rút trích dữ liệu ẩn từ đối tượng chứa
được mơ tả bằng sơ đồ sau:
Quá trình nhúng
dữ liệu
Dữ liệu được nhúng
Dữ liệu được nhúng
Chữ cái,
con số,
các mẫu,...
Văn bản,
AnonymityCovert channels Copyright
marking
Linguistics
steganography
Technical
steganography
Robust copyright
marki ng
Fragile
wat ermarkin
g
Fingerprinting
Watermarking
Imperceptible
watermarking
Visible
wat ermarkin
g
Hình 4. Sơđồphân cấp các kỹ thuật ẩn dữ liệu
Trong đó mục đích của Steganography là che dấu sự truyền thông giữa
người gửi và người nhận, không để người thứ ba biết được, người thứ ba tấn
công vào hệ thống thành công khi sự truyền thông đó đã bị phát hiện. Copyright
marking có các yêu cầu thêm về tính bền vững, chống lại các xâm phạm trên đối
tượng chứa. Dấu hiệu bản quyền không cần thiếtphải vô hình, một số các hệ
thống sử dụng các dấu hiệutrực quan là nhúng các dấu hiệu logo vào sản phẩm.
Thông thường trong Watermarking, đối tượng chứa được gọi là đối tượng
được đánh dấu. Các dấu hiệu yếu ớt (trong Fragile watermarking) sẽ bị hủy diệt
K
hoa C
N
trong các ứng dụng như DVD, khi người sử dụng cần được biết nơi nào cho phép
sao chép nội dung, nơi nào không. Hệ thống kín và bán kín còn được gọi là hệ
thống non-blind.
Hệ thống công khai (public system): còn được gọi là hệ thống blind,
đầu vào của quá trình rút trích dữ liệu không cần cảđối tượng gốc lẫndấu hiệu
M. Hệ thống công khai được sử dụng nhiều hơn hệ thống kín và bán kín, các
thuật giải trong hệ thống công khai còn được sử dụng trong hệ thống kín và bán
kín.
K
hoa C
N
TT - Ð
H
KHTN TP.H
C
M
K
hoa C
N
TT - Ð
H
KHTN TP.H
C
M
-15-
Hệ thống không đối xứng (asymmetric system): còn được gọi là hệ
thống khóa công khai (public key system),mọi người dùng đều có thểđọc
được dấu hiệu nhưng không thể xóa nó.
2.4 Các ứng dụng của ẩn dữ liệu:
Dưới đây là một số các ứng dụng hấp dẫncủa ẩn dữ liệu:
KHTN TP.H
C
M
-16-
Các nhà kinh doanh sử dụng các kỹ thuật giả mạo email để gửi một số
lượng lớn các thông điệp quảng cáo đến người dùng và có khả năng tránh sự
phản ứng từ các người dùng giận dữ.
2.5 Các hướng nghiên cứu về ẩndữ liệu:
Có thể nói ẩn dữ liệu là một vấn đề đang được các nhà khoa học quan tâm
rất nhiều, nhất là các trung tâm nghiên cứu và các công ty điện tử, điển hình là
phòng nghiên cứu của IBM, phòng nghiên cứu của Panasonic, phòng nghiên cứu
của MIT,...Sau đây là một số kỹ thuật đã được áp dụng:
2.5.1 Trên văn bản:
Các nhà nghiên cứu kỹ thuật ẩn dữ liệu trên văn bản nổi bật là Bender của
viện MIT – USA [3][4], ông sử dụng số lượng khoảng trắng giữa các từ, phương
pháp ngữ nghĩa củatừ và cú pháp trong câu để nhúng dữ liệu. Tuy nhiên, các
phương pháp ẩn dữ liệu trên văn bản của ông không nhúng được nhiều dữ liệu và
dễ gây chú ý cho người khác.
Ngoài ra còn có nhà nghiên cứuBrassil[5]của phòng thí nghiệm Bell,
chuyên nghiên cứu về các kỹ thuật ẩn dữ liệu trên vănbản, Brassil sử dụng
khoảng cách giữa các từ, các câu và các đặc trưng của ký tự để nhúng dữ liệu.
Các phương pháp này có nhược điểm trong trường hợpvăn bản được canh lề và
sắp chữ lại.
2.5.2 Trên ảnh tĩnh:
Adelson[3][4] nghiên cứu một phương pháp ẩn dữ liệubằng cách khai
thác sự nhạy cảm của mắt người đối nghịch với các vùng dữ liệu có tần số xuất
hiện cao. Thực hiện trên ảnh tĩnh được mã hóa theo hình chóp, Adelson thay thế
K
hoa C
N
lại, nén và chuyển mã.
Những kỹ thuật khác như Hecht’s Data-Glyph[3][4], thêm một mã kẻ sọc
vào ảnh, được bố trí để xác định trướcmột tập hợp các biến đổi hình học. Luồng,
một kỹ thuật hứa hẹn trong lĩnh vực ẩn dữ liệu, khó bị ngăn chặn và di chuyển
dữ liệu, nhưng tín hiệu chứa dễ bị phát hiện và suy biến.
------------------------------------------------