Danh sách các cán bộ tham gia thực hiện đề tài
(Ghi rõ học hàm, học vị, đơn vị công tác gồm bộ môn, Khoa/Trung tâm)
STT
Tên cán bộ
1
PGS.TS. Đặng Trần Khánh
2
ThS. Nguyễn Văn Đồn
Cơ quan cơng tác
Bộ mơn HTTT, Khoa
KH&KT Máy tính, ĐHBKĐHQG Tp. HCM
Bộ mơn HTTT, Khoa
KH&KT Máy tính, ĐHBKĐHQG Tp. HCM
1
MỤC LỤC
DANH MỤC HÌNH ........................................................................................ 3
DANH MỤC BẢNG........................................................................................ 3
CHƯƠNG 1. GIỚI THIỆU ........................................................................... 4
CHƯƠNG 2. KỸ THUẬT WATERMARKING .......................................... 5
2.1.
CHƯƠNG 4. GIẢI PHÁP ĐỀ XUẤT ......................................................... 15
4.1.
Đặc điểm tiếng Việt ............................................................................. 15
4.2.
Quy tắc nhúng thông tin ..................................................................... 16
4.3.
Quy tắc lấy lại thông tin ..................................................................... 19
CHƯƠNG 5. THỰC NGHIỆM ................................................................... 21
5.1.
Xây dựng phần ứng dụng nhúng thông tin ....................................... 21
5.1.1. Chuyển định dạng từ Microsoft Word sang PostScript ...................... 22
5.1.2. Tạo thông tin bản quyền .................................................................... 23
5.1.3. Nhúng thông tin vào tập tin PostScript .............................................. 23
5.1.4. Chuyển định dạng từ PostScript sang định dạng PDF ........................ 23
5.2.
Xây dựng ứng dụng rút trích thơng tin ............................................. 24
5.3.
Đánh giá .............................................................................................. 25
Hình 4.8 - Quy tắc xử lý phần ký tự dịch chuyển 2 mức ................................. 20
Hình 5.1 - Giao diện nhúng thơng tin .............................................................. 22
Hình 5.2 - Giải thuật lấy lại thông tin đã nhúng .............................................. 24
Hình 5.3 – Giao diện rút trích thơng tin .......................................................... 25
Hình 5.4 – Một đoạn văn bản mẫu .................................................................. 25
Hình 5.5 – Biểu đồ so sánh số lượng bit nhúng được trên các văn bản mẫu .... 26
Hình C.1 – Cơng cụ Doc to Image Converter.................................................. 31
Hình C.2 – Chọn định dạng cho công cụ Doc to Image Converter .................. 32
Hình C.3 – Giao diện nhúng thơng tin............................................................. 32
Hình C.4 – Giao diện chuyển định dạng tập tin ............................................... 33
Hình C.5 – Giao diện rút trích thơng tin .......................................................... 34
DANH MỤC BẢNG
Bảng 4.1 – Bảng chữ cái tiếng Việt ................................................................. 15
Bảng 5.1 - Số liệu số lượng bit có thể nhúng trên các văn bản mẫu ................. 26
3
Chương 1. GIỚI THIỆU
Sự phát triển mạnh của Internet đã tạo nên sự thay đổi lớn trong nhiều
lĩnh vực của đời sống, kinh tế-xã hội. Cùng với sự phát triển này, các công
nghệ mới lần lượt ra đời cho phép thực hiện các thao tác lưu trữ, sao phép và
phân phối các loại dữ liệu như: văn bản, âm thanh, hình ảnh, phim, bản đồ số…
một cách dễ dàng và nhanh chóng. Tuy nhiên, mơi trường Internet và các cơng
nghệ mới cũng tạo thuận lợi cho việc sử dụng trái phép và giả mạo đối với tất
cả các loại dữ liệu, đặc biệt là dữ liệu văn bản ở dạng sách.
Tại Việt Nam số lượng sánh được xuất bản mỗi năm là rất lớn. Theo Cục
Xuất bản (Bộ Thông tin và Truyền thơng), trong năm 2008, tồn ngành đã xuất
bản được trên 25.000 cuốn với gần 280 triệu bản sách. Các đầu sách xuất bản
đủ thể loại từ chính trị, pháp luật, tơn giáo, kinh tế, nghệ thuật, văn hóa... đến
Chương 2. KỸ THUẬT WATERMARKING
2.1.
Giới thiệu watermarking
Gần đây, các phương pháp giấu tin (information hiding) đang được
nghiên cứu và ứng dụng mạnh mẽ trong các lĩnh vực an toàn và bảo mật thông
tin. Giấu tin là kỹ thuật cho phép giấu thơng tin (nhúng thơng tin) vào đối
tượng khác. Ngồi ra, giấu tin cịn có nghĩa là làm cho thơng tin không thể
nhận biết được (imperceptible) hoặc giữ thông tin tồn tại ở trạng thái bí mật [3].
Giấu thơng tin thường có hai hướng tiếp cận là steganography và watermarking
(minh họa trên Hình 2.1). Steganography là kỹ thuật giấu tin vào đối tượng
khác để truyền tin trong trường hợp giao tiếp bí mật [1]. Watermarking là kỹ
thuật giấu tin vào đối tượng nhằm khẳng định bản quyền hoặc chống xuyên tạc
thơng tin [2,4].
Information Hiding
Steganography
Watermarking
Hình 2.1 - Phân loại kỹ thuật giấu tin
Watermarking thực hiện trên dữ liệu dạng số được gọi là digital
watermaking. Thuật ngữ digital watermarking được xuất hiện đầu tiên vào năm
1993, khi Tirkel đưa ra hai phương pháp giấu tin trên ảnh [4] (hai phương pháp
này dựa trên việc thay đổi giá trị các bit màu có trọng số thấp). Kỹ thuật digital
watermarking là một lĩnh vực nổi bật trong lĩnh vực khoa học máy tính, mật
(copy control)… Các ứng dụng của digital watermarking được trình bày cụ thể
dưới đây:
− Bảo vệ bản quyền: watermarking được sử nhiều nhất trong lĩnh vực
bảo vệ bản quyền [1]. Thơng tin bản quyền (thơng tin bí mật) được
nhúng vào sản phẩm (phương tiện chứa) dùng làm bằng chứng cho
quyền sở hữu sản phẩm. Thông tin bản quyền được sử dụng trong
trường hợp cần giải quyết tranh chấp hoặc cần chứng minh quyền sở
hữu sản phẩm. Watermarking để bảo vệ bản quyền cần phải có độ bền
vững cao [15].
− Chứng thực nội dung: watermarking được ứng dụng trong việc làm
bằng chứng xác định nội dung dữ liệu là đúng nguyên bản, chưa bị
thay đổi. Tránh trường hợp dữ liệu bị thay đổi với mục đích xấu hay
cịn gọi là xun tạc nội dung [3].
− Dán nhãn sản phẩm: watermarking dùng để ghi thông tin dùng để
nhận diện ra nguồn gốc nhà sản xuất (creator), thông tin người sử
dụng (recipient), số hiệu sản phẩm (serical code)… Thông tin nhận
này diện này phải đặc trưng, duy nhất cho từng loại sản phẩm [15].
− Theo dõi phát sóng: hệ thống theo dõi phát sóng dùng để tự động giám
sát việc phát sóng có đúng nội dung, thời lượng và thời điểm hay
không. Hệ thống này cần có một bộ phận nhận tín hiệu phát sóng và so
sánh với tín hiện gốc đã được lưu trữ trước đó. Việc so sánh này dựa
vào thơng tin đã nhúng trong tín hiệu phát sóng bằng kỹ thuật
watermarking. Hệ thống theo dõi phát sóng được ứng dụng trong
trường hợp tổ chức đăng ký quảng cáo nhằm mục đích theo dõi được
tình trạng thơng tin quảng cáo trên các phương tiện thông tin đại
chúng [3].
− Điều khiển sao chép: watermarking có thể được sử dụng trong các hệ
thống phân phối dữ liệu đa phương tiện. Trong trường hợp này
watermarking được dùng để điều khiển sao chép đối với các thiết bị
đọc ghi dữ liệu. Các thiết bị đọc ghi cần phải có thêm bộ phận phát
chuyển dạng thích hợp (W) trước khi nhúng vào dữ liệu chứa (X).
W=h(I)
Để đảm bảo tính bí mật có thể sử dụng thêm khố bí mật K.
W=h(I,K)
Nếu cần xây dựng thơng tin nhúng đặc trưng cho từng bảo sao dữ liệu
chứa thì sử dụng thêm dữ liệu chứa gốc để tạo thông tin nhúng.
W=h(I,K,X)
− Xây dựng phương pháp nhúng thông tin vào sản phẩm (watermark
encoder). Nếu việc nhúng dữ liệu vào dữ liệu chứa khơng cần sử dụng
khố (K) thì:
Y=f(X,W)
Nếu việc nhúng dữ liệu vào phương tiện chứa có sử dụng khố (K) thì:
Y=f(X,K,W)
7
Trên Hình 2.3 thể hiện ngun lý nhúng thơng tin vào dữ liệu. Để
nhúng thông tin cần phải cung cấp thơng tin cần nhúng (W), dữ liệu
chứa gốc (X). Khố K có thể được sử dụng hoặc khơng.
W
K
WATERMARK
Y
ENCODER
X
Hình 2.2 - Nguyên lý nhúng thông tin
(X) hoặc/và khố bí mật (K).
8
2.4.
Phương pháp đánh giá giải pháp watermarking
Các kỹ thuật digital watermarking được đánh giá dựa trên các yêu cầu:
độ bền vững của thông tin (robustness), độ bảo mật (security) và độ ẩn thơng
tin (invisibility) (như minh họa trên Hình 2.2). Kỹ thuật digital watermarking
đạt được các yêu cầu này càng cao càng tốt, nhưng tăng chất lượng một yêu cầu
thì các yêu cầu khác sẽ bị ảnh hưởng [4,9].
Robustness
Security
Invisibility
Hình 2.4 - Các yêu cầu đối với watermarking
Độ bền vững thông tin là khả năng tồn tại của thông tin nhúng trong dữ
liệu chứa (sản phẩm). Dữ liệu chứa sau khi được nhúng thơng tin có thể sẽ chịu
nhiều sự biến đổi. Ví dụ dữ liệu hình ảnh có thể phải chịu các phép biến đổi
như: thay đổi kích thước ảnh (resizing), cắt xét ảnh (cropping), quay
ảnh(rotation), v.v. Các giải pháp watermarking có độ bền vững cao thì thơng tin
nhúng trong dữ liệu chứa vẫn có thể tồn tại và lấy ra được mặc dù phương tiện
chứa bị biến đổi.
Độ bảo mật là khả năng bảo vệ thông tin nhúng trong dữ liệu chứa. Các
liệu hình ảnh, dịch chuyển không gian và thời gian trong dữ liệu phim.
− Hình thức tấn cơng nhúng lại thơng tin sẽ thực hiện nhúng thơng tin
khác vào dữ liệu đã có thơng tin bí mật. Dữ liệu có thể bị nhúng lại
nhiều lần. Khi nhúng lại thơng tin có thể thơng tin nhúng ban đầu bị
hư hỏng, sai lạc, hoặc vô hiệu hóa [1]. Nhiều khi thơng tin nhúng lại
cùng tồn tại với thơng tin nhúng trước đó.
− Hình thức tấn cơng gỡ bỏ thơng tin nhúng cần phải phân tích dữ liệu
đã nhúng thơng tin. Từ đó tìm ra thơng tin đã nhúng và gỡ bỏ thơng tin
này.
Các hình thức tấn cơng gây nhiễu, vơ hiệu hóa thơng tin đã nhúng và
nhúng lại thơng tin là những hình thức tấn cơng dễ thực hiện. Đồng thời, ba
hình thức tấn cơng này không cần phải quan tâm tới thông tin đã nhúng và
phương pháp đã nhúng trước đó. Hình thức tấn cơng gỡ bỏ thơng tin đã nhúng
là hình thức tấn cơng phức tạp nhất và có xác suất thành cơng khơng cao [1].
Chương 3. CÁC NGHIÊN CỨU LIÊN QUAN
3.1.
Ngoài nước
Dữ liệu văn bản (text document) là dạng dữ liệu thông dụng và được sử
dụng nhiều nhất trong thực tế. Dữ liệu văn bản có mặt ở khắp nơi và tồn tại ở
nhiều định dạng như: sách, báo, hợp đồng, quảng cáo, trang web… [17]. Các
vấn đề bảo vệ bản quyền sở hữu, phân quyền truy cập hợp lệ, theo dõi việc sử
dụng dữ liệu văn bản… là các vấn đề lớn cần giải quyết. So với các dạng dữ
liệu khác như: âm thanh, hình ảnh, phim… dữ liệu văn bản có ít đặc tính để
nhúng thông tin bí mật hơn [17,25]. Mặc khác, thơng tin bí mật sau khi nhúng
vào dữ liệu văn bản thường dễ dàng bị gỡ bỏ bởi các ứng dụng tự động nhận
dạng ký tự (optical character recognition) [17]. Vì vậy, giải pháp nhúng thơng
tin bí mật và tính bền vững của thơng tin đã nhúng là những thách thức lớn khi
(b)
Hình 3.1 - Ví dụ thay đổi khoảng trống để nhúng thơng tin
Hình 3.1 biểu diễn một ví dụ một đoạn văn bản được nhúng thông tin
dựa vào việc thay đổi khoảng trống giữa các từ trong văn bản. Phần (a) biểu
diễn đoạn văn bản sau khi nhúng thơng tin bí mật, phần (b) biểu diễn đoạn văn
bản sau khi nhúng thông tin bí mật có thêm chú thích chỉ dễ theo dõi. Ở ví dụ
này, qui tắc nhúng như sau: Một khoảng trống mà trước đó có hai khoảng trống
tức là nhúng bit 0, hai khoảng trống mà trước đó có một khoảng trống tức là
11
nhúng bit 1. Thơng tin bí mật được nhúng trong ví dụ này là chuỗi ký tự “BK”
theo mã ASCII (American Standard Character Interchange). Mã ASCII của ký
tự “B” là 01000010, của ký tự “K” là 10001011 nên chuỗi bit đã được nhúng là
0100001010001011.
(a)
(b)
Hình 3.2 - Ví dụ thay đổi khoảng trống cuối hàng để nhúng thơng tin
Hình 3.2 biểu diễn một đoạn văn bản được nhúng thông tin bằng cách
thay đổi khoảng trống cuối mỗi hàng trong câu [5]. Phần (a) biểu diễn đoạn văn
bản gốc, phần (b) biển diễn đoạn văn bản đã nhúng thơng tin bí mật.
Nhóm phương pháp cú pháp dựa trên sự nhập nhằng giữa các dấu chấm
câu để nhúng thông tin và cấu trúc của văn bản sau khi nhúng thơng tin bí mật
thường bị thay đổi. Để thực hiện nhúng thông tin vào văn bản bằng nhóm
phương pháp cú pháp thì rất khó khăn do phải làm thủ cơng bằng sức người là
chính. Tuy nhiên, thơng tin bí mật được nhúng vào văn bản theo nhóm phương
Phương pháp dịch chuyển hàng sẽ thực hiện dịch chuyển một số hàng
trong văn bản lên trên hoặc xuống dưới một khoảng cách rất nhỏ, người đọc
khơng thể phát hiện được. Thơng tin bí mật được nhúng vào thơng qua việc
dịch chuyển này. Hình 3.5 biểu diễn một ví dụ dịch chuyển hàng văn bản có
nội dung “Chứng thực nội dung” lên trên một khoảng nhỏ.
Hình 3.5 - Ví dụ dịch chuyển hàng để nhúng thông tin
Phương pháp dịch chuyển từ dịch chuyển một số từ trong văn bản sang
trái hoặc sang phái một khoảng cách rất nhỏ. Thơng tin bí mật được giấu vào
văn bản thơng qua việc dịch chuyển [14]. Hình 3.6 biển diễn ví dụ dịch chuyển
từ “bản” trong cụm từ “Bảo vệ bản quyền” sang phải một khoảng nhỏ.
Hình 3.6 - Ví dụ dịch chuyển từ để nhúng thơng tin
Phương pháp dịch chuyển từng ký tự trong văn bản dịch chuyển nột số
ký tự trong các từ những khoảng cách rát nhỏ [13]. Hình 3.7 biển diễn ký tự
“T” trong từ “DATA” đã được dịch sang phải một khoảng nhỏ.
Hình 3.7 - Ví dụ dịch chuyển ký tự để nhúng thông tin
13
3.1.3. Watermarking trên tập tin hình ảnh quét từ văn bản
Văn bản trước tiên được quét (scan) thành các tập tin hình ảnh. Sau đó sẽ
thực hiện nhúng thơng tin bí mật. Có thể áp dụng nhóm phương pháp
watermarking trên văn bản ở một định dạng nhất định vào các tập tin hình ảnh
qt từ văn bản. Ngồi ra, đối với tập tin hình ảnh qt từ văn bản cịn được
nghiên cứu Ứng dụng Bảo mật Dữ liệu đã có các cơng trình được cơng bố trên
các tạp chí/hội nghị chuyên ngành trong nước về việc áp dụng watermarking
trên văn bản sử dụng đặc điểm đặc trưng của tiếng Việt [6,23].
14
Tại [23], nhóm tác giả đề xuất giải pháp nhúng thơng tin bí mật vào văn
bản tiếng Việt dựa trên việc dịch chuyển lên/xuống một khoảng nhỏ các dấu
thanh và các dấu đặc biệt [23]. Phương pháp dịch chuyển dấu này có độ ẩn
thơng tin đã nhúng cao, tuy nhiên số lượng thông tin nhúng vào mỗi văn bản
tiếng Việt còn hạn chế.
Dựa trên phương pháp được đề xuất tại [23], một phương pháp mới đã
được phát triển tại [6]. Phương pháp mới này dịch chuyển các dấu thanh và các
dấu đặc biệt cùng lúc theo hai chiều lên/xuống và trái/phải, đồng thời sử dụng
chữ ký điện tử nhằm làm tăng tính bảo mật. Việc dịch chuyển cả hai chiều dấu
thanh và các dấu đặc biệt làm cho lượng thông tin nhúng vào mỗi dấu tiếng
Việt tăng lên.
Chương 4. GIẢI PHÁP ĐỀ XUẤT
4.1.
Đặc điểm tiếng Việt
Tiếng Việt là ngôn ngữ của người Việt (người Kinh) và là ngơn ngữ
chính thức tại Việt Nam. Đây là tiếng mẹ đẻ của khoảng 85% dân cư Việt Nam
và gần ba triệu Việt kiều ở hải ngoại. Ngồi ra, tiếng Việt cịn là ngơn ngữ thứ
hai của các dân tộc thiểu số tại Việt Nam. Tiếng Việt được coi là một trong số
các ngôn ngữ thuộc hệ ngơn ngữ Nam Á, nhóm Mơn-Khmer, nhánh ViệtMường. Nguồn từ vựng của tiếng Việt được vay mượn từ tiếng Hán. Trước đây
hệ thống chữ viết tiếng Việt sử dụng chữ Hán (chữ Nho, sau đó được cải biên
thành chữ Nôm). Ngày nay, hệ thống chữ viết tiếng Việt dùng hệ chữ viết như
bất khả phân ly.
Ngoài ra, tiếng Việt là ngôn ngữ thanh điệu. Trong tiếng Việt có sáu
thanh: ngang (khơng dấu: a), huyền (dấu nghiêng trái: à), sắc (dấu nghiêng
phải: á), hỏi (dấu hỏi: ả), ngã (dấu ngã: ã), và nặng (dấu chấm: ạ). Trong hệ
thống chữ viết tiếng Việt, hầu hết các dấu thanh được đặt trên ký tự nguyên âm,
riêng dấu nặng được đặt dưới ký tự nguyên âm. Ngoài ra, trong bảng chữ cái
tiếng Việt cịn có một số ký tự đặc biệt gồm hai phần: phần ký tự La-tinh phía
dưới và phần dấu đặc biệt phía trên như: ă, â, ê, ơ.
Đặc điểm chữ viết của tiếng Việt là phần dấu thanh hoặc dấu đặc biệt và
phần ký tự La-tinh hoàn toàn tách biệt nhau nên khi thay đổi vị trí phần dấu
thanh hoặc dấu đặc biệt lên/xuống hoặc trái/phải một khoảng rất nhỏ thì người
đọc sẽ khơng phát hiện được. Mặt khác, việc thay đổi vị trí này hồn tồn
khơng làm thay đổi ngữ nghĩa của văn bản tiếng Việt. Vì vậy, có thể lợi dụng
vào sự thay đổi vị trí này để nhúng thơng tin bí mật vào văn bản tiếng Việt
[6,23].
4.2.
Quy tắc nhúng thông tin
Chúng tôi tiếp tục phát triển giải pháp áp dụng watermarking vào văn
bản tiếng Việt thông qua việc dịch chuyển các dấu thanh và các dấu đặc biệt
[6,23]. Trong văn bản tiếng Việt, tất cả các ký tự có dấu tiếng Việt như: á, ấ, ỏ,
ọ… và các ký tự có dấu đặc biệt bên trên như: ă, â, ê, ô… được chọn để nhúng
thông tin. Do đặc điểm chữ viết của ký tự i và j cũng gồm 2 phần tách biệt nhau
nên i và j cũng được chọn để nhúng thơng tin. Ngồi ra, trong quá trình khảo
sát các văn bản tiếng Việt, chúng tơi nhận thấy một số dấu câu (ví dụ như: !
(dấu chấm than), ? (dấu chấm hỏi), : (dấu hai chấm)…) và một số ký hiệu tốn
học (ví dụ như: = (dấu bằng), ≥ (dấu lớn hơn hoặc bằng), ≤ (dấu nhỏ hơn hoặc
16
b)
Hình 4.2 - Các ký tự thuộc nhóm 2
17
a)
b)
Hình 4.3 - Các ký tự thuộc nhóm 3
Để nhúng thơng tin bí mật vào văn bản tiếng Việt, các dấu thanh, các dấu
đặc biệt, một phần các dấu chấm câu và một phần các ký hiệu toán học sẽ được
dịch trái/phải và lên/xuống một khoảng nhỏ. Tâm dịch chuyển được chọn là
góc dưới bên trái của các phần được chọn để dịch chuyển. Hình 4.4 thể hiện ba
ví dụ chọn tâm cụ thể.
Hình 4.4 - Chọn tâm dịch chuyển
Để giấu tin bí mật vào văn bản tiếng Việt, các dấu thanh và các dấu đặc
biệt của những ký tự thuộc nhóm 1 sẽ được dịch chuyển hai mức. Gọi t1 là độ
lớn khoảng dịch chuyển mức 1, t2 là độ lớn khoảng dịch chuyển mức 2.
Khoảng cách dịch chuyển t1, t2 cần phải chọn đủ nhỏ để người rất khó phát
hiện được (thơng thường t2 gấp đơi t1). Dùng 2 bits để biểu thị cho sự dịch
chuyển lên/xuống hai mức và dùng 2 bits để biểu diễn cho sự dịch chuyển
trái/phải hai mức. Như vậy mỗi ký tự thuộc nhóm 1 sẽ giấu được 4 bits dữ liệu.
Chi tiết các vị trí dịch chuyển hai mức được minh họa trên phần b của Hình 4.5
Việc xử lý lấy lại thơng tin đã giấu trong sách tiếng Việt có thể thực hiện
trên sách điện tử (văn bản điện tử) hoặc hình ảnh sau khi qt (scan) từ sách.
Thơng thường, các máy quét (scan) cho phép quét tài liệu với nhiều độ phân
giải khác nhau. Khi quét tài liệu với độ phân giải lớn thì dễ nhận dạng các dấu
tiếng Việt và việc lấy lại thơng tin có độ chính xác cao. Tuy nhiên, nếu quét với
độ phân giải lớn thì việc xử lý lấy lại thơng tin sẽ mất nhiều thời gian do phải
xử lý nhiều hơn. Nếu quét với độ phân giải nhỏ thì việc lấy lại thơng tin đã
nhúng sẽ khó hơn và độ chính xác thấp hơn. Do đó, độ phân giải quét ảnh văn
bản sẽ được chọn dựa trên sự dung hòa giữa hai yếu tố tốc độ xử lý và độ chính
xác.
Thơng tin bí mật được lấy lại dựa trên vị trí tuyệt đối giữa phần ký tự
được chọn dịch chuyển và phần ký tự không dịch chuyển nên khi xử lý lấy lại
thông tin cần phải sử dụng văn bản gốc ban đầu.
d
d’
h
h’
a)
b)
Hình 4.6 - Ví dụ tính d, h và d’, h’.
Gọi h và d là khoảng cách giữa phần ký tự được chọn dịch chuyển và
phần ký tự không dịch chuyển theo chiều ngang và theo chiều thẳng đứng; w1,
w2 là độ lớn khoảng cách dịch chuyển tương ứng với mức 1 và mức 2 (trong
(h’–h = w2) và (d’–d = w2)
(h’–h = w2) và (d’–d = w1)
(h’–h = w2) và (d’–d = -w1)
(h’–h = w2) và (d’–d = -w2)
(h’–h = w1) và (d’–d = w2)
(h’–h = w1) và (d’–d = w1)
(h’–h = w1) và (d’–d = -w1)
(h’–h = w1) và (d’–d = -w2)
(h’–h =-w1) và (d’–d = w2)
(h’–h =-w1) và (d’–d = w1)
(h’–h =-w1) và (d’–d = -w1)
(h’–h =-w1) và (d’–d = -w2)
(h’–h = -w2) và (d’–d = w2)
(h’–h = -w2) và (d’–d = w1)
(h’–h = -w2) và (d’–d = -w1)
(h’–h = -w2) và (d’–d = -w2)
“0000”
“0001”
“0010”
“0011”
“0100”
“0101”
“0110”
“0111”
“1000”
“1001”
“1010”
“1011”
Xây dựng phần ứng dụng nhúng thông tin
Mỗi tập tin sách trước khi in sẽ nằm ở một định dạng văn bản nhất định.
Hiện nay có rất nhiều định dạng văn bản khác nhau như: PDF, PS, RTF…
Trong các định dạng dữ liệu văn bản, PS (PostScript) là một định dạng có nhiều
tính năng nổi trội và được sử dụng rộng rãi. Ngồi ra, PostScript cịn là ngơn
ngữ lập trình. PostScript cho phép thao tác biểu diễn ký tự giống như hình ảnh
nên rất thuận tiện. Vì vậy, chọn PostScript là định dạng dữ liệu để nhúng thông
tin.
Tại Việt Nam, phần mềm sử dụng để soạn thảo văn bản thơng dụng nhất
là Microsoft Word (gần đây có OpenOffice). Do đó yêu cầu tập tin sách tiếng
Việt sẽ để ở định dạng Microsoft Word. Tập tin sách tiếng Việt phải được
chuyển từ định dạng Microsoft Word sang định dạng PostScript trước khi
nhúng thông tin bản quyền. Sau khi nhúng thông tin tập tin sách tiếng Việt sẽ
được để ở định dạng PostScript hoặc chuyển sang định dạng các tập tin hình
ảnh có định dạng PDF. Tập tin sách sau khi nhúng bản quyền sẽ được in thành
sách và phát hành rộng rãi.
Phần ứng dụng thử nghiệm nhúng thông tin bí mật hỗ trợ tốt đối với
những văn bản có cỡ chữ lớn hơn bằng 12 và áp dụng đối với nhiều phông chữ
hỗ trợ tiếng Việt, đặc biệt hoạt động tốt với sáu loại phông chữ: Arial, Times
New Roman, Tahoma, Verdana, VNI Helve, VNI-Times. Hình 5.1 thể hiện
giao diện chính của phần ứng dụng nhúng thơng tin bí mật.
21
Hình 5.1 - Giao diện nhúng thơng tin
Các cơng việc cần thực hiện khi nhúng thông tin vào tập tin sách tiếng
5.1.2. Tạo thông tin bản quyền
Thông tin bản quyền (thông tin bí mật) phải được chuyển sang dạng nhị
phân trước khi thực hiện nhúng vào tập tin sách tiếng Việt. Ngoài ra, trước khi
chuyển đổi sang mã nhị phân có thể sử dụng thêm các phương pháp mã hóa dữ
liệu nhằm đảm bảo chỉ những người có đủ quyền mới hiểu được thông tin bản
quyền [22].
5.1.3. Nhúng thông tin vào tập tin PostScript
PostScript là ngôn ngữ mô tả trang in nên việc biểu diễn dữ liệu chỉ quan
tâm tới vị trí các đối tượng đồ họa trong văn bản. Trong văn bản, các ký tự
chính là các đối tượng đồ họa. Các hàng, các đoạn văn bản chỉ khác nhau về vị
trí tọa độ khi hiển thị do đó rất khó phân biệt giữa các hàng, các đoạn văn bản
với nhau. Trong q trình nhúng thơng tin vào văn bản, các bit dữ liệu sẽ được
nhúng liên tục vào văn bản theo thứ tự từ trái qua phải và từ trên xuống dưới.
Chuỗi bit thông tin bản quyền sẽ được nhúng xoay vịng. Dịch chuyển được
một phần ký tự có nghĩa là nhúng được 2 (hai) hoặc 4 (bốn) bit. Khi nhúng đến
chuỗi bit cuối thì tiếp tục nhúng từ chuỗi bit đầu tiên.
Khoảng cách dịch chuyển các phần ký tự trong tập tin sách tiếng Việt để
nhúng thông tin phải dung hòa giữa hai yếu tố: đủ nhỏ để tài liệu đã nhúng
thơng tin có sự thay đổi khơng đáng kể nhằm đảm bảo tính thẩm mỹ của văn
bản, đủ lớn để thuận tiện trong việc lấy lại thông tin đã nhúng. Tập tin
PostScript được sinh ra bởi phần mềm Doc to Image Converter cho phép thay
đổi vị trí biểu diễn một đối tượng với độ chính xác 1/1200 inch. Qua thử
nghiệm tôi thấy sử dụng khoảng cách dịch chuyển t1=1/300 inch và t2=1/150
inch là hợp lý.
5.1.4. Chuyển định dạng từ PostScript sang định dạng PDF
Tập tin sách tiếng Việt sau khi nhúng thơng tin bản quyền sẽ có định
dạng PostScript và có thể được sử dụng để in ấn ngay. Ngồi ra, nếu cần thiết
Nhận dạng ra các dòng văn bản bằng cách xét các pixel theo từng tọa độ
từ lề trái qua lề phải văn bản:
− Nếu tất cả các pixel trên đường thẳng pixel từ lề trái sang lề phải
đều có giá trị màu là trắng thì coi là khoảng trống.
− Nếu có pixel có giá trị màu khác màu trắng thì vùng dữ liệu đó
thuộc trong một dịng văn bản.
Việc rút trích thông tin bản quyền trong ứng dụng thử nghiệm này dựa
vào bộ các mặt nạ nhận dạng các phần dịch chuyển (ví dụ như các dấu tiếng
Việt) xây dựng trước để nhận dạng ra các phần ký tự trong trong tập tin hình
ảnh. Khi nhận dạng ra phần ký tự dịch chuyển một dấu, khoảng cách từ dấu tới
ký tự nguyên âm hoặc các dấu mũ, dấu “ă” phía dưới sẽ được tính tốn để biết
lấy ra dữ liệu đã nhúng. Hình 5.3 thể hiện giao diện chính phần ứng dụng rút
trích thơng tin.
24