Kỹ thuật mã hóa Huffman với mô hình từ điển - Pdf 73

K thu ût m họa Huffman v ïi m hçnh t âi ná å ä ỉì ãø
1
CHỈ ÅNG 0.
I. GIÅÏI THIÃÛU....................................................................................................................................................3
II. L THUÚT TÄØNG QUAN VÃƯ NẸN DỈỴ LIÃÛU...........................................................................6
.I KHẠI NIÃÛM VÃƯ NẸN DỈỴ LIÃÛU...........................................................................................................................6
.II MÄÜT SÄÚ KHẠI NIÃÛM CÅ BN............................................................................................................................7
II.1. Tè lãû nẹn (compression ratio)................................................................................................................7
II.2. Âäü dỉ thỉìa säú liãûu............................................................................................................................7
.a Sỉû làûp lải ca nhỉỵng kê tỉû.................................................................................................................................7
.b Sỉû phán bäú cạc kê tỉû..............................................................................................................................................7
.c Âäü dỉ thỉìa vë trê.......................................................................................................................................................7
.d Nhỉỵng máùu sỉí dủng máût âäü cao.........................................................................................................................8
II.3. Âäü di trung bçnh tỉì m....................................................................................................................8
II.4. Nẹn täøn hao v nẹn khäng täøn hao....................................................................................................8
a. Nẹn täøn hao (lossy compression)...............................................................................................................................8
b. Nẹn khäng täøn hao (lossless compression)................................................................................................................9
II.5. Nẹn säú liãûu = Mä hçnh họa + M họa [2]......................................................................................9
.III L THUÚT VÃƯ M HỌA [7].........................................................................................................................10
III.1. Âënh nghéa m họa ............................................................................................................................10
III.2. Mäüt säú khại niãûm cå bn...............................................................................................................10
.a Chiãưu di tỉì m......................................................................................................................................................10
.b Trng lỉåüng tỉì m................................................................................................................................................10
.c Khong cạch m.......................................................................................................................................................10
III.3. Phán loải m......................................................................................................................................10
III.4. Mäüt säú phỉång phạp biãøu diãùn m thäng dủng.........................................................................11
a. Phỉång phạp liãût kã.................................................................................................................................................11
b. Phỉång phạp âäư hçnh kãút cáúu..............................................................................................................................11
c. Phỉång phạp cáy.......................................................................................................................................................12
III.5. Âiãưu kiãûn âãø m phán tạch âỉåüc.................................................................................................13
III.6. M cọ tênh tiãưn täú (prefix)...............................................................................................................14

2
.II TIÃÚN TRÇNH NẸN.............................................................................................................................................47
Quạ trçnh mä hçnh họa................................................................................................................................48
Quạ trçnh m họa.......................................................................................................................................49
.a Cáúu trục dỉỵ liãûu mä t cáy m Huffman âäüng..................................................................................................49
.b Th tủc m họa ......................................................................................................................................................51
.III TIÃÚN TRÇNH GII NẸN....................................................................................................................................52
Quạ trçnh gii m theo cáy m Huffman âäüng........................................................................................52
.a Khåíi tảo cáy m âáưu tiãn........................................................................................................................................52
.b Th tủc gii m.......................................................................................................................................................53
Quạ trçnh gii nẹn......................................................................................................................................53
.IV NHÁÛN XẸT....................................................................................................................................................55
VI. THỈÛC NGHIÃÛM.......................................................................................................................................55
I. SO SẠNH TÈ SÄÚ NẸN........................................................................................................................................56
I.1. Bng so sạnh tè säú nẹn.......................................................................................................................56
I.2. Biãøu âäư so sạnh tè säú nẹn................................................................................................................58
I.3. Nháûn xẹt vãư tè säú nẹn......................................................................................................................58
II. SO SẠNH TÄÚC ÂÄÜ NẸN..................................................................................................................................58
II.1. Bng so sạnh täúc âäü nẹn.................................................................................................................58
II.2. Biãøu âäư so sạnh täúc âäü nẹn..........................................................................................................59
II.3. Nháûn xẹt vãư täúc âäü nẹn................................................................................................................59
IV. SO SẠNH TÄÚC ÂÄÜ GII NẸN.........................................................................................................................60
IV.1. Bng so sạnh täúc âäü gii nẹn........................................................................................................60
IV.2. Biãøu âäư so sạnh täúc âäü gii nẹn.................................................................................................60
IV.3. Nháûn xẹt vãư täúc âäü gii nẹn.......................................................................................................61
V. KÃÚT LÛN...................................................................................................................................................61
VII. KÃÚT LÛN...............................................................................................................................................61
Tr áưn Quang Minh
KHOA C NG NGH TH NG TINÄ ÃÛ Ä
K thu ût m họa Huffman v ïi m hçnh t âi ná å ä ỉì ãø

Th ng th ng, m üt quạ trçnh nẹn â üc ti n ha nh qua hai giai âoản:ä ỉåì ä ỉå ãú ì
(1) M hçnh họa, la giai âoản ti n âoạn v t n su t xu t hi ûn cu ậ ì ã ãư áư áú áú ã í
cạc kê t û va / hồûc chu ùi kê t û cu a vàn ba n c n nẹn. (2) Mỉ ì ä ỉ í í áư
họa, la giai âoản d ûa tr n m hçnh v ïi t n su t v a â üc xạc âënhì ỉ ã ä å áư áú ỉì ỉå
â tảo ra t m t ng ïng.ãø ỉì ỉå ỉ
Cu ng v ïi s û phạt tri n mảnh m cu a l thuy t th ng tin, cọì å ỉ ãø í ãú ä
khạ nhi u ph ng phạp m họa va m hçnh họa â ra â i. Trongãư ỉå ì ä å ì
cạc ph ng phạp m họa, âạng chụ nh t la m họa Huffmanỉå áú ì
va m họa s hc. Ph ng phạp m họa Huffman â üc D.A Huffmanì äú ỉå ỉå
Tr áưn Quang Minh
KHOA C NG NGH TH NG TINÄ ÃÛ Ä
K thu ût m họa Huffman v ïi m hçnh t âi ná å ä ỉì ãø
4
c ng b va o nàm 1952. Ph ng phạp m họa na y â n gia n, d ù x äú ì ỉå ì å í ã á
d ûng va cho th i gian m họa ngà n. Ph ng phạp m họa s hcỉ ì åì õ ỉå äú
ra â i va o cu i nh ỵng nàm 70. Ph ng phạp na y h ïng â n vi ûcå ì ì äú ỉ ỉå ì ỉå ãú ã
t i u â ü da i t m n n t ng â i ph ïc tảp h n va vç v ûy th iäú ỉ ä ì ỉì ã ỉå äú ỉ å ì á åì
gian m họa ch ûm h n.á å
K thu ût nẹn x l t ng kê t û m üt cu a lu ng kê hi ûu â ỉí ỉì ỉ ä í äư ã áư
va o â üc gi la nẹn v ïi m hçnh th ng k (Statistical model). Ng ücì ỉå ì å ä äú ã ỉå
lải, k thu ût nẹn xem xẹt m ùi lục m üt chu ùi cạc kê t û t lu ngá ä ä ä ỉ ỉì äư
nh ûp gi la nẹn v ïi m hçnh t âi n (Dictionary-based model).á ì å ä ỉì ãø
Do âàûc thu cu a m hçnh t âi n va th ûc t cng cho th y,ì í ä ỉì ãø ì ỉ ãú áú
v ïi cu ng m üt ph ng phạp m họa thç vi ûc ạp dủng m hçnh tå ì ä ỉå ã ä ỉì
âi n s cho hi ûu qua nẹn cao h n nhi u so v ïi m hçnh th ng k .ãø ã í å ãư å ä äú ã
H u h t cạc ch ng trçnh nẹn th ng mải hi ûn ha nh â u s dủngáư ãú ỉå ỉå ã ì ãư ỉí
m hçnh t âi n ma âi n hçnh la cạc ch ng trçnh nẹn n i ti ngä ỉì ãø ì ãø ì ỉå äø ãú
nh NCZip, PKZip va WinZip.ỉ ì
Trong m üt th i gian ngà n, vi ûc nghi n c ïu t t ca cạc k thu ûtä åì õ ã ã ỉ áú í á
nẹn d ỵ li ûu la âi u kh ng kha thi, do v ûy, trong cu n lu ûn vàn t tỉ ã ì ãư ä í á äú á äú

gỗ ch a õaỷt õ ỹc va n u h ùng phaùt tri n cu a õ ta i.ổ ổồ ỡ ó ổồ óứ ớ óử ỡ
Tr ỏửn Quang Minh
KHOA C NG NGH TH NG TIN
K thu ût m họa Huffman v ïi m hçnh t âi ná å ä ỉì ãø
6
CHỈ ÅNG I
II.L THUY T T ØNG QUAN V Ư NẸN DỈỴ LI Ú Ä Ã ÃÛ
.IKHẠI NIÃ ÛM V ÃƯ NẸN DỈỴ LIÃ ÛU
Nẹn d ỵ li ûu la quạ trçnh la m gia m s li ûu c n thi t mỉ ã ì ì í äú ã áư ãú
v ùn ba o toa n â üc n üi dung th ng tin. S li ûu va th ng tin la kh ngá í ì ỉå ä ä äú ã ì ä ì ä
â ng nh t v ïi nhau. S li ûu chè la ph ng ti ûn â chuy n ta iäư áú å äú ã ì ỉå ã ãø ãø í
th ng tin. V ïi cu ng m üt n üi dung th ng tin, ta cọ th bi u di ùnä å ì ä ä ä ãø ãø ã
bà ng cạc d ỵ li ûu khạc nhau.ò ỉ ã
Cạc k thu ût nẹn d ỵ li ûu, th ng th ng, d ûa va o m üt trongá ỉ ã ä ỉåì ỉ ì ä
cạc âàûc tr ng sau:ỉ

Tênh h ỉỵu ha û n ca t á û p k ê hiã û u .

Táưn su á ú t xu á ú t hi ã û n t ỉ å n g â ä ú i ca cạc k ê hiã û u .

Ng ỉỵ cnh xu á ú t hiã û n ca cạc k ê hiã û u .
Nẹn d ỵ li ûu li n quan â n khại ni ûm th ng tin trong l thuy tỉ ã ã ãú ã ä ãú
th ng tin. L üng tin co n gi la ä ỉå ì ì
Entropy
. L üng tin cu a m üt kê hi ûå í ä ã
â üc tênh bà ng (-logỉå ò
2
P) v ïi â n vë la bit, trong âọ P la xạc su tå å ì ì áú
xu t hi ûn cu a kê hi ûu âọ. L üng tin cu a toa n b ü ngu n s li ûú ã í ã ỉå í ì ä äư äú ã
â üc tênh bà ng t ng l üng tin cu a cạc kê hi ûu tha nh ph n.ỉå ò äø ỉå í ã ì áư

Tuy nhi n, c n pha i th y rà ng, tè l û nẹn cao ch a pha i la t tã áư í áú ò ã ỉ í ì áú
ca â âạnh giạ hi ûu qua cu a m üt ph ng phạp nẹn. B i vç co ní ãø ã í í ä ỉå åí ì
cọ cạc y u t khạc nh : chi phê v th i gian, kh ng gian va ca â üãú äú ỉ ãư åì ä ì í ä
ph ïc tảp tênh toạn.ỉ
II.2. Â ä ü d ỉ th ỉìa s ä ú liã û u
Nguy n tà c chung cu a cạc ph ng phạp nẹn d ỵ li ûu la loải bỗ õ í ỉå ỉ ã ì í
cạc th ng tin tru ng làûp, cạc d ỵ li ûu d th a â n m ïc t i thi u cọä ì ỉ ã ỉ ỉì ãú ỉ äú ãø
th â üc. Vi ûc xạc âënh ba n ch t cạc ki u d th a s li ûu r tãø ỉå ã í áú ãø ỉ ỉì äú ã áú
cọ êch trong vi ûc x y d ûng cạc ph ng phạp nẹn phu h üp. Nhçnã á ỉ ỉå ì å
chung, cọ b n ki u d th a chênh trong d ỵ li ûu :äú ãø ỉ ỉì ỉ ã
.a Sỉ û là û p lải ca nh ỉỵng kê tỉ û
Trong m üt ngu n d ỵ li ûu, nh t la cạc t ûp tin a nh, th ng cọä äư ỉ ã áú ì á í ỉåì
nh ỵng kê t û va chu ùi kê t û làûp lải nhi u l n li n ti p nhau. Khiỉ ỉ ì ä ỉ ãư áư ã ãú
âọ, ngu n d ỵ li ûu cọ th â üc m họa m üt cạch c âng h näư ỉ ã ãø ỉå ä ä å
bà ng cạch thay th nh ỵng dy kê t û âọ bà ng m cu a chụng v ãú ỉ ỉ ò í ì
s kê t û làûp lải. Ph ng phạp nẹn v ïi m hçnh t âi n khai thạcäú ỉ ỉå å ä ỉì ãø
r t hi ûu qua loải d th a na y.áú ã í ỉ ỉì ì
.b Sỉ û ph án b ä ú cạc kê tỉ û
Xẹt m üt chu ùi kê t û, ta th ng th y cọ m üt s kê t û xu tä ä ỉ ỉåì áú ä äú ỉ áú
hi ûn v ïi t n su t cao h n nh ỵng kê t û khạc . Nh v ûy, ta cọ thã å áư áú å ỉ ỉ ỉ á ãø
gia m b ït l üng d ỵ li ûu bà ng cạch m họa nh ỵng kê t û xu tí å ỉå ỉ ã ò ỉ ỉ áú
hi ûn th ng xuy n v ïi t m ngà n, nh ỵng kê t û êt xu t hi ûn sã ỉåì ã å ỉì õ ỉ ỉ áú ã
â üc m họa bà ng nh ỵng t m da i h n.ỉå ò ỉ ỉì ì å
Ki u d th a na y âàûc bi ût phu h üp v ïi ph ng phạp m họẫø ỉ ỉì ì ã ì å å ỉå
Huffman.
.c  ä ü d ỉ th ỉìa vë trê
Cọ nhi u tr ng h üp, d ỵ li ûu trong m üt ngu n s li ûu cọ s ûãư ỉåì å ỉ ã ä äư äú ã ỉ
phủ thu üc l ùn nhau, do âọ, n u bi t â üc kê hi ûu xu t hi ûn tảiä á ãú ãú ỉå ã áú ã
m üt vë trê na o âọ, ta cọ th pho ng âoạn tr ïc m üt cạch h üp lä ì ãø í ỉå ä å
s û xu t hi ûn cu a cạc kê hi ûu khạc nh ỵng vë trê khạc nhau. Vêỉ áú ã í ã åí ỉ

tin cho tr ïc thç â ü d s li ûu t ng â i Rỉå ä ỉ äú ã ỉå äú
D
cu a t ûp s li ûu th ïí á äú ã ỉ
nh t so v ïi t ûp s li ûu th ï hai la :áú å á äú ã ỉ ì
Trong âọ L
1
/L
2
â üc gi la tè l û nẹn.ỉå ì ã
II.3. Â ä ü di trung bçnh tỉì m
Giạ trë trung bçnh th ng k cu a t t ca cạc t m trong m ütäú ã í áú í ỉì ä
b ü m â üc gi la ä ỉå ì
â ä ü di trung bçnh ca m ä ü t t ỉì m
. C.E Shannon â
chè ra rà ng: “ò
 ä ü di trung bçnh ca m ä ü t tỉì m kh än g bao gi åì nh hån
entropy ca ngu ä ưn s ä ú liã û u â ỉ å ü c m họa
”. Do âọ, m üt b ü m t i ä äú ỉ
(cho hi ûu su t nẹn cao) la b ü m cọ â ü da i trung bçnh cu a t mã áú ì ä ä ì í ỉì
ti n g n â n ãú áư ãú
Entropy
cu a ngu n s li ûu.í äư äú ã
II.4. Nẹn tä ø n hao v nẹn khäng tä ø n hao
Cọ nhi u cạch â ph n loải cạc ph ng phạp nẹn. Cạch ph nãư ãø á ỉå á
loải d ûa va o nguy n l nẹn chia cạc ph ng phạp nẹn tha nh hai hỉ ì ã ỉå ì
chênh :
a. Nẹn tä ø n hao (lossy compression)
Nẹn tä ø n hao
co n gi la nẹn cọ m t mạt th ng tin. K thu ûtì ì áú ä á
nẹn na y ch p nh ûn m t mạt m üt l üng th ng tin nh t âënh â th áú á áú ä ỉå ä áú ãø

Dảng nẹn ma ta nghi n c ïu trong â ạn na y la dảng ì ã ỉ äư ì ì
nẹn
kh äng t ä ø n hao
.
II.5. Nẹn s ä ú liã û u = Mä hçnh họa + M họa [2]
Nọi chung, nẹn s li ûu la chuy n â i m üt lu ng cạc kê hi ûú ã ì ãø äø ä äư ã
tha nh m üt lu ng cạc t m t ng ïng. N u hi ûu ïng nẹn xa y r ä äư ỉì ỉå ỉ ãú ã ỉ í
thç lu ng cạc t m s nho h n lu ng cạc kê hi ûu ban â u. Vi ûcäư ỉì í å äư ã áư ã
quy t âënh â a ra m üt t m nh t âënh cho m ùi kê hi ûu hồûc m ütãú ỉ ä ỉì áú ä ã ä
t ûp kê hi ûu d ûa tr n m üt á ã ỉ ã ä
m ä hçnh
.
Mä hçnh
chà ng qua chè la ó ì
m ä ü t tá û p
h å ü p s ä ú liã û u v cạ c nguy ãn tà õ c â ỉ å ü c s ỉ í du û ng â ã ø x ỉí l cạc k ê hi ã û u t ỉì
lưng nh á û p v xu á ú t ra cạc t ỉì m
.
Mä hçnh
cọ nhi ûm vủ xạc âënh xạcã
su t xu t hi ûn cu a t ng kê t û va /hồûc chu ùi kê t û va b ü ph ûnáú áú ã í ỉì ỉ ì ä ỉ ì ä á
m họa s tảo ra cạc t m d ûa tr n cạc xạc su t âọ.ỉì ỉ ã áú
Mä hçnh họa
va ì
m họa
la hai khại ni ûm hoa n toa n tạch bi ûtì ã ì ì ã
nhau. Th nh ng, chụng ta v ùn hay du ng thu ût ng ỵ “m họa” âãú ỉ á ì á ỉ ãø
nọi â n ca quạ trçnh nẹn s li ûu, màûc du , th ûc ch t âọ chè m ïiãú í äú ã ì ỉ áú å
la m üt giai âoản cu a quạ trçnh âọ. Vê dủ, chụng ta v ùn hay du ngì ä í á ì
cạc thu ût ng ỵ “á ỉ


Mä hç nh thä ú ng kã vå ï i m họ a
Huffman
K thu ût m họa Huffman v ïi m hçnh t âi ná å ä ỉì ãø
10
.IIIL THU ÚT V ÃƯ M HỌA [7]
Nh â nọi, nẹn s li ûu la quạ trçnh bi n â i m üt lu ng cạcỉ äú ã ì ãú äø ä äư
t m tha nh m üt lu ng cạc t m. Quạ trçnh gia i nẹn s x lỉì ì ä äư ỉì í ỉí
lu ng cạc t m âọ â kh i phủc lải ngu n s li ûu ban â u. Nhäư ỉì ãø ä äư äú ã áư ỉ
v ûy, vi ûc tçm hi u v m nẹn d ỵ li ûu la âi u c n thi t.á ã ãø ãư ỉ ã ì ãư áư ãú
III.1. Â ë n h ngh éa m họa
M họa ngu n tin äư X theo b ü m ä M la phẹp ạnh xả 1:1 bi nì ãú
â i m üt tin xäø ä
i
∈ X tha nh m üt t h üp cạc kê hi ûu cu a b ü m ì ä äø å ã í ä M.
Ngu n äư X = {x
1
, x
2
, ..,x
n
}
B ü m ä M = {m
1
, m
2
, ..,m
k
}
V ïi k la c s cu a b ü må ì å äú í ä

= 11
III.2. Mäüt s ä ú khại niã û m c å bn
.a Chi ãưu di tỉì m
Chi u da i t m la s kê hi ûu cu a b ü m du ng â mãư ì ỉì ì äú ã í ä ì ãø
họa cho t m âọ.ỉì
.b Tro üng lỉ å ü n g tỉì m
Trng l üng t m la t ng s cạc kê hi ûu khạc 0 cu a tỉå ỉì ì äø äú ã í ỉì
m
Vê du û: T m 1011010 cọ trng l üng la 4.ỉì ỉå ì
.c Khong cạch m
Khoa ng cạch m í
d
la s kê hi ûu khạc nhau tênh theo vë trêì äú ã
t ng ïng cu a hai t m cọ chi u da i bà ng nhau ỉå ỉ í ỉì ãư ì ò
W
1
, W
2
.
d(W
1
, W
2
) = w(W
1
⊕ W
2
)
, v ïi å ⊕ la phẹp c üng modul-2.ì ä
Khoa ng cạch cu a m üt b ü m la khoa ng cạch m nho nh tí í ä ä ì í í áú

nh ỵng u âi m va nh üc âi m ri ng. Tu y theo mủc âêch, ta cọ thỉ ỉ ãø ì ỉå ãø ã ì ãø
chn cạch bi u di ùn cho phu h üp.ãø ã ì å
a. Phỉ å n g phạp liã û t kã
Li ût k trong m üt ba ng nh ỵng tin cu a ngu n va ke m theo lẫ ã ä í ỉ í äư ì ì ì
cạc t m t ng ïng.ỉì ỉå ỉ
Vê du û : Ngu n tin äư X = {x
1
, x
2
, x
3
, x
4
}. Cạc l ïp tin cu a nọ â üc må í ỉå
họa nh sau:ỉ
Tin x
1
x
2
x
3
x
4
Tỉì
m
01 10 110 001
u âi m cu a ph ng phạp bi u di ùn na y la r ra ng, â n gia nỈ ãø í ỉå ãø ã ì ì ì å í
nh ng kh ng phu h üp v ïi nh ỵng b ü m l ïn.ỉ ä ì å å ỉ ä å
b. Phỉ å n g phạp â ä ư hçnh kã ú t c á ú u
Ph ng phạp na y bi u di ùn m bà ng m üt c y m rụt gn baå ì ãø ã ò ä á

KHOA C NG NGH TH NG TIN
2
1
G C
3
4
0
1
1
0
0v1
1
0v1

ọ ử hỗnh k ó ỳ t c ỏ ỳ u cuớa b ọ ỹ maợ
10,11,011,0101,0100
0
1
0
1
0
1
0
1
1
m ù c g c ổ ọ ỳ
( 0 )
m ù c 1 (n = ổ
1)
m ù c 2 (n = ổ

ki m tra m ỹt b ỹ maợ coù tờnh ph n taùch hay kh ng, ng i taóứ óứ ọ ọ ỏ ọ ổồỡ
x y d ỷng ba ng th maợ ph n taùch va qua õoù, xaùc õởnh õ ỹ ch ỷmỏ ổ ớ ổớ ỏ ỡ ọ ỏ
gia i maợ. Caùc b ùc x y d ỷng ba ng th maợ ph n taùch :ớ ổồ ỏ ổ ớ ổớ ỏ
1. S ừ p xó ỳ p caùc t ổỡ maợ thaỡnh mọ ỹ t c ọ ỹ t. Cọ ỹ t naỡy õ ổ ồ ỹ c õa ùnh s ọ ỳ 1.
2. ọ ỳ i saùnh caùc tổỡ maợ ng ừ n vồ ùi caùc tổỡ maợ daỡi hồn trong c ọ ỹ t 1,
nó ỳ u tổỡ maợ ng ừ n truỡng vồ ùi ph ỏửn õ ỏ ử u cuớa tổỡ maợ daỡi hồn thỗ lỏ ỳy
ph ỏửn coỡn laỷi cuớa t ổỡ maợ daỡi ghi vaỡo c ọ ỹ t th ổ ù hai.
3. L ỷ p laỷi b ổ ồ ù c 2, vồ ùi c ọ ỹ t k laỡ c ọ ỹ t ch ổ ù a kó ỳ t quaớ õ ọ ỳ i saùnh gi ổợa
c ọ ỹ t (k-1) vồ ùi c ọ ỹ t (k-2). Tió ỳ p tuỷ c th ổ ỷ c hió ỷ n b ổ ồ ù c 3 cho õ ó ỳ n khi
c ọ ỹ t k trồớ n ón trọ ỳ n g rọ ự n g.
maợ coù tờnh ph n taùch, õi u ki ỷn c n va õu la : Trong c ỹtóứ ỏ óử ó ỏử ỡ ớ ỡ ọ
coù chố s k >= 2 kh ng coù m ỹt t h ỹp na o tru ng v ùi caùc t maợọỳ ọ ọ ọứ ồ ỡ ỡ ồ ổỡ
trong c ỹt 1.ọ
Vờ du ỷ : Cho b ỹ maợ ọ 01, 11, 001, 1001, 1011. Ta coù ba ng th maợớ ổớ
ph n taùch:ỏ
C ỹt 1ọ C ỹt 2ọ
01
11
001
1001
1011
Tr ỏửn Quang Minh
KHOA C NG NGH TH NG TIN
K thu ût m họa Huffman v ïi m hçnh t âi ná å ä ỉì ãø
14
Ta cọ â ü ch ûm gia i m bà ng 0 vç c üt 2 tr ng r ùng. Nh v ûy, b üä á í ò ä äú ä ỉ á ä
m â cho cọ tênh ph n tạch.á
ü ch ûm gia i m cọ th â üc âạnh giạ qua ba ng th mÂä á í ãø ỉå í ỉí
ph n tạch nh sau:á ỉ
Trong â o ï:

.
 ë n h ngh éa
M üt b ü m â üc gi la cọ ä ä ỉå ì
tênh ch á ú t tiãưn tä
n u ú ãú
mo üi t ỉì m
thu ä ü c b ä ü m â ã ư u kh äng phi l ph áưn â á ư u ca m ä ü t t ỉì m khạc trong
cng b ä ü m
.
Nh va o tênh ch t ti n t na y ma m cọ tênh åì ì áú ãư äú ì ì
prefix
th ngỉåì
â üc s dủng â la m m nẹn d ỵ li ûu. Ta cọ th nh ûn th å ỉí ãø ì ỉ ã ãø á áú
rà ng, khi bi u di ùn m bà ng c y m, m cọ tênh ch t ti n t khiò ãø ã ò á áú ãư äú
cạc t m chè la ỉì ì
nụt lạ
.
III.7. Â ë n h l vãư â ä ü di trung bçnh tỉì m
Cho ngu n tin u = {ư
i
} v ïi i = 1 å ÷ n va cạc xạc su t p( áú
i
) t ngỉå
ïng. M họa cạc tin
i
bà ng m nhë ph n va gia s cạc kê hi û á ì í ỉí ã
cu a m cọ cạc xạc su t p(xí áú
i
) bà ng nhau: p(xò
i






K thu ût m họa Huffman v ïi m hçnh t âi ná å ä ỉì ãø
15
N u nãú
i
la chi u da i cu a m nhë ph n m họa tin ãư ì í á
i
thç l üngỉå
tin ch ïa trong t m la nỉ ỉì ì
i
bit. â y, l üng tin trung bçnh ch ïa trongÅÍ á ỉå ỉ
m üt t m bà ng â ü da i trung bçnh cu a cạc t m.ä ỉì ò ä ì í ỉì
tin t ïc kh ng bë hao hủt qua quạ trçnh m họa, l üng tinÂãø ỉ ä ỉå
trung bçnh cu a t m pha i kh ng nho h n l üng tin trung bçnh cu ỉì í ä í å ỉå í
m üt tin trong ngu n tin. V s âo, l üng tin trung bçnh cu a m üt tinä äư ãư äú ỉå í ä
bà ng v ïi ò å
Entropy
cu a ngu n tin í äư
E(u)
. phẹp m họa la âụng,Âãø ì
âi u ki ûn sau â y pha i â üc tho a mn :ãư ã á í ỉå í
E(u) ≤ n
tb
logm
hay
E(u) ≤ n

Vç n
i
la m üt s nguy n, ma I( ä äú ã ì
i
) th ng kh ng pha i la m üt sỉåì ä í ì ä äú
nguy n n n â âảt â üc m üt b ü m cọ â ü da i trung bçnh nhỗ ã ãø ỉå ä ä ä ì í
nh t thç â ü da i cu a m ùi t m pha i tho a mn âi u ki ûn sau:áú ä ì í ä ỉì í í ãư ã
I(u
i
) ≤ n
i
≤ I(u
i
) + 1
L y trë trung bçnh th ng k hai v cu a b t âà ng th ïc, ta â üc :áú äú ã ãú í áú ó ỉ ỉå
E(u) ≤ n
tb
≤ E(u) + 1
T â y, ta cọ âënh l v ỉì á ãư
gi å ïi ha ûn tr ãn
cu a â ü da i trung bçnh cu a tí ä ì í ỉì
m :
Cọ th ã ø ta û o â ỉ å ü c b ä ü m cọ â ä ü di trung bçnh ca t ỉì m kh ä ng lå ïn
h å n t s ä ú Entropy ca ngu ä ư n â ỉ å ü c m họa trãn lỉ å ü n g tin trung bçnh c ỉ û c
âa û i ch ỉ ï a trong m ä ü t k ê hiã û u m c ä ü n g th ã m m ä ü t â å n vë.
M üt b ü m â üc gi la b ü m th ng k t i u khi nọ cọ â ü da iä ä ỉå ì ä äú ã äú ỉ ä ì
trung bçnh tho a mn hai gi ïi hản n u tr n. àûc âi m cu a m th ngí å ã ã Â ãø í äú
k t i u la :ã äú ỉ ì
• Xạc su t xu t hi ûn cu a cạc kê hi ûu trong t m kh ng phủáú áú ã í ã ỉì ä
thu üc va o s û cọ màût cu a cạc kê hi ûu ra tr ïc.ä ì ỉ í ã ỉå

õi. Nguy n t c c ba n cu a maợ th ng k t i u la d ỷa tr n c s õ ỹó ừ ồ ớ ớ ọỳ ó ọỳ ổ ỡ ổ ó ồ ồớ ọ
da i t maợ nỡ ổỡ
i
(tố l ỷ nghởch v ùi xaùc su t xu t hi ỷn pó ồ ỏỳ ỏỳ ó
i
), t ùc la caùcổ ỡ
tin coù xaùc su t xu t hi ỷn th p seợ maợ hoùa b ng caùc t maợ da iỏỳ ỏỳ ó ỏỳ ũ ổỡ ỡ
va ng ỹc laỷi.ỡ ổồ
C ng th ùc sau õ y du ng õ õaùnh giaù m ùc õ ỹ t i u cu a maợ th ngọ ổ ỏ ỡ óứ ổ ọ ọỳ ổ ớ ọỳ
k t i u: ó ọỳ ổ
Trong õ o ù:
D :
õ ỹ t i u cu a maợ.ọ ọỳ ổ ớ
L
dmin
: õ ỹ da i t maợ t i thi u cu a b ỹ maợ õ u c n du ngọ ỡ ổỡ ọỳ óứ ớ ọ óử ỏử ỡ
õ maợ hoùa.óứ
IV.1. Maợ Shannon-Fano
Va o nh ợng nm 1940, nh ợng nm õ u phaùt tri n cu a nga nhỡ ổ ổ ỏử óứ ớ ỡ
Lyù thuy t Th ng tin, yù t ng phaùt tri n m ỹt ph ng phaùp m ùi õóỳ ọ ổồ ớ óứ ọ ổồ ồ óứ
maợ hoùa d ợ li ỷu õaợ b t õ u xu t hi ỷn, sau khi caùc nha nghi nổ ó ừ ỏử ỏỳ ó ỡ ó
c ùu õaợ khaùm phaù ra ổ
Entropy
va ỡ
õ ọ ỹ d ổ th ổỡa s ọ ỳ lió ỷ u
.
Ph ng phaùp maợ hoùa õ u ti n õ ỹc nhi u ng i bi t õ n va oổồ ỏử ó ổồ óử ổồỡ óỳ óỳ ỡ
cu i nh ợng nm 1940 la ph ng phaùp ọỳ ổ ỡ ổồ maợ hoùa Shannon-Fano. Ph ngổồ
phaùp na y õ ỹc hai nha nghi n c ùu ỡ ổồ ỡ ó ổ Claude Shannon va ỡ R.M Fano õ a raổ
g n nh õ ng th i. Kyợ thu ỷt maợ hoùa na y d ỷa tr n t n su t xu tỏử ổ ọử ồỡ ỏ ỡ ổ ó ỏử ỏỳ ỏỳ

(Ba ng õaợ õ ỹc s p x p theo th ù t ỷ tng d n hoỷc gia mớ ổồ ừ óỳ ổ ổ ỏử ớ
d n cu a t n s ). ỏử ớ ỏử ọỳ
Ra : C y nhở ph n bi u di ựn maợ.ỏ ỏ óứ ó
Bổ ồ ù c 1. Taùch ba ng tha nh hai ba ng con sao cho hi ỷu gi ợa t ngớ ỡ ớ ó ổ ọứ
caùc t n s trong m ựi ba ng con la nho nh t.ỏử ọỳ ọ ớ ỡ ớ ỏỳ
Bổ ồ ù c 2. Ba ng con phờa tr n õ ỹc gaùn giaù trở nhở ph n 0, ba ngớ ó ổồ ỏ ớ
con phờa d ùi õ ỹc gaùn trở nhở ph n 1.ổồ ổồ ỏ
Bổ ồ ù c 3. Ti p tuỷc th ỷc hi ỷn tu n t ỷ hai b ùc 1 va 2 cho m ựióỳ ổ ó ỏử ổ ổồ ỡ ọ
ba ng con õ ỹc taùch ra cho õ n khi caùc ba ng tha nh ph n kh ng thớ ổồ óỳ ớ ỡ ỏử ọ óứ
ph n chia õ ỹc n ợa.ỏ ổồ ổ
Nguy n t c chờnh la s duỷng ph ng phaùp õ ỷ qui õ x y d ỷng c yó ừ ỡ ổớ ổồ ó óứ ỏ ổ ỏ
maợ.
Vờ du ỷ : Gia thi t ta coù ba ng sau :ớ óỳ ớ
STT Kờ t ỷổ T n sỏử ọỳ
1 T 0.22
2 M 0.20
3 K 0.18
4 C 0.16
5 D 0.14
6 Y 0.06
7 V 0.04
Sau khi taùch ba ng l n th ù nh t, ta coù:ớ ỏử ổ ỏỳ
Kờ t ỷổ T nỏử
sọỳ
T 0.22 0
M 0.20 0
K 0.18 1
C 0.16 1
D 0.14 1
Y 0.06 1

M 0.20 01 2
K 0.18 100 3
C 0.16 101 3
D 0.14 110 3
Y 0.06 1110 4
Tr ỏửn Quang Minh
KHOA C NG NGH TH NG TIN
L n taù ch 1ỏ ử
L n taù ch 2ỏ ử
L n taù ch 3ỏ ử
L n taù ch 4ỏ ử
L n taù ch 5ỏ ử
L n taù ch 6ỏ ử
K
C
D
Y
B
V
M
0
1
0
1
0
1
0
1
0
1

t û m üt khoa ng bi n thi n ma ta gi la hảng cu a kê t û âọ.ỉ ä í ãú ã ì ì í ỉ
Vê du û :
Chụng ta c n m họa chu ùi “áư ä MICROSOFT!”. Ba ng th ng k t n su tí äú ã áư áú
nh sau :ỉ

t ûỉ
T n sáư äú
xu táú
hi ûnã
Khoa ng bi ní ãú
thi nã
C 1/10 0.0≤r<0.1
F 1/10 0.1≤r<0.2
I 1/10 0.2≤r<0.3
M 1/10 0.3≤r<0.4
O 2/10 0.4≤r<0.6
R 1/10 0.6≤r<0.7
S 1/10 0.7≤r<0.8
T 1/10 0.8≤r<0.9
! 1/10 0.9≤r<1.0
Tr áưn Quang Minh
KHOA C NG NGH TH NG TINÄ ÃÛ Ä
K thu ût m họa Huffman v ïi m hçnh t âi ná å ä ỉì ãø
20
D ûa va o ba ng tr n, chụng ta l ûp ba ng th hi ûn cạc c ûn tr n, c ûnỉ ì í ã á í ãø ã á ã á
d ïi va hảng cu a cạc kê t û trong chu ùi:ỉå ì í ỉ ä

t ûỉ
T n sáư äú
xu táú

âi ûp. T ng t û cho tr ng h üp ã ỉå ỉ ỉåì å
Can_tren[i]
Begin
Canduoi :=0.0;
Cantren :=1.0;
For
i:=1
to
length(Msg)
do begin
Hang := Cantren - Canduoi;
Cantren :=Canduoi +
Hang*Can_tren[i];
Canduoi :=Canduoi +
Hang*Can_duoi[i];
End;
End;
M cu a chu ùi kê t û c n m họa chênh la í ä ỉ áư ì giạ trë sau cng cu
Canduoi
.
IV.3. M Huffman (s â ỉ å ü c giå ïi thiã û u chi tiã ú t åí cạc ch ỉ å n g tiã ú p
theo)
.VMÄ HÇNH HỌA NGƯN S Ä Ú LIÃ ÛU
Nh ta â bi t, ỉ ãú
Entropy
cu a ngu n s li ûu phủ thu üc va o xạcí äư äú ã ä ì
su t, trong khi âọ, xạc su t lải phủ thu üc va o m hçnh. Do âọ, xạcáú áú ä ì ä
Tr áưn Quang Minh
KHOA C NG NGH TH NG TINÄ ÃÛ Ä
K thu ût m họa Huffman v ïi m hçnh t âi ná å ä ỉì ãø

phủc vủ cho vi ûc gia i m sau na y. V ïi m hçnh b ûc 0, l üng sã í ì å ä á ỉå äú
li ûu th ng k tr n la kh ng âạng k (khoa ng 256 bytes), nh ng v ïiã äú ã ã ì ä ãø í ỉ å
m hçnh b ûc cao h n, l üng s li ûu âọ quạ l ïn (chà ng hản v ïi mä á å ỉå äú ã å ó å ä
hçnh b ûc 1, con s âọ x p xè bà ng 256x256 = 64 KB).á äú áú ò
(Bá û c ca m ä hçnh thä ú n g kã : Xạc su t xu t hi ûn cu a m üt kêáú áú ã í ä
hi ûu la m üt khại ni ûm t ng â i va kh ng c âënh, b i vç nọ cọã ì ä ã ỉå äú ì ä äú åí
th thay â i tu y theo m hçnh â üc thi t l ûp. M üt m hçnh th ng kãø äø ì ä ỉå ãú á ä ä äú ã
xạc âënh xạc su t xu t hi ûn cu a m üt kê hi ûu d ûa va o cạc kêáú áú ã í ä ã ỉ ì
hi ûu â ïng tr ïc nọ cho ta cạc m hçnh v ïi cạc b ûc khạc nhau.ã ỉ ỉå ä å á
Cạc kê hi ûu â ïng tr ïc na y tảo tha nh ng ỵ ca nh (context) cu a mã ỉ ỉå ì ì ỉ í í ä
hçnh. B ûc cu a m hçnh th ng k chênh la s kê hi ûu ch ïa trong ng ỵá í ä äú ã ì äú ã ỉ ỉ
ca nh âọ. Vê dủ, n u s kê hi ûu â ïng tr ïc ma ta xem xẹt â n l ãú äú ã ỉ ỉå ì ãú ì
0 thç ta cọ m hçnh th ng k b ûc 0.)ä äú ã á
Chênh vç nh ỵng hản ch tr n ma ng i ta chè t ûp trung phạtỉ ãú ã ì ỉåì á
tri n ãø
m ä hçnh th ä ú n g k ã th ê c h ỉ ï n g
, co n gi la ì ì
m ä hçnh th ä ú n g k ã â ä ü n g
(Dynamic statistical model)
. V ïi m hçnh na y, s li ûu th ng k â i v ïiå ä ì äú ã äú ã äú å
ngu n s li ûu kh ng c n pha i cọ va g i âi ke m lu ng t mäư äú ã ä áư í ì å í ì äư ỉì
Tr áưn Quang Minh
KHOA C NG NGH TH NG TINÄ ÃÛ Ä
K thu ût m họa Huffman v ïi m hçnh t âi ná å ä ỉì ãø
22
ma s â üc têch ly va li n tủc s a â i ngay trong m ùi quạ trçnhì ỉå ì ã ỉí äø ä
m họa hồûc gia i m.í
Hçnh 6.
Hçnh 7.
Trong ca hai quạ trçnh m họa hồûc gia i m, c n chụ í í áư

k hiã û u
M họ a
k hiã û u
Ng ưn
s ä ú liã û u
L ưng
tỉ ì m
M hoạ theo mä hç nh thä ú ng kã thê c h
ỉ ï ng [2]
 o ü c mä ü t
tỉ ì m
L ưng vo
( c ạ c tỉ ì
m )

Gii m theo mä hç nh thä ú ng kã thê c h
ỉ ï ng [2]
Gii m
tỉ ì m
Mä hç nh
Cá û p
nhá û p
mä hç nh
X ú t
k hiã û u

K thu ût m họa Huffman v ïi m hçnh t âi ná å ä ỉì ãø
23
s xu t ra m üt m ạnh xả â n nhọm kê hi ûu âọ. D ỵ li ûu â ú ä ãú ã ỉ ã áư
va o ca ng t ng h üp v ïi cạc nhọm kê hi ûu trong t âi n hồûc kêchì ì ỉå å å ã ỉì ãø

khi nọ xu t hi ûn thç ta lải thay th bà ng củm t vi t tà t t ngáú ã ãú ò ỉì ãú õ ỉå
ïng.ỉ
CHỈ ÅNG II
Tr áưn Quang Minh
KHOA C NG NGH TH NG TINÄ ÃÛ Ä
K thu ût m họa Huffman v ïi m hçnh t âi ná å ä ỉì ãø
24
III.PHỈ NG PHẠP M HỌA HUFFMAN V ÏI MÅ Å Ä
HÇNH TH NG KÄÚ Ã
I. PHỈÅNG PHẠP M HỌA HUFFMAN
Ph ng phạp m họa Huffman â üc ỉå ỉå D.A.Huffman â a ra va o nàmỉ ì
1952. Ph ng phạp m họa na y â kh i â u cho s û phạt tri nỉå ì åí áư ỉ ãø
cu a cạc k thu ût nẹn s li ûu d ûa tr n m hçnh th ng k . T âọí á äú ã ỉ ã ä äú ã ỉì
â n nay, k thu ût m họa Huffman â cọ nhi u ca i ti n, cho rẫú á ãư í ãú
â i nhi u loải m Huffman khạc nhau nh : å ì ãư ỉ
m Huffman s ỉ ía â ä ø i
(Modified Huffman codes), m Huffman cu ût (Truncated Huffman codes), m
Huffman th ê c h ỉ ï n g (Adaptive Huffman codes)
va ì
m d ë c h Huffman (Shift
Huffman codes)
.
M Huffman â üc D.Huffman â a ra chênh la m Huffman ténh.ỉå ỉ ì
I.1. M Huffman ténh
.a Cåí s åí nẹn s ä ú liã û u ca ph ỉ å n g phạp m họa Huffman ténh
Ph ng phạp m họa Huffman la ph ng phạp d ûa va o m hçnhỉå ì ỉå ỉ ì ä
th ng k . D ûa tr n ngu n s li ûu, ng i ta âi äú ã ỉ ã äư äú ã ỉå ì
th ä ú n g k ã táưn su á ú t xu á ú t
hi ã û n ca cạc k ê t ỉ
û. Tr n c s ba ng t n su t â üc x y d ûng, ng iã å åí í áư áú ỉå á ỉ ỉå ì

Mä üt v ê du û v ã ư c áy m Huffman
Kê t ûỉ S l näú áư
xu t hi ûnáú ã
T mỉì
A 3 0
B 2 10
D 1 1111
I 1 1110
R 1 110
Nh v ûy â m x u kê t û tr n ta chè c n 3x1 + 2x2 + 1x4 + 1x4 + 1x3ỉ á ãø á ỉ ã áư
= 18 bits, nho h n nhi u so v ïi kêch th ïc ban â u la 8x8= 64 bits.í å ãư å ỉå áư ì
Th û t toạn xáy dỉ û n g c áy m Huffman ténh
• Vo : Ba ng th ng k t n su t cu a cạc kê t û trong ngu n sí äú ã áư áú í ỉ äư äú
li ûu.ã
• Ra : C y m Huffman.á
Bỉ å ï c 1.Tçm hai nụt t û do cọ trng l üng nho nh t.ỉ ỉå í áú
Bỉ å ï c 2.Nụt cha cu a hai nụt na y â üc tảo ra v ïi trng l üngí ì ỉå å ỉå
bà ng t ng trng l üng cu a hai nụt con.ò äø ỉå í
Bỉ å ï c 3.Th m nụt cha v a â üc tảo ra va o danh sạch cạc nụt.ã ỉì ỉå ì
ạnh d u nụt cha la “t û do”, hai nụt con la “â xẹt”. áú ì ỉ ì
Bỉ å ï c 4.Gạn bêt m 0 cho nhạnh con trại xu t phạt t nụt cha,áú ỉì
nhạnh con phại â üc gạn bêt m 1.ỉå
Bỉ å ï c 5.Làûp lải t b ïc 1 â n b ïc 4 cho â n khi chè co n m ütỉì ỉå ãú ỉå ãú ì ä
nụt t û do. Nụt na y chênh la nụt g c cu a c y m Huffman.ỉ ì ì äú í á
Tr áưn Quang Minh
KHOA C NG NGH TH NG TINÄ ÃÛ Ä
B
R
I
D


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status