•
Cao Văn Cường
•
Đào Duy Lợi
•
Nguyễn Thùy Linh
•
Nguyễn Thị Huyền Thương
•
Vũ Thị Thúy
•
Phạm Văn Tuyền
N i Dungộ
N i Dungộ
•
Cách biểu diễn ký tự trong máy tính.
•
Tổng quan về bộ mã ASCII chuẩn, mở
rộng.
•
Tổng quan bộ mã Unicode.
•
Tổng quan TCVN3
1.Cách biểu diễn ký tự trong máy tính
1.Cách biểu diễn ký tự trong máy tính
Một số định nghĩa
Một số định nghĩa
:
:
-
Bảng mã: Một tập hợp nhiều kí tự khác nhau
.
Ví dụ:
•
Bảng mã chuẩn ASCII (American Standard Code
for Information Interchange) - Mã chuẩn Hoa kỳ
trong Trao đổi Thông tin) bao gồm 128 kí tự, phần
lớn là các kí số, kí tự tiếng Anh, những ký tự đặc biệt
và thông dụng như các dấu cộng, trừ, phần trăm
•
Unicode là một bảng mã chuẩn khác, gồm có hàng
ngàn các kí tự gồm tiếng Anh và quốc tế bao gồm cả
các kí tự Việt nam. Cũng có một vài bảng mã tiếng
Việt (không chuẩn) như TCVN-ABC, VNI, VISCII,
chúng chỉ có tối đa là 256 kí tự
1.Cách biểu diễn ký tự trong máy tính
m t s th p l c phân luôn c bi u di n b ng ộ ố ậ ụ đượ ể ễ ằ
b n 4 s nh phân. ố ố ị
•
Ví d :ụ
16 2 16 2 2
16 2 16 2 2
6 0110 ;1 0001 ;F 1111 ;
61 01100001 ;7 0111 ;7F 01111111
= = =
= = =
1.Cách biểu diễn ký tự trong máy tính
1.Cách biểu diễn ký tự trong máy tính
-
Mã hóa (encoding): Cách biểu diễn một kí tự trong
dạng một chuỗi bit. Tùy theo cách mã hóa, một kí tự
có thể được biểu diễn khác nhau.
- Giải mã: Sau khi hệ điều hành nhận được một kí tự
(ví dụ đọc từ một file) đã được mã hóa, nó phải giải
mã để lấy lại mã gốc của kí tự trong bảng mã trước
khi vào font file để tìm cấu hình và thể hiện kí tự
trên màn hình. Một font file chỉ dùng các mã gốc
chứ không dùng dạng đã mã hóa.
mã từ
•
Bao gồm:
– 128 kí tự chuẩn có mã từ
– 128 kí tự mở rộng có mã từ
8
2
16 16
00 FF÷
16 16
00 ÷7F
16 16
80 FF÷
2.1.Bộ mã ASCII chuẩn
2.1.Bộ mã ASCII chuẩn
•
Bảng mã ASCII: 7-bit, cho phép 128 mã ( ). Còn
có tên khác là ISO 646-IRV. ASCII là bộ mã đầu
tiên lúc máy tính được phát minh.
•
Mã cho phép: từ đến
•
Mã nhỏ nhất: 0, dùng cho kí tự NUL (null: trống
trơn, không có gì).
•
Mã lớn nhất ( ).
16 16
30 39÷
16 16
20 7E÷
16 16
41 5A÷
16 16
61 7A÷
2.1.Bộ mã ASCII chuẩn
2.1.Bộ mã ASCII chuẩn
•
95 ký tự hiển thị được:
– Các dấu câu: . , ? ! : ; …
– Các dấu phép toán: + - * / …
– Một số kí tự thông dụng: #, $, &,
@,
– Dấu cách (mã là )
16
20
2.1.Bộ mã ASCII chuẩn
2.1.Bộ mã ASCII chuẩn
•2.2Bộ mã ASCII mở rộng
2.2Bộ mã ASCII mở rộng
•
Được định nghĩa bởi:
– Nhà chế tạo máy tính
– Người phát triển phần mềm
•
Bảng mã ANSI : 8-bit, là bảng mã ASCII mở rộng; cho phép
256 mã ( ).
- Các tên khác: ISO-8859-1, LATIN-1.
- Mã cho phép: từ
-Mã nhỏ nhất: , dùng cho kí tự NUL.
- Mã lớn nhất ( )
(lưu ý: tất cả 8 bit trong đơn vị dữ liệu được dùng)
8
2
16 16
00 FF÷
10 16
255 FF=
10 2
255 , 11111111= =
16
0
các kí tự khác bên cạnh tiếng Anh.
•
Khuyết điểm:
- Vẫn chưa đủ chỗ cho các kí tự quốc tế.
(Trung Quốc, Hàn Quốc, Ä Rập, Do
Thái ,quá nhiều!) Vì vậy, người ta phát
minh ra Unicode 16-bit.
Bảng mã ASCII mở rộng
Bảng mã ASCII mở rộng
•
click
PDF Document
•
3. Bộ mã Unicode
–
3.1 Xây dựng bộ ký tự Unicode
•
3.1.1Lập kho ký tự đa ngữ toàn cầu
•
3.1.2. Phân bổ điểm mã cho các ký tự đã được nhận vào
kho
•
cách mã trong máy tính rồi mới tới cách biểu diễn
ký tự của ngôn ngữ). Người ta cần làm ra mô hình
cho thế giới thực để từ đó mới chiếu vào trong máy
tính, tạo ra mô hình biểu diễn trong máy tính mô
phỏng cho thực tế.
3. Bộ mã Unicode
3.1. Xây dựng bộ ký tự Unicode
3.1.1Lập kho ký tự đa ngữ toàn cầu:
Xây dựng được bộ ký tự đa ngữ cho toàn thế
giới từ đó tìm cách tạo lập mã vào đưa vào
trong máy tính.
Xác lập một loạt tiêu chuẩn cho việc chọn lựa
chữ đưa vào bộ ký tự đa ngữ quốc tế này, yêu
cầu quan trọng nhất là đảm bảo không có sự
trùng lặp về hình dạng của các chữ trong tập
ký tự này.
Số chữ đã được thống nhất công nhận thuộc
vào bộ ký tự đa ngữ quốc tế đã là trên 90.000
và trong tương lai sẽ còn tăng lên trên 120.000.
3. Bộ mã Unicode
3. Bộ mã Unicode
3.1. Xây dựng bộ ký tự Unicode
của một ngôn ngữ, chúng ta có một tập sinh nhỏ cùng
các quy tắc để làm phát sinh ra tập lớn các dạng biểu
diễn tạm thời của chữ trong câu. Và đó là hình thái
mà nhiều ngôn ngữ trên thế giới sử dụng, khác với chữ
tiếng Anh.