1
LẬP TRÌNH WEB ASP VỚI TIẾNG VIỆT UNICODE
Lê Đình Duy
Khoa CNTT - ĐHKHTN Tp. HCM
08.2002
1. Một số khái niệm căn bản về biểu diễn kí tự bên trong máy tính
1.1. Khái niệm về điểm mã, đơn vị mã, bảng mã
Về mặt bản chất, máy tính chỉ làm việc với các con số, do đó để biểu diễn các kí tự trên máy tính cần phải
có một qui ước nhất quán giữa các kí tự cần biểu diễn và các con số tương ứng mà máy tính xử lí. Qui ước
này được thể hiện qua các bước sau:
- Chọn tập các kí tự cần mã hóa (character set).
- Gán cho mỗi kí tự cần mã hóa một giá trị nguyên không âm, gọi là điểm mã (code point).
- Chuyển các điểm mã thành dãy các đơn vị mã (code units) để cho phục vụ cho việc lưu trữ và mã
hóa. Một đơn vị mã là một đơn vị của bộ nhớ, có thể là 8, 16, hay 32 bit. Các điểm mã không nhất
thiết phải có cùng số đơn vị mã.
Tập hợp những điểm mã của một tập các kí tự được gọi là một trang mã (code page) hay còn gọi là bảng
mã hay bộ mã. Như vậy khi nói về một bảng mã, chúng ta quan tâm đến hai điều chính, số lượng các kí tự
được mã hóa, và cách mã hóa chúng thành các đơn vị mã.
Lấy ví dụ bảng mã ASCII, tập kí tự cần mã hóa có 128 kí tự bao gồm các kí tự tiếng Anh, kí tự số, kí tự tiền
tệ Anh, Mỹ và các kí tự điều khiển hệ thống ngoại vi. Các điểm mã có giá trị nằm trong khoảng từ 0-127. Mỗi
điểm mã được mã hóa bằng đúng một đơn vị mã 8 bit, có nghĩa là đúng một byte.
Việc quyết định chọn cách mã hóa như thế nào sẽ quyết định số lượng kí tự được mã hóa. Ví dụ, nếu chọn
cách mã hóa các điểm mã bằng đúng một đơn vị mã 8-bit thì số lượng điểm mã của một bảng mã (tạm gọi
là bảng mã 8 bit) chỉ có thể tối đa là 256.
Do bảng mã ASCII không đủ để biểu diễn các kí tự của các ngôn ngữ khác, ví dụ như tiếng Việt, nên
Microsoft đã nới rộng bảng mã ASCII bằng cách sử dụng 128 điểm mã có giá trị từ 128-255 để mã hóa cho
Unicode ra đời nhằm thống nhất chung các kí tự của mọi ngôn ngữ trong một bảng mã duy nhất [2
]. Hai vấn
đề nên lưu ý khi đề cập đến thuật ngữ Unicode đó là:
- Tập kí tự mà Unicode biểu diễn: ở đây muốn nói đến tập kí tự và cách ánh xạ các kí tự bằng các
điểm mã tương ứng.
- Cách mã hóa các điểm mã thành các đơn vị mã.
Unicode dùng 16 bit để biểu diễn các điểm mã, do đó nó có thể biểu diễn được đến 65,536 kí tự có điểm mã
nằm trong khoảng từ 0-65,535. Do vậy với Unicode người ta có thể biểu diễn được hầu hết các kí tự của
các ngôn ngữ.
Cách đơn giản nhất để mã hóa các kí tự Unicode là biểu diễn mỗi điểm mã bằng đúng một đơn vị mã 16-bit.
Đây chính là cách mã hóa nguyên thủy của Unicode trong phiên bản 2.0 được ISO/IEC chuẩn hóa thành
ISO/IEC 10646 hay còn gọi là UCS-2. Tuy nhiên, để tương thích với các hệ thống xử lí trước khi Unicode ra
đời cũng như tối ưu hóa trong quá trình lưu trữ và truyền dữ liệu, người ta dùng các cách khác nhau để mã
hóa các điểm mã thành các đơn vị mã. Mỗi cách mã hóa như vậy được gọi là một dạng biến đổi của
Unicode (UTF – Unicode Transformation Format). Thông dụng nhất hiện nay là UTF-8 và UTF-16 dùng dãy
các đơn vị mã có độ dài khác nhau để mã hóa các điểm mã. UTF-8 dùng 1 đến 4 đơn vị mã 8-bit trong khi
UTF-16 dùng 1 đến 2 đơn vị mã 16-bit để mã hóa. Ví dụ sau minh họa cách mã hóa của UTF-8:
- 128 kí tự đầu tiên của Unicode từ điểm mã U+0000 đến U+007F, được mã hóa thành 1 byte.
- Từ điểm mã U+0080 đến U+07FF, được mã hóa thành 2 byte.
- Từ điểm mã U+0800 đến U+FFFF, được mã hóa thành 3 byte.
- Từ điểm mã U+0800 đến U+FFFF, được mã hóa thành 4 byte.
Như vậy khi đề cập đến Unicode trong lập trình, cần phải xác định rõ chúng ta dùng bảng mã Unicode theo
dạng biến đổi nào: UCS-2, UTF-8, hay UTF-16, … UCS-2 được dùng trong các hệ quản trị cơ sở dữ liệu
như SQL Server 7.0/2000, Microsoft Access 2000, UTF-8 thường được dùng trong các ứng dụng web, trong
khi UTF-16 lại được dùng trong các hệ thống như Windows 2000/XP, Java, …
2. Lập trình web với tiếng Việt Unicode
2.1. Chỉ định bảng mã dùng trong trang web
Khi một trang web được server chuyển xuống cho client, trình duyệt sẽ dùng thông tin về bảng mã mà trang
web đó sử dụng để chuyển dãy các byte trong tài liệu đó thành các kí tự tương ứng để hiển thị lên màn
hình. Ngoài ra, một khi dữ liệu trong các FORM được gửi đi sau khi người dùng submit, trình duyệt cũng sẽ
Trong trường hợp bảng mã được chỉ định không có khả năng biểu diễn được tất cả các kí tự của trang web,
người ta phải dùng đến số tham chiếu của kí tự (NCRs - numerical character references). Số tham chiếu kí
tự là điểm mã của kí tự Unicode tương ứng mà nó biểu diễn. Số tham chiếu kí tự có hai dạng thập phân và
thập lục phân. Dạng thập phân có cú pháp là “&#D;”, với D là số thập phân. Dạng thập lục phân có cú pháp
là “&#xH;”, với H là số thập lục phân. Ví dụ: å và å là các số tham chiếu của kí tự “a” trong bảng
mã Unicode. Một khi gặp số tham chiếu của kí tự, trình duyệt sẽ tham chiếu trực tiếp đến kí tự có điểm mã
tương ứng trong bảng mã Unicode mà không sử dụng đến bảng mã được chỉ định hiện hành [5
].
Lấy ví dụ một trang web được mã hóa với bảng mã windows-1252, lúc đó để hiển thị đoạn văn bản: “Tiếng
Việt”, dữ liệu cho trang web phải là “Tiếng Việt” , trong đó ế và ệ lần lượt là các
số tham chiếu của các kí tự “ế” và “ệ” trong bảng mã Unicode.
Điều này cho phép giải thích tại sao, các trang web không dùng bảng mã UTF-8, ví dụ như windows-1252,
vẫn có thể hiển thị được các kí tự Unicode không thuộc bảng mã đó hay khi chuyển đổi từ bảng mã UTF-8
sang windows-1252, MS FrontPage 2000 lại tự động thêm vào các số tham chiếu kí tự theo cách trên.
2.2. Hoạt động của webserver
Khi trình duyệt yêu cầu một trang .asp, trình xử lí trang asp tại webserver sẽ thông dịch các mã lệnh ở trong
trang web này và gửi kết quả về cho trình duyệt. Thông thường, lệnh Response.Write được dùng cho các
kết xuất từ các hằng chuỗi hay từ các biến ra màn hình. Ví dụ như: 4
…
<%
Response.Write “Chào mừng bạn đến với trang web này” ‘in một hằng chuỗi
Response.Write rs(”TEN_NV”) ‘in dữ liệu của một biến, ví dụ như là một trường của recordset
%>
…
Để yêu cầu webserver mã hóa các dữ liệu trong các hằng chuỗi và biến theo bảng mã sẽ được dùng để
hiển thị tại client, ta cần phải đặt thuộc tính CodePage về bảng mã tương ứng. Các lệnh trong ví dụ sau sẽ
</BODY>
</HTML>
- Sử dụng các hệ quản trị CSDL hỗ trợ Unicode như SQLServer 7.0/2000, MS Access 2000. Nếu
dùng SQL Server thì phải khai báo kiểu dữ liệu cho các trường lưu dữ liệu Unicode là NCHAR,
NVARCHAR, NTEXT, … Các kiểu dữ liệu như TEXT, MEMO, HYPERLINK trong MS Access 2000
mặc định là hỗ trợ lưu dữ liệu Unicode.
- Truy xuất cơ sở dữ liệu thông qua JScript/VBScript/ODBC.
- Khi làm việc trên hệ quản trị CSDL SQL Server 7.0/2000, nếu dùng các hằng chuỗi trong các câu
lệnh SQL, phải thêm tiếp đầu ngữ N (bắt buộc là chữ in hoa) vào [8
]. Nếu không sử dụng tiếp đầu
5
ngữ này, SQL Server sẽ tự động chuyển chuỗi dữ liệu sang bảng mã mặc định hiện hành trước khi
sử dụng nó trong các thao tác cập nhật CSDL. Ví dụ, nếu bạn dùng câu lệnh sau: INSERT INTO
SINHVIEN(TEN_SV) VALUES(‘Trần Nam Hải’) thì hằng chuỗi dữ liệu ‘Trần Nam Hải’ sẽ được SQL
Server xem như là chuỗi kí tự thường chứ không phải là chuỗi Unicode. Điều này sẽ dẫn đến hậu
quả là dữ liệu sẽ được lưu trữ không chính xác. Ví dụ như dữ liệu của kí tự “ầ” trong chuỗi trên là
E1 BA A7, sẽ được lưu thành 3 kí tự khác nhau. Trong khi đó nếu dùng câu lệnh INSERT INTO
SINHVIEN(TEN_SV) VALUES(N‘Trần Nam Hải’) thì 3 byte E1 BA A7 sẽ được xem như là một kí tự
khi lưu xuống [9
].
3. Hỗ trợ Unicode của các phần mềm
3.1. Các phần mềm hỗ trợ soạn thảo trang web
- Visual Studio.NET, Notepad, MS FrontPage2002: Hỗ trợ lưu tập tin dưới dạng UTF-8
- Visual InterDev 6.0: Nếu trong trang asp ta sử dụng các hằng chuỗi được gõ vào dưới dạng
Unicode, ví dụ như: Response.Write “Chào mừng bạn “ thì lúc lưu tập tin, chương trình sẽ phát hiện
ra trong trang asp này có xuất hiện kí tự Unicode và yêu cầu lưu xuống dưới dạng Unicode, nếu
không các kí tự Unicode sẽ bị mất. Tuy nhiên, nếu chọn lưu dưới dạng Unicode thì chương trình sẽ
lưu tập tin này dưới dạng mã hóa UCS-2. Hiện nay webserver IIS không thể xử lí được trang asp
này [10