Đại học đà nẵng
trờng đại học kỹ thuật
khoa công nghệ thông tin
điện tử - viễn thông
0 (511) 841 287 - 892 992
Đồ áN TốT NGHIệP
Đề tài:
Thiết kế từ điển từ h
Thiết kế từ điển từ htiếng Việt
tiếng Việt
sinh viên thực hiện : nguyễn minh nhật
Lớp : 95T
cán bộ hớng dẫn : ts. Phan huy khánh
Đà Nẵng, 2000
Lời cảm ơn...
Lời cảm ơn...
Trớc tiên, em xin chân thành cảm ơn thầy TS. Phan Huy Khánh
Khoa Công nghệ Thông tin và Điện tử Viễn thông trờng Đại học Kỹ
thuật Đà nẵng đã trực tiếp, tận tình giúp đỡ và hớng dẫn em trong suốt
thời gian thực tập cũng nh thời gian làm đồ án tốt nghiệp.
Em xin chân thành cảm ơn các Thầy, Cô trong khoa Công nghệ
Thông tin và Điện tử Viễn thông trờng Đại học Kỹ thuật Đà nẵng đã
nhiệt tình dạy bảo và giúp đỡ em trong suốt thời gian học tại trờng.
Tôi xin cảm ơn các bạn sinh viên nhất là các bạn lớp 95T khoa
Công nghệ Thông tin và Điện tử Viễn thông trờng Đại học Kỹ thuật
Đà nẵng đã góp ý giúp đỡ, động viên tôi hoàn thành đồ án đúng thời
hạn.
Cuối cùng, tôi không thể nào bày tỏ hết lòng biết ơn sâu sắc của
Thiết kế giao diện chính.......................................................................21
I. Các công cụ của giao diện chính.............................................................21
1. Nút lệnh tra từ (cmdReference)............................................................21
2. Nút lệnh những từ đã tra (cmdHistory).................................................22
3. Nút lệnh quay lui (cmdBack)................................................................23
4. Nút lệnh thêm từ vào từ điển (cmdAdd)................................................23
5. Nút lệnh sửa đổi từ trong từ điển (cmdReplace)....................................23
6. Nút lệnh xóa từ (cmdRemove)...............................................................23
7. Nút lệnh thoát (Exit)............................................................................24
II. Tra từ........................................................................................................24
1. Các phơng án tra từ..............................................................................24
2. Xuất kết quả (Hàm Translate)...............................................................26
Chơng 3...........................................................................................................29
Thiết kế giao diện cập nhật................................................................29
1. Nút lệnh thêm nghĩa.............................................................................29
2. Nút xóa nghĩa.......................................................................................30
3. Nút đánh dấu từ, và tự động đánh dấu từ..............................................31
4. Nút sao lu kết quả và thoát...................................................................31
Kết quả demo.................................................................................................32
I. Cài đặt chơng trình:.................................................................................32
II. Chạy chơng trình:...................................................................................32
KếT LUậN............................................................................................................36
Phụ lục 1............................................................................................................37
Giới thiệu các Font mã tiếng Việt....................................................37
1. Font mã 1 byte.....................................................................................37
2. Font mã 2 byte.....................................................................................37
3. Font mã tổ hợp.....................................................................................37
4. Font ABC mã TCVN3 - 5712................................................................37
Phụ lục 2............................................................................................................39
Mã RTF.................................................................................................................39
nghĩa của chúng. Ví dụ nh những từ:
vạn bất đắc dĩ, cực chẵng đã...
Mà
một khi đã không hiểu đợc nghĩa của từ h, thì cũng khó có thể hiểu đúng
nghĩa khi chúng tham gia vào các tổ hợp từ, quán từ
2
.
Hiện nay trên thị trờng đã có từ điển từ công cụ tiếng Việt của
Đỗ Thanh do nhà xuất bản giáo dục xuất bản năm 1998. Tuy nhiên
trên máy tính cha xuất hiện một từ điển từ công cụ tiếng Việt nào. Qua
đề tài tốt nghiệp với sự hớng dẫn nhiệt tình của thầy giáo TS. Phan
Huy Khánh em đã mạnh dạng thiết kế một từ điển nh thế lấy tên là từ
điển từ h tiếng Việt
3
với mục đích:
+ Phục vụ cho việc giảng dạy, học tập, biên soạn giáo trình và các
loại sách công cụ
4
tiếng Việt trên máy tính.
+ Phục vụ cho việc học tập giảng dạy tiếng Việt ở các cấp phổ
thông của Việt Nam. Cụ thể nó sẽ giúp các em học sinh nói và viết đúng
tiếng Việt.
+ Ngoài ra nó có thể đợc đa vào trong từ điển đa ngữ trên máy tính
để tiếp tục tìm cách xử lý ngôn ngữ tự nhiên.
1
Theo từ điển tiếng Việt của viện Ngôn ngữ học do Hoàng Phê chủ biên, xuất bản năm
2000 từ h (mere words) hay còn gọi là h từ đợc định nghĩa là: Từ không có khả năng độc
lập làm thành phần câu, đợc dùng để hiển thị quan hệ ngữ pháp giữa các thực từ.
2
Theo từ điển tiếng Việt của Hoàng Phê định nghĩa quán từ có nghĩa nh mạo từ là từ dùng
thiếu sót, kính mong quí thầy cô và các bạn phê bình, góp ý để hoàn
thiện đồ án hơn nhằm đa đồ án đã thiết kế vào ứng dụng thực tế.
Đà nẵng, ngày......tháng......năm 2000
SV. Thực hiện
Nguyễn Minh Nhật
Nguyễn Minh Nhật - 95T Trang 8
Đồ án tốt
nghệp
Thiết kế từ điển từ công cụ tiếng Việt
Phần I
Phần I
Cơ sở lý thuyết xây dựng từ
Cơ sở lý thuyết xây dựng từđiển từ h
điển từ h
Nguyễn Minh Nhật - 95T Trang 9
Đồ án tốt
nghệp
Thiết kế từ điển từ công cụ tiếng Việt
Ch
Ch
ơng 1
ơng 1
Tìm hiểu về từ điển và từ h
Tìm hiểu về từ điển và từ h
I. Từ điển và vấn đề tin học hóa
Theo từ điển tiếng Việt của viện Ngôn ngữ học do Hoàng Phê chủ biên định
nghĩa từ điển là sách tra cứu tập hợp các đơn vị ngôn ngữ (thờng là đơn vị từ vựng)
Xem hình 1-1.
Nguyễn Minh Nhật - 95T Trang 10
Từ
Từ khóa Giải thích
Đồ án tốt
nghệp
Thiết kế từ điển từ công cụ tiếng Việt
Hình 1-1. Mô hình d liệu theo cách 1
Lúc này ở phần giải thích chỉ cần một văn bản có kiểu không thay đổi, không
cần dùng đến định dạng kiểu rtf (RichText Format) nh trong Word.
Khi đó giao diện sẽ nh hình 1-2.
Hình 1-2. Giao diện theo cách 1
Ưu điểm: Đơn giản, dể thiết kế, xử lý nhanh.
Nh ợc điểm: Không phân biệt đợc nghĩa và ví dụ trong lời giải thích, không
phù hợp với nhu cầu ngời dùng.
Nguyễn Minh Nhật - 95T Trang 11
Từ cần tra
Danh sách
các từ
Giải thích
Đồ án tốt
nghệp
Thiết kế từ điển từ công cụ tiếng Việt
- Cách 2. Tách phần giải thích thành hai phần nghĩa và ví dụ. Xem hình 1-3.
Hình 1-3. Mô hình dữ liệu theo cách 2
Theo cách này ta đa thêm một trờng nữa, khi đó mỗi trờng cũng là một văn
bản có kiểu không thay đổi nên cũng không cần dùng đến định dạng kiểu rtf. Theo
cách này ta có diao diện nh hình 1-4.
Hình 1-4. Giao diện theo cách 2
Ưu điểm: Đơn giản, xử lý nhanh, đã phân biệt đợc nghĩa và ví dụ trong phần
Danh sách
các từ
Nghĩa 1
Ví dụ 1
...
Nghĩa n
Ví dụ n
Đồ án tốt
nghệp
Thiết kế từ điển từ công cụ tiếng Việt
Ưu điểm: Phân biệt đợc nghĩa và ví dụ, xử lý đợc một từ có nhiều nghĩa, có
thể đa ra thành một file Word làm cho từ điển phong phú
Nh ợc điểm: Phức tạp khi xử lý file rtf, xử lý chậm.
Qua ba phơng án trên thì ta chọn cách 3 để thiết kế, tuy có hơi phức tạp nhng
khắc phục đợc các nhợc điểm ở cách 1 và cách 2, làm cho từ điển trở nên phong
phú, đa dạng, gần gủi với ngời dùng.
III. Giải pháp xây dựng dữ liệu
Có rất nhiều giải pháp để xây dựng dữ liệu cho từ điển. ở đây chúng ta trình
bày một phơng án sử dụng đối tợng Dictionary mà Visual Basic cung cấp.
1. Tổng quát
Từ điển từ công cụ tiếng Việt đợc thiết kế trong môi trờng Microsoft
Windows. Do hiện nay môi trờng Windows đợc sử dụng rộng rãi nên để tiện việc tra
cứu, học tập và có thể áp dụng cho các ứng dụng văn bản nh Winword, PowerPoint,
Web... có thể hình dung chúng hoạt động theo mô hình sau (Xem hình 1-7)
Hình 1-7. Mô hình hoạt động của từ điển
Trong đó bộ chuyển đổi tiếng Việt thực hiện chức năng chuyển đổi từ mã
tiếng Việt 7 bits kiển Telex sang mã ABC theo TCVN3 - theo đề tài của Hoàng
Quốc Thái - (xem phần chuyển mã).
Vào là một từ khóa, từ điển sẽ tìm trong cơ sở dữ liệu nếu có sẽ đa ra phần
giải thích tơng ứng, còn không sẽ đa ra thông báo lỗi không tìm thấy. Một từ có thể
Kiểm tra Tồn_tại_từ tức kiểm tra từ có trong danh sách List hay không. Việc
kiểm tra trên danh sách từ khoá (không có phần mô tả) nên đợc tiến hành rất nhanh.
2. Cơ sở dữ liệu của từ điển từ h
Dữ liệu của từ điển đợc tổ chức dới dạng cơ sở dữ liệu mdb của Access với
mô hình nh sau:
Danh mục từ chứa tất cả các mã từ, nó đợc sử dụng để tìm kiếm, sắp xếp,
nhận dạng một từ có tồn tại không. Mỗi từ có thể có nhiều nghĩa và ví dụ về nghĩa
đó. Một nghĩa có thể cho nhiều từ nếu chúng đồng nghĩa. Xem hình 1-9.
Hình 1-9. Mô hình cơ sở dữ liệu từ điển
3. Xây dựng cơ sở dữ liệu từ vựng cho từ điển từ h
Do cấu trúc âm tiết tiếng Việt và để sử dụng các bảng thống kê âm tiết trong
từ điển chính tả của Hoàng Phê, ta có thể thiết kế cơ sở dữ liệu là một mảng hai
chiều. Mỗi phần tử của một mảng cho phép kiểm tra tính đúng đắn (sự có mặt) một
âm tiết căn cứ vào vị trí hàng của phụ âm đầu và vị trí cột của khuôn vần.
Ví dụ âm tiết trờng là phần tử đợc xác định từ phụ âm đầu tr và khuôn vần -
ờng từ bảng sau (bên phải Hình 1-9 là cách xác định âm tiết đó):
...
ờng
...
...
tr
...
Hình 1-9. Cách xác định một âm tiết
4. Tổ chức dữ liệu
Từ điển đợc thiết kế nhằm tra cứu từ nên dữ liệu đợc tổ chức dạng thức các
cặp từ khóa - giải thích (Key - Meaning) (xem hình 1-5)
Nguyễn Minh Nhật - 95T Trang 14
ường
tr
cấu trúc nh một file Word ta phải xử lý chúng thông qua định dạng file rtf (RichText
Format) mà trong Visual Basic đó là đối tợng RichTextBox. Mỗi đối tợng có hai tr-
ờng dữ liệu đáng quan tâm là trờng văn bản (Text) và trờng mã định dạng cho văn
bản đó (TextRTF).
Ví dụ để hiển thị dòng chữ Dai hoc Da Nang font = .vnTime size=14,
màu đỏ ta phải viết một đoạn mã nh sau:
{\rtf1\ansi\deff0\deftab720{\fonttbl{\f0\fswiss MS Sans Serif;}
{\f1\froman\fcharset2 Symbol;}{\f2\fswiss\fprq2 .VnTime;}}
{\colortbl\red0\green0\blue0;\red255\green0\blue0;}
\deflang1033\pard\plain\f2\fs28\cf1 Dai hoc Da Nang
\par }
Nh vậy nếu dữ liệu đợc lu ở dạng file mã rtf thì dung lợng sẽ rất lớn do đó
quá trình nạp dữ liệu sẽ chậm. Để khắc phục vấn đề này ta chỉ lu dữ liệu ở dạng file
văn bản tức chỉ lu dòng Dai hoc Da Nang. Trên đó ta qui định thêm các tab định
dạng riêng. Khi đó ta sẽ xử lý trên văn bản này, chỉ khi nào muốn hiển thị thông tin
ra màn hình mới chuyển file văn bản đó thành mã rtf. Điều này có nghĩa là ta chỉ
thay các tab đó thành các đoạn mã định dạng tơng ứng.
Các tab định dạng đợc qui định nh ở bảng dới
Tab Đoạn mã thay thế Giải thích
$ "\par \plain\li500\f4\fs24\cf2 " Bắt đầu một nghĩa
# "\par \plain\li0\f3\fs24\cf1\i " Bắt đầu một ví dụ
^ "\plain\f4\fs24\cf3 " Bắt đầu đánh dấu đỏ
~ "\plain\li0\f3\fs24\cf1\i " Kết thúc đánh dấu đỏ thong giải thích
` "\plain\f4\fs24\cf2 " Kết thúc đánh dấu đỏ trong ví dụ
Chr(13) "\par " Xuống dòng
Bảng qui định các đoạn mã thay thế các tab
Với bảng font và bảng màu đợc định nghĩa qua đoạn mã:
"{\rtf1\ansi\deff0\deftab720
{\fonttbl
{\f0\fswiss MS Sans Serif;}