TAP CHÍ KHOA HỌC ĐHQGHN, KHTN & CN. T.xx., Số 1, 2004
M Ò H ỈN H D Ử L IỆ U T Ừ V ự N G C Ủ A T Ừ Đ IE N
t in h ọ c
T IẾ N G Đ ỊA P H Ư Ơ N G N G H Ệ -T ĨN H
P h a n Huy K h án h
Đại học Đà N ă n g
1 Vân để cơ sở d ữ liê u từ vự n g và t iế n g đia ph ư ơng
Trong lĩnh vực nghiên cứu ứng dụng tin học xử lý ngôn ngữ tự nhiên, người ta
phải xây dựng và tích luỹ các cơ sở dữ liệu (CSDL) từ vựng (lexical database) đê từ đó
khai thác nhờ các t ừ điên chuyên dụng khác nhau. Đặc điểm chung của các CSDL từ
vựng là nguồn dữ liệu rất lớn, không cùng cách tổ chức và không cùng cách biếu diễn
bên trong máy tính. Việc bảo trì, cập n h ậ t và khai thác thường gặp r ấ t nhiêu khó khăn.
Một trong nh ững nguyên n h â n là các nguồn dữ liệu từ vựng lấy từ nhiều nơi, từ các từ
điên giấy, hoặc t ừ internet, không đồng n h ấ t về cách tổ chức, không hoàn toàn giông
n h a u về nội dung. Lấy ví dụ các từ điển tiếng Việt, mỗi tác giả có một cách riêng đê tố
chức và diễn giải các mục từ (entry/headword), nhiều khi rất khác n h a u về quan niệm,
vê th uật ngữ.
Đê có được nh ữ n g từ điên phù hợp vói nhu cầu sử dụng khác n h a u trong máy
tính, khi ngày nay các dịch vụ mạng, internet được phổ cập rộng rãi, cần có giải pháp tổ
chức phù hợp cho các nguồn dữ liệu từ vựng. Trong các phương pháp p hân tích và thiết
kê các hệ thông th ô n g tin (cấu trúc, hay hướng đôi tượng), đè có được đối tượng xử lý là
các CSDL vật lý, c ần xây dựng mô hình ý niệm dữ liệu (data conceptual model), trưốc
khi chuyên đôi về một mô hình lôgic dữ liệu (data logical model). Đây là giai đoạn quan
trọng mang tính quyết định chất lượng của một hệ thông thông tin. Vì vậy cần có một
mô hình ý niệm dữ liệu khi xây dựng một CSDL từ vựng.
Hiện nay, n hiều từ điển đơn ngữ, đa ngữ về tiếng Việt đã được xây dựng, sử dụng
30
Phan H uy K hánh
Cách chu y ển đổi được thực hiện n h ư sau : mỗi thực th ể của mô h ìn h ý n iệm dữ
liệu trở t h à n h một bả n g dữ liệu có cùng k hóa với thực thể. Kết hợp giữa h a i th ực th ể
trở t h à n h q u a n hệ giữa hai b ả n g bằng cách đ ặ t th êm vào b ả n g “con” (phía b ả n sô' 11) khóa “ngoại” là khóa của b ả n g “c ha ” (phía b ả n sô" 1-n). C h ẳ n g h ạ n th ực thể
EXPLANATION t h à n h b ả n g EXPLANATION có khóa ngoại là NT _Entry. Mối q u a n
hệ m ộ t-n h iều giữa các b ả n g là các đường mũi tên tron g h ì n h 2 với quy ước chiều đi
từ một đến nhiều.
Từ đây, dữ liệu t ừ vựng được cập n h ậ t trực tiếp vào các b ản g để n h ặ n được các
tệp CSDL v ậ t lý ở một tro n g các d ạ n g q u en thuộc tron g Windows, n h ư Access MDB,
FoxPro DBF, h a y Excel XLS. Để cập n h ậ t dữ liệu được t h u ậ n tiệ n và sử d ụ n g hệ
thông k hai th ác từ điển đã có ( th am khả o [2, 4, 5, 6, 7]), ch ún g tôi đã sử d ụ n g mẫu
văn b ả n WinWord (docum ent tem p late) để làm mô h ì n h logic dữ liệu. Mô h ì n h biểu
diễn CSDL từ vựng của từ điển tin học TĐ PN T có đạn g tổng q u á t nh ư sa u :
Cấu trúc mâu văn bản
Giải thích
N TJE ntry
M ụ c từ
N T_Pronciation
P h iê n cá ch v iế t của m ụ c từ (đ ề p h á t â m )
1
•«•
N T G enre 1.1. L
Thể loại thứ L, L> 0, ví dụ cho nghĩa PT 1
N T_ S en ten ce _1 .1 .L
Câu
M eaning_1.M
EXPL_Num _N
tương ứng
vớ i
thể
lo ạ i
L
Nghĩa phổ thông M, M> 1, cách giải nghĩa 1
Cách giải nghĩa thứ N, N> 1
H ìn h 3. Mẫ u văn b ản WinWord của từ diển tin học TĐPNT.
Mẫu v ăn b ả n gồm các d ạ n g thức (style). Mỗi d ạ n g thức t h ể hiện c ách định
Vắt được ba trăm cái nồi
Đập một con đồi
Bung được mười cái trống
4
động từ
dùng tay nâng hay bẽ lên
hát giạm Nghệ Tĩnh :
Cô bùn rập rình
Bung ra hai dãy
hát giam Nghệ Tĩnh :
Cô năm một bimg ra
khiêng
hát giạm Nghệ Tĩnh :
Hòn đất to bưng mà nò nối
N T E n try
NTPronciation
EXPLNum
EXPLCategory
Meaning
N T P h rase
EXPLJNum
EXPLCategory
N T Genre
NTSentence
EXPL Num
EXP L Category
Meaning
N T Genre
p h ầ n mở rộng là XML. Để gọi được t r ì n h duyệt du y ệt xem các tệp XML, cần xây
dựng tệp định ng hĩa kiểu v ăn b ả n DTD (Document Type Definition) và tệp định
nghĩa kiểu t r ì n h bày c s s (Cascade Style Sheet).
2.3. C h o n bộ m ã tiế n g V iêt
Dữ liệu của t ừ điển tin học TĐ PN T là tiếng Việt n ên cần p h ả i chọn một bộ mã
để biểu diễn. Cho đến nay đã có n hiều bộ mã tiếng Việt khác n h a u được xây dựng và
được sử dụng q uen thuộc ở Việt n a m n h ư TCVN3-ABC, Vietw are, VNI, BK
TPHCM
H ầ u h ế t các bộ mã này đều được xây dựng t r ê n bộ mã ÁS CII (1) mở rộng,
sử dụng 128 vị trí sa u bảng, từ 129 đến 256, theo phương p h á p "dựng sẵn" (mã hoá
cả 134 chữ Việt viết hoa, viết thường, ghép nguyên âm và d ấ u th an h ). Vì chưa có
một bộ mã tiếng Việt thông n h ấ t (2) , việc trao đổi tìm kiếm t hô n g tin tro n g máy tính,
trên các t r a n g Web, gặp n hiều khó k h ă n và p hiền phức. Giải p h á p t r u n g gian của
(!) Hầu hết các bộ mã tiếng Việt hiện nay khác nhau về số bai (byte) sử dụng (1 bai hoặc 2 bai), về cách
sắp xếp thú tự các dấu thanh, và về cách bố trí các chữ Việt có dấu (dựng sẵn) trong bộ mã...
*2) Nhiều chuyên gia đề nghị sử dụng Unicode để thống nhất tất cả các bộ mã tiếng Việt.
Mô h ìn h d ừ liêu từ vitng của từ điển tin hoe..
33
chúng tôi là sử d ụ n g một bộ mã trục (pivot code) để ch u yển đổi qua lại dễ dàng giữa
các bộ mã. Telex được chọn làm mã trục do telex chỉ sử d ụ n g các ký tự ASCII và
q uen thuộc với n h iề u người. Ví dụ chuyển từ TCVN3-ABC q ua telex và từ telex qua
Unicode, v.v
Mã telex đã được chọn để biểu diễn dữ liệu từ vựng tiếng Việt của từ
điển [4, 5].
2.4. N h ả p n g u ồ n d ử liệ u cho từ đ iê n
Nguồn dữ liệu cho từ điển tin học TĐPNT chủ yếu được lấy từ [1]. Chúng tôi
đầu đoạn
NT_Phrase
.bư ng m ủ
.k
đầu đoạn
NT_Genre
.5
/
cuối đoạn NT_Sentence
Ví dụ gõ vào
Kêí quà sau khi xử lý
bưng
1
dt
động từ
Lấy tơi n ón ch e
p
k
tín h từ
tr
trợ từ, hay tổ hợp trợ từ
đại từ
th
t h á n (cảm) từ, h ay tổ hợp t h á n từ
kết từ, hay tổ hợp k ế t từ
Giá trị k = 1...5 được quy ước lần lượt là ca dao, h á t giặm, h á t phường vải, h á t
ví và h á t vè N g hệ-Tĩnh. Ký hiệu / để n g ắ t dòng các câu trích đoạ n ví dụ tương ứng
với th ể loại k, tương đương vối ký hiệu J ( m an u a l- lin e- b r e ak ) . Các đoạn nghĩa phổ
thông được gõ bì nh thường, không cần đ ặ t các ký tự quy ưỏc. Cuối cùng, NSD cũng
không cần gõ p h ầ n p h iê n theo cách viết theo kiểu gõ telex vì sẽ được tạo ra một cách
tự động. Toàn bộ dữ liệu được lưu trữ trong 21 tệp có tên là chữ cái đầu của các mục từ
trong tệp lần lượt là A, B, c, D, E, G, H, I, K, L, M, N, o , p, Q, R, s, T, u, V và X. Như
vậy, CSDL nguồn cho từ điển tin học TĐPNT đã được tạo xong gồm các tệp văn bản
đánh dấu quy ước ở dạng mã ASCII. Ví dụ một đoạn mã tương ứng với mục từ bưng:
34
.2
Coox nawm moojt buwng ra
khieeng
.2
Hofn ddaast to buwng m af nor noori_________________________________________________________
H ình 7. Đoạn dữ liệu nguồn đá nh dấu quy ước của mục từ bưng trong mã telex.
Từ các tệp dữ liệu nguồn đ á n h dấu quy ưốc, dễ d à n g viết các t h ủ tục b ằng
Macro VBA để chuyển c húng sang văn bản WinWord DOC/RTF nhờ một t h u ậ t toán
tổng q u á t ở hìn h 8 . Nếu nguồn dữ liệu tiếng Việt đã ở d ạng mã telex, có t h ể sử dụng
trìn h chuyển mã của ƯniKey, hoậc VietKey, v.v
để chuyển từ mã telex t h à n h mã
TCVN3-ABC, Unicode, hoặc chuyển san g một bộ mã nào đó mong muôn, trước khi
chuyển sa n g văn b ả n WinWord.
Thuật toán 1 : C onvert_S rcText_to_W inw ord_D ocum ent
Khởi tạo các biến làm việc trung gian
Xác định các tệp nguồn
Do While Chưa hết tệp nguồn
Mờ một tệp nguồn
Xác định các tham biên tìm kiếm/thay thế
Xác định kiêu đoạn cần thay thế : R eplacem ent.style
= NT_Entry
Do W ith Selection.Find
.Text = Dãy ký tự đánh dấu quy ước, chằng hạn
(Convert_to_TelexCode) thực hiện chuyển từ mã hiện h à n h t h à n h mã telex. Có th ể
minh hoạ quá t r ì n h ch uyển dữ liệu nguồn đ á n h dấu quy ước sang các tệp văn b ản
W i n W o r d t r o n g m ộ t m ã đ í c h n à o đó, c h ẳ n g h ạ n TCVN3-ABC, t r o n g t h u ậ t t o á n s a u :
Xác định các tệp nguồn đánh dấu quy ước
If
Mã nguồn là telex
Then
C onvert_T elexC ode_to ‘X ử lý chuyên mã từ telex sang TCVN3-ABC
Else
C onvert_to_T elexC ode ‘ Xừ lý chuyên mã từ TCVN3-ABC sang telex
End If
Xác định lại các tệp nguồn có mã là TCVN3-ABC
C onvert_S rcText_to_W inw ord_D ocum ent
H ìn h 9. T hu ật toán chuyển mã.
Sau khi ch uy ển nguồn đ á n h d ấu quy ước và chuyển mã, c h ú n g tôi n h ậ n được
CSDL t ừ vựng của từ điển tin học TĐPNT d ư ớ i d ạn g các tệp văn b ả n W i n W o r d
DOC/RTF. Từ đây có thể in ra giấy thành từ điển tra cứu theo mẫu in tùy ý, hoặc
chuyển sang HTML/XML để sử dụng các trình duyệt [5, 6], hay cài đặ t trên CD-ROM.
3. X ây d ự n g t ừ đ i ể n t i n h ọ c T Đ P N T
Cửa sổ làm việc c h ín h của t ừ điển t in học TĐ PN T N g h ê - T in h Dialectal
Dictionary gồm 4 vùng. Vùng 1 có t h a n h tiêu đề ở t r ê n cùng và t h a n h t r ạ n g t h á i ở
dưới cùng của cửa sổ. Vù ng 2 gồm các lệnh HệThông, ThaoTác, và TrợGiúp. Vùng 3
gồm các n ú t l ệ n h dễ n h ậ n biết sử dụng. Vù ng 4 để t r a cứu từ điển, gồm cột danh
sách các mục t ừ bên t r á i và nội dung tương ứng ở cột bên phải. Hệ t hô n g t r a cứu từ
điển TĐ PN T được p h á t triể n từ mã nguồn mở của hệ t h ô ng k h a i thác CSDL từ vựng
đa ngữ [5, 6 , 7]. Nguyên tắc h oạt động của hệ thông n h ư sa u : các tệp dữ liệu văn
bản DOC được ch uy ển đổi t h à n h RTF trước k hi chuyển đổi sa n g CSDL t r u n g gian
Access MDB nhò các lệnh chuyển (data import). Tiếp theo, hệ t h ôn g đưa k ế t quả lên
bựa v ô
bức
bức chì
bức ki
bức má
bức vôi
bứi _____________
u
s
- -----—....„......... .........>..—
.... —
■ —
m
bưng
/s
*
BUWNO
1
động từ
mưng (mụn nhọt hay vết thương sưng to, phát)
bưng mủ
V «r4on1.1
H ìn h 10. Giao diện ch ín h của t ừ điển tin học T Đ PN T.
Các th ao tác n h ư sa u : khi sử d ụn g N g h ê - T in h D ia le ctal Diction ary lầ n đầu
tiên, hệ thông đư a ra lời nh ắc NSD cần đọc CSDL từ vựng (giai đ o ạ n i m p o r t d a t a to
dictionary) từ các tệp v ăn b ả n WinWord RTF để ch uy ển t h à n h CSDL t r u n g gian
Access MDB. B ằ n g cách gọi lệnh đơn Chuyển dữ liệu, chọn mục việc Tạo CSDL mới,
khi đó, lần lượt các tệp v ăn b ản RT F nguồn được chuyển t ả i vào t ừ điển. N h ữ n g lần
chạy chương t r ì n h sa u này, hệ thông mặc n h iê n sử d ụ n g CSDL t r u n g gian MDB đã
có sẵn. Tuy nhiên, NSD v ẫn có th ể chọn lệnh bổ sung dữ liệu mối từ m ộ t tệp văn
b ả n nguồn RTF hợp lệ (lệnh Kết nối vào CSDL), hoặc mở lại CSDL MDB đ ã có (lệnh
Mở CSDL có sẵn) t u ỳ theo yêu cầu. H ìn h 11 m inh họa hộp t h o ạ i c ủ a lệnh HệThỐngChuyể n dữ liệu.
•ỉa Im port
Data
N g u Ổn RTF iDATuDienDPNgheTinhSData'Artf
Đích MDB
r
):VT.úD«wPNQhéTinrm DĐPNT MDB
Chọn việc
Mờ CSDL có Bẩn
Chấp n h ậ n ị
1
Q rl+ Ỉ
Ị1 1
In Noi dung Muc tu ctrl+p
1
Thoat
F4
Dóc Xem Mùc tu
Ctrl+R
Sua lai Muc tu
Ctrl+E
Thêm Muc tu moi
Ctri+A
Xoá Muc tu
Ctrl+D
nước Việt Nam.
Với nguồn dữ liệu từ vựng đã có và với k h ả n ă n g cập n h ậ t, sửa đổi, từ điển có
thể tiếp tục được bổ s u n g mục từ, các trích đoạn từ các th ể loại hò, h á t giặm, h á t
phường vải, h á t ví, h á t vè, h a y trích đoạn văn, thơ, ca dao... có sử d ụ n g các từ địa
phương N g hệ -T ĩn h . Để t ừ điển tin học TĐPN T trở t h à n h một s ả n p h ẩ m hoàn chỉnh,
được p h á t triể n và p h ổ b iến sử d ụ n g rộng rãi theo hướng mã ng uồn mở, thoả mãn
điều kiện mã tiế n g Việt đọc đượ c (readability),
cần tiêp tục bổ s un g các chức năn g
mới cho N g h ê - T in h D iale ctal Dictionary như k h ả n ă n g t r a chéo mục từ (tra cứu một
từ nằm trong p h ầ n giải nghĩa), t r a cứu b ằ n g n h iề u phương p h á p (click-and-see,
autolook
), t ì m đ ư a r a c á c c â u n ó i t i ế n g đ ị a p h ư ơ n g t ư ơ n g đ ư ơ n g , v . v
P h a n H uy K h á n h
38
Lời c ả m ơn: Bài báo tham khảo kết quả đồ án tốt nghiệp kỹ sư ngành CNTT của
em Lê Thị Phương, sinh viên khoá 1998, đã bảo vệ th àn h công th án g 6/2003: “Xây dựng
từ điển địa phương tiếng Nghệ-Tĩnh” do tác giả hướng dẫn trực tiếp, tại khoa CNTT và
ĐTVT, trường Đại học Kỹ thuật, Đại học Đà Nằng. Tác giả chân th à n h cảm ơn.
Tài liệu t h a m k h ả o
1.
Nguvền Nhã Bản, Phan Mậu Cảnh, Hoàng Trọng Canh, Nguyền Hoài Nguyên, Từ
điển tiếng địa phương N g h ệ -ĩĩn h , NXB Văn hóa Thông tin, Hà Nội, 1999, 460tr.
2.
9.
Nguyền Kim Thản, N gữ pháp tiếng Việt, NXB Giáo dục, 1997, 232 tr.
10. Nguyễn Như Ý, Đại từ điển tiếng V iệt, NXB Văn hóa-T hông tin, Hà Nội 1999,
1892 tr.
Mô h ỉn h d ữ liêu từ vitng của từ điển tin hoc...
39
VNU. JOURNAL OF SCIENCE, Nat.. Sci.. & Tech., T.xx, N01, 2004
DATA MODELS FOR THE NGHE-TINH DIALECTAL DICTIONARY
P h a n Huy K h an h
The U niversity o f D anang
In th e res ea rch of n a t u r a l language processing (NLP), one m u s t always
a cc u m ulate a nd u p d a t e of more from m an y of lexical d a t a resources of
heterogeneous form ats for various applications. Thes e resources are often difficult
to m a i n t a i n a nd to m a n ip u la te . It is necessary rec o n stru ctin g a specific dictionary
for every new application. Following the m ethods of analy sis a nd design of the
inf or mation systems, it is necessary to create a d a t a conceptual model a nd th en
convert it in a d a t a logical model in order to co n stru ct a lexical d a t a base. C urrently
in Vietnam, t h ere are a lre ady some Vietnamise diction aries on computer, b u t it
doesn't exist more dialectal dictionary.
We p r e s e n t in th is p a p e r a solution of co nstru ctin g of d a t a models in order to
create a N g h e -T in h dialectal dictionary. We c on struct a n e ntity-associatio n model
to r e p r e s e n t the r e l a ti o n s h i f betw een the e n tr y (headword), explanation, popu lar
meaning, p h r a s e et sentenc e from a publish pa p e r N g h e - T in h dialectal dictionary.