Đ
ạ
i h
ọ
c Qu
ố
c gia Thành Ph
ố
H
ồ
Chí Minh
Trường Đại học Công nghệ Thông tin
H
ọ
c viên: Dương Hoàng Thanh
4.2.1 Cửa sổ chính của GATE Developer 12
4.2.2 Nạp và xem tài liệu 13
4.2.3 Tạo và xem tập tài liệu 16
4.2.4 Làm việc với chú thích 18
4.2.5 Sử dụng các Plugin CREOLE 19
4.2.6 Nạp và sử dụng các tài nguyên xử lý 20
4.2.7 Tạo và vận hành một ứng dụng 20 4.2.8 Lưu trữ các ứng dụng và tài nguyên ngôn ngữ 20
4.3 GATE Embedded 21
5 CÁC CÔNG CỤ XỬ LÝ NGÔN NGỮ CỦA GATE 22
5.1 Hệ thống chiết xuất thông tin ANNIE 22
5.2 Biểu thức chính quy JAPE 23
5.2.1 Mô tả hình thức của JAPE 24
5.3 Chú thích phụ thuộc ngữ cảnh ANNIC 27
5.3.1 Khởi tạo SDD 29
5.3.2 Tìm kiếm trong kho dữ liệu 29
5.4 Các bộ phân tích 30
5.4.1 Bộ phân tích MiniPar 30
5.4.2 Bộ phân tích RASP 31
5.4.3 Bộ phân tích SUPPLE 32
5.4.4 Bộ phân tích Standford 33
6 PHÂN TÍCH CÚ PHÁP CÂU TIẾNG VIỆT 33
6.1 Xây dựng bộ phân tích cú pháp tiếng Việt 33
6.1.1 Tuỳ biến plugin SUPPLE parser 34
6.1.2 Xây dựng quy tắc ngữ pháp tiếng Việt cho JAPE 34
6.2 Xây dựng cơ sở dữ liệu từ vựng tiếng Việt 34
7 TỔNG KẾT VÀ HƯỚNG PHÁT TRIỂN 34
A
N
early-
N
ew
I
nformation
E
xtraction system: Hệ thống Chiết
xuất Thông tin Tương đối Mới.
API
A
pplication
P
rogramming
I
nterface: Giao diện lập trình ứng
dụng.
CMS
C
ontent
M
anagement
S
ystem: Hệ thống Quản lý Nội dung.
CPSL
Common Pattern Specification Language: Ngôn ngữ Mô tả
Mẫu Thông dụng.
GATE
Searchable Serial Data-store: Kho dữ liệu Thứ tự Có khả năng
tìm kiếm.
Tìm hiểu GATE và ứng dụng vào phân tích cú pháp câu tiếng Việt Dương Hoàng Thanh
GVHD: TS. Nguyễn Tuấn Đăng Trang 1
1 GIỚI THIỆU
Chế tạo ra được hệ thống máy tính có khả năng giao tiếp với con người bằng
ngôn ngữ tự nhiên vốn là mục tiêu theo đuổi của nhiều nhà khoa học trong suốt
một thời gian dài cho tới tận bây giờ. Tuy chưa có hệ thống máy tính nào có thể
thực hiện được điều này, nhưng việc nghiên cứu và khám phá xử lý ngôn ngữ tự
nhiên trên máy tính đã đem lại rất nhiều kinh nghiệm hữu ích cho con người để
có thể biến ước mơ trên thành hiện thực.
GATE là một dự án khá tham vọng khi muốn tạo ra một công cụ xử lý ngôn
ngữ đa năng, giúp các nhà nghiên cứu ngôn ngữ có thể tập trung vào nghiên cứu
chuyên sâu hơn là loay hoay giải quyết những bài toán kỹ thuật. Tuy rất được ưa
chuộng trên khắp thế giới, GATE lại hầu như chưa hỗ trợ việc phân tích tiếng
Việt. Do đó, đề tài này nhằm tìm hiểu về dự án GATE cũng như phương hướng
áp dụng công cụ này vào việc phân tích cú pháp câu tiếng Việt.
2 MỘT SỐ VẤN ĐỀ CHUNG VỀ CÂU
2.1 Tình hình nghiên cứu câu trên thế giới
2.1.1 Thời cổ đại
Các nhà ngữ pháp Ấn Độ giải thích: “Câu là đơn vị cơ bản của ngôn ngữ,
bởi vì chỉ có câu mới có thể diễn đạt được tư tưởng”.
Thế kỉ III – II TCN, Alêchxanđria định nghĩa: “Câu là sự tổng hợp của
các từ, biểu thị một tư tưởng tương đối trọn vẹn”.
2.1.2 Từ cuối thế kỷ XIX đến đầu thế kỷ XX
Ngôn ngữ nói chung và câu nói riêng được nghiên cứu theo quan điểm
của các khuynh hướng, các trường phái. Đáng chú ý có các khuynh hướng
sau:
như phép thử để xác định một yếu tố của ngôn ngữ.
b. Trường phái ngữ vị học Copenhague – Đan Mạch
Người khởi xướng và xây dựng cơ sở lí luận của trường phái này là
Hjelmslev. Chịu ảnh hưởng bởi phương pháp cấu trúc luận của F. de
Saussuer, Hjelmslev cho rằng nhiệm vụ của ngôn ngữ học cấu trúc
luận là nghiên cứu các ngữ hàm – các hàm số trong ngôn ngữ (cũng
tức là các quan hệ) và các kiểu loại của chúng.
Ngôn ngữ học phải phát hiện ra các ngữ hàm (quan hệ) cần và đủ để
miêu tả bất cứ hệ thống tín hiệu nào, bất cứ ngôn ngữ nào một cách
đơn giản nhất. Đóng góp của Hjelmslev cho ngôn ngữ học nói chung
và cho ngữ pháp học nói riêng là ông đã phát hiện ra ba loại ngữ hàm
(quan hệ) chung nhất: quan hệ hai chiều hay lệ thuộc nhau (như quan
hệ giữa chủ ngữ với vị ngữ), quan hệ lệ thuộc một chiều hay quan hệ
quy định (như quan hệ giữa động từ với bổ ngữ; giữa danh từ với định
ngữ), quan hệ lệ thuộc tự do hay còn gọi là quan hệ liên hợp (ngoài ba
quan hệ trên, Hjelmslev còn nói đến quan hệ giao hoán, luân hoán và
thay thế). Đó là các quan hệ ngữ pháp cơ bản để phân tích mỗi quan hệ
Tìm hiểu GATE và ứng dụng vào phân tích cú pháp câu tiếng Việt Dương Hoàng Thanh
GVHD: TS. Nguyễn Tuấn Đăng Trang 3
ngữ pháp giữa các thành phần trong cụm từ, trong câu. Hjelmslev còn
là người khởi xướng xây dựng lý thuyết về phạm trù cách ngữ pháp
(như chủ cách, tặng cách, cách cập vật). Lý thuyết này đã mở đường
cho phương pháp phân tích nghĩa thành các thành tố ngữ nghĩa của câu
sau này.
c. Trường phái cấu trúc – chức năng luận (hay câu lạc bộ ngôn ngữ học
Praha)
Năm 1026, Câu lạc bộ Ngữ học Praha được thành lập ở Tiệp Khắc do
sáng kiến của nhà ngôn ngữ học V. Mathesius, đã tập hợp được nhiều
biệt nổi bật, bởi vì chủ ngữ là thành phần triển khai của vị ngữ để
kết hợp chủ ngữ – vị ngữ thành một câu. Các thành phần khác
không có vai trò đó, chúng có thể bị loại bỏ mà cái lõi còn lại vẫn
không mất tính chất câu – đó là câu tối thiểu.
Ba trường phái ngôn ngữ học đầu thế kỷ XX được giới thiệu ở trên đều
chịu ảnh hưởng trực tiếp hay gián tiếp học thuyết về tính hệ thống của
F. de Saussuere, dẫu khác nhau về nhiều điểm, nhưng vẫn có chung
một xuất phát điểm. Đó là tư tưởng về tính hệ thống, cũng tức là tính
cấu trúc của ngôn ngữ. Vì thế mà trong lịch sử ngôn ngữ học, ba
trường phái này được mệnh danh là các trường phái cấu trúc luận.
d. Ngữ pháp tạo sinh (Generative Grammar)
Ngữ pháp tạo sinh, một học thuyết ngôn ngữ học Mĩ mà người sáng
lập là Noam Chomsky, ra đời từ năm 1957, lúc đầu nhằm phê phán
những mặt hạn chế của chủ nghĩa miêu tả Mĩ. Sau đó, với thành tựu
của mình, nó thực sự đã có sức hút mạnh mẽ đối với ngôn ngữ học thế
giới, tạo ra được một cuộc “cách mạng” về tư duy phương pháp luận
ngôn ngữ học.
Đóng góp lớn nhất của ngữ pháp tạo sinh là phân biệt ngữ năng với
ngữ thi: Ngữ năng là hiểu biết của người sử dụng ngôn ngữ có được về
ngôn ngữ; ngữ thi là sự sử dụng thực tế trong những hoàn cảnh cụ thể
cái ngữ năng đó. Từ sự phân biệt đó, ngữ pháp tạo sinh cho rằng: ngữ
pháp của một ngôn ngữ là cơ chế hợp thành ngữ năng, nhiệm vụ hàng
đầu của ngôn ngữ học là phát hiện ra cái thứ ngữ pháp đó; đối tượng
hàng đầu của ngữ pháp là câu.
Theo Chomsky, một đặc điểm rất cơ bản của ngữ năng đó là nhờ đó
mà chúng ta có thể hiểu và tạo ra một số lượng vô hạn các câu mới. Đó
cũng là cơ sở của tạo sinh và ngữ pháp tạo sinh. Tạo sinh là tạo lập ra
những đơn vị - từ một cơ sở cho trước theo một cấu trúc nhất định.
Ngữ pháp tạo sinh là ngữ pháp nhờ nó chúng ta có thể tạo lập ra vô
để chuyển tải các thông điệp từ người nói này sang người nói khác
trong ngữ cảnh của một sự kiện lời nói hiện thực. Hình thái cú pháp
phục vụ cho ngữ nghĩa và ngữ nghĩa phục vụ cho ngữ dụng. Với định
hướng đó, ngữ pháp chức năng đã tự đặt cho mình nhiệm vụ “nghiên
cứu, miêu tả và giải thích các quy tắc chi phối hoạt động của ngôn ngữ
trên các bình diện của mặt hình thức và mặt nội dung trong mối liên hệ
có tính chất chức năng”.
Thành tựu vững chắc nhất mà các tác giả ngữ pháp chức năng đạt được
là:
- Xây dựng được lý thuyết ba bình diện: bình diện ngữ pháp, bình
diện ngữ nghĩa và bình diện ứng dụng. Lý thuyết này đã tỏ ra rất có
hiệu lực khi được ứng dụng để phân tích câu (sau này, nó còn được
vận dụng để phân tích từ, các thành phần của câu).
Tìm hiểu GATE và ứng dụng vào phân tích cú pháp câu tiếng Việt Dương Hoàng Thanh
GVHD: TS. Nguyễn Tuấn Đăng Trang 6
- Làm rõ được quan hệ chức năng – ngữ nghĩa giữa vi tố và các đối
(arguments) của nó bằng các lý thuyết mang các tên khác nhau: vai
ngữ nghĩa, vai, vai cách, vai cách ngữ nghĩa, vai tham thể… Lý
thuyết này được nêu ra một cách nghiêm túc lần đầu tiên bởi Gruba
(1965) với cái tên “quan hệ đề”, tiếp đến là Fillmore (1968) với tên
“vai cách”.
Đứng trên quan điểm lấy chức năng tự nhiên của ngôn ngữ - chức năng
giao tiếp – làm đích nghiên cứu, ngữ pháp chức năng không chỉ khắc
phục được những hạn chế của trường phái cấu trúc luận (thiên lệch về
cấu trúc, coi nhẹ hoặc gạt bỏ nghĩa ra khỏi ngôn ngữ) mà còn chỉ ra
được các mối quan hệ ràng buộc, chi phối lẫn nhau giữa các mặt của
đơn vị cú pháp (như câu, cấu trúc vị tố - tham thể). Bởi vậy, ngày nay,
ngữ pháp chức năng đã và đang được các nhà nghiên cứu trên thế giới
Về câu, tác giả của sách ngữ pháp chỉ xem xét chúng ở bình diện ngữ
pháp: các thành phần tạo nên câu, các kiểu câu – theo cấu tạo. Bình diện
nghĩa học và dụng học chưa được đề cập đến (bốn kiểu câu theo mục đích
nói: câu trần thuật, câu nghi vấn, câu cầu khiến, câu cảm thán có được
nhắc tới, nhưng cũng chỉ được nghiên cứu ở góc độ cấu tạo).
Các nhà ngữ pháp tiêu biểu cho giai đoạn này là: Nguyễn Cẩn, Hoàng
Tuệ, Nguyễn Kim Thản, Đái Xuân Ninh, Diệp Quang Ban, Hoàng Trọng
Phiến, Lê Xuân Thai, Nguyễn Minh Thuyết…
2.2.4 Từ 1990 đến nay
Hơn mười năm lại đây, ngữ pháp Việt Nam do tiếp nhận tư tưởng của ngữ
pháp chức năng nên đã có nhiều biến chuyển. Các lý thuyết ngữ pháp
chức năng như: lý thuyết về ba bình diện của câu, về vị từ – tham thể, các
tiêu chí mới phân loại vị từ (như tiêu chí ±động, ±chủ ý), cách phân tích
câu theo quan điểm đề – thuyết, các vấn đề như: tiêu điểm, tiền giả định…
đã được vận dụng vào việc nghiên cứu ngữ pháp tiếng Việt. Các nhà ngữ
pháp học đã có công giới thiệu ngữ pháp chức năng vào Việt Nam và ứng
dụng nó để nghiên cứu là các giáo sư: Cao Xuân Hạo (với [1]), Diệp
Quang Ban (với [2], [3], [4]). Giờ đây, ở Việt Nam, có thể nói không một
công trình nào nghiên cứu về ngữ pháp lý luận không lấy ngữ pháp chức
năng làm cơ sở lý luận.
3 CÂU TIẾNG VIỆT
3.1 Câu là gì
Theo [5]: Câu là đơn vị ngôn ngữ không có sẵn, dùng để biểu thị sự tình, được
tạo nên từ các đơn vị nhỏ hơn theo những quy tắc ngữ pháp nhất định, có dấu
hiệu hình thức riêng, được sử dụng trong giao tiếp nhằm thực hiện một hành
động nói.
Tìm hiểu GATE và ứng dụng vào phân tích cú pháp câu tiếng Việt Dương Hoàng Thanh
GVHD: TS. Nguyễn Tuấn Đăng Trang 8
một yếu tố tạo nên phần nghĩa tình thái của câu.
3.2.3 Hình thức của câu
a. Hình thức ngữ âm của câu
Tìm hiểu GATE và ứng dụng vào phân tích cú pháp câu tiếng Việt Dương Hoàng Thanh
GVHD: TS. Nguyễn Tuấn Đăng Trang 9
Khi nói, câu có ngữ điệu kết thúc (hạ giọng ở câu trần thuật, cao giọng
ở câu hỏi). Với tiếng Việt, người nói thường dùng các tiểu từ tình thái
cuối câu (à, ừ, nhỉ, nhé, hả, chứ, đi, thôi, nào, với, chứ…) để thể hiện
rõ hơn ngữ điệu kết thúc và mục đích câu.
Ngữ điệu kết thúc là một trong những dấu hiệu hân biệt câu với đơn vị
không phải là câu.
Khi viết, câu được nhận diện nhờ hình thức:
- Chữ cái đầu của âm tiết đầu câu được viết hoa.
- Cuối câu có một trong các dấu: . ! ?
b. Hình thức ngữ pháp của câu
Câu là đơn vị không có sẵn. Để có được nó, người sử dụng phải kết
hợp các đơn vị nhỏ hơn (từ, ngữ cố định, cụm từ tự do) với nhau theo
những quy tắc ngữ pháp nhất định của ngôn ngữ. Số lượng các câu cụ
thể (tức phát ngôn) là vô hạn, nó được xây dựng từ những mô hình cấu
trúc cú pháp mang tín trừu tượng, khái quát và hữu hạn. Các cấu trúc
cú pháp của câu thường gặp là:
- Cấu trúc câu đơn.
- Cấu trúc câu ghép.
- Cấu trúc câu phức.
- Cấu trúc câu đặc biệt.
4 TÌM HIỀU DỰ ÁN GATE
4.1 Tổng quan về GATE
GATE (General Architecture for Text Engineering) là một cơ sở hạ tầng cho
siêu dữ liệu ngữ nghĩa (instance data). Kho này cho phép các truy vấn pha
trộn một cách tuỳ ý từ truy vấn hoàn toàn bằng văn bản, truy vấn có cấu trúc,
truy vấn ngôn ngữ và truy vấn ngữ nghĩa.
- Một framework, GATE Embedded: một thư viện đối tượng được tối ưu hoá
cho việc kết hợp các ứng dụng khác nhau cho phép truy cập đến tất cả các
dịch vụ của GATE Developer và hơn thế nữa.
- Một kiến trúc: một tổ hợp phần mềm với hình ảnh có tính tổ chức cao mô tả
về phương thức xử lý ngôn ngữ tự nhiên.
- Một quy trình cho việc tạo ra các dịch vụ mạnh mẽ và dễ bảo trì.
GATE còn phát triển:
- Một wiki / CMS, GATE Wiki ( chủ yếu để lưu trữ
những website của dự án và cũng là nơi tiến hành các thử nghiệm.
Một trong những động lực ban đầu của GATE là để giảm bớt việc giải quyết
những vấn đề công nghệ thông thường trước khi đi vào nghiên cứu thực sự,
hoặc việc tái cấu trúc trước khi triển khai những kết quả nghiên cứu vào ứng
dụng. Những chức năng cốt lõi của GATE đảm nhận phần lớn của công nghệ
về:
- Mô hình hoá và lưu trữ những cấu trúc dữ liệu chuyên biệt.
Tìm hiểu GATE và ứng dụng vào phân tích cú pháp câu tiếng Việt Dương Hoàng Thanh
GVHD: TS. Nguyễn Tuấn Đăng Trang 11
- Đo đạc, thử nghiệm, đánh giá.
- Hình tượng hoá và chỉnh sửa những chú thích, ontology, cây phân tích,…
- Một ngôn ngữ di truyền trạng thái hữu hạn cho việc nhanh chóng tạo ra
nguyên mẫu và cài đặt hiệu quả của các phương pháp phân tích bề mặt
(JAPE – Java Annotation Patterns Engine) [9].
- Chiết xuất những đối tượng huấn luyện của máy học.
- Những cài đặt máy học có thể tháo lắp (Weka, SVM Light,…).
Trên cùng của những chức năng cốt lõi, GATE chứa những thành phần phục vụ
- Các kiểu chú thích (annotation types): như ‘Tên gọi’ hay ‘Ngày tháng’.
- Các tập chú thích (annotation sets): bao gồm các nhóm chú thích.
- Xử lý tài nguyên (processing resources): thao tác và tạo ra các chú thích trên
tài liệu.
- Các ứng dụng (applications): bao gồm các trình tự của xử lý tài nguyên, có
thể được áp dụng vào một văn bản hay tập văn bản.
GATE chứa một hệ thống chiết xuất thông tin hoàn chỉnh có thể được sử
dụng tuỳ ý, đó là ANNIE (a Nearly-New Information Extraction System: Hệ
thống Chiết xuất Thông tin Tương đối Mới). Rất nhiều người sử dụng nhận thấy
rằng đây là điểm xuất phát lý tưởng cho ứng dụng của họ, và do đó ta cũng sẽ
tìm hiểu về hệ thống này.
4.2.1 Cửa sổ chính của GATE Developer Hình 1: Giao diện cửa sổ chính của GATE Developer
Hình 1 thể hiện cửa sổ chính của GATE Developer, là cửa sổ ta gặp khi
chạy công cụ này lần đầu. Có năm vùng chính:
Tìm hiểu GATE và ứng dụng vào phân tích cú pháp câu tiếng Việt Dương Hoàng Thanh
GVHD: TS. Nguyễn Tuấn Đăng Trang 13
1. Ở trên cùng là thanh trình đơn và thanh công cụ với các trình đơn
‘File’, ‘Options’, ‘Tools’, ‘Help’ và các biểu tượng đại diện cho các
hành động thường dùng.
2. Ở bên trái có một cây bắt đầu từ ‘GATE’ và chứa ‘Application’,
‘Language’… – đó là cây tài nguyên.
3. Ở góc dưới bên trái có một hình chữ nhật là khung nhìn tài nguyên
nhỏ.
4. Ở chính giữa có chứa một tab với nhãn ‘Message’ hoặc tên của tài
nguyên trong cây tài nguyên gọi là khung nhìn tài nguyên chính.
Hình 2: Tạo tài liệu mới
Bộ soạn thảo tài liệu được chứa trong bảng tab trung tâm của GATE
Developer. Nhấp đúp chuột vào tài liệu trên bảng tài nguyên để hiện bộ
soạn thảo tài liệu. Bộ soạn thảo tài liệu bao gồm một bảng nằm trên cùng
với các nút và biểu tượng điều khiển việc hiển thị các khung nhìn khác
nhau và hộp tìm kiếm. Ban đầu, ta chỉ có thể thấy văn bản trong tài liệu
như trong Hình 3. Bấm vào ‘Annotation Sets’ và Annotations List’ để
xem các tập chú thích nằm bên phải và danh sách các chú thích nằm phía
dưới. Lúc này, giao diện sẽ giống Hình 4. Tại vị trí danh sách các chú
thích, ta có thể chọn xem ngăn xếp các chú thích. Tại vị trí các tập chú
thích, ta cũng có thể chọn xem bộ soạn thảo tham chiếu cộng tác.
Một vài tuỳ chọn khác có thể được thiết lập từ biểu tượng tam giác ở góc
trên bên phải.
Tìm hiểu GATE và ứng dụng vào phân tích cú pháp câu tiếng Việt Dương Hoàng Thanh
GVHD: TS. Nguyễn Tuấn Đăng Trang 15 Hình 3: Bộ soạn thảo tài liệu
Với ‘Save Current Layout’, ta có thể lưu lại cách thể hiện của những
khung nhìn khác nhau và các kiểu chú thích được tô sáng trong tài liệu.
Sau đó, nếu ta chọn ‘Restore Layout Automatically’, ta sẽ có các khung
nhìn và kiểu chú thích giống nhau mỗi khi mở tài liệu.
Một thiết lập khác biến bộ soạn thảo tài liệu thành ‘Read-only’. Nếu bật
lên, ta sẽ không thể chỉnh sửa văn bản nhưng vẫn có thể chỉnh sửa các chú
thích. Thiết lập này rất hữu dụng để tránh những thay đổi ngoài ý muốn
lên văn bản gốc.
Cuối cùng, ta có thể lựa chọn giữa ‘Insert Append’ và ‘Insert Prepend’.
thêm vào sau bằng cách nhấp đúp chuột lên tập tài liều và dùng biểu
tượng + và - để thêm và bớt các tài liệu ra khỏi tập. Lưu ý rằng các
tài liệu cần được nạp vào GATE Developer trước khi có thể được
thêm vào tập tài liệu.
3. Khi đã được nạp, tập tài liệu có thể được mở rộng bằng cách nhấp
chuột phải lên tập tài liệu và chọn ‘Populate’. Với phương thức này,
tài liệu không nhất thiết phải được nạp trước vào GATE Developer
vì chúng sẽ được nạp trong quá trình thực hiện. Khi đó, ta sẽ thấy
một hộp thoại cho phép chỉ định thư mục trong đó GATE sẽ tìm
kiếm các tài liệu. Ta có thể quy định phần mở rộng được phép, ví
dụ như XML hay TXT. Thao tác này sẽ ràng buộc việc mở rộng tập
tài liệu chỉ với những tài liệu có phần mở rộng mà ta muốn nạp. Ta
có thể chọn đệ quy qua các thư mục chứa trong thư mục đích hay
giới hạn việc mở rộng chỉ với những tài liệu nằm trong thư mục cấp
cao nhất.
Hình 5: Bộ soạn thảo tập tài liệu
Tìm hiểu GATE và ứng dụng vào phân tích cú pháp câu tiếng Việt Dương Hoàng Thanh
GVHD: TS. Nguyễn Tuấn Đăng Trang 18
Ngoài ra, nhấp chuột phải vào một tài liệu đã được nạp và chọn ‘New
corpus with this document’ sẽ tạo một tập tài liệu tạm thời mang tên
Corpus for document name chỉ chứa đúng tài liệu đó.
4.2.4 Làm việc với chú thích
Xem các tập chú thích: để xem các tập chú thích, nhấp chuột trên
nút ‘Annotation Sets’ trên đầu bộ soạn thảo tài liệu. Khi đó khung
nhìn tập chú thích sẽ xuất hiện, hiển thị các tập chú thích có hiệu
lực và kiểu chú thích tương ứng của chúng.
Khung nhìn tập chú thích được hiển thị bên phải của bộ soạn thảo
bản chính. Nó sẽ chỉ chứa các chú thích được chọn từ khung nhìn
tập chú thích. Danh sách này có thể được sắp xếp tăng dần hoặc
giảm dần theo bất kỳ cột nào, bằng cách nhấp chuột vào tiêu đề của
cột tương ứng.
Xem ngăn xếp chú thích: Khung nhìn này tương tự như khung nhìn
ANNIC. Nó hiển thị các chú thích tại con trỏ văn bản của tài liệu
với một vài ngữ cảnh phía trước và phía sau. Các chú thích được
xếp chồng từ đỉnh xuống đáy, cung cấp một cái nhìn rõ ràng khi
chúng dẫm chân lên nhau.
Chỉnh sửa đồng tham chiếu: Bộ soạn thảo đồng tham chiếu cho
phép các chuỗi đồng tham chiếu có thể được hiển thị và chỉnh sửa
trong GATE Developer. Để hiển thị bộ soạn thảo đồng tham chiếu,
đầu tiên mở một tài liệu trong GATE Developer, sau đó nhấp chuột
vào nút Co-reference Editor trong khung nhìn tài liệu.
4.2.5 Sử dụng các Plugin CREOLE
Trong GATE, tài nguyên xử lý được dùng để tạo và thao tác một cách tự
động các chú thích trong tài liệu. Trong hầu hết các trường hợp, để sử
dụng một tài nguyên xử lý cụ thể (và tài nguyên ngôn ngữ nào đó), ta phải
trước hết nạp plugin CREOLE có chứa nó.
Những định nghĩa của tài nguyên CREOLE (ví dụ các tài nguyên xử lý
như bộ gán nhãn và bộ phân tích) được lưu trữ trong các thư mục
CREOLE (các thư mục chứa tập tin XML mô tả các tài nguyên, gói Java
với mã nguồn thực thi đã biên dịch và bất cứ thư viện nào mà tài nguyên
đòi hỏi).