SỬ DỤNG KHO NGỮ LIỆU TRONG GIẢNG DẠY TIẾNG VIỆT - Pdf 23


XX
NHỮNG VẤN ĐỀ CHUNG
XX
1. Khái niệm kho ngữ liệu và ngôn ngữ học ngữ liệu
Đã có không ít nhà nghiên cứu khẳng định rằng “kho ngữ liệu và việc nghiên cứu kho ngữ
liệu đã làm nên cuộc cách mạng về nghiên cứu ngôn ngữ, và về các ứng dụng của ngôn ngữ trong
vòng vài thập niên qua”
[Hunston 2002:1]. Mặc dù thuật ngữ ngôn ngữ học ngữ liệu (corpus
linguistics) và ngữ liệu (corpus) xuất hiện lần đầu tiên đầu những năm 1980 [Leech & Svartvik
1992:105]
nhưng những nghiên cứu ngôn ngữ dựa vào ngữ liệu đã có lịch sử từ trước đó.
Thuật ngữ “ngữ liệu” (corpus) trong ngành ngôn ngữ học được hiểu là một tập hợp văn bản
viết hoặc lời nói đã được văn bản hoá (hay phiên âm) dùng làm cơ sở cho việc phân tích và miêu
tả ngôn ngữ học. Theo Sinclair [
1991], kho ngữ liệu là “một khối các văn bản ngôn ngữ tự nhiên
được chọn làm đại diện cho một trạng thái hay biến thể của một ngôn ngữ”.
Leech
[1992:116] đưa ra một định nghĩa khá chặt chẽ như sau về khái niệm kho ngữ liệu : “cần
phải nói thêm rằng các kho ngữ liệu điện tử là những tập hợp các văn bản một cách có tổ chức:
chúng thường được xây dựng với các mục đích cụ thể định trước, và thường được xây dựng để
(nói một cách thông dụng) đại diện cho một ngôn ngữ hay thể loạ
i văn bản”. Sinclair [1996] cũng
chia sẻ với quan điểm trên của Leech và nhấn mạnh tầm quan trọng của tính đại diện như sau:
“Một kho ngữ liệu là một tập hợp các phân đoạn của ngôn ngữ được chọn lựa và sắp xếp theo các
tiêu chí ngôn ngữ học một cách rõ ràng nhằm sử dụng như một mẫu của ngôn ngữ đó”.
Trong hoàn cảnh hiện nay, một kho ngữ liệu có thể được hi
ểu theo một số cách hiểu sau:
- (nghĩa rộng) bất cứ khối văn bản nào của ngôn ngữ tự nhiên;
- (thông dụng) một khối văn bản máy đọc được;
- (nghĩa hẹp) một tập hợp nhất định các văn bản máy đọc được, là mẫu đại diện lớn nhất cho

dạy tiếng Việt.
2. Lí do sử dụng kho ngữ liệu trong giảng dạy tiếng Việt
Một khó khăn trong việc chuẩn bị và biên soạn tài liệu giảng dạy ngôn ngữ là phả
i thường
xuyên cung cấp cho người học sản phẩm phản ánh chân thực ngôn ngữ đang được sử dụng trong
đời sống thật nhất. Các bài phê bình về tài liệu dạy tiếng truyền thống đã có lí khi chỉ ra rằng
thông tin trong các tài liệu đó về sử dụng ngôn ngữ - đó có thể là thông tin về ngữ pháp, từ vựng
hay hội thoại - thường dựa trên những ý kiến chưa được kiểm chứng bằ
ng dữ liệu thực tế hay chỉ
dựa trên cảm thức ngôn ngữ của người biên soạn tài liệu. Đó nhiều khi là những thông tin thường
không chính xác hoặc không thích hợp trong cuộc sống thực của ngôn ngữ. Trong lĩnh vực dạy
tiếng những năm 80 của thế kỉ XX đã nổi lên một “cuộc cách mạng” về tài liệu nguyên bản nhằm
giải quyết vấn đề này bằng cách chủ tr
ương sử dụng nhiều tài liệu gốc hơn, tức là những tài liệu
được tạo ra không phải nhằm vào mục đích sử dụng trong lớp học. Người ta giải thích rằng các
tài liệu này sẽ giúp người học tiếp cận với các ví dụ của ngôn ngữ tự nhiên được lấy từ ngôn cảnh
thực tế. Gần đây hơn, với sự phát triển nhanh chóng của ngôn ngữ học ngữ
liệu, việc xây dựng và
ứng dụng thành công nhiều cơ sở dữ liệu quy mô lớn hay các kho ngữ liệu (corpora) gồm các thể
loại ngôn ngữ gốc khác nhau đã mang lại một cách tiếp cận xa hơn đó là cung cấp cho người học
các tài liệu giảng dạy phản ánh cách sử dụng ngôn ngữ thực
[Sinclair & Renouf:1988].
Ngôn ngữ học ngữ liệu cho phép người dạy và người học tiếng tự tin rằng ngôn ngữ họ đang
dạy và học là ngôn ngữ tự nhiên mà họ gặp ở ngoài lớp học - tức là ngôn ngữ trong đời sống thực
của nó. Chính ngôn ngữ học ngữ liệu sẽ cung cấp phương tiện cho giáo viên mang ngôn ngữ tự
nhiên vào lớp học bằng cách hướng dẫn người học thực hành các hoạt
động tương tác với ngôn
ngữ thực. Bên cạnh lí do được tiếp cận với các văn bản nguyên gốc, nhiều nghiên cứu về tiếp thu
ngôn ngữ thứ hai đã chỉ ra rằng khi người học thực sự tham gia vào các hoạt động có ý nghĩa,
chẳng hạn như các hoạt động thao tác tìm kiếm trên kho ngữ liệu cho phép họ vận dụng biến hoá

ọc như từ vựng và ngữ pháp dùng trong giảng dạy và
kiểm tra
[Byrd, 1995]. Kho ngữ liệu và các phương pháp của ngôn ngữ học ngữ liệu có thể mang
lại một nguồn văn bản tự nhiên, nguyên bản cho việc giảng dạy và học ngôn ngữ.
Có thể nhận xét rằng một trong những vấn đề và cũng là chủ đề tranh luận trong việc sử
dụng kho ngữ liệu trong giảng dạy ngôn ngữ nói chung và tiếng Việt nói riêng là tính nguyên
bản (authenticity) của tài liệu phục vụ cho vi
ệc giảng dạy và học tập ngôn ngữ. Rõ ràng việc
thu thập dữ liệu để xây dựng kho ngữ liệu, tức là việc thu thập các ví dụ trong ngôn ngữ như nó
vốn được sử dụng trong các văn cảnh tự nhiên là cần thiết nhưng cũng không hề đơn giản do
vấp phải các vấn đề về xung đột lợi ích và bản quyền tác giả. Các ví dụ trong các kho ngữ liệu
cung cấp các khía cạ
nh và bình diện sử dụng khác nhau và hơn nữa chúng lại độc lập với các
nhiệm vụ học tiếng. Tức là, các ví dụ này nằm trong các ngữ cảnh nguyên bản của chúng, đa số
chúng được soạn ra cho những đối tượng độc giả cụ thể, và thường là không phải ngay từ đầu
chúng hướng đến những người học tiếng. Do đó, khi người học tiếng được tiếp xúc với các thí
d
ụ trích rút từ kho ngữ liệu này, họ đang được tiếp cận với nguồn ngôn ngữ thực như nó đang
được sử dụng hàng ngày. Chính điều này minh chứng cho cái gọi là tính nguyên bản mà chúng
ta đang tìm hiểu.
3. Các phương pháp sử dụng kho ngữ liệu trong lớp dạy tiếng
Việc sử dụng kho ngữ liệu trong lớp dạy tiếng có thể được thực hiện theo một số phương
pháp khác nhau. Chẳng hạn, có thể tập trung vào các đặc trưng ngôn ngữ học của từng đơn vị
hoặc tập trung vào đặc trưng chung của các văn bản hay biến thể ngôn ngữ thuộc cùng một thể
loại như văn bản hành chính, văn bản thương mại, hay cũng có thể là các bài diễn thuyết. Trong
các phần dưới đây chúng tôi sẽ trình bày các phương pháp sử dụng kho ngữ liệu sau: (i) Lập danh
sách tần s
ố từ, (ii) Sử dụng dòng chỉ mục ngữ cảnh (concordance), (iii) Sử dụng bảng đồng hiện
từ vựng (collocation), và (iv) Lập khuôn cấu trúc câu.
Cùng với các ứng dụng trong giảng dạy ngôn ngữ khác, việc học tiếng với sự trợ giúp của

tần số thô xuất hiện trong toàn bộ kho
ng
ữ liệu, dựa trên kho ngữ liệu xấp xỉ
100 triệu từ.
Thủ tục để tìm kiếm các ngữ đoạn
đồng xuất hiện chúng tôi sử dụng trong
bài này nhằm để rút ra các chuỗi lặp đi
lặp lại trong kho ngữ liệu là tạo ra các
chuỗi lặp gồm 2, 3, 4, 5, 6 từ sau đó sắp
của 1886580 đã 915163
và 1796594 người 901890
là 1557623 cho 835825
một 1247714 với 683074
có 1238202 để 584675
không 1101842 tôi 570177
trong 1089431 này 559560
những 1054607 về 551195
được 996418 ở 526722
các 981065 cũng 506872
Hình 2. Danh sách 20 từ có tần số cao nhất

XXIV
NHỮNG VẤN ĐỀ CHUNG
XXIV
xếp danh sách này theo tần số từ cao xuống thấp cho toàn bộ kho ngữ liệu xấp xỉ 100 triệu từ. Vì
lí do kĩ thuật, một giới hạn tần số được đặt ra để hạn chế số lượng các ngữ đoạn có tần số thấp.
Để phục vụ bài viết này, chúng tôi đặt ranh giới này là có tần số xuất hiện tối thiểu 400 lần trong
toàn bộ kho ngữ liệu, t
ức là phải xuất hiện ít nhất 4 lần trên một triệu từ. Biber et al., (1999) đặt
giới hạn này là 10 lần trên một triệu từ và Cortes

[Biber 2006]. Giáo viên có thể sử dụng thông tin
này để thiết kế tài liệu bổ sung từ vựng đáp ứng tốt hơn nhu cầu của từng học viên. Như vậy, tuy
không loại bỏ việc học động từ, nhưng chúng ta nên chú trọng việc học danh từ trong phần hướng
tất cả những cái đó
tôi không hiểu tại sao
là một trong những người
không còn nghi ngờ gì
cho tất cả mọi người
những gì đã xảy ra
không còn cách nào khác
không bao giờ quên được
với tất cả mọi người
không thể nào quên được
ngày này qua ngày khác
không thể tưởng tượng được
không biết phải làm gì
không biết làm thế nào
không bao giờ trở lại
tôi có cảm giác như
như không có chuyện gì
không biết bao nhiêu là
muốn làm gì thì làm
làm sao tôi có thể
không biết bao nhiêu lần
chuyện gì đã xảy ra
Đây là lần đầu tiên
không bao giờ có thể
là lần đầu tiên tôi
sinh ra và lớn lên
tất cả mọi người đều

75 301 can thiệp đảm bảo 119 292
242 671 hợp tác nhờ 192 474
1779 5655 phát triển thúc đẩy 204 368
450 682 lựa chọn ngăn chặ
n 181 242
477 570 kiểm soát cản trở 186 205
919 339 quản lý mất 889 242
966 182 bảo vệ bao gồm 355 39
1397 235 học thực hiện 1040 128
799 9 giải quyết hoàn tất 305 27
1059 9 thành lập phản đối 772 54
1293 10 nghiên cứu hoàn thành 315 21
2803 19 sử dụng coi 630 40
1173 8 tổ chức Về 496 24
1288 0 đưa thông qua 883 29
1846 0 thực hiện ủng hộ 453 0
2770 0 xây dựng lo 1116 0
Hình 4. Bảng các từ kết hợp sau và trước việc và sự với thông tin tần số xuất hiện XXVI
NHỮNG VẤN ĐỀ CHUNG
XXVI
Một kho ngữ liệu có thể cho chúng ta biết nhiều điều khác nhau về ngữ pháp. Nó có thể mở
rộng hiểu biết của chúng ta về các khái niệm và phạm trù ngữ pháp truyền thống, cụ thể là cung
cấp cho chúng ta nhiều thông tin hơn về sự phân bố các phạm trù này.

Một kho ngữ liệu có thể chỉ ra mối quan hệ quan trọng giữa ngữ pháp và từ vựng [xem Sinclair
1990; 1996; 1998]
. Một kho ngữ liệu cũng có thể cung cấp nhiều thông tin về một dạng thức quan

chuyện 814 suối 547 xe tải 400
miệng 601 chuột 529 bánh 431
sự 824 hổ 462 váy 397
thế giới 768 đường dẫn 448 hộp 406
đuôi 557 dân 570 áo dài 373
Hình 5. Phân bố của các từ đi sau cái, con, chiếc với thông tin tần số xuất hiện

XXVII

TỪ ĐIỂN HỌC & BÁCH KHOA THƯ, SỐ 1 (15), 1-2012
XXVII
khi tìm hiểu, chúng tôi ghi nhận chuỗi động từ có con số cao hơn như vậy nhưng không có điều
kiện trình bày ở đây.
Hình 6. Một số thí dụ câu có kết cấu chuỗi 5 động từ đi liền nhau
6. Một vài hoạt động trên lớp sử dụng kho ngữ liệu
Phần này trình bày một số thí dụ hoạt động sử dụng hoặc khai thác dữ liệu từ kho ngữ liệu
trong lớp học tiếng. Các hoạt động có thể điều chỉnh để phù hợp với trình độ của học viên. Người
dạy có thể cải tiến, nâng cao nhằm đáp ứng được các mục tiêu giảng dạ
y của mình.
Hoạt động 1. Nhận diện nghĩa và cách sử dụng qua ngữ cảnh: Hoạt động này có thể áp dụng
cho các phần dạy đọc và phần từ vựng cho học viên các trình độ khác nhau.
Bước 1: Đề nghị học viên lấy 10 bài báo và tạo thành một kho ngữ liệu nhỏ của riêng
mình. Sau đó chạy chương trình tìm kiếm các dòng chỉ mục ngữ cảnh.
Bước 2: Cho học viên đọc các chỉ mục ng
ữ cảnh đó và đoán nghĩa của từ. Sau đó gộp
nhóm các dòng chỉ mục có cùng nghĩa lại với nhau.
Bước 3: Đặt câu với các từ vừa học được.
Hoạt động 2. Tìm hiểu tần số sử dụng của từ.
Bước 1: Cho học viên nhập 10 bài báo trên vào chương trình và tạo bảng danh sách tần số
của các từ sắp xếp theo trật tự ABC và sắp xếp theo tầ

[Chú ý: Khi học viên gặp từ mới có thể cho họ làm Hoạt động 1 để đoán nghĩa từ trong ngữ cảnh]
7. Những điểm nên chú ý khi sử dụng kho ngữ liệu trên lớp
Có nhiều cách thức và hoạt động sử dụng kho ngữ liệu trong hoạt động giảng dạy và học tập,
ở trên lớp cũng như ở nhà, đã được nghiên cứu và áp dụng. Tuy nhiên, chúng ta cũng cần chú ý
tới một số nguyên tắc cơ bản dùng để xây dựng và phát triển tài liệu và các hoạt động giảng dạy
tiếng Vi
ệt dựa trên ngữ liệu. Reppen (2010, p. 43) đã đề xuất một vài hướng dẫn chung cho việc
sử dụng kho ngữ liệu như những gợi ý ban đầu như sau:
- Có ý tưởng rõ ràng về chủ điểm muốn dạy;
- Chọn kho ngữ liệu phù hợp nhất cho bài giảng của mình;
- Khám phá toàn bộ, thấu đáo kho ngữ liệu phục vụ cho chủ điểm muốn dạy;
- Đảm bảo r
ằng các hướng đi là hoàn thiện và dễ thực hiện;
- Đảm bảo rằng các thí dụ tập trung vào chủ điểm muốn dạy;
- Cung cấp nhiều cách tương tác với tài liệu;
- Sử dụng nhiều dạng bài tập;
- Nếu sử dụng máy tính, nên có kế hoạch hoặc hoạt động thay thế trong trường hợp máy
tính có vấn đề. Chẳng hạn, có thể in trước một số danh sách tần số, ch
ỉ mục ngữ cảnh,
hoặc danh sách từ đồng hiện để cung cấp cho học viên trong trường hợp điều kiện kĩ thuật
không cho phép ở lớp học.
8. Kết luận
Khi sử dụng ngôn ngữ học ngữ liệu, hay cụ thể hơn là đưa các chứng cứ từ kho ngữ liệu vào
lớp học tiếng, có lẽ cần xác định rõ vai trò kép của ngôn ngữ học ngữ li
ệu, đó là nó vừa là vấn đề
cải tiến về mặt phương pháp, vừa là một vấn đề mang tính lí thuyết. Kết hợp lại là một phương
pháp giảng dạy mới. Nhìn từ góc độ lí thuyết, việc diễn giải các cứ liệu ngôn ngữ quan sát được
XXIX

TỪ ĐIỂN HỌC & BÁCH KHOA THƯ, SỐ 1 (15), 1-2012

[4] Cortes, V. (2002). Lexical bundles in freshman composition. In R. Reppen, S. Fitzmaurice & D.
Biber (Eds.), Using Corpora to Explore Linguistic Variation (pp. 131-145). Amsterdam: John
Benjamins.
[5] Cortes, V. (2008). A comparative analysis of lexical bundles in academic history writing in
English and Spanish. Corpora, 3(1), 43-57.
[6] Grabe, W. (2009). Reading in a second language : Moving from theory to practice. Cambridge ;
New York: Cambridge University Press.
[7] Grabe, W., & Stoller, F. L. (2002). Teaching and researching reading. Harlow: Longman.
[8] Hunston, S. (2002). Corpora in applied linguistics. Cambridge, England ; New York: Cambridge
University Press.
[9] Johns, T. (1986). Micro-concord: A language learner's research tool. System, 14(2), 151-162. doi:
Doi: 10.1016/0346-251x(86)90004-7
[10] Johns, T. (1991). From printout to handout: Grammar and vocabulary learning in the context of
data-driven learning. English Language Research Journal 4, 27-45.
⇛ (Xem tiếp trang 54)
1
Bài viết này đã gửi tham gia Hội thảo Quốc tế: “Nghiên cứu và giảng dạy tiếng Việt lần thứ nhất” được tổ chức
ngày 27-2-2011.

54
NHỮNG VẤN ĐỀ TỪ ĐIỂN HỌC
54
[7] Trần Ngọc Thêm, Tìm về bản sắc văn hoá
Việt Nam, NXB Thành phố Hồ Chí Minh, TP
HCM, 1996.
[8] Viện Ngôn ngữ học, Từ điển tiếng Việt, NXB
Từ điển Bách khoa, H., 2010.

SUMMARY
This contribution studies, describes the

[22] Sinclair, J. (Ed.). (1996). Collins COBUILD Grammar Patterns I: Verbs. London: Collins.
[23] Sinclair, J. (Ed.). (1998). Collins COBUILD Grammar Patterns 2: Nouns and Adjectives.
London: Collins.
[24] Sinclair, J., & Renouf, A. (1988). A lexical syllabus for language learning. In R. Carter & M.
McCarthy (Eds.), Vocabulary and language teaching (pp. 140-160). London: Longman.
[25] Tognini-Bonelli, E. (2001). Corpus linguistics at work. Amsterdam; Philadelphia: J. Benjamins.

SUMMARY
TheuseofthecorpusinteachingVietnameseisanessentialrequirementforcompilingand
teaching this subject in Vietnam. The contribution brings forward methods of using the
corpus,howtocompilevocabularyandgrammaticaldrillsbasedonVietnamesecorpusand
thingsthatwemustpayattentiontowhenusing
thecorpus.

SỬDỤNGKHONGỮLI ỆU (Tiếp theo trang XXIX)


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status