Xây dựng plug-In kiểm tra lỗi chính tả tiếng Việt trong mirosoft word - pdf 28

Download miễn phí Đồ án Xây dựng plug-In kiểm tra lỗi chính tả tiếng Việt trong mirosoft word



 
LỜI NÓI ĐẦU 3
Chương I. TỔNG QUAN VỀ NGÔN NGỮ TIẾNG VIỆT VÀ CHÍNH TẢ 5
1.1 Ngôn ngữ tiếng Việt 5
1.2. Các đặc trưng ngôn ngữ của tiếng Việt 6
1.3. Đặc điểm của từ tiếng Việt 6
1.3.1.Định nghĩa từ 6
2.3.2.cách cấu tạo từ 6
1.4. Chính tả tiếng Việt 7
1.4.1. Tổng quan về chữ viết tiếng Việt 7
1.4.3. Lỗi chính tả 8
1.4.4. Phân loại lỗi chính tả tiếng Việt 8
Chương II. BÀI TOÁN KIỂM TRA LỖI CHÍNH TẢ TIẾNG VIỆT TRONG MICROSOFT WORD VÀ KỸ THUẬT XÂY DỰNG PLUGIN 10
2.1. Mô tả bài toán 10
2.2. Đặc điểm 11
2.3. Hướng giải quyết 11
2.4. Một số phương pháp Wordmatching 12
2.5. Kỹ thuật xây dựng Plug-in 12
2.5.1. Viết plug-in bằng .Net 13
Chương III. CÀI ĐẶT CHƯƠNG TRÌNH KIỂM LỖI CHÍNH TẢ TIẾNG VIỆT VÀ KẾT QUẢ THỰC NGHIỆM 14
3.1. Mô hình kiểm lỗi chính tả tiếng Việt 14
3.2. Tách đoạn – Tách câu 15
3.3. Xử lý tên riêng 15
3.4. Thuật toán tách từ 17
3.4.1. Thuật toán đối sánh từ trái qua (Left MM) 17
3.5. Kết quả thực nghiệm 21
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 27
TÀI LIỆU THAM KHẢO 29
 
 
 





Để tải tài liệu này, vui lòng Trả lời bài viết, Mods sẽ gửi Link download cho bạn ngay qua hòm tin nhắn.

Ket-noi - Kho tài liệu miễn phí lớn nhất của bạn


Ai cần tài liệu gì mà không tìm thấy ở Ket-noi, đăng yêu cầu down tại đây nhé:
Nhận download tài liệu miễn phí

Tóm tắt nội dung tài liệu:


ặc trưng ngôn ngữ của tiếng Việt
Đặc điểm của từ tiếng Việt
Tổng quan về chữ viết tiếng Việt, chính tả tiếng Việt
Lỗi chính tả, phân loại lỗi chính tả tiếng Việt
1.1 Ngôn ngữ tiếng Việt
Tiếng Việt là ngôn ngữ đơn âm và thuộc về đại gia đình ngôn ngữ của vùng Đông Nam Á. Nó có những đặc điểm ngữ âm, ngữ pháp, ngữ nghĩa khác với ngôn ngữ Ấn-Âu, với những đặc điểm này làm cho tiếng Việt trở thành một ngôn ngữ khó.
Dạng viết của ngôn ngữ Việt Nam được phát triển dựa vào các ký tự Hán hay các ký tự Latinh, các dạng viết này chỉ là mở rộng của dạng nói, mỗi âm thanh được thể hiện bằng một chuỗi các ký tự, và được cách nhau bởi một khoảng trắng. Điều này không là nguyên nhân gây khó khăn cho những người giao tiếp bằng ngôn ngữ nói và vấn đề ranh giới của từ cũng chưa xuất hiện.
Nhưng với sự phát triển của máy tính và ngôn ngữ học, không cho phép những người nghiên cứu bỏ qua vấn đề ranh giới của từ. Không giống với con người, máy vi tính không thể dễ dàng nhận ra ranh giới của từ trong văn bản điện tử. Và nó tạo nên sự thắt nút trong việc Xử lý ngôn ngữ tự nhiên của tiếng Việt, bởi vì không biết ranh giới của các từ thì máy tính không thể làm được bất kỳ việc gì hơn.
1.2. Các đặc trưng ngôn ngữ của tiếng Việt
Đặc trưng về ngữ âm và âm vị
Đặc trưng về từ pháp và hình thái
Đặc trưng về ngữ pháp
1.3. Đặc điểm của từ tiếng Việt
1.3.1.Định nghĩa từ
Cho đến nay, trong ngôn ngữ học, các định nghĩa về từ đã được đưa ra không ít. Các định nghĩa ấy về mặt này hay mặt kia đều đúng, nhưng đều không đủ và không bao gồm được hết tất cả các sự kiện được coi là từ trong các ngôn ngữ và ngay trong cả trong một ngôn ngữ cũng vậy. Nếu không đòi hỏi thật nghiêm ngặt và chấp nhận một cách nhìn để làm việc thì quan niệm về từ có thể được phát biểu như sau:
“Từ là đơn vị nhỏ nhất có nghĩa, có kết cấu vỏ ngữ âm bền vững, hoàn chỉnh, có chức năng gọi tên, được vân dụng độc lập, tái hiện tự do trong lời nói để tạo câu”. [5]
Đối với các từ trong tiếng Việt, ta có thể rút ra những đặc điểm của từ tiếng Việt so với các ngôn ngữ thuộc loại hình khác. Tiếng Việt là một ngôn ngữ đơn lập với các đặc điểm chính sau:
Trong hoạt động ngôn ngữ, từ không biến đổi hình thái, ý nghĩa ngữ pháp nằm ở ngoài từ.
Phương pháp ngữ pháp chủ yếu là trật tự từ và từ hư.
Tồn tại một đơn vị đặc biệt là hình tiết mà vỏ ngữ âm của nó trùng khít với âm tiết. Đơn vị đó còn gọi là “tiếng”.
Không có hiện tượng cấu tạo từ bằng cách ghép thêm phụ tố vào gốc từ.
2.3.2.cách cấu tạo từ
Đơn vị cơ sở của cấu tạo từ Việt là tiếng. Tiếng có thể có nghĩa đủ rõ, tiếng có thể mang nghĩa phai mờ và tiếng có thể tự mình không có nghĩa. Từ tiếng Việt được cấu tạo bằng cách dùng một tiếng, hay là tổ hợp các tiếng lại theo một cách nào đó.
Từ đơn: cách dùng một tiếng làm một từ cho ta từ đơn.
Ví dụ: cây, nhà, đi, chạy,
Từ ghép: Phưong thức tổ hợp (ghép) các tiếng lại cho ta từ ghép. Dựa vào tính chất của mối quan hệ về ngữ nghĩa các thành tố cấu tạo, có thể phân loại từ ghép tiếng Việt như sau:
Từ ghép đẳng lập: là những từ ghép mà thành tố cấu tạo có quan hệ bình đẳng với nhau về nghĩa. Ví dụ: ăn ở, cá mú, xe cộ,
Từ ghép chính phụ: là những từ ghép có thành tố cấu tạo này phụ thuộc vào thành tố cấu tạo kia. Ví dụ: tầu hỏa, lão hóa, đỏ rực,
Từ láy: cách tổ hợp các tiếng trên cơ sơ hòa phối ngữ âm cho ta từ láy. Mỗi từ láy gồm hai phần:
Phần gốc: làm cở sở cho sự láy.
Phần láy: là phần lặp lại của phần gốc.
Ví dụ: đo đỏ, khe khẽ, xào xạc
Số lượng từ láy trong tiếng Việt rất lớn, khoảng 4.000 từ.
1.4. Chính tả tiếng Việt
1.4.1. Tổng quan về chữ viết tiếng Việt
Chữ viết là một trong những phương tiện giao tiếp hiệu quả. Nhờ đặc điểm này, chữ viết được sử dụng rộng rãi trong nhiều lĩnh vực khác nhau của cuộc sống.
Có nhiều hệ thống chữ viết khác nhau được sử dụng trên thế giới, nhưng nhìn chung có thể phân thành hai loại chữ viết sau:
Chữ viết ghi ý: Đây là loại chữ viết biểu hiện từ bằng một ký hiệu duy nhất, không liên quan gì đến những âm thanh cấu tạo nên từ. Ký hiệu này liên quan với cả từ và do đó cũng gián tiếp có quan hệ với ý niệm mà từ đó biểu hiện. Loại này bao gồm chữ Trung Quốc, chữ Ai Cập
Chữ viết ghi âm: Đây là loại chữ viết nhằm tái hiện chuỗi âm thanh nối tiếp nhau trong từ.
Hệ thống chữ viết được sử dụng hiện nay của nước ta là chữ quốc ngữ.
1.4.2. Chính tả tiếng Việt
Chính tả là sự chuẩn hóa hình thức chữ viết của ngôn ngữ. Đó là một hệ thống các quy tắc về cách viết các âm vị, âm tiết, từ, cách dùng các dấu câu, lối viết hoa,
Chuẩn chính tả có những đặc điểm chính sau [5]:
Tính chất bắt buộc. Chữ viết có thể chưa hợp lý nhưng khi đã được thừa nhận là chuẩn chính tả thì người viết không được tự ý viết khác đi. Đối với chính tả, tiêu chuẩn cao nhất là cách viết thống nhất, thống nhất trong mọi văn bản, mọi người và mọi địa phương.
Tính chất ổn định. Do có tính chất bắt buộc nên chuẩn chính tả ít bị thay đổi như các chuẩn mực khác của ngôn ngữ. Sự tồn tại hàng trăm năm của chuẩn chính tả gây nên một cách viết bảo thủ lạc hậu với sự phát triển của ngữ âm. Đây là nguyên nhân chính làm cho chính tả trở lên rắc rối.
Ngữ âm phát triển, chính tả không thể giữ mãi tính chất cố hữu của mình mà cũng dần có một sự biến động nhất định. Do đó bên cạnh các chuẩn mực chính tả hiện có, xuất hiện một cách viết mới tồn tại song song với nó. Ví dụ: cách viết fẩm zá, fi fàm bên cạch phẩm giá, phi phàm .
Những cách viết không thống nhất trên làm cho công việc Xử lý ngôn ngữ tiếng Việt gặp rất nhiều khó khăn. Vì vậy đòi hỏi cách viết chính tả phải được chuẩn hóa càng nhanh càng tốt.
1.4.3. Lỗi chính tả
Theo [1] thì:
Chữ viết là hệ thống ký hiệu bằng đường nét đặt ra để ghi lại tiếng nói và có những quy tắc, quy định riêng. Muốn viết đúng chính tả tiếng Việt, ta phải tuân theo những quy định, quy tắc đã được xác lập.
Chính tả là cách viết chữ được xem là chuẩn, tức là viết đúng âm đầu, đúng vần, đúng dấu (thanh), đúng quy định về viết hoa, viết tắt, viết thuật ngữ.
Các lỗi chính tả thường rơi vào loại lỗi do phát âm sai dẫn đến viết sai (lỗi hỏi-ngã, lỗi sai âm đầu, sai âm chính, sai âm cuối). Ngoài ra còn các loại lỗi khác như viết hoa không đúng quy cách, viết tên riêng, thuật ngữ, tên tiếng nước ngoài không đúng quy cách.
1.4.4. Phân loại lỗi chính tả tiếng Việt
Có nhiều cách phân loại khác nhau. Tuy nhiên, xét theo quan điểm của chương trình kiểm tra lỗi chính tả thì lỗi chính tả có thể phân làm hai loại lỗi:
Lỗi tạo từ sai, hoàn toàn không có trong từ điển. Đây là loại lỗi dễ phát hiện. (Ví dụ, “hong3”, “nhưh”...)
Lỗi chính tả mà từ / tiếng đó có trong từ điển. Nếu không dựa vào ngữ cảnh chung quanh thì không thể xác định đó có phải là lỗi chính tả hay không. (Ví dụ, “anh ta là một người bàng quang” – từ “bàng quang” không đúng, nhưng vẫn có trong từ điển). Đây là loại lỗi rất khó nhận ra và xử lý.
Ngoài ra còn có thể phân loại lỗi theo nguồn gốc phát sinh lỗi. Theo cách phân loại này, có hai loại lỗi đó là lỗi phát âm sai và lỗi nhập sai.
Lỗi phát âm sai: Lỗi này do sự nhầm lẫn giữa cách đọc và cách viết giữa những từ đồng âm hay gần với nhau
Lỗi nhập sai: Lỗi gây ra do gõ sai phím, gõ sót phím hay dư phím
Chương II
BÀI TOÁN KIỂM TRA LỖI CHÍNH TẢ TIẾNG VIỆT TRONG MICROSOFT WORD VÀ KỸ THUẬT XÂY DỰNG PLUGIN
Trong chương này bài toán kiểm tra lỗi chính tả tiếng Việt sẽ được trình bày cụ thể :
Mô tả bài toán
Một số phương pháp Word Matching
Kỹ thuật xây dựng Plug-in
2.1. Mô tả bài toán
Bài toán có thể được phát biểu như sau:
Cho một văn bản tiếng Việt. Tìm tất cả các từ sai chính tả trong văn bản và đề nghị cách giải quyết nếu có.
Trong quá trình soạn thảo văn bản tiếng Việt nếu người dùng gõ sai chính tả thì đề nghị cách giải quyết nếu có
Do ngôn ngữ là một lĩnh vực khá rộng. Nên việc kiểm tra lỗi chính tả tiếng Việt tổng quát là cực kỳ khó khăn. Do vậy đề tài này chỉ giới hạn kiểm tra lỗi chính tả ở trong các văn bản hành chính, và ở mức từ vựng.
Chỉ sử dụng từ điển từ, từ điển tiếng và ngữ liệu thô làm đầu vào.
Khái niệm thô ở đây là “từ từ điển“- tức từ đơn, từ ghép, cụm từ được lưu trong từ điển.
Lỗi chính tả ở đây chủ yếu hai loại lỗi sau:
Lỗi nhập dữ liệu sai: Lỗi gõ thiếu chữ, gõ dư chữ, gõ nhầm vị trí hai chữ liên tiếp nhau, gõ nhầm một chữ bằng một chữ khác, sai sót bộ gõ tiếng Việt.
Lỗi phát âm sai: chủ yếu là do đặc điểm phát âm của từng vùng, dẫn đến sai chính tả khi viết.
Giải định rằng, nếu từ bị sai chính tả, thì chỉ bị một trong những lý do nêu trên một lần (một từ chỉ sai một lỗi chính tả, lỗi đó thuộc một trong các loại lỗi đã nêu). Nghĩa là không xét những trường hợp sai chính tả, vừa gõ nhầm chữ này bằng chữ khác, vừa gõ dư chữ.Giả định người dùng chỉ sử dụng một cách gõ tiếng Việt là TELEX.
2.2. Đặc điểm
Bắt lỗi chính tả, xét từ quan điểm tin học là một bài toán khó. Khó bởi vì ngôn ngữ là một phần rất quan trọng của đời sống xã hội. Ngôn ngữ dùng để diễn đạt suy nghĩ, truyền tải thông tin, nên nó chứa đựng một khối lượng tri thức đồ sộ. Để xử lý ngôn ngữ tự nhiên một cách đún...
Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status