Thêm dấu vào văn bản tiếng Việt không dấu - pdf 28

Download miễn phí Đồ án Thêm dấu vào văn bản tiếng Việt không dấu



MỤC LỤC
LỜI NÓI ĐẦU .1
CHƯƠNG I. TỔNG QUAN VỀ NGÔN NGỮ TIẾNG VIỆT .3
1.1. Lý thuyết về ngôn ngữ học 3
1.1.1. Âm tiết(còn gọi là “tiếng”) .3
1.1.2. Từ .4
CHƯƠNG II. MỘT SỐ VẤN ĐỀ THÊM DẤU VÀO VĂN BẢN TIẾNG VIỆT KHÔNG DẤU .7
2.1. Phát biểu bài toán .7
2.2. Đặc điểm .7
2.3. Các hướng tiếp cận trong tách từ tiếng Việt .8
2.4. Một số phương pháp tách từ tiếng Việt .8
CHƯƠNG III. THIẾT KÊ MÔ HÌNH CHƯƠNG TRÌNH THÊM DẤU .11
3.1. Lựa chọn công cụ và ngôn ngữ .Net 11
3.2. Mô hình thêm dấu vào văn bản tiếng Việt không dấu .13
3.3. Tách đoạn, câu .13
3.4. Tiền xử lý 14
3.5. Tách từ bằng phương pháp LRMM .14
3.6. Chọn từ thích hợp 16
CHƯƠNG IV. CÀI ĐẶT CHƯƠNG TRÌNH THỬ NGHIỆM . .17
4.1. Môi trường thử nghiệm . 17
4.2. Kết quả và đánh giá chương trình . . .17
4.3. Giao diện chương trình .18
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .19
TÀI LIỆU THAM KHẢO .21
 





Để tải tài liệu này, vui lòng Trả lời bài viết, Mods sẽ gửi Link download cho bạn ngay qua hòm tin nhắn.

Ket-noi - Kho tài liệu miễn phí lớn nhất của bạn


Ai cần tài liệu gì mà không tìm thấy ở Ket-noi, đăng yêu cầu down tại đây nhé:
Nhận download tài liệu miễn phí

Tóm tắt nội dung tài liệu:


hướng tới.
Chữ viết tiếng Việt của chúng ta có một đặc điểm rất hay là có sự xuất hiện của các dấu thanh cũng như dấu của các ký tự. Điều này giúp cho tiếng Việt thêm thanh thêm điệu. Tuy nhiên, cũng chính việc thêm thanh, điệu này làm cho việc gõ tiếng Việt mất nhiều thời gian hơn. Thêm nữa, khi sử dụng Internet trở nên thông dụng, một tiện ích được mọi người ưa chuộng là dịch vụ Email. Nhưng cho đến nay, hầu hết các mail server vẫn chưa hỗ trợ tốt tiếng Việt nên tình trạng các lá Email trên mạng hầu như không có dấu. Việc phát triển một công cụ giúp thêm dấu vào văn bản tiếng Việt không dấu là việc rất cần thiết và thú vị.
Đề tài này hướng đến việc gải quyết bài toán thêm dấu tiếng Việt theo một hướng mới, do đó chương trình không chú trọng chuyên sâu vào lĩnh vực nào.Viêc thêm một số chức năng khác không ảnh hưởng nhiều đến cấu trúc của mô hình mà chương trình áp dụng.
Đồ án gồm các phần sau:
Chương 1. Trình bày một cách khái quát về tiếng Việt, các đặc trưng ngôn ngữ, đặc điểm về từ cũng như các vấn đề riêng có ảnh hướng đến bài toán.
Chương 2. Trình bày về bài toán thêm dấu vào văn bản tiếng Việt không dấu, bao gồm mô tả bài toán, đặc điểm, các phương pháp tách từ có thể áp dụng cho bài toán.
Chương 3. Trình bày việc lựa chọn công cụ thiết kế và xây dựng chương trình thêm dấu vào văn bản tiếng Việt không dấu, dựa trên một phương pháp trong các phương pháp đã nêu ở chương hai.
Chương 4. Trình bày kết quả thực nghiệm của chương trình và việc kiểm thử và đánh giá thuật toán.
Sau đó là phần kết luận và các hướng phát triển sắp tới của đề tài này.
Cuối cùng là phần tài liệu tham khảo.
CHƯƠNG I. TỔNG QUAN VỀ NGÔN NGỮ TIẾNG VIỆT
1.1. Lý thuyết về ngôn ngữ học
1.1.1. Âm tiết(còn gọi là “tiếng”)
a. Định nghĩa và đặc điểm âm tiết tiếng Việt
“Tiếng” là “đơn vị cơ bản” trong tiếng Việt [1]. Một “tiếng” trong tiếng Việt được nói lên là một đơn vị ngữ âm, và cũng là một đơn vị ngữ pháp. Một “tiếng” là một đơn vị pháp ngôn, và là một đơn vị của lời nói để tạo ra những kết cấu lời nói trong hoạt động nói năng giao tiếp. Đặc tính này của tiếng chính là một tính cách loại hình của tiếng Việt, trong đó mỗi đơn vị phát âm trùng khít với đơn vị ngữ pháp(hình vị và từ). Khi xét trên bình diện ngữ âm, tiếng là một đơn vị của ngữ âm, tức là một âm tiết [3].
Còn trong chữ viết (mặt chính tả), mỗi tiếng bao giờ cũng được viết thành từng chữ (ngăn cách bằng khảng trắng hay các dấu ngắt).Đơn vị “tiếng” đối với người Việt là một đơn vị tự nhiên, khái niệm “tiếng “đã có từ lâu và được người bản ngữ sử dụng nó trước khi hiểu và sử dụng khái niệm “từ”.
Ví dụ: Câu “Mình tên là Trang.” có 4 tiếng.
b. Thanh là thành phần của âm tiết tiếng Việt
Khi phát âm tiếng Việt, chúng ta phát âm từng đơn vị lời nói cắt rời nhau, gọi là âm tiết. Khi phát âm chậm một âm tiết, có thể nhận thấy khá rõ là mỗi âm tiết đều có thể kết hợp nhiều nhất là ba đơn vị phát âm: âm đầu + âm chính + âm cuối. Ba thành phần trên gồm những âm vị xuất hiện tương đối theo thứ tự trước sau, nên gọi là những âm vị tuyến tính.
Ngoài ra, mỗi âm tiết được định một bậc cao thấp, gọi là thanh điệu. Trong lời nói, mỗi âm tiết tiếng Việt đều mang một thanh. Thanh này xuất hiện lập tức khi âm tiết được phát ra, cho nên có thể nói rằng thanh là một thành phần bất khả phân của âm tiết. Có sáu thanh làm tiêu chuẩn định bậc cao thấp khác nhau, thuờng gọi là ngang, hỏi, sắc, huyền, ngã, nặng.
Như vậy thì mỗi âm tiết tiếng Việt đầy đủ có tối đa bốn đơn vị cấu thành, còn tối thiểu thì mỗi âm tiết cũng phải có hai thành phần: âm chính + thanh.
c. Tại sao phải dùng dấu thanh?
Các ngôn ngữ dùng bảng chữ cái Latin không dùng thêm ký hiệu chỉ thanh, mà chỉ ghi lại các âm vị tuyến tính bằng các đơn vị là con chữ. Hệ thống chữ viết khối vuông như chữ Hán và chữ Nôm cũng không có ký hiệu chỉ thanh. Nhưng trường hợp chữ Quốc ngữ có khác. Khi dùng bảng chữ cái Latin, các đồ vị con chữ chưa đủ để phân biệt ý nghĩa một từ được viết ra, vì có đến sáu thanh phải phân biệt. Đã đành thanh chỉ là yếu tố ngữ âm không thuộc về thành phần âm vị tuyến tính, nhưng thanh tiếng Việt không hẳn chỉ là một yếu tố ngôn điệu mang tính cách hoa mỹ cho âm tiết, mà là một thành phần không thể thiếu được khi phát âm một âm tiết. Nói cách khác, âm tiết tiếng Việt chưa hoàn chỉnh khi chưa được định thanh. Và đây cũng là đặc điểm nổi bật của tiếng Việt.
1.1.2. Từ
a. Các quan niệm về từ
Có một số định nghĩa điển hình về từ như sau [1]:
Theo L.Bloomfield, thì từ là “một hình thái tự do nhỏ nhất”.
Theo Solncev thì “Từ là đơn vị ngôn ngữ có tính hai mặt: âm và nghĩa. Từ có khả năng độc lập về cú pháp khi sử sụng trong lời”.
Theo B.Golovin, thì từ là “đơn vị nhỏ nhất có nghĩa của ngôn ngữ, được vận dụng độc lập, tái hiên tự do trong lời nói đẻ xây dựng nên câu”. Đây cũng chính là định nghĩa mà trong ngôn ngữ học đại cương hay sử dụng.
Trong nội dung đề tài này, ta quan tâm tới ba thuật ngữ trong ngôn ngữ đại cương để nhận diện từ:
1. Từ ngữ âm: đó là những đơn vị được thống nhất với hiện tượng ngữ âm nào đó. Đối với tiếng Việt, đó chính là những âm tiết, hay còn gọi là tiếng.
2. Từ chính tả: đó là những khoảng cách giữa hai chỗ trên văn tự, tức là những đơn vị được viết liền thành khối, đối với tiếng Việt, đó chính là chữ.
3. Từ từ điển học: đó là đơn vị mà căn cứ vào đặc điểm ý nghĩa của nó phải xếp riêng trong từ điển.
b. cách cấu tạo từ
Đơn vị cơ sở của cấu tạo từ Việt là tiếng. Tiếng có thể có nghĩa đủ rõ, tiếng có thể mang nghĩa phai mờ và tiếng có thể tự mình không có nghĩa. Từ tiếng Việt được cấu tạo bằng cách dùng một tiếng, hay là tổ hợp các tiếng lại theo một cách nào đó.
Từ đơn: cách dùng một tiếng làm một từ cho ta từ đơn.
Ví dụ: cây, nhà, đi, chạy,
Từ ghép: Phưong thức tổ hợp (ghép) các tiếng lại cho ta từ ghép. Dựa vào tính chất của mối quan hệ về ngữ nghĩa các thành tố cấu tạo, có thể phân loại từ ghép tiếng Việt như sau:
Từ ghép đẳng lập: là những từ ghép mà thành tố cấu tạo có quan hệ bình đẳng với nhau về nghĩa. Ví dụ: ăn ở, cá mú, xe cộ,
Từ ghép chính phụ: là những từ ghép có thành tố cấu tạo này phụ thuộc vào thành tố cấu tạo kia. Ví dụ: tầu hỏa, lão hóa, đỏ rực,
Từ láy: cách tổ hợp các tiếng trên cơ sơ hòa phối ngữ âm cho ta từ láy. Mỗi từ láy gồm hai phần:
Phần gốc: làm cở sở cho sự láy.
Phần láy: là phần lặp lại của phần gốc.
Ví dụ: đo đỏ, khe khẽ, xào xạc
Số lượng từ láy trong tiếng Việt rất lớn, khoảng 4.000 từ.
c. Tiêu chí nhận diện từ tiếng Việt
Từ rất nhiều quan niệm cũng như các định nghĩa về “từ tiếng Việt”, ta có thể rút ra tiêu chuẩn mà các nhà Việt ngữ học đã dựa vào đó khi nhận diện từ tiếng Việt [3]. Các tiêu chuẩn này ta có thể phân thành: các tiêu chuẩn về hình thức và các tiêu chẩn về nội dung.
c1. Các tiêu chuẩn về hình thức
Tính cố định: là tính vững chắc về cấu tạo, không thể chêm – xen được.
Tính độc lập: các nhà Việt ngữ học hay dùng tiêu chuẩn này để phân biệt từ (đơn vị có nghĩa và độc lập) với hình vị (đơn vị có nghĩa và không độc lập). Tính độc lập còn được gọi là khả năng kết hợp (tự do – hạn chế).
Tính từ loại và quan hệ cú pháp: trong câu, từ đảm nhận những chức năng cú pháp nhất định, nên mọi từ phải mang một từ loại nào đó, còn hình vị thì không có tính chất từ loại. Quan hệ giữa các từ là quan hệ cú pháp, còn quan hệ giữa các hình vị của từ không phải là quan hệ cú pháp.
c2. Các tiêu chuẩn về nội dung
Chức năng định danh: chức năng này được dùng để xác định tư cách của từ (từ thực), coi đó là đặc trưng phân biệt giữa “từ” và “hình vị”.
Biểu thị khái niệm: vì từ với khái niệm không phải là một: có những khái niệm cần biểu thị bằng nhiều từ, và có những từ không biểu thị khái niệm.
Ý nghĩa biểu niệm: vì ý nghĩa của từ và khái niệm không trùng nhau, vì vậy người ta cần phân biệt ý nghĩa từ vựng và ý nghĩa ngữ pháp.
Hoàn chỉnh về nghĩa: đây là tiêu chuẩn quan trọng, được đa số các nhà Việt ngữ học chấp nhận trong việc xác định tư cách của từ. Tiêu chuẩn này liên quan đến tính thành ngữ và tính võ đoán.
CHƯƠNG II. MỘT SỐ VẤN ĐỀ
THÊM DẤU VÀO VĂN BẢN TIẾNG VIỆT KHÔNG DẤU
2.1. Phát biểu bài toán
Bài toán có thể được phát biểu như sau: Cho một văn bản tiếng Việt không dấu. Chuyển văn bản không dấu đó thành văn bản có dấu với độ chính xác cao.
Chỉ sử dụng từ điển từ và kho ngữ liệu thô làm đầu vào.
Khái niện từ ở đây là “từ từ điển” – tức là từ đơn, từ ghép va cụm từ được lưu trong từ điển.
2.2. Đặc điểm
Chữ viết tiếng Việt có một đặc điểm rất hay là sự xuất hiện của các dấu thanh cũng như dấu của các ký tự. Việc có dấu thanh và dấu ký tự này làm phong phú thêm cho ngôn ngữ tiếng Việt, và cũng góp phần tăng độ biểu cảm của tiếng Việt.
Khi loại bỏ dấu thanh và dấu của các ký tự, việc hiểu nghĩa của từ, gồm một hay nhiều âm tiết kết hợp với nhau, trở nên khó khăn và dễ gây hiểu lầm.
Để thêm dấu, trước tiên ta cần xác định ranh giới từ. Đối với các thứ tiếng Châu Âu, ta có thể dễ dàng nhận ra một từ, do các từ được phân cách bởi khoảng trắng. Điều này lại không đúng với tiếng Việt. Trong tiếng Việt,...
Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status