Bài thu hoạch Học máy trong xử lý ngôn ngữ tự nhiên - Pdf 13

Họ và tên: Đào Lương Hùng
MSSV:08520160
Lớp:KHMT03
I. Học máy:
 Học máy, có tài liệu gọi là Máy học, (tiếng Anh: machine learning) là một lĩnh vực
của trí tuệ nhân tạo liên quan đến việc phát triển các kĩ thuật cho phép các máy tính
có thể "học". Cụ thể hơn, học máy là một phương pháp để tạo ra các chương trình
máy tính bằng việc phân tích các tập dữ liệu. Học máy có liên quan lớn đến thống
kê, vì cả hai lĩnh vực đều nghiên cứu việc phân tích dữ liệu, nhưng khác với thống
kê, học máy tập trung vào sự phức tạp của các giải thuật trong việc thực thi tính
toán. Nhiều bài toán suy luận được xếp vào loại bài toán NP-khó, vì thế một phần
của học máy là nghiên cứu sự phát triển các giải thuật suy luận xấp xỉ mà có thể xử
lí được.
 Học máy có tính ứng dụng rất cao bao gồm máy truy tìm dữ liệu, chẩn đoán y khoa,
phát hiện thẻ tín dụng giả, phân tích thị trường chứng khoán, phân loại các chuỗi
DNA, nhận dạng tiếng nói và chữ viết, dịch tự động, chơi trò chơi và cử động rô-
bốt (robot locomotion).
 Một số hệ thống học máy nỗ lực loại trực giác khách quan của con người trong việc
phân tích dữ liệu, trong khi các hệ thống khác hướng đến việc tăng sự cộng tác giữa
người và máy. Không thể loại bỏ hoàn toàn tác động của con người vì các nhà thiết
kế hệ thống phải chỉ định cách biểu diễn của dữ liệu và những cơ chế nào sẽ được
dùng để tìm kiếm các đặc tính đặc trưng của dữ liệu. Học máy có thể được xem là
một nỗ lực để tự động hóa một số phần của phương pháp khoa học. Một số nhà
nghiên cứu học máy tạo ra các phương pháp bên trong các khuôn khổ của thống kê
Bayes.
 Các thuật toán học máy được phân loại theo kết quả mong muốn của thuật toán. Các
loại thuật toán thường dùng bao gồm:
1. Học có giám sát:
• Là một kĩ thuật của ngành học máy để xây dựng một hàm (function) từ
tập dữ liệu huấn luyện. Dữ liệu huấn luyện bao gồm các cặp gồm đối
tượng đầu vào (thường dạng vec-tơ), và đầu ra mong muốn. Đầu ra của

chuyển đổi thành một vec-tơ đặc trưng, chứa một số các đặc trưng
nhằm mô tả cho đối tượng đó. Số lượng các đặc trưng không nên quá
lớn, do sự bùng nổ dữ liệu, nhưng phải đủ lớn để dự đoán chính xác
đầu ra. Nếu hàm chức năng mô tả quá chi tiết về đối tượng, thì các dữ
liệu đầu ra có thể bị phân rã thành nhiều nhóm hay nhãn khác nhau,
việc này dẫn tới việc khó phân biệt được mối quan hệ giữa các đối
tượng hay khó tìm được nhóm(nhãn) chiếm đa số trong tập dữ liệu
cũng như việc dự đoán phần tử đại diện cho nhóm, đối với các đối
tượng gây nhiễu, chúng có thể được dán nhãn, tuy nhiễn số lượng
nhãn quá nhiều, và số nhãn tỉ lệ nghịch với số phần của mỗi nhãn.
Ngược lại, hàm chức năng có quá ít mô tả về đối tượng dễ dẫn tới
việc dán nhãn đối tượng bị sai hay dễ bỏ xót các đối tượng gây nhiễu.
Việc xác định tương đối đúng số lượng đặc tính của phần tử sẽ giảm
2
bớt chi phí khi thực hiện đánh giá kết quả sau huấn luyện cũng như
kết quả gặp bộ dữ liệu đầu vào mới.
 Xác định cấu trúc của hàm chức năng cần tìm và giải thuật học tương
ứng. Ví dụ, người kĩ sư có thể lựa chọn việc sử dụngmạng nơ-ron
nhân tạo hay cây quyết định.
 Hoàn thiện thiết kế. Người thiết kế sẽ chạy giải thuật học từ tập huấn
luyện thu thập được. Các tham số của giải thuật học có thể được điều
chỉnh bằng cách tối ưu hóa hiệu năng trên một tập con (gọi là
tập kiểm chứng -validation set) của tập huấn luyện, hay thông
qua kiểm chứng chéo (cross-validation). Sau khi học và điều chỉnh
tham số, hiệu năng của giải thuật có thể được đo đạc trên một tập
kiểm tra độc lập với tập huấn luyện.
2. Học không giám sát:
• tiếng Anh là unsupervised learning, là một phương pháp nhằm tìm ra một
mô hình mà phù hợp với các tập dữ liệu quan sát. Nó khác biệt với học có
giám sát ở chỗ là đầu ra đúng tương ứng cho mỗi đầu vào là không biết

Với điều này, chương trình học học sẽ có được một lượng hữu hạn các ví
dụ huấn luyện minh họa mối quan hệ mong muốn giữa giá trị đầu vào và
đầu ra. Sau khi học thành công, chương trình học sẽ tính toán sự xấp xỉ
đầu ra đúng, ngay cả cho các ví dụ vẫn chưa được thử trong suốt quá
trình huấn luyện. Không có các giả định bổ sung, nhiệm vụ này không
thể được giải quyết vì các tình huống chưa được xem xét có thể có đầu ra
bất kì. Loại giả định cần thiết về bản chất của hàm chức năng đích được
gọi là quá trình thiên kiến qui nạp (tiếng Anh: inductive bias).
• Việc tiếp cận đến một định nghĩa hình thức hơn của thiên kiến qui nạp là
dựa trên lôgic toán. Ở đây, thiên kiến qui nạp là một công thức lôgic,
cùng với dữ liệu huấn luyện, đòi hỏi một cách lôgic giả thuyết đưa ra bởi
chương trình học. Kết quả có được có thể được xem là mô tả thô về
những kết quả của các đối tượng hoàn toàn.
 Khi quyết định xây dựng một hệ thống học máy, người thiết kế cần trả được các câu
hỏi sau:
1. Hệ thông truy xuất dữ liệu bằng cách nào? Việc này đồng nghĩa với việc: làm
thế nào hệ thống học có thể sử dụng những tri thức thu thập được từ dữ liệu
huấn luyện?
• Nếu chương trình học nằm trong một môi trường cụ thể và thực hiện được
các hành động kiểm soát trên các tập dữ liệu đầu vào, đồng thời có thể cập
nhật tri thức trong quá trình thực thế như một quá trình học tăng cường.
Hoặc nó có thể làm điều đó thông qua quá trình đúc rút kinh nghiệm. Dữ liệu
có thể có thể bị mã hóa, hay chứa nhiều đối tượng gây nhiều, điều này đòi
hỏi chương trình học phải có khả năng giải mã hay đánh giá một các xấp xỉ
các đối tượng gây nhiễu để thực hiện phân tích và kết quả đạt được tốt nhất.
Từ quan điểm này, chương trình học có thể được xây dựng dựa trên các mô
hình thức thích hợp:học có giám sát, hay không có giám sát… tùy theo người
thiết kế.
2. Chương trình cần học những gì? Mục tiêu cần đạt được là gi?
• Các dạng hàm chức năng khác nhau có thể được định nghĩa bên trong một

hay chữ viết, để cố gắng truyền đạt khái niệm, ý nghĩa, và ý nghĩ, nhưng mà
nhiều khi những khía cạnh khó nắm bắt.
 Ngôn ngữ có 4 chức năng chính: để chỉ nghĩa, để thông báo và để khái quát hóa
(có quan hệ với tư duy), lưu trữ.
• Chức năng chỉ nghĩa: để chỉ chính bản thân sự vật hiện tượng, để gắn với 1
biểu tượng nào đó của sự vật hiện tượng và có chức năng làm phương tiện
cho sự tồn tại, truyền đạt và nắm vững các kinh nghiệm xã hội, lịch sử loài
người.
• Chức năng thông báo: dùng để truyền đạt và tiếp nhận thông tin, để biểu cảm
qua đó thúc đẩy điều chỉnh hành động con người.
5


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status