Báo cáo kỹ thuật text mining và ứng dụng - Pdf 14

Kỹ thuật Text Mining và ứng dụng
GVHD :
Khoa: CNTT
© 2009 HVKTQS Corporation. All rights reserved
Nội dung

Giới thiệu

Data Mining

Text Mining

SQL Server Integration Services (SSIS)

Phân loại văn bản

Ứng dụng phân loại thư
Giới thiệu

Trong hệ thống các dạng Data Mining thì có một kiểu khai
phá dữ liệu rất đặc biệt chỉ thực hiện trên các dữ liệu định
dạng Text đó là Text Mining. Trong thời điểm hiện nay,
phân tích các tài liệu dạng Text trở nên rất quan trọng.

Và các dự án Textmining thực sự là một công cụ hổ trợ đắc
lực trong việc phân nhóm, phân loại và phân đoạn các dữ
liệu không cấu trúc này nhằm thực hiện các vấn đề thiết
thực trong cuộc sống cũng như hoạt động kinh doanh
thương mại.

SQL 2005, Data Mining nói chung và Text Mining nói riêng

•
Một số lượng lớn dữ liệu sẵn dùng
•
Sự cạnh tranh ngày càng tăng
•
Sẳn sàng về mặt công nghệ
Data Mining
Các bài toán của Data Mining
trong kinh doanh
1. Phân tích thị trường
2. Trao đổi mua bán
3. Phát hiện gian lận trong kinh doanh
4. Quản lý rủi ro trong kinh doanh
5. Phân loại khách hàng
6. Mục đích quảng cáo
7. Dự báo thị trường
Nhiệm vụ của Data Mining
1. Phép phân loại
2. Kỹ thuật Clustering (phân cụm)
3. Luật kết hợp
4. Hồi quy
5. Dự báo
6. Phép phân tích
7. Phân tích độ lệch
Trợ giúp tất cả các nhân
Trợ giúp tất cả các nhân
viên kinh doanh đưa ra
viên kinh doanh đưa ra
những quyết định xác đáng,
những quyết định xác đáng,

Time Series
Sequence
Sequence
Clustering
Clustering
Association
Association
Naïve
Naïve
Bayes
Bayes
Neural Net
Neural Net
Đã được giới thiệu trong SQL Server 2000
Đã được giới thiệu trong SQL Server 2000
Logistic
Logistic
Regression
Regression
Linear Regression
Linear Regression Text Mining
Text Mining

Khái niệm và vị trí của Text Mining

Nhiệm vụ của Data Mining

Thuật toán hỗ trợ và các bước tiến hành
TexT Mining
Khái niệm

những thông tin có liên quan mà họ cần (đây là khó khăn lớn).
Việc bùng nổ thông tin đã làm cho vấn đề tổ chức, quản lí, phân loại
thông tin ngày càng có vai trò quan trọng. Chẳng hạn khi tìm kiếm
thông tin trên Internet, chương trình tìm kiếm phải lục soát tất cả các
tài nguyên sẵn có trên mạng sau đó tiến hành lọc thông tin để đưa ra
những thông tin cần thiết cho người dùng.
Thuật toán Naïve Bayes và phân loại văn bản
Định nghĩa và tiến trình phân loại văn bản
Định nghĩa: Phân loại văn bản là sự phân loại không cấu trúc các tài
liệu văn bản dựa trên một tập hợp của một hay nhiều loại văn bản đã
được định nghĩa trước. Quá trình này thường được thực thi bằng
một hệ thống tự động gán cho các tài liệu văn bản một loại nào đó.
Tiến trình phân loại văn bản
•
Lựa chọn các đặc trưng văn bản
•
Biểu diễn văn bản
•
Học một bộ phân loại văn bản
•
Tiến hành phân loại văn bản
Thuật toán Naïve Bayes và phân loại văn bản
Thuật toán phân loại văn bản Naïve Bayes
Xác suất P(c
k
|d
i
) gọi là xác suất mà tài liệu d
i
có khả năng thuộc vào lớp

Nk
ik
Nk
dP
cdPcP
dcP
≤≤
=
≤≤
=
Trong đó N là tổng số tài liệu.
Thuật toán Naïve Bayes và phân loại văn bản
Thuật toán phân loại văn bản Naïve Bayes
Với mỗi văn bản D (document), người ta sẽ tính cho mỗi loại một xác
suất mà tài liệu D có thể thuộc vào lớp tài liệu đó bằng việc sử dụng
luật Naïve Bayes:
Trong đó: D là tài liệu cần phân loại, C
i
là một tài liệu bất kì. Theo giả
định của Naive Bayes xác suất của mỗi từ trong tài liệu D là độc lập
với ngữ cảnh xuất hiện các từ đồng thời cũng độc lập với vị trí của
các từ trong tài liệu.
)(
)|(*)(
)|(
DP
CDPCP
DCP
ii
i

DCP
∏
<<
=
(2)
Ứng dụng Text Mining

Giới thiệu ứng dụng
1. Yêu cầu ứng dụng
2. Phương pháp giải quyết yêu cầu ứng dụng

Xây dựng ứng dụng
1. Xây dựng từ điển thuật ngữ
2. Xây dựng một bảng Vectors thuật ngữ
3. Xây dựng mô hình SSIS chuẩn bị Train/Test Samples
4. Xây dựng mô hình Data Mining
5. Xây dựng các bảng dữ liệu đặc trưng
6. Xây dựng ứng dụng phân loại thư yêu cầu
Yêu cầu ứng dụng
Phương pháp giải quyết yêu cầu ứng dụng

Phương pháp giải quyết ứng dụng
1. Tạo từ điển trích rút các thuật ngữ thông qua nội dung các bài báo và lưu vào
trong bảng Dictionnary trong CSDL SQL 2005 bằng Term Extraction
transformation
2. Tạo bảng cấu trúc các thuật ngữ dựa vào việc tham chiếu dữ liệu các thuật
ngữ trong bảng Dictionnary và trường nội dung bài báo trong bảng dữ liệu ba
n đầu và lưu vào bảng TermVectors với 3 cột là thuật ngữ, ID và tần số xuất
hiện
3. Thực hiện chuẩn bị mẫu cho mô hình mining bằng Percentage Sampling

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Báo cáo kỹ thuật text mining và ứng dụng - Pdf 14

Tài liệu, ebook tham khảo khác

Học thêm