NGHIÊN CỨU VÀ CẢI TIẾN KỸ THUẬT KHAI PHÁ DỮ LIỆU LỚN DỰA TRÊN HƯỚNG TIẾP CẬN TRÍCH CHỌN THUỘC TÍNH ĐẶC TRƯNG - Pdf 25

ĐỀ CƯƠNG NGHIÊN CỨU SINH
NGHIÊN CỨU VÀ CẢI TIẾN KỸ THUẬT KHAI PHÁ
DỮ LIỆU LỚN DỰA TRÊN HƯỚNG TIẾP CẬN TRÍCH
CHỌN THUỘC TÍNH ĐẶC TRƯNG
Ngành : Công nghệ thông tin
Chuyên ngành : Hệ thống thông tin
Người thực hiện : ThS. Hà Văn Sang
Người hướng dẫn : TS. Nguyễn Hà Nam
ĐẠI HỌC QUỐC GIA HÀ NỘI
ĐẠI HỌC CÔNG NGHỆ

1. Đặt vấn đề
2. Nội dung đề cương
3. Dự kiến kế hoạch triển khai
4. Tài liệu tham khảo


Khai phá dữ liệu (data mining) là quá trình khám phá
các tri thức mới và các tri thức có ích ở dạng tiềm năng
trong nguồn dữ liệu đã có.

Tuy nhiên, một kho (tập) dữ liệu lớn có thể chứa lượng
dữ liệu lên đến terabytes

Sư gia tăng của các tập dữ liệu lớn trong nhiều lĩnh vực
đặt ra thách thức cho Data mining

Không chỉ tập dữ liệu lớn mà còn các kiểu dữ liệu mới:

Data stream trên Web


Lựa chọn đặc trưng (Feature Selection)
Trích chọn đặc trưng (Feature Extraction)
!!&' ()

Trong nước:

Nghiên cứu chưa nhiều

Mới chỉ có một số bài báo và luận văn thạc sĩ nghiên cứu
về trích chọn thuộc tính đặc trưng

Trên thế giới:

Bắt đầu nghiên cứ từ cuối những năm 1997

Đến năm 2003 có các bài báo liên quan trong lĩnh vực
học máy. Special issue on “Variable Selection”: Journal
of Machine Learning Research, Vol. 3 Issue 7/8 (10/2003)

Những năm gần đây đã có nhiều tổ chức, hội thảo nghiên
cứu về lĩnh vực này.
* 

Số lượng thuộc tính lớn theo cấp số nhân làm cho:

Việc tính toán cũng như lưu trữ gặp khó khăn

Việc nghiên cứu trong nước về lĩnh vực giảm chiều và trích chọn
đặc trưng chưa nhiều



Giới thiệu sơ lược về lý thuyết sử dụng cho trích chọn như
information gain, heuristic search, ranking methods…
2) Nghiên cứu các thuật toán thuật toán trích chọn:

Tìm hiểu các phương pháp trích chọn đang được áp dụng
hiện nay như filter, wrapper, embedded methods. Đánh
giá điểm mạnh, yếu của từng phương pháp.
3) Nghiên cứu xây dựng thuật toán và áp dụng trong quá
trình học máy:

Từ việc đánh giá điểm mạnh của các phương pháp trích
chọn đang áp dụng, ta nghiên cứu xây dựng thuật toán
bằng cách cải tiến và kết hợp các phương pháp đã có để
tăng hiệu năng của các phương pháp học máy.
Tiến trình trích chọn đặc trưng
Phân loại
+/"#$%&'

Đề tài sẽ kết hợp phương pháp nghiên cứu lý
thuyết với kết quả thực nghiệm

Nghiên cứu tổng hợp các kết quả đã công bố
trước đây để tìm ra các ưu nhược điểm

Từ đó đề xuất và áp dụng phương pháp mới, kiểm
chứng bằng thực nghiệm và đánh giá so sánh.

Áp dụng giải pháp đề xuất vào ứng dụng thực tế
và đánh giá hiệu quả của cách tiếp cận đề nghị


Ứng dụng thuật toán đề xuất và lĩnh vực khai phá dữ
liệu tài chính
2.6 Các nghiên cứu liên quan

Lựa chọn đặc trưng là một chủ đề nghiên cứu với ý nghĩa
thiết thực trong nhiều lĩnh vực:

như thống kê, nhận dạng mẫu, học máy

khai phá dữ liệu (bao gồm khai phá Web, khai phá văn bản, xử
lý hình ảnh)

Một số hướng nghiên cứu trên thế giới:

Semi-supervised Feature Selection via Spectral Analysis

Sparse Linear Discriminant Analysis

A Knowledge-Oriented Framework for Gene Selection

Linear Dimensionality Reduction for Multi-label Classification
Hướng nghiên cứu trong tương lai

Sẽ tiếp tục là lĩnh vực nghiên cứu được nhiều người
quan tâm

Một số hướng nghiên cứu trong tương lai:

Trích chọn đặc trưng cho dữ liệu có chiều cực lớn

2.7 Những bước tiếp cận và đã làm
được

Trong thời gian gần đây tôi đã tích cực tìm kiếm các tài
liệu, bài báo, sách liên quan tới vấn đề trích chọn đặc
trưng.

Tìm kiếm được dữ liệu và các thuật toán mới nhất
3. Dự kiến kế hoạch triển khai

Thời gian nghiên cứu dự kiến: 3 năm

Năm thứ nhất:

Tìm kiếm, thu thập những tài liệu, kết quả liên quan
đến đề tài nghiên cứu.

Viết phần tổng quan, bổ sung các kiến thức cơ sở về các
nội dung nghiên cứu

Phân tích, đánh giá những ưu điểm và nhược điểm của
các phương pháp đã có.
3. Dự kiến kế hoạch triển khai

Năm thứ hai:

Đề xuất phương pháp thuật toán cũng như tiến hành
các chứng minh, kiểm nghiệm nhỏ để đảm bảo tính
đúng đắn của hướng nghiên cứu.



Saeys, Y.; Inza, I. & Larrañaga, P. A review of feature selection techniques
in bioinformatics. Bioinformatics, 2007, 23, 2507-2517
43

Barak Chizi, Dimension Reduction and Feature Selection, 2005.

Zenglin Xu, Rong Jin, Jieping Ye, Michael R. Lyu, and Irwin King.
Discriminative semi-supervised feature selection via manifold
regularization. In IJCAI' 09: Proceedings of the 21th International Joint
Conference on Artificial Intelligence, 2009

Zheng Zhao, Advancing Feature Selection Research - ASU Feature
Selection Repository , 2010.

Lei Yu, Chris Ding, and Steven Loscalzo. Stable feature selection via
dense feature groups. In Proceedings of the 14th ACM SIGKDD
International Conference on Knowledge Discovery and Data Mining, 2008


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status