ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
oOo BÁO CÁO ĐỀ ÁN MÔN HỌC
PHƯƠNG PHÁP LUẬN NGHIÊN CỨU KHOA HỌC Đề tài :
NGHIÊN CỨU SỰ PHÁT TRIỂN CỦA CÔNG NGHỆ
CƠ SỞ DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU
Giảng viên hướng dẫn:
GS.TSKH Hoàng Kiếm
Học viên thực hiện:
CH1101021 – Đỗ Văn Luyện Tp.Hồ Chí Minh ngày 13 tháng 04 năm 2012
GIỚI THIỆU ĐỀ TÀI. 3
1. Sự phát triển công nghệ cơ sở dữ liệu và tầm quan trọng của khai phá dữ liệu. 4
1.1 Sự phát triển công nghệ cơ sở dữ liệu và sự ra đời của công nghệ khai phá dữ liệu. 4
1.2 Tầm quan trọng của khai phá dữ liệu. 6
2. Khai thác dữ liệu là gì ? 8
2.1 Các bước để khai phá dữ liệu 8
các thách thức trong khai phá dữ liệu như là Search Engine và Social Network và họ cũng
đã đang và rất thành công trong lĩnh vực của mình.
1. Sự phát triển công nghệ cơ sở dữ liệu và tầm quan trọng của khai phá dữ
liệu.
1.1 Sự phát triển công nghệ cơ sở dữ liệu và sự ra đời của công nghệ khai
phá dữ liệu.
Khai thác dữ liệu là một trong những ngành khoa học thu hút rất
nhiều sự chú ý trong những năm gần đây, do có một số lượng dữ liệu lớn và
cần thiết để chuyển các dữ liệu đó thành thông tin hữu ích. Các thông tin và
kiến thức thu được có thể sử dụng trong các ứng dụng khác nhau từ phân
tích thị trường, phát hiện gian lận, kiểm soát sản xuất và khoa học thăm dò.
Khai thác dữ liệu có thể xem như là một kết quả của sự tiến hoá tự
nhiên của công nghệ thông tin. Sự phát triển của công nghiệp cơ sở dữ liệu
cho ta biết tại sao khai phá dữ liệu đóng một vai trò quan trọng trong sự
phát triển của nền công nghiệp công nghệ thông tin ngày nay.
Kể từ khi công nghệ năm 1960, cơ sở dữ liệu và thông tin đã được
phát triển từ hệ thông xử lý tập tin nguyên thuỷ. Việc nghiên cứu và phát
triển trong các hệ thống cơ sở dữ liệu từ những năm 1970 đã có một quá
trình phát triển từ các hệ thống cơ sở dữ liệu và mạng lưới phân cấp tới sự
phát triển của hệ thống cơ sở dữ liệu quan hệ (nơi dữ liệu được lưu trữ
trong các cấu trúc bảng quan hệ ), các công cụ mô hình hoá dữ liệu và lập
chỉ mục. Ngoài ra người sử dụng đã bước đầu sử dụng ngôn ngữ truy vấn
để truy xuất dữ liệu một cách linh hoạt và thuận tiện. Lúc này để các
phương pháp xử lý giao dịch trực tuyến (OLTP) nơi truy vấn truy xuất dữ
liệu được xem như một giao tác cơ bản thì người dùng bắt đầu phải tối ưu
hoá các xử lý truy vấn để các ứng dụng được sử dụng một cách hiệu quả.
đối tượng, thực thể…
- Lập chỉ mục và các phương pháp truy xuất dữ liệu : Cây B-Tree,
bảng băm, …
- Các ngôn ngữ truy vấn dữ liệu ( query languages) : SQL,…và tối ưu
hoá xử lý truy vấn.
- Phát triển hệ thống giao tiếp người dùng : User interfaces, forms,
report…
Advanced Database
System
(mid - 1980s - present)
- Phát triển mô hình quan
hệ đối tượng mở rộng,
hướng đối tượng mở rộng
và đối tượng quan hệ.
- Phát triển cơ sở dữ liệu
theo đ
ị
nh hư
ớ
ng
ứ
ng d
ụ
ng
Advanced Data Analysis : Data
Warehousing and Data Mining
(late 1980s - present)
- Data warehousing và OLAP
- Khai phá dữ liệu và tìm kiếm tri thức.
đến nguồn cung cấp lớn các máy tính mạnh mẽ, dung lượng lưu trữ trong
các thiết bị ngày càng lớn. Công nghệ này thúc đẩy sự phát triển ngành
công nghiệp cơ sở dữ liệu và thông tin, làm cho một số lượng lớn các cơ sở
dữ liệu và kho thông tin có sẵn cho quản lý giao dịch, thông tin truy hồi và
phân tích dữ liệu.
Dữ liệu có thể được lưu trữ trong nhiều loại khác nhau của cơ sở dữ
liệu và kho thông tin. Một kho lưu trữ nhiều nguồn dữ liệu không đồng nhất
tổ chức theo một lược đồ thống nhất tại một trang web duy nhất để tạo điều
kiện thuận lợi cho việc ra quyết định quản lý. Công nghệ dataWarehousing
bao gồm dữ liệu, tích hợp và làm sạch dữ liệu, phân tích dữ liệu trực tuyến
(OLAP), kỹ thuật phân tích các chức năng, hợp nhất và tập hợp cũng như
khả năng xem xét thông tin ở nhiều ở nhiều góc khác nhau.
Ngoài ra một lượng lớn dữ liệu có thể được tích luỹ vượt quá kiến
trúc cơ sở dữ liệu và kho dữ liệu. Ví dụ điển hình là các dòng data trong
World Wide Web, nơi có các dòng dữ liệu liên tục, trong các ứng dụng như
các mạng cảm biến, phân tích định tuyến Router… thì phân tích và sử dụng
dữ liệu hiệu quả trở thành một nhiệm vụ đầy thử thách.
Sự phong phú của dữ liệu cùng với sự cần thiết cho các công cụ
phân tích dữ liệu mạnh mẽ, thu thập và lưu trữ trong kho dữ liệu lớn và rất
nhiều các ứng dụng khác vượt xa khả năng của con người để hiểu và cẩn
phải có một công cụ mạnh mẽ để làm những việc như vậy
Kết quả là các dữ liệu thu thập trong các kho dữ liệu lớn trở thành
những dữ liệu lưu trữ rất hiếm khi sử dụng và truy cập. Do đó các quyết
định quan trọng thường được thực hiện không dựa trên các dữ liệu thông tin
phong phú được lưu trữ trong kho dữ liệu mà là những quyết định mang
tính trực giác, đơn giản là vì các nhà sản xuất không có đủ các công cụ trích
xuất các kiến thức từ một kho dữ liệu lớn.
=> Công cụ khai thác dữ liệu được ra đời để thực hiện việc phân tích dữ
liệu và có thể phát hiện ra cá mô hình dữ liệu quan trọng góp phần rất lớn
Flat files
Databases
D
ata Warehouse
Patterns
Knowledge
Cleaning and integration
Data mining
Evaluation and Presentation
Hai bước đầu là quá trình tiền xử lý cho việc khai phá dữ liệu. Khai
phá dữ liệu cần phải được hỗ trợ từ người dùng và các cơ sở tri thức hiện
có. Các mẫu, phát hiện mới được thể hiện cho người sử dụng và được lưu
trữ như là kiến thức mới trong cơ sở tri thức. Khai thác dữ liệu lúc này chỉ
là một bước trong toàn bộ quá trình, là một trong những bước cần thiết bởi
vì nó phát hiện ra các mô hình ẩn để đánh giá.
2.2 Kiến trúc một hệ thống khai thác dữ liệu điển hình.
DataMining với tên gọi của nó với nghĩa cơ bản là phát hiện kiến
thức. Tuy nhiên trong ngành công nghiệp, trong các công nghệ truyền
thông và trong nnghiên cứu cơ sở dữ liệu khai thác dữ liệu đang dần phổ
thể sử dụng các phương pháp khác nhau để lọc ra các mẫu phảt hiện.
Giao diện người dùng ( User interface): Là một giao tiếp giữa
người dùng và hệ thống khai thác dữ liệu, cho phép người dùng
tương tác với hệ thống bằng cách thiết lập một truy vấn khai thác dữ
liệu , cung cấp thông tin để giúp tập trung tìm kiếm và thực hiện
thăm dò khai thác dữ liệu dựa trên khai thác dữ liệu trung gian kết
quả. Ngoài ra thành phần này cho phép người dùng duyệt các lược
đồ cơ sở dữ liệu và kho dữ liệu hoặc cấu trúc dữ liệu, đánh giá mô
hình khai thác, và hình dung ra các mô hình trong các hình thức khác
nhau.
Từ quan điểm kho dữ liệu (data warehouse), khai thác dữ liệu có thể
được xem như là một giai đoạn tiên tiến về xử lý phân tích trực tuyến
(OLAP). Mặc dù có rất nhiều hệ thống khai thác dữ liệu trên thị trường
nhưng không phải tất cả trong số đó thể thực hiện khai thác dữ liệu một
cách hiệu quả. Một phân tích dữ liệu hệ thống không thể xử lý một lượng
lớn dữ liệu phải được phân loại một cách thích hợp. Một hệ thống có thể
chỉ có một kiểu dữ liệu hoặc truy vẫn thông tin, bao gồm cả việc tìm kiếm
các giá trị tổng hợp hoặc thực hiện truy vấn trả lời suy luận trong cơ sở dữ
liệu lớn cần được phân loại một cách thích hợp hơn là một hệ thống cơ sở
dữ liệu, một hệ thống truy xuất thông tin, hoặc một hệ thống cơ sở dữ liệu
suy luận. Khai thác dữ liệu liên quan đến việc tích hợp các kỹ thuật lừ
nhiều lĩnh vực như cơ sở dữ liệu, công nghệ kho dữ liệu, số liệu thống kê,
máy học, máy tính hiệu suất cao, nhận dạng mẫu, mạng neural, phân tích
dữ liệu trực quan, thu hồi thông tin, hình ảnh và xử lý tín hiệu và phân tích
các dữ liệu không gian và thời gian.
3. Kiểu dữ liệu khai thác trong khai thác dữ liệu.
3.1 Nguyên tắc.
Về nguyên tắc khai thác dữ liệu nên được áp dụng đối với bất kỳ loại
tiện (bao gồm cả văn bản, video, hình ảnh, dữ liệu âm thanh), dữ liệu
thời gian thực (dữ liệu chứng khoán), dòng dữ liệu (như là video, dữ
liệu cảm biến), World Wide Web (được phân bố rộng rãi trong các
kho lưu trữ thông tin được cung cấp bởi mạng Internet).
Các ứng dụng này yêu cầu cấu trúc dữ liệu hiệu quả và khả năng
mở rộng các phương pháp để xử lý cấu trúc đối tượng phức tạp. Để
đáp ứng những nhu cầu này thì hệ thống cơ sở dữ liệu tiên tiến và
ứng dụng theo định hướng hệ thống cơ sở dữ liệu cụ thể đã được
phát triển bao gồm hệ thống cơ sở dữ liệu quan hệ hướng đối tượng
(object-relational database systems), hệ thống dữ liệu thời gian thực
(time-series database systems), hệ thống cơ sở dữ liệu xử lý văn bản
(text database system) và dữ liệu đa phương tiện (multimedia
database system), hệ thống dữ liệu dòng (data stream management
systems), hệ thống thông tin toàn cầu Web-based ( Web-bases global
information systems).
Cơ sở dữ liệu quan hệ hướng đối tượng ( Object-Relational
Databases)
Mô hình này được xây dựng dựa trên mô hình dữ liệu
đối tượng – quan hệ. Nó được kế thừa từ các khái niệm của
cơ sở dữ liệu hướng đối tượng. Mỗi thực thể được xem như là
một đối tượng. Các hành động của thực thể được coi như là
một thược tính của đối tượng.
Dữ liệu dòng thời gian ( Time-Series Databases and
Sequence Databases).
Một cơ sở dữ liệu thời gian lưu trữ dữ liệu quan hệ bao
Nhiều ứng dụng hiện nay đã và đang sử dụng một loại
dữ liệu mới để phân tích, khám phá các mô hình trong các
dòng dữ liệu. Ví dụ chúng ta có thể phát hiện sự xâm lấn của
một mạng máy tính dựa trên bất thường của dòng tin nhắn có
thể được phát hiện bằng cách phân nhóm các dòng dữ liệu.
The World Wide Web.
World Wide Web và các dịch vụ phân phối và chuyển
tải thông tin chẳng hạn như Yahoo!, Google,Microsoft,
Apple… thì các đối tượng dữ liệu được liên kết với nhau để
tạo điều kiện truy cập tương tác. Người dùng tìm kiếm thông
tin đi từ một một thành phần đến một thành phần khác thông
qua các liên kết (tương tác) với nhau.Các dịch vụ Web đựa
trên các từ khóa tìm kiếm mà không có sự hiểu biết cấu trúc
của một trang web cũng như nội dung thì có thể đưa ra thông
tin hạn chế cho người sử dụng. Vì vậy khai thác dữ liệu trên
World Wide Web là một trong những thách thức lớn nhất mà
con người gặp phải và đang thu hút được sự quan tâm từ
nhiều tổ chức khác nhau.
4. Các nguyên tắc sáng tạo điển hình dùng trong phát triển công nghệ cơ sở dữ
liệu và khai phá dữ liệu.
4.1 Nguyên tắc phân nhỏ
Phát triển công nghệ cơ sở dữ liệu được chia thành nhiều hướng phát
triển khác nhau. Mỗi hướng phát triển có những vấn đề và thách thức riêng.
Trong khai phá dữ liệu thì nguyên tắc này càng được thể hiện rõ
ràng hơn. Với từ những kiểu dữ liệu cụ thể người ta có thể phân chia ra
những hướng khai phá dữ liệu riêng. Ví dụ như hệ thống khai phá dữ liệu
thời gian thực (time series data), khai thác dữ liệu dòng (data stream)…
4.2 Nguyên tắc “tách khỏi ”
Trong khai phá dữ liệu nguyên tắc này được sử dụng để làm sạch dữ
5. Tổng kết
Đi cùng với sự phát triển của khoa học kỹ thuật thì sự phát triển của công
nghệ dữ liệu đóng vai trò quan trọng trong đời sống kinh tế và xã hội. Với sự rộng
lớn dữ liệu của khoa học dữ liệu thì nảy sinh ra một vấn đề mới là phải phát minh
ra một công cụ có khả năng phân tích dữ liệu, tự động phân loại, tự động tổng hợp
và có thể đưa ra các dự báo có lợi cho người sử dụng. Lúc này khai phá dữ liệu ra
đời (data mining) với vai trò là giải quyết những vấn đề trên. Đây là một ngành
khoa học mới với những thách thức mới đang thu hút được sự quan tâm của nhiều
nhà khoa học.