Nghiên cứu luật kết hợp, thử nghiệm khai phá cơ sở dữ liệu xuất nhập khẩu - Pdf 68

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN ĐỨC TOẢN

NGHIÊN CỨU LUẬT KẾT HỢP, THỬ NGHIỆM
KHAI PHÁ CƠ SỞ DỮ LIỆU XUẤT NHẬP KHẨU

LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

Hà Nội - 2015

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN ĐỨC TOẢN

NGHIÊN CỨU LUẬT KẾT HỢP, THỬ NGHIỆM
KHAI PHÁ CƠ SỞ DỮ LIỆU XUẤT NHẬP KHẨU

Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60.48.01.04

LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

NGƢỜI HƢỚNG DẪN KHOA HỌC: TS. PHÙNG VĂN ỔN

Hà Nội - 2015

Cuối cùng, tôi xin cảm ơn bố mẹ, bạn bè, đồng nghiệp đã luôn ủng hộ,
động viên để tôi yên tâm nghiên cứu và hoàn thành luận văn.
Hà Nội, ngày

tháng

năm 2015

MỤC LỤC
MỞ ĐẦU ......................................................................................................................... 1
CHƢƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU ............................................... 3

1.1 Khai phá dữ liệu ......................................................................................... 3
1.1.1 Khái niệm Khai phá dữ liệu ................................................................. 3
1.1.2 Quá trình khai phá dữ liệu.................................................................... 4
1.1.3 Kiến trúc của một hệ thống khai phá dữ liệu ....................................... 5
1.1.4 Nhiệm vụ chính trong khai phá dữ liệu ............................................... 7
1.1.5 Các phƣơng pháp khai phá dữ liệu ...................................................... 9
1.1.6 Các cơ sở dữ liệu có thể khai phá ...................................................... 14
1.2 Ứng dụng của khai phá dữ liệu ................................................................ 15
1.3 Một số khó khăn và thách thức trong khai phá dữ liệu ........................... 16
1.3.1 Các vấn đề về cơ sở dữ liệu ............................................................... 16
1.3.2 Một số vấn đề khác ............................................................................ 19
1.4 Kết luận .................................................................................................... 20
CHƢƠNG 2: LUẬT KẾT HỢP TRONG KHAI PHÁ DỮ LIỆU ................................ 21

2.1 Bài toán kinh điển dẫn đến việc khai phá luật kết hợp ............................ 21
2.2 Lý thuyết về luật kết hợp ......................................................................... 21
2.2.1 Luật kết hợp ....................................................................................... 22

3.2.2 Danh sách các bảng và mô tả ............................................................. 50
3.3 Phân tích dữ liệu ...................................................................................... 61
3.4 Lựa chọn giải pháp .................................................................................. 62
3.5 Tiền xử lý dữ liệu..................................................................................... 62
3.6 Khai phá cơ sở dữ liệu xuất nhập khẩu với BIDS ................................... 63
3.6.1 Tạo một Mining Model structure ....................................................... 63
3.6.2 Hiệu chỉnh tham số cho mô hình ....................................................... 65
3.6.3 Khám phá Mining Models ................................................................. 65
3.7 Đánh giá kết quả ...................................................................................... 71
3.8 Kết luận .................................................................................................... 71
KẾT LUẬN ................................................................................................................... 72
TÀI LIỆU THAM KHẢO ............................................................................................. 74

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT

Tên viết tắt

Diễn giải
Business Intelligence Development Studio

BIDS

Công cụ khai thác dữ liệu của Micosoft

Ck

Tập các k-itemset ứng viên (Candidate sets)

Conf

Minconf

Ngƣỡng tin cậy tối thiểu (minimum confidence)

Minsup

Ngƣỡng hỗ trợ tối thiểu (minimum support)

Sup

Độ hỗ trợ (Support)

T

Giao dịch (Transaction)

TID

Định danh của giao dịch (Unique Transaction Identifer)

XY

Luật kết hợp (Với X là tiền đề, Y là hệ quả)

XNK

Xuất nhập khẩu

Hình 2.3 Sinh luật từ tập mục phổ biến .............................................................. 40
Hình 2.4 Sinh luật từ tập mục phổ biến .............................................................. 41
Hình 2.5 Giao diện chương trình Weka .............................................................. 42
Hình 2.6 Giao diện môi trường Explorer............................................................ 43
Hình 2.7 Ví dụ tập dữ liệu có khuôn dạng ARFF ............................................... 44
Hình 3.1 Mô hình dữ liệu bài toán ...................................................................... 49
Hình 3.2 Danh sách các bảng danh mục ............................................................ 60
Hình 3.3 Thông tin quản lý mã HS...................................................................... 61
Hình 3.4 Mô hình quan hệ các bảng dữ liệu khai phá ........................................ 62
Hình 3.5 View dữ liệu tiền xử lý .......................................................................... 63
Hình 3.6 Cấu hình Case và Nested cho mô hình ................................................ 64
Hình 3.7 Màn hình Mining Models ..................................................................... 64
Hình 3.8 Cấu hình tham số Mining Models ........................................................ 65
Hình 3.9 Danh sách tập phổ biến........................................................................ 66
Hình 3.10 Danh sách luật ................................................................................... 67
Hình 3.11 Mạng phụ thuộc.................................................................................. 68
Hình 3.12 Chi tiết node trong mạng phụ thuộc................................................... 68

MỞ ĐẦU

1. Đặt vấn đề
Ngày nay, con ngƣời đang sở hữu kho dữ liệu phong phú, đa dạng và
khổng lồ. Đặc biệt sự phát triển của công nghệ thông tin và việc ứng dụng công
nghệ thông tin trong nhiều lĩnh vực đã làm cho kho dữ liệu đó tăng lên nhanh
chóng. Sự bùng nổ này đã dẫn tới một yêu cầu cấp thiết là cần có những kỹ thuật
và công cụ mới để tự động chuyển đổi lƣợng dữ liệu khổng lồ kia thành các tri
thức có ích.
Mặt khác, trong môi trƣờng cạnh tranh thì ngƣời ta ngày càng cần có
thông tin với tốc độ nhanh để giúp cho việc ra quyết định. Hơn nữa ngày càng

Chƣơng 3: Thử nghiệm khai phá luật kết hợp cho cơ sở dữ liệu xuất nhập
khẩu
Chƣơng này nêu ra bài toán để thử nghiệm, phân tích và cài đặt thử
nghiệm thử nghiệm với công cụ Business Intelligence Development Studio
(BIDS) của Microsoft.

2

CHƢƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU

1.1 Khai phá dữ liệu
1.1.1 Khái niệm Khai phá dữ liệu

Khai phá dữ liệu là một khái niệm ra đời vào những năm cuối của thập kỷ
80, nó là quá trình tìm kiếm, khám phá dƣới nhiều góc độ khác nhau nhằm phát
hiện các mối liên hệ, quan hệ giữa các dữ liệu, đối tƣợng bên trong CSDL, kết
quả của việc khai phá là xác định các mẫu hay các mô hình tồn tại bên trong
nhƣng chúng nằm ẩn ở các CSDL. Về bản chất nó là giai đoạn duy nhất rút trích
và tìm ra đƣợc các mẫu, các mô hình hay thông tin mới, tri thức tiềm ẩn có trong
CSDL chủ yếu phục vụ cho mô tả và dự đoán. Đây là giai đoạn quan trọng nhất
trong quá trình phát hiện tri thức từ CSDL, các tri thức này hỗ trợ trong việc ra
quyết định, điều hành trong khoa học và kinh doanh.
Sau đây là một số định nghĩa của nhiều tác giả về khai phá dữ liệu:
Định nghĩa của Ferruzza: “Khai phá dữ liệu là tập hợp các phƣơng pháp
đƣợc dùng trong tiến trình khám phá tri thức để chỉ ra sự khác biệt các mối quan
hệ và các mẫu chƣa biết bên trong dữ liệu”.
Định nghĩa của Parsaye: “Khai phá dữ liệu là quá trình trợ giúp quyết
định, trong đó chúng ta tìm kiếm các mẫu thông tin chƣa biết và bất ngờ trong
CSDL lớn”.

Preprocessed
Target
Data

Internet

Preparated

Data

Hình 1.1 Quá trình khai phá dữ liệu
Bắt đầu của quá trình là kho dữ liệu thô và kết thúc với tri thức đƣợc chiết
xuất ra. Về lý thuyết thì có vẽ rất đơn giản nhƣng thực sự đây là một quá trình
rất khó khăn gặp phải rất nhiều vƣớng mắc nhƣ: quản lý các tập dữ liệu, phải lặp
đi lặp lại toàn bộ quá trình,.v.v.
1. Gom dữ liệu (Gathering)
Tập hợp dữ liệu là bƣớc đầu tiên trong quá trình khai phá dữ liệu. Đây là bƣớc
đƣợc khai thác trong một cơ sở dữ liệu, một kho dữ liệu và thậm chí các dữ liệu
từ các nguồn ứng dụng Web.
2. Trích lọc dữ liệu (Selection)
Ở giai đoạn này dữ liệu đƣợc lựa chọn hoặc phân chia theo một số tiêu
chuẩn nào đó, ví dụ chọn tất cả những ngƣời có tuổi đời từ 25 – 35 và có trình
độ đại học.
3. Làm sạch, tiền xử lý và chuẩn bị trước dữ liệu (Cleansing, Pre-processing
and Preparation)

4

Giai đoan thứ ba này là giai đoạn hay bị sao lãng, nhƣng thực tế nó là một

Gồm các thành phần nhƣ hình sau

5

Giao diện đồ họa cho ngƣời dùng
Đánh giá mẫu
Cơ sở tri thức
Máy khai phá dữ liệu
Máy chủ cơ sở dữ liệu hay kho dữ liệu
Làm sạch và tích hợp dữ liệu

CSDL

Lọc dữ liệu

Kho dữ liệu

CSDL

Hình 1.2 Kiến trúc hệ thống khai phá dữ liệu
Các thành phần đƣợc mô tả nhƣ sau:
1. Máy chủ cơ sở dữ liệu hay máy chủ kho dữ liệu (Database or warehouse
server)
Máy chủ này có trách nhiệm lấy dữ liệu thích hợp dựa trên những yêu cầu
khai phá của ngƣời dùng.
2. Cơ sở tri thức (Knowledge base)
Đây là miền tri thức đƣợc dùng để tìm kiếm hay đánh giá độ quan trọng
của các hình mẫu kết quả.
3. Máy khai phá dữ liệu (Data mining engine)

là: họ tên, tuổi, giới tính, trình độ học vấn, … và thuộc tính phân loại là trình độ
lãnh đạo của nhân viên.
1.1.4.2 Hồi qui (regression)
Là việc học một hàm ánh xạ từ một mẫu dữ liệu thành một biến dự đoán
có giá trị thực. Nhiệm vụ của hồi quy tƣơng tự nhƣ phân lớp, điểm khác nhau
chính là ở chỗ thuộc tính để dự báo là liên tục chứ không phải rời rạc. Việc dự
báo các giá trị số thƣờng đƣợc làm bởi các phƣơng pháp thống kê cổ điển, chẳng
hạn nhƣ hồi quy tuyến tính. Tuy nhiên, phƣơng pháp mô hình hoá cũng đƣợc sử
dụng, ví dụ: cây quyết định.
Ứng dụng của hồi quy là rất nhiều, ví dụ: dự đoán số lƣợng sinh vật phát
quang hiện thời trong khu rừng bằng cách dò tìm vi sóng bằng các thiết bị cảm
biến từ xa; ƣớc lƣợng xác xuất ngƣời bệnh có thể chết bằng cách kiểm tra các
triệu chứng; dự báo nhu cầu của ngƣời dùng đối với một sản phẩm, …

7

1.1.4.3 Phân nhóm (clustering)
Là việc mô tả chung để tìm ra các tập hay các nhóm, loại mô tả dữ liệu.
Các nhóm có thể tách nhau hoặc phân cấp hay gối lên nhau. Có nghĩa là dữ liệu
có thể vừa thuộc nhóm này lại vừa thuộc nhóm khác. Các ứng dụng khai phá dữ
liệu có nhiệm vụ phân nhóm nhƣ phát hiện tập các khách hàng có phản ứng
giống nhau trong CSDL tiếp thị; xác định các quang phổ từ các phƣơng pháp đo
tia hồng ngoại, … Liên quan chặt chẽ đến việc phân nhóm là nhiệm vụ đánh giá
dữ liệu, hàm mật độ xác suất đa biến/ các trƣờng trong CSDL.
1.1.4.4 Tổng hợp (summarization)
Là công việc liên quan đến các phƣơng pháp tìm kiếm một mô tả tập con
dữ liệu. Kỹ thuật tổng hợp thƣờng áp dụng trong việc phân tích dữ liệu có tính
thăm dò và báo cáo tự động. Nhiệm vụ chính là sản sinh ra các mô tả đặc trƣng
cho một lớp. Mô tả loại này là một kiểu tổng hợp, tóm tắt các đặc tính chung của

dữ liệu hay sai lệch so với giá trị thông thƣờng đƣợc phát hiện.
Vì những nhiệm vụ này yêu cầu số lƣợng và các dạng thông tin rất khác
nhau nên chúng thƣờng ảnh hƣởng đến việc thiết kế và chọn phƣơng pháp khai
phá dữ liệu khác nhau. Ví dụ nhƣ phƣơng pháp cây quyết định (sẽ đƣợc trình
bày dƣới đây) tạo ra đƣợc một mô tả phân biệt đƣợc các mẫu giữa các lớp nhƣng
không có tính chất và đặc điểm của lớp.
1.1.5 Các phƣơng pháp khai phá dữ liệu

Khai phá dữ liệu là lĩnh vực mà con ngƣời luôn tìm cách đạt đƣợc mực
đích sử dụng thông tin của mình. Quá trình khai phá dữ liệu là quá trình phát
hiện mẫu, trong đó phƣơng pháp khai phá dữ liệu để tìm kiếm các mẫu đáng
quan tâm theo dạng xác định. Có thể kể ra đây một vài phƣơng pháp nhƣ: sử
dụng công cụ truy vấn, xây dựng cây quyết định, dựa theo khoảng cách (K-láng
giềng gần), giá trị trung bình, phát hiện luật kết hợp, … Các phƣơng pháp trên
có thể đƣợc phỏng theo và đƣợc tích hợp vào các hệ thống lai để khai phá dữ
liệu theo thống kê trong nhiều năm nghiên cứu. Tuy nhiên, với dữ liệu rất lớn
trong kho dữ liệu thì các phƣơng pháp này cũng đối diện với thách thức về mặt
hiệu quả và quy mô.
1.1.5.1 Các thành phần của giải thuật khai phá dữ liệu
Giải thuật khai phá dữ liệu bao gồm 3 thành phần chính nhƣ sau: biểu
diễn mô hình, kiểm định mô hình và phƣơng pháp tìm kiếm.
1. Biểu diễn mô hình
Mô hình đƣợc biểu diễn theo một ngôn ngữ L nào đó để miêu tả các mẫu
có thể khai thác đƣợc. Mô tả mô hình rõ ràng thì học máy sẽ tạo ra mẫu có mô
hình chính xác cho dữ liệu. Tuy nhiên, nếu mô hình quá lớn thì khả năng dự
đoán của học máy sẽ bị hạn chế. Nhƣ thế sẽ làm cho việc tìm kiếm phức tạp hơn
cũng nhƣ hiểu đƣợc mô hình là không đơn giản hoặc sẽ không thể có các mẫu
tạo ra đƣợc một mô hình chính xác cho dữ liệu. Ví dụ mô tả cây quyết định sử
dụng phân chia các nút theo 1 trƣờng dữ liệu, chia không gian đầu vào thành các
siêu phẳng song song với trục các thuộc tính. Phƣơng pháp cây quyết định nhƣ

thống kê chuẩn có thể sử dụng trong mô hình kiểm định.
3. Phương pháp tìm kiếm
Phƣơng pháp này bao gồm hai thành phần: tìm kiếm tham số và tìm kiếm
mô hình. Trong tìm kiếm tham số, giải thuật cần tìm kiếm các tham số để tối ƣu
hóa các tiêu chuẩn đánh giá mô hình với các dữ liệu quan sát đƣợc và với một
mô tả mô hình đã định. Việc tìm kiếm không cần thiết đối với một số bài toán
khá đơn giản: các đánh giá tham số tối ƣu có thể đạt đƣợc bằng các cách đơn
giản hơn. Đối với các mô hình chung thì không có các cách này, khi đó giải
10

thuật “tham lam” thƣờng đƣợc sử dụng lặp đi lặp lại. Ví dụ nhƣ phƣơng pháp
giảm gradient trong giải thuật lan truyền ngƣợc (backpropagation) cho các mạng
neuron. Tìm kiếm mô hình xảy ra giống nhƣ một vòng lặp qua phƣơng pháp tìm
kiếm tham số: mô tả mô hình bị thay đổi tạo nên một họ các mô hình. Với mỗi
một mô tả mô hình, phƣơng pháp tìm kiếm tham số đƣợc áp dụng để đánh giá
chất lƣợng mô hình. Các phƣơng pháp tìm kiếm mô hình thƣờng sử dụng các kỹ
thuật tìm kiếm heuristic vì kích thƣớc của không gian các mô hình có thể thƣờng
ngăn cản các tìm kiếm tổng thể, hơn nữa các giải pháp đơn giản (closed form)
không dễ đạt đƣợc.
1.1.5.2 Phương pháp suy diễn / quy nạp
Một cơ sở dữ liệu là một kho thông tin, nhƣng các thông tin quan trọng
hơn cũng có thể đƣợc suy diễn từ kho thông tin đó. Có hai kỹ thuật chính để
thực hiện việc này là suy diễn và quy nạp.
Phương pháp suy diễn: Nhằm rút ra thông tin là kết quả logic của các
thông tin trong cơ sở dữ liệu. Ví dụ nhƣ toán tử liên kết áp dụng cho bảng quan
hệ, bảng đầu chứa thông tin về các nhân viên và phòng ban, bảng thứ hai chứa
các thông tin về các phòng ban và các trƣởng phòng. Nhƣ vậy sẽ suy ra đƣợc
mối quan hệ giữa các nhân viên và các trƣởng phòng. Phƣơng pháp suy diễn dựa
trên các sự kiện chính xác để suy ra các tri thức mới từ các thông tin cũ. Mẫu

thông tin có ích nào, khi tất cả các cặp điểm đều là các láng giềng. Cuối cùng,
phƣơng pháp K-láng giềng không đƣa ra lý thuyết để hiểu cấu trúc dữ liệu. Hạn
chế đó có thể đƣợc khắc phục bằng kỹ thuật cây quyết định.
1.1.5.4 Phương pháp sử dụng cây quyết định và luật
Với kỹ thuật phân lớp dựa trên cây quyết định, kết quả của quá trình xây
dựng mô hình sẽ cho ra một cây quyết định. Cây này đƣợc sử dụng trong quá
trình phân lớp các đối tƣợng dữ liệu chƣa biết hoặc đánh giá độ chính xác của
mô hình. Tƣơng ứng với hai giai đoạn trong quá trình phân lớp là quá trình xây
dựng và sử dụng cây quyết định.
Quá trình xây dựng cây quyết định bắt đầu từ một nút đơn biểu diễn tất cả
các mẫu dữ liệu. Sau đó, các mẫu sẽ đƣợc phân chia một cách đệ quy dựa vào
việc lựa chọn các thuộc tính. Nếu các mẫu có cùng một lớp thì nút sẽ trở thành
lá, ngƣợc lại ta sử dụng một độ đo thuộc tính để chọn ra thuộc tính tiếp theo làm
cơ sở để phân chia các mẫu ra các lớp. Theo từng giá trị của thuộc tính vừa
chọn, ta tạo ra các nhánh tƣơng ứng và phân chia các mẫu vào các nhánh đã tạo.
Lặp lại quá trình trên cho tới khi tạo ra đƣợc cây quyết định, tất cả các nút triển
khai thành lá và đƣợc gán nhãn.
Quá trình đệ quy sẽ dừng lại khi một trong các điều kiện sau đƣợc thỏa
mãn:
- Tất cả các mẫu thuộc cùng một nút.
- Không còn một thuộc tính nào để lựa chọn.
12

- Nhánh không chứa mẫu nào.
Phần lớn các giải thuật sinh cây quyết định đều có hạn chế chung là sử
dụng nhiều bộ nhớ. Lƣợng bộ nhớ sử dụng tỷ lệ thuận với kích thƣớc của mẫu
dữ liệu huấn luyện. Một chƣơng trình sinh cây quyết định có hỗ trợ sử dụng bộ
nhớ ngoài song lại có nhƣợc điểm về tốc độ thực thi. Do vậy, vấn đề tỉa bớt cây
quyết định trở nên quan trọng. Các nút lá không ổn định trong cây quyết định sẽ

Nhiệm vụ của việc phát hiện các luật kết hợp là phải tìm tất cả các luật
X=>B sao cho tần số của luật không nhỏ hơn ngƣỡng σ cho trƣớc và độ tin cậy
của luật không nhỏ hơn ngƣỡng θ cho trƣớc. Từ một cơ sở dữ liệu ta có thể tìm
đƣợc hàng nghìn và thậm chí hàng trăm nghìn các luật kết hợp.
Ta gọi một tập con X  R là thƣờng xuyên trong r nếu thỏa mãn điều kiện
s(X, r)≥σ. Nếu biết tất cả các tập thƣờng xuyên trong r thì việc tìm kiếm các luật
rất dễ dàng. Vì vậy, giải thuật tìm kiếm các luật kết hợp trƣớc tiên đi tìm tất cả
các tập thƣờng xuyên này, sau đó tạo dựng dần các luật kết hợp bằng cách ghép
dần các tập thuộc tính dựa trên mức độ thƣờng xuyên.
Các luật kết hợp có thể là một cách hình thức hóa đơn giản. Chúng rất
thích hợp cho việc tạo ra các kết quả có dữ liệu dạng nhị phân. Giới hạn cơ bản
của phƣơng pháp này là ở chỗ các quan hệ cần phải thƣa theo nghĩa không có
tập thƣờng xuyên nào chứa nhiều hơn 15 thuộc tính. Giải thuật tìm kiếm các luật
kết hợp tạo ra số luật ít nhất phải bằng với số các tập phổ biến và nếu nhƣ một
K

tập phổ biến có kích thƣớc K thì phải có ít nhất là 2 tập phổ biến. Thông tin về
các tập phổ biến đƣợc sử dụng để ƣớc lƣợng độ tin cậy của các tập luật kết hợp.
1.1.6 Các cơ sở dữ liệu có thể khai phá

KPDL đƣợc ứng dụng rộng rãi nên có rất nhiều dạng dữ liệu khác nhau có
thể khai phá. Sau đây là một số dữ liệu điển hình:
Cơ sở dữ liệu quan hệ (Relational databases): Là cơ sở dữ liệu tác nghiệp
đƣợc tổ chức theo mô hình quan hệ, có cấu trúc cao, dữ liệu đƣợc mô tả bởi một
tập những thuộc tính và lƣu trong những bảng. Khai phá dữ liệu trên cơ sở dữ
liệu quan hệ chủ yếu tập trung khai phá mẫu. Hầu hết các hệ quản trị CSDL hiện
nay đều hỗ trợ dạng CSDL này nhƣ SQL Server, Oracle, DB2, MySQL, MS
Access...
Cơ sở dữ liệu giao tác (Transaction databases): Cơ sở dữ liệu giao tác là

thông tin hơn những luật kết hợp cơ bản.
CSDL đa phương tiện (Multimedia databases): CSDL đƣợc tích hợp gồm
nhiều dạng khác nhau nhƣ: âm thanh, hình ảnh, văn bản.
1.2 Ứng dụng của khai phá dữ liệu
Khai phá dữ liệu đƣợc vận dụng trong nhiều lĩnh vực khác nhau, nhằm
khai thác nguồn dữ liệu phong phú đƣợc lƣu trữ trong các hệ thống thông tin.
Tùy theo bản chất của từng lĩnh vực, việc vận dụng khai phá dữ liệu có những
cách tiếp cận khác nhau.
Ngân hàng: Xây dựng mô hình dự báo rủi ro tín dụng; tìm kiếm tri thức,
quy luật của thị trƣờng chứng khoán và đầu tƣ bất động sản.

15

Thương mại điện tử: Tìm hiểu, định hƣớng thúc đẩy, giao tiếp với khách
hàng; Phân tích hành vi mua sắm trên mạng và cho biết thông tin tiếp thị phù
hợp với nhiềuloại khách hàng.
Marketing: Phân tích nhu cầu khách hàng dựa trên mẫu dữ liệu mua bán
hang từ đó xác định chiến lƣợc kinh doanh, quảng cáo, kế hoạch sản xuất …
Khai phá dữ liệu cũng đƣợc vận dụng hiệu quả để giải quyết các bài toán
phức tạp trong các ngành đòi hỏi kỹ thuật cao, nhƣ tìm kiếm mỏ dầu từ ảnh viễn
thám, cảnh báo hỏng hóc trong các hệ thống sản xuất, … Các kỹ thuật khai phá
dữ liệu đã đƣợc áp dụng thành công trong việc dự đoán tải sử dụng điện năng
cho các công ty cung cấp điện, lƣu lƣợng viễn thông cho các công ty điện thoại,
mức độ tiêu thụ sản phẩm cho các nhà sản xuất, giá trị của sản phẩm trên thị
trƣờng cho các công ty tài chính…
Ngoài ra, khai phá dữ liệu còn đƣợc áp dụng cho các vấn đề xã hội nhƣ
phân tích các kết quả phòng chống và điều trị một số loại bệnh, phân tích tác hại
của ma tuý, phát hiện tội phạm hay tăng cƣờng an ninh xã hội... Việc vận dụng
thành công đã mang lại những hiệu quả thiết thực cho các hoạt động diễn ra

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Nghiên cứu luật kết hợp, thử nghiệm khai phá cơ sở dữ liệu xuất nhập khẩu - Pdf 68

Tài liệu, ebook tham khảo khác

Học thêm