1
Ứng dụng một số kỹ thuật khai phá dữ liệu để
phân tích dữ liệu viễn thông nhằm
tăng cường chất lượng dịch vụ khách hàng
An application of data mining techniques to analyze data telecommunications
to enhance the quality of customer service
NXB H. : ĐHCN, 2012 Số trang 78 tr. +
Lường Hồng Giang Trường Đại học Công nghệ
Luận văn ThS ngành: Hệ Thống Thông Tin; Mã số: 60 48 05
Người hướng dẫn: PGS.TS.Nguyễn Hà Nam
Năm bảo vệ: 2012
Abstract: Tổng quan về khai phá dữ liệu: khai phá dữ liệu; Quá trình khai phá tri thức
trong cơ sở dữ liệu (CSDL); Các kỹ thuật tiếp cận trong khai phá dữ liệu; Kiến trúc của hệ
thống khai phá dữ liệu; Ứng dụng khai phá dữ liệu. Giới thiệu khai phá mẫu phổ biến, luật
kết hợp bao gồm: khái niệm về khai phá phổ biến và tổng quan về luật kết hợp. Lưu trữ dữ
liệu lớn dựa trên Oracle DBMS. Áp dụng Luật kết hợp vào Cơ Sở Dữ Liệu Oracle (đặc tả
bài toán, tính độ hỗ trợ, các ví dụ minh họa). Ứng dụng vào phân tích dữ liệu viễn thông
tại Beeline
Keywords: Công nghệ thông tin; Khai phá dữ liệu; Dữ liệu viễn thông; Phân tích dữ liệu;
Hệ thống thông tin
Content
Ngành công nghiệp viễn thông lưu trữ một khối lượng dữ liệu khổng lồ, bao gồm chi tiết
cuộc gọi, thông tin cảnh báo trình trạng của hệ thống mạng viễn thông và thông tin dữ liệu về
nhằm tăng cường chất lượng dịch vụ khách hàng”
Đề tài được nghiên cứu dựa trên luật kết hợp, một trong những những kỹ thuật rất quan
trọng của khai phá dữ liệu. Nội dung chính của luận văn được chia thành năm chương như sau:
Chương 1: Mở đầu
Chương 2: Giới thiệu khai phá mẫu phổ biến, luật kết hợp
Chương 3: Lưu trữ dữ liệu lớn dựa trên Oracle DBMS
Chương 4: Áp dụng Luật kết hợp vào Cơ Sở Dữ Liệu Oracle
Chương 5: Ứng dụng vào phân tích dữ liệu viễn thông tại Beeline:
Phân tích một cơ sở dữ liệu, trình bày về cách cài đặt chương trình khai thác luật kết hợp
trong việc sử dụng các dịch vụ giá trị gia tăng của khách hàng. Dựa vào kết quả này mà người
quản lý của các doanh nghiệp viễn thông nắm bắt được những nhóm dịch vụ nào có liên quan tới
nhau, phục vụ cho mục đích quản lý và lựa chọn các dịch vụ và thời điểm phát hành các loại dịch
vụ cho các nhóm khách hàng khác nhau.
Khai phá dữ liệu.
Khai phá dữ liệu là một khái niệm ra đời vào những năm cuối của thập kỷ 80. Nó bao hàm
một loạt các kỹ thuật nhằm phát hiện ra các thông tin có giá trị tiềm ẩn trong các tập dữ liệu lớn
(các kho dữ liệu). Về bản chất, khai phá dữ liệu liên quan đến việc phân tích các dữ liệu và sử
dụng các kỹ thuật để tìm ra các mẫu hình có tính chính quy trong tập dữ liệu.
Ở một mức độ trừu tượng nhất định có thể định nghĩa: Khai phá dữ liệu (Data Mining) là
một quá trình tìm kiếm, phát hiện các tri thức mới, tiềm ẩn, hữu dụng trong CSDL lớn.
3
Khai phá tri thức (KDD) là mục tiêu chính của khai phá dữ liệu, do vậy hai khái niệm đó
được xem như hai lĩnh vực tương đương nhau. Nhưng, nếu phân chia một cách tách bạch thì khai
phá dữ liệu là một bước chính trong quá trình KDD.
Quá trình khai phá tri thức trong cơ sở dữ liệu
Khai phá tri thức trong CSDL ( Knowledge Discovery in Databases - KDD) là lĩnh vực liên
quan đến các ngành như: thống kê, học máy, CSDL, thuật toán, trực quan hóa dữ liệu, tính toán
song song và hiệu năng cao,…
Quá trình KDD có thể phân thành các giai đoạn sau:
(customer churn). Đây là vấn đề khá nghiêm trọng ảnh hưởng đến tốc độ phát triển thuê bao,
cũng như doanh thu của các nhà cung cấp dịch vụ.
Cuối cùng, một ứng dụng cũng rất phổ biến đó là phân lớp khách hàng (classifying). Dựa vào dữ
liệu khách hàng và chi tiết cuộc gọi có thể tìm ra các luật để phân loại khách hàng.
Hướng nghiên cứu của đề tài.
Đề tài phân tích dữ liệu viễn thông nhằm nhận diện được những đặc tính của khách hàng và thông
qua đó có thể đưa ra các chính sách chăm sóc khách hàng thích hợp dựa trên dự đoán hoặc có một
chiến lược tiếp thị hiệu quả. Ứng dụng khai phá dữ liệu dựa trên việc xem xét luật kết hợp giữa
các dịch vụ viễn thông khách hàng sử dụng. Dựa vào kết quả này mà người quản lý của các doanh
nghiệp viễn thông nắm bắt được những nhóm dịch vụ nào có liên quan tới nhau, phục vụ cho mục
đích quản lý và lựa chọn các dịch vụ giá trị gia tăng và thời điểm phát hành các loại dịch vụ giá trị
gia tăng cho các nhóm khách hàng khác nhau. Xây dựng chiến lược phát triển hệ thống và tìm
những khách hàng tiềm năng cho các gói sản phẩm khác nhau.
5
Giới thiệu khai phá mẫu phổ biến, luật kết hợp
Khái niệm về khai phá mẫu phổ biến
Mẫu phổ biến
Mẫu phổ biến (Frequent pattern): là mẫu (tập mục - itemsets, dãy mục – itemlists, dãy con –
subsequence, hoặc cấu trúc con – substructures…) mà xuất hiện phổ biến trong một tập dữ liệu.
Agrawal, Imielinski, Swami – 1993 – trong ngữ cảnh bài toán tập phổ biến và luật kết hợp
Ý nghĩa của khai phá mẫu phổ biến
Tìm kiếm mẫu phổ biến đóng vai trò thiết yếu trong khai phá luật kết hợp, tìm kiếm mối
tương quan, và các mối quan hệ trong cơ sở dữ liệu. Hơn nữa nó giúp phân lớp, phân cụm dữ liệu,
và hỗ trợ các nhiệm vụ khai phá dữ liệu khá tốt. Do vậy, khai phá mẫu phổ biến đã trở thành
nhiệm vụ quan trọng trong khai phá dữ liệu.
Bài toán thực tế
Có thể kết luận rằng, khai phá mẫu phổ biến là quá trình tìm kiếm mối quan hệ tuần hoàn, lặp đi
lặp lại trong một cơ sở dữ liệu.
Ví dụ, thông tin khách hàng mua máy giặt thì cũng có xu hướng mua xà phòng giặt máy tại
Y) 0 (2)
Luật kết hợp X
Y có độ tin cậy (confidence) c trong CSDL D nếu như trong D có c% các
giao dịch T chứa X thì cũng chứa Y: chính là xác suất P(X|Y).
Confidence (X
Y) = P(X|Y) : 1 c (X
Y) 0 (3)
6
Luật X
Y được gọi là đảm bảo độ hỗ trợ s trong D nếu s(X
Y) s. Luật X
Y được gọi là
đảm bảo độ tin cậy c trong D nếu c(X
Y) c. Luật thỏa mãn cả hai ngưỡng hỗ trợ tối thiểu
(min_sup) và ngưỡng tin cậy tối thiểu (min_conf) được gọi là luật mạnh. Độ hỗ trợ và độ tin cậy
nhận giá trị trong khoảng từ 0% đến 100% hoặc từ 0.0 đến 1.0. giá trị min_sup và min_conf được
xác định bởi người dung hoặc hệ chuyên gia.
Như vậy, quá trình khai phá luật kết hợp phải được thực hiện thông qua hai bước:
Bước 1: Tìm tất cả các tập mục mà có độ hỗ trợ lớn hơn độ hỗ trợ tối thiểu do người dùng xác
định. Các tập mục thoả mãn độ hỗ trợ tối thiểu được gọi là các tập mục phổ biến.
Bước 2: Tạo luật liên kết mạnh từ tập mục phổ biến sinh ra các luật mong muốn. Ý tưởng
chung là nếu gọi XYZW và XY là các tập mục phổ biến, thì chúng ta có thể xác định luật nếu XY
)
d. Lặp lại từ bước 2 cho đến khi Candidate set (C) trống (không tìm thấy tập phổ biến)
e. Với mỗi tập phổ biến I, sinh tất cả các tập con s không rỗng của I
f. Với mỗi tập con s không rỗng của I, sinh ra các luật s => (I-s) nếu độ tin cậy (Confidence)
của nó > =min_conf
Mô tả thuật toán Apriori dưới dạng giả mã
Đầu vào:
- Cơ sở dữ liệu giao dịch D = {t|t : giao dịch}.
- Độ hỗ trợ tối thiểu min_sup > 0
Đầu ra: Tập hợp tất cả các tập phổ biến.
7
Phương pháp:
(0) mincount = min_sup * |D|;
(1) F
1
= {tất cả các tập mục phổ biến có độ dài bằng 1};
(2) For (k=2; F
k-1
, k++){
(3) C
k
= Apriori-gen (F
k-1
); //Sinh mọi ứng viên có độ dài k.
(4) For ( mỗi giao dịch t
D) { // quét CSDL D để đếm
(10) } //kết thúc vòng lặp.
(11) } Return
k
F
k
Thuật toán Apriori được trình bày dưới dạng giả mã và các thủ tục liên quan. Bước 1 của Apriori
là tìm tất cả các tập mục phổ biến F
1
có độ dài bằng 1. Từ bước 2 đến bước 10, F
k-1
được sử dụng
để sinh ứng viên C
k
theo trình tự để tìm Lk với k ≥ 2. Thủ tục Apriori_gen sinh các ứng viên và sử
dụng tính chất Apriori để loại trừ những tập con không phổ biến (bước 3). Thủ tục này được mô tả
phía dưới. Một khi tất cả các ứng viên đã được sinh ra, CSDL sẽ được quyét (bước 4). Với mỗi
giao dịch, một hàm con được sử dụng để tìm tất cả các tập con của giao dịch đã được ứng cử
(bước 5), và số ứng viên của mỗi giao dịch được tính (bước 6 và 7). Cuối cùng, tất cả các ứng viên
đáp ứng độ hỗ trợ tối thiểu (bước 9) cấu thành lên tập mục phổ biến
k
F
k
(bước 11). Thủ tục
được gọi sau đó để sinh luật kết hợp từ tập mục phổ biến.
Thủ tục Apriori_gen thực hiện kết nối và cắt tỉa. Trong thành phần kết nối, F
k-1
được kết nối với
[2] = l
2
[2]
…
l
1
[k-2] = l
2
[k-2]
l
1
[k-1] = l
2
[k-1] )
then {
(4) c = l
1
⋈ l
2
; // bước kết nối: sinh ứng viên
(5) If has_infrequent_subset (c, F
k-1
) then
(6) delete c; //bước tỉa: loại bỏ các ứng viên không có lợi
(7) Else thêm c vào C
k
;
có thể phân tích lượng lớn các tập dữ liệu nhanh hơn so với các công cụ khai phá dữ liệu sử dụng
flat files, ví dụ như weka.
Hướng nghiên cứu của đề tài nghiên cứu các vấn đề thực hiện khai phá dữ liệu bên trong một
DBMS, chú ý đến các bộ dữ liệu lớn. DBMS ngày càng phát triển và chiếm ưu thế hiện nay như
Oracle.
Giới thiệu hệ quản trị CSDL Oracle
Các công ty viễn thông quản lý một khối lượng lớn dữ liệu về thông tin khách hàng và dữ
liệu về chi tiết cuộc gọi (call detail records). Và CSDL Oracle là một lựa chọn tối ưu để lưu trữ
lượng dữ liệu lớn đó trong các doanh nghiệp viễn thông.
Oracle bao gồm một tập hợp hoàn thiện các sản phẩm xây dựng ứng dụng và người dùng
cuối được trang bị các giải pháp kỹ thuật thông tin hoàn hảo. Các ứng dụng Oracle tương thích với
hầu hết các hệ điều hành từ các máy tính cá nhân đến các hệ thống xử lý song song lớn. Oracle
cung cấp một hệ quản trị cơ sở dữ liệu (Database Management System - DBMS) uyển chuyển:
Oracle Server để lưu giữ và quản lý các thông tin dùng trong các ứng dụng.
9
Phương pháp tiếp cận và kiến trúc
Đề tài trình bày một hệ thống khai phá dữ liệu trên hệ quản trị cơ sở dữ liệu quan hệ Oracle
dựa trên các truy vấn SQL và các hàm định nghĩa trực tiếp bởi người dùng, và sẽ chứng minh rằng
“SQL là không hiệu quả hoặc không đầy đủ cho khai phá dữ liệu là sai”. Mục đích của luận văn là
khám phá rất nhiều những vấn đề gặp phải khi CSDL được tích hợp vào quá trình khai phá dữ
liệu.
Hiện nay có nhiều công cụ khai phá dữ liệu thương mại sẵn có trên thị trường như IBM‟s
Intelligent Miner, DBMiner,Oracle Data Mining, …Chúng có khả năng cung cấp khai phá dữ liệu
trên CSDL quan hệ. Mặc dù chúng là những công cụ khai khá là hiệu quả, chúng phát triển cho
những hệ quản trị CSDL cụ thể.
Các file sử dụng cho các thuật toán khai phá, chúng được sử dụng làm dữ liệu đầu vào và
không chứa trong cơ sở dữ liệu. Chúng thường bị giới hạn số lượng giao dịch có thể được khai
phá. Ví dụ, DBMiner giới hạn số lượng giao dịch là 64K mà nó có thể xử lý khai phá. Người sử
dụng có thể lựa chọn RDBMS sử dụng cho các ứng dụng của mình để hệ thống không giới hạn về
sử dụng độ dài tối đa để xác định số lượng các cột của bảng đầu ra. Một luật kết hợp được sinh ra
cần phải có ít mặt hàng (item) hơn số lượng cột trong bảng. Những cột bổ sung cho luật kết hợp
được sinh ra được gán giá trị 0. Cấu trúc bảng RULES (item
1
, item
2
, … ,item
k
, nullm, rulem,
confidence, support). Ở đây k là độ dài của tập phổ biến có độ dài lớn nhất. Cột nullm là cột có
giá trị 0 đầu tiên, rulem là vị trí của „=>‟ trong luật kết hợp. Confidence và support lần lượt là độ
tin cậy và độ hỗ trợ của luật kết hợp được sinh ra.
Sinh tập các ứng viên
Thực hiện phép nối giữa tập mục phổ biển F
k
Thuật toán Apriori đã được trình bầy trong chương 2, với mỗi k, tập ứng viên có độ dài k
(C
k
) có thể được sinh từ tất cả các tập mục phổ biến có độ dài bằng k-1 (F
k-1
). F
k-1
sẽ có k-1 cột:
Item
1
, Item
2
, …, Item
k-1
(3
<= r <= k) chúng ta sẽ kiểm tra item r-2 với điều kiện:
I1.item1 = Ir.item1 and
…
I1.itemr-3 = Ir.itemr-3 and
I1.itemr-1 = Ir.itemr-2 and
…
I1.itemk-1 = Ir.itemk-2 and
I2.itemk-1 = Ir.itemk-1
Hình 4.2: Thực hiện bước tỉa loại bỏ ứng viên không có lợi
Hình 4.3: Sinh và tỉa tập các ứng viên có độ dài k
Ví dụ, bảng F3 có tập dữ liệu {{1 2 3}, {1 2 4}, {1 3 4}, {1 3 5}, {2 3 4}}. Sau khi thực
hiện kết nối F3 với chính nó ta được kết quả trả về là {{1 2 3 4}, {1 3 4 5}. Bước tỉa sẽ xóa tập
con {1 3 4 5} không phổ biến. Bởi vì tập {1 3 4 5} được sinh ra từ hai tập con là {1 3 4} và {1 3
5} nhưng tập con {3 4 5} không tồn tại trong tập mục phổ biến F3. Do đó nó bị xóa và tập các
ứng viên có độ dài 4 (C
4
) là {1 2 3 4}.
12 Hình 4.4: Sinh và tỉa tập các ứng viên có độ dài k = 4
Tính độ hỗ trợ
Đây là một phần quan trọng và chiếm hầu hết thời gian của quá trình khai phá dữ liệu.
Bước này là cần thiết để xác định tất cả các tập phổ biến từ các tập ứng cử viên. Trình bày phương
pháp sử dụng chuẩn SQL-92 cho việc tính toán độ hỗ trợ, K-way (Kwj) [15]:
Phương pháp cơ bản để tính độ hỗ trợ tại k bất kỳ, thực hiện kết nối giữa tập các tập mục
của tập các ứng viên với k bảng giao dich T và thực hiện hàm nhóm (Group by) trên các tập mục
của tập các ứng viên đó. Câu lệnh SQL và sơ đồ cây với k-way kết nối được hiển thị dưới đây:
Hình 4.7: Kết hợp các tập mục phổ biến độ dài từ 1 đến k
Sinh các tập con bảng tập mục phổ biến FISETS
Bước tiếp theo, sinh các tập con cho mỗi tập hữu hạn trong bảng tập mục phổ biến
FISETS. Sau đó cập nhật vào bảng SUBSETS(item1, …, itemk, nullm, rulem, count) với cột
nullm là cột có giá trị 0 đầu tiên, rulem là vị trí của „=>‟ trong luật kết hợp và count là độ hỗ trợ.
Đối với một dòng dữ liệu trong bảng FISETS, có giá trị trong các cột (item1,…,itemk) tăng dần.
Để sinh các tập con cho mỗi tập hữu hạn trong bảng tập mục phổ biến FISETS đề tài sử dụng
thuật toán đệ quy liệt kê tổ hợp chập k của n phần tử:
declare
n number; Mảng có độ dài n
14
source number [ ] := null; Mảng kết quả
k number := 3; Số lượng phần tử
selected boolean [ n ]; Mảng lưu trạng thái
procedure choose(element number, startIdx number) is
begin
if element = k then
In danh sách phần tử trong mảng source[k]
for i in 1 n loop
if selected[i] = true then
In phần tử mảng sẽ được chọn
end if;
end loop;
else
for i in startIdx n loop
if selected [ i ] = false then
selected [ i ] = true;
Thực hiện thuật toán đệ quy
choose(element + 1, i + 1);
(8) AND s.rulem = f.nullm
(9) AND s.count*100/ f.count >= minconf
Hình 4.9: Sinh các tập luật kết hợp mạnh từ các tập mục phổ biến
Ứng dụng vào phân tích dữ liệu viễn thông tại Beeline
Trong phạm vi đề tài, chương trình sử dụng ngôn ngữ PL/SQL, SQL động để thực hiện xử lý các
vấn đề.
Mô tả và chuyển đổi dữ liệu
Dữ liệu chi tiết cuộc gọi (call detail data - CDR): Mỗi một cuộc gọi của khách hàng trên mạng
viễn thông đều phát sinh một mẫu tin chi tiết cuộc gọi. Các mẫu tin này bao gồm các thông tin đặc
tả thuộc tính quan trọng của cuộc gọi như : số gọi, số bị gọi, thời gian bắt đầu và thời gian đàm
thoại.
Xây dựng hệ thống thực nghiệm
Từ dữ liệu đầu vào là bảng TRANSACTIONS (TID, ITEM), chúng ta sẽ xây dựng ứng
dụng thực nghiệm theo các bước như đã giới thiệu trong chương bốn. Trong quá trình thực hiện
ứng dụng sẽ có các bảng tạm (temp tables) được tạo ra lưu trữ tập các ứng viên C
k
và tập mục phổ
biến F
k
với độ hỗ trợ tương ứng.
Sinh tập các ứng viên
Đầu tiên chúng ta sẽ sinh ra các tập mục phổ biến F1 từ bảng TRANSACTIONS như sau:
create table F1 as
select item item1, count(*) count
from transactions
group by item
having count(*) > 1
Từ bảng tập mục phổ biến F1, tạo bảng sinh các ứng cử viên C2 bằng việc nối bảng F1 với
chính nó:
create table C2 as
17 Hình 5.2: Mật độ luật kết hợp trên độ hỗ trợ
Biểu đồ biểu hiện mật độ số lượng các luật kết hợp với độ tin cậy tương ứng (5%, 10%, 20%,
30%, 100%).
Hình 5.2: Mật độ luật kết hợp trên độ tin cậy
Xác định mối quan hệ dịch vụ gia tăng bằng phát hiện luật kết hợp.
Với dữ liệu gốc ban đầu đã có, chương trình phần mêm đề tài phát triển sẽ giúp phát hiện các
luật kết hợp. Với những tiêu chí khác nhau sẽ có các luật kết hợp khác nhau, phần tiếp theo của
luận văn sẽ đi vào phân tích cụ thể một số luật kết hợp này.
Chạy chương trình trên tập dữ liệu phục vụ phát hiện luật kết hợp với việc lựa chọn độ hỗ trợ
cực tiểu minSup = 0,01 (hay 1%) và độ tin cậy cực tiểu minConf = 0,8 (80%), đã nhận được 177
luật kết hợp (chi tiết xem Phụ lục, mục 5, kết quả phát hiện luật kết hợp), trong đó 5 luật có độ hỗ
trợ cao nhất được trình bầy ở dưới :
Luật 1: Local Incoming VC; SMS MO Beeline to SC
Local Outgoing VC to Other Mobile
Với độ tin cậy và độ hỗ trợ là (98.55%, 2.01%)
18
Luật này chỉ ra rằng 2.01% những thuê bao sử dụng dịch vụ giá trị gia tăng gọi nội mạng, nhắn tin
đa phương tiện và gọi ngoại mạng trong tổng số các giao dịch. Nếu thuê bao sử dụng dịch vụ giá
trị gia tăng gọi nội mạng, nhắn tin đa phương tiện thì sẽ gọi ngoại mạng với độ tin cậy là 98.55%.
Luật 2: Local Outgoing VC to PSTN; Local Incoming VC
Local Outgoing VC to Other Mobile
Với độ tin cậy và độ hỗ trợ là (99.27%, 6.04%)
Luật này chỉ ra rằng 6.04% những thuê bao sử dụng dịch vụ giá trị gia tăng gọi đến số cố định, gọi
nội mạng và gọi ngoại mạng trong tổng số các giao dịch. Nếu thuê bao sử dụng dịch vụ giá trị gia
tăng gọi đến số cố định, gọi nội mạng thì sẽ gọi ngoại mạng với độ tin cậy là 98.55%.
nhiều ý nghĩa trong khoa học cũng như trong thực tiễn.
Về mặt lý thuyết, khai phá tri thức bao gồm các bước: Hình thành, xác định và định nghĩa bài
toán; thu thập và tiền xử lý dữ liệu; khai phá dữ liệu, rút ra các tri thức; sử dụng các tri thức phát
hiện được.
Về thuật toán khai phá tri thức, luận văn trình bày thuật toán Apriori và minh hoạ thuật toán
Apriori thực hiện phát hiện luật phổ biến trên CSDL quan hệ.
Về mặt cài đặt thử nghiệm, khoá luận giới thiệu kỹ thuật khai phá dữ liệu theo thuật toán
Apriori áp dụng vào bài toán phát hiện và dự báo mức độ sử dụng các dịch vụ gia tăng của viễn
thông.
Phát hiện luật kết hợp là kỹ thuật phát hiện thông tin, tri thức trên tập dữ liệu lớn hoặc rất lớn
nên ý nghĩa và độ tin cậy của các luật này càng cao nếu tập dữ liệu càng lớn, nói cách khác số
lượng các dịch vụ gia tăng được lựa chọn càng nhiều và dữ liệu chi tiết cuộc gọi càng dài về mặt
thời gian càng tốt. Tuy nhiên sự hạn chế về thời gian luận văn không thể đáp ứng được đòi hỏi
như vậy.
Số lượng các luật kết hợp nói chung là khá lớn và không tránh khỏi có một số luật kết hợp dư
thừa. Cho đến nay có rất nhiều nghiên cứu đề xuất giải pháp nhằm hạn chế sự dư thừa của luật
nhưng có thể nói chưa có giải pháp nào triệt để và cũng chưa có phần mềm nào hỗ trợ tốt về vấn
đề này. Người ta có thể khắc phục số lượng các luật kết hợp bằng cách tăng độ hỗ trợ cực tiểu và
độ tin cậy cực tiểu và luận văn đã thực hiện theo hướng này.
Các luật kết hợp nói chung có độ hỗ trợ không cao (điều đó là tự nhiên) nhưng độ tin cậy rất
cao. Điều đó ngầm định rằng các quan hệ về các dịch vụ giá tri gia tăng được sử dụng được tìm
thấy thông qua luật kết hợp là rất đáng tin cậy.
References
Tiếng Việt:
1. Hà Quang Thụy, “Bài giảng cao học môn học Khai phá web”, Trường Đại học Công
nghệ, 2007.
2. Trần Văn Thiện, “Ứng dụng các kỹ thuật khai phá dữ liệu vào lĩnh vực viễn thông”. Học
viện bưu chính viễn thông, 2006.
14. SEYYED JAMALEDDIN PISHVAYI. Customer Relationship Management. Tehran
University
15. Thomas S., Architectures and Optimizations for Integrating Data Mining Algorithms with
Database Systems, Ph.D. dissertation, University of Florida, Gainesville, 1998.
16. Frank Wang, Na Helian, A scanonce algorithm for large database mining implemented in
sql, London Metropolitan University, 166-220 Holloway Road, London N7 8DB, United
Kingdom.