Ứng dụng khai phá dữ liệu vào hoạt động chăm sóc khách hàng tại khách sạn vọng cảnh –thành phố huế - Pdf 39

ĐẠI HỌC HUẾ
TRƯỜNG ĐẠI HỌC KINH TẾ

tế
H

uế

KHOA HỆ THỐNG THÔNG TIN KINH TẾ

cK

in

h

KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC

Đ
ại

họ

ỨNG DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU
VÀO HOẠT ĐỘNG CHĂM SÓC KHÁCH HÀNG
TẠI KHÁCH SẠN VỌNG CẢNH

Tr

ườ


ỨNG DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU

Đ
ại

VÀO HOẠT ĐỘNG CHĂM SÓC KHÁCH HÀNG
THÀNH PHỐ HUẾ

Tr

ườ

ng

TẠI KHÁCH SẠN VỌNG CẢNH

Sinh viên thực hiện: Nguyễn Thị Thia
Lớp: K43 Tin Học Kinh Tế
Niên khóa: 2009-2013

Giáo viên hướng dẫn
ThS. Dương Thị Hải Phương


Tr

ườ

ng



năm qua.

Tôi xin gửi lời cám ơn chân thành đến Cô giáo ThS. Dương Thị Hải
Phương đã tận tình hướng dẫn, giúp đỡ tôi trong suốt thời gian thực

h

hiện khóa luận.

in

Tiếp đến tôi xin gửi lời cảm ơn đến ban lãnh đạo cùng các anh chị
trong Khách sạn Vọng Cảnh đã nhiệt tình giúp đỡ, tạo điều kiện cho tôi

cK

hoàn thành tốt thời gian thực tập.

Cuối cùng tôi xin cảm ơn gia đình và bạn bè đã động viên, tạo mọi

họ

điều kiện để tôi có thể hoàn thành khóa luận này.
Tuy nhiên, vì thời gian có hạn nên khóa luận không thể tránh

Đ
ại

khỏi sai sót, kính mong nhận được sự đóng góp ý kiến, chỉ bảo của

DANH MỤC CHỮ VIẾT TẮT……………………...………………………………viii

PHẦN I: MỞ ĐẦU..........................................................................................................1
1. Lý do chọn đề tài .........................................................................................................1

in

h

2. Mục tiêu nghiên cứu ....................................................................................................2

cK

3. Đối tượng và phạm vi nghiên cứu ...............................................................................2
4. Phương pháp nghiên cứu .............................................................................................2
5. Cấu trúc khóa luận.......................................................................................................3

họ

PHẦN II: NỘI DUNG VÀ KẾT QUẢ NGHIÊN CỨU

Đ
ại

CHƯƠNG I: TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC VÀ KHAI PHÁ DỮ LIỆU4
1.1. Phát hiện tri thức.......................................................................................................4
1.1.1. Khái niệm và sự cần thiết của phát hiện tri thức ...................................................4

ng


1.2.4.7. Mô hình phụ thuộc dựa trên đồ thị xác suất .....................................................12

tế
H

1.2.4.8. Mô hình học quan hệ ........................................................................................12
1.2.4.9. Khai phá dữ liệu dạng văn bản .........................................................................13

h

1.2.4.10. Mạng neuron...................................................................................................13

.....................................................14

cK

1.2.5. Những ứng dụng của khai phá dữ liệu

in

1.2.4.11. Giải thuật di truyền .........................................................................................14

CHƯƠNG II: KHAI PHÁ DỮ LIỆU VỚI LUẬT KẾT HỢP VÀ PHÂN CỤM .........16

họ

2.1. Luật kết hợp............................................................................................................16
2.1.1. Các khái niệm ......................................................................................................16

Đ


2.1.4.3. Bài toán 2: Sinh các luật kết hợp từ tập mục phổ biến.....................................25
2.2. Phân cụm dữ liệu ....................................................................................................28
2.2.1. Khái niệm ............................................................................................................28

uế

2.2.2. Các yêu cầu về thuật toán phân cụm dữ liệu .......................................................28
2.2.3. Các kiểu dữ liệu trong phân cụm.........................................................................29

tế
H

2.2.4. Phép đo độ tương tự và khoảng cách đối với các kiểu dữ liệu............................30
2.2.5. Thuật toán K-means trong phân cụm dữ liệu ......................................................35

h

2.2.5.1 Giới thiệu bài toán: ............................................................................................35

in

2.2.5.2 Thuật toán K-means ..........................................................................................35
CHƯƠNG III: ỨNG DỤNG KHAI PHÁ DỮ LIỆU VÀO HOẠT ĐỘNG CHĂM SÓC

cK

KHÁCH HÀNG TẠI KHÁCH SẠN VỌNG CẢNH ...................................................41
3.1. Tổng quan về khách sạn Vọng Cảnh......................................................................41


iii


Khóa luận tốt nghiệp

GVHD: Th.S Dương Thị Hải Phương

3.3.2. Tiền xử lý dữ liệu bài toán...................................................................................54
3.3.3.1. Đặt tham số cho mô hình..................................................................................68
3.3.3.2. Kết quả phân tích..............................................................................................68

uế

3.3.4. Khai thác phân cụm dữ liệu bằng thuật toán K-means........................................79

tế
H

3.3.4.1. Đặt tham số cho mô hình.................................................................................79
3.3.4.2. Kết quả phân tích……………………………………………………..............72
3.4. Một số giải pháp hỗ trợ quản lý khách hàng tại khách sạn Vọng Cảnh .................82

h

KẾT LUẬN ...................................................................................................................85

in

DANH MỤC TÀI LIỆU THAM KHẢO ......................................................................86



tế
H

HÌNH 2. 1: MÔ TẢ THUẬT TOÁN APRIORI .........................................................................27
HÌNH 2. 2: SƠ ĐỒ THUẬT TOÁN K-MEANS........................................................................36
HÌNH 2. 3: KHỞI TẠO TRỌNG TÂM ...................................................................................38

h

HÌNH 2. 4: CẬP NHẬT VỊ TRÍ TRỌNG TÂM ........................................................................39

in

HÌNH 2. 5: LẶP LẠI BƯỚC 3_ CẬP NHẬT TRỌNG TÂM.......................................................39

cK

HÌNH 2. 6: KẾT QUẢ SAU KHI PHÂN CỤM .........................................................................40

HÌNH 3. 1: SƠ ĐỒ TỔ CHỨC ..............................................................................................42
HÌNH 3. 2: SƠ ĐỒ THỂ HIỆN TỈ LỆ CÁC PHÒNG .................................................................43

họ

HÌNH 3. 3: GIAO DIỆN WEKA ...........................................................................................48
HÌNH 3. 4: MÔI TRƯỜNG LÀM VIỆC CỦA EXPLOER ..........................................................49

Đ
ại

Khóa luận tốt nghiệp

GVHD: Th.S Dương Thị Hải Phương

HÌNH 3. 18: HỘP THOẠI NUMERICTONOMINAL CỦA THUỘC TÍNH TUOI ...........................64

HÌNH 3. 19: HỘP THOẠI ADDVALUES CỦA THUỘC TÍNH LOAIPHONG ............................65
HÌNH 3. 20: HỘP THOẠI NUMERICTONOMINAL CỦA THUỘC TÍNH MUCCHITIEU/NGAY ....65
HÌNH 3. 21: HỘP THOẠI ADDVALUES CỦA THUỘC TÍNH PHUONGTHUCTT .......................66

uế

HÌNH 3. 22: KẾT QUẢ DỮ LIỆU SAU KHI TIỀN XỬ LÝ XONG CÁC THUỘC TÍNH..................67
HÌNH 3. 23: THAM SỐ MÔ HÌNH APRIORI .........................................................................68

Tr

ườ

ng

Đ
ại

họ

cK

in



ườ

ng

Đ
ại

họ

cK

in

h

BẢNG 3. 2: KẾT QUẢ THỐNG KÊ ......................................................................................46

Nguyễn Thị Thia

vii


Khóa luận tốt nghiệp

GVHD: Th.S Dương Thị Hải Phương

Các chữ viết tắt

Ý nghĩa

Sup

uế

THUẬT NGỮ VIẾT TẮT

Nguyễn Thị Thia

viii


Khóa luận tốt nghiệp

GVHD: Th.S Dương Thị Hải Phương
MỞ ĐẦU

1.

Lý do chọn đề tài
Sự phát triển mạnh mẽ của công nghệ thông tin và ngành công nghiệp phần

cứng đã làm cho khả năng thu thập và lưu trữ thông tin ngày càng nhiều. Tuy nhiên
trên thực tế thì chỉ có một lượng nhỏ dữ liệu này là luôn được phân tích. Hiện nay,

uế

trong môi trường cạnh tranh, người ta ngày càng cần có nhiều thông tin để hỗ trợ việc

tế
H

ại

phân tích là có thể giúp chúng ta hiểu hơn về những nhu cầu khác nhau của khách
hàng. Mặc dù chiến lược cắt giảm chi phí và giá cả cạnh tranh có thể thu hút khách
hàng từ đối thủ cạnh tranh, tuy nhiên nhiều dịch vụ ngành công nghiệp khách sạn lợi

ng

thế về giá là không đủ. Khai thác dữ liệu- kĩ thuật thăm dò và phân tích dữ liệu từ một
số lượng lớn dữ liệu rời rạc để khám phá các mô hình có ý nghĩa và quy tắc giúp

ườ

doanh nghiệp chọn lọc qua các lớp dữ liệu, nơi mà họ có thể dự đoán, chứ không chỉ

Tr

đơn giản là phản ứng với nhu cầu của khách hàng.
Khách sạn Vọng Cảnh với quy mô khách sạn hai sao, là loại hình khách sạn khá

phổ biến tại Huế, được xem là một trong những điểm lưu trú lý tưởng khi khách du
lịch đến Huế. Tuy nhiên, lượng khách hàng đến với Vọng Cảnh chưa nhiều và thời
gian lưu trú ngắn.
Xuất phát từ những lý do trên đề tài “ Ứng dụng khai phá dữ liệu vào hoạt động
chăm sóc khách hàng tại khách sạn Vọng Cảnh –Thành Phố Huế” được chọn thực
Nguyễn Thị Thia

1



như tìm ra các nhóm khách hàng mục tiêu của khách sạn.

in

- Đề xuất một số giải pháp hỗ trợ quản lý chăm sóc khách hàng tại khách sạn

cK

Vọng Cảnh.
3.

Đối tượng và phạm vi nghiên cứu

họ

- Về nội dung: Nghiên cứu về lý thuyết khai phá dữ liệu và ứng dụng của nó
trong quản lý khách hàng tại khách sạn Vọng Cảnh.
- Về không gian: khách sạn Vọng Cảnh (Thành Phố Huế).

Đ
ại

- Về thời gian: 21/1-12/5/2013
4.

Phương pháp nghiên cứu

 ................................................................................... Phương

pháp


toán K-Means bằng phần mềm khai phá Weka để phân tích và xử lý số liệu.
5.

Cấu trúc khóa luận
Chương 1: Tổng quan về khám phá tri thức và khai phá dữ liệu

uế

Trình bày tổng quan về khám phá tri thức và khai phá dữ liệu.
Chương 2: Bài toán khai phá dữ liệu với luật kết hợp và phân cụm

tế
H

Nội dung chính của chương này bao gồm: Tìm hiểu luật kết hợp; thuật toán

Apriori trong khai phá luật kết hợp; Tìm hiểu phân cụm dữ liệu; thuật toán K-Means
trong phân cụm dữ liệu.

h

Chương 3: Ứng dụng khai phá dữ liệu trong quản lý khách hàng tại khách sạn

in

Vọng Cảnh

cK



uế

Phát hiện tri thức là quá trình tự động trích rút các tri thức ẩn từ một tập dữ liệu

tế
H

rất lớn thông qua các mẫu hoặc mô hình.

Phát hiện tri thức trong CSDL là lĩnh vực liên quan đến các ngành như: thống
kê, học máy, CSDL, thuật toán, trực quan hóa dữ liệu, tính toán song song và hiệu
năng cao…

h

Hiện nay, việc nắm bắt được thông tin được coi là cơ sở của mọi hoạt động sản

in

xuất, kinh doanh. Cá nhân hoặc tổ chức nào thu thập, hiểu được thông tin và hành

cK

động dựa trên thông tin được kết xuất từ các thông tin đã có sẽ đạt được thành công
trong mọi hoạt động. Chính vì lý do đó, việc tạo ra thông tin, tổ chức lưu trữ và khai
thác ngày càng trở nên quan trọng và gia tăng không ngừng.

họ


4


GVHD: Th.S Dương Thị Hải Phương

tế
H

uế

Khóa luận tốt nghiệp

h

Hình 1. 1: Tiến trình phát hiện tri thức

in

(Nguồn: www.tapchicvt.org.vn)

Bước thứ nhất: Hình thành và định nghĩa bài toán. Đây là bước tìm hiểu lĩnh

cK

vực áp dụng, từ đó hình thành bài toán, xác định các nhiệm vụ cần hoàn thành. Bước
này cho phép chọn ra các phương pháp KPDL thích hợp với mục đích ứng dụng và

họ

bản chất của dữ liệu.


5


Khóa luận tốt nghiệp

GVHD: Th.S Dương Thị Hải Phương

của quá trình phát hiện tri thức có thể được đưa vào ứng dụng trong các lĩnh vực khác
nhau. Do các kết quả có thể là các dự đoán hoặc các mô tả nên chúng có thể được đưa
vào các hệ thống hỗ trợ ra quyết định nhằm tự động hóa quá trình này.
Tóm lại: phát hiện tri thức là một quá trình kết xuất ra tri thức từ kho dữ liệu mà

uế

trong đó KPDL là công đoạn quan trọng nhất.

tế
H

1.2. Khai phá dữ liệu
1.2.1. Khái niệm

KPDL là quá trình tìm kiếm các mẫu mới, những thông tin tiềm ẩn mang tính dự
đoán trong các khối dữ liệu lớn cho các đơn vị, tổ chức, doanh nghiệp(1), … Từ đó

h

làm thúc đẩy khả năng sản xuất, kinh doanh, cạnh tranh cho các đơn vị, tổ chức này.


bước chính trong quá trình phát hiện tri thức.

Tr

1.2.2. Quá trình khai phá dữ liệu (6)
Quá trình KPDL được tiến hành qua 6 giai đoạn (Hình 1.2). Theo đó, bắt đầu

của quá trình là kho dữ liệu thô và kết thúc với tri thức được chiết xuất ra.

Nguyễn Thị Thia

6


GVHD: Th.S Dương Thị Hải Phương

h

tế
H

uế

Khóa luận tốt nghiệp

in

Hình 1. 2: Quá trình khai phá dữ liệu

cK

Là bước làm sạch dữ liệu (xử lý với dữ liệu không đầy đủ, dữ liệu nhiễu, dữ

Tr

liệu không nhất quán,.v.v), rút gọn dữ liệu (sử dụng hàm nhóm và tính tổng, các
phương pháp nén dữ liệu, sử dụng histogram, lấy mẫu,.v.v). Sau bước này, dữ liệu sẽ
nhất quán, đầy đủ, được rút gọn, và được rời rạc hóa.
 Bước 4: Chuyển đổi dữ liệu (Transformation)
Trong giai đoạn này, dữ liệu đưa ra có thể sử dụng và điều khiển được bởi việc
tổ chức lại nó, dữ liệu đã được chuyển đổi phù hợp với mục đích khai thác.

Nguyễn Thị Thia

7


Khóa luận tốt nghiệp


GVHD: Th.S Dương Thị Hải Phương

Bước 5: Phát hiện và trích mẫu dữ liệu (Pattern Extraction and

Discovery)
Ở giai đoạn này nhiều thuật toán khác nhau được sử dụng để trích ra các mẫu từ
dữ liệu. Thuật toán thường dùng là phân loại, kết hợp hoặc mô hình dữ liệu tuần tự,…

uế

 Bước 6: Đánh giá kết quả mẫu (Evaluation of Result)

ại

mẫu mô tả dữ liệu mà con người có thể hiểu.
Để đạt được mục đích này, nhiệm vụ của KPDL bao gồm như sau:


Phân lớp: phân lớp là việc chọn một hàm ánh xạ (hay phân loại) một mẫu

ng

dữ liệu trong số các lớp đã xác định (Hand 1981; Weiss & Kulikowski 1991;
McLachlan 1992). Ví dụ về việc sử dụng phương pháp phân lớp trong KPDL là ứng

ườ

dụng phân lớp các xu hướng trong thị trường tài chính (Apte & Hong) và ứng dụng tự
động xác định các đối tượng đáng quan tâm trong các CSDL ảnh lớn (Fayyad,

Tr

Djorgoski, & Weir).


Hồi quy: hồi quy là việc học một hàm ánh xạ từ mẫu dữ liệu thành một biến

dự đoán có giá trị thực. Có rất nhiều ứng dụng KPDL với nhiệm vụ hồi quy, ví dụ như
đánh giá khả năng tử vong của bệnh nhân khi biết các kết kết quả xét nghiệm chuẩn
đoán, dự đoán nhu cầu tiêu thụ một sản phẩm mới bằng một hàm chi tiêu quảng cáo,…



Zytkow). Các kỹ thuật tóm tắt thường được áp dụng cho các phân tích dữ liệu tương

Mô hình hóa phụ thuộc: Bao gồm việc tìm kiếm một mô hình tả sự phụ

in



h

tác có tính thăm dò và tạo báo cáo tự động.

thuộc đáng kể giữa các biến. Các mô hình phụ thuộc tồn tại dưới hai mức: mức cấu

cK

trúc của mô hình xác định (thường ở dạng đồ họa) các biến nào là phụ thuộc cục bộ
với nhau, mức định lượng của mô hình xác định độ mạnh của sự phụ thuộc theo một

họ

thước đo nào đó. Ví dụ như các mạng phụ thuộc xác suất sử dụng độc lập có điều kiện
để xác định khía cạnh có cấu trúc của một mô hình và các xác suất hoặc tương quan để
xác định độ mạnh của sự phụ thuộc (Heckerman; Glymour và cộng sự, 1987).
Phát hiện sự thay đổi và lạc hướng: Tập trung vào khai thác những thay đổi

Đ
ại




các lớp khác nhau. Các đối tượng phân lớp theo các đường đi trên cây, qua các cạnh
tương ứng với các giá trị của thuộc tính của đối tượng tới lá.
 Tạo luật: Các luật được tạo ra nhằm suy diễn một số mẫu dữ liệu có ý nghĩa
về mặt thống kê. Các luật có dạng nếu P thì Q, với P là mệnh đề đúng với một phần
trong CSDL, Q là mệnh đề dự đoán. Ví dụ ta có một mẫu phát hiện được bằng phương

uế

pháp tạo luật: nếu giá xăng cao hơn 25000 đồng/lít thì giá taxi sẽ tăng 5%. Những luật

Chúng có thuận lợi và dễ hiểu đối với người sử dụng.

tế
H

như thế này được sử dụng rất rộng rãi trong việc mô tả tri thức trong hệ chuyên gia.

Cây quyết định và luật có ưu điểm là hình thức mô tả đơn giản, mô hình suy
diễn khá dễ hiểu đối với người sử dụng. Tuy nhiên, giới hạn của nó là mô tả cây và

h

luật chỉ có thể biểu diễn được một số dạng chức năng và vì vậy giới hạn về cả độ chính

in

xác của mô hình.

cK

Cheng &Titterrington 1994, Elder & Ppregibon).
1.2.4.4. Phương pháp quy nạp/ suy diễn
Một CSDL là một kho thông tin nhưng các thông tin quan trọng hơn cũng có
thể suy diễn từ kho thông tin đó. Có 2 kỹ thuật chính để thực hiện việc này là suy diễn
và quy nạp.

Nguyễn Thị Thia

10


Khóa luận tốt nghiệp

GVHD: Th.S Dương Thị Hải Phương

 Phương pháp suy diễn: Nhằm rút ra thông tin là kết quả logic của các thông
tin trong CSDL. Ví dụ như toán tử liên kết áp dụng cho bảng quan hệ, bảng đầu chứa
thông tin về nhân viên và phòng ban, bảng thứ hai chứa các thông tin về các phòng ban
và các trưởng phòng. Phương pháp suy diễn dựa trên các sự kiện chính xác để suy ra
các tri thức mới từ các thông tin cũ. Mẫu chiết xuất được bằng cách sử dụng phương

uế

pháp này thương là các luật suy diễn.

tế
H

 Phương pháp quy nạp: Phương pháp quy nạp suy ra các thông tin được sinh



ng

dữ liệu có chung những tính chất nào đó được phân tách từ CSDL. Khi các mẫu được
thiết lập, chúng có thể được sử dụng để tái tạo tập dữ liệu ở dạng dể hiểu hơn, đồng

ườ

thời cũng cung cấp các nhóm dữ liệu cho các hoạt động cũng như việc phân tích. Đối

Tr

với CSDL lớn, việc lấy ra các nhóm này là rất quan trọng.
2.2.4.6. Các phương pháp dựa trên mẫu
Sử dụng các mẫu mô tả từ CSDL để tạo nên một mô hình dự đoán các mẫu mới

bằng cách rút ra những thuộc tính tương tự như các mẫu đã biết trong mô hình. Các kỹ
thuật bao gồm phân lớp theo láng giềng gần, các giải thuật hồi quy (Dasarathy 1991)
và các hệ thống suy diễn dựa trên tình huống (case- based reasoning) (Kolodner 1993).

Nguyễn Thị Thia

11


Khóa luận tốt nghiệp

GVHD: Th.S Dương Thị Hải Phương

Khuyết điểm của kỹ thuật này là cần phải xác định được khoảng cách, đo độ

cho các biến giá trị thực.

họ

Trong trí tuệ nhân tạo và thống kê, các phương pháp này ban đầu được phát
triển trong khuôn khổ của các hệ chuyên gia. Cấu trúc của mô hình và các tham số
được suy ra từ các hệ chuyên gia. Ngày nay, các phương pháp này đã được phát triển,

Đ
ại

cả cấu trúc và các tham số mô hình đồ thị đều có thể học trực tiếp từ CSDL. Tiêu
chuẩn đánh giá mô hình chủ yếu là ở dạng Bayesian. Việc đánh giá tham số là một sự
kết hợp các đánh giá dạng đóng và các phương pháp lặp phụ thuộc vào việc biến được

ng

quan sát trực tiếp hay dạng ẩn. Việc tìm kiếm mô hình dựa trên các phương pháp leo
đồi trên nhiều cấu trúc đồ thị. Các tri thức trước đó, ví dụ như việc sắp xếp một phần

ườ

các biến dựa trên mối quan hệ nhân quả, có thể rất có ích trong việc làm giảm không
gian tìm kiếm mô hình. Mặc dù phương pháp này mới ở giai đoạn đầu của công việc

Tr

nghiên cứu nhưng nó đã cho thấy nhiều hứa hẹn vì dạng đồ thị dễ hiểu hơn và dễ biểu
đạt được nhiều ý nghĩa hơn đối với con người.
1.2.4.8. Mô hình học quan hệ

h

Mạng neuron là tiếp cận tính toán mới liên quan đến việc phát triển các cấu trúc

in

toán học với khả năng học. Các phương pháp là kết quả của việc nghiên cứu mô hình

cK

học của hệ thống thần kinh con người. Mạng neuron có thể đưa ra ý nghĩa từ các dữ
liệu phức tạp hoặc không chính xác và có thể được sử dụng để chiết xuất các mẫu và
phát hiện ra các xu hướng quá phức tạp mà con người cũng như các kỹ thuật máy tính

họ

khác không thể phát hiện ra được.

Khi đề cập đến KPDL, người ta thường đề cập đến mạng neuron. Một trong số

Đ
ại

ưu điểm phải kể đến của mạng neuron là khả năng tạo ra mô hình sự đoán có độ chính
xác cao, có thể áp dụng được cho rất nhiều dạng bài toán khác nhau, đáp ứng được
nhiệm vụ đặt ra của KPDL như phân lớp, phân nhóm, mô hình hóa, dự báo các sự kiện

ng

phụ thuộc vào thời gian.


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status