ứng dụng kỹ thuật khai phá dữ liệu vào hoạt động chăm sóc khách hàng tại khách sạn vọng cảnh - Pdf 13

ĐẠI HỌC HUẾ
TRƯỜNG ĐẠI HỌC KINH TẾ
KHOA HỆ THỐNG THÔNG TIN KINH TẾ
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC
ỨNG DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU
VÀO HOẠT ĐỘNG CHĂM SÓC KHÁCH HÀNG
TẠI KHÁCH SẠN VỌNG CẢNH
THÀNH PHỐ HUẾ
NGUYỄN THỊ THIA
KHÓA HỌC 2009-2013
ĐẠI HỌC HUẾ
TRƯỜNG ĐẠI HỌC KINH TẾ
KHOA HỆ THỐNG THÔNG TIN KINH TẾ
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC
ỨNG DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU
VÀO HOẠT ĐỘNG CHĂM SÓC KHÁCH HÀNG
TẠI KHÁCH SẠN VỌNG CẢNH
THÀNH PHỐ HUẾ
Sinh viên thực hiện: Nguyễn Thị Thia Giáo viên hướng dẫn
Lớp: K43 Tin Học Kinh Tế ThS. Dương Thị Hải Phương
Niên khóa: 2009-2013
Huế, tháng 5 năm 2013
LỜI CẢM ƠN
Để hoàn thành khóa luận tốt nghiệp này, trong quá trình
nghiên cứu và thực hiện ngoài sự nổ lực của bản thân còn có sự
giúp đỡ của thầy cô, gia đình, bạn bè và cán bộ nhân viên khách
sạn Vọng Cảnh.
Tôi xin trân trọng cám ơn quý thầy cô đã dạy dỗ tôi
suốt 4 năm qua.
Tôi xin gửi lời cám ơn chân thành đến Cô giáo ThS. Dương
Thị Hải Phương đã tận tình hướng dẫn, giúp đỡ tôi trong suốt

1.2.1. Khái niệm 6
1.2.2. Quá trình khai phá dữ liệu (6) 6
1.2.3. Nhiệm vụ chính của khai phá dữ liệu 8
1.2.4. Phương pháp khai phá dữ liệu 9
1.2.4.1. Cây quyết định và luật 9
1.2.4.2. Phát hiện luật kết hợp 10
1.2.4.3. Các phương pháp phân lớp và hồi quy 10
Nguyễn Thị Thia i
Khóa luận tốt nghiệp GVHD: Th.S Dương Thị Hải Phương
1.2.4.4. Phương pháp quy nạp/ suy diễn 10
1.2.4.5. Phân nhóm và phân đoạn 11
2.2.4.6. Các phương pháp dựa trên mẫu 11
1.2.4.7. Mô hình phụ thuộc dựa trên đồ thị xác suất 12
1.2.4.8. Mô hình học quan hệ 12
1.2.4.9. Khai phá dữ liệu dạng văn bản 12
1.2.4.10. Mạng neuron 13
1.2.4.11. Giải thuật di truyền 13
1.2.5. Những ứng dụng của khai phá dữ liệu (4) 14
CHƯƠNG II 16
BÀI TOÁN KHAI PHÁ DỮ LIỆU VỚI LUẬT KẾT HỢP VÀ PHÂN CỤM 16
2.1. Luật kết hợp 16
2.1.1. Các khái niệm 16
2.1.1.1. Luật kết hợp 16
2.1.1.2. Độ hỗ trợ (support) 16
2.1.1.3. Độ tin cậy 17
2.1.1.4. Tập mục (items) 18
2.1.2. Các tính chất 18
2.1.2.1. Tính chất của tập mục phổ biến 18
2.1.2.2. Tính chất của luật kết hợp 19
2.1.3. Giới thiệu bài toán khai phá luật kết hợp 20

Diện tích 35m2, có cửa sổ, giường đơn hoặc giường đôi; phòng tắm với bồn
tắm, bồn rửa mặt và vòi hoa sen, khăn tắm, dép đi trong phòng, điện thoại quốc
tế; truyền hình cáp TV LCD 25-32 inch; tủ lạnh nhỏ; nước nóng tại phòng 44
2 44
Phòng cao cấp 44
9 44
Diện tích 30m2; có ban công, giường đơn; phòng tắm với bồn tắm, bồn rửa mặt
và vòi hoa sen; máy lạnh riêng; truyền hình cáp, TV LCD 32inch internet Wifi;
tủ lạnh nhỏ, nước nóng 44
3 44
Phòng gia đình 44
10 44
Diện tích 35m2; có cửa sổ; giường đôi; phòng tắm với bồn tắm. bồn rửa mặt và
vòi hoa sen; điện thoại quốc tế; truyền hình cáp; internet Wifi; tủ lạnh nhỏ;
nước nóng tại phòng 44
3.1.4. Chất lượng dịch vụ lưu trú của khách sạn 45
3.2. Phần mềm khai phá dữ liệu Weka 47
3.2.2 Môi trường Explorer 50
3.2.3 Xây dựng luật kết hợp trong Weka 50
3.2.4. Xây dựng phân cụm dữ liệu trong Weka 53
3.3. Ứng dụng khai phá luật kết hợp và phân cụm trong weka vào cơ sở dữ liệu quản
lý khách hàng của khách sạn Vọng Cảnh 54
3.3.1. Cơ sở dữ liệu bài toán 54
3.3.2. Tiền xử lý dữ liệu bài toán 55
VN: trongnuoc 58
Nguyễn Thị Thia iv
Khóa luận tốt nghiệp GVHD: Th.S Dương Thị Hải Phương
Cách thực hiện: 58
3.3.3. Khai thác luật kết hợp bằng thuật toán Apriori 68
Dựa trên tập luật tìm được kết hợp với ý kiến chuyên gia, nghiên cứu tiến hành

một số giải pháp giúp công tác chăm sóc khách hàng được đảm bảo hơn 85
Dựa trên những kết quả đề tài đạt được cũng như các hạn chế còn tồn tại,
nghiên cứu đề xuất một số định hướng tìm hiểu tiếp theo của đề tài như sau:. 85
TÀI LIỆU THAM KHẢO 86
PHỤ LỤC 87
Phụ lục 1: file dữ liệu gốc khachhang.csv 87
Phụ lục 2: file dữ liệu sau khi xử lý DULIEUSAUKHIXULY.CSV 90
Nguyễn Thị Thia vi
Khóa luận tốt nghiệp GVHD: Th.S Dương Thị Hải Phương
DANH MỤC HÌNH VẼ
DANH MỤC BẢNG BIỂU
Nguyễn Thị Thia vii
Khóa luận tốt nghiệp GVHD: Th.S Dương Thị Hải Phương
Nguyễn Thị Thia viii
Khóa luận tốt nghiệp GVHD: Th.S Dương Thị Hải Phương
THUẬT NGỮ VIẾT TẮT
Các chữ viết tắt Ý nghĩa
Conf Confidence
CSDL Cơ sở dữ liệu
DNTN Doanh nghiệp tư nhân
KPDL Khai phá dữ liệu
Sup Support
Nguyễn Thị Thia ix
Khóa luận tốt nghiệp GVHD: Th.S Dương Thị Hải Phương
MỞ ĐẦU
1. Lý do chọn đề tài
Sự phát triển mạnh mẽ của công nghệ thông tin và ngành công nghiệp phần
cứng đã làm cho khả năng thu thập và lưu trữ thông tin ngày càng nhiều. Tuy nhiên
trên thực tế thì chỉ có một lượng nhỏ dữ liệu này là luôn được phân tích. Hiện nay,
trong môi trường cạnh tranh, người ta ngày càng cần có nhiều thông tin để hỗ trợ việc

Đề tài “Ứng dụng khai phá dữ liệu trong quản lý khách hàng tại khách sạn
Vọng Cảnh” nhằm đạt được những mục tiêu sau:
- Tìm hiểu lý thuyết khai phá dữ liệu.
- Tìm hiểu phần mềm khai phá dữ liệu WEKA
- Ứng dụng thuật toán Apriori và thuật toán K-Means vào cơ sở dữ liệu quản
lý khách hàng của khách sạn Vọng Cảnh để tìm ra một số tập luật phổ biến phản ánh
mối quan hệ giữa các thuộc tính liên quan tới hoạt động lưu trú của khách hàng cũng
như tìm ra các nhóm khách hàng mục tiêu của khách sạn.
- Đề xuất một số giải pháp hỗ trợ quản lý chăm sóc khách hàng tại khách sạn
Vọng Cảnh.
3. Đối tượng và phạm vi nghiên cứu
- Về nội dung: Nghiên cứu về lý thuyết khai phá dữ liệu và ứng dụng của nó
trong quản lý khách hàng tại khách sạn Vọng Cảnh.
- Về không gian: khách sạn Vọng Cảnh (Thành Phố Huế).
- Về thời gian: 21/1-12/5/2013
4. Phương pháp nghiên cứu
• Phương pháp nghiên cứu tài liệu: tham khảo các tài liệu liên quan từ các
nguồn như sách vở, báo chí.
• Phương pháp thu thập số liệu:
+ số liệu thứ cấp: các số liệu, tài liệu thu thập từ các phòng ban của khách
sạn Vọng Cảnh (thông tin khách hàng lưu trú, giá phòng,…)
+ số liệu sơ cấp: phương pháp quan sát, phỏng vấn các đối tượng liên quan
thông qua bảng hỏi.
• Phương pháp phân tích và xử lý số liệu: sử dụng thuật toán Apriori và thuật
toán K-Means bằng phần mềm khai phá Weka để phân tích và xử lý số liệu.
5. Cấu trúc khóa luận
Chương 1: Tổng quan về khám phá tri thức và khai phá dữ liệu
Trình bày tổng quan về khám phá tri thức và khai phá dữ liệu.
Nguyễn Thị Thia 2
Khóa luận tốt nghiệp GVHD: Th.S Dương Thị Hải Phương

thu được những lợi ích to lớn từ các tri thức đó. Ví dụ như nghiên cứu thông tin khách
hàng thì có thể phát hiện được đối tượng khách hàng ưa chuộng sản phẩm của mình,
sản phẩm nào bán chạy, hay xu hướng tiêu dùng của khách hàng,… để từ đó có chiến
lược kinh doanh phù hợp với doanh nghiệp.
Phát hiện tri thức giải quyết được yêu cầu của các nhà quản lý, nên nó có một
tầm quan trọng lớn và cần thiết đối với các hoạt động kinh doanh hiện nay.
1.1.2. Tiến trình thực hiện tri thức (1)
Mục đích của quá trình phát hiện tri thức là rút ra tri thức từ dữ liệu trong
CSDL lớn. Quá trình phát hiện tri thức gồm nhiều giai đoạn, và lặp lại, mà trong đó sự
lặp lại có thể xuất hiện ở bất cứ bước nào. Có thể mô tả quá trình đó theo mô hình sau:
Nguyễn Thị Thia 4
Khóa luận tốt nghiệp GVHD: Th.S Dương Thị Hải Phương
Hình 1. 1: Tiến trình phát hiện tri thức
(Nguồn: www.tapchicvt.org.vn)
Bước thứ nhất: Hình thành và định nghĩa bài toán. Đây là bước tìm hiểu lĩnh
vực áp dụng, từ đó hình thành bài toán, xác định các nhiệm vụ cần hoàn thành. Bước
này cho phép chọn ra các phương pháp KPDL thích hợp với mục đích ứng dụng và
bản chất của dữ liệu.
Bước thứ hai: Thu thập và tiền xử lý dữ liệu. Là thu thập và xử lý số liệu thô,
còn được gọi là tiền xử lý dữ liệu nhằm loại bỏ nhiễu (Làm sạch dữ liệu), xử lý việc
thiếu dữ liệu (làm giàu dữ liệu), biến đổi dữ liệu và rút gọn dữ liệu nếu cần thiết, bước
này thường chiếm nhiều thời gian nhất trong toàn bộ quy trình phát hiện tri thức do dữ
liệu được lấy từ nhiều nguồn khác nhau, không đồng nhất.
Bước thứ ba: Khai phá dữ liệu, rút ra các tri thức, hay nói cách khác là trích ra
các mẫu hoặc các mô hình ẩn dưới các dữ liệu. Giai đoạn này rất quan trọng, bao gồm
các công đoạn như: chức năng, nhiệm vụ, mục đích của KPDL và phương pháp khai
phá. Thông thường, các bài toán KPDL bao gồm: các bài toán mang tính mô tả- đưa ra
tính chất chung nhất của dữ liệu, các bài toán dự báo (bao gồm cả việc phát hiện các
suy diễn dựa trên dữ liệu hiện có). Tùy theo bài toán xác định được mà ta lựa chọn các
phương pháp khai phá dữ liệu cho phù hợp.

Nguyễn Thị Thia 6
Khóa luận tốt nghiệp GVHD: Th.S Dương Thị Hải Phương
Hình 1. 2: Quá trình khai phá dữ liệu
(Nguồn: www2.cs.uregina.ca)
• Bước 1: Gom dữ liệu (Gathering)
Tập hợp dữ liệu là bước đầu tiên trong quá trình KPDL. Đây là bước được khai
thác trong CSDL, một kho dữ liệu và thậm chí các dữ liệu từ các nguồn ứng dụng
Web.
• Bước 2: Trích lọc dữ liệu (Selection)
Ở gian đoạn này dữ liệu được lựa chọn hoặc phân chia theo một số tiêu chuẩn
nào đó, ví dụ chọn tất cả những người tham gia bảo hiểm tự nguyện là Nữ và có độ
tuổi 19-30.
• Bước 3: Làm sạch, tiền xử lý dữ liệu (Cleansing, Pre-processing and
Preparation)
Là bước làm sạch dữ liệu (xử lý với dữ liệu không đầy đủ, dữ liệu nhiễu, dữ
liệu không nhất quán,.v.v), rút gọn dữ liệu (sử dụng hàm nhóm và tính tổng, các
phương pháp nén dữ liệu, sử dụng histogram, lấy mẫu,.v.v). Sau bước này, dữ liệu sẽ
nhất quán, đầy đủ, được rút gọn, và được rời rạc hóa.
• Bước 4: Chuyển đổi dữ liệu (Transformation)
Trong giai đoạn này, dữ liệu đưa ra có thể sử dụng và điều khiển được bởi việc
tổ chức lại nó, dữ liệu đã được chuyển đổi phù hợp với mục đích khai thác.
• Bước 5: Phát hiện và trích mẫu dữ liệu (Pattern Extraction and
Discovery)
Nguyễn Thị Thia 7
Khóa luận tốt nghiệp GVHD: Th.S Dương Thị Hải Phương
Ở giai đoạn này nhiều thuật toán khác nhau được sử dụng để trích ra các mẫu từ
dữ liệu. Thuật toán thường dùng là phân loại, kết hợp hoặc mô hình dữ liệu tuần tự,…
• Bước 6: Đánh giá kết quả mẫu (Evaluation of Result)
Đây là giai đoạn cuối cùng trong quá trình KPDL. Ở giai đoạn này các mẫu dữ
liệu được chiết xuất ra bởi phần mềm KPDL.

• Tóm tắt: Liên quan đến các phương pháp tìm kiếm một mô tả tóm tắt chi
một tập con dữ liệu. Ví dụ như việc lập bảng các độ lệch chuẩn và trung bình cho tất
cả các trường. Các phương pháp phức tạp hơn liên quan đến nguồn gốc của các luật
tóm tắt (Agrawal và cộng sự), khai thác mối liên hệ hàm giữa các bên (Zembowicz &
Zytkow). Các kỹ thuật tóm tắt thường được áp dụng cho các phân tích dữ liệu tương
tác có tính thăm dò và tạo báo cáo tự động.
• Mô hình hóa phụ thuộc: Bao gồm việc tìm kiếm một mô hình tả sự phụ
thuộc đáng kể giữa các biến. Các mô hình phụ thuộc tồn tại dưới hai mức: mức cấu
trúc của mô hình xác định (thường ở dạng đồ họa) các biến nào là phụ thuộc cục bộ
với nhau, mức định lượng của mô hình xác định độ mạnh của sự phụ thuộc theo một
thước đo nào đó. Ví dụ như các mạng phụ thuộc xác suất sử dụng độc lập có điều kiện
để xác định khía cạnh có cấu trúc của một mô hình và các xác suất hoặc tương quan để
xác định độ mạnh của sự phụ thuộc (Heckerman; Glymour và cộng sự, 1987).
• Phát hiện sự thay đổi và lạc hướng: Tập trung vào khai thác những thay đổi
đáng kể nhất trong dữ liệu từ các giá trị chuẩn hoặc được đo trước đó (Berndt &
Cliffort; Guyon và cộng sự; Klosegen; Matheu và cộng sự; Basseville & Nikiforov
1993).
Vì các nhiệm vụ khác nhau này yêu cầu số lượng và các dạng thông tin rất khác
nhau nên chúng ảnh hưởng đến việc thiết kế và chọn giải thuật KPDL khác nhau.
1.2.4. Phương pháp khai phá dữ liệu
1.2.4.1. Cây quyết định và luật
• Cây quyết định: Cây quyết định là một mô tả tri thức dạng đơn giản nhằm
phân các đối tượng dữ liệu thành một số lớp nhất định. Các nút của cây được dán nhãn
là tên thuộc tính, các cạnh được gán các giá trị có thể của các thuộc tính, các lá mô tả
các lớp khác nhau. Các đối tượng phân lớp theo các đường đi trên cây, qua các cạnh
tương ứng với các giá trị của thuộc tính của đối tượng tới lá.
• Tạo luật: Các luật được tạo ra nhằm suy diễn một số mẫu dữ liệu có ý nghĩa
về mặt thống kê. Các luật có dạng nếu P thì Q, với P là mệnh đề đúng với một phần
trong CSDL, Q là mệnh đề dự đoán. Ví dụ ta có một mẫu phát hiện được bằng phương
pháp tạo luật: nếu giá xăng cao hơn 25000 đồng/lít thì giá taxi sẽ tăng 5%. Những luật

• Phương pháp quy nạp: Phương pháp quy nạp suy ra các thông tin được sinh
ra từ CSDL. Có nghĩa là nó tự tìm kiếm, tạo mẫu và sinh ra các tri thức chứ không
Nguyễn Thị Thia 10
Khóa luận tốt nghiệp GVHD: Th.S Dương Thị Hải Phương
phải bắt đầu với các tri thức đã biết trước. Các thông tin mà phương pháp này đem lại
là các thông tin hay các tri thưacs cấp cao diễn tả về các đối tượng trong CSDL.
Phương pháp này liên quan đến việc tìm kiếm các mẫu trong CSDL.
1.2.4.5. Phân nhóm và phân đoạn
Phân nhóm và phân đoạn là những kỹ thuật phân chia dữ liệu sao cho mỗi phần
hoặc mỗi nhóm giống nhau theo một tiêu chuẩn nào đó. Mối quan hệ thành viên của
các nhóm có thể dựa trên mức độ giống nhau của các thành viên và từ đó xây dựng
nên các luật ràng buộc giữa các thành viên trong nhóm. Một kỹ thuật phân nhóm khác
là xây dựng nên các hàm đánh giá các thuộc tính của các thành phần như là hàm của
các tham số của các thành phần. Phương pháp này được gọi là phương pháp phân
hoạch tối ưu.
Mẫu đầu ra của quá trình KPDL sử dụng kỹ thuật này là các tập mẫu chứa các
dữ liệu có chung những tính chất nào đó được phân tách từ CSDL. Khi các mẫu được
thiết lập, chúng có thể được sử dụng để tái tạo tập dữ liệu ở dạng dể hiểu hơn, đồng
thời cũng cung cấp các nhóm dữ liệu cho các hoạt động cũng như việc phân tích. Đối
với CSDL lớn, việc lấy ra các nhóm này là rất quan trọng.
2.2.4.6. Các phương pháp dựa trên mẫu
Sử dụng các mẫu mô tả từ CSDL để tạo nên một mô hình dự đoán các mẫu mới
bằng cách rút ra những thuộc tính tương tự như các mẫu đã biết trong mô hình. Các kỹ
thuật bao gồm phân lớp theo láng giềng gần, các giải thuật hồi quy (Dasarathy 1991)
và các hệ thống suy diễn dựa trên tình huống (case- based reasoning) (Kolodner 1993).
Khuyết điểm của kỹ thuật này là cần phải xác định được khoảng cách, đo độ
giống nhau giữa các mẫu. Mô hình thường được đánh giá bằng phương pháp đánh giá
chéo trên các lỗi dự đoán (Weiss & Kulikowski, 1991). “Tham số” của mô hình được
đánh giá có thể bao gồm một số láng giềng dùng để dự đoán và số đo khoảng cách.
Giống như phương pháp hồi quy phi tuyến, các phương pháp này khá mạnh trong việc

Kỹ thuật này được ứng dụng trong một loạt các công cụ phần mềm thương mại.
Công cụ KPDL rất phù hợp với việc tìm kiếm, phân tích và phân lớp các dữ liệu văn
bản không định dạng. Các lĩnh vực ứng dụng như nghiên cứu thị trường, thu thập tình
Nguyễn Thị Thia 12


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status