!"#$%
$$&$'()(
%*#+, - %$
./01 23$452345647
!-02)8 459:;496$
!02)9:;426 <1$5<=1 >
???@A@???
)!B : 9C4 1!642
(DAEAFAF7G
)!7 : 5<=1+42H42<$
(DAEA7IJ7G
#;$KBL7ABB
2
,;
Chúng tôi xin cam đoan: những kết quả đạt được là do quá trình tìm tòi và
phân tích mà có được, không sao chép của bất kỳ ai khác.
3
,;*,
Chúng em xin chân thành cảm ơn quý thầy cô khoa Khoa học & Kỹ thuật máy tính
trường Đại học Bách Khoa thành phố Hồ Chí Minh đã giúp đỡ, truyền đạt những kiến
thức quý báu và cần thiết để chúng em có thể thực hiện được đề tài này.
Đặc biệt chúng em xin chân thành cảm ơn thầy Đặng Trần Trí đã tận tình hướng
dẫn chúng em trong suốt giai đoạn làm luận văn, đóng góp những ý kiến chân thành để
giải quyết những vấn đề phát sinh trong lúc phân tích và hiện thực.
4
$"$ !"
Bước vào những năm đầu thế kỷ 21, những ảnh hưởng của công nghệ thông tin
hiện trên một công nghệ mới (công nghệ Flash của Adobe) mà hiện tại chưa có ứng
dụng nào tương tự được hiện thực trên công nghệ này với mục đích tương tự. Từ việc
phân tích đề tài cho đến áp dụng và tích hợp các công nghệ đều do nhóm tự phát triển
thành một khuôn mẫu để từ đó có thể áp dụng cho các ứng dụng dạng khác. Điều này
cũng là một bước tiến mang lại tính mới trong phân tích và hiện thực của đề tài này.
5
- ;*
6
,B,$% %;;
BB< MN6$M2M<*HN1;>H;6OH;>:;PQ<H4>9@ 45
Ngày nay với sự ra đời và phát triển mạnh mẽ của Internet trong nhiều lĩnh vực đã
tạo nên nhiều cơ hội và thách thức cho chúng ta. Internet cùng với các giải pháp công
nghệ thông tin ngày càng xâm nhập sâu vào cuộc sống như một thành phần không thể
thiếu được. Nếu một ngày nào đó chúng ta bật máy tính lên mà không có Internet, chắc
hẳn chúng ta sẽ rất khó chịu và cảm thấy như thiếu đi một trợ thủ đắc lực trong công
việc hằng ngày cũng như trong giao tiếp, giải trí. Việc tìm hiểu thông tin, giao tiếp giờ
đây được thực hiện một cách nhanh chóng thông qua các phương tiện như trang web,
thư điện tử, phần mềm chat… Vậy trong kinh doanh Internet có ảnh hưởng vai trò cụ
thể như thế nào?
Nhờ Internet, nhiều hình thức kinh doanh mới xuất hiện thay thế dần những hình
thức truyền thống. Các công ty không những bán sản phẩm của mình thông qua các
kênh phân phối là các đại lý, các siêu thị, cửa hàng bán lẻ mà còn có thể thông qua
Internet. Nhờ đó con đường liên kết từ họ đến khách hàng ngày càng rút ngắn hơn. Hầu
hết những công ty này đều có những website để trưng bày và bán sản phẩm và khách
hàng chỉ cần truy cập vào website của công ty để tìm hiểu cũng như thực hiện giao dịch
mua bán, nhưng nếu như vậy công ty làm sao biết được tình hình kinh doanh của mình
trên website như thế nào? Website của mình có hoạt động hiệu quả hay không? Chiến
lược kinh doanh, quảng bá sản phẩm có thu hút được sự quan tâm của khách hàng? Tình
hình mua bán hàng hóa như thế nào? Khách hàng làm gì trên trang web? Họ đến trang
hệ thống website khi xảy ra sự cố mà không phù hợp với phần lớn người sở hữu website
không có nhiều kiến thức về web. Vậy phải làm thế nào? Cách duy nhất là phải tìm kiếm
một công cụ nào đó có khả năng tự động phân tích các file này và biến những gì trong
đó thành dạng thức mà một người bình thường ít kiến thức về công nghệ có thể hiểu
được.
Công cụ đó có khả thi hay không? Tất nhiên là có thể vì hiện tại có rất nhiều công
cụ cũng như công nghệ, giải thuật đáp ứng được yêu cầu phân tích dữ liệu và truyền tải
thông tin tới người dùng. Để đáp ứng một phần nhu cầu cho nhà sản xuất, kinh doanh,
người quản trị website, một công cụ như vậy được xây dựng với mục đích “Hỗ trợ kinh
doanh trực tuyến bằng trực quan hóa các truy xuất website”. Với công cụ loại này những
lợi ích mà nó mang lại cho những nhóm người trên như sau:
Đối với nhà sản xuất/kinh doanh :
• Xu hướng/dạng lưu lượng truy cập trên website của mình là gì?
• Những sáng kiến tiếp thị nào hiệu quả nhất.
• Khách hàng và phân đoạn khách hàng nào có giá trị nhất.
• Khách truy cập tới từ đâu và họ làm gì trên trang web của mình.
• Làm thế nào trang web của tôi có thể chuyển đổi từ nhiều khách truy cập
thành nhiều khách hàng.
• Từ khóa nào ảnh hưởng tới thành công và chuyển đổi nhất.
• Quảng cáo hoặc sáng tạo trực tuyến nào hiệu quả nhất?
Đối với người phát triển website và nội dung :
• Có phải yếu tố thiết kế website đang loại bỏ khách không?
• Tại sao nhiều người rời khỏi trang web mà không thực hiện việc tôi muốn?
Công cụ này sử dụng những thuật toán phân tích dữ liệu và lấy dữ liệu phù hợp để
thu được các thông tin hữu ích cho những mục đích nhất định: như theo dõi lưu lượng,
nội dung truy cập, hướng truy cập… Sau đó biểu diễn bằng hình ảnh (biểu đồ), báo cáo
cho người sử dụng hiểu được các thông tin đó. Việc sử dụng các công cụ phân tích
website này giúp cho người phân tích website giảm bớt (hoặc gần như không quan tâm)
8
tới các công nghệ kĩ thuật của trang web, mà chỉ quan tâm tới các thông tin hữu ích thu
• Content Overview: Tổng quan về nội dung.
• Conection Speeds: Tốc độ truy cập của người dùng.
9
+Ưu điểm:
• Miễn phí.
• Dễ sử dụng.
• Hỗ trợ thống kê các tiêu chí về thương mại điện tử.
• Đồng bộ với các dịch vụ khác của Google.
+Nhược điểm:
• Do thu thập dữ liệu bằng JavaScript nên nếu trình duyệt không hỗ trợ hoặc
JavaScript bị tắt đi thì cũng không thu thập được.
• Không cho thấy được xu hướng duyệt web của người dùng mà chỉ là những
bảng số liệu.
• Không thấy được tần suất truy cập giữa hai trang.
• Có thể bị lạm dụng với mục đích khác.
• Không cung cấp số liệu thống kê theo “thời gian thực”, sau khi cài đặt dịch
vụ này, bạn cần chờ một vài ngày để công cụ thu thập số liệu và lập bảng báo
cáo, sau này khi sử dụng các số liệu phân tích hiện tại đều chậm hơn một
ngày.
B77H2@@X'VY4HU=>6MRZ'G
Là một hệ thống phân tích website cấp độ doanh nghiệp có khả năng tùy chỉnh cao
giúp đỡ cho các doanh nghiệp kinh doanh bán được nhiều sản phẩm và sự thỏa mãn của
khách hàng, giảm chi phí marketing và hiểu thêm về khách hàng trực tuyến.
Bằng cách lưu trữ dữ liệu dưới dạng thô nên YWA không chỉ là một công cụ báo
cáo đơn giản nó còn là một công cụ phân tích dữ liệu mạnh mẽ và linh hoạt.
Việc thu thập dữ liệu cũng dựa vào các code JavaScript.
W
;
42BH2@@X'VY4HU=>6MR
Vài đặc điểm nổi bật:
42B6[6\
6]PP^42M_H6[6\0
• Phương pháp thu nhập và phân tích dữ liệu theo thời gian thực. Khi người dùng
muốn xem các thông tin báo cáo trong ngày hiện tại, Piwik sẽ phân tích tất cả các
truy xuất xảy ra trong ngày tính tới thời điểm báo cáo.
• Vì dữ liệu thu nhập sẽ lưu trong webserver nên người dùng có thể lưu lại các dữ
liệu này cho các mục đích phân tích và báo cáo sau này.
• Các thành phần giao diện có thể kéo thả, thêm bớt biểu đồ, thay đổi kiểu biểu đồ
khá đa dạng.
• Export các biểu đồ thành nhiều định dạng: file ảnh, Excel, CSV… phù hợp với
nhiều mục đích.
2S`MN6]P0
• Các loại báo cáo khá đầy đủ nhưng thông tin chi tiết bổ sung cho từng biểu đồ khá
đơn giản, chủ yếu vẫn chỉ có duy nhất một biểu đồ mà không có các số liệu diễn
giải (dẫn xuất) kèm theo. Không hỗ trợ phân tích đào sâu.
• Chủ yếu là các số liệu đơn độc của một thông tin nào đó, không đưa ra sự so sánh
cũng như liên quan, người dùng phải dựa vào kiến thức của mình để tìm ra điều
đó.
12
• Không hỗ trợ thống kê thiết bị truy xuất là mobile.
B7a'@@b9H
Là ứng dụng gồm phần chạy trên server và một phần chạy trên client giúp thống
kê hơn 40 sự kiện và thông tin phân tích. Ứng dụng này thu nhập dữ liệu bằng
JavaScript .
Là một ứng dụng phân tích theo thời gian thực, ngay sau khi sự kiện xảy ra bên
server thì ứng dụng có thể nhận được và hiển thị. Các dữ liệu được phân tích gồm có:
Các thông tin của user, tình hình truy cập, đường đi của khách hàng – điểm đến và điểm
kết thúc. Ngoài ra ứng dụng có chức năng tìm kiếm khá mạnh mẽ.
W
;
• Chạy trên tất cả các platform hỗ trợ Perl.
2S`MN6]P0
14
• Nó chỉ phân tích dữ liệu theo tháng. Các version mới đã khắc phục được điều này.
• Vì AWStats truy cập được vào server log file nên có khả năng xuất hiện vấn đề về
bảo mật, ví dụ có sâu Lupper Worm tấn công được web server thông qua một lỗ
hổng bảo mật trên AWStats.
• Tốn tài nguyên của server khi AWStats chạy liên tục. Vì mỗi lần chạy, AWStats
cần phải lấy dữ liệu từ webserver, trong trường hợp server chứa nhiều website và
dữ liệu nhiều quá trình này sẽ ngốn nhiều tài nguyên của máy chủ và điều này
không tốt với bất cứ người quản trị nào.
• Dữ liệu hiển thị là tĩnh, người dùng không thể thay đổi cách hiển thị hoặc tùy
chọn đối tượng so sánh.
• Không hỗ trợ Export.
B7Ec')>H>R
Đây là ứng dụng phát triển từ AWStats nhằm giảm thiểu các nhược điểm trong
AWStats. Việc ứng dụng AWStats ngốn tài nguyên của máy chủ là không tốt khi dữ liệu
cần phân tích là nhiều, trong JAWstats người ta tìm cách đưa tất cả các quá trình xử lý
“ra khỏi” máy chủ càng nhiều càng tốt và để dành quá trình đó cho trình duyệt máy
khách. Một điểm nữa là thay đổi layout hiển thị thân thiện hơn.
W
;
42Bc')>H>R
<N6]P0
• Các dữ liệu và biểu đồ khá đơn giản nên dễ sử dụng cho một vài mục đích nhất
định.
• Cách hiển thị giúp người dùng có thể chuyển đổi thống kê theo các tháng một
cách dễ dàng, có thể hiển thị tất cả các tháng đã phân tích từ đó người dùng dễ
dàng hơn trong việc so sánh.
• Việc cập nhật dữ liệu phân tích có thể thực hiện qua giao diện của ứng dụng.
+ Thiết kế cơ sở dữ liệu
+ Hiện thực các chức năng
• Kết luận chung và mở rộng
16
,7,),*$%$*%;;
7B3*45Q<H4O1;\642d@H42>9S M><=1$4
7BB6T$6>261 <
7BBB2H$6461 P
Marketing là một quá trình được thực hiện bởi các công ty, xí nghiệp nhằm xác
định sản phẩm hay dịch vụ nào thu hút người tiêu dùng, xác định chiến lược tiêu thụ sản
phẩm, quảng bá, phát triển sản phẩm. Marketing dùng để tìm hiểu khách hàng, giữ và
làm vừa lòng khách hàng.
Kinh doanh trực tuyến(hay i-Marketing, web-marketing, online-marketing, Search
Engine Marketing(SEM) hay e-Marketing): là hoạt động Marketing sản phẩm và dịch
vụ thông qua Internet. Ví dụ: quảng cáo sản phẩm trên trang web, gửi thông tin quảng
cáo qua email, đấu giá sản phẩm qua mạng, mua bán qua mạng…
Kinh doanh trực tuyến xuất hiện ngày càng nhiều và thay đổi cách thức hoạt động
của nhiều ngành như: âm nhạc, ngân hàng, thương mại… Trong ngành âm nhạc thì việc
mua bán nhạc (Tải nhạc có phí) ngày càng thịnh hành. Với ngành ngân hàng thì các giao
dịch trực tuyến được thực hiện hầu hết trong các giao dịch được thực hiện trên các thiết
bị kết nối Internet như: máy tính, điện thoại di động…
7BB7H$M26;42>2S$Mb2H$>>961*4M<*H\642d@H42>9S M><=1$40
Cần phân biệt kinh doanh trực tuyến với các hình thức e–Commerce, e–business:
• Kinh doanh trực tuyến: là cách thức dùng các phương tiện điện tử để giới thiệu,
mời chào, cung cấp thông tin về sản phẩm hàng hóa hoặc dịch vụ của nhà sản
xuất đến người tiêu dùng và thuyết phục họ chọn nó.
• E–Commerce: chỉ các hoạt động mua bán thông qua các phương tiện điện tử.
• E–Business: chỉ tất cả những hoạt động kiếm tiền từ mạng, từ việc bán hàng
hoá, dịch vụ cho đến tư vấn, đầu tư.
Các lĩnh vực này đều liên quan mật thiết với nhau, hỗ trợ nhau phát triển.
phát triển ra toàn cầu. Ngoài ra so sánh
với các lĩnh vực khác như báo chí,
truyền hình… thì kinh doanh trực tuyến
có chi phí đầu tư rất thấp.
+ Các hoạt động của kinh doanh trực tuyến
có thể được kiểm tra đánh giá, phân tích với
chi phí thấp nhất. Ví dụ người ta có thể sử
dụng công cụ “web analytic” để theo dõi
thông tin truy cập, nội dung khách hàng
quan tâm từ đó đánh giá nội dung cung cấp
có đáp ứng tốt yêu cầu của khách hàng hay
không.
+ Về vấn đề kỹ thuật, kinh doanh trực
tuyến yêu cầu khách hàng phải sử
dụng và hiểu hơn về công nghệ mới
(duyệt web, quản lý website, bảo
mật…), mà điều này không phải đối
tượng khách hàng nào cũng biết.
+ Tốc độ đường truyền cũng có thể
gây khó khăn, đặc biệt ở những
nước đang phát triển và với các thiết
bị di động.
+ Tâm lý khách hàng e ngại do không
thể chạm, nếm, thử sản phẩm trước
khi mua.
+ Các vấn đề về bảo mật website, giữ
an toàn giao dịch là điều rất quan
trọng đặc biệt trong các giao dịch
mua bán.
+ Ngoài ra vấn đề hệ thống luật pháp
1. Khách hàng gõ URL vào trình duyệt.
2. Một yêu cầu sẽ được gửi đến web server.
3. Web server nhận yêu cầu vào tạo ra một dòng lưu trữ trong file log cho yêu
cầu đó. (Tên trang, địa chỉ IP, thông tin trình duyệt, ngày, giờ).
4. Web server gửi trang web yêu cầu về cho khách hàng.
a. T 66$M2\26d<;45[VYU@50
• Web log là nguồn thu thập dữ liệu đơn giản nhất. Mọi web server đều có khả
năng tạo ra các file log.
• Web log có khả năng lưu trữ các truy xuất và hành vi của các máy tìm kiếm
trên website của mình. Các search engine robot không thực thi JavaScript
tags, vì vậy nếu muốn phân tích truy cập từ Google, Microsoft Network,
Yahoo Search ta phải dùng web log.
b. 2S+45O:$4N1;U614Q<H40
• Web log được tạo chủ yếu để thu thập những thông tin kỹ thuật (thông tin lỗi,
truy cập, loại trình duyệt..). Chúng không có tùy chọn để thu thập thông tin
nghiệp vụ hay bán hàng.
• Nếu thông tin nghiệp vụ và bán hàng cần được thu thập thì phải có sự cộng
tác của lực lượng IT và sự phụ thuộc vào thời gian biểu của họ.
19
• Web log được tạo để lưu trữ những truy suất đến server. Khi phân tích log
file, cần phải loại bỏ những thông tin không cần thiết như hình ảnh, lỗi trang,
css…
• Page caching từ các nhà cung cấp và proxy server làm cho web server không
thể lưu trữ toàn bộ thông tin truy cập (tỉ lệ khoảng 10%). Với page caching
thông thường, một số trang web như trang chủ, trang sản phẩm được lưu trữ
tại các ISP hoặc proxy server. Vì thế khi người dùng gửi yêu cầu đến trang
chủ thì ISP sẽ trả lời yêu cầu chứ không phải webserver. Vì thế chúng ta
không lưu trữ được thông tin này trên server.
7777'VYVHM@4R
Được phát triển vào thời điểm khi các bảng hiệu trên web là cách thức chính để
• Web beacons dễ dàng được thực hiện bằng cách chèn một đoạn code nhỏ vào trong 1
bức ảnh để thực hiện request khi trang đó được load lên.
• Có thể thu được đúng dữ liệu mình mong muốn, nó không thu thập dữ liệu được yêu
cầu từ các robot tìm kiếm.
Y2S+45O:$4N1;U614Q<H40
• Nếu image request bị tắt đi do một số trình duyệt hay trình đọc mail được cấu hình thì ta
không thể thu thập được.
• Không thể mở rộng và cấu hình như các thẻ JavaSrcipt về dữ liệu có thể thu thập được.
• Third party server sẽ hầu hết được thiết lập cookies cho riêng nó. Nên vì vấn đề riêng tư,
một số trình duyệt như IE hay các chương trình chống spyware sẽ chặn hay xóa cookies này
nên dữ liệu thu thập có thể không chính xác.
777FcHOH)M96b>H50
Đây là giải pháp mà hầu hết các nhà cung cấp đều chọn lựa hiện nay. JavaScript
tag thu thập dữ liệu nhiều hơn và chính xác hơn so với web beacons. Với giải pháp này,
dữ liệu được trả về từ các yêu cầu (Data serving) được tách rời khỏi dữ liệu thu thập
(data capture), vì thế sẽ giảm bớt sụ phụ thuộc vào bộ phận IT. Data capture không được
lưu trữ ở web server mà sẽ chuyển tới server của nhà cung cấp để phân tích.
W
;
4272<>2:
bdS
+
U61
<Y8
;
45cHOH)M96b>
Sau đây là cách JavaScript làm việc:
1. Khách hàng gõ URL vào trình duyệt.
<Y8
;
45HM\V>)46ee645
Sau đây là cách thức làm việc của giải pháp này:
1. Khách hàng gõ URL vào trình duyệt.
2. Yêu cầu được định tuyến tới server nhưng trước khi đến server nó phải thông
một phần mềm hay phần cứng trung gian để từ đó thu thập thông tin về khách
hàng và gửi dữ liệu về cho Packet Sniffer.
3. Packet Sniffer gửi yêu cầu cho server.
4. Kết quả được trả về cho khách hàng nhưng nó cũng phải đi qua Packet Sniffer,
tại đây thông tin trả về được lưu trữ lại. Tại công đoạn này có thể một đoạn mã
nhỏ được chèn thêm vào kết quả để thu thập thêm dữ liệu về người dùng.
5. Packet Sniffer trả kết quả về cho khách hàng.
H T 66$M2\26d<;45HM\V>)46eeV90
• Tất cả dữ liệu đều phải đi qua đối tượng trung gian là Packet Sniffer nên toàn
bộ dữ liệu sẽ được lưu trữ lại.
• Không phải thêm mã vào trang web.
Y 2S+45O:$4N1;U614Q<H40
• Chi phí cao nếu công ty có nhiều web server.
22
• Phải cài đặt thêm phần cứng và phần mềm trung gian.
• Cần phải biết yêu cầu nào là của mình vì có nhiều yêu cầu khác nhau từ
Internet đến server nên cần phải cấu hình cho Packet Sniffer.
• Tính riêng tư có thể bị vi phạm.
7F3*45Q<H4O1;\2H6b2H$RS*d< 45[VY
7FB6T$6>261 <M2<45
Với sự tăng trưởng và phát triển không ngừng của thương mại điện tử, dịch vụ
Web và hệ thống thông tin dựa trên nền tảng web, khối lượng của các clickstream và dữ
liệu người dùng được các tổ chức Web thu thập bởi trong hoạt động hàng ngày đạt tỷ lệ
cao. Việc phân tích dữ liệu đó có thể giúp các tổ chức Web xác định giá trị thời gian
23
đoạn tiền xử lý, dữ liệu clickstream được làm sạch và phân hoạch thành một tập hợp các
giao dịch của người dùng. Tập hợp này đại diện cho các hoạt động của mỗi người dùng
trong những lần truy cập trang web. Ngoài nguồn dữ liệu chính là các file log, các nguồn
khác như nội dung trang web hay cấu trúc, cũng có thể được sử dụng trong quá trình
tiền xử lý hoặc để bổ sung thêm dữ liệu về người dùng. Trong giai đoạn phát hiện mẫu,
thống kê, cơ sở dữ liệu và các tác vụ tính toán được thực hiện để tìm ra những mô hình
trong đó, từ đó phản ánh những hành vi điển hình của người sử dụng cũng như các
thống kê tóm lược về việc truy cập của họ. Trong giai đoạn cuối của quá trình, các mẫu
phát hiện và thống kê được tiếp tục xử lý, lọc và có thể được sử dụng làm đầu vào cho
các ứng dụng như công cụ trực quan, phân tích web và các công cụ tạo báo cáo. Quá
trình tổng thể được mô tả như sau:
W
;
427f45Q<H4O1
;
\2H6b2H
$
RS
*
d<
45[VY
7F7H$MM345N@H 4M<*H\2H6b2H$RS*d< 45[VY
7F7B2<>2: bOH;>61;4gS*U=$dS+U61 <0
Một công việc quan trọng trong bất kỳ ứng dụng khai thác dữ liệu là việc tạo ra dữ
liệu phù hợp để các giải thuật khai phá dữ liệu và thống kê có thể được áp dụng. Điều
này đặc biệt quan trọng trong việc khai phá sử dụng web do các đặc điểm dữ liệu
clickstream và mối quan hệ của nó với các dữ liệu khác có liên quan thu thập từ nhiều
nguồn và qua nhiều kênh khác nhau. Quá trình chuẩn bị dữ liệu thường là bước tốn
có thể có từ việc thu thập dữ liệu bên phía khách hàng hoặc ISP (Internet Service
Provider). Dữ liệu thu được qua các nguồn khác nhau có thể được phân loại thành bốn
nhóm chính:
• Dữ liệu về việc sử dụng web (Usage Data): Các dữ liệu thu thập tự động bởi các
máy chủ web và các ứng dụng được dùng làm cơ sở để định ra hành vi của khách
hàng. Nó là nguồn dữ liệu chính trong khai phá sử dụng Web. Mỗi “hit” với máy
chủ, tương ứng với một yêu cầu HTTP, tạo ra một dòng lưu trữ trong log file của
máy chủ. Mỗi dòng (tùy thuộc vào định dạng) có thể chứa các thông tin xác định
thời gian, ngày, các địa chỉ IP của khách hàng, các tài nguyên yêu cầu, các thông
số có thể được sử dụng trong cách gọi một ứng dụng web, trạng thái của yêu cầu,
giao thức HTTP được sử dụng, thông tin hệ thống người dùng (trình duyệt, hệ
điều hành, phiên bản). Một ví dụ điển hình của một log file được mô tả trong
hình dưới:
25