Phân tích hành vi sử dụng web của người dùng - Pdf 31

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ - ĐHQGHN
KHOA CÔNG NGHỆ THÔNG TIN

CÔNG TRÌNH DỰ THI
GIẢI THƯỞNG “SINH VIÊN NGHIÊN CỨU KHOA HỌC”
NĂM 2014

Tên công trình: Phân tích hành vi sử dụng web của người dùng

Họ và tên sinh viên: Đỗ Thành Trung

Nam, Nữ: Nam

Lớp: K55C-CLC

Khoa: Công nghệ thông tin

Người hướng dẫn: ThS. Vũ Quang Dũng


Tóm tắt công trình
Internet ngày một phát triển, cùng với đó là lượng thông tin khổng lồ. Khi người dùng sử
dụng internet để truy cập vào các website, đặt biệt là các website tin tức, người dùng luôn
muốn xem những vấn đề theo sở thích cá nhân của mình. Vậy vấn đề đặt ra là làm sao dự
đoán được và đưa ra được gợi ý cho người dùng những tin tức mà người dùng có thể quan
tâm. Công trình này thực hiện việc phân tích dữ liệu từ những thông tin bắt được về thao tác
của người dùng đối với website để đưa ra những dữ liệu cần thiết cho việc phán đoán.

2



thích đọc loại tin nào, vào khoảng thời gian nào hay xu hướng tin tức đọc nhiều của
mọi người là gì.
Vậy bài toán đặt ra phân tích từ những dữ liệu tương tác của người dùng, làm sao ta
có thể nhóm được người dùng cũng như dữ liệu thành các nhóm sở thích và cùng với
những luật đưa ra có thể dự đoán một cách chính xác những vấn đề mà người dùng
quan tâm.
Báo cáo này gồm 3 phần chính:
Phần 1: Đặt vấn đề.
Phần 2: Giải quyết bài toán.
Phần 3: Kết luận.

2. Giải quyết bài toán
2.1.

Mô hình tổng quát

Ta có mô hình tổng quát hệ thống phân tích dữ liệu người dùng như sau:

Hình 1: Mô hình tổng quát luồng hoạt động
Trong đó, vai trò của từng phần là:
- Tiền xử lý: đưa ra các form theo ABC model để làm chuẩn cho việc phân tích.
- Phân tích dữ liệu: Từ thông tin thu được về thao tác người dùng, tiến hành phân
tích để đưa ra kết quả theo form đã đưa ra.
- Đưa vào CSDL: Đưa kết quả đã phân tích được vào cơ sở dữ liệu.
- Làm mịn: Sử dụng phân lớp Bayes để xác định category chính xác hơn cho các
tin tức sau đó cập nhật lại cơ sở dữ liệu.
Dữ liệu dùng để phân tích có thể lưu trong cơ sở dữ liệu dưới dạng như sau:

4


P(C|A) =
Thuật toán phân lớp Bayes áp dụng trong hệ thống trong việc phân loại chủ đề
(category) đối với các tin tức dạng văn bản. Sử dụng xác suất có điều kiện giữa
keyword và category, thuật toán cho phép xác định một cách tương đối category của
tin tức đang xét.

5


2.3.

Tiền xử lý dữ liệu

Tại bước này, ta đưa ra các form theo ABC model để dựa vào đó làm mục tiêu và
mẫu chuẩn cho việc thống kê và phân tích ở bước sau. Cụ thể ta có một số form như
sau.
- Form hiển thị tần suất truy cập theo từng ngày trong tháng.
Bảng 1: Bảng hiển thị tần suất xem tin của từng category theo các ngày trong tháng
Time
1
2
3
4
5

26
27
28
29
Category

Bảng 3: Bảng hiện thị tần suất xem tin của mỗi người dùng đối với các category.
Category
Category1
Category2
Category3
Category4
Category5
User
User1
User2
User3
User4

2.4.

Phân tích dữ liệu

2.4.1. Nhóm chủ đề (category) theo thời gian
Ta chia một ngày ra làm 12 khoảng ứng với 24 tiếng. Từ dữ liệu request của người
dùng, ta biết được tin tức request và thời gian request. Từ dữ liệu tin tức, ta biết được
category của bài đó. Tổng hợp lại ta có thể đưa ra số lần truy cập vào từng category
trong từng khoảng thời gian và lưu vào cơ sở dữ liệu như hình 4. Với dữ liệu phân tích
được, ta có thể xác định được khoảng thời gian nào, người dùng thích truy cập những
loại tin nào để đưa ra dự đoán hợp lý. Ta có sơ đồ luồng hoạt động như sau.

6


Hình 3: Luồng hoạt động của Nhóm chủ đề theo thời gian
Trong đó:

- Bước 3: Kiểm tra xem hàng có cặp user và category đó đã tồn tại trong bảng
CSDL hay chưa. Nếu đã tồn tại thì tăng số lần truy cập của hàng đó lên 1. Ngược
lại thì tạo một hang mới với user và category đã lấy được cùng số lần truy cập
gán là 1.

Hình 6: Cấu trúc bảng dữ liệu tần suất truy cập từng category của mỗi người dùng
Hình 6 biểu diễn cấu trúc bảng lưu trữ số lần truy cập của người dùng đối với mỗi
category. Trong đó:
- cbu_id: lưu trữ id của đối tượng.
- cbu_user: lưu trữ user id của người dùng gửi request.
- cbu_category: lưu trữ category được request.
- cbu_numberaccess: lưu trữ số lần truy cập vào category của user ứng với 2
trường cbu_user và cbu_category.

2.4.3. Xác định các tin nổi bật (được truy cập nhiều)
Đối với mỗi category, lại tìm ra những tin tức nổi bật trong ngày tương ứng với
những tin có số lượng truy cập nhiều hơn các tin khác. Tìm ra những tin nổi bật đồng
nghĩa với những tin đó đang nóng và nó thu hút sự chú ý của mọi người. Trường
article_numberaccess được thêm vào bảng Articles để lưu trữ số lần truy cập của thông
tin đó.

8


Hình 7: Bảng lưu trữ dữ liệu về các tin tức.

2.5.

Làm mịn


2.6.

Kết quả, ý nghĩa

Kết quả công trình đạt được đó là nền tảng cơ bản để có thể xác định sở thích truy
cập tin tức của người dung, kết hợp với việc đặt ra các luật để từ đó xây dựng hệ thống
dự đoán, gợi ý các tin tức mà người dùng có thể quan tâm.
Một số kết quả đã phân tích được trong thực nghiệm:

Hình 10: Form biểu diễn số lần truy cập category theo thời gian

10


Hình 11: Form biểu diễn số lần truy cập từng category theo từng ngày

3. Kết luận
3.1.

Hạn chế còn tồn tại

Bên cạnh các kết quả đạt được vẫn còn nhiều hạn chế còn tồn tại:
- Việc phân tích chưa xét đến liên kết giữa các tin tức để có thể đưa ra các tin liên
quan.
- Keyword chưa được lọc tối ưu, vẫn còn tồn tại các từ không hợp lệ, không có
nghĩa.
- Keyword chưa phân biệt được danh từ chung và danh từ riêng.

3.2.


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status