Nghiên cứu cứu phương pháp học bán giám sát cho hệ tư vấn lai (tt) - Pdf 42

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
-----------------------------------------

Trần Ngọc Hưng

NGHIÊN CỨU PHƯƠNG PHÁP
HỌC BÁN GIÁM SÁT CHO
HỆ TƯ VẤN LAI
Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01.01

TÓM TẮT LUẬN VĂN THẠC SĨ

HÀ NỘI - 2017

1

Luận văn được hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

Người hướng dẫn khoa học: TS. Nguyễn Duy Phương
Phản biện 1: TS. Hoàng Xuân Dậu
Phản biện 2: PGS.TS. Bùi Thu Lâm

Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc
sĩ tại Học viện Công nghệ Bưu chính Viễn thông.
Vào lúc: 10 giờ 30 ngày 11 tháng 3 năm 2017

Có thể tìm hiểu luận văn tại:
- Thư viện của Học viện Công nghệ Bưu chính Viễn thông

phương pháp lọc kết hợp nhằm xác định các giá trị dự đoán
chắc chắn để chuyển giao cho quá trình huấn luyện tiếp
theo. Điều này sẽ góp phần cải thiện chất lựợng tư vấn và
khắc phục vấn đề thưa thớt dữ liệu của lọc cộng tác. Nội
dung của luận văn bao gồm 03 chương:
Chương 1: Lọc cộng tác bằng phương pháp học
bán giám sát
Nội dung chính của chương này, em giới thiệu về kỹ
thuật tư vấn cộng tác dựa trên bộ nhớ và phương pháp đồng
huấn luyện cho lọc cộng tác của TS. Từ Minh Phương và
TS. Nguyễn Duy Phương công bố. Đây cũng là mô hình cơ
sở để em phát triển mô hình đồng huấn luyện được trình
bày trong chương 2 của luận văn.
Chương 2: Phương pháp đồng huấn luyện cho lọc
kết hợp
Chương này em tập trung trình bày về phương pháp
đề xuất kết hợp giữa lọc cộng tác và lọc nội dung. Phương
pháp được thực hiện bằng cách tích hợp các đặc trưng nội
dung sản phẩm và đặc trưng người dùng vào lọc cộng tác.

4

Trên cơ sở các giá trị đặc trưng nội dung đã được tích hợp,
em mở rộng phương pháp ước lượng mức độ tương tự giữa
các cặp người dùng không chỉ thực hiện trên đánh giá người
dùng mà còn trên cả hồ sơ người dùng; mức độ tương tự
giữa các cặp sản phẩm không chỉ thực hiện trên đánh giá
sản phẩm mà con trên cả hồ sơ sản phẩm.
Chương 3: Thử nghiệm và đánh giá

người dùng, P = {p1, p2,.., pM} là tập gồm M sản phẩm. Mỗi
sản phẩm pxP có thể là hàng hóa, phim, ảnh, tạp chí, tài
liệu, sách, báo, dịch vụ hoặc bất kỳ dạng thông tin nào mà

6

người dùng cần đến. Để thuận tiện trong trình bày, ta viết
pxP ngắn gọn thành xP; và uiU là iU.
Mối quan hệ giữa tập người dùng U và tập sản phẩm
P được biểu diễn thông qua ma trận đánh giá R={ rix }, i =
1..N, x = 1..M. Mỗi giá trị rix thể hiện đánh giá của người
dùng iU cho một số sản phẩm xP. Giá trị rix có thể được
thu thập trực tiếp bằng cách hỏi ý kiến người dùng hoặc thu
thập gián tiếp thông qua cơ chế phản hồi của người dùng.
Giá trị rix =  được hiểu người dùng i chưa đánh giá hoặc
chưa bao giờ biết đến sản phẩm x.
Tiếp đến ta ký hiệu PiP là tập các sản phẩm được
đánh giá bởi người dùng iU và UxU là tập các người
dùng đã đánh giá sản phẩm xP. Với một người dùng cần
được tư vấn aU (được gọi là người dùng hiện thời, người
dùng cần được tư vấn, hay người dùng tích cực), bài toán
lọc cộng tác là dự đoán đánh giá của a đối với những mặt
hàng x (P\ Pa), trên cơ sở đó tư vấn cho người dùng a
những sản phẩm được đánh giá cao.
Học máy cho lọc cộng tác được tiếp cận theo ba xu
hướng chính: Học có giám sát (supervised learning),

7

 Vấn đề dữ liệu thưa
 Vấn đề dữ liệu thưa làm cho việc xác định tập láng
giềng của thuật toán tại Bước 2 trở nên kém tin cậy
 Vấn đề người dùng mới và sản phẩm mới

1.3. Phương pháp học bán giám sát cho lọc cộng
tác
Để giải quyết bài toán lọc cộng bằng phương pháp học
bán giám sát ta cần xây dựng hai kiểu quan sát trên tập dữ
liệu huấn luyện: Học bán giám sát dựa vào người dùng và
học bán giám sát dựa vào sản phẩm. Tiếp đến, ta cần phải
xây dựng được thuật toán chuyển giao đồng thời giữa các
kiểu quan sát để sinh ra dự đoán cho mỗi người dùng.

9

Chương 2 - PHƯƠNG PHÁP HỌC BÁN
GIÁM SÁT CHO LỌC KẾT HỢP
Trong chương này, em sẽ trình bày mô hình kết hợp
giữa lọc cộng tác và lọc nội dung bằng phương pháp lọc kết
hợp.

2.1. Phát biểu bài toán lọc kết hợp
Cho tập hợp hữu hạn gồm N người dùng U = {u1, u2,…,
uN}, P = {p1, p2,.., pM} là tập hữu hạn gồm M sản phẩm.
Mỗi sản phẩm pxP có thể là hàng hóa, phim, ảnh, tạp chí,
tài liệu, sách, báo, dịch vụ hoặc bất kỳ dạng thông tin nào
mà người dùng cần đến. Mối quan hệ giữa tập người dùng
U và tập sản phẩm P được biểu diễn thông qua ma trận đánh

11

Mỗi người dùng iU được biểu diễn thông qua |T|
đặc trưng nội dung T = {t1, t2,.., t|T|}. Các đặc trưng tqT
thông thường là thông tin cá nhân của mỗi người dùng
(Demographic Information). Ví dụ iU là một người dùng
thì các đặc trưng nội dung biểu diễn người dùng i có thể là
T={giới tính, độ tuổi, nghề nghiệp, trình độ,…}. Gọi vx =
{vx1, vx2,.., vx|T|} là vector trọng số biểu diễn các giá trị đặc
trưng nội dung tqT đối với mỗi sản phẩm xP. Khi đó,
ma trận trọng số V ={vxq: x = 1, 2, .., M;q = 1, 2, .., |T| }
chính là đầu vào của các hệ thống tư vấn theo nội dung
thông tin người dùng. Để thuận tiện trong trình bày, ta viết
tqT ngắn gọn là qT. Ký tự q luôn được dùng để chỉ tập
đặc trưng nội dung người dùng.
Tiếp đến ta ký hiệu, PiP là tập các sản phẩm xP
được đánh giá bởi người dùng iU và UxU là tập các
người dùng iU đã đánh giá sản phẩm xP. Với một người
dùng cần được tư vấn iU (được gọi là người dùng hiện
thời, người dùng cần được tư vấn, hay người dùng tích cực),
nhiệm vụ của các phương pháp tư vấn là gợi ý K sản phẩm
x(P\Pi) phù hợp nhất đối với người dùng i.

12

Bài toán tư vấn có thể phân loại thành ba hướng tiếp
cận chính: tư vấn theo nội dung, tư vấn cộng tác và tư vấn

từng sử dụng sản phẩm quá khứ và ước lượng trọng số mỗi
đặc trưng nội dung người dùng trong hồ sơ sản phẩm

2.3. Mô hình học bán giám sát cho lọc kết hợp
2.3.1. Bán giám sát tập đánh giá người dùng
cùng tập đặc trưng sản phẩm
Hệ tư vấn lai được xác định cho phép ta dễ dàng triển
khai các phương pháp lọc cộng tác dựa vào người dùng.
Phương pháp được tiến hành thông qua 4 bước: tính toán
mức độ tương tự giữa các cặp người dùng, xác định tập láng
giềng cho người dùng cần tư vấn, dự đoán quan điểm của
người dùng đối với các sản phẩm mới, và tư vấn top k sản
phẩm có giá trị dự đoán cao nhất cho người dùng. Do tính
chất thưa thớt của ma trận đánh giá làm cho việc xác định
mức độ tương tự giữa các cặp người dùng kém chính xác.
Điều này sẽ ảnh hưởng trực tiếp đến việc xác định tập láng

14

giềng và kết quả dự đoán các sản phẩm mới cho người dùng
cần được tư vấn. Để khắc phục điều này, với mỗi người
dùng iUem xây dựng tập Si được định nghĩa theo công
thức để giám sát việc tính toán mức độ tương tự giữa các
cặp người dùng.

2.3.2. Bán giám sát tập đánh giá sản phẩm cùng
tập đặc trưng người dùng
Hệ tư vấn lai được xác định theo cho phép ta dễ dàng
triển khai các phương pháp lọc cộng tác dựa vào sản phẩm.

đến quá trình bán giám sát từ tập đánh giá sản phẩm cùng
tập đặc trưng người dùng. Thuật toán được mô tả chi tiết
như trong Hình 1.
Thuật toán học bán giám sát ký hiệu là Semi-Learning
thực hiện tuần tự thông qua ba bước: bước khởi tạo, bước
lặp và tạo nên tư vấn.

16

Chương 3 - THỬ NGHIỆM VÀ ĐÁNH
GIÁ
Chương này trình bày phương pháp thử nghiệm các
thuật toán đã nêu trong chương 1 và chương 2. Dựa trên kết
quả thử nghiệm đưa ra so sánh và đánh giá về tính chính
xác, hiệu quả của các thuật toán.

3.1. Dữ liệu thử nghiệm
Thuật toán lọc cộng tác được thử nghiệm trên các bộ
dữ liệu MovieLens của nhóm nghiên cứu GroupLens thuộc
trường đại học Minnesota. Bộ dữ liệu thứ nhất ml-100K bao
gồm 100.000 đánh giá của 943 người dùng cho 1682 phim.
Giá trị đánh giá được thực hiện từ 1 đến 5. Mức độ thưa
thớt dữ liệu đánh giá là 98.7%. Bộ dữ liệu thứ hai ml-1M
bao gồm 1.000.000 đánh giá của 6.000 người dùng cho
4.000 phim. Bộ dữ liệu thứ ba ml-10M bao gồm 10.000.000
đánh giá của 72000 người dùng.

3.2. Phương pháp thử nghiệm
Thử nghiệm 1: Trước tiên, toàn bộ dữ liệu thử nghiệm

u

yPu

Sai số dự đoán trên toàn tập dữ liệu kiểm tra được tính
bằng trung bình cộng sai số dự đoán cho mỗi khách hàng
thuộc Ute.

MAE 

 MAE

u

uU te

U te

Giá trị MAE càng nhỏ càng tốt, tức là phương pháp
càng chính xác.

18

Thử nghiệm 2: Trước tiên, toàn bộ dữ liệu thử nghiệm
được chia thành hai phần, một phần Utr được sử dụng làm
dữ liệu huấn luyện, phần còn lại Ute được sử dụng để kiểm
tra. Tập Utr chứa 80% đánh giá và tập Ute chứa 20% đánh
giá. Dữ liệu huấn luyện được sử dụng để xây dựng mô hình
theo thuật toán mô tả ở trên. Với mỗi người dùng i thuộc

Pearson. Đây là phương pháp lọc cộng tác dựa trên người
dùng đã được trình bày trong Mục 2.1.
- Phương pháp ItemBased sử dụng độ tương quan
Pearson. Đây là phương pháp lọc cộng tác dựa trên sản
phẩm người dùng đã được trình bày trong Mục 2.1.
- Trong trường hợp dữ liệu tương đối đầy đủ, cụ thể
là khi biết trước nhiều đánh giá của người dùng trong tập
kiểm tra, phương pháp Co-Training-UserBased và CoTraining-ItemBased cho lại kết quả tương đương nhau. Tuy
nhiên, khi dữ liệu ít đi, cụ thể là khi chỉ biết trước 5 hoặc
10 đánh giá của người dùng kiểm tra thì trong đa số trường
hợp, Co-Training-ItemBased cho sai số MAE nhỏ hơn so
với Co-Training-UserBased. Lý do chủ yếu là do lực lượng
của tập Cx xác định theo lớn hơn lực lượng của tập Si xác
định theo. Điều này cho phép dự đoán các nhãn phân loại
bổ sung vào quá trình huấn luyện theo người dùng tốt hơn.

20

Phương pháp học bán giám sát được thử nghiệm và so
sánh với những phương pháp sau:
- Phương pháp KNN dựa vào người dùng sử dụng độ
tương quan Pearson (ký hiệu là CF-UserBased). Đây là
phương pháp tư vấn cộng tác chuẩn dựa vào người dùng
được đề xuất trong.
- Phương pháp KNN dựa vào sản phẩm sử dụng độ
tương quan Pearson (ký hiệu là CF-ItemBased). Đây là
phương pháp tư vấn cộng tác chuẩn dựa vào sản phẩm được
đề xuất.
- Phương pháp KNN dựa vào hồ sơ người dùng sử

22

toán mức độ tương tự giữa các cặp người dùng trên tập đánh
giá người dùng cùng các đặc trưng sản phẩm chính xác hơn
so với phương pháp tính toán mức độ tương tự giữa các cặp
người dùng chỉ dựa vào đánh giá người dùng hoặc hồ sơ
người dùng. Phương pháp tính toán mức độ tương tự giữa
các cặp sản phẩm trên tập đánh giá sản phẩm cùng các đặc
trưng người dùng chính xác hơn so với phương pháp tính
toán mức độ tương tự giữa các cặp sản phẩm chỉ dựa vào
đánh giá sản phẩm hoặc hồ sơ sản phẩm.
Phương pháp Semi-Learning cho lại giá trị MAE thấp
nhất ở tất cả các mức độ thưa thớt dữ liệu khác nhau. Đối
với tập dữ liệu kiểm tra chỉ có 5 đánh giá biết trước, phương
pháp Hybrid-UserBased và Hybrid-ItemBased cho lại giá
trị MAE lần lượt là 0.793, 0.798 so với 0.672 của phương
pháp Semi-Learning. Với tập dữ liệu kiểm tra chỉ có 10
đánh giá biết trước, phương pháp Hybrid-UserBased và
Hybrid-ItemBased cho lại giá trị MAE lần lượt là 0.792,
0.788 so với 0.629 của phương pháp Semi-Learning. Với
tập dữ liệu kiểm tra chỉ có 15 đánh giá biết trước, phương
pháp Hybrid-UserBased và Hybrid-ItemBased cho lại giá
trị MAE lần lượt là 0.791, 0.782 so với 0.617 của phương

23

pháp Semi-Learning. Đặc biệt, với tập dữ liệu kiểm tra có

dùng.

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Nghiên cứu cứu phương pháp học bán giám sát cho hệ tư vấn lai (tt) - Pdf 42

Tài liệu, ebook tham khảo khác

Học thêm