Nghiên cứu xây dựng mô hình đặc trưng người dùng (user profile) và ứng dụng - pdf 16

Download miễn phí Luận văn Nghiên cứu xây dựng mô hình đặc trưng người dùng (user profile) và ứng dụng



MỤC LỤC
Trang
MỤC LỤC 1
Danh mục các ký hiệu, các chữviết tắt 4
Danh mục các bảng biểu, đồthị5
Danh mục các hình vẽ6
Chương 1. Giới thiệu 7
Chương 2. Hiện trạng nghiên cứu 12
2.1. Cấu trúc profile 12
2.1.1. Cấu trúc profile cho hệthống tưvấn thông tin (Recommender
System) của Montainer 12
2.1.2. Cấu trúc profile cho hệthống đào tạo trực tuyến (e-Learning
System) của Brusilouvsky 13
2.1.3. Cấu trúc profile cho hệthống đào tạo trực tuyến (e-Learning
System) của nhóm Lê Đức Long và cộng sự15
2.2. Chọn đặc trưng 16
2.2.1. Bài toán chọn đặc trưng (Feature selection) 17
2.2.2. Phương pháp phân tích thành phần chính (Principal Component
Analysis-PCA) 20
Chương 3. Phát biểu bài toán 23
3.1. Các định nghĩa 23
3.1.1. Cấu trúc profile 23
3.1.2. Miền giá trịcủa đặc trưng 24
3.1.3. Ý nghĩa của miền giá trị24
3.2. Bài toán luận văn giải quyết 25
Chương 4. Đánh giá tính hữu ích của đặc trưng và tinh chỉnh miền giá
trị đặc trưng 27
4.1. Cách tiếp cận 27
4.1.1. Ý tưởng của giải pháp 27
4.1.2. Ví dụminh họa 28
4.2. Cơsởlý luận 30
4.2.1. Extra value 31
4.2.2. Mệnh đề34
4.2.3. Đặc trưng hữu ích 35
4.2.4. Đặc trưng không hữu ích 35
4.3. Đánh giá tính hữu ích của đặc trưng 35
4.3.1. Ý tưởng giải thuật 35
4.3.2. Thủtục đánh giá tính hữu ích của đặc trưng f
ivới ngưỡng θi36
4.3.3. Lưu đồthủtục đánh giá đặc trưng 37
4.4. Tinh chỉnh miền giá trịcủa đặc trưng 38
4.4.1. Rare value 38
4.4.2. Cách tiếp cận dựa trên độlệch nhỏnhất 38
4.4.3. Cách tiếp cận dựa trên giá trịtrung vị39
4.4.4. Thủtục tìm rare value trong DOM(fi), với ngưỡng βi>1 42
4.4.5. Lưu đồthủtục tìm rare value 44
Chương 5. Thực nghiệm 45
5.1. Profile của sinh viên sưphạm- trường ĐH Sưphạm TPHCM 47
5.1.1. Đặc trưng ‘nguồn gốc cưtrú’ 48
5.1.2. Đặc trưng ‘nơi sống’ 48
5.1.3. Đặc trưng ‘người sống cùng’ 51
5.1.4. Tình trạng hôn nhân 53
5.2. Đánh giá kết quảgiải thuật 54
5.2.1. Ưu điểm 54
5.2.2. Hạn chế54
Chương 6. Kết luận và hướng nghiên cứu tương lai 55
6.1. Những đóng góp của luận văn 55
6.2. Hướng phát triển 56
TÀI LIỆU THAM KHẢO 58
PHỤLỤC 61



Để tải bản Đầy Đủ của tài liệu, xin Trả lời bài viết này, Mods sẽ gửi Link download cho bạn sớm nhất qua hòm tin nhắn.
Ai cần download tài liệu gì mà không tìm thấy ở đây, thì đăng yêu cầu down tại đây nhé:
Nhận download tài liệu miễn phí

Tóm tắt nội dung tài liệu:

sẽ trải qua bước cuối cùng
là đánh giá bằng cách thực hiện những phần kiểm tra khác nhau trên tập đặc trưng
gốc và tập đặc trưng con đã chọn.
Đánh giá.
Cùng mục tiêu là chọn đặc trưng, nhưng điều kiện của bài toán chọn đặc trưng
không hoàn toàn khớp với bài toán luận văn quan tâm ở những chi tiết sau:
-Bài toán chọn đặc trưng giúp tìm những đặc trưng tối ưu có xét đến mối tương
quan giữa các đặc trưng và hướng đến việc làm rõ nghĩa dữ liệu, giảm kích thước
dữ liệu.
-Bài toán luận văn quan tâm là chọn đặc trưng để xây dựng profile, nghĩa là tìm
những đặc trưng hữu ích, cần thiết. Tính hữu ích được xét độc lập trên từng đặc
trưng, chưa quan tâm đến mối quan hệ giữa các đặc trưng. Bài toán cũng không đặt
20
trọng tâm vào việc giảm kích thước dữ liệu vì số lượng đặc trưng trong một profile
thường không quá lớn (khoảng vài chục).
2.2.2. Phương pháp phân tích thành phần chính (Principal
Component Analysis-PCA)
Theo [5], quan điểm của các nhà thống kê cổ điển cho rằng phân tích thành
phần chính là tìm các trục chính của Ellipsoid2 nhiều chiều bao hàm đám mây số
liệu phân phối chuẩn nhiều chiều, các trục đó được ước lượng từ một mẫu n cá thể,
trên mỗi cá thể người ta đo p chỉ tiêu. Người đầu tiên đưa ra kỹ thuật này là H.
Hotelling (1933), sau đó là T.W. Anderson (1958) và A.M. Kshirsagar (1972).
Theo quan điểm phổ biến hơn của các nhà phân tích số liệu thì phân tích
thành phần chính là một kỹ thuật biểu diễn các số liệu một cách tối ưu theo một tiêu
chuẩn đại số và hình học đặc biệt. Những tư tưởng của phương pháp này do
K.Pearson (1901) đề xuất. Trong công trình của C.R.Rao (1964), nội dung lý thuyết
của phương pháp thành phần chính được trình bày khá đơn giản và rõ ràng.
Lĩnh vực ứng dụng của PCA rất rộng trong công nghiệp, nông nghiệp, kinh
tế, khoa học cơ bản,… với bảng số liệu mà các cột là các biến và các dòng là các cá
thể khảo sát, trên đó đo giá trị các biến. Với các bảng số liệu cồng kềnh phức tạp thì
rất khó thấy những thông tin chứa trong đó. Mục đích chính của PCA là rút ra
những thông tin chủ yếu chứa trong bảng số liệu bằng cách xây dựng một biểu diễn
2 Ellipsoid là một dạng mặt bậc hai có hình tương tự như elip trong không gian ba
chiều. Phương trình của một ellipsoid chính tắc trong hệ tọa độ Descartes x, y, z là
21
đơn giản hơn, sao cho trong biểu diễn đó đám mây số liệu thể hiện rõ nhất, mà
thông tin không bị sai lạc. Nội dung phân tích là tìm các vector biến (hay vector cá
thể) “gần gũi” với nhau, ảnh hưởng “tích cực” hay “tiêu cực” lên nhau, hay hầu
như không có quan hệ gì với nhau. Chẳng hạn trong trồng trọt, để tìm quy luật biểu
diễn của sản lượng lúa ở các vùng sinh thái khác nhau, người ta có thể lập bảng
phân tích thành phần chính mà các biến là: sản lượng, năng suất trung bình/ha, tỉ lệ
diện tích trồng trọt, số lượng phân bón từng loại, dân số, lao động, các yếu tố thời
tiết, địa hình, số lượng trâu bò cầy kéo, số lượng máy nông nghiệp các loại, vốn đầu
tư,… Trong chăn nuôi có thể tìm ảnh hưởng các loại thức ăn đến tốc độ tăng
trưởng của lợn, ta lập bảng mà các vector cột là: tuổi lợn, trọng lượng, mức tăng
trọng/ngày, lượng cám, bột ngô, xác mắm, lượng rau từng loại,…
Nhận xét: Bài toán luận văn quan tâm so với bài toán PCA có những điểm khác
biệt như bảng 2.1. Do vậy, không thể sử dụng phương pháp PCA cho bài toán luận
văn.
Bảng 2.1. So sánh bài toán luận văn và PCA
Bài toán của luận văn PCA
số đặc trưng ít (hàng chục) số biến quá lớn (hàng ngàn, hàng chục
ngàn)
đặc trưng gồm đa dạng biến: dịnh danh,
định lượng, thứ bậc
chỉ xét trên biến định lượng hay có thể
lượng hóa được
mục tiêu là đánh giá tính hữu ích của
từng đặc trưng mà không xem xét đến
mối tương quan giữa các đặc trưng
đặt biến quan tâm là thành phần chính,
bài toán nhằm mục tiêu đánh giá mối
tương quan giữa các biến khác đến biến
chính, hỗ trợ hay đối nghịch với biến
chính.
22
Qua hiện trạng nghiên cứu về cấu trúc profile, chúng tui nhận thấy đã có nhiều cấu
trúc profile tống quát cho các miền ứng dụng như hệ thống tư vấn thông tin, e-
Learning,... Tuy nhiên, đối với một hệ thống mới thì không thể áp dụng một cách
máy móc mà cần có sự chọn lọc đặc trưng hữu ích, cần thiết cho hệ thống đó. Từ
đó, dẫn đến nhu cầu cần có phương pháp chọn đặc trưng hữu ích. Các phương pháp
chọn đặc trưng và các phương pháp liên quan đến chọn đặc trưng như PCA đã được
nghiên cứu, ứng dụng và mang lại kết quả khả quan cho nhiều ứng dụng. Tuy nhiên,
các phương pháp này lại không hoàn toàn phù hợp với bài toán chọn đặc trưng hữu
ích cho profile trong các hệ thống thích nghi. Do vậy, đề tài sẽ hướng đến việc đề
xuất một phương pháp mới để đánh giá tính hữu ích của các đặc trưng của profile
dựa trên kiến thức thống kê.
23
Chương 3. Phát biểu bài toán
3.1. Các định nghĩa
3.1.1. Cấu trúc profile
Theo [14], nhiều mô hình biểu diễn cấu trúc profile đã được đề xuất như mô
hình không gian vector, mô hình lịch sử khai thác, mô hình ma trận đánh giá,…
Trong luận văn, chúng tui định nghĩa cấu trúc profile như sau:
Cấu trúc của profile trong một hệ thống cụ thể là một tập hợp các đặc trưng hữu
hạn và có thứ tự. Ký hiệu NnfP niiu ∈>=< = ,1)( là profile của user u gồm n đặc trưng
fi
Ví dụ với profile gồm 3 đặc trưng tên, tuổi, giới tính, ta có thể biểu diễn
profile của các user u1, u2 như sau:
)( 1uP =
)( 2uP =
Hay với profile gồm 4 đặc trưng nguồn gốc cư trú, nơi sống, người sống
cùng, điều kiện sống. Khi đó, ta có thể biểu diễn profile của các user u1, u2, u3 dưới
dạng vector như sau:
)( 1uP =
)( 2uP =
)( 3uP =
Trong các ứng dụng khác nhau, cấu trúc profile sẽ khác nhau về số lượng đặc trưng
và tên của các đặc trưng. Xét ở khía cạnh ứng dụng, các đặc trưng này có thể chia
24
thành hai loại: loại đặc trưng bắt buộc là những đặc trưng không thể thiếu trong hệ
thống ứng dụng và loại đặc trưng tùy chọn là những đặc trưng có thể có trong hệ
thống ứng dụng. Ví dụ trong hệ thống e-Commerce thì sở thích là đặc trưng bắt
buộc, trình độ là đặc trưng tùy chọn và trong hệ thống e-Learning thì ngược lại. Do
vậy, tiêu chí phân loại đặc trưng phụ thuộc vào ngữ cảnh của hệ thống ứng dụng.
3.1.2. Miền giá trị của đặc trưng
Miền giá trị của đặc trưng là tập hợp tất cả các giá trị mà đặc trưng có thể nhận
trong miền ứng dụng đang xét.
Ký hiệu DOM(fi) là miền giá trị của đặc trưng fi
iiji njvfDOM ≤≤= 1,}{)( (3.1)
Trong đó:
vij là các giá trị mà fi có thể nhận được
ni là tổng số giá trị của đặc trưng fi
Ta ký hiệu Nnnn ∈....,,, 321 lần lượt là kích thước của miền giá trị của các thuộc
tính ....,,, 321 fff
Ví dụ DOM(tên)={“Lan”, “Thanh”, “Hồng”,….}
DOM(tuổi)={1, 2, 3,…, 100,…}
Miền giá trị của đặc trưng thường là tập các số nguyên, miền số thực, tập các ký
tự,….
3....
Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status