GIẢI PHÁP BIỂU DIỄN VÀ SO SÁNH MỨC
ĐỘ TƢƠNG ĐỒNG GIỮA CÁC HỒ SƠ CÁ
NHÂN TRÊN MẠNG XÃ HỘI
GVHD: TS. Phạm Trần Vũ
HVTH: Đỗ Quốc Bảo
Kết quả thực nghiệm, đánh giá
4
Nội dung
Đặt vấn đề, lý do, tổng quan, mục tiêu
1
Giới thiệu hồ sơ cá nhân, so sánh độ tương đồng
2
Quy trình thực hiện
3
Kết luận, hướng phát triển
5
Linear Least Squares Fit, Logistic Regression, SVM.
Đặt vấn đề - tổng quan
5
Slide 4
Thế giới
• “Profile-Matching Techniques for On-Demand
Software Management in Sensor Networks”, Falko
Dressler và cộng sự, Department of Computer
Science, University of Erlangen, Germany.
Học máy tạo bộ dữ liệu đặc trưng mẫu Đặt vấn đề - tổng quan
6
Slide 5
Trong nước
• “Một mô hình tạo lớp học thích nghi trong đào tạo
điện tử”, Nguyễn Việt Anh, khoa Công nghệ thông
tin, trường Đại học Công Nghệ, Đại học Quốc gia Hà
Nội.
Sử dụng mạng xác suất Bayes, đánh giá kiến thức
người học, sử dụng cơ chế thích nghi để phân tích, so
sánh sự khác nhau về tiến trình học.
Đặt vấn đề - tổng quan
7
Slide 6
• Hồ sơ cá nhân trong hệ thống bán hàng qua mạng
• Hồ sơ cá nhân trong hệ thống e - Learning Giới thiệu hồ sơ cá nhân
10
Slide 9
Để xây dựng được hồ sơ cá nhân tốt cho hệ thống thì
cần phải xác định được những đặc trưng nào của
người dùng sẽ cần thiết, hữu ích cho hệ thống. Chẳng
hạn:
• Trong e- Commerce, các đặc trưng của hồ sơ cá nhân
về sở thích là quan trọng nhất
• Trong e-Learning thì các đặc trưng liên quan đến trình
độ học tập, kiến thức nền mới là quan trọng nhất
Giới thiệu hồ sơ cá nhân
11
Slide 10
Cấu trúc hồ sơ cá nhân cho hệ thống tư vấn của
Montainer, chia làm hai phần:
• Một tập các đặc trưng mô tả về đối tượng mà người
dùng quan tâm.
• Một tập các đặc trưng về sở thích, mô tả sự quan tâm,
sự đánh giá của người dùng đối với các đối tượng mà
họ quan tâm.
Cấu trúc hồ sơ cá nhân Montainer
12 Cấu trúc hồ sơ cá nhân tác giả đề xuất
15
Slide 14
• Trong toán học, một độ đo là một hàm số tương ứng với
một "chiều dài", một "thể tích" hoặc một "xác suất" với
một phần nào đó của một tập hợp cho sẵn.
• Rất khó để đo sự tương đồng, sự tương đồng là một đại
lượng (con số) phản ánh cường độ của mối quan hệ giữa
hai đối tượng hoặc hai đặc trưng. Đại lượng này thường
ở trong phạm vi từ -1 đến 1 hoặc 0 đến 1.
• Ví dụ: Hàm S(d
i
,d
j
) được gọi là độ đo sự tương đồng
giữa 2 văn bản d
i
và d
j
.
Giới thiệu độ tƣơng đồng
16
Slide 15
Phƣơng pháp tính độ tƣơng đồng đƣợc chọn
18
Slide 17
Qua tìm hiểu nghiên cứu, tác giả rút ra quy trình so
sánh mức độ tương đồng cho các hồ sơ cá nhân:
Quy trình so sánh hồ sơ cá nhân
19
Slide 18
Quy trình chi tiết – thu thập profile
22
Slide 21
Các bước tiền xử lý Quy trình chi tiết – các bƣớc tiền xử lý
Hồ sơ cá nhân
Tách từ
Bỏ dấu câu,
stopword
Đặc trưng
Từ điển TV
Từ điển
stopword
23
Slide 22
• Mã nguồn mở, dễ cài đặt, sửa đổi nâng cấp cho ph
hợp với hệ thống.
• Độ chnh xác cao (>97% theo đánh giá của tác giả,
thuộc nhánh đề tài “Xử lý văn bản tiếng Việt”, GS. Hồ
Tú Bảo chủ trì)
Quy trình chi tiết – các bƣớc tiền xử lý
25
Slide 24