Luận văn thạc sĩ công nghệ thông tin Giải pháp biểu diễn và so sánh mức độ tương đồng giữa các hồ sơ cá nhân trên mạng xã hội - Pdf 24

i
LỜI CAM ĐOAN
Tôi xin cam đoan đây là kết quả công trình nghiên cứu của bản thân,
không sao chép của người khác. Các số liệu, kết quả trình bày trong luận văn này
là trung thực. Tất cả những tài liệu tham khảo đều có xuất xứ rõ ràng và được
trích dẫn hợp pháp.
Tôi xin chịu hoàn toàn trách nhiệm cho lời cam đoan của mình.

Học viên

Đỗ Quốc Bảo
ii
LỜI CẢM ƠN
Em xin bày tỏ lòng thành kính và biết ơn sâu sắc đến thầy tiến sĩ Phạm
Trần Vũ đã nhiệt tình hướng dẫn, chỉ bảo em trong suốt quá trình thực hiện luận
văn này.
Em xin chân thành cảm ơn Quý thầy cô Khoa Công nghệ thông tin trường
Đại học Lạc Hồng đã tạo điều kiện thuận lợi cho em trong suốt thời gian học tập
và nghiên cứu tại trường.
Xin cảm ơn các anh chị em, bạn bè, đồng nghiệp đã giúp đỡ và động viên
rất nhiều trong quá trình em thực hiện luận văn này.
Xin cảm ơn cha mẹ, anh chị em và những người thân đã và luôn là chỗ
dựa tinh thần, là nguồn động lực to lớn để em vượt qua những khó khăn trong
quá trình thực hiện luận văn này.
Xin chân thành cảm ơn! Đồng Nai, ngày 15 tháng 5 năm 2013
Học viên

Đỗ Quốc Bảo

2.2.2.3 Mô hình tách từ bằng WFST và mạng Neural 20
2.2.2.4 Phương pháp tách từ tiếng Việt dựa trên thống kê từ Internet và
thuật giải di truyền 22
2.2.2.5 Loại bỏ từ dừng 22
2.2.3 Đặc trưng văn bản tiếng Việt 22
iv
2.3 Biểu diễn văn bản tiếng Việt 24
2.3.1 Mô hình logic 24
2.3.2 Mô hình phân tích cú pháp 26
2.3.3 Mô hình không gian vector 27
2.3.3.1 Mô hình boolean 28
2.3.3.2 Mô hình tần suất 29
2.4 Độ tương đồng 31
2.4.1 Khái niệm độ tương đồng 31
2.4.2 Độ tương đồng 32
2.4.3 Các phương pháp tính độ tương đồng 32
2.4.3.1 Phương pháp tính độ tương đồng sử dụng độ đo Cosine 33
2.4.3.2 Phương pháp tính độ tương đồng dựa vào độ đo khoảng cách
Euclide 34
2.4.3.3 Phương pháp tính độ tương đồng dựa vào độ đo khoảng cách
Mahattan 34
CHƯƠNG 3: QUY TRÌNH THỰC HIỆN VÀ THỬ NGHIỆM 36
3.1 Quy trình thực hiện 36
3.1.1 Thu thập dữ liệu profile 36
3.1.2 Cấu trúc profile theo đề xuất của tác giả 37
3.1.3 Xử lý dữ liệu profile 39
3.1.3.1 Tách từ tiếng Việt 39
3.1.3.2 Loại bỏ dấu câu, từ dừng 41
3.1.4 Xây dựng tập dữ liệu đặc trưng 42
3.1.4.1 Giới thiệu mô hình phân tích chủ đề ẩn 42

Hình 3.16: Hình ảnh so sánh profile chi tiết 56 vi
DANH MỤC BẢNG
Bảng 1: Biểu diễn văn bản trong mô hình Logic 25
Bảng 2: Biểu diễn văn bản bằng mô hình Vector 28
Bảng 3: Biểu diễn văn bản với mô hình Boolean 29
Bảng 4: Môi trường thực nghiệm 48
Bảng 5: Bảng khảo sát thu thập profile 53
Bảng 6: Một số kết quả thực nghiệm 55
vii
DANH MỤC CÁC TỪ VIẾT TẮT
Từ viết tắt Từ đầy đủ
AHS Adaptive Hypermedia System
AEHS Adaptive Educational Hypermedia System
AeLS Adaptive e – Learning System
IDF Inverse Document Frequency
LDA Latent Drichlet Allocation
MM Maximum Matching
pLSA Probabilistic Latent Semantic Analysis
SVM Support Vector Machine
TBL Transformation - based Learning
TF Term Frequency
WFST Weighted Finit State Transducer
1

MỞ ĐẦU
Chúng ta hiện đang ngập lụt trong kho dữ liệu khổng lồ của nhân loại, sự
thành công và phát triển của các mạng xã hội như Facebook, Youtube, Linkedin

nguyên phù hợp với từng người dùng. Điều này đem đến sự tiện nghi, thoải mái
cho người dùng trong quá trình khai thác hệ thống. Người dùng có cảm giác là
hệ thống rất thông minh, hiểu được mình và đáp ứng đúng nhu cầu riêng của
mình.
Trong lĩnh vực đào tạo từ xa hay đào tạo trực tuyến (e - learning), các hệ
thống thích nghi siêu truyền thông (Adaptive Hypermedia System – AHS) hay
hệ thống đào tạo thích nghi siêu truyền thông (Adaptive Educational
Hypermedia System - AEHS) cũng khai thác profile người dùng để vận dụng sự
thích nghi phù hợp với kiến thức cũng như mục tiêu đào tạo. Do đó, việc xây
dựng mô hình profile là rất quan trọng, dựa trên profile các hệ thống tính toán, so
sánh để cung cấp thông tin, dịch vụ phù hợp nhất cho người sử dụng.
Hồ sơ cá nhân là một tập hợp các thông tin được thể hiện dưới dạng văn
bản, hình ảnh, trong đó văn bản là chủ yếu, mô hình biểu diễn văn bản phổ biến
hiện nay là mô hình không gian vector, trong đó mỗi văn bản được biểu diễn
bằng một vector của các từ khóa. Một số khó khăn khi biểu diễn văn bản như
tính nhiều chiều của văn bản, tính nhặp nhằng của ngôn ngữ, đồng thời bài toán
xử lý văn bản còn gặp phải một số khó khăn là để xây dựng được bộ dữ liệu đặc
trưng chuẩn, có độ tin cậy cao thì đòi hỏi phải có một lượng các mẫu dữ liệu
huấn luyện đủ tốt. Các dữ liệu huấn luyện này thường rất hiếm và đắt vì đòi hỏi
thời gian và công sức của con người. Do vậy, cần phải có hệ thống xử lý văn bản
hiệu quả và một phương pháp học có khả năng tận dụng được các nguồn dữ liệu
rất phong phú như hiện nay. Đề tài “Giải pháp biểu diễn và so sánh mức độ
tương đồng giữa các hồ sơ cá nhân trên mạng xã” là một việc làm không
những có ý nghĩa khoa học mà còn mang tính thực tiễn.
Luận văn này sẽ tập trung giải quyết hai vấn đề chính sau:
3

 Xây dựng mô hình profile của người sử dụng từ các thông tin trên
mạng xã hội của họ.
 Xây dựng giải pháp đánh giá mức độ tương đồng giữa các profile.

 Kết hợp thuật toán được chọn với kỹ thuật so khớp ngữ nghĩa, tính toán
sự tương đồng của các hồ sơ cá nhân, khắc phục các trường hợp liên
quan đến ngữ nghĩa trong so khớp.
 Đánh giá kết quả sau khi so khớp.
 Thử nghiệm trên các hồ sơ khác nhau của một mạng xã hội ở Việt Nam
Bố cục trình bày của luận văn
Chương 1: Giới thiệu tổng quan về bài toán so khớp, tổng quan về tình
hình nghiên cứu từ đó rút ra nhận xét, đánh giá. Dựa trên sự tìm hiểu nghiên cứu
đó, đưa ra quy trình so khớp giữa các hồ sơ cá nhân.
Chương 2: Trình bày một số kỷ thuật liên quan đến quá trình xử lý, tính
toán trong quá trình thực hiện bài toán so khớp hồ sơ cá nhân như: cấu trúc của
một hồ sơ cá nhân, rút trích thông tin hồ sơ cá nhân, biểu diễn hồ sơ cá nhân, xử
lý tiếng Việt, các phương pháp tính toán độ tương đồng.
Chương 3: Trình bày các bước thực hiện: thu thập thông tin hồ sơ cá nhân,
xử lý thông tin hồ sơ, biểu diễn hồ sơ cá nhân trên máy tính theo cấu trúc tác giả
đề xuất, quy trình chi tiết tính toán mức độ tương đồng giữa các hồ sơ cá nhân và
báo cáo kết quả thực nghiệm.
Kết luận: Những gì đã làm được trong việc xây dựng giải pháp biểu diễn
hồ sơ cá nhân và so sánh mức độ tương đồng giữa các hồ sơ cá nhân, chỉ ra
những điểm cần hoàn thiện hơn cũng như hướng phát triển cho đề tài.
5

CHƯƠNG 1: TỔNG QUAN VỀ HỒ SƠ CÁ NHÂN VÀ SO
SÁNH ĐỘ TƯƠNG ĐỒNG

1.1 Tổng quan về hồ sơ cá nhân, độ tương đồng
1.1.1 Giới thiệu về hồ sơ cá nhân
Hồ sơ cá nhân là một tập hợp gồm những thông tin của một cá nhân. Tùy
theo lĩnh vực ứng dụng cụ thể, hồ sơ cá nhân sẽ có những thông tin khác nhau
phù hợp cho miền ứng dụng đó. Chẳng hạn: trong hệ thống bán hàng qua mạng,

và đã được thực hiện bởi nhiều nghiên cứu trước đó.
Về độ tương đồng: trong toán học, một độ đo là một hàm số tương ứng với
một "chiều dài", một "thể tích" hoặc một "xác suất" với một phần nào đó của
một tập hợp cho sẵn. Nó là một khái niệm quan trọng trong giải tích và trong lý
thuyết xác suất.
Ví dụ: độ đo đếm được định nghĩa bởi µ(S) = số phần tử của S
Rất khó để đo sự giống nhau, sự tương đồng, tương đồng có thể định nghĩa
là một đại lượng (con số) phản ánh cường độ của mối quan hệ giữa hai đối tượng
hoặc hai đặc trưng. Đại lượng này thường ở trong phạm vi từ -1 đến 1 hoặc 0
đến 1. Như vậy, một độ đo tương đồng có thể coi là một loại Scoring Function
(hàm tính điểm).
Ví dụ: trong mô hình không gian vector, ta sử dụng độ đo Cosine để tính độ
tương đồng giữa hai văn bản, mỗi văn bản được biểu diễn bởi một vector.
So khớp là quá trình tìm ra những đặc trưng chung trong các hồ sơ được so
sánh, kết quả so sánh được qui ước hóa thành một số đo mà dựa vào số đo này
để thực hiện cho nhiều mục đích của con người như tìm đường đi, nhận dạng,
gom nhóm, tư vấn, điều khiển hay đơn giản để phục vụ cho việc đào tạo, kinh
doanh của một đơn vị. Người ta có thể thực hiện so khớp một cách thủ công, tức
là quan sát các đặc trưng rồi đưa ra kết luận. Nhưng với lượng thông tin cần so
sánh là rất lớn nên việc làm này sẽ tốn khá nhiều thời gian, công sức, tiền của và
7

thậm chí là không khả thi. Do vậy mà phải có các phương pháp so khớp tự động,
để so khớp tự động, người ta sử dụng các phương pháp thống kê như độ đo
Cosine, độ đo khoảng cách Euclide, Manhattan,… dựa trên các đặc trưng rút
trích qua quá trình học máy như Cây quyết định, Naïve Bayes, K láng giềng gần
nhất.
Một trong những ứng dụng quan trọng nhất của so khớp tự động là ứng
dụng trong nhận dạng. Nhận dạng để điều khiển, nhận dạng để tư vấn, nhận dạng
để xác minh, nhận dạng để phục vụ trong các hệ thống thích nghi.

Handan Road, Shanghai 200433, China, 2006.
Đề tài thực hiện so khớp hồ sơ và phân loại văn bản phục vụ cho việc khai
khoáng trong TREC Genomics dựa vào các kỷ thuật Linear Least Squares Fit,
Logistic Regression, SVM.
 Bài báo “Text Categorization with Support Vector Machines:
Learning with Many Relevant Features” [22] tạm dịch “Phân loại văn bản dùng
Support Vector Manchines: Huấn luyện với nhiều tính năng liên quan” của tác
giả Thorsten Joachims, trường Đại học Dortmund, Đức.
Bài báo trình bày về việc sử dụng và cải tiến kỹ thuật Support Vector
Machines (SVM) cho việc học máy có hiệu quả trong việc phân loại văn bản.
 Bài báo “Text Categorization Based on Regulazired Linear
Classification Methods” [23] tạm dịch “Phân loại văn bản dựa trên phương
pháp phân loại tuyến tính chính quy” của nhóm tác giả Tong Zhang và Franks J.
Oles, Mathematical Sciences Department, IBM T.J. Watson Research Center,
NewYork.
Bài báo trình bày phương pháp phân loại văn bản tuyến tính dựa vào các
kỹ thuật Linear Least Squares Fit, Logistic Regression, SVM.
 Hầu hết các đề tài trên đều tập trung xử lý, chú trọng đến phần học
máy khá nhiều, các đề tài xử lý với ngôn ngữ tiếng nước ngoài. Do đó, để áp cho
tiếng Việt thì có thể có rất nhiều hạn chế.
9

Trong nước:
 Luận án tiến sĩ “Một mô hình tạo lớp học thích nghi trong đào tạo
điện tử” [1] của Nguyễn Việt Anh, khoa Công nghệ thông tin, trường Đại học
Công Nghệ, Đại học Quốc gia Hà Nội, 2009.
Luận án nghiên cứu, đề xuất cách tạo một mô hình khóa học E-Learning
hiệu quả, đáp ứng được yêu cầu của người học thông qua đặc điểm học tập. Với
mỗi người học, cùng một bài học nhưng hệ thống sẽ gợi ý để người học tìm hiểu
các khái niệm, thực hiện các nhiệm vụ khác nhau,… Luận án xây dựng mạng xác

gian vector, mô hình Latent Semantic Indexing (LSI) được sử dụng để lập chỉ
mục, quản lý và truy xuất trên các tập văn bản lớn và thuật toán gom cụm.
 Các đề tài trên đều có những ưu điểm nhất định của nó, tuy nhiên
phạm vi xử lý của nó là khá rộng, do đó khó có thể đánh giá kết quả về độ chính
xác cũng như tính đồng nhất của kết quả.
1.2 Quy trình so khớp profile
Qua tìm hiểu nghiên cứu, tác giả rút ra quy trình so khớp chung cho các
profile như sau:
11

(w(a
1
))
F
1
(w(a
2
))
F
1
(w(a
3
))

F
1
(w(a
n
))

Similarity
Functions
P
2Feature
Extraction
Input Document


(w(a
3
))

F
2
(w(a
n
))

Similarity
Functions
TRAINING

Input
Documents
Attribute

Feature
Extraction
Learning
Algorithm
Result
Matching

đào tạo trực tuyến. Tùy theo miền ứng dụng cụ thể mà hồ sơ cá nhân có những
cấu trúc riêng khác nhau.
Hồ sơ cá nhân cần lưu trữ những thông tin gì của người dùng? Các chuyên
gia trong các miền ứng dụng đã dựa trên kiến thức chuyên môn và kinh nghiệm
về lĩnh vực của họ để cho ra đời các cấu trúc hồ sơ cá nhân tổng quát của từng
miền ứng dụng, sau đây sẽ trình bày một số cấu trúc hồ sơ cá nhân như:
2.1.1 Cấu trúc hồ sơ cá nhân cho hệ thống tư vấn của Montainer [19]
Cấu trúc hồ sơ cá nhân cho hệ thống tư vấn thông tin được đề xuất bởi
Montainer. Montainer xem hồ sơ cá nhân như là sự đánh giá trong quá khứ (kinh
nghiệm) của người dùng về đối tượng mà người dùng quan tâm. Tùy trường hợp,
đối tượng người dùng quan tâm có thể là món hàng, tài liệu, tài nguyên, thông
tin. Hồ sơ cá nhân được chia thành hai phần:
 Một tập các đặc trưng mô tả về đối tượng mà người dùng quan tâm.
 Một tập các đặc trưng về sở thích mô tả sự quan tâm, sự đánh giá của
người dùng đối với các đối tượng mà họ quan tâm.
Ví dụ trong lĩnh vực nhà hàng tập các đặc trưng mà người dùng quan tâm
là: {tên nhà hàng, địa chỉ, cách nấu nướng, giá cả, số chỗ, máy điều hòa, v.v} Và
tập các đặc trưng về sở thích của người dùng đối với nhà hàng là: {đánh giá
14

chung, sự tương xứng giữa giá cả và chất lượng, số lượng món ăn, lượng người
vào website của nhà hàng, v.v}.
Những website bán hàng trực tuyến đã ứng dụng hồ sơ cá nhân nhằm giúp
hệ thống tư vấn tốt như: hệ thống tư vấn sách Amazon.com, hệ thống tư vấn
album nhạc CDNOW, hệ thống tư vấn mua sắm qua mạng eBay, hệ thống tư vấn
mua sắm quần áo Levis, hệ thống tư vấn phim ảnh Moviefinder.com, hệ thống tư
vấn phim ảnh Reel.com. Nếu chúng ta đã từng vào các website này để mua hàng
và cung cấp email liên lạc thì về sau chúng ta sẽ nhận được những lời quảng cáo
về các món hàng mới phù hợp với sở thích của chúng ta và có những nét giống
với món hàng chúng ta đã mua.

thống đào tạo). Mục đích là đặc trưng dễ thay đổi nhất, đặc trưng này
luôn luôn thay đổi từ nội dung này sang nội dung khác và thậm chí
thay đổi vài lần trong một nội dung học.
 Kiến thức nền (Background): là tên gọi chung của một tập hợp các đặc
trưng liên quan đến kinh nghiệm trước đây của người dùng và những
đối tượng liên quan. Thành phần này trong các hệ thống web thích
nghi (adaptive web system) thường gồm: nghề nghiệp, trách nhiệm
công việc, kinh nghiệm làm việc trong lĩnh vực có liên quan và thậm
chí là quan điểm cụ thể trong phạm vi công tác. Thành phần này
thường là cố định trong suốt quá trình làm việc với hệ thống và cũng
khó suy ra bằng cách quan sát quá trình người dùng tương tác với hệ
thống.
 Những nét tiêu biểu của người dùng (Individual traits): là tên gọi
chung của những đặc trưng giúp hình dung ra từng cá thể, ví dụ đặc
trưng về nhân cách (hướng nội/ ngoại), cách nhận thức, cách học. Đây
là đặc trưng tĩnh, nghĩa là không thay đổi sau một thời gian dài, và
thậm chí không bao giờ thay đổi. Khác với background, đặc trưng này
có thể thu được qua những bài kiểm tra về tâm lý được thiết kế riêng.
16

2.1.3 Cấu trúc hồ sơ cá nhân cho hệ thống đào tạo trực tuyến của Lê
Đức Long và cộng sự [7]
Đây là mô hình mở rộng của mô hình hồ sơ cá nhân do Brusilouvsky đề
xuất. Nhóm nghiên cứu của Lê Đức Long và cộng sự dựa trên kinh nghiệm của
các chuyên gia sư phạm, các chuyên gia tâm lý đã đề xuất một cấu trúc chung
cho hồ sơ cá nhân người học trực tuyến, ứng dụng trong hệ thống đào tạo trực
tuyến thích nghi (Adaptive e – Learning System - AeLS) gồm bốn nhóm đặc
trưng chính: demographics, training experiences, self-study activities, learning
demands.


 Learning demands (nhu cầu học tập): những đặc trưng của nhóm này
là cơ sở giúp cho hệ thống có thể cung cấp cho người học những tài
nguyên/ dịch vụ đáp ứng được mục đích hay yêu cầu của bản thân
người học và điều này sẽ giúp việc học tập trên mạng trở nên hấp dẫn
hơn, kích thích được động cơ học tập của cá nhân người học. Nhóm
này gồm các đặc trưng như: động cơ học tập, nhu cầu học tập và sở
thích.
2.1.4 Kết luận
Trong những vấn đề liên quan đến hồ sơ cá nhân được nêu trên, chúng ta
thấy có nhiều cấu trúc hồ sơ cá nhân được đề xuất cho những miền ứng dụng cụ
thể. Tuy vậy, trong một ứng dụng cụ thể nếu áp dụng máy móc cấu trúc hồ sơ cá
nhân tổng quát của một miền tương ứng sẽ không tránh khỏi tình trạng có những
đặc trưng không cần thiết. Việc lưu trữ, xử lý các thông tin dư thừa làm hao tốn
tài nguyên hệ thống trong quá trình hỗ trợ thích nghi người dùng.
Mặc khác, hiện nay vẫn chưa có nghiên cứu nào đề cập đến các phương
pháp chọn ra những thuộc tính hữu ích nhất, ngoài kinh nghiệm của các chuyên
gia. Các thuộc tính còn được chọn theo kinh nghiệm nên còn mang tính chủ quan
cao. Do vậy, bài toán đặt ra là cần tinh chỉnh cấu trúc tổng quát để tạo ra cấu trúc
hồ sơ cá nhân mới phù hợp với những hệ thống cụ thể.
Luận văn nhằm hướng đến việc xây dựng giải pháp biểu diễn hồ sơ cá nhân
người sử dụng từ các thông tin trên mạng xã hội để hỗ trợ so sánh mức độ tương
đồng giữa các hồ sơ cá nhân. Dựa trên đặc trưng hồ sơ cá nhân tổng quát, tác giả
sẽ tập trung nghiên cứu đề xuất những tiêu chí để đánh giá mức độ tương đồng
giữa các hồ sơ cá nhân. Chi tiết được trình bày chi tiết ở chương tiếp theo.
18

2.2 Xử lý thông tin profile
Thông tin profile có thể ở dạng văn bản, hình ảnh, âm thanh và ứng với
mỗi dạng thông tin khác nhau đó có các kỷ thuật xử lý cũng như phương pháp
khác nhau để chúng ta có được đặc trưng cần so sánh. Trong phạm vi luận văn


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status