Quảng cáo trực tuyến hướng câu truy vấn với sự giúp đỡ của phân tích chủ đề và kỹ thuật tính hạng - Pdf 10

Sn d

KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY

Ngành
:

Công nghệ thông tin
HÀ NỘI - 2009

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ



KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY

Ngành
:

Công nghệ thông tin Cán bộ hướng dẫn: PGS. TS. Hà Quang Thụy
Cán bộ đồng hướng dẫn: CN. Nguyễn Minh Tuấn

HÀ NỘI - 2009

Lời cảm ơn
Trước tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo sư Tiến sĩ Hà
Quang Thụy và Cử nhân Nguyễn Minh Tuấn, người đã tận tình chỉ bảo và hướng dẫn tôi
trong suốt quá trình thực hiện khoá luận tốt nghiệp.
Tôi chân thành cảm ơn các thầy, cô đã tạo cho tôi những điều kiện thuận lợi để học tập và
nghiên cứu tại trường Đại Học Công Nghệ.
Tôi cũng xin gửi lời cảm ơn tới các anh chị và các bạn sinh viên trong nhóm “Khai phá dữ
liệu” đã giúp đỡ và hỗ trợ tôi rất nhiều về kiến thức chuyên môn và trong việc thu thập dữ
liệu.
Cuối cùng, tôi muốn gửi lời cảm vô hạn tới gia đình và bạn bè, những người thân yêu

Quảng cáo trực tuyến ........................................................................................................ 4

1.2.1.

Tốc độ tăng trưởng và thị phần .................................................................................. 4

1.2.2.

Các hình thức quảng cáo trực tuyến .......................................................................... 5

1.3.

Quảng cáo trực tuyến ở Việt Nam .................................................................................... 6

1.3.1.

Tổng quan về quảng cáo trực tuyến ở Việt Nam ....................................................... 7

1.3.2.

Những tài nguyên chưa được khai thác và thị trường quảng cáo trực tuyến ........... 10

1.4.

Quảng cáo thông qua tìm kiếm ....................................................................................... 13

Chương 2. Các phương pháp quảng cáo thông qua tìm kiếm ....................................................... 16

2.1.


Xếp hạng trong máy tìm kiếm ................................................................................. 25

3.1.2

Học xếp hạng và SVM Rank ................................................................................... 26

3.1.3

Các phương pháp đánh giá xếp hạng ....................................................................... 30

3.2

Chủ đề ẩn ........................................................................................................................ 33

3.2.1

Latent Dirichlet Allocation (LDA) .......................................................................... 34

3.2.2

Mô hình sinh trong LDA ......................................................................................... 35

3.2.3

Ước lượng tham số và suy luận ............................................................................... 36

3.3

Mô hình quảng cáo trực tuyến hướng câu truy vấn với sự giúp đỡ của phân tích chủ đề
và kỹ thuật tính hạng ................................................................................................................. 39


4.3.1. Tiền xử lý dữ liệu ........................................................................................................ 45

4.3.2. Thu thập thông tin từ các URL có được ...................................................................... 46

4.3.3. Véc tơ hóa dữ liệu ........................................................................................................ 47

4.3.4. Thiết kế thực nghiệm ................................................................................................... 47

4.4.

Kết quả thực nghiệm ....................................................................................................... 48

4.5.

Đánh giá kết quả thực nghiệm ........................................................................................ 50Kết luận .......................................................................................................................................... 52

Tài liệu tham khảo ......................................................................................................................... 53
Danh sách các bảng
Bảng 1. Một số website lớn cung cấp dịch vụ quảng cáo trực tuyến ở Việt Nam .......................... 9

Bảng 2 Cấu hình phần cứng sử dụng trong thực nghiệm .............................................................. 44

Bảng 3. Danh sách các phần mềm mã nguồn mở được sử dụng ................................................... 44


Hình 13. Trung bình độ đo NDCG@5 tại các sô lượng truy vấn khác nhau ................................ 49

Hình 14. Trung bình độ đo MAP tại các số lượng truy vấn khác nhau ......................................... 50

Bảng các từ viết tắt

CPA Cost Per Action/Acquisition
CPC Cost Per Click
CPM Cost Per Mille/Thousand
CTR Cost Through Rate
IDF Inverse Document Frequencies
LDA Latent Dirichlet Allocation
LSA Latent Semantic Analysis
LSI Latent Semantic Indexing
PLSA Probabilistic Latent Semantic Analysis
PLSI Probabilistic Latent Semantic Indexing
PPC Pay Per Click
TF Term Frequencies
Lời mở đầu
Quảng cáo trực tuyến đang ngày càng phát triển và đem lại những khoản lợi nhuận
khổng lồ trong các năm gần đây, lên đến 47.5 tỉ đô la [33]. Quảng cáo trên máy tìm kiếm
là hình thức quảng cáo trực tuyến phổ biến nhất, trong đó các quảng cáo được hiển thị bên
cạnh kết quả tìm kiếm trả về cho người dùng. Trong 5 năm gần đây, nhằm tìm kiếm và
đưa ra một thứ tự quảng cáo phù hợp nhất, rất nhiều công trình trong nước cũng như trên
thế giới đã được công bố [11], [22], [24], [25], [27], [30].
Lê Diệu Thu [27] đã đi theo một hướng tiếp cận mới trong quảng cáo theo ngữ cảnh

Quảng cáo là hình thức tuyên truyền, giới thiệu hàng hoá, dịch vụ nhằm tạo sự hấp
dẫn và kích thích người mua để đẩy mạnh việc bán hàng cũng như thực hiện dịch vụ.
Trong chừng mực nhất định, quảng cáo cũng có tác dụng tích cực, tuy nhiên nó làm tăng
giá cả của hàng hoá. Trong nền kinh tế hàng hoá, chi phí về quảng cáo thường rất lớn.
Hình thức quảng cáo rất phong phú: áp phích đặc biệt, đăng báo, phát thanh, vô tuyến
truyền hình, điện ảnh, triển lãm chế phẩm, nhãn hiệu sản xuất, tủ kính bày hàng ở các cửa
hàng hay các xí nghiệp, thư tín, quà biếu [6].
Theo một tài liệu khác, quảng cáo là một hiện tượng phức tạp, gắn bó mật thiết với
xã hội, văn hóa, lịch sử và kinh tế, nó không tuân theo bất cứ một định nghĩa đơn giản hay
riêng biệt nào. Một vài khía cạnh của quảng cáo rất phổ dụng trong khi một vài khía cạnh
khác lại mang đặc trưng cụ thể về văn hóa. Quảng cáo biến đổi từ nghệ thuật bán hàng cá
nhân tới truyền thông gián tiếp, cung cấp những thông tin mới nhằm thuyết phục con
người. Bên cạnh những thông báo nhằm mục đích bán hàng nó còn ẩn chứa những giá trị
văn hóa và các ý kiến xã hội. Tùy thuộc vào từng quan điểm khác nhau, quảng cáo có thể
có tác dụng tích cực hay tiêu cực tới xã hội và kinh tế [8].
Cũng theo [39] thì cha đẻ của hình thức quảng cáo là một người Ai Cập cổ. Ông ta
đã dán tờ thông báo đầu tiên trên tường thành Thebes vào khoảng năm 3000 trước Công
nguyên. Vài thế kỷ sau đó, ở Hy Lạp hình thức thông báo này trở nên rất phổ biến khi các
thông tin dành cho công chúng được vẽ lên các tấm bảng gỗ trưng bày ở quảng trường
thành phố. Nếu như các bảng quảng cáo đã phát triển nhanh sau sự ra đời của phương
pháp in (bức áp phích đầu tiên do Caxton, người Anh, in từ năm 1477), thì họa sĩ Pháp
J.Chéret (1835-1932) lại là người phát minh ra hình thức quảng cáo hiện đại. Đó là tờ
quảng cáo một buổi biểu diễn năm 1867, gồm một câu ngắn và một hình ảnh màu mè gây
ấn tượng mạnh. Tuy nhiên, chính họa sĩ Italy L.Cappiello (1875-1942) mới là người đầu
tiên thực sự đề cập tới áp phích quảng cáo với tấm biển quảng cáo kẹo chocolate "Klaus"
của ông năm 1903.
3

Ngày nay quảng cáo đã có những bước phát triển mới và được tiến hành thông qua
các phương tiện thông tin đại chúng như: truyền hình, báo chí, phát thanh, quảng cáo qua

thông tin hình ảnh và trình duyệt web sẽ thực thi một số công việc khi người dùng click
vào một quảng cáo [32].
Một thập niên sau khi xuất hiện, những người quảng cáo trên thị trường Mĩ đã chi
9.6 tỉ đô la cho quảng cáo trực tuyến, năm 2004 tăng hơn 31.5% so với năm 2003; so sánh
với 10% cho quảng cáo trên truyền hình, 7.4 % cho những dịch vụ quảng cáo khác nói
chung và 6.6% cho GDP của nền kinh tế Mĩ (Hình 1). Theo báo cáo của IAB [33] vào
năm 2008, doanh thu từ quảng cáo trực tuyến đã đạt tới hơn 23 tỉ đô la vào cuối năm
2008.

Hình 1. Doanh thu quảng cáo trực tuyến nửa đầu và cuối những năm từ 1999 đến 2008 ở
Mĩ [33].
Theo báo cáo mới nhất của Strategy Analytics [38], tổng chi phí cho quảng cáo trực
tuyến trên toàn thế giới đã lên tới gần 47.5 tỉ đô la vào năm 2007 và có thể vượt 100 tỉ đô
la vào năm 2012.
Những thông tin trên cho thấy tốc độ phát triển nhanh chóng của quảng cáo trực
tuyến trong những năm qua và còn hứa hẹn những mức doanh thu khổng lồ trong các năm
tới.
1.2.2. Các hình thức quảng cáo trực tuyến
Quảng cáo trực tuyến có thể được phân loại thành hai loại: hợp pháp (các mạng
quảng cáo) và không hợp pháp (spamming).
5

Quảng cáo spam thường xâm nhập vào hệ thống và được gọi là Spyware, Adware
hay quảng cáo Pop-up. Ví dụ, khi một trình duyệt mới được mở, pop-up quảng cáo xuất
hiện và chuyển hướng người dùng tới website quảng cáo. Điều này gây nhiều bức xúc cho
người dùng, vì vậy nhiều trình duyệt hỗ trợ chức năng chặn pop-up để giới hạn các pop-
up không hợp pháp. Spyware và Adware thường là những ứng dụng mở rộng, một vài
trong số chúng có thể gây hại, ví dụ như Trojan.
Những quảng cáo hợp pháp có thể được phân loại thành: Quảng cáo trưng bày,
email, phân loại và đấu giá, Lead Generation, đa phương tiện và tìm kiếm. Chi tiết về các

.

1.3.1.2. Các hình thức quảng cáo trực tuyến ở Việt Nam
Về hình thức, quảng cáo trực tuyến ở Việt Nam chủ yếu hướng tới việc quảng cáo
thương hiệu với hình thức logo/banner (Hình 3). Tại các website lớn, logo/banner chi chít
bất chấp các tiêu chuẩn về hiệu quả gây ấn tượng (nhiều nhất 4 quảng cáo/một màn hình).
Các dạng quảng cáo như qua từ khóa, quảng cáo theo ngữ cảnh, theo hành vi ... còn là
những khái niệm mới mẻ. Và hiện nay, cũng chưa có một chuẩn nào đối với các mẫu thiết
kế cho quảng cáo trực tuyến (kích thước, vị trí ...). Điều này khiến khách hàng mất thêm
nhiều thời gian và chi phí khi tiến hành quảng cáo tại các website khác nhau [4].
Khách hàng của quảng cáo trực tuyến mới chỉ tập trung ở một vài ngành. Khảo sát
tại những website có đông quảng cáo nhất, những doanh nghiệp đứng ở những vị trí đắt
nhất thường là các doanh nghiệp viễn thông, ngân hàng, kế đến là các doanh nghiệp, cơ
sở trong ngành điện máy, giáo dục, ẩm thực.
7 Hình 3.
Quảng cáo trực tuyến tại một trang báo điện tử Việt Nam
Ngoài ra, chưa có một tổ chức đủ uy tín đóng vai trò trung gian để đánh giá một
cách khách quan về số lượng người dùng của các website cũng như hiệu quả khi tiến hành
quảng cáo trực tuyến. Không ít các website đưa ra thông tin về số lượng người dùng với
những con số khổng lồ. Điều này khiến doanh thu của quảng cáo trực tuyến ở Việt Nam
tập trung tại một vài trang web có lượng truy cập cao nhất (chủ yếu là các báo điện tử,
trang tin tức như VnExpress, Dân Trí, Vietnamnet, 24h.com.vn...) thay vì có thể phân bổ
ở các website đặc thù (du lịch, giải trí, thương mại...).
Về hình thức thanh toán, vẫn sử dụng những hình thức thanh toán truyền thống như
quảng cáo trên báo chí, số tiền người quảng cáo trả cho công ty quảng cáo được tính theo
kích thước của banner, số lần hiển thị quảng cáo trên trang web cùng thứ hạng của trang
web quảng cáo (phương pháp CPM). Thứ hạng của các trang web thường được xác định


6 Báo điện tử VnMedia www.vnmedia.com.vn

7 Ngôi sao

8 Công ty Cổ phần Quảng cáo dịch vụ trực tuyến www.24h.com.vn

9 Công ty Truyền thông đa phương tiện (VTC) www.vtc.com.vnTóm lại, quảng cáo trực tuyến ở Việt Nam hiện nay mới có số lượng người tham gia
ít ỏi và chưa phong phú về hình thức. Các hình thức quảng cáo chủ yếu là banner và được
thanh toán dựa vào kich thước, vị trí banner và thứ hạng của trang web.

1

2

3

9

1.3.2. Những tài nguyên chưa được khai thác và thị trường quảng cáo trực tuyến
Ở phần trước khóa luận đã giới thiệu một cái nhìn tổng quan về quảng cáo trực tuyến
ở Việt Nam, tuy còn mới mẻ nhưng đang được mở rộng và có nhiều tiềm năng. Trong
phần này, khóa luận sẽ trình bày kĩ hơn về những tài nguyên chưa được khai thác và thị
trường quảng cáo trực tuyến, từ đó chỉ ra tiềm lực và những vấn đề nổi trội của quảng cáo
trực tuyến tại Việt Nam trong các năm tới.
1.3.2.1. Tốc độ phát triển nhanh chóng của thương mại điện tử ở Việt Nam
Thương mại điện tử là một nhân tố quan trọng của quảng cáo trực tuyến, đặc biệt

1.3.2.2. Sự bùng nổ của xã hội trực tuyến và các mạng xã hội
Thời gian gần đây, việc sử dụng công nghệ World Wide Web và thiết kế web cho
phép người dùng chia sẽ thông tin một cách dễ dàng hơn ví dụ như những trang web
mạng xã hội, các trang wiki, blog và diễn đàn. Cùng với đó, số lượng người Việt Nam sử
dụng Internet cũng ngày càng tăng lên, tạo thành một cộng đồng trực tuyến rộng lớn giữa
những người Việt Nam. Theo VNNIC (VietNam Internet Association), vào tháng 3 năm
2008, số lượng người Việt Nam sử dụng Internet đã lên tới trên 19 triệu người (chiếm
19.41% dân số) và con số này đang ngày càng tăng lên [4]. Thị trường này lớn hơn so với
ở Thái Lan, Philippines và Indonesia. Trong một vài năm qua, các cộng đồng trực tuyến
đã được chứng kiến sự phát triển và cạnh tranh của các trang web mạng xã hội, ví dụ như:
Yahoo! 360 blog, Tamtay, Yobanbe, Cyworld, Zoomban,...
Tuy nhiên, có một khoảng cách lớn về sự phát triển của thương mại điện tử giữa ở
Việt Nam và các nước phát triển trên thế giới mà phần lớn là ở thói quen người dùng và
thu nhập.
1.3.2.3. Thị trường quảng cáo trực tuyến, cái nhìn lâu dài
Tốc độ phát triển nhanh chóng của thương mại điện tử, sự bùng nổ của cộng đồng
trực tuyến và các cổng thông tin web ở Việt Nam đã tạo nền tảng vững chắc cho sự phát
triển của quảng cáo trực tuyến. Trong thời gian gần đây, các nhà quảng cáo lớn như
Yahoo và Google đã bắt đầu quan tâm tới thị trường quảng cáo trực tuyến tại Việt Nam,
họ bắt đầu xây dựng những chiến lược tiếp thị và các dịch vụ khác nhau cho người dùng
Việt Nam. Theo VietnamNet, Google đã tiến hành dịch các dịch vụ của họ sang tiếng
Việt, ví dụ như dịch vụ quảng cáo AdWords
4
. Yahoo đang nắm giữ số lượng người dùng

/>
4

11


phải luôn luôn thành công ở thị trường khu vực, đặc biệt là ở Châu Á [32]. Người dùng
Việt Nam vẫn luôn chờ đợi một mạng tiếng Việt từ các công ty trong nước. Việc xây
dựng và phát triển quảng cáo trực tuyến ở Việt Nam đã trở thành một yêu cầu thiết yếu
trong sự phát triển lâu dài, và người Việt Nam sẽ sớm được chứng kiến những bước phát
triển mới trong thị trường quảng cáo những năm tiếp theo.
1.4. Quảng cáo thông qua tìm kiếm
Quảng cáo thông qua tìm kiếm là hình thức quảng cáo mà các quảng cáo được hiển
thị dựa vào các từ khóa hay các cụm từ được xác định từ trước [22]. Quảng cáo thông qua
tìm kiếm bao gồm các nhân tố chính sau:
- Nội dung quảng cáo: nội dung quảng cáo được người quảng cáo cung cấp cho các
công ty quảng cáo, nội dung quảng cáo thường gồm: tiêu đề, mô tả, url, và các từ khóa
tương ứng với quảng cáo.
- Chi phí cho mỗi từ khóa: là chi phí mà người quảng cáo phải trả cho công ty
quảng cáo đối với từng từ khóa hay cụm từ cụ thể.
- Các quá trình kiểm tra tự động hoặc bằng tay nhằm đảm bảo nội dung quảng cáo
phù hợp với các từ khóa.
- Tìm kiếm các quảng cáo phù hợp với truy vấn người dùng (quảng cáo trên máy
tìm kiếm) hay phù hợp với nội dung trang web (quảng cáo theo ngữ cảnh).
- Hiển thị các nội dung quảng cáo theo thứ tự phù hợp.
- Thu thập thông tin, đo số lần click của người dùng, xác định các hành động của
người dùng và yêu cầu người quảng cáo trả tiền theo các thông tin đó.
Hình 5 là một ví dụ về quảng cáo trên máy tìm kiếm MSN, khi người dùng tìm kiếm
với từ khóa “hotel”, một danh sách các quảng cáo có liên quan tới khách sạn sẽ được hiển
thị.
13 Hình 5.
Mô tả nội dung một quảng cáo [36]
Hình 6 dưới đây mô tả kiến trúc cơ bản của một hệ thống quảng cáo thông qua tìm

truy vấn của người dùng.
Xếp hạng quảng cáo là một bài toán nhận được rất nhiều sự quan tâm hiện nay. Có
rất nhiều phương pháp và mô hình đã được đưa ra, ví dụ như “mô hình quảng cáo sử dụng
phản hồi liên quan” [11], “mô hình ước lượng CTR(Click Through Rate)” [25] hay cách
tiếp cận “trích xuất từ khóa quảng cáo từ nội dung trang web” [30], “impedance coupling”
[24] và “ranking optimization” [22]. Các phương pháp này sẽ được trình bày kĩ ở chương
sau.
15

Chương 2. Các phương pháp quảng cáo thông qua tìm
kiếm
Nhiệm vụ chính của một hệ thống quảng cáo thông qua tìm kiếm là quyết định các
quảng cáo nào sẽ được hiển thị và thứ tự hiển thị của chúng theo mức độ phù hợp với truy
vấn của người dùng hay nội dung trang web (ngữ cảnh). Khi người dùng tìm kiếm, mục
đích chính của họ là tìm kiếm những tài liệu liên quan đến từ khóa chứ không phải tìm
kiếm các quảng cáo, do vậy người dùng sẽ chỉ thực sự chú ý đến quảng cáo khi những
quảng cáo được đưa ra có tính phù hợp cao với điều mà họ quan tâm. Mặt khác, việc hiển
thị các quảng cáo phù hợp có thể giúp người dùng có thêm những thông tin hữu ích, tiếp
cận những dịch vụ mong muốn, ngược lại nếu các quảng cáo được đưa ra không phù hợp
có thể làm người dùng cảm thấy khó chịu và giảm mức độ hài lòng với máy tìm kiếm.
Trong 5 năm gần đây, có rất nhiều phương pháp trên thế giới và một số phương
pháp ở Việt Nam đã được công bố nhằm giải quyết vấn đề này, dưới đây là một số
phương pháp nổi bật.
2.1. Mô hình trích xuất từ khóa trong nội dung trang web
Đây là một mô hình của quảng cáo theo ngữ cảnh. Dựa trên tư tưởng của quảng cáo
trên máy tìm kiếm, ta có thể coi trang web hiện tại như một truy vấn dài bao gồm nhiều từ
khóa. Yih và các cộng sự [30] đã đề xuất một mô hình học giám sát cho phép trích xuất
các từ khóa trong nội dung trang web. Tiến hành học từ một tập các trang web đã được
định nghĩa các từ khóa từ trước, họ xây dựng một bộ phân lớp sử dụng học máy với thuật
toán hồi quy logic (logistic regression).


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status