Một số vấn đề liên quan đến Search Engine ứng dụng trong Text - Pdf 25

2
MỤC LỤC
MỤC LỤC 2
BẢNG KÝ HIỆU VIẾT TẮT 4
DANH MỤC CÁC BẢNG 5
DANH MỤC CÁC HÌNH VẼ 6
MỞ ĐẦU 7
Chương 1: TỔNG QUAN VỀ SEARCH ENGINE 9
1. Định nghĩa 9
1.1 Search engine là gì? 9
1.2 Phân loại máy tìm kiếm 9
2. Các bộ phận cấu thành hệ thống SE 11
2.1 Bộ phận thu thập thông tin – Robot 11
2.2 Bộ phận lập chỉ mục – Index 12
2.3 Bộ phận tìm kiếm thông tin – SE 12
3. Bộ phận thu thập thông tin – ROBOT 13
3.1 Ứng dụng của Robot 13
3.2 Robot chỉ mục – Robot Indexing 14
4. Bộ phận lập chỉ mục – INDEX 15
5. Bộ phận tìm kiếm thông tin – SEARCH ENGINE 17
5.1 Các phương thức tìm kiếm 17
5.2 Các chiến lược tìm kiếm 18
6. Nguyên lý hoạt động 20
Chương 2: MỘT SỐ SEARCH ENGINE THÔNG DỤNG TRÊN THẾ GIỚI
VÀ CỦA VIỆT NAM 21
1. Các SE thông dụng trên thế giới 21
2. Các SE của Việt Nam 22
2.1 Netnam 22
2.2 Vinaseek 29
3. Xu thế phát triển của SE 30
4. Một số SE trên text 31

KẾT LUẬN 90
TÀI LIỆU THAM KHẢO 92
1. Tiếng Việt 92
2. Tiếng Anh 92
3. Website 92
4
BẢNG KÝ HIỆU VIẾT TẮT
Ký hiệu viết tắt Tiếng Anh Tiếng Việt
SE Search Engine Máy tìm kiếm
IF Inverted File Tệp đảo
ID Index Chỉ mục
SFID Signature file index Chỉ mục tệp ký số
IFID Inverted File Index Chỉ mục tệp đảo
IL Inverted list Danh sách đảo
SA Suffix Array Mảng tiếp tố
MSFT Microsoft Full Text Toàn văn của Microsoft
SF Signature File Tệp ký số
CSDL Database Cơsở dữ liệu
5
DANH MỤC CÁC BẢNG
Bảng 1.1: Các từ khóa giúp tối ưu câu truy vấn 19
Bảng 2.1: Bảng tóm tắt tính năng của các SE thông dụng trên thế giới 22
Bảng 2.2: Bảng miêu tả các từ khoá sử dụng trong việc tìm kiếm 27
Bảng 2.3: Ví dụ tìm kiếm thông tin của Netnam 29
Bảng 2.4: Các thành phần của MSFTESQL 32
Bảng 2.5: Các thuộc tính dùng để ranking 33
Bảng 2.6: Các toán tử dùng trong Oracle Text 38
Bảng 3.1: Bảng minh họa quá trình xây dựng mảng tiếp tố 49
Bảng 3.2: Bảng danh sách các điểm truy cập mảng tiếp tố 49
Bảng 3.3: Văn bản mẫu; mỗi dòng là một tài liệu 50

Mỗi giây trôi qua trên thế giới lại xuất hiện hàng ngàn trang web, hàng triệu
tài liệu khác nhau. Thế giới Internet ngày càng khổng lồ, kho tri thức của nhân loại
càng ngày được phát triển với nhiều loại hình thông tin khác nhau, đó là dữ liệu
hình ảnh, âm thanh hay dữ liệu Text Khi thông tin càng bùng nổ thì nhu cầu tìm
kiếm càng càng tăng cao, bởi vậy ngày càng có rất nhiều công cụ hỗ trợ cho việc
tìm kiếm được chính xác và hiệu quả.
Một số lượng lớn thông tin ngày nay là dạng Text, được lưu ở văn bản, các
trang web, fax, email…Những thông tin quan trọng này thường rất khó truy cập và
quản lý gặp nhiều trở ngại. Có rất nhiều loại dữ liệu Text được khai thác không
đúng mức, những thông tin cần thiết không được tìm thấy khi cần thiết hoặc phải
mất rất nhiều công sức. Hiện nay các hệ quản trị cơsở dữ liệu đã hỗ trợ rất tốt tính
năng tìm kiếm dữ liệu toàn văn (full-text) nhưOracle, Microsoft, MySQL, Những
tính năng này hầu như đã đáp ứng việc tìm kiếm cho nhiều nguồn tài liệu khác
nhau, cấu trúc khác nhau, tuy nhiên những công cụ này không thực sự thỏa mãn cho
tìm kiếm tiếng Việt, cụ thể là vấn đề bảng mã, ngữ pháp đặc trưng riêng của tiếng
Việt.
Luận văn này tập trung tìm hiểu hoạt động mô hình máy tìm kiếm (Search
engine), một số trang tìm kiếm của thế giới và Việt Nam, các kỹ thuật chỉ mục, đặc
thù của việc tìm kiếm tiếng Việt và triển khai thử nghiệm trên chức năng tìm kiếm
toàn văn của Oracle.
Luận văn gồm 4 chương:
Chương 1: Giới thiệu tổng quan về SE, các thành phần cấu thành của một SE.
Các nguyên lý hoạt động, các chiến lược tìm kiếm được đưa ra trong chương này hỗ
trợ các khái nhiệm cơbản cho việc phát triển SE.
Chương 2: Phân tích hiện trạng một số SE của thế giới, SE của Việt Nam và
xu hướng phát triển SE của thế giới. Tìm hiểu các SE trên Text của các hệ quản trị
cơsở dữ liệu nhưOracle, Microsoft cũng được đưa ra trong chương này.
Chương 3: Tập trung tìm hiểu các phương pháp chỉ mục thông dụng. Chương
này đưa ra tổng quan về cách lập chỉ mục, chỉ mục tự động. Ngoài ra trong chương
8

hiển thị kết quảtìm thấy theo đúng thứ tự quan trọng của các trang và theo mong
muốn của người dùng là một trở ngại lớn đòi hỏi sự chắt lọc từ máy truy tìm và sự
khéo léo về cách thức đặt ra từ khoá từ người dùng máy
1.2 Phân loại máy tìm kiếm
Ngày nay các máy truy tìm đã phát triển rất xa so với dạng nguyên thuỷ. Có
hai cách chính phân loại máy truy tìm.
1.2.1 Theo phương thức hoạt động
 Kiểu máy nhện (spider): Cơsở dữ liệu của các máy truy tìm được cập nhật
bởi các phần mềm đặc biệt thường gọi là "robot", "spider" hay
"Webcrawler". Các phần mềm này sẽ tự động dò tìm và phân tích từ những
trang có sẵn trong cơsở dữ liệu để tìm ra các liên kết (link) từ các trang và
10
trở lại bổ sung dữ liệu cho chính nó sau khi phân tích. Phần mềm này cũng sẽ
báo cáo về các liên kết đã bị đào thải. Từ khoá được trích chọn là để cho SE
tìm kiếm trong bảng chỉ số. Kết quả tốt nhất sau khi phân hạng sẽ được xếp ở
thứ tự đầu tiên. Trang thông dụng nhất dùng nguyên tắc này là

Hình 1.1: Giao diện của máy metacrawler
 Kiểu máy truy tìm ảo (meta-search engine): Ngày nay, người ta có thể lợi
dụng các máy truy tìm sẵn có để thiết kế thành một loại máy truy tìm mới gọi
là máy truy tìm ảo. Nguyên tắc của loại máy truy tìm ảo khá đơn giản. Kiểu
máy truy tìm ảo không có cơsở dữ liệu. Khi hoạt động thì máy sẽ gởi từ
khoá đến các máy truy tìm khác một cách đồng loạt và nhận về tất cả các kết
quả tìm được. Nhiệm vụ tiếp theo chỉ là phân tích và phân hạng lại các tài
liệu tìm được cho người dùng. Ưu điểm của loại máy truy tìm này là lợi dụng
cơsở dữ liệu của các máy truy tìm khác để tìm ra nhiều kết quả hơn và
nhanh hơn. Nhưng vì loại này chỉ tồn tại nếu có các máy truy tìm nguyên
thuỷ nên gọi là meta. Điển hình loại này là MetaCrawler.
 Kiểu thưmục đối tượng (subject directory): Còn gọi là máy truy tìm theo
phân lớp (hierarchical search engine) - máy truy tìm này phân lớp sẵn các

thập tài liệu và một cách đệ quy nó nhận về tất cả tài liệu có liên kết với tài liệu này.
Robot được biết đến dưới nhiều tên gọi khác nhau : spider, web wanderer hoặc
web worm,… Những tên gọi này đôi khi gây nhầm lẫn, nhưtừ ‘spider’, ‘wanderer’
làm người ta nghĩ rằng robot tự nó di chuyển và từ ‘worm’ làm người ta liên tưởng
đến virus. Về bản chất robot chỉ là một chương trình duyệt và thu thập thông tin từ
các site theo đúng giao thức web. Những trình duyệt thông thường không được xem
là robot do thiếu tính chủ động, chúng chỉ duyệt web khi có sự tác động của con
người.
12
2.2 Bộphận lập chỉ mục – Index
Hệ thống lập chỉ mục hay còn gọi là hệ thống phân tích và xử lý dữ liệu, thực
hiện việc phân tích, trích chọn những thông tin cần thiết (thường là các từ đơn , từ
ghép , cụm từ quan trọng) từ những dữ liệu mà robot thu thập được và tổ chức thành
cơsở dữ liệu riêng để có thể tìm kiếm trên đó một cách nhanh chóng, hiệu quả. Hệ
thống chỉ mục là danh sách các từ khoá, chỉ rõ các từ khoá nào xuất hiện ở trang
nào, địa chỉ nào.
2.3 Bộphận tìm kiếm thông tin – SE
SE là cụm từ dùng chỉ toàn bộ hệ thống bao gồm bộphận thu thập thông tin,
bộphận lập chỉ mục và bộphận tìm kiếm thông tin. Các bộphận này hoạt động liên
tục từ lúc khởi động hệ thống, chúng phụ thuộc lẫn nhau về mặt dữ liệu nhưng độc
lập với nhau về mặt hoạt động.
SE tương tác với người dùng thông qua giao diện web, có nhiệm vụ tiếp nhận
& trả về những tài liệu thoả yêu cầu của người dùng.
Nói một cách đơn giản, tìm kiếm từ là tìm kiếm các trang mà những từ trong
câu truy vấn (query) xuất hiện nhiều nhất, ngoại trừ stopword (các từ quá thông
dụng nhưmạo từ a, an, the,…). Một từ càng xuất hiện nhiều trong một trang thì
trang đó càng được chọn đểtrả về cho người dùng. Và một trang chứa tất cả các từ
trong câu truy vấn thì tốt hơn là một trang không chứa một hoặc một số từ. Ngày
nay, hầu hết các SE đều hỗ trợ chức năng tìm cơbản và nâng cao, tìm từ đơn, từ
ghép, cụm từ, danh từ riêng, hay giới hạn phạm vi tìm kiếm nhưtrên đề mục, tiêu

Có lẽ ứng dụng thú vị nhất của robot là dùng nó để phát hiện tài nguyên. Con
người không thể kiểm soát nổi một khối lượng thông tin khổng lồ trong môi trường
mạng. Robot sẽ giúp thu thập tài liệu, tạo và duy trì cơsở dữ liệu, phát hiện và xoá
bỏ các liên kết hỏng nếu có, kết hợp với công cụ tìm kiếm cung cấp thông tin cần
thiết cho con người.
14
3.1.5 Kết hợp các công dụng trên- Combined uses
Một robot có thể đảm nhận nhiều chức năng. Ví dụ RBSE Spider vừa thống kê
số lượng tài liệu thu được vừa tạo cơsở dữ liệu. Tuy nhiên những ứng dụng nhưthế
còn khá ít ỏi.
3.2 Robot chỉ mục – Robot Indexing
Trong quá trình thu thập thông tin phục vụ cho bộ lập chỉ mục, ta cần giải
quyết những vấn đề sau :
Một là : Trong môi trường mạng, robot lấy thông tin từ các site. Vậy robot sẽ
bắt đầu từ site nào? Điều này hoàn toàn phụ thuộc vào robot. Mỗi robot khác nhau
sẽ có những chiến lược khác nhau. Thường thì robot sẽ viếng thăm các site phổ biến
hoặc những site có nhiều liên kết dẫn đến nó.
Hai là : Ai sẽ cung cấp địa chỉ của các site này cho robot ?
Có 2 nguồn :
Robot nhận các URL ban đầu từ user.
Robot phân tích các trang web để lấy các URL mới, đến lượt các URL này trở
thành địa chỉ đầu vào cho robot. Quá trình này được lặp lại liên tục.
Ba là : Chọn dữ liệu nào trong tài liệu để lập chỉ mục ?
Quyết định chọn dữ liệu nào trong tài liệu cũng hoàn toàn phụ thuộc vào
robot, thường thì những từ được liệt kê nhưsau được xem là quan trọng :
 Ở góc cao của tài liệu.
 Trong các đề mục
 Được in đậm (inktomi)
 Trong URL.
 Trong tiêu đề (quan trọng)

từ có trọng số thấp
Lập chỉ mục
Danh sách các
trang Web cần
lập chỉ mục
Danh sách các
từ stop-word
TỪ
ĐIỂN
CSDL chỉ
mục thông
tin
Loại bỏ hậu tố
Danh sách
các hậu tố
17
trong môi trường hiện đại ngày nay, với lượng thông tin khổng lồ thì việc lập chỉ
mục bằng tay không còn phù hợp, phương pháp lập chỉ mục tự động mang lại hiệu
quả cao hơn.
Một thủ tục lập chỉ mục tự động cơbản cho các tài liệu tiếng Anh có thể được
xử lý nhưsau:
Step of tokenization: Tách văn bản ra thành các chuỗi nhờ vào khoảng trắng,
mỗi chuỗi xem nhưlà một từ.
Step of removal of stop words: bỏ những từ thường xuyên xuất hiện trong hầu
hết các tài liệu nhưng lại không quan trọng trong các tài liệu nhưtính từ, đại từ.
Step of stemming: loại bỏ các hậu tố (suffixes) để đưa về các từ gốc.
Các từ thu được sẽ được lập chỉ mục. Tuy nhiên hai bước đầu cũng cần cho
quá trình lập chỉ mục cho các tài liệu tiếng Việt, bước thứ ba không cần vì tiếng
Việt thuộc dòng ngôn ngữ đơn thể. Chi tiết về các phương pháp lập chỉ mục và chỉ
mục được trình bày tại chương 3.

5.2 Các chiến lược tìm kiếm
Mọi người đều nhận xét rằng web là nơi mà ta luôn có được thông tin về bất
kỳ chủ đề gì. Nhưng kết quả cuối cùng thường là lãng phí thời gian cho những URL
vô ích. Do đó đã đến lúc ta nghĩ đến các chiến lược tìm kiếm.
Ta khởi đầu với một đống thông tin trên một chủ đề khá rộng? Hoặc ta đã hình
dung được cụ thể những gì cần tìm? Hay ta muốn tìm địa chỉ của ai đó?
Nếu phạm vi quan tâm của ta quá rộng, ta nên xem xét các thưmục web (web
directory). Nếu sau đó ta thu hẹp phạm vi cần tìm, hãy xem xét việc lựa chọn một
công cụ tìm kiếm thích hợp.
5.2.1 Tìm thông tin với các thưmục chủ đề
Giống nhưtìm sách trong thưviện, cân nhắc giữa tìm theo tác giả, tiêu đề, chủ
đề, ta thường chọn chủ đề để có thể bao quát một vùng thông tin rộng hơn.
Ví dụ: ta muốn tạo một trang chủ (home page) nhưng không biết cách viết một
file HTML nhưthế nào, thậm chí chưa từng tạo một file ảnh, và cũng không biết
19
cách đẩy một trang lên mạng. Tóm lại ta cần những thông tin cho một chủ đề khá
rộng - xuất bản một trang web (web publishing).
Khi hoàn toàn xác định mình cần tìm những gì ta nên bắt đầu từ một thưmục
web nhưthưmục của Yahoo hoặc Google,…vì thưmục web tập trung nhiều vào
chủ đề đang được quan tâm hơn là một công cụ tìm kiếm.
Gần đây các web site thường kết hợp thưmục web và các công cụ tìm với
nhau. Ví dụ nếu ta sử dụng Google để tìm thông tin và một trong những kết quả này
nằm trong thưmục web của Google, Google sẽ cung cấp cho ta một liên kết dẫn
vào thưmục.
5.2.2 Tìm thông tin với các công cụ tìm kiếm
Một số công cụ tìm kiếm gặp rắc rối với dữ liệu đầu vào của người dùng. Ví
dụ: những từ chứa các ký tự đặc biệt nhưC++ , những từ chứa stopword nhưto be
or not to be. Xét ví dụ khác ít rõ ràng hơn. Giả sử ta là một người rất thích tiểu
thuyết trinh thám và muốn tìm những trang nói về các tác giả yêu thích. Nếu đơn
giản chỉ nhập vào các từ ‘mystery‘ và ‘writer’, phần lớn các search engine sẽ trả về

Bộ phận
thu thập
Chỉ
mục
ĐK thu thập
Kết quảTruy vấn
Phân tích
Tìm
kiếm
Xếp
hạng
Các chỉ
mục:
Cấu trúc
Tiện ích
Máy trạm
Thông tin phản hồi
[8]
Hình 1.3: Kiến trúc chung của 1 SE
21
Chương 2: MỘT SỐSEARCH ENGINE THÔNG DỤNG TRÊN
THẾ GIỚI VÀ CỦA VIỆT NAM
1. Các SE thông dụng trên thế giới
Search
Engine
Google
www.google.com
Yahoo! Search
search.yahoo.com
Ask.com

từ. Sử dụng dấu “”. Nếu
để các từ stop word
trong dấu “” thì SE vẫn
hỗ trợ tìm
Có hỗ trợ tìm kiếm cụm
từ. Sử dụng dấu “”
Có hỗ trợ tìm kiếm cụm từ.
Sử dụng dấu “”
Nếu để các từ stop word
trong dấu “” thì SE vẫn hỗ
trợ tìm
Toán tử logic Được chia ra thành các
toán hạng. Toán tử AND
được hiểu là dùng liên
kết giữa các từ. Có hỗ
trợ toán tử OR (viết
hoa). Không hỗ trợ (),
các quy tắc logic.
Hỗ trợ các toán tử AND,
OR, NOT, AND NOT và ()
Hỗ trợ các toán tử AND,
OR, NOT, AND NOT và ()
Tìm kiếm
trong kết quả
tìm kiếm
Hỗ trợ. Tại cuối trang kết
quả tìm kiếm, click
“Search within results”
và nhập thêm các từ
khóa tìm kiếm

Tìm kiếm
chặt cụt
Không hỗ trợtìm kiếm
chặt cut. Truy gốc một
Không hỗ trợ. Tìm kiếm
với từ khóa OR nhưtrong
Không hỗ trợ. Tìm kiếm với
từ khóa OR nhưtrong
22
số từ. Việc tìm các từ
khóa với hậu tố, từ đồng
nghĩa được thực hiện
tách rời, liên kết bởi từ
khóa OR
Google Google.
Hỗ trợ tìm
kiếm chữ
hoa, chữ
thường
Không hỗ trợ Không hỗ trợ Không hỗ trợ
Ngôn ngữ Hỗ trợ nhiều ngôn ngữ
trong phần tìm kiếm
nâng cao.
Hỗ trợ một số ngôn ngữ la
tinh và không phải la tinh.
Hỗ trợ một số ngôn ngữ la
tinh chủ yếu. Sửa dụng tìm
kiếm nâng cao để giới hạn.
Giới hạn thời
gian của tài

Về mặt vật lý, các máy tính được có thể kết nối với nhau đơn giản bằng hệ
thống mạng Ethernet 10/100/1000Mbps. Hệ thống cho phép thay đổi nóng
(hotswap) một hoặc một vài đơn vị vật lý (máy tính) mà không làm ảnh hưởng đến
hoạt động của toàn hệ thống, cũng nhưcho phép thực hiện thay thế tự động một
hoặc một vài đơn vị vật lý của hệ thống khi chúng gặp sự cố bất ngờ.
Hình 2.1: Sơđồ hệ thống SE của Netnam
24
Hệ thống được chia thành ba tầng chính, gồm tầng Thu thập thông tin, Nhận
dạng và chuyển đổi thông tin thành dạng text, Lập cơsở dữ liệu cho các thông tin
text. Mỗi tầng được chia thành nhiều đơn vị độc lập hoạt động theo kiểu chia sẻ tính
toán và/hoặc dự trữ (redundant), từ đó tính tin cậy và hiệu năng của hệ thống cho
phép rất cao đối với các hệ thống đòi hỏi tính tin cậy và hiệu năng cao. Đơn vị khai
thác dữ liệu được tích hợp cùng với phần lập chỉ mục cơsở dữ liệu, cho phép khai
thác qua các clients sử dụng giao thức TCP/IP trên bất cứ hệ thống nào (Windows,
Unix ).
Bằng việc chia hệ thống thành các khối chức năng phối hợp với nhau thông
qua các Bộ điều phối, hệ thống có thể được phân tán để xử lý trên nhiều máy tính
nhỏ thay vì tập trung toàn bộ hệ thống trên một máy tính lớn. Vì vậy, một mặt hệ
thống cho phép sử dụng các máy tính cỡ nhỏ (PC hoặc PC server) cùng phối hợp
tính toán xử lý, do đó làm giảm rất nhiều chi phí đầu tưso với các hệ máy cỡ mini
hay mainframe, và có thể đầu tưdần dần theo sự gia tăng của nhu cầu thay vì đầu tư
toàn bộ một lần ban đầu. Mặt khác, nó cho phép, về mặt nguyên tắc, năng lực tính
toán, phục vụ thông tin của hệ thống là không hạn chế? khi nhu cầu tăng lên chỉ cần
thêm máy tính vào hệ thống mà không phải thay đổi lại hệ thống. Vì vậy, lượng dữ
liệu mà hệ thống có thể phục vụ, về mặt nguyên tắc thiết kế hệ thống, cho phép lên
đến hàng trăm triệu tài liệu.
2.1.1 Phương pháp lập chỉ mục dữ liệu của NetNam
Thông thường, NetNam lấy tất cả các từ trong tài liệu để lập chỉ mục, và khi
trả kết quả tìm kiếm, NetNam SE tìm ra tất cả các từ trong một trang tài liệu đó, và
hiển thị một số từ đầu tiên nhưmột bảng tóm tắt ngắn. Với Netnam ta thể dùng thẻ

NetNam định nghĩa một từ cũng nhưbất cứ một chuỗi những chữ cái và con
số được tách rời nhau :
 Ký tự trắng, nhưdấu cách, dấu tab, chấm xuống dòng, hoặc chỗ bắt đầu hoặc
kết thúc của một tài liệu.
 Các ký tự đặc biệt và hệ thống chấm câu, ví dụ như%, $, /, #, và _
Ví dụ, hệ thống tìm kiếm của NetNam sẽ giải thích và chỉ rõ những từ
Proliant, 60258, www, http, và XeMayCu nhưnhững từ riêng lẻ, vì chúng là những
chuỗi ký tự liên tiếp, được bao quanh bởi các ký tự không phải là chữ cũng không
phải là số. Phần mềm tìm kiếm sẽ chỉ ra tất cả các từ mà nó tìm được trong một
26
trang tài liệu web không quan tâm liệu từ đó có trong từ điển hay đánh vần sai hay
không.
Tìm kiếm cụm từ
Ta có thể tìm thấy các cụm từ, hoặc một nhóm từ liên quan xuất hiện ngay
cạnh nhau. Để tìm được một cụm từ, ta đóng mở ngoặc kép ở đầu và cuối cụm từ đó
để tạo thành một cụm từ. Cụm từ đảm bảo rằng SE của NetNam sẽ tìm được các từ
đúng nhưthế (vị trí, thứ tự, không có từ chen giữa ), chứ không phải là tìm được
riêng từng từ một.
Hệ thống chấm câu
NetNam sẽ bỏ qua hệ thống chấm câu trừtrường hợp phải thể hiện hệ thống
chấm câu đó là một dấu chia cách giữa các từ. Đặt hệ thống chấm câu hoặc các ký
tự đặc biệt giữa các từ, và giữa chúng không có dấu cách, cũng là một cách để tìm
một cụm từ. Một ví dụ cho thấy hệthống chấm câu rất hữu dụng trong việc tìm một
cụm từ đó là trường hợp tìm số điện thoại. Ví dụ để tìm được một số điện thoại
0903401357 ta gõ 09-0340-1357 thì sẽ dễ tìm hơn là gõ theo kiểu "09 0340 1357",
mặc dù đây cũng là một cú pháp có thể chấp nhận được nhưng ít phổ biến.
Các từ có dấu nối ở giữa nhưCD-ROM, cũng tự động làm thành một cụm từ do có
dấu gạch nối ở giữa.
Tuy nhiên, thông thường, sử dụng dấu ngoặc kép để tìm một cụm từ là cách
được khuyến khích dùng hơn là sử dụng hệ thống chấm câu, vì một số ký tự đặc

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Một số vấn đề liên quan đến Search Engine ứng dụng trong Text - Pdf 25

Tài liệu, ebook tham khảo khác

Học thêm