Xây dựng hệ thống thu thập thông tin tự động dựa trên RSS
Trần Thị Vóc Trang 1 K48CC - HTTT
MỞ ĐẦU
Ngày nay sự phát triển mạnh mẽ của mạng Internet và Intranet đã sinh ra một khối
lượng khổng lồ các dữ liệu dạng siêu văn bản (dữ liệu Web). Bên cạnh những ưu điểm
không thể phủ nhận, sự quá phong phú và đa dạng của WWW cũng khiến con người phải
đối mặt với tình trạng “quá tải thông tin”. Mặt khác, trong bối cảnh một xã hội thông tin,
nhu cầu nhận thông tin một cách nhanh chóng, chính xác, cũ
ng như nhu cầu thu nhận
được các “tri thức” từ khối lượng thông tin khổng lồ nói trên đã trở nên cấp thiết. Người
sử dụng sẽ rất khó khăn trong việc tìm kiếm thông tin và họ không thể có thời gian đọc tất
cả các tài liệu để tìm ra thông tin họ cần. Một văn bản tóm tắt sẽ tiết kiệm cho họ rất
nhiều thời gian và công sức để tìm kiếm thông tin một cách hiệu quả
.
Hơn nữa, hiện nay các thiết bị di động như PDA, điện thoại di động có thể nhận tin
tức trực tiếp từ trên Internet, nhưng độ dài về tin của các thiết bị này thường rất hạn chế,
Vì vậy, việc nghiên cứu để tìm ra các phương pháp thu thập thông tin một cách tự động
đang là vấn đề rất được quan tâm trong khai phá Web. Làm thế nào để thu thập thông tin
từ các trang web về một cách hiệ
u quả lại là một thách thức lớn. RSS ra đời nhằm để giải
quyết vấn đề này.
RSS là một tiêu chuẩn định dạng tài liệu dựa trên XML nhằm giúp người sử dụng
dễ dàng cập nhật và tra cứu thông tin một cách nhanh chóng và thuận tiện nhất bằng cách
tóm lược thông tin vào trong một đoạn dữ liệu ngắn gọn, hợp chuẩn. Dữ liệu này được
các chương trình đọc tin chuyên biệt (gọ
i là News reader) phân tích và hiển thị trên máy
tính của người sử dụng. Trên trình đọc tin này, người sử dụng có thể thấy những tin chính
mới nhất, tiêu đề, tóm tắt và cả đường link để xem tòan bộ tin. Tùy theo từng phiên bản
RSS là viết tắt của “Really Simple Syndication” (Chia sẻ thông tin thực sự đơn giản) hoặc
“RDF Site Summary” (Tóm lược website theo định dạng RDF).
RSS thường dùng để chia sẻ nội dung của tin tức dạng văn bản, tuy nhiên nó có thể
Đối với mạng lưới truyền hình và báo chí, việc tận dụng các thông tin kiểu này thường có
giá thành rẻ hơn và cũng dễ dàng hơn so với việc tự tạo ra các nội dung. Thêm vào đó,
công chúng dễ dàng nhận biết và theo dõi các thông tin được quảng bá rộng rãi.
Các website sử dụng các thông tin được cung cấp rộng rãi cho các chủ thể khác
nhau cũng với lý do t
ương tự. Các chủ thể có uy tín và danh tiếng thường là người khởi
tạo, tổ chức và phân phối các dữ liệu dùng chung (có thể nhận thấy một cách rất hợp lý
rằng một nhà quản lý mạng sẽ tận dụng các tin tức từ một tổ chức truyền thông chuyên
nghiệp, thay vì tự mình viết ra các thông tin đó). Một vài dữ liệu được truyền tải trên web
có thể được chia sẻ miễn phí giữa các website, tuy nhiên, cũ
ng có nhiều trường hợp, các
thông tin này được một nhà phân phối bán lại cho các chủ thể có nhu cầu. Nếu bạn tích
hợp các thông tin này trên site của bạn, nhiều khả năng lượng truy cập vào trang web của
bạn sẽ tăng lên đáng kể.
Xây dựng hệ thống thu thập thông tin tự động dựa trên RSS
Trần Thị Vóc Trang K48CC - HTTT
3
Nhiều website sử dụng RSS như một công cụ để cập nhật các thông tin mới liên
quan tới trang web hoặc các sản phẩm mới. Lấy ví dụ, một website đăng tải các thông tin
về một sản phẩm cụ thể nào đó, chẳng hạn Linux, có thể tự động thu thập các dữ liệu RSS
từ nhiều website về Linux khác nhằm cung cấp cho khách hàng một kho thông tin chứa
đầy đủ các thông tin cập nhật về hệ đ
iều hành này. Trong trường hợp này, sử dụng RSS sẽ
tiết kiệm thời gian hơn nhiều so với việc webmaster truy cập từng website Linux và cập
nhật thông tin một cách thủ công.
Tập hợp thông tin: Khi đề cập tới RSS, sự tập hợp thông tin có liên quan mật thiết
tới khái niệm chia sẽ thông tin diện rộng. Nếu một website thu thập nhiều nguồn RSS và
sau đó phân phối lại chúng, điều đó đồng nghĩa vớ
i sự tập hợp thông tin.
Các site khác nhau sử dụng các phương pháp tập hợp thông tin khác nhau. Một vài
, hữu ích và tính hệ thống của web trong một tổng thể toàn cầu. Khi một
webmaster tìm thấy một website được đánh giá là hấp dẫn, họ sẽ tạo một đường link tới
website đó ngay trên trang web của họ. Với RSS, các siêu liên kết giờ đây trở nên các liên
kết thông tin, cho người dùng biết được các thông tin hữu dụng và cập nhật về những điều
mà họ sẽ được nhìn thấy khi kích chuột. Trên tất cả, v
ới tư cách là một người dùng, bạn
sẽ không phải làm gì nhiều, chỉ cần tìm đúng nguồn RSS mà bạn cảm thấy hấp dẫn và
nháy chuột. Đó thực sự là một điều dễ dàng mà ai trong chúng ta đều có thể làm được.
Trong vài năm qua, chuẩn công nghệ RSS đã phát triển khá chắc chắn. Cùng với
sự phát triển đó, RSS trải qua một số phiên bản. Trên thực tế, RSS được phát triển thành
hai định d
ạng khác nhau, một do UserLand Software và một do RSS Working Group (một
nhóm nghiên cứu phi thương mại). Mặc dù hai định dạng này được các chủ thể khác nhau
ứng dụng và chúng cũng không tương thích với nhau, tuy nhiên, chúng có cấu trúc tương
tự nhau. (Vấn đề bất tương thích thực chất không phải là vấn đề lớn đối với người dùng
đầu cuối bởi hầu hết các trình đọc RSS đều có thể hoạt động tốt với tất cả các phiên bản
RSS).
Nội dung của khóa luận.
Chương 1: Trình bày cơ sở hình thành các phiên bản RSS, Giới thiệu các kiến thức
cơ bản về XML được ứng dụng trong xây dựng hệ thống RSS
Chương 2: Nghiên cứu tìm hiểu về các hệ thống: RSS 0.91, RSS 0.92, RSS 2.0 và
RSS 1.0. So sánh sự biến đổi qua các phiên bản.
Xây dựng hệ thống thu thập thông tin tự động dựa trên RSS
Trần Thị Vóc Trang K48CC - HTTT
5
Chương 3: Trình bày cách xây dựng một hệ thống thu thập thông tin RSS, giới
thiệu một số kĩ thụât mở rộng cho vấn đề xây dựng các hệ thống RSS, các đề xuất về
được cung cấp dưới dạng một tập tin XML được g
ọi là một RSS feed, webfeed, RSS
stream, hay RSS channel. Cùng với việc hỗ trợ cung cấp chia sẻ thông tin, RSS cho phép
những độc giả thường xuyên của một website có thể theo dõi các cập nhật của site đó
dùng một Aggregator.
RSS được sử dụng phổ biến bởi cộng đồng weblog để chia sẻ những tiêu đề tin tức
mới nhất hay toàn bộ nội dung của nó, kể cả các tập tin đa phương tiện đính kèm. Vào
giữa nă
m 2000, vịêc sử dụng RSS trở nên phổ dụng đối với các hãng tin tức lớn như là:
Reuters, CNN, và BBC. Những nhà cung cấp tin này cho phép các website khác tổng hợp
Xây dựng hệ thống thu thập thông tin tự động dựa trên RSS
Trần Thị Vóc Trang K48CC - HTTT
7
những tiêu đề tin tức "được chia sẻ" hay cung cấp các tóm tắt ngắn gọn của các bản tin
chính dưới nhiều hình thức thỏa hiệp khác nhau. RSS ngày nay được dùng cho nhiều mục
đích, bao gồm tiếp thị, báo cáo lỗi hay các hoạt động khác bao gồm cập nhật hay xuất bản
định kì.
Một chương trình gọi là một feed reader hay aggregator có thể kiểm tra xem một
website có hỗ trợ RSS cho người dùng không và, nếu có, hiển thị những bài viết cậ
p nhật
nhất mà nó tìm thấy từ website đó. Ngày nay có thể tìm thấy RSS feeds trên rất nhiều Web
sites lớn, cũng như nhiều những site nhỏ.
Các công cụ đọc tin phía trình khách và công cụ aggregators thường được xây dựng
thành một chương trình độc lập hoặc là một phần mở rộng của các chương trình có sẵn
như trình duyệt web. Những chương trình như vậy có mặt trên nhiều hệ điều hành khác
nhau. Xem danh sách các aggregators chuyên về tin tức.
Các phần mềm thu thập tin tức như trên không đòi hỏi phải cài đặt và có thể sử
dụng trên các máy tính có kết nối Internet. Một số aggregators kết hợp khả năng chia sẻ
tin tức, ví dụ: lấy mọi thông tin bóng đá từ nhiều nguồn tin và cung cấp thành một nguồn
tin mới. Đây cũng chính là các động cơ tìm kiếm nội dung được đăng tải thông qua RSS
bản phác thảo góp ý sửa đổi cho bản đặc tả kĩ thuật đưa ra bởi Tristan Louis. Giống với
RSS 0.9 bản này dựa vào đặc tả kĩ thuật RDF nhưng nó có tính khả thi cao hơn với nhiều
mục bắt nguồn từ các từ vựng metadata chuẩn như Dublin Core.
Mười chín ngày sau, Winner cho ra phiên bả
n 0.92 và một vài bản chính sửa cho
tương thích với các thay đổi của RSS 0.91 dựa trên cùng bản góp ý. Vào tháng Tư 2001,
Xây dựng hệ thống thu thập thông tin tự động dựa trên RSS
Trần Thị Vóc Trang K48CC - HTTT
9
ông đưa ra bản phác thảo của RSS 0.93 mà hầu hết là giống với bản 0.92. Bản thảo RSS
0.94 ra đời vào tháng Tám, phục hồi lại những thay đổi trong bản 0.93, và thêm vào thuộc
tính type cho thành phần description .
Vào tháng Chín năm 2002, Winer cho ra bản cuối cùng của RSS 0.92, bây giờ gọi
là RSS 2.0 và nhấn mạnh "Really Simple Syndication – Thu thập thông tin thực sự đơn
giản". Đặc tả kĩ thuật của RSS 2.0 loại bỏ thuộc tính type từng được thêm vào trong RSS
0.94 và cho phép người dùng có thể thêm thành ph
ần mở rộng nhờ dùng XML
namespaces. Nhiều phiên bản của RSS 2.0 đã được ra đời, nhưng chỉ số của phiên bản thì
vẫn không thay đổi.
Vào tháng Mười một năm 2002, Thời báo New York đã bắt đầu cung cấp cho
người đọc khả năng mục các tin có hỗ trợ RSS feeds liên quan đến nhiều chủ đề khác nhau.
Vào tháng Giêng năm 2003, David Winer đã gọi việc dùng RSS của Thời báo New York
Time là một "điểm nhấn" trong việ
c đưa định dạng RSS trở thành một chuẩn. Tháng Bảy
năm 2003, Winer và UserLand Software được cấp quyền sở hữu của đặc tả kĩ thuật RSS
2.0 của trung tâm Berkman về Xã hội và Internet.
Winer bị phê bình vì đã đơn phương tạo ra định dạng mới và tự đưa ra số hiệu của
phiên bản. Để đáp lại, đồng tác giả của RSS 1.0 – Aron Swartz đã đưa ra RSS 3.0 – một
định dạng văn bản không d
ựa trên XML. Định dạng này gần như chỉ là bắt trước lại phiên
SSE cho phép nhân bản bất cứ dữ liệu độc lập nào từ lịch công tác, danh sách các
đối tác cho đến danh sách trong thư mục Farvorite Những nguồn tin này đều có thể
được xuất bản là nguồn tin RSS. Không nh
ững thế, một đặc điểm nổi bật khác của SSE là
sao chép dữ liệu tới bất kì một ứng dụng nào đã tích hợp SSE một cách đơn giản, nhanh
chóng. Ví dụ: SSE có thể được sử dụng để chia sẻ lịch làm việc với đồng nghiệp. Nếu lịch
làm việc của bạn được xuất bản theo SSE, khi bạn thay đổi lịch làm việc của mình thì lịch
làm việc trên máy đồ
ng nghiệp cũng thay đổi tương ứng và ngược lại. Kết quả là, đồng
nghiệp có thể xem được kế hoạch công tác của bạn và đặt các cuộc hẹn mới mà không bị
ảnh hưởng tới kế hoạch của họ
Ý tưởng đằng sau SSE chính là cho phép đồng bộ dữ liệu đa hướng và đồng bộ dữ
liệu đa hướng xuyên suốt nhiều ứng dụng. Một đ
iều cần lưu ý là Microsoft mới chỉ phát
hành đặc tả SSE, hiện thời chưa có sản phẩm nào của Microsoft cũng như các hãng khác
ứng dụng công nghệ này. Tuy nhiên, một số công ty cũng đang hứa hẹn sẽ triển khai ứng
dụng mới của họ trên SSE.
Xây dựng hệ thống thu thập thông tin tự động dựa trên RSS
Trần Thị Vóc Trang K48CC - HTTT
11
SSE là một bước tiến lớn của RSS. Khả năng cung cấp nguồn tin đa hướng và
đồng bộ dữ liệu giữa các ứng dụng khác nhau thật sự là một cuộc cách mạng.
1.3 Vấn đề không tương thích giữa các phiên bản RSS
Như đã nói ở trên, có một số phiên bản khác nhau của RSS bao gồm: RDF hay
RSS 1.*. Bao gồm các phiên bản sau đây:
RSS 0.90 là phiên bản của Netscape. Bản RSS này được gọi là: tóm lược thông
tinh định dạng RDF, nhưng được dựa trên bản nháp lúc đầu của chuẩn RDF, và nó không
tương thích với chuẩn RDF cuối cùng.
XML diễn tả cấu trúc và ý nghĩa của các phần của tài liệu mà không quan tâm đến cách
trình bày tài liệu. Trong một trang Web viết bằng mã HTML ta dùng những Tag Pairs
(cặp nhãn hiệu mở đóng) để đánh d
ấu. Ở đây, các cặp Tag Pairs này đều được định nghĩa
trước và không chứa đững ý nghĩa gì về các giữ liệu mà hiển thị bên trong chúng, trừ
trường hợp cho tittle. XML thì cho phép ta tự do đặt tên các Tag Pair để dùng khi cần.
Nếu tính ra, Dynamic HTML có đến khoảng 400 Tags mà nếu muốn dùng ta phải nhớ hết.
Trong khi đó, XML không có giới hạn về con số Tags và ta không cần phải nhớ Tag nào
cả. Ý nghĩa của các Tag rất linh động và ta có thể sắp xế
p các tags của XML theo loại cho
hợp lý. XML được sử dụng trong hai cách khác nhau. Một cho sự trao đổi lẫn nhau giữa
người và máy, một cho sự trao đổi dữ liệu giữa các ứng dụng hoặc giữa máy với máy.
Để soạn thảo một file XML bạn có thể dùng bất kì trình soạn thảo nào. Mỗi trang
XML đều bắt đầu bằng một "XML processing instruction” - lệnh xử lý XML. Xử lí chỉ
dẫn bắt đầu với <? và chấ
m dứt với ?>. Chữ đầu tiên ngay sau <? là huấn lệnh xử lý,
trong trường hợp nầy là "xml". Mặc dù bạn có thể đặt ra bao nhiêu Tag cũng được, nhưng
mỗi trang XML cần phải theo một số qui luật để được xem là một form tốt. Do đó một
trang XML cần phải theo đúng các qui luật sau đây:
1. Trang XML phải bắt đầu bằng câu khai báo XML
2. Mỗi bộ phận, gọi là "element" phải nằ
m giữa một Tag Pair.
3. Nếu Tag nào không chứa gì ở giữa thì phải chấm dứt bằng "/>", thí dụ như <BR/>
hay <HR/>.
4. Một trang XML phải có một element độc nhất chứa tất cả các elements khác. Đó là
root của tree biểu diễn trang XML.
5. Các Tag Pair không được xen kẽ nhau (ví dụ như <name>John
Stanmore<address>25 King Street</name></address> là bất hợp lệ vì <address>
nằm trong Tag Pair name).
</PERSON>
<PERSON PERSONID="p4">
<NAME>Martin Howard</NAME>
<ADDRESS>652 Broadbeach Drive, St Kilda, Melbourne, Australia</ADDRESS>
<TEL>(613) 9756 2312</TEL>
<FAX>(613) 9756 2313</FAX>
<EMAIL></EMAIL>
</PERSON>
<PERSON PERSONID="p5">
<NAME>Pam Rose</NAME>
<ADDRESS>24/274 Stancey St, Bankstown, NSW, Australia</ADDRESS>
Xây dựng hệ thống thu thập thông tin tự động dựa trên RSS
Trần Thị Vóc Trang K48CC - HTTT
14
<TEL>(612) 9867 9821</TEL>
<FAX>(612) 9867 9822</FAX>
<EMAIL></EMAIL>
</PERSON>
<PERSON PERSONID="p6">
<NAME>Le Duc Hong</NAME>
<ADDRESS>3 Rawson St, Epping, NSW,Australia</ADDRESS>
<TEL>(612) 9783 1442</TEL>
<FAX>(612) 9783 1445</FAX>
<EMAIL></EMAIL>
</PERSON>
<PERSON PERSONID="p7">
<NAME>Âu Địch Xương</NAME>
<ADDRESS>435 Trần Hưng Đạo, Vỉnh Long , Việt Nam</ADDRESS>
<TEL>847 74847</TEL>
<FAX>847 9682</FAX>
<Customer>John Costello</Customer>
<Item>
<Product ProductID="1" UnitPrice="70">Chair</Product>
<Quantity>6</Quantity>
</Item>
<Item>
<Product ProductID="2" UnitPrice="250">Desk</Product>
<Quantity>1</Quantity>
</Item>
</Order>
Xây dựng hệ thống thu thập thông tin tự động dựa trên RSS
Trần Thị Vóc Trang K48CC - HTTT
16
Tài liệu XML trên có thể biểu diễn dưới dạng cây như sau: Hình 1: Biểu diễn một tài liệu XML dưới dạng cây của Xpath.
Xây dựng hệ thống thu thập thông tin tự động dựa trên RSS
Trần Thị Vóc Trang K48CC - HTTT
17
1.5 Siêu dữ liệu – Metadata – Dữ liệu của Dữ liệu.
Metadata là dữ liệu về các dữ liệu hay còn gọi là siêu dữ liệu, là những thông tin
chuyển tải ý nghĩa của các thông tin khác. Metadata bao gồm một tập hợp các phần tử
thiết yếu để mô tả nguồn thông tin.Một biểu ghi Metadata bao gồm một hệ thống các
thành tố hay còn gọi là các yếu tố cần thiết để mô tả nguồn thông tin. Ví dụ siêu dữ liệu
Metadata trong thư viện - là hệ thống mục lục th
ư viện - bao gồm một tập hợp các biểu
ghi với các yếu tố mô tả của một cuốn sách hay một tài liệu thư viện như: tác giả, nhan đề,
xuất bản, đề mục, ký hiệu xếp giá.
Internet có thể được biên mục, tìm kiếm một cách nhanh chóng thuận tiện, W3C đưa ra
khuyến nghị sử dụng RDF cho mỗi trang Web. Thực chất RDF là các thẻ mô tả về tài liệu
đó ví dụ Tiêu đề của tài liệu (Title), Thông tin mô tả tài liệu (Description), Nơi xuất bản
(Publisher) Các thông tin này không được đầy đủ bằng các thông tin mô tả một quyển
sách nhưng nó cũng đủ để mô tả một tài liệu thông thường.
Xây dựng hệ thống thu thập thông tin tự động dựa trên RSS
Trần Thị Vóc Trang K48CC - HTTT
19
CHƯƠNG II: CẤU TRÚC CƠ BẢN CỦA CÁC HỆ THỐNG
THU THẬP THÔNG TIN TỰ ĐỘNG
2.1 Nội dung kiến trúc đồng bộ RSS feed.
Cấu trúc của RSS feed: gồm cấu trúc của chính feed và cách mà RSS feed ăn khớp
với toàn bộ cấu trúc của xuất bản web. Xuất bản web có thể được trực quan hóa bởi một
luồng thông tin sau. Về cơ bản: thông tin đi từ bộ não của người viết đến bộ não của
người đọc, không đề cập đến các vấn đề nảy sinh như trong sinh học, bảo đảm rằng thông
tin được số hóa và l
ưu trữ an toàn trong máy tính. Công vịêc bây giờ là phục vụ file cho
người đọc. Nếu bạn đã viết các nội dung này trực tiếp bằng HTML và đưa nó lên thẳng
thư mục của máy chủ thì bước này đã đựơc hoàn thành.
Tuy nhiên, hầu hết mọi người đều tin tưởng vào hệ thống quản lí thông tin
(Content Management System - CMS). Các khái niệm của các CMS này thường dễ bị thay
đổi. Thậm chí là một số người còn cho rằng CMS là b
ất kể cái gì mà được dùng để lấy
các thông tin nguyên bản và được làm gì đó để đưa ra cộng đồng, vấn đề này có thể tính
đến sự can thiệp một cách đơn giản của con người đến các trình soạn thảo. Trong bất kể
tình huống nào thì cái CMS của bạn cũng có cấu trúc cơ bản như sau:
ường hợp này, tài
liệu cuối cùng có thể không bao giờ đựơc lưu trên ổ đĩa nào cả.
Xây dựng hệ thống thu thập thông tin tự động dựa trên RSS
Trần Thị Vóc Trang K48CC - HTTT
21
2.2 Cấu trúc của RSS
RSS feed có cấu trúc bên trong riêng. Bởi vì nó cho phép bạn thấy được cách mà
CMS tạo ra RSS feed thật là đơn giản nên rất là dễ để hiểu.
Về cở bản, một feed bao gồm một kênh với thuộc tính riêng, một ảnh và một số mục bên
trong. Mỗi feed riêng biệt nó có những thuộc tính khác, ví dụ:
Channel (title, description, URL, creation date, etc.)
Image
Item (title, description, URL, etc.)
Item (title, description, URL, etc.)
Item (title, description, URL, etc.)
Quan trọng nhất, với số lượng khác nhau của các phần mô tả đã kết hợp với mỗ
i
Item. Các items trong RSS feed là các link đơn giản dẫn đến các nguồn khác. Với các
phiên bản RSS khác nhau, có thể khác nhau về các đặc tả, số lượng siêu dữ liệu đưa ra,
giới hạn đặt các nguồn được liên kết đến, nhưng về cơ bản mục đích của chúng là như
nhau. Vì lí do này mà RSS feed luôn luôn được sử dụng với các hệ thống mà nội dung có
thể được phân thành các đoạn riêng biệt họăc các đối tượng mà có thể link đượ
c. Trang
tin là một ví dụ điển hình về vấn đề này. Các mẩu tin thì thường bao gồm các phần: tiêu
đề, ngày đăng, tên tác giả, nội dung chính …. Một trong số các phần này thì được ánh xạ
một cách tự nhiên vào các trường của RSS. Weblog là một ví dụ điển hình. Vì thế khi làm
vịêc với để tạo ra RSS feed cần phải lưu ý đến các trường khác nhau trong các nội dung
đã có mà có thể được dùng lại. Với tất cả các ngôn ngữ đánh củ
a XML chúng ta có thể
quan đến feed. Có ba phần tử con bắt buộc phải có, 2 phần tử cuối cùng là tùy chọn.
url: địa chỉ url của ảnh định dạng jpg, gif, png. Chứa tối đa 500 kí t
ự.
tittle: mô tả về ảnh.
Link: địa chỉ url mà ảnh đó link đến.
Hai thành phần tùy chọn là: width và height: độ dài và độ rộng của ảnh.
Xây dựng hệ thống thu thập thông tin tự động dựa trên RSS
Trần Thị Vóc Trang K48CC - HTTT
23
Các thành phần tùy chọn trong cấu trúc của RSS 0.91. Có 10 tùy chọn phần tử
kênh tùy chọn, về mặt kĩ thuật thì 10 phần tử này có thể bỏ đi. Tuy nhiên, thì chúng được
khuyến khích là nên cho thêm vào. Đa số trong các phần tử này là tĩnh và nội dung của
chúng không thay đổi. Đặc bịêt là 3 phần tử đầu tiên dưới đây:
copyright: ghi chú bản quyền nội dung của feed, có tối đa 10 kí tự
managingEditor: địa chỉ email để liên lạc cho những người có câu hỏ
i, nó có thể có tối đa
100 kí tự.
webMaster: địa chỉ email của chủ website, có thể có tối đa 100 kí tự.
Các thành phần khác: rating, pubDate, lastBuildDate, docs, skipDay and skipHours,
textInput.
Phần tử item: RSS 0.91 có thể đưa ra 15 phần tử item. Phần tử này chính là trái tim
của feed, nó chứa nội dung của feed. Về kĩ thuật, phần tử item là tùy chọn, nhưng nếu một
hệ thống thu thập thông tin mà không chứa thành phần này thì chỉ là một hệ thống thu
thập về hình th
ức và trở thành tẻ nhạt.
Phần tử item bắt buộc phải có 2 thành phần con la: tittle: nhan đề của mẩu tin, chứa
tối đa 100 kí tự, link: chứa địa chỉ URL của tin đó, có tối đa 500 kí tự. Phần tử
</skipHours>
<image>
<title>RSS0.91 Example</title>
<url>
<link>
<width>88</width>
<height>31</height>
<description>Computer Books, Conferences, Online Publishing</description>
</image>
<textInput>
<title>
<description>
<name>