TẠP CHÍ KHOA HỌC, Đại học Huế, Tập 74B, Số 5, (2012), 55-63
55
XÂY DỰNG KIẾN TRÚC KHO TÀI LIỆU DỰA TRÊN MỐI LIÊN HỆ GIỮA
KHO DỮ LIỆU TRUYỀN THỐNG VÀ KHO TÀI LIỆU
Lê Văn Hòa
Khoa Du lịch, Đại học Huế
Tóm tắt. Trong quá trình tìm hiểu về các thành phần, quy trình xây dựng kho tài liệu và vai
trò của kho tài liệu, từ đó thấy được sự cần thiết của kho tài liệu đối với các doanh nghiệp
và tổ chức cần thực hiện việc ra quyết định nhanh với độ chính xác cao. Dựa vào sự tương
đồng giữa các giai đoạn trong quy trình xây dựng kho dữ liệu truyền thống và kho tài liệu,
bài viết này đã đề xuất kiến trúc kho tài liệu. Kiến trúc kho tài liệu đề xuất có độ tin cậy và
độ chính xác cao nhờ việc tham khảo các công trình nghiên cứu, các công trình này đã
chứng minh sự tương đồng giữa các quy trình xây dựng kho dữ liệu truyền thống và kho tài
liệu.
1. Đặt vấn đề
Theo [3], người ta đã thống kê chỉ có 20% dữ liệu là dữ liệu có cấu trúc và được
lưu trữ trong cơ sở dữ liệu quan hệ, trong khi khoảng 80% là dữ liệu không có cấu trúc
văn bản và được lưu trữ trong các hình thức khác nhau của tài liệu như báo cáo, các bài
báo tin tức, e-mail, và các trang web là chủ yếu. Chính vì dữ liệu có cấu trúc trong các
tổ chức và doanh nghiệp chiếm tỉ lệ thấp do đó khi xây dựng kho dữ liệu truyền thống
sẽ ảnh hưởng đến chất lượng kho dữ liệu và độ tin cậy của việc đưa ra quyết định.
Chính vì những lý do đó, kho tài liệu được đề xuất để có thể đưa dữ liệu bán cấu trúc và
phi cấu trúc vào kho. Chính nhờ những khẳng định thuyết phục của Sullivan [5] về mối
tương đồng giữa các quy trình trong quá trình xây dựng kho dữ liệu truyền thống và kho
tài liệu, bài viết này đã đề xuất kiến trúc kho tài liệu dựa trên mối liên hệ giữa kho dữ
LÊ VĂN HÒA 57
3. Kiến trúc kho tài liệu
3.1. Các thành phần chính của kho tài liệu
Theo [5], thành phần của kho tài liệu bao gồm 5 thành phần chính:
- Nguồn tài liệu
- Máy chủ xử lý văn bản
- Văn bản cơ sở và các kho lưu trữ khác
- Kho siêu dữ liệu
- Hồ sơ người sử dụng.
3.1.1. Nguồn tài liệu
Nguồn tài liệu là các văn bản. Có ba kiểu nguồn tài liệu phân biệt bao gồm:
Nguồn bên trong, internet và các dịch vụ.
Nguồn bên trong: Trong một tổ chức, tài liệu và các loại văn bản khác như:
email, máy chủ file, trong kho tài liệu, và trong hệ thống quản lý tài liệu. Trong khi
những hệ thống quản lý file, chúng không thể cung cấp đặc trưng phân tích tổng hợp
văn bản trong khai phá văn bản và truy xuất thông tin thông minh.
Internet: Internet là nguồn văn bản tích hợp có khả năng lớn nhất cung cấp cho
chúng ta. Một vài kiểu khác nhau của kho văn bản trên internet, bao gồm: WWW, máy
chủ Gopher, và máy chủ FTP. Trong đó, dữ liệu tại WWW thật khó để phân loại toàn bộ
nội dung của WWW.
Các dịch vụ: Các dịch vụ cung cấp truy cập đến CSDL riêng cho những khách
hàng của các doanh nghiệp và các tổ chức.
3.1.2. Máy chủ xử lý văn bản
Trong môi trường kho tài liệu, có 4 kiểu máy chủ phân biệt: Máy chủ thu thập
tài liệu, máy chủ phân tích văn bản, máy chủ xuất bản và phân tán, máy chủ lưu trữ.
3.1.2.1. Thu thập tài liệu
Tập hợp máy chủ thu thập tài liệu và xử lý văn bản. Xử lý thu thập có thể xảy ra
theo 3 cách
Xử lý tập văn bản sử dụng danh sách tiền định nghĩa nguồn cho thu thập tự
động trực tiếp: Hầu hết các văn bản đưa vào kho tài liệu thông qua tiền định nghĩa thu
3.1.4. Kho siêu văn bản
Siêu văn bản là tài liệu mô tả thông tin, những văn bản và là một phần then chốt
của môi trường kho tài liệu. Siêu dữ liệu thỏa mãn một vài mục đích:
- Tăng khả năng tìm kiếm rõ ràng và khả năng nhớ lại
- Cho phép mở rộng các tùy chọn tìm kiếm, như là: theo tác giả, ngày xuất
bản,
- Phân loại văn bản
- Cho biết mối quan hệ chất lượng giữa các mức, tính tin cậy, và đúng lúc.
3.1.5. Hồ sơ người sử dụng
Người sử dụng yêu cầu mục đích cụ thể về kế hoạch tiếp thị, sự thay đổi tốc độ
LÊ VĂN HÒA 59
và những ảnh hưởng về giá cả. Ngoài ra, người sử dụng quan tâm đến việc sử dụng dài
hạn và nhất quán. Ví dụ: người quản lý sản phẩm quan tâm đến giá cả hiện tại của sản
phẩm, kế hoạch tiếp thị và bán sản phẩm, thông tin về đối thủ cạnh tranh, điều kiện tiếp
thị và những nhân tố khác ảnh hưởng đến việc bán hàng.
3.2. So sánh kho tài liệu và kho dữ liệu truyền thống [6]
Kho tài liệu Kho dữ liệu truyền thống
Giống nhau
1. Cả hai cùng quy trình xây dựng và chúng có thể được triển khai theo giản đồ
hình sao hay bông tuyết để thiết kế quy trình mô hình
2. Cùng chung tài liệu nghiệp vụ hay dữ liệu từ nguồn hỗn tạp
3. Người sử dụng có thể xử lý phân tích trực tuyến thông qua kết quả được thiết
lập
Khác nhau
Có ý định đạt được tri thức nghiệp vụ
định hướng văn bản (text–oriented)
Có ý định đạt được tri thức nghiệp vụ
định hướng số (numeric–oriented)
Tài nguyên được thu thập từ báo cáo
điều tra thị trường, báo cáo trạng thái
- Thao tác phân tích văn bản
60 Xây dựng kiến trúc kho tài liệu dựa trên mối liên hệ…
- Quản lý kho tài liệu
- Hỗ trợ thao tác người dùng cuối
Theo [5], ba bước truy xuất tài liệu, thao tác tiền xử lý, thao tác phân tích văn
bản tương ứng quá trình xử lý chiết, chuyển đổi và nạp trong kho dữ liệu truyền thống.
Trong khi 2 bước cuối, quản lý kho tài liệu và hỗ trợ thao tác người dùng cuối, giống
như duy trì kho dữ liệu.
3.3.1. Chứng thực nguồn tài liệu
Bước đầu tiên trong quy trình tài liệu là để chứng thực tài liệu được đưa vào kho.
Trước hết, chúng ta mô tả 3 cách để chứng thực tài liệu: danh sách nguồn, tìm theo từ
khóa, và tìm theo chủ đề.
Tìm tiềm năng nguồn tài liệu: Bắt đầu với tìm kiếm Web rộng là cách thông
dụng nhất của việc tìm kiếm tiềm năng nguồn tài liệu nhưng có những kỹ thuật khác
như là luật thông thường, sẽ được cung cấp kết quả chất lượng cao.
3.3.2. Truy xuất tài liệu
Quy trình truy xuất tài liệu là tương tự như giai đoạn chiết dữ liệu trong kho dữ
liệu truyền thống. Chúng ta đã chứng thực nguồn của tài liệu, chúng ta cần lập lịch truy
xuất chúng. Khi chúng ta nhìn thấy thảo luận về kiến trúc của kho tài liệu, máy chủ truy
xuất hoạt động như là một đại lý để thu thập tài liệu và nạp chúng vào kho. Không
giống như kho dữ liệu, chúng không có công cụ đặc biệt giống như những trình cung
cấp bởi Informatica, Sagent được thiết kế để đưa văn bản vào kho tài liệu. Có một vài
nhân tố để xem xét khi phát triển bộ lập lịch truy xuất tài liệu.
- Khả năng băng thông
- Tốc độ truy xuất của đối tượng trang Web
- Bản sao lập lịch của máy chủ file bên trong
- Quyền ưu tiên của đối tượng tài liệu
3.3.3. Các thao tác tiền xử lý
Tương tự bước chuyển đổi dữ liệu trong kho dữ liệu. Để xử lý toàn bộ tài liệu
trong kho, ba bước tiền xử lý cơ bản nên thực hiện:
dùng cuối, từ phân tích công việc trong siêu thị và kế hoạch để đưa ra chiến lược tìm
kiếm cạnh tranh thông minh đưa ra phía trước để giải quyết phàn nàn của khách hàng.
3.4. Kiến trúc kho tài liệu
Dựa trên Các thành phần chính của kho tài liệu, Quy trình kho tài liệu và mối
liên hệ giữa kho dữ liệu truyền thống và kho tài liệu, tôi xây dựng kiến trúc kho tài liệu
Các thành phần trong kiến trúc kho tài liệu:
Nguồn dữ liệu tác nghiệp là dữ liệu văn bản và dữ liệu từ các nguồn tài liệu
không có cấu trúc. Đây là dữ liệu chiếm phần lớn trong các doanh nghiệp và tổ chức.
Máy chủ thu thập tài liệu có nhiệm vụ chiết dữ liệu từ các nguồn dữ liệu tác
nghiệp thông qua việc truy xuất tài liệu từ nguồn dữ liệu tác nghiệp.
Dữ liệu sau khi chiết sẽ qua quá trình tiền xử lý để chuyển dữ liệu về định dạng
thích hợp trong kho dữ liệu, đồng thời trong quá trình này dữ liệu sẽ được làm sạch.
Máy chủ phân tích văn bản có nhiệm vụ đưa đữ liệu sau khi chuyển đổi vào kho
62 Xây dựng kiến trúc kho tài liệu dựa trên mối liên hệ…
tài liệu. Thao tác này bao gồm: Lập chỉ mục, trích chọn đặc trưng, phân loại, tóm tắt,
phân cụm, máy dịch. Sau quá trình này dữ liệu từ nguồn tác nghiệp sẽ được đưa vào kho
để phục vụ quá trình phân tích và trích rút tri thức. Kho tài liệu đặc trưng với 4 thuộc
tính:
- Văn bản không có cấu trúc đơn giản hay kiểu văn bản đơn giản
- Văn bản được trích rút từ nhiều nguồn
- Đặc trưng chủ yếu của văn bản được tự động chiết và lưu trữ rõ ràng
- Kho tài liệu được thiết kế để tích hợp ngữ nghĩa văn bản được quan hệ.
Hình 2. Kiến trúc kho tài liệu
4. Kết luận và hướng phát triển
Bài viết đã phân tích vai trò của kho dữ liệu, những vấn đề còn tồn tại ảnh
hưởng đến chất lượng kho dữ liệu và độ tin cậy của việc đưa ra quyết định. Đồng thời,
bài viết đã chỉ ra được mối liên hệ giữa kho dữ liệu truyền thống và kho tài liệu làm nền
tảng cho việc xây dựng kiến trúc kho tài liệu. Nhờ vào kiến trúc kho tài liệu chúng ta có
thể biết được quy trình để xây dựng kho dữ liệu từ nguồn dữ liệu là các văn bản và tài
n
tài liệu
không có
cấu trúc
Ch
ợ
văn
bản
Tóm tắt
Phân cụm
Máy dịch
Lập chỉ mục
Trích chọn đặc trưng
Phân loại
LÊ VĂN HÒA 63
TÀI LIỆU THAM KHẢO
[1]. Nguyễn Thanh Bình, Trần Hiếu, Xây dựng hệ thống tích hợp thông tin hỗ trợ cho hệ
thống tư vấn học tập trực tuyến, Luận văn thạc sĩ khoa học, Đại học Khoa học – Đại
học Huế, Huế, 2007.
[2]. Nguyễn Thanh Bình, Lê Văn Hòa, Giải pháp Web cho dịch vụ xây dựng kho dữ liệu.
Luận văn thạc sĩ khoa học, Trường Đại học Khoa học – Đại học Huế, Huế, 2010.