Nghiên cứu giải pháp tích hợp CSDL các phần mềm Bưu chính hỗ trợ thống kê, báo cáo tại Bưu điện Quảng Bình - Pdf 28

LỜI CAM ĐOAN
Tôi xin cam đoan:
a. Những nội dung trong luận văn này là do tôi thực hiện dưới sự
hướng dẫn trực tiếp của PGS. TS Nguyễn Thanh Bình.
b. Mọi tham khảo dùng trong luận văn đều được trích dẫn rõ
ràng và trung thực tên tác giả, tên công trình, thời gian, địa điểm
công bố.
c. Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, hay gian
trá, tôi xin chịu hoàn toàn trách nhiệm.
Tác giả
Hong Công Tin
MỤC LỤC
MỤC LỤC i
DANH MỤC CÁC TỪ VIẾT TẮT ii
DANH MỤC CÁC BẢNG iii
DANH MỤC CÁC HÌNH iv
v
MỞ ĐẦU 1
CƠ SỞ LÝ THUYẾT 5
1.1. KHO DỮ LIỆU 5
1.2. TÍCH HỢP DỮ LIỆU 14
1.3. XÂY DỰNG KHO DỮ LIỆU, TÍCH HỢP DỮ LIỆU TRONG SQL SERVER20
1.4. MÃ ĐỊA CHỈ BƯU CHÍNH 31
1.5. TổNG KT CHƯƠNG 1 37
GIẢI PHÁP TÍCH HỢP CÁC CSDL TẠI BƯU ĐIỆN QUẢNG BÌNH. .38
1.6. TRỰC TRẠNG CÁCH TỔ CHỨC CSDL TẠI BƯU ĐIỆN QUẢNG BÌNH.38
1.7. MÔ TẢ BÀI TOÁN TÍCH HỢP 40
1.8. ĐỀ XUẤT GIẢI PHÁP TÍCH HỢP 40
1.9. PHÂN TÍCH VÀ THIẾT KẾ GIẢI PHÁP TÍCH HỢP 42
1.10. TẠI KHO DỮ LIỆU, CSDL ĐƯỢC CÀI ĐẶT NHƯ SAU: 52
1.11. TỔNG KẾT CHƯƠNG 2 53

liệu
MSS Management Support System Hệ hỗ trợ quản lý
SA Subject Area Vùng chủ đề
DWH Data WareHouse Kho dữ liệu
EMS Dịch vụ chuyển phát nhanh
CT2003 Dịch vụ chuyển tiền 2003
DANH MỤC CÁC BẢNG
Số hiệu Tên Trang
Bảng 2-1 Các trường cần thiết trích rút đối với dịch vụ EMS
45
Bảng 2-2
Các trường cần thiết trích rút đối với dịch vụ
chuyển tiền nhanh
48
Bảng 2-3
Cấu trúc bảng dữ liệu khách hàng phát sinh tại các
dịch vụ
49
Bảng 2-4
Cấu trúc bảng dữ liệu khách hàng để gán mã địa
chỉ Bưu chính
50
Bảng 3-1
So sánh thuộc tính của các CSDL
62
Bảng 3-2
So sánh hình thức sử dụng thủ công và sử dụng
phần mềm để thống kê và báo cáo doanh thu dịch
vụ.
64

chuyển tiền
46
Hình 2.7 Cấu trúc bảng dữ liệu chứa thông tin dịch vụ chuyển
tiền
47
Hình 2.8
Mô hình chi tiết trích rút dữ liệu
51
Hình 2.9
Lưu đồ gán mã BC huyện cho dữ liệu khách hàng
52
Hình 2.10 Thuật toán gán mã Bưu chính huyện cho dữ liệu khách
hàng
53
Hình 2.11
Sơ đồ quan hệ giữa các bảng
53
Hình 3.1 Biểu đồ ca sử dụng quản trị người dùng 58
Hình 3.2 Biểu đồ ca sử dụng gán mã BC huyện 59
Hình 3.3 Biểu đồ ca sử dụng kết xuất báo cáo. 59
Hình 3.4 Mô hình trích rút dữ liệu 61

1
MỞ ĐẦU
1. Lý do chọn đề ti
Bắt đầu từ những năm 1990, việc nghiên cứu và ứng dụng kho dữ liệu
đã được diễn ra. Theo thống kê của nhóm META cho thấy công việc nghiên
cứu và áp dụng kho dữ liệu khiến thế giới đã tiêu tốn: tháng 02/1996 tiêu tốn
13.000 triệu USD (phần cứng: 8.000; service: 5.000); năm 1998: 14.600 USD;
năm 2001: lớn hơn 20.000 triệu USD.

nghiệp khác.
- Tạo tiền đề để phát triển để phát triển các ứng dụng khác.
3. Đối tượng v phạm vi nghiên cứu
- Đối tượng nghiên cứu của đề tài
+ Các CSDL, quy trình sản xuất đang thực hiện tại Bưu điện Quảng
Bình.
+ Các công cụ lập trình, các hệ cơ sở dữ liệu liên quan đến đề tài (Kho
dữ liệu, tích hợp dữ liệu).
- Phạm vi nghiên cứu
+ Các CSDL, quy trình sản xuất đang thực hiện tại Bưu điện Quảng
Bình.
+ Xây dựng ứng thống kê, báo cáo và hệ Cơ sở dữ liệu SQL 2008.
3
4. Phương pháp nghiên cứu
- Phương pháp nghiên cứu lý luận: Các nội dung, văn bản quy trình
báo cáo, thống kê. Phân tích các nội dung văn bản, quy trình để xây dựng
kho dữ liệu, tích hợp dữ liệu.
- Phương pháp nghiên cứu thực tiễn. Tìm hiểu các CSDL của các phần
mềm bưu chính hiện sử dụng tại Bưu điện Quảng Bình.
- Phương pháp nghiên cứu tài liệu: Tìm hiểu ngôn ngữ lập trình, hệ
quản trị Cơ sở dữ liệu; Xây dựng ứng dụng.
5. Ý nghĩa khoa học v thực tiễn của đề ti
Bưu điện Quảng Bình là đơn vị doanh nghiệp ứng dụng hầu hết công
nghệ thông tin vào khai thác, sản xuất dịch vụ Bưu chính tại tỉnh Quảng
Bình. Do vậy, việc xây dựng, ứng dụng kho dữ liệu để phục vụ công việc
tổng hợp, thống kê báo cáo hiệu suất của công tác sản xuất tại đơn vị giúp
cho những người quản lý thấy được tình hình sản xuất, kinh doanh của đơn
vị diễn ra nhằm có những điều chỉnh về chính sách, phương hướng, kế hoạch
để đạt hiệu quả cao trong hoạt động sản xuất, kinh doanh của đơn vị.
6. Bố cục của luận văn

dữ liệu “hoạt động”, và những hình thức dữ liệu phức tạp khác được lưu trữ
trong các cấu trúc bảng quan hệ. Kết quả là, nhiều công ty trong thế giới kinh
doanh đã lưu trữ, tổ chức và cập nhật các bảng kiểm kê hàng hoá, lịch sử bán
hàng, thông tin khách hàng,… trong một tập hợp các cơ sở dữ liệu lớn. Ví
dụ, một trong những cơ sở dữ liệu lớn nhất trên thế giới đã được tạo bởi
WalMart (một nhà bán lẻ ở Hoa Kỳ), đã xử lý hơn 20 triệu giao dịch một
ngày. Những tổ chức phi kinh doanh khác cũng đã thu thập những lượng dữ
liệu khổng lồ. Ngày nay, hầu như những giao dịch đều được lưu vào máy tính
và kết quả là những cơ sở dữ liệu lên đến hàng Gigabyte [3].
Nếu dữ liệu tích luỹ được phân tích chính xác, nó có thể trở thành
những phương tiện cạnh tranh hiệu quả. Thật không may, sự phát triển nhanh
chóng, lượng dữ liệu sưu tập khổng lồ đã vượt xa khả năng hiểu biết và đánh
6
giá của con người. Chúng rõ ràng đã làm tràn ngập những phương pháp phân
tích dữ liệu truyền thống chẳng hạn như bảng tính và câu truy vấn. Vì thế,
nhiều quyết định quan trọng đã được đưa ra dựa trên những chủ quan, kinh
nghiệm, sự thông thạo của người ra quyết định hơn là trên những thông tin
được lưu trữ trong cơ sở dữ liệu. Và kết quả là những cơ sở dữ liệu lớn đã trở
thành các “mồ dữ liệu” (data tombs) và điều này đã được mô tả như là vấn đề
“giàu dữ liệu nhưng nghèo thông tin”.
Trong môi trường cạnh tranh ngày nay cùng với sự phát triển nhanh
chóng của thế giới, những nhà ra quyết định xác định rõ cần phải có một thế
hệ các kỹ thuật và công cụ tính toán mới nhằm hỗ trợ họ trong việc trích xuất
các thông tin hữu ích (tri thức) được nhúng bên trong các dữ liệu thu thập và
tích luỹ. Họ mong muốn có những công cụ hỗ trợ quyết định trong một môi
trường tích hợp để họ có thể tự tạo những tiêu chuẩn của riêng mình hoặc
những báo biểu đặc biệt cho phân tích các dữ liệu phức tạp. Nắm được lợi ích
của lượng dữ liệu lớn, họ có thể xác định được những thông tin tiềm ẩn,
chẳng hạn nhờ đó có thể tiết kiệm chi phí, vươn tới những thị trường mới và
theo vết tổng thu nhập một cách hiệu quả.

quan.
- Là dữ liệu chỉ đọc.
- Nội dung của nó được cập nhật thường xuyên theo cách thêm thông
tin.
- Chứa các dữ liệu lịch sử và hiện tại để cung cấp các xu hướng thông
tin.
- Chứa các bảng dữ liệu có kích thước lớn.
8
- Một câu hỏi thường trả về một tập kết quả liên quan đến toàn bộ bảng
và các liên kết nhiều bảng [1].
1.1.2. Cách thức xây dựng kho dữ liệu
a. Thiết kế kho dữ liệu
Lược đồ thực thể kết hợp và kỹ thuật dạng chuẩn được sử dụng phổ biến
cho thiết kế cơ sở dữ liệu trong môi trường xử lý giao dịch trực tuyến –
OLTP (On-Line Transaction Processing). Do đó, cơ sở dữ liệu được thiết kế
bởi lược đồ thực thể liên kết – ER (Entity Relationship Diagram) không thích
hợp cho các hệ thống hỗ trợ quyết định vì chúng chủ yếu cần hiệu quả trong
truy vấn và trong nạp dữ liệu.
Còn kho dữ liệu, mục tiêu là hỗ trợ quyết định cho các nhà quản lý.
Tính chi tiết và riêng lẻ của các mẩu tin thì ít quan trọng hơn dữ liệu có tính
lịch sử, tổng kết và hợp nhất. Do đó, kho dữ liệu thường chứa dữ liệu hợp
nhất từ một hoặc nhiều cơ sở dữ liệu tác nghiệp và được thu thập qua một
thời gian dài. Kết quả là kích thước kho dữ liệu có khuynh hướng từ vài trăm
gigabyte đến hàng terabyte so với các cơ sở dữ liệu tác nghiệp. Kho dữ liệu
hỗ trợ các truy vấn phức tạp với thời gian hồi đáp nhanh, các truy vấn phức
tạp có thể truy xuất hàng triệu mẩu tin và thực hiện nhiều lần các thao tác
quét, kết và tổng hợp. Đối với kho dữ liệu, số lượng truy vấn đưa vào và thời
gian hồi đáp quan trọng hơn số lượng giao dịch đưa vào.
Căn cứ vào đó, các cơ sở dữ liệu tác nghiệp được làm cho phù hợp tốt
để hỗ trợ các tác vụ OLTP, còn kho dữ liệu được thiết kế để phục vụ tốt cho

gian
Cửa hng
phân phối
Chiều sản
phẩm
Chiều
khách
hng
Bảng sự
kiện bán
hng
Loại
sản
phẩm
11
Hình 1-3: Kiến trúc kho dữ liệu
Như hình trên cho thấy, kho dữ liệu bao gồm bảy phần:
- Dữ liệu nguồn (là các ứng dụng tác nghiệp hoặc các cơ sở dữ
liệu tác nghiệp) và các công cụ chiết xuất, làm sạch và chuyển đổi dữ liệu.
- Kho dữ liệu về dữ liệu (Metadata).
- Các kỹ thuật xây kho.
- Kho dữ liệu theo chủ đề (Data mart), là nơi các dữ liệu được
khoanh vùng theo chủ đề tới một giới hạn nào đó và có thể được thay đổi cho
phù hợp với nhu cầu của từng bộ phận người dùng. Một kho dữ liệu có thể
được phân tích thành nhiều kho dữ liệu chủ đề và ngược lại một tập hợp các
kho dữ liệu theo chủ đề có thể tạo thành một kho dữ liệu.
+ Các công cụ truy vấn (query), báo cáo (reporting), phân tích trực
tuyến (OLAP) và khai phá dữ liệu (data mining). Đây chính là các cách khai
thác kho dữ liệu để đem lại những “tri thức” hơn là đem lại chính những dữ
liệu thô.

Thứ hai là các kho dữ liệu được sử dụng để hỗ trợ cho phân tích trực
tuyến (OLAP). Trong khi ngôn ngữ vấn đáp chuẩn SQL và các công cụ làm
báo cáo truyền thống chỉ có thể miêu tả những gì có trong cơ sở dữ liệu, thì
phân tích trực tuyến có khả năng phân tích dữ liệu, xác định xem giả thuyết
đúng hay sai. Tuy nhiên, phân tích trực tuyến lại không có khả năng đưa ra
được các giả thuyết.
Hơn nữa, kích thước quá lớn và tính chất phức tạp của kho dữ liệu làm
cho nó rất khó có thể được sử dụng cho những mục đích như đưa ra các giả
thuyết từ các thông tin mà chương trình ứng dụng cung cấp. (Ví dụ như khó
có thể đưa ra được giả thuyết giải thích được hành vi của một nhóm khách
hàng).
Trước đây, kỹ thuật máy học thường được sử dụng để tìm ra những giả
thuyết từ các thông tin dữ liệu thu thập được. Tuy nhiên, thực nghiệm cho
thấy chúng thể hiện khả năng rất kém khi áp dụng với các tập dữ liệu lớn
trong kho dữ liệu này. Phương pháp thống kê tuy ra đời đã lâu nhưng không
có gì cải tiến để phù hợp với sự phát triển của dữ liệu. Đây chính là lý do tại
sao một khối lượng lớn dữ liệu vẫn chưa được khai thác và thậm chí được lưu
chủ yếu trong các kho dữ liệu không trực tuyến (off-line). Điều này đã tạo
nên một lỗ hổng lớn trong việc hỗ trợ phân tích và tìm hiểu dữ liệu, tạo ra
khoảng cách giữa việc tạo ra dữ liệu và việc khai thác các dữ liệu đó. Trong
khi đó, càng ngày người ta càng nhận thấy rằng nếu được phân tích thông
minh thì dữ liệu sẽ là một nguồn tài nguyên quý giá trong cạnh tranh trên
thương trường.
Giới tin học đã đáp lại những thách thức trong thực tiễn cũng như trong
nghiên cứu khoa học bằng cách đưa ra một phương pháp mới đáp ứng cả nhu
14
cầu trong khoa học cũng như trong hoạt động thực tiễn, đó chính là công
nghệ tích hợp và khai phá dữ liệu. Đây chính là ứng dụng chính thứ ba của
kho dữ liệu.
1.2. TÍCH HỢP DỮ LIỆU

• Phương pháp do query-điều khiển (on-demand)
Mô hình tích hợp dữ liệu bằng phương pháp bán tự động được trình
bày ở hình 1-5.
16
Hình 1-5: Tích hợp dữ liệu do query-điều khiển
Phương pháp bán tự động này được đề xuất vào khoảng năm 1995-
1996. Trong phương pháp này các lược đồ trung gian (tập hợp các luật trích
xuất) được xây dựng, dựa vào đó người dùng có thể chạy các câu truy vấn
để trích xuất dữ liệu từ những kiểu dữ liệu có định dạng tương tự.
Những hạn chế khi sử dụng giải pháp này:
+ Xử lý truy vấn
♦ Chậm hay nguồn thông tin không có.
♦ Tích hợp và lọc phức tạp.
+ Không hiệu suất và tốn phí cho các query phổ biến.
+ Cạnh tranh do xử lý cục bộ tại nguồn.
c. Tích hợp dữ liệu bằng phương pháp tự động
•Phương pháp ETL - trích xuất, biến đổi và tải [17].
Là quá trình gồm 3 bước: Trích xuất dữ liệu từ các nguồn khác nhau sau
đó biến đổi nó và cuối cùng là tải (load) vào nơi đã chuẩn bị trước.
Mô hình tích hợp dữ liệu bằng phương pháp ETL được trình bày ở
hình 1-6.
17
Hình 1-6: Mô hình tích hợp dữ liệu theo phương pháp ETL
 Trích xuất: Là phần đầu của một quá trình ETL liên quan đến việc
trích xuất dữ liệu từ các hệ thống dữ liệu nguồn.
Hầu hết các kho dữ được hợp nhất từ các nguồn dữ liệu khác nhau.
Các nguồn dữ liệu này có thể được tổ chức định dạng dữ liệu khác nhau, các
định dạng thường gặp là cơ sở dữ liệu quan hệ và các tập tin phẳng, nhưng có
thể bao gồm quan hệ cơ sở dữ liệu phi cấu trúc hay cấu trúc dữ liệu khác.
Trích xuất dữ liệu có nhiệm vụ lấy những dữ liệu cần thiết từ các nguồn dữ

- Tách một cột thành nhiều cột. Ví dụ, đặt một danh sách cách nhau
bằng dấu phẩy quy định như một chuỗi trong một cột như các giá trị cá nhân
trong các cột khác nhau.
- Phân tích sự lặp đi lặp lại cột vào một bảng chi tiết riêng biệt. Ví dụ,
di chuyển một loạt các địa chỉ trong một bản ghi vào địa chỉ duy nhất trong
một tập hợp các bản ghi trong một bảng địa chỉ liên kết.
Áp dụng bất kỳ hình thức chuyển đổi dữ liệu đơn giản hay phức tạp,
nếu không phù hợp với cấu trúc của dữ liệu đích thì có thể dẫn đến loại bỏ
hoàn toàn, một phần hoặc không có các dữ liệu để nạp vào cơ sở dữ liệu đích.
Bên cạnh những thiết kế quy tắc, chức năng chuyển đổi dữ liệu tự động
thường có thêm những quy định xử lý ngoại lệ, thủ công.
 Tải: Giai đoạn nạp tải dữ liệu đã được trích xuất và chuyển đổi vào
các mục tiêu cuối cùng, thường là các kho dữ liệu (DWH). Tùy thuộc vào yêu
cầu của tổ chức, quá trình này rất khác nhau. Một số kho dữ liệu có thể ghi
đè lên thông tin hiện có với thông tin tích luỹ, thường xuyên cập nhật trích
xuất dữ liệu được thực hiện trên cơ sở hàng ngày, hàng tuần hoặc hàng
tháng. DWH khác (hoặc ngay cả các bộ phận khác của cùng một DWH) có
thể thêm dữ liệu mới theo thời gian thực.

Trích đoạn PHÂN TÍCH VÀ THIẾT KẾ GIẢI PHÁP TÍCH HỢP TỔNG KẾT CHƯƠNG 2
Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status