ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐÀO XUÂN DŨNG
TÌM HIỂU VÀ XÂY DỰNG
HỆ HỖ TRỢ QUYẾT ĐỊNH DỰA TRÊN
HỆ THỐNG THÔNG TIN ĐỊA LÝ (GIS) LUẬN VĂN THẠC SĨ
HỆ THỐNG THÔNG TIN ĐỊA LÝ (GIS)
Ngành: Công nghệ thông tin
Chuyên ngành: Các Hệ thống thông tin
Mã số: 60 48 05
LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. Nguyễn Hà Nam
Hà Nội - 2010
1
LỜI CAM ĐOAN
Tôi xin cam đoan bản luận văn “Tìm hiểu và xây dựng hệ hỗ trợ quyết định dựa
2
LỜI CẢM ƠN
Em xin chân thành cảm ơn tới TS. Nguyễn Hà Nam, thày đã tận tình hướng dẫn,
chỉ dạy em hoàn thành luận văn này. Em xin chân thành cảm ơn các thày, cô giáo khoa
Công nghệ thông tin - Trường Đại học công nghệ - Đại học Quốc gia Hà nội đã truyền
thụ kiến thức cho em trong suốt quá trình học tập vừa qua.
Tôi cũng xin cảm ơn cơ quan, bạn bè đồng nghiệp, gia đình và những người thân
đã cùng chia sẻ, giúp đỡ, động viên, tạo mọi điều kiện thuận lợi để tôi hoàn thành
nhiệm vụ học tập và cuốn luận văn này.
3.1 Tổng quan 21
3.2 Các kỹ thuật và cách tiếp cận khai phá dữ liệu 22
4
4. Các kỹ thuật phân lớp dữ liệu 24
4.1 Phân lớp bằng phương pháp quy nạp cây quyết định 24
4.1.1 Độ lợi thông tin 25
4.1.2 Giải thuật random forest (RF) [18] 26
4.2 Phân lớp bằng phương pháp mạng nơ ron nhân tạo 30
4.2.1 Khái niệm cơ bản 30
4.2.2 Mô hình mạng nơ-ron nhân tạo 32
4.2.3 Khả năng ứng dụng của mạng nơ-ron nhân tạo 34
4.2.4 Thuật toán lan truyền ngược sai số 36
4.3 Phân lớp bằng phương pháp Naïve Bayes 40
4.4 Phân lớp bằng các phương pháp khác (luật kết hợp, khoảng cách ) 41
4.5 Dự báo và phân lớp 41
5. Đánh giá các phƣơng pháp phân lớp 41
CHƢƠNG 3: GIỚI THIỆU VỀ HỆ DSS-GIS 42
ÁP DỤNG VÀO VIỆC DỰ BÁO LƢU LƢỢNG NƢỚC 42
1. Điều kiện địa lý, tự nhiên, khí tƣợng thuỷ văn lƣu vực sông Đà 42
1.1 Vị trí địa lý 42
1.2 Địa hình 42
1.3 Điều kiện địa chất 43
1.4 Điều kiện thổ nhưỡng 43
1.5 Đặc điểm khí hậu 43
1.6 Đặc điểm chế độ thuỷ văn 44
1.7 Thống kê dữ liệu thu thập được 47
2. Hƣớng tiếp cận máy học trong việc xây dựng mô hình hệ DSS 47
3. Một số chỉ tiêu đánh giá kết quả dự báo 48
4. Áp dụng vào xây dựng một hệ hỗ trợ quyết định dựa trên nền GIS 49
6
BẢNG KÝ HIỆU CÁC CHỮ VIẾT TẮT
CSDL
Cơ sở dữ liệu
DSS
Decision Support System
Hệ hỗ trợ quyết định
GIS
Geographical Information System
Hệ thống thông tin địa lý
SDSS
Spatial Decision Support System
Hệ hỗ trợ quyết định không gian
OLAP
Online Analytic Processing
Xử lý phân tích trực tuyến
RMSE
Root Mean Square Error
Sai số căn trung bình phương
phân tích thống kê được thể hiện qua phép phân tích địa lý. Những sản phẩm của GIS
được tạo ra một cách nhanh chóng, nhiều tình huống có thể được đánh giá một cách
đồng thời và chi tiết.
Hiện nay nhu cầu ứng dụng công nghệ GIS trong lĩnh vực điều tra nghiên cứu,
khai thác sử dụng, quản lý tài nguyên thiên nhiên và môi trường ngày càng gia tăng
không những trong phạm vi quốc gia, mà cả phạm vi quốc tế. Tiềm năng kỹ thuật của nó
trong lĩnh vực ứng dụng có thể chỉ ra cho các nhà khoa học và các nhà hoạch định chính
sách, các phương án lựa chọn có tính chiến lược về sử dụng và quản lý tài nguyên thiên
nhiên và môi trường.
Việc quản lý hô
̃
trơ
̣
khai tha
́
c , sư
̉
du
̣
ng va
̀
qua
̉
n lý tng hợp hiệu quả các nguồn
tài nguyên thiên nhiên dựa trên nền GIS là rất cần thiết. Hệ hỗ trợ quyết định kết hợp
với công nghệ GIS là một xu thế tất yếu nhằm phát triển một hệ thống có những tính
năng mô phỏng các đối tượng trên thế giới thực, truyền đạt và hỗ trợ, cung cấp thông
tin tốt nhất cho những người sử dụng nói chung cũng như những nhà hoạch định chính
sách nói riêng. Mô hình học máy được sử dụng trong hệ thống nhằm tăng khả năng
khai thác thông tin, cung cấp những thông tin có ích hơn cho người sử dụng. Đề tài về
2. Nhu cầu cần thiết từ thực tiễn
Trong thực tế, ra quyết định luôn đòi hỏi yêu cầu phải xử lý kiến thức, kiến thức là
nguyên liệu và thành phẩm của ra quyết định, cần được sở hữu hoặc tích lũy bởi người
ra quyết định. Ngoài ra, việc giới hạn về nhận thức do trí nhớ con người có hạn, giới
hạn về chi phí nhân lực, thời gian và áp lực cạnh tranh là những yếu tố mà dẫn đến cần
thiết phải có hệ hỗ trợ quyết định tin cậy trợ giúp nhà quản lý, nhà ra quyết định.
Vào thập kỷ 80, 90 của thế kỷ XX, điều tra các công ty lớn cho thấy:
- Kinh tế thiếu n định
- Khó theo dõi vận hành của doanh nghiệp
- Cạnh tranh gay gắt
- Xuất hiện thương mại điện tử
- Bộ phận IT quá bận, không giải quyết được các yêu cầu về quản lý
- Cần phân tích lợi nhuận, hiệu quả và thông tin chính xác, mới, kịp thời
- Giảm chi phí hoạt động
Xu hướng tính toán của người dùng hiện nay:
- Cải thiện tốc độ tính toán
- Tăng năng suất lao động của cá nhân liên đới
- Cải tiến kỹ thuật trong việc lưu trữ, tìm kiếm, trao đi dữ liệu trong và ngoài t
chức theo hướng nhanh và kinh tế.
- Nâng cao chất lượng của các quyết định đưa ra
- Tăng cường năng lực cạnh tranh của t chức
- Khắc phục khả năng hạn chế của con người trong việc xử lý và lưu trữ thông tin
Theo (Keen – 1981 [16]), thì thuận lợi của hệ DSS là:
- Tăng số phương án xem xét: Phân tích độ nhạy nhanh và hiệu quả hơn
9
- Hiểu nghiệp vụ tốt hơn: Thấy được các quan hệ nghiệp vụ của toàn hệ thống
- Đáp ứng nhanh trước các tình huống không mong đợi: Dễ xem xét các thay đi
và dễ hiệu chỉnh mô hình
- Mô hình là phần tử chủ chốt trong hầu hết hệ hỗ trợ quyết định và là điều kiện
cần trong hệ hỗ trợ quyết định dựa vào mô hình (model-based DSS).
- Có nhiều lớp mô hình kèm theo là các kỹ thuật xử lý thao tác mô hình đặc thù
tương ứng
- Các vấn đề chính: nhận diện bài toán và phân tích môi trường, nhận diện biến
số, dự báo, đa mô hình, các phạm trù mô hình, quản lý mô hình và mô hình hóa
dựa vào kiến thức
- Mô hình hóa là tác vụ không đơn giản. Người xây dựng mô hình phải cân bằng
giữa tính đơn giản của mô hình với các yêu cầu biểu diễn để mô hình có thể
nắm bắt đủ thực tại cần thiết cho người ra quyết định
- Mô phỏng là kỹ thuật mô hình hóa thông dụng; dùng để tìm hiểu vấn đề tuy
không nhất thiết phải tìm ra được các giải pháp biến thể; mở rộng quá trình ra
10
quyết định của t chức và cho phép t chức xem xét tác động, ảnh hưởng của
các chọn lựa tương lai.
- Mô phỏng tiết kiệm rất nhiều chi phí và thời gian – rất dễ thay đi mô hình hoạt
động của một hệ thống vật lý bằng mô hình hóa máy tính
- Mô hình có thể được phát triển và cài đặt bằng một số các ngôn ngữ lập trình và
hệ thống phần mềm khác nhau
Các phạm trù mô hình trong thực tiễn:
Phạm trù
Quá trình và mục tiêu
Kỹ thuật đại diện
Tối ưu hóa bài toán
với ít phương án
Tìm ra giải pháp tốt nhất từ
một số ít phương án
Bảng quyết định, cây quyết
Các mô hình tiên
đoán
Tiên đoán tương lai cho một
kịch bản
Các mô hình dự báo, phân
tích Markov
Mô hình tĩnh và động
- Mô hình tĩnh: Thể hiện bức tranh tại thời điểm của tình huống. Các khía cạnh
của bài toán được xét một thời kỳ nhất định, trong một khung thời gian nhất
định (có thể “cuốn” về tương lai). Các tình huống được giả sử là sẽ lập lại với
tập các điều kiện đồng nhất:
o Giả định có được tính n định của dữ liệu
o Mô phỏng quá trình dạng tĩnh - làm việc trên các trạng thái n định để
tìm ra các thông số tối ưu – thường được dùng như công cụ chủ yếu để
thiết kế quá trình
o Ví dụ: Quyết định sản xuất/mua 1 sản phẩm; báo cáo thu nhập hàng
quý/năm
- Mô hình động: Biểu diễn các kịch bản thay đi theo thời gian
o Phụ thuộc thời gian; các trạng thái thay đi theo thời gian
11
o Thường dùng để tạo sinh và biểu diễn các xu hướng và khuôn mẫu theo
thời gian
o Mô phỏng động: Thể hiện các diễn tiến khi các điều kiện theo thời gian
khác với các trạng thái n định – thường được dùng để thiết kế việc kiểm
soát các hệ thống
o Ví dụ: Dự báo lưu lượng nước của trạm thủy văn Hòa Bình trong thời
gian 1 năm tới với các đầu vào là dữ liệu lưu lượng nước thay đi theo
từng năm.
12
Luận văn này tập trung tìm hiểu về hệ hỗ trợ quyết định. Trong đó mô hình của
hệ hỗ trợ quyết định (là 1 thành phần chủ chốt trong 3 thành phần của DSS) dựa trên
một số phương pháp học máy tiên tiến như mạng nơ ron nhân tạo (ANN), cây quyết
định, random forest và ứng dụng phương pháp máy học vào việc xây dựng mô hình dữ
liệu cho hệ hỗ trợ quyết định. Nền GIS được sử dụng để mô phỏng giao diện tương tác
với người sử dụng. Cơ sở dữ liệu không gian lưu trữ vị trí địa lý các trạm thủy văn, các
đối tượng địa lý như sông ngòi, lớp bản đồ nền. Ngoài ra, dữ liệu đầu vào là bộ số liệu
lưu lượng nước được đo đạc hàng năm, được tiền xử lý rời rạc hóa để đưa vào xây
dựng mô hình dữ liệu. Đầu ra của ứng dụng là dự báo lưu lượng nước có thể lên đến 1
tháng. Luận văn đã hoàn thành phần mềm thử nghiệm và tiến hành thực nghiệm trên
bộ dữ liệu được thu thập tin cậy thông qua hệ thống đo đạc thủy văn tại trạm Hòa Bình
- sông Đà, nguồn nước chính tại hồ Hòa Bình.
Nội dung chính của luận văn được t chức thành 4 chương có nội dung được mô tả
như dưới đây:
Chƣơng 1: Giới thiệu tổng quan về bài toán, chương này giới thiệu tóm tắt về
DSS, các thành phần của DSS, nhu cầu hiện có và hướng giải quyết thực tiễn.
Chƣơng 2: Các mô hình hệ hỗ trợ quyết định và các phƣơng pháp khai phá
dữ liệu, chương này trình bày kiến thức liên quan đến các mô hình của DSS trong thực
tiễn, chi tiết các phương pháp Data mining về một số mô hình phân lớp, hồi quy.
Chƣơng 3: Giới thiệu về hệ DSS-GIS áp dụng vào việc dự báo lƣu lƣợng
nƣớc, chương này trình bày về DSS được xây dựng trên nền GIS, trình bày về cách
xây dựng mô hình dữ liệu cho DSS sử dụng giải thuật random forest áp dụng vào việc
dự báo lưu lượng nước tại trạm thủy văn Hòa Bình dựa trên số liệu thu thập đo đạc lưu
lượng qua các năm.
Chƣơng 4: Xây dựng chƣơng trình chạy thử nghiệm, chương này nhằm mô tả
và đánh giá về chương trình đã xây dựng, kết quả thực nghiệm với bộ số liệu đo đạc
tại trạm Hòa Bình. Từ đó đánh giá dựa trên việc thực hiện so sánh bộ số liệu dự báo
với bộ số liệu trong thực tế.
nhiều các phương án – mỗi phương án được trình ra, dưới dạng bảng hay đồ thị
-các kết quả tương ứng (dự báo được kèm xác suất) theo mục tiêu bài toán – từ
đó chọn phương án tốt nhất
- Đơn mục tiêu: bảng quyết định hay cây quyết định
- Đa mục tiêu: AHP (analytic hierarchy process).
Mô hình hóa bằng quy hoạch toán
- Quy hoạch toán học (mathematical programming) là họ các công cụ giải quyết
các bài toán quản lý theo đó người ra quyết định phải cấp phát các tài nguyên
khan hiếm cho các hoạt động cạnh tranh nhau (các phương án) nhằm tối ưu hóa
mục tiêu có khả năng đo lường được
- Các mô hình quy hoạch tuyến tính (linear programming) thông dụng nhất trong
quy hoạch toán; có nhiều ứng dụng trong thực tế; được dùng nhiều trong các hệ
hỗ trợ quyết định
- Bài toán quy hoạch tuyến tính:
- Các biến quyết định (cần tìm giá trị)
- Hàm mục tiêu (hàm toán học dạng tuyến tính xác định quan hệ giữa biến quyết
định và mục tiêu; đo lường mức độ đạt đạt mục tiêu và cần được tối ưu hóa)
14
- Các hệ số của hàm mục tiêu (cho biết mức đóng góp vào mục tiêu của 1 đơn vị
biến quyết định)
- Ràng buộc (biểu thức tuyến tính cho biết giới hạn tài nguyên và/hay các quan
hệgiữa các biến số)
- Dung lượng (mô tả cận trên và dưới của các biến và ràng buộc)
- Hệ số (công nghệ) vào-ra (cho biết mức độ sử dụng tài nguyên của biến quyết
định)
Đặc điểm của bài toán quy hoạch tuyến tính:
- Tài nguyên kinh tế của bài toán là có hạn và sẵn sàng
- Có nhiều cách (>2 cách) sử dụng tài nguyên được gọi là giải pháp hay chương
nhận được cho bài toán cấu trúc chặt
- Không đủ tng quát như các giải thuật; thường chỉ dùng cho tình huống đặc thù
đang xét
- Có thể dẫn đến một giải pháp dở - các thủ tục từng bước giải quyết vấn đề
không đảm bảo tìm ra giải pháp tối ưu
- Heuristic có thể là định lượng vì vậy có thể đóng vai trò quan trọng trong cơ sở
mô hình của hệ hỗ trợ quyết định
- Heuristic có thể là định tính vì vậy có thể đóng vai trò quan trọng trong cung
ứng kiến thức cho hệ chuyên gia
- Quá trình heuristic liên quan đến tìm kiếm, học tập, ước lượng, phân xử và lặp
lại các hoạt động này dọc theo tiến trình
- Kiến thức thu được dù thành công hay thất bại trong quá trình đều được phản
hồi và sửa đi chính quá trình, nhờđó có thểđịnh nghĩa lại mục tiêu hay bài toán
Tìm kiếm Tabu (Glover & Laguna, 1997, Sun et al., 1998) đặt cơ sở trên các
chiến lược tìm kiếm thông minh nhằm rút ngắn việc dò tìm: “ghi nhớ” các giải
pháp tốt và xấu đã tìm được và hướng dần đến các giải pháp tốt
Giải thuật di truyền: bắt đầu bằng tập các giải pháp được sinh ngẫu nhiên, tái
kết hợp các cặp giải pháp một cách ngẫu nhiên
Tình huống nên dùng heuristics
- Dữ liệu đầu vào không chính xác hay có giới hạn
- Thực tế quá phức tạp đến nỗi không dùng được các mô hình tối ưu
- Chưa có được giải thuật chính xác và đủ tin cậy
- Bài toán phức tạp nên sẽ không kinh tế nếu dùng tối ưu hay mô phỏng hoặc tốn
quá nhiều thời gian tính toán
- Có thể cải thiện tính hiệu quả của quá trình tối ưu (tức có thể sinh ra các giải
pháp ban đầu tương đối tốt)
- Liên quan đến xử lý ký hiệu chứ không phải xử lý ký số (như hệ chuyên gia)
- Cần có quyết định nhanh và các xử lý dựa vào máy tính đều không khả thi (một
số heuristic không cần đến máy tính)
phần một. Ví dụ: bài toán người bán hàng – luôn ghé thành phố chưa viếng
thăm kếtiếp gần nhất
- Heuristic cải tiến: bắt đầu bằng một giải pháp khả thi và cố gắng cải tiến liên
tục trên đó. Ví dụ trên, thử hoán đi 2 thành phố
- Quy hoạch toán: áp dụng vào các mô hình chứa ít ràng buộc nhằm có được
thông tin về thỏa hiệp tốt nhất với mô hình nguyên gốc. Thường được dùng
trong tối ưu hóa nguyên (integer optimization)
- Chia giai đoạn: giải quyết một vấn đề theo từng giai đoạn.
- Phân rã: chia bài toán thành các phần nhỏ hơn, có thể giải quyết được sau đó
kết hợp các giải pháp đó lại. Ví dụ: chia lãnh th bán hàng thành 4 vùng khác
nhau, giải quyết cho từng vùng sau đó kết nối các giải pháp
Mô phỏng
- Giả định các đặc điểm của thực tại
- Là kỹ thuật tiến triển các thực nghiệm (như phân tích “what-if”) - bằng máy
tính trên một mô hình của hệ thông tin quản lý
- Không thực sự là một mô hình vì không biểu diễn thực tại mà là cố gắng bắt
chước thực tại
- Là một trong những phương pháp thông dụng nhất trong DSS
- DSS làm việc với các bài toán phi cấu trúc và cấu trúc yếu, tình huống thực tế
phức tạp – không dễ biểu diễn bằng mô hình tối ưu hay các dạng mô hình khác
nhưng lại thường có thể xử lý được bằng mô phỏng
17
Đặc điểm:
- Ít đưa ra các đơn giản hóa về thực tại hơn các mô hình khác
- Do triển khai các thực nghiệm nên nó có thể kiểm thửcác giá trị cụ thể của các
biến quyết định/biến không kiểm soát được của mô hình và xem xét ảnh hưởng
lên các biến kết quả
- Phương pháp có tính mô tả (như vậy khác với phương pháp danh định)
- Không tự động tìm kiếm giải pháp tối ưu – nó mô tả/tiên đoán các đặc tính của
của mình
- Ph bài toán giải được rất rộng: tồn kho, nhân sự, hoạch định chiến lược
- Có thể chứa các phức tạp thực sự của bài toán, không cần các đơn giản hóa (Ví
18
dụ: dùng các phân phối xác suất thực thay vì phân phối lý thuyết xấp xỉ)
- Có thể tự động sinh ra nhiều đo lường hiệu năng quan trọng
- Thường là phương pháp duy nhất của DSS có thể xử lý các bài toán tương đối
phi cấu trúc
- Có một số các gói phần mềm mô phỏng (Monte Carlo) tương đối dễ dùng
Điểm yếu:
- Tuy thường tìm được các phương án đủ tốt nhưng không đảm bảo lời giải tối ưu
- Quá trình xây dựng mô hình thường dài và tốn kém
- Giải pháp và suy diễn từ nghiên cứu mô phỏng thường không thể chuyển sang
bài toán khác vì mô hình kết hợp các yếu tố đặc thù
- Đôi khi do mô hình quá dễ giải thích cho nhà quản lý nên các phương pháp
phân tích thường xem nhẹ
- Phần mềm mô phỏng đôi khi yêu cầu các kỹ năng đặc biệt do độ phức tạp của
phương pháp giải hình thức
Các loại mô phỏng:
- Mô phỏng xác suất: một hay nhiều biến độc lập mang tính xác suất với 2 loại
phân phối – thường dùng kỹ thuật Monte Carlo
- Phân phối rời rạc: tình huống có một số giới hạn các biến cố (biến) với hữu hạn
các giá trị cho mỗi biến cố (biến)
- Phân phối liên tục: tình huống có số lượng không giới hạn các biến cố tuân theo
các hàm mật độ xác suất như phân phối chuẩn
- Mô phỏng độc lập/phụ thuộc theo thời gian:
Độc lập: không cần thiết phải biết chính xác thời điểm xảy ra biến cố (nhu cầu
tiêu thụ lượng sản phẩm trong ngày, không biết chính xác thời điểm tiêu thụ)
- Ích lợi: Người ra quyết định tham gia vào quá trình phát triển mô hình và thực
nghiệm mô phỏng vì vậy sẽ tin tưởng khi sử dụng mô hình
- Mô hình hóa tương tác trực quan (Visual Interactive Modeling - VIM) dùng các
biểu diễn đồ họa máy tính để trình bày các ảnh hưởng của các quyết định quản
lý khác nhau, ở một thời điểm (tĩnh) hay tiến triển theo thời gian (động với kỹ
thuật hoạt hình)
- Mô phỏng tương tác trực quan (Visual Interactive Simulation - VIS) cho phép
người dùng theo dõi tiến trình xây dựng vàsử dụng khai thác mô hình mô phỏng
dưới dạng hoạt hình
- Mô hình hóa tương tác trực quan có thể kết hợp với tiếp cận trí tuệ nhân tạo để
đưa ra các khả năng mới thay đi từ xây dựng hệ thống dạng đồ họa đến tìm
hiểu về động học của hệ thống
- Cần đến các hệ thống máy tính xử lý song song tốc độ cao để xây dựng các mô
phỏng - phức tạp, quy mô lớn, dạng hoạt hình - mang tính khả thi ở thời gian
thực.
Các bộ phần mềm định lượng và xử lý phân tích trực tuyến
- Một số công cụ DSS có chứa sẵn các trình con để xây dựng các mô hình định
lượng về thống kê, phân tích tài chánh, kế toán …
- Nhiều công cụ HTQĐ có thể tương tác với các bộ phần mềm định lượng chuẩn
(các mô hình lập sẵn), nhờ đó có thể tăng năng suất nhờ vào các mô hình có sẵn
- Phần mềm thống kê:
- Được coi như một công cụ ra quyết định hơn là một công cụ phân tích trong
quá trình ra quyết định
- Có thể được nhúng trong các công cụ khai mỏ dữ liệu và công cụ xử lý phân
20
tích trực tuyến, do đó người dùng khó nhận biết được các phương pháp thống
kê phức tạp được dùng
- Các bảng tính cũng chứa nhiều hàm thống kê phức tạp và có các giao tiếp ngoài
có thể lập trình được
các phần mềm thực sự thực hiện tác vụ tối ưu hóa hay mô phỏng. Chúng hỗ trợ
cho việc phát triển và quản lý các mô hình. Vài ngôn ngữ mô hình hóa dạng
quy hoạch toán học thông dụng như Lingo, AMPL, GAMS
Ngƣời dùng phải có đƣợc khả năng sau:
- Truy đạt, thao tác, lưu chứa và hiệu chỉnh mô hình hiện có
21
- Xây dựng mô hình mới từ các mô hình hiện có với n lực chi phí phù hợp
Hệ quản trị cơ sở mô hình quan hệ:
- Tương tự như CSDL quan hệ, mô hình được xem như một quan hệ ảo
- Có 3 hoạt động cần thiết để có được tính đầy đủ quan hệ trong quản lý mô hình:
thực thi (execution), tối ưu và phân tích độ nhạy (sensitivity analysis)
Hệ quản trị cơ sở mô hình hƣớng đối tƣợng:
- Duy trì sự độc lập logic giữa cơ sở mô hình và các thành phần khác của DSS,
hỗ trợ sự tích hợp thông minh và n định giữa các thành phần
- các khái niệm hướng đối tượng quen thuộc trong các giao diện người dùng đồ
họa (GUI) đều có thể áp dụng vào việc quản lý mô hình
2. Hệ hỗ trợ quyết định không gian (SDSS)
Ý niệm về SDSS được bắt nguồn từ khái niệm DSS từ những năm của thập kỷ 70,
và được phát triển sau đó. Bởi vì SDSS theo sau DSS nên nó cũng cần thiết để có
những đặc điểm chung được đưa ra bởi Sprague & Ralph (1980), cũng như những khả
năng b sung được đưa ra bởi Densham (1990) như sau:
- Cung cấp những cơ chế cho đầu vào của dữ liệu không gian
- Cho phép biểu diễn những cấu trúc và những quan hệ không gian
- Bao gồm các kỹ thuật phân tích địa lý và không gian
- Cung cấp đầu ra dưới các khuân dạng không gian khác nhau bao gồm các bản
đồ và các báo cáo dạng bảng biểu.
Khi thành phần không gian được đưa vào DSS, thì việc xử lý và quản lý thông tin
không gian là hoàn toàn có thể, vì vậy SDSS có đóng góp quan trọng đối việc việc
lồng ghép chiều không gian trong quá trình đưa ra quyết định, nó có tầm quan trọng vĩ
4) Chuyển đi dữ liệu (data transformation): Trong bước này, dữ liệu sẽ được
chuyển đi về dạng phù hợp cho việc khai phá bằng cách thực hiện các thao tác
nhóm hoặc tập hợp.
5) Khai phá dữ liệu (data mining): Là giai đoạn thiết yếu, trong đó các phương pháp
thông minh sẽ được áp dụng để trích xuất ra các mẩu dữ liệu.
6) Đánh giá mẫu (pattern evaluation): Đánh giá sự hữu ích của các mẫu biểu diễn tri
thức dựa vào một số phép đo.
7) Trình diễn dữ liệu (Knowlegde presentation): Sử dụng các kỹ thuật trình diễn và
trực quan hoá dữ liệu để biểu diễn tri thức khai phá được cho người sử dụng.
Các kỹ thuật và cách tiếp cận khai phá dữ liệu
- Các kỹ thuật khai phá dữ liệu bao gồm 2 nhóm chính:
o Kỹ thuật khai phá dữ liệu mô tả: Có nhiệm vụ mô tả về các tính chất
hoặc các đặc tính chung của dữ liệu trong CSDL hiện có. Các kỹ thuật
này gồm có: phân cụm (clustering), tóm tắt (summarization), trực quan
hoá (visualization), phân tích sự phát triển và độ lệch (Evolution and
deviation analyst), phân tích luật kết hợp (association rules)…
o Kỹ thuật khai phá dữ liệu dự đoán: Có nhiệm vụ đưa ra các dự đoán
dựa vào các suy diễn trên dữ liệu hiện thời. Các kỹ thuật này gồm có:
Phân lớp (classification), hồi quy (regression)…
- Hướng tiếp cận: Với hai đích chính của khai phá dữ liệu là Dự đoán
(Prediction) và Mô tả (Description), người ta thường sử dụng các phương pháp
sau cho khai phá dữ liệu:
o Phân loại (Classification)
o Hồi qui (Regression)
23
o Phân nhóm (Clustering)
o Tng hợp (Summarization)
o Mô hình ràng buộc (Dependency modeling)
o Dò tìm biến đi và độ lệch (Change and Deviation Dectection)
trên thế giới đã áp dụng kỹ thuật khai phá dữ liệu vào các hoạt động sản xuất kinh
doanh của mình và thu được những lợi ích to lớn. Khai phá dữ liệu rất quan trọng
trong việc xây dựng lên mô hình của hệ hỗ trợ quyết định.