ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN CHÍ THANH
KHAI PHÁ DỮ LIỆU LOGFILE CỦA
FIREWALL TRONG HỆ THỐNG MẠNG
IPTV NHẰM PHÁT HIỆN TẤN CÔNG
TỪ CHỐI DỊCH VỤ
Ngành: CNTT
Chuyên ngành: Hệ thống thông tin
Mã số: 60 48 05 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Hà Quang Thụy
không chỉ rõ về tài liệu tham khảo. Học viên thực hiện
Nguyễn Chí Thanh
3
MỤC LỤC
LỜI CẢM ƠN 1
LỜI CAM ĐOAN 2
MỤC LỤC 3
DANH MỤC CÁC CHỮ VIẾT TẮT 5
DANH MỤC BẢNG BIỂU 6
DANH MỤC HÌNH VẼ 7
MỞ ĐẦU 8
CHƯƠNG 1: SƠ BỘ VỀ LOGFILE MẠNG IPTV 11
1.1. GIỚI THIỆU VỀ MẠNG IPTV 11
1.1.1. IPTV là gì 11
1.1.2. Kiến trúc tổng quan mạng IPTV 11
1.1.3. Các dịch vụ của mạng IPTV 13
1.2. DỮ LIỆU LOGFILE MẠNG IPTV 13
3.2. MÔ HÌNH GIẢI PHÁP 34
3.2.1. Xây dựng mô hình 34
3.2.2. Phân lớp bản ghi logfile theo địa chỉ và cổng dịch vụ máy đích 37
3.2.3. Phân cụm bản ghi logfile theo địa chỉ máy trạm 40
CHƯƠNG 4: THỰC NGHIỆM 45
4.1. QUY TRÌNH THỰC NGHIỆM 45
4.1.1. Môi trường thực nghiệm 45
4.1.2. Mô tả quy trình thực nghiệm 46
4.2. PHÂN TÍCH DỮ LIỆU LOGFILE FIREWALL ISA 46
4.3. PHẦN MỀM DoSAlert 48
4.3.1. Chức năng chính của phần mềm 48
4.3.2. Mô tả cơ sở dữ liệu 49
4.3.3. Giao diện phần mềm 50
4.4. KẾT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ 52
4.4.1. Kết quả thực nghiệm 52
4.4.2. Đánh giá kết quả thực nghiệm 56
KẾT LUẬN 57
TÀI LIỆU THAM KHẢO 58
5
DANH MỤC CÁC CHỮ VIẾT TẮT
API
Application Programming Interface
CSDL
Cơ sở dữ liệ
DoS
Denial of Service
CNTT
Security Information and Event Management
STB
Set Top Box
VoD
Video on Demand
VoIP
Voice over Internet Protocol
DSL
Digital Subscriber Line 6
DANH MỤC BẢNG BIỂU
Bảng 1.1: Cấu trúc STB log. 17
Bảng 1.2: Cấu trúc logfile của IIS 18
Bảng 3.1: Dữ liệu kiểm thử sau khi trích chọn và khử nhiễu 39
Bảng 3.2 (a): Dữ liệu kiểm thử sau khi phân lớp 39
Bảng 3.2 (b): Dữ liệu kiểm thử sau khi phân lớp 39
Bảng 3.2 (c): Dữ liệu kiểm thử sau khi phân lớp 40
Bảng 4.1: Cấu trúc logfile Firewall ISA 2006 48
Bảng 4.2: Cấu trúc bảng cơ sở dữ liệu tbl_setting 49
Bảng 4.3: Cấu trúc bảng cơ sở dữ liệu tbl_destinationip 49
Bảng 4.4: Cấu trúc bảng phụ trong cơ sở dữ liệu 50 7
DANH MỤC HÌNH VẼ
MỞ ĐẦU
Ngày nay, việc quản lý và vận hành các hệ thống mạng viễn thông đều
dựa trên việc phân tích dữ liệu do các thiết bị và ứng dụng trong hệ thống cung
cấp. Những dữ liệu này được gọi là dữ liệu log hệ thống và dữ liệu log ứng
dụng. Dữ liệu log hệ thống là những dữ liệu được tạo ra bởi các thiết bị hệ thống
và hệ điều hành. Dữ liệu log ứng dụng là những dữ liệu được tạo ra bởi các ứng
dụng chuyên trách phục vụ một hoặc một số nhiệm vụ trong hệ thống. Những dữ
liệu này thường rất phức tạp do được cung cấp bởi những hệ thống có sự tham
gia của nhiều hãng trong cùng một mạng lưới rộng lớn. Nguyên nhân của sự
phức tạp này chủ yếu là do các dữ liệu có định dạng khác nhau, ý nghĩa các
thành phần khác nhau, dẫn đến khó khăn trong quá trình đọc và phân tích, gây
phức tạp trong việc tìm mối tương quan giữa các dữ liệu, gây phức tạp trong
việc thu thập và lưu trữ, v.v… Một phần nhỏ của dữ liệu này được thể hiện
thông qua các hệ thống giám sát vận hành trực tuyến, cho phép cung cấp một
bức tranh toàn cảnh về quá trình vận hành và chất lượng dịch vụ theo từng thành
phần mạng khác nhau, tuy nhiên phần lớn dữ liệu được nén và lưu trữ cục bộ.
Khi có một sự kiện bất thường xảy ra cần được phân tích chi tiết tức thời, các dữ
liệu gần đây sẽ được lấy ra, giải nén rồi đưa vào phân tích. Đây là một loại phân
tích ra quyết định trực tuyến và nó tạo ra những thách thức lớn đối với các
phương thức khai phá dữ liệu và các quá trình phát hiện tri thức [8, 9, 10, 11].
Ngoài ra, sự phát triển nhanh chóng của công nghệ viễn thông như nâng
cao tốc độ Internet, các công nghệ di động mới, sự phát triển của kết nối không
dây, sự kết hợp các công nghệ cũ và mới, cùng với sự gia tăng không ngừng
khách hàng sử dụng cũng làm cho số lượng dữ liệu log tạo ra lớn hơn, dữ liệu
log ngày càng phức tạp hơn. Việc trích xuất các phần dữ liệu phù hợp, có giá trị
trong một khối lượng lớn các dữ liệu hệ thống là thách thức đối với các phương
thức và công cụ phân tích hiện nay. Điều này đỏi hỏi sự cải tiến không ngừng
các phương pháp tiếp cận và kỹ thuật khai phá dữ liệu, đồng thời nâng cao khả
trong hệ thống. Những kỹ thuật chính được áp dụng trong giải pháp SIEM chính
là các kỹ thuật khai phá dữ liệu. Mục tiêu của các giải pháp này mới chỉ ở mức
độ hỗ trợ điều tra, xử lý các sự cố vận hành hệ thống, đánh giá hiệu suất hoạt
động, và chưa tập trung nhiều vào việc phát hiện, cảnh báo các sự cố bảo mật.
Mặt khác, các giải pháp này chỉ phù hợp để triển khai trong những hệ thống có
quy mô lớn, được đầu tư nhiều giải pháp bảo mật khác để bảo vệ tổng thể, theo
đó, giải pháp SIEM sẽ đưa ra cảnh báo dựa trên log của chính những thiết bị bảo
mật đó. Có thể thấy các giải pháp này chưa thực sự phù hợp với môi trường
CNTT ở Việt Nam bởi vì các doanh nghiệp ở Việt Nam chưa dành sự quan tâm
đúng mức về việc đảm bảo an toàn thông tin, mặt khác chi phí đầu tư cũng là
một vấn đề lớn khiến cho các hệ thống CNTT ở Việt Nam không được trang bị
đầy đủ các giải pháp bảo mật, dẫn đến việc triển khai các sản phẩm SIEM không
hiệu quả.
Dựa trên việc tham khảo nghiên cứu của Kimmo Hätönen, 2009 [10] về
phân tích logfile hệ thống mạng IPTV nhằm hỗ trợ ra quyết định trong việc xử
lý các sự cố vận hành, đánh giá hiệu năng hệ thống, đánh giá chất lượng dịch vụ,
tác giả nhận thấy có thể áp dụng một cách hiệu quả các kỹ thuật khai phá dữ liệu
vào việc đảm bảo an toàn, bảo mật cho hệ thống mạng IPTV nói riêng và các hệ
thống CNTT nói chung. Hướng tiếp cận này sẽ hữu ích trong việc phát triển
những giải pháp cảnh báo tấn công, có đặc tính phù hợp với môi trường CNTT
tại Việt Nam, đó là: hiệu quả, chi phí thấp, dễ triển khai và áp dụng cho nhiều hệ
thống với quy mô khác nhau.
Cụ thể trong luận văn này, tác giả đề xuất xây dựng mô hình giải pháp
khai phá dữ liệu logfile của Firewall trong mạng IPTV nhằm phát hiện tấn công
từ chối dịch vụ (DoS).
Nội dung của luận văn chia thành các chương như sau:
10
Chương 1: Luận văn giới thiệu sơ bộ về hệ thống mạng IPTV và một số
loại logfile thường gặp trong mạng IPTV. Kiến trúc tổng quan và các dịch vụ
HDTV (High Definition Television) đã để lại dấu ấn đối với lĩnh vực truyền
hình. Tuy nhiên, hiện nay trên thế giới đã xuất hiện một phương thức cung cấp
dịch vụ mới mạnh hơn, đó là IPTV (Internet Protocol Television). IPTV ra đời
dựa trên sự hậu thuẫn của ngành viễn thông, đặc biệt là mạng băng rộng; IPTV
dễ dàng cung cấp nhiều hoạt động tương tác hơn, tạo nên sự cạnh tranh mạnh
mẽ hơn cho các doanh nghiệp kinh doanh dịch vụ truyền hình.
Sự phát triển nhanh chóng của mạng Internet băng rộng làm thay đổi cả
về nội dung và kĩ thuật truyền hình. IPTV là một hệ thống cung cấp các dịch vụ
truyền hình số tới các thuê bao sử dụng giao thức IP trên kết nối băng rộng.
IPTV thường được cung cấp cùng với dịch vụ VoD và cũng có thể cung cấp
cùng với các dịch vụ Internet khác như truy cập Web và VoIP, do đó còn được
gọi là “Triple Play” và được cung cấp bởi nhà khai thác dịch vụ băng rộng sử
dụng chung một hạ tầng mạng. Hiện nay IPTV đang là cấp độ cao nhất và là
công nghệ truyền hình của tương lai. Sự vượt trội trong kĩ thuật truyền hình của
IPTV là tính năng tương tác giữa hệ thống với người xem, cho phép người xem
chủ động về thời gian và khả năng triển khai nhiều dịch vụ giá trị gia tăng tiện
ích khác trên hệ thống nhằm đáp ứng nhu cầu của người sử dụng. Đây cũng là
xu hướng hội tụ của mạng viễn thông thế giới.
Trên thế giới đã có một số quốc gia triển khai thành công IPTV. Tại Việt
Nam một số nhà cung cấp IPTV như VNPT, FPT, VTC,…
Hệ thống IPTV truyền tải các kênh truyền hình quảng bá và nội dung
video, audio theo yêu cầu chất lượng cao qua một mạng băng thông rộng. Theo
tổ chức Liên Hiệp Viễn Thông Quốc Tế ITU thì: IPTV là dịch vụ đa phương tiện
bao gồm truyền hình, video, audio, văn bản, đồ họa và dữ liệu truyền trên một
mạng IP và được quản lý để đáp ứng yêu cầu về chất lượng dịch vụ (Quality of
Serice – QoS), sự trải nghiệm (Quality of Experience – QoE), tính bảo mật, tính
tương tác và độ tin cậy [13].
1.1.2. Kiến trúc tổng quan mạng IPTV
Hệ thống IPTV bao gồm 04 thành phần quan trọng, đó là: nội dung
- Hệ thống bảo mật: bao gồm các hệ thống quản lý bản quyền số, các
hệ thống mã hóa và giải mã nội dung, hệ thống kiểm soát truy nhập
nhằm ngăn chặn việc khai thác nội dung bất hợp pháp. Trong đó, hệ
thống quản lý bản quyền số (DRM) giúp nhà khai thác bảo vệ nội
13
dung của mình, như trộn các tín hiệu truyền hình hay mã hóa nội
dung VoD, khi truyền đi trên mạng Internet và tích hợp với tính
năng an ninh tại STB ở phía thuê bao. Hệ thống DRM dựa trên các
khái niệm của hệ thống cơ sở hạ tầng khoá công khai (Public Key
Infrastructure – PKI. Ngoài ra, hệ thống bảo mật cũng bao gồm các
thiết bị chuyên dụng khác như: tường lửa (firewall), thiết bị phát
hiện và ngăn chặn xâm nhập (ips), thiết bị quản lý log tập trung,
v.v…
- Hệ thống quản lý: thực hiện phối hợp và kiểm soát các hoạt động
nội bộ giữa các hệ thống phụ và trong toàn bộ hệ thống. Ngoài ra,
hệ thống này còn quản lý và lên lịch cho cách chương trình, nội
dung và các thiết bị, đồng thời quản lý các thông tin về trạng thái
thuê bao và tính cước.
Thành phần hệ thống mạng (Network) [14]: thành phần này bao gồm hạ
tầng mạng IP băng rộng để truyền dịch vụ từ nhà cung cấp dịch vụ IPTV đến
khách hàng. Mạng truy nhập sẽ tận dụng phần hạ tầng mạng xDSL có sẵn. Để
cung cấp dịch vụ với chất lượng tốt và tiêu thụ ít băng thông khi có đồng thời
nhiều truy nhập đến hệ thống, mạng truy nhập băng rộng cần phải được hỗ trợ
multicast.
Thành phần đầu cuối (Terminal) [14]: thành phần này nằm ở phía khách
hàng, bao gồm các thiết bị cho phép thu nhận, giải mã và hiển thị nội dung trên
tivi như Set-Top-Box (STB). STB cần hỗ trợ các chuẩn MPEG-4/H.264. Ngoài
ra, STB cũng có thể hỗ trợ HDTV, có khả năng kết nối với các thiết bị lưu trữ
bên ngoài, video phone, truy nhập web, v.v
đó mô tả một loạt các sự kiện được router ghi lại.
- STB logs [11]: là các bản ghi mô tả lại những hoạt động của người
dùng cuối, chẳng hạn tắt, bật STB, yêu cầu nội dung, v.v
- Các log ứng dụng, đặc biệt là log ứng dụng web, cho phép khai thác
các dữ liệu được thu thập khi người dùng truy cập máy chủ web
nhằm thực hiện một số tác vụ như xem và yêu cầu dịch vụ truyền
hình, đăng ký và sử dụng các dịch vụ giá trị gia tăng,v.v… Các log
ứng dụng khác có thể được sử dụng cho những yêu cầu phân tích cụ
thể.
1.2.1. Logfile Firewall
Trong hệ thống IPTV, vấn đề đảm bảo an toàn an ninh trong quá trình
cung cấp dịch vụ luôn được quan tâm. Đây cũng là một trong những yêu cầu
hàng đầu trong quá trình thiết kế, xây dựng của hệ thống IPTV nói riêng và các
hệ thống CNTT nói chung.
Hiện nay có rất nhiều giải pháp an toàn thông tin được áp dụng trong các
hệ thống CNTT. Trong đó, Firewall là giải pháp bảo mật phổ biến nhất, và là
một trong những trang bị tiêu chuẩn cần có đối với một hệ thống IPTV.
Firewall cho phép người quản trị kiểm soát các truy nhập ra vào hệ thống,
ngăn chặn những truy nhập bất hợp pháp. Các Firewall thế hệ mới ngoài chức
năng kiểm soát kết nối cơ bản còn được tích hợp thêm các module bảo mật khác
như: module phát hiện và ngăn chặn xâm nhập, module thiết lập kết nối mạng
riêng ảo, module dò quét virus,…
Trong quá trình vận hành, việc phân tích dữ liệu log của Firewall đóng vai
trò quan trọng trong việc đánh giá hiệu quả hoạt động, điều tra truy vết khi xảy
ra sự cố trên hệ thống, thống kê đánh giá lưu lượng kết nối và hiệu năng của hệ
thống, v.v Đặc biệt, do lưu lại những thông tin liên quan đến các kết nối từ bên
ngoài vào hệ thống nên dữ liệu log của Firewall rất hữu ích trong việc phát hiện
và cảnh báo các cuộc tấn công từ chối dịch vụ.
15
3. Loại thông điệp, còn được gọi là mã lỗi (error code), chỉ ra bản chất
của vấn đề.
4. Thông tin chi tiết được tạo ra bởi hệ điều hành của router.
Thông tin chi tiết thường khá đặc biệt. Chúng là các đoạn văn bản được
tạo ra bởi hệ điều hành router bao gồm các thông tin như vị trí, tình trạng, hoặc
các thông điệp cảnh báo đã được thiết lập sẵn. Trong thông điệp syslog có thể
định nghĩa nhiều kiểu phụ. Kiểu phụ là một đoạn thông điệp được sử dụng lặp
lại nhiều lần với một số thay đổi về giá trị các chuỗi con trong đoạn thông điệp
đó. Chẳng hạn, “Line protocol on Interface , changed state to ” có thể được
xem là một kiểu phụ. Việc kết hợp giữa syslog và các kiểu phụ có thể được dùng
để tạo ra các mẫu xác định các lớp điều kiện mạng mà thông điệp syslog mô tả.
Ta gọi đây là phân lớp log.
1.2.3. STB logs
Trong mạng IPTV, set-top-box (STB) là một máy tính nhỏ cung cấp liên
lạc hai chiều trên nền IP và chịu trách nhiệm giải mã các tín hiệu video. STB
được tích hợp các giao tiếp mạng để tạo ra các kết nối tốc độ cao. Phần mềm
chạy trên STB ghi lại các sự kiện như là tắt/bật STB, chuyển kênh, ngắt hệ
thống,v.v…
Các hãng cung cấp STB có định dạng log khác nhau. Dưới đây là một ví
dụ về định dạng STB log [6]:
Vender:XX;stbmodel:STB-
1;STBID:1233;IP:202.18.0.1;Username:[email protected];hardw
areversion:001.001.001;softwareversion:001.001.001;Firmw
are::001.001.001;Version:001.001.001 (new line)
YYYYMMDDHHMMSS: event description (new line)
YYYYMMDDHHMMSS: event description (new line)
Bảng dưới mô tả cấu trúc sự kiện (event) trong STB [6]:
Field name
Field data type
Bảng 1.1: Cấu trúc STB log.
1.2.4. Log ứng dụng
Các ứng dụng khác nhau có thể đưa ra những log có định dạng khác nhau.
Một số ứng dụng có thể sử dụng các định dạng chuẩn như syslog, tuy nhiên một
số ứng dụng khác lại sử dụng các định dạng riêng biệt. Các định dạng log ứng
dụng có thể khác nhau về kiểu lưu trữ (ví dụ: mã hóa hoặc không), số trường và
ý nghĩa các trường, mỗi bản ghi là một dòng hoặc gồm nhiều dòng,v.v…
Dưới đây là các trường dữ liệu có trong log được tạo ra bởi web server IIS
(internet information server) [8]:
Field Name
Field Description
date
Date of the conclusion of the WS request (UTC
time)
time
Time of the conclusion of the WS request
(UTC time)
18
s-sitename
Name of the website (usually W3SVC1,
meaning “website 1”)
s-computername
Name of the server that answered to the request
s-ip
IP of the server(s) to which the request was
sent (usually the Service Group IP)
cs-method
Operation requested (usually “POST” or
Associated Win32 Status Code
sc-bytes
Bytes sent from the server to the client
cs-bytes
Bytes sent from the client to the server
tim-taken
Time taken to service the request
Bảng 1.2: Cấu trúc logfile của IIS
19
1.3. TẤN CÔNG TỪ CHỐI DỊCH VỤ
1.3.1. Giới thiệu về tấn công từ chối dịch vụ
Tấn công từ chối dịch vụ (Denial of Service – DoS) là một hình thức phá
hoại dựa trên những hành động ngăn chặn người dùng tiếp cận một tài nguyên
nào đó trên mạng [9]. Theo đó, tin tặc sẽ lợi dụng điểm yếu hoặc lỗi an toàn
thông tin của một hệ thống mạng cung cấp dịch vụ để làm ngưng trệ hoặc ngăn
cản người dùng truy nhập dịch vụ đó, buộc nhà cung cấp phải tạm ngừng dịch
vụ và tìm cách khôi phục hệ thống.
Những cuộc tấn công từ chối dịch vụ đã được biết đến từ đầu những năm
1980 [9]. Ngày nay, các cuộc tấn công từ chối dịch vụ thường được thực hiện
phân tán (Distributed DoS – DDoS): có nghĩa là tin tặc chiếm quyền kiểm soát
một lượng lớn máy tính và ra lệnh cho chúng liên tục tạo các yêu cầu kết nối tới
hệ thống là đích tấn công. Kết quả là hệ thống này bị quá tải và khiến cho những
người dùng hợp lệ không thể truy cập được. Nạn nhân điển hình của tấn công từ
chối dịch vụ là các hệ thống máy chủ website thương mại điện tử, website tin
tức, mạng doanh nghiệp, ngân hàng và các website chính phủ [9].
Việc ngừng hoạt động của hệ thống dịch vụ thường gây thiệt hại khó có
thể tính chính xác: đó là tổng của thiệt hại trực tiếp về tiền bạc, uy tín cho nhà
cung cấp dịch vụ, và thiệt hại gián tiếp của khách hàng sử dụng dịch vụ. Đôi khi,
dù chỉ làm chậm và giảm khả năng phục vụ của hệ thống, thì loại tấn công này
Loại thứ nhất: tin tặc gửi rất nhiều yêu cầu dịch vụ, bắt chước như người
dùng thực sự yêu cầu đối với hệ thống. Khi nhận được quá nhiều yêu cầu dịch
vụ giả của tin tặc, hệ thống sẽ sử dụng toàn bộ tài nguyên của mình để đáp ứng
các yêu cầu đó và không còn tài nguyên để phục vụ các yêu cầu thực sự của
người dùng, và người dùng không thể truy nhập được vào hệ thống. Hình thức
phổ biến của kiểu tấn công gây quá tải này là tấn công từ chối dịch vụ phân tán
(Distributed DoS – DDoS), tạo ra yêu cầu dịch vụ giả từ nhiều địa chỉ, khiến cho
nhà quản trị hệ thống không phân biệt được đó có phải là một cuộc tấn công từ
chối dịch vụ hay không.
Loại thứ hai: tin tặc lợi dụng kẽ hở an toàn thông tin của hệ thống để gửi
các yêu cầu hoặc các gói tin không hợp lệ (không đúng theo tiêu chuẩn) một
cách cố ý, khiến cho hệ thống bị tấn công khi nhận được yêu cầu hay gói tin này
sẽ xử lý không đúng hoặc không theo trình tự đã được thiết kế, dẫn đến sự sụp
đổ của chính hệ thống đó. Ví dụ điển hình của kiểu tấn công này là “SYN
Flooding”, gây cho hệ thống dịch vụ mất khả năng tiếp nhận kết nối TCP.
Biến thể của tấn công từ chối dịch vụ là dạng tấn công từ chối dịch vụ
phân tán (DDoS). Hình thức tấn công này hiện rất phổ biến và được các tin tặc
sử dụng nhiều bởi khả năng phá hoại lớn. Bản chất của tấn công từ chối dịch vụ
phân tán là bao gồm nhiều cuộc tấn công từ chối dịch vụ đơn lẻ xuất phát từ một
số lượng cực lớn các máy tính khác nhau. Do đó, việc phát hiện các cuộc tấn
công từ chối dịch vụ đơn lẻ cũng sẽ giúp phát hiện được những cuộc tán công từ
chối dịch vụ phân tán.
Luận văn này tập trung vào việc phân tích logfile của Firewall để phát
hiện ra các cuộc tấn công từ chối dịch vụ được thực hiện theo kỹ thuật thứ nhất,
tức là tin tặc sử dụng một lượng lớn các yêu cầu dịch vụ giả để làm tiêu hao tài
nguyên hệ thống. 21
được khai phá (liên quan tới bài toán phát hiện tri thức) từ các tập
dữ liệu lớn ban đầu.
- Tiền xử lý dữ liệu: Đây là bước làm sạch dữ liệu (xử lý những dữ
liệu không đầy đủ, nhiễu, không nhất quán, ), rút gọn dữ liệu (sử
dụng hàm nhóm và tính tổng, các phương pháp nén dữ liệu, sử
dụng histograms, lấy mẫu, ), rời rạc hóa dữ liệu (rời rạc hóa dựa
vào histograms, dựa vào entropy, dựa vào phân khoảng, ). Sau
bước này, dữ liệu sẽ nhất quán, đầy đủ, được rút gọn và được rời
rạc hóa.
- Biến đổi dữ liệu: Đây là bước chuẩn hóa và làm mịn dữ liệu để đưa
dữ liệu về dạng thuận lợi nhất nhằm phục vụ quá trình khai phá ở
bước sau.
- Khai phá dữ liệu: Đây là bước áp dụng những kỹ thuật phân tích
(như các kỹ thuật của học máy) nhằm để khai thác dữ liệu, trích
chọn được những mẫu thông tin, những mối liên hệ đặc biệt trong
dữ liệu. Đây được xem là bước quan trọng và tốn nhiều thời gian
nhất của toàn quá trình KDD.
- Đánh giá và trình diễn tri thức: Những mẫu thông tin và mối liên hệ
trong dữ liệu đã được khám phá ở bước trên được biến đổi và trình
diễn ở một dạng gần gũi với người sử dụng như đồ thị, cây, bảng
biểu, luật, Đồng thời bước này cũng đánh giá những tri thức khám
phá được theo những tiêu chí nhất định.
2.1.2. Khai phá dữ liệu
Khai phá dữ liệu là một giai đoạn quan trọng trong quá trình phát hiện tri
thức. Về bản chất là giai đoạn duy nhất trong các giai đoạn nói trên tìm ra được
thông tin mới, tiềm ẩn, ữu ích có trong cơ sở dữ liệu phục vụ cho mô tả và dự
đoán.
Mô tả dữ liệu là tổng kết hoặc diễn tả những đặc điểm chung của những
thuộc tính dữ liệu trong tập dữ liệu mà con người có thể hiểu được.
trực tuyến, khai phá web và khai phá mạng phương tiện xã hội
- Ứng dụng trong hoạt động chính quyền như phát hiện tội phạm,
phát hiện lừa đảo thuế thu nhập cá nhân
- v.v
Hiện nay các hệ quản trị CSDL đã tích hợp những modul để KPDL như
SQL Server, Oracle, đến năm 2007 Microsoft đã cung cấp sẵn công cụ KPDL
tích hợp trong cả MS-Word, MS-Excel.
24
2.2. SƠ BỘ VỀ KHAI PHÁ DỮ LIỆU LOGFILE IPTV
Theo Kimmo Hätönen [10], việc quản lý mạng IPTV nói riêng và các
mạng viễn thông nói chung yêu cầu phải có khả năng đưa ra quyết định nhanh
(rapid decision-making). Khả năng này được cung cấp bởi các phương pháp
khai phá dữ liệu. Việc ra quyết định dựa trên kết quả truy xuất thông tin từ một
lượng lớn dữ liệu được thu thập liên tục từ các hệ thống mạng. Các dữ liệu này
được tạo ra bởi các thành phần trong hệ thống (thiết bị mạng, thiết bị máy chủ,
STB, các ứng dụng,…). Các thiết bị bảo mật như Firewall, IPS/IDS, Web
Firewall,… cũng là một thành phần không thể thiếu trong hệ thống IPTV.
Chúng cũng tham gia vào quá trình vận hành hệ thống mạng. Các thiết bị bảo
mật này ghi lại những thông tin về các kết nối ra vào, kiểm tra thông tin truyền
tải để phát hiện mã độc hay những hành động gây hại,… Việc theo dõi và phân
tích log của những thiết bị này giúp cho người quản trị kiểm soát vận hành hệ
thống tốt hơn, đảm bảo sự an toàn bảo mật của hệ thống trong quá trình cung
cấp dịch vụ. Tất cả những thành phần của hệ thống sẽ tạo ra các mục log, đưa ra
cảnh báo về các sự kiện, trạng thái hệ thống và một loạt các thông số về hoạt
động của hệ thống. Dữ liệu log sau đó được thu thập và gửi về trung tâm vận
hành, tại đây chúng được giám sát và phân tích để phát hiện ra bất kỳ vấn đề nào
xảy ra trong quá trình vận hành hoặc nhằm tối ưu hiệu suất và chất lượng dịch
vụ. Một hệ thống mạng trung bình có thể tạo ra hàng ngàn cảnh báo và hàng