SỬ DỤNG CÔNG CỤ KHAI PHÁ DỮ LIỆU ĐỂ CẢNH BÁO NGUY CƠ MẤT AN NINH TRÊN MẠNG - Pdf 27

MỤC LỤC
DANH MỤC CÁC BẢNG 2
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ 3
MỞ ĐẦU 4
Chương 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 8
1.1.Khai phá dữ liệu và quá trình phát triển tri thức 8
1.2. Khai phá dữ liệu là gì? 10
1.2.1. Khái niệm 10
1.2.2 Cáùc bước của quá trình khai phá dữ liệu 11
1.2.3 Các thành phần của giải thuật khai phá dữ liệu 13
1.3 Các phương pháp khai phá dữ liệu 14
1.3.1 Phương pháp quy nạp (Induction) 14
1.3.2 cây quyết đònh (Decision Trees) 15
1.3.3 Mạng nơron ( Neural networks) 16
1.4 Những thách thức trong khai phá dữ liệu 21
1.5. Ứng dụng của khai phá dữ liệu 23
Chương 2: ỨNG DỤNG KHAI PHÁ DỮ LIỆU TRONG VIỆC CẢNH BÁO NGUY
CƠ MẤT AN NINH TRÊN MẠNG 24
2.1. Phát triển và bảo mật mạng cục bộ hiện nay 24
2.3 Xây dựng đề tài 26
2.3.1 Mục đích xây dựng đề tài 26
2.3.2 Yêu cầu 27
Chương 3: M T S GIAO THỨC TRUYỀN TIN TRÊN M NGỘ Ố Ạ 28
3.1 Cơ chế truyền tin và kỹ thuật truyền gói tin trên mạng 28
3.1.1 Gói tin dạng Datagram 29
3.1.2. Các giao thức (Protocols), cổng (Ports) và Sockets 30
3.2. Các giao thức truyền tin và cấu trúc một số gói tin trên mạng 36
3.2.1. Giao thức Internet (Internet Protocol - IP) 36
3.2.2. Giao thức điều khiển truyền tin (Transmission Control Protocol - TCP)
40
3.2.3. Giao thức không kết nối (User Datagram Protocol - UDP) 45

Hình 5.1 Sơ đồ chức năng của hệ thống …………………………………………………………………………63
Hình 5.2 Thể hiện chức năng phân tích của chương trình ………………………………………69
Hình 5.3 Thể hiện chức năng cảnh báo của chương trình………………………………………70
Hình 5.4 Giao diện chính của chương trình…………………………………………………………………70
Hình 5.5 Giao diện hiển thò danh sách gói tin……………………………………………………………71
Hình 5.6 Giao diện hiển thò gói tin ICMP……………………………………………………………………71
Hình 5.7 Giao diện hiển thò các cảnh báo mà chương trình đưa ra……………………72
MỞ ĐẦU
Trong thời đại hội nhập kinh tế toàn cầu hiện nay, vấn đề trao đổi thông
tin ngày càng trở nên quan trọng và cấp thiết. Việc có được thông tin chính xác
kòp thời là hết sức quan trọng đối với mọi cá nhân cũng như các tổ chức và
doanh nghiệp. Mạng máy tính đóng vai trò rất quan trọng, nó giúp cho mọi
người tiếp cận, trao đổi những thông tin mới nhất một cách nhanh chóng và
thuận tiện.
Tuy nhiên, để đảm bảo an toàn của các thông tin trên mạng là một công
việc rất phức tạp. Thông tin trên các mạng máy tính có thể gặp rất nhiều hiểm
hoạ từ cacù hiểm hoạ ngẫu nhiên cho đến những hiểm hoạ cố ý. Tất cả những
-4-
hiểm hoạ đều dẫn đến mất mát thông tin hay làm sai lệch thông tin dưới nhiều
góc độ khác nhau. Vì vậy việc bảo vệ thông tin trên các mạng máy tính là một
công việc hết sức cần thiết. Công nghệ thông tin càng đi sâu vào cuộc sống thì
vấn đề an toàn thông tin càng phải được quan tâm.
Vấn đề an ninh, an toàn thông tin trên mạng là cái cần được giải quyết
đầu tiên khi thiết kế, xây dựng để đưa một dòch vụ mạng hay một mạng vào hoạt
động. Đặc biệt khi mà hàng ngày có thể liệt kê ra nhiều vụ thử tấn công, hay tấn
công của tin tặc vào một mạng mới cài đặt, hay một trang web mới đưa ra… Tin
tặc luôn luôn tìm và dùng nhiều loại tấn công khác nhau, bằng các phương thức
khác nhau để tấn công truy cập vào các máy trên mạng.
Hiện nay có rất nhiều công nghệ và giải pháp an ninh trên mạng. Nhưng
vấn đề đặt ra cho người thiết kế và quản trò mạng là phải chọn ra được những

trên mạng LAN. Phân tích thiết kế hệ thống của chương trình và xây
dựng chương trình chặn bắt các gói tin, đưa ra các cảnh báo về nguy cơ
mất an ninh trên mạng.
Do kiến thức còn nhiều hạn chế nên trong luận văn không tránh khỏi
những sai sót, em rất mong nhận được sự chỉ bảo, góp ý của các Thầy cô giáo và
những người quan tâm. Em xin chân thành cảm ơn thầy giáo PGS.TS Nguyễn
Thiện Luận đã tận tình giúp đỡ, hướng dẫn em hoàn thành luận văn này.
-6-
Xin chân thành cảm ơn quý Thầy, cô đã nhiệt tình giảng dạy, trang bò cho
em những kiến thức quý báu trong suốt thời gian học tập tại trường.
Xin chân thành cảm ơn các bạn cùng lớp, các bạn đồng nghiệp và trường
Đại học công nghiệp Hà Nội đã tạo điều kiện tốt cho tôi hoàn thành luận văn
này.
Phạm Văn Hiệp
-7-
Chương 1: TỔNG QUAN VỀ
KHAI PHÁ DỮ LIỆU
1.1.Khai phá dữ liệu và quá trình phát triển tri thức
Một trong những yếu tố dẫn đến thành công trong mọi hoạt động kinh
doanh đó là việc biết sử dụng thông tin một cách có hiệu quả nhất. Điều đó có
nghóa là từ các dữ liệu có sẵn, phải tìm ra thong tin tiềm ẩn có giá trò mà trược
đó chưa được phát hiện, tìm ra những xu hướng phát triển và những yếu tố tác
động lên chúng. Đó chính là thực hiện quá trình phát hiện tri thức trong cơ sở dữ
liệu (Knowledge Discovery in Databases - KDD) mà trong đó kỹ thuật cho phép
ta lấy được các tri thức chính là kỹ thuật khai phá dữ liệu (Data mining). KDD là
một quá trình gồm nhiều bước, trong khi đó khai phá dữ liệu chỉ là một trong
những bước đó.
Dữ liệu thường được cho bởi các giá trò mô tả các sự kiện, hiện tượng cụ
thể. Khó có thể đònh nghóa rõ rang về tri thức, nhưng có thể hiểu tri thức là một
biểu thức trong một ngôn ngữ nào đó diễn tả một hay nhiều mối quan hệ giữa

Dữ liệu
ban đầu
Dữ liệu
mẫu
Chuyển đổi
dữ liệu
Dữ liệu sau
tiền xử lý
Khai phá dữ
liệu
Dữ liệu sau
chuyển đổi
Lựa chọn
dữ liệu

phỏng
Tri thức
Khai phá dữ liệu: dựa vào từng công việc khai phá cụ thể, lựa chọn các
thuật toán để khái quát những kết quả mong muốn.
Diễn dòch: Làm thế nào để người sử dụng hiểu được kết quả của quá trình
khai phá dữ liệu là cực kỳ quan trọng. Vì dữ liệu có ích hay không lại phụ thuộc
vào điều đó. Sử dụng các kỹ thuật mô phỏng và giao diện với người sử dụng cho
phép người sử dụng có thể thu được những kết quả phức tạp hơn so với việc mô
tả kết quả bằng toán học hay bằng văn bản. Một số kỹ thuật mô phỏng như: đồ
thò, mô hình phân cấp…
1.2. Khai phá dữ liệu là gì?
1.2.1. Khái niệm
Khai phá dữ liệu là một khái niệm ra đời vào những năm cuối của thập kỷ
80. Nó bao hàm một loạt các kỹ thuật nhằm phát hiện ra các thông tin có giá trò
tiềm ẩn trong các tập dữ liệu lớn. Về bản chất thì khai phá dữ liệu liên quan đến

Hình 1.2:Quá trình khai phá dữ liệu
-11-
DL trực
tiếp
Thu thập
và tiền xử
lý dữ liệu
Giải thuật
khai phá dữ
liệu
Xác đònh dữ
liệu liên
quan
Xác đònh
nhiệm vụ
Thống kê tóm tắt
Mẫu
Quá trình khai phá dữ liệu bắt đầu bằng cách xác đònh chính xác các vấn
đề cần giải quyết. Sau đó xác đònh các dữ liệu liên quan dùng đẻ xây dựng giải
pháp. Bước tiếp theo là thu thập các dữ liệu có liên quan và tiền xử lý để cho
các giải thuật khai phá dữ liệu có thể thực hiện được. Về lý thuyết thì bước này
có vẻ đơn giản nhưng khi thực hiện thì đây thực sự là một vấn đề rất khó khăn
do gặp phải nhiều vấn đề vướng mắc như : các dữ liệu phải được sao nhiều bản,
quản lý tập các tệp dữ liệu, phải lặp đi lặp lại toàn bộ quá trình nhiều lần …
Bước tiếp theo là chọn giải thuật khai phá dữ liệu thích hợp và thực hiện
việc khai phá dữ liệu để tìm được các mẫu ( pattern) . Đặc điểm của mẫu là phải
mới , ít nhất đối vơí hệ thống đó . Độ mới có thể được đo tương ứng bằng độ thay
đổi trong dữ liệu ( bằng cách so sánh các giá trò hiện tại với các giá trò trước đó
hoặc các giá trò mong muốn ), hoặc bằng các tri thức ( mối liên hệ giữa các
phương pháp tìm mới và phương pháp cũ như thế nào ). Độ mới của mẫu thường

tỷ lệ 1/3 được dùng để đánh giá mô hình học được và điều chỉnh lại các con số
cho phù hợp nếu cần. Mô hình lựa chọn có thể là mô hình thống kê, một số giải
thuật học máy, mạng nơron…
- Đánh giá mô hình: Đánh giá xem một mẫu có đáp ứng đủ tiêu chuẩn của quá
trình phát hiện tri thức hay không. Việc đánh giá độ chính xác dự đoán dựa trên
đánh giá chéo (cross validation). Đánh giá chất lượng mô hình liên quan đến độ
chính xác dự đoán, độ mới, khả năng sử dụng, khả năng hiểu được của mô hình.
-13-
Việc đánh giá mô hình được được thực hiện qua kiểm tra dữ liệu. Ví dụ như đối
với mạng nơron việc đánh giá mô hình được thực hiện dựa trên việc kiểm tra dữ
liệu học và dữ liệu thử.
- Phương pháp tìm kiếm: Phương pháp tìm kiếm gồm hai loại là tìm kiếm tham
số và tìm kiếm mô hình. Trong tìm kiếm tham số, giải thuật cần tìm kiếm các
tham số để tối ưu theo một tiêu chuẩn đánh giá mô hình nào đó dựa trên các dữ
liệu quan sát được và mô hình đã được mô tả. Ví dụ như phương pháp giảm
Gradient trong giải thuật lan truyền ngược trong mạng nơron. Phương pháp tìm
kiếm tham số được áp dụng để đánh giá chất lượng của mô hình. Các phương
pháp tìm kiếm mô hình thường được sử dụng các kỹ thuật tìm kiếm heuristic.
1.3 Các phương pháp khai phá dữ liệu
1.3.1 Phương pháp quy nạp (Induction)
Một cơ sở dữ liêu là một kho thông tin và các thông tin quan trọng hơn cũng
có thể được suy diễn từ kho thông tin đó. Hai kỹ thuật chính để thực hiện việc
này là suy diễn và quy nạp.
- Phương pháp suy diễn nhằm rút ra thông tin từ kết quả logic của các thông
tin trong cơ sở dữ liệu. Phương pháp này dựa trên các sự kiện chính xác để suy
ra các tri thức mới từ các thông tin cũ. Mẫu chiết xuất được thường là các luật
suy diễn.
- Phương pháp quy nạp nhằm suy ra các thông tin được sinh ra từ cơ sở dữ
liệu. Nó tự tìm kiếm, tạo mẫu và sinh ra tri thức chứ không phải bắt đầu với các
tri thức đã biết. Các thông tin mà phương pháp này mang lại các thông tin hay

Mạng nơron là một tiếp cận tính toán mới liên quan đến việc phát triển
các cấu trúc toán học với khả năng học. Mạng nơron xuất hiện từ năm 1943
nhưng cho đến những năm 1980 lónh vực này mới thực sự bắt đầu. Mạng nơron
còn gọi là mạng nơron nhân tạo để phân biệt với mạng nơron sinh học . Mạng
nơron có thể xử lý dữ liệu phức tạp hoặc không chính xác và có thể được sử
dụng đế chiết xuất các mẫu và phát hiện ra các xu hướng phức tạp mà con người
cũng như các kỹ thuật máy tính khác không thể phát hiện được. Trong lónh vực
khai phá dữ liệu mạng nơron được dùng khá phổ biến. Tuy có một số nhược
điểm nhưng một trong những ưu điểm phải kể đến của mạng nơron đó là: khả
năng tạo ra các mô hình dự đoán có độ chính xác cao, có thể áp dụng được cho
rất nhiều loại bài toán khác nhau và đáp ứng được các nhiệm vụ đặt ra của khai
phá dữ liệu như phân lớp, phân nhóm, mô hình hoá, dự báo các sự kiện phụ
thuộc vào thời gian …
-16-
Thấp
p
Trung bình
Giới tính
Chiều cao
Cao
NamNữ
<1.3m
≥1.3m
≤1.8m
>1.8m
Thấp Trung bình
Chiều cao
Cao
<1.5m ≤1.5m
≤2m

truyền trong khai phá dữ liệu có rất nhiều dạng nhưng nói chung nó được sử
dụng trên nền của các kỹ thuật khai phá dữ liệu khác, ví dụ như mạng nơron hay
kỹ thuật phân lớp láng giềng gần nhất. Sở dó giải thuật này cần thiết trong khai
phá dữ liệu vì hầu hết các kỹ thuật khai phá dữ liệu đều có thể quy về bài toán
tối ưu. Ví dụ khi dùng giải thuật di truyền với mạng nơron, giải thuật di truyền
có thểû dùng để tìm kiếm các trọng số cho một cấu trúc mạng tối ưu. Đối với
thuật toán láng giềng gần nhất, giải thuật di truyền có thể hỗ trợ tìm các trọng
số quan trọng số quan trọng tối ưu để áp dụng cho mỗi yếu tố dự đoán.
Giải thuật di truyền đã được dùng để phân lớp, phân chùm, dự đoán thậm
chí cả luật kết hợp. Ngoài ra các giải thuật di truyền còn được ứng dụng để lập
lòch, robot, kinh tế, sinh học và nhận dạng mẫu
Giải thuật di truyền được sử dụng để tìm ra mô hình biểu diễn dữ liệu phù
hợp nhất. Mô hình ban đầu được lựa chọn bất kỳ và sau nhiều vòng lặp, các mô
hình được kết hợp với nhau để tạo ra các mô hình mới. Khi sử dụng giải thuật di
truyền để giải quyết một vấn đề, công việc đầu tiên có lẽ là khó nhất đó là làm
thế nào để mô phỏng bài toán như một tập thế các cá thể. Mỗi cá thể được biểu
diễn như xâu ký tự của một bảng chữ cái nào đó và được dònh nghóa như sau [4]:
Cho bảng chữ cái A, một cá thể (individual or choromosome) hay còn gọi
là một xâu
n
llll , ,
21
=
trong đó
Al
j

. Mỗi ký tự được gọi là một gene. Giá trò
của mỗi ký tự được gọi là alleles. Một quần thể (population) P là một tập các cá
thể.

4. Hàm thích nghi ƒ
5. Thuật toán lặp quá trình áp dụng toán tử lai và toán tử đột biến vào quần
thể P , sử dụng hàm thích nghi để quyết đònh xem giữ lại những cá thể tốt
nhất trong quần thể P . Tại mỗi vòng lặp, thuật toán sẽ thay thế một lượng
cá thể trong quần thể P ( số lượng này thường được đặt trước ) và thuật
toán kết thúc khi đạt đến một ngường nào đó .
Thuật toán sau đây sẽ mô tả các bước thực hiện của một giải thuật di truyền:
Input:
P// quần thể ban đầu
Output :
P’// quần thể đã được cải tiến
Genetic algorithm:
Repeat:
N=/P/ ; P’=Þ
Repeat
i
1 ,
i
2
= select (P) ; o
1
,o
2
=cross(i
1
,i
2
);
-19-
o

liệu lớn là không khó. Tuy nhiên, vấn đề là ở chỗ có thể có rất nhiều luật kiểu
này hoặc là ta chỉ biết một tập nhỏ dữ liệu trong cơ sở dữ liệu lớn thoả mãn tiền
đề của luật. Chẳng hạn, chỉ có một không nhiều phụ nữ có xe máy đỏ và đeo
đồng hồ Thụy Sỹ. Số lượng các luật kết hợp trong một số cơ sở dữ liệu lớn gần
như vô hạn. Do vậy thuật toán sẽ không thể phát hiện hết các luật và không
phân biệt đựơc luật nào là thông tin thực sự có giá trò và thú vò.
Vậy luật kết hợp nào là thực sự có giá trò và thú vò? Chẳng hạn ta có luật:
âm nhạc, thể thao => thiếu nhi, nghóa là những người mua sách âm nhạc và thể
thao thì cũng mua sách thiếu nhi. Lúc đó ta quan tâm đến số lượng trường hợp
khách hàng thoả mãn luật này trong cơ sở dữ liệu hay độ hỗ trợ (Support) cho
-20-
luật này. Độ hỗ trợ cho luật chính là phần trăm số bản ghi có cả sách âm nhạc
thể thao và thiếu nhi hay tất cả những người thích cả ba loại sách trên.
Tuy nhiên, giá trò độ hỗ trợ là không đủ. Có thể có trường hợp ta có một
nhóm tương đối những người đọc cả ba loại trên nhưng lại có một nhóm với lực
lượng lớn hơn những người thích sách thể thao, âm nhạc mà không thích sách
thiếu nhi. Trong trường hợp này tính kết hợp rất yếu mặc dù độ hỗ trợ tương đối
cao. Như vậy, chúng ta cần thêm một độ đo thứ hai đó là độ tin cậy confidence).
Trong trường hợp này độ tin cậy chính là phần trăm các bản ghi có sách thiếu
nhi trong số các bản ghi có sách âm nhạc và thể thao.
Thực tế luật kết hợp hữu ích trong khai thác dữ liệu nếu chúng ta đã có một ý
tưởng ban đầu về cái chúng ta muốn biết. Điều này chứng tỏ một vấn đề là
không có thuật toán tìm ra nhiều luật có thể cũng tìm ra rất nhiều các luật không
có giá trò trong khi khác chỉ tìm ra một số lượng hạn chế các luật kết hợp cũng
có thể để mất các thông tin quý giá.
1.4 Những thách thức trong khai phá dữ liệu
Đầu vào chủ yếu của một hệ thống khai thác tri thức là các dữ liệu thô
trong cơ sở dữ liệu. trong thực tế các dữ liệu thường động, không đầy đủ, lớn và
bò nhiễu. Trong một số trường hợp khác người ta có thể không biết trong cơ sở
dữ liệu có chứa các thông tin cần thiết cho việc khai thác hay không và làm thế

• “Tràn”: Khi một giải thuật tìm kiếm các tham số tốt nhất cho mô hình
biểu diễn tập dữ liệu hữu hạn thì có thể bò hiện tượng “tràn ”dữ liệu,
nghóa là mô hình đó chỉ phù hợp với tập dữ liệu dùng để xây dựng mô
-22-
hình mà không có khả năng dự đoán cho các dự đoán cho các dự liệu
mới. Điều đó có nghóa là mô hình học thì tốt nhưng khái quát lại rất
kém .
1.5. Ứng dụng của khai phá dữ liệu
Khai phá dữ liệu đã được ứng dụng rất thành công trên nhiều cơ sở dữ
liệu thực tế ví dụ như phân tích cơ sở dữ liệu khách hàng, tìm kiếm các mẫu
trong số các khách hàng và sử dụng các mẫu này để lựa chọn các khách hàng
trong tương lai. Phân tích các mẫu dữ liệu của các gói tin gửi đi trên mạng để từ
đó đưa ra chế độ cảnh báo về khả năng, nguy cơ mất an ninh trên mạng…
Các ứng dụng khác của khai phá dữ liệu trong kinh doanh như: Phân tích
chứng khoán và các văn kiện tài chính, phân tích và báo cáo những thay đổi
trong dữ liệu, phát hiện và phòng chống gian lận.
Ngoài ra khai phá dữ liệu cũng có những ứng dụng trong một số ngành
khoa học như: thiên văn học, sinh học (tìm kiếm các mẫu trong cấu trúc phân
tử), lập mô hình dự đoán thay đổi thời tiết.
-23-
Chương 2: ỨNG DỤNG KHAI PHÁ DỮ LIỆU
TRONG VIỆC CẢNH BÁO NGUY CƠ MẤT AN
NINH TRÊN MẠNG
2.1. Phát triển và bảo mật mạng cục bộ hiện nay
2.1.1. Thực trạng việc phát triển mạng máy tính
Vào những năm gần đây khi Việt Nam chính thức kết nối vào mạng Internet,
nhà nước cũng có sự quan tâm và đầu tư xây dựng cơ sở hạ tầng và thúc đẩy ứng
dụng công nghệ thông tin vào các lónh vực của đời sống kinh tế xã hội. Chính vì
vậy phạm vi ứng dụng của máy tính ngày càng rộng, nhu cầu trao đổi thông tin
giữa các máy tính với nhau trở nên cấp thiết hơn. Nhiều cơ quan hành chính sự

chương trình lọc và thiết lập các chế độ hạn chế truy cập, khai thác
dưa trên một số tiêu chí nhất đònh.
 Cơ sở dữ liệu: Thiết đặt các chế độ bảo vệ cho việc truy cập vào các
dòch vụ để khai thác cơ sở dữ liệu, các biện pháp như sao lưu, khôi
phục.
Với 2 cách này thì khi các ứng dụng truy cập vào các dòch vụ khai thác
thông tin, trao đổi thông tin với dòch vụ vẫn tồn tại một số hạn chế như sau:
 Người quản trò mạng vẫn chưa kiểm soát được hết lưu lượng, thời gian,
các kiểu dòch vụ mà các máy trong mạng sử dụng khai thác.
-25-

Trích đoạn Giao thức không kết nối (User Datagram Protoco l UDP) Giao thức điều khiển thông điệp (Internet Control Message Protoco l-
Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status