luận án tiến sĩ toán học chuyên nghành ĐẢM BẢO TOÁN HỌC CHO MÁY TÍNH VÀ HỆ THỐNG TÍNH TOÁN đồ án TIẾP CẬN MÁY HỌC VÀ HỆ CHUYÊN GIA ĐỂ NHẬN DẠNG, PHÁT HIỆN VIRUS MÁY TÍNH - Pdf 28


ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

TRƯƠNG MINH NHẬT QUANG
TIẾP CẬN
MÁY HỌC VÀ HỆ CHUYÊN GIA
ĐỂ NHẬN DẠNG, PHÁT HIỆN
VIRUS MÁY TÍNH

CHUYÊN NGÀNH: ĐẢM BẢO TOÁN HỌC CHO MÁY TÍNH
VÀ HỆ THỐNG TÍNH TOÁN
MÃ SỐ: 1.01.10

LUẬN ÁN TIẾN SĨ TOÁN HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. GS. TSKH. HOÀNG KIẾM
2. PGS. TS. NGUYỄN THANH THỦY

TP. HỒ CHÍ MINH - 2009Tôi xin bày tỏ lòng biết ơn sâu sắc đến
Giáo sư Tiến sĩ Khoa học Hoàng Kiếm
Người đã tận tình hướng dẫn tôi hoàn thành luận án này
Tôi vô cùng cảm ơn
Phó Giáo sư Tiến sĩ Nguyễn Thanh Thủy
Và các nhà khoa học đã đóng góp nhiều ý kiến quý báu
Giúp tôi hoàn thiện công trình nghiên cứu này
Tôi xin chân thành cảm ơn
Trường Đại học Khoa học Tự nhiên,
Trường Đại học Công nghệ Thông tin,
Trung tâm Đào tạo Đạ
i học Tại chức Cần Thơ và
Sở Khoa học Công nghệ thành phố Hồ Chí Minh
Đã tạo điều kiện thuận lợi cho tôi thực hiện đề tài này
Tôi xin kính tặng công trình này cho cha mẹ
Và người thân trong gia đình
Bằng tất cả tình cảm yêu thương nhất…
Trương Minh Nhật Quang
Mùa xuân 2009

MỤC LỤC

2.5.
Hướng giải quyết của đề tài 16
2.5.1. Các luận điểm của đề tài 17
2.5.2. Giải pháp của đề tài 18
2.6. Các hệ cơ sở tri thức 19
2.6.1. Các Hệ chuyên gia 19
2.6.1.1. Cơ sở tri thức 20
2.6.1.2. Động cơ suy diễn 20
2.6.2. Các hệ Khám phá tri thức từ cơ sở dữ liệu 20
2.6.2.1. Giới thiệu 20
2.6.2.2. Tiến trình khám phá tri thức 21
2.6.3. Các Hệ học 22
2.6.3.1. Học giám sát 23
2.6.3.2. Học không giám sát 23
2.6.3.3. Các hình thức học 24
2.6.4. Các nghiên cứu máy học nhận dạng virus máy tính 25
2.6.5. Các nghiên cứu hệ chuyên gia nhận dạng virus máy tính 27
2.7. Tổng kết chương 29
CHƯƠNG 3 – CƠ CHẾ MÁY HỌC CHẨN ĐOÁN VIRUS MÁY TÍNH 30
3.1. Phân hoạch bài toán chẩn đoán virus máy tính 30
3.2. Các độ đo chất lượng chẩn đoán 31
3.3. Cơ chế máy học chẩn đoán virus máy tính 31
3.3.1. Bài toán 1: Chẩn đoán lớp virus C-class 31
3.3.1.1. Phát biểu bài toán 31
3.3.1.2. Tổ chức cơ sở dữ liệu và trích chọn đặc trưng 32
3.3.1.3. Thuật toán chẩn đoán lớp C-class 32
3.3.1.4. Phân tích, đánh giá thuật toán chẩn đoán lớp C-class 33
3.3.2. Bài toán 2: Chẩn đoán lớp virus D-class 34
3.3.2.1. Phát biểu bài toán 34
3.3.2.2. Tổ chức cơ sở dữ liệu 35

3.3.5.6. Ước lượng tỷ lệ mã độc 56
- iv -
3.3.5.7.
Ví dụ minh họa bài toán A-class 57
3.3.5.8. Kết quả thực nghiệm 59
3.3.5.9. Bàn luận về phương pháp chẩn đoán lớp A-class 59
3.4. Tổng kết chương 60
CHƯƠNG 4 – THIẾT KẾ XÂY DỰNG HỆ THỐNG VÀ THỰC NGHIỆM 62
4.1. Mô hình tổng quát của hệ 62
4.2. Tổ chức cơ sở tri thức 62
4.2.1. Mô tả đối tượng 62
4.2.2. Luật nhận dạng virus 64
4.3. Giai đoạn Học dữ liệu 65
4.3.1. Trích chọn dữ liệu 65
4.3.2. Phân cụm dữ liệu 65
4.3.2.1. Tổ chức cấu trúc dữ liệu 66
4.3.2.2. Thuật toán ACV gom cụm trên V-Tree 67
4.3.2.3. Đánh giá thuật toán ACV 71
4.3.3. Rút luật phân bố trị thuộc tính 73
4.3.3.1. Rút luật phân cụm trên V-Tree 73
4.3.3.2. Rút luật phân cụm trên ma trận dữ liệu 74
4.4. Giai đoạn Xử lý dữ liệu 76
4.4.1. Phân loại dữ liệu chẩn đoán 79
4.4.1.1. Phân loại đối tượng 79
4.4.1.2. So khớp luật phân nhóm 82
4.4.2. Chẩn đoán virus bằng kỹ thuật hợp nhất dữ liệu 83
4.4.2.1. Tinh chế dữ liệu trong tiến trình khám phá tri thức 83
4.4.2.2. Tinh chế dữ liệu NULL bằng kỹ thuật hợp nhất dữ liệu 83
4.4.2.3. Virus lạ và dữ liệu NULL 84
4.4.2.4. Dự báo virus lạ bằng kỹ thuật hợp nhất dữ liệu 86

6 3.3 Kết quả thực nghiệm bài toán chẩn đoán lớp virus D-class 39
7 3.4 Kết quả thực nghiệm bài toán chẩn đoán lớp virus B-class 44
8 3.5 Các luật cơ bản chẩn đoán file virus lạ
46
9 3.6 Thời gian chạy của các hệ AV thử nghiệm trên cùng tập mẫu 51
10 3.7 Kết quả thực nghiệm bài toán chẩn đoán lớp virus E-class 52
11 3.8 Các nhóm virus trong CSDL và mẫu dữ liệu chẩn đoán 57
12 3.9 Số liệu tính toán trên ví dụ mẫu bài toán A-class 58
13 3.10 Kết quả thực nghiệm bài toán chẩn đoán lớp virus A-class 59
14 4.1 Trích chọn dữ liệu đặc trưng từ các định dạng cơ bản 66
15 4.2 Ví dụ cơ sở dữ liệu virus mẫ
u 69
16 4.3 Tính toán số lần ACV duyệt nút trên V-Tree 72
17 4.4 CSDL chứa 9 thành viên họ virus Family.x.vir 86
18 4.5 Kết quả hợp nhất dữ liệu trên CSDL virus 88
19 4.6 Kết quả nhận dạng virus của các hệ AV thử nghiệm 89
20 4.7
Kết quả dự báo virus của MAV khi thay đổi λ 90
21 4.8 Đánh giá hiệu quả nhận dạng virus của MAV 91
22 4.9 Kết quả thực nghiệm chất lượng các hệ anti-virus 92
23 4.10 Kết quả thực nghiệm tốc độ các hệ anti-virus 94

- vii -
DANH MỤC HÌNH ẢNH
stt Hình Mô tả Trang
1 2.1 Biểu đồ so sánh tỷ lệ phân bố các lớp virus máy tính 8
2 2.2 Biểu đồ tăng trưởng các lớp virus máy tính 10
3 2.3 Mô hình tổng quát của một hệ chuyên gia 19
4 2.4 Tiến trình khám phá tri thức 21
5 3.1 Thuật toán chẩn đoán lớp C-class 33

t quả nhận dạng của các hệ AV thử nghiệm 89
32 4.18 Thử nghiệm chất lượng các hệ anti-virus 93
33 4.19 Thử nghiệm tốc độ của các hệ anti-virus 94
- ix -
KÝ HIỆU VÀ VIẾT TẮT
DANH MỤC CÁC KÝ HIỆU SỬ DỤNG TRONG ĐỀ TÀI

Ký hiệu Thuật ngữ Ý nghĩa Ghi chú
A-class
Stand Alone program
virus class
Lớp virus/malware có định dạng
ứng dụng độc lập
Ký hiệu
của đề tài
Adware
Advertising software
Phần mềm quảng cáo
aObject
Diagnosed A-class
Object
Đối tượng chẩn đoán lớp virus A-
class
Ký hiệu
của đề tài
Backdoor
Trojan horse
backdoor
Nội ứng cửa hậu
B-class

Đối tượng chẩn đoán lớp virus C-
class
Ký hiệu
của đề tài
D-class
Document macro
virus Class
L
ớp virus lây vào tư liệu MS Office
Ký hiệu
của đề tài
dObject
Diagnosed D-class
Object
Đối tượng chẩn đoán lớp virus D-
class
Ký hiệu
của đề tài
Dropper
Trojan horse dropper
Mã độc kết xuất ra bộ nhớ ngoài
E-class
Executable file virus
Class
Lớp virus lây vào tập tin thi hành
Ký hiệu
của đề tài
eObject
Diagnosed E-class
Object

Mã nhận dạng virus
Injector
Trojan horse injector
Mã độc kết nhập vào bộ nhớ trong
Intruder
Intruder worm
Sâu trình lang thang
Kernel32
Windows32’s system
core
Hạt nhân hệ th
ống của Windows 32
Keylogger
Keylogger toolkit
Công cụ thám báo bàn phím
Macro
Macro virus
Loại virus lây vào tư liệu MS Office
Malicious
Malicious, harmful
code
Các đoạn mã thi hành độc hại, nguy
hiểm

Malware
Malicious software
Phần mềm độc hại
MSOffice
Microsoft Office
package

của đề tài
RS2
The ruleset of
permanent
knowledge
Tập luật đặc tả kiến thức dài lâu
Ký hiệu,
thuật ngữ
của đề tài
Sniffer
Data packet sniffer
Bộ thám báo gói dữ liệu
Spyware
Spy software
Phần mềm gián điệp
Template
MSOffice template
Khuôn dạng mẫu MSOffice
Trojan
Trojan horse
Nội ứng ‘ngựa gỗ’
Virus
Computer viruses
Virus máy tính
V-Tree
Value Tree data
structure
Cấu trúc dữ liệu cây giá trị
VxD
Virtual Device Driver

A
ssociation Model of
K
nowledge Base and
D
atabase
Mô hình kết hợp cơ sở dữ liệu và
cơ sở tri thức
Ký hiệu
của đề tài
ASMCR
A
lgorithm to Search
for a M
ember
C
lustering rule from
R
uleset
Thuật toán tìm kiếm luật phân
cụm trên tập Ruleset
Ký hiệu
của đề tài
ARCRD
A
lgorithm to Retrieve
C
lustering Rules from
D
atabase

BP
B
ase Pointer register
Thanh ghi con trỏ cơ sở
BX
B
ase register
Thanh ghi cơ sở
CD-ROM
C
ompact Disk ROM
Đĩa quang học chỉ đọc
CNTT
C
ông Nghệ Thông Tin
Information Technology
COM
COM
mand files
Tập tin lệnh
CPL
C
ontrol Panel Applet
Tập tin ứng dụng Control Panel
CPU
C
entral Processing
U
nit
Đơn vị xử lý trung tâm

của đề tài
DLL
D
ynamic Link Library
Thư viện liên kết động
DNS
D
omain Name Service
Dịch vụ tên miền
DOC
DOC
ument files
Tập tin tư liệu văn bản
DOT
DO
cument Template
Khuôn dạng tư liệu văn bản
DS
D
ata Segment register
Thanh ghi đoạn dữ liệu
DVD
D
igital Versatile Disk
Đĩa kỹ thuật số đa năng
DX
D
ata register
Thanh ghi dữ liệu
ES

yperText Application
Tập ứng dụng siêu văn bản
HTML
H
yperText Markup
L
anguage
Ngôn ngữ đánh dấu siêu văn bản
HTT
H
yperTexT files
Tập tin siêu văn bản
HTTP
H
yperText Transfer
P
rotocol
Giao thức truyền siêu văn bản
IBM
I
nternational Business
M
achine Corporation
Hãng IBM
- xiv -
Từ viết tắt Thay cho cụm từ Ý nghĩa Ghi chú
IBM-PC
IBM
compatible
P

nowledge Discovery
from D
atabase
Hệ Khám phá tri thức từ cơ sở dữ
liệu

KGVT
K
hông Gian Véc Tơ
Vector space
LAN
L
ocal Area Network
Mạng cục bộ
LE-EXE
L
inEar EXEcutable
files
Tập tin thực thi tuyến tính
LIFO
L
ast In - First Out
Cơ chế xử lý vào sau-ra trước
MAVCL
MAV
CLient module
Phân hệ MAV trên máy trạm
Ký hiệu
của đề tài
MAVES,

Ký hiệu nhận dạng tập tin thi
hành

NE-EXE
NE
w EXEcutable files
Tập tin thi hành Windows 16 bit
NNLT
N
gôn Ngữ Lập Trình
Programming Language
- xv -

Từ viết tắt Thay cho cụm từ Ý nghĩa Ghi chú
NNSRM
N
earest Neighbor
Rule-based S
tructural
R
isk Minimization
Cực tiểu rủi ro cấu trúc dựa vào
luật láng giềng gần nhất

OCX
O
LE Control
eX
tension
Điều khiển đối tượng liên kết

owerPoint template
A
dd-in files
Tập khuôn dạng trình diễn
PowerPoint gắn thêm

PPT
P
owerPoinT files
Tập tin trình diễn PowerPoint
R2LTA
R
oot-to-Leaf Traverse
A
lgorithm
Thuật giải duyệt đường đi từ gốc
đến lá trên cấu trúc dữ liệu cây
Ký hiệu
của đề tài
RAM
R
andom Access
M
emory
Bộ nhớ truy nhập ngẫu nhiên
REG
REG
istry files
Tập tin đăng ký hệ thống
ROM

Thanh ghi đoạn ngăn xếp
- xvi -

Từ viết tắt Thay cho cụm từ Ý nghĩa Ghi chú
SYS
SYS
tem files
Tập tin hệ thống
TF-IDF
T
erm Frequency –
I
nverse Document
F
requency
Tần suất từ - tần suất tài liệu
nghịch đảo

VAA
V
irus Autoprotect
A
gent
Tác tử Canh phòng virus
Ký hiệu
của đề tài
VBA
V
isual Basic
A


Mở đầu
1.1. Giới thiệu đề tài
1.1.1. Lý do chọn đề tài
Ngày nay công nghệ thông tin trở thành một lĩnh vực mũi nhọn trong công
cuộc phát triển kinh tế xã hội. Cùng với công nghệ sinh học và năng lượng mới,
công nghệ thông tin (CNTT) vừa là công cụ, vừa là động lực thúc đẩy quá trình
công nghiệp hóa, hiện đại hóa đất nước. Trong giai đoạn hội nhập quốc tế, CNTT
giữ vai trò đặc biệt quan trọng trong vi
ệc xử lý tính toán dữ liệu, kết nối thông tin
liên lạc của các đơn vị tổ chức trong và ngoài nước. Bảo vệ an toàn dữ liệu cho các
hệ thống tính toán, giữ vững an ninh mạng, đảm bảo liên lạc thông suốt, duy trì chất
lượng phục vụ luôn là vấn đề quan tâm hàng đầu của các nhà quản trị hệ thống.
Sự phát triển của Internet tạo điều kiện cho các loại hình xâm nhập luận lý
trái phép vào các h
ệ thống CNTT cả chiều rộng (lây lan trên quy mô toàn thế giới)
và chiều sâu (can thiệp vào hạt nhân hệ thống đích). Mỗi ngày các hệ thống mạng
phải đối phó với hàng loạt đợt tấn công bằng mã độc (malicious, harmful code
) của
tin tặc, khiến nhiều hệ thống bị đình trệ, tắc nghẽn và tê liệt; gây thiệt hại không
nhỏ. Dự án nghiên cứu về sự phát triển toàn cầu của Viện Hàn lâm Công nghệ Quốc
gia Mỹ (National Academy of Engineering, USA - 2008) nhận định vấn đề an ninh
thông tin và virus máy tính là một trong 14 thách thức công nghệ lớn nhất của thế
kỷ 21 mà nếu giải quyết được, cuộc sống con ng
ười sẽ được cải thiện đáng kể [92].
Virus máy tính (từ đây gọi tắt là virus, phân biệt với từ “virút” trong y học) thực sự
trở thành mối đe dọa thường xuyên và cấp bách của các hệ thống CNTT hiện nay.

.
• Giai đoạn 2 - Phân loại dữ liệu: Sắp xếp, phân loại, tìm hiểu đặc điểm dữ
liệu, cơ chế lây nhiễm của từng loại virus trên vật chủ tương ứng. Sàng lọc,
loại bỏ dữ liệu dư thừa (các mẫu virus “chết” hoặc không phù hợp với môi
- 3 -
trường, điều kiện nghiên cứu…). Bổ sung, làm giàu dữ liệu từ nhiều nguồn
khác nhau (dữ liệu mẫu của các lớp vật chủ, tập chỉ thị thi hành…).
• Giai đoạn 3 - Xử lý dữ liệu: Dựa vào các lớp dữ liệu đã phân loại, lựa chọn,
sắp xếp dữ liệu, xây dựng các mô hình, công cụ xử lý thích hợp trên cơ sở lý
thuyết máy học. Phân tích, nh
ận xét, đánh giá hiệu quả của từng mô hình.
• Giai đoạn 4 - Tổng kết: Khái quát hóa và rút ra kết luận chung cho đề tài.
Viết báo cáo, công bố kết quả nghiên cứu đề tài.
1.2. Đối tượng, phạm vi nghiên cứu của đề tài
1.2.1. Virus máy tính và các hệ thống đích
Có ba vấn đề cân nhắc khi nghiên cứu virus máy tính là môi trường (hệ điều
hành, kiến trúc máy), phương tiện (vật chứa tin, cơ chế lan tỏa) và cơ
hội (cộng
đồng sử dụng, tần suất kích hoạt, kỹ thuật lây lan…). Mặc dù có nhiều loại virus
máy tính lây nhiễm trên nhiều hệ thống và môi trường khác nhau, nhưng do tính
phổ biến của Windows nên virus máy tính trên hệ điều hành này cũng nhiều hơn.
Để đáp ứng nhu cầu thực tế bức thiết, đề tài tập trung nghiên cứu các loại virus máy
tính hoạt động trên các hệ điều hành (HĐH) Windows 9x/Me và Windows
NT/2000/XP dành cho máy tính IBM-PC (máy vi tính cá nhân để bàn hoặ
c xách
tay, sử dụng kiến trúc vi xử lý x86/Pentium hoặc tương thích).
Mặc dù vậy, đề tài cũng được định hướng nghiên cứu để có thể mở rộng kết
quả nghiên cứu cho các hệ anti-virus sử dụng các HĐH khác Windows.
1.2.2. Các hệ học và khám phá tri thức
Con người đã tốn rất nhiều công sức để giải quyết bài toán nhận dạng virus

thức về virus máy tính nhằm tư vấn chữa bệnh cho máy dựa trên kinh nghiệm của
chuyên gia anti-virus đã tích hợp trong hệ thống.
1.3. Ý nghĩa khoa học và thực tiễn của đề tài
Giống như trong công tác vệ sinh dịch tễ, trong lĩnh vực phòng chống virus
máy tính, phòng bệnh vẫn là chủ yếu với các hoạ
t động cơ bản: nhận dạng bệnh cũ
và dự báo bệnh mới. Các hoạt động này đều dựa vào các kỹ thuật chủ đạo của lớp
bài toán nhận dạng. Giải quyết vấn đề an toàn dữ liệu, đề tài nhận dạng virus máy
tính hướng tiếp cận máy học còn làm phong phú thêm tập lời giải cho các bài toán
nhận dạng cùng loại và có thể mở rộng để nhận dạng các đối t
ượng biến đổi.
- 5 -
Ở nước ta mặc dù đã có nhiều đề tài nghiên cứu về virus máy tính, nhưng
chưa có công trình nào đề cập và giải quyết bài toán nhận dạng biến thể virus máy
tính một cách khoa học và toàn diện. Không chỉ dừng lại ở việc nghiên cứu lý
thuyết, đề tài cũng đặt ra mục tiêu thực tiễn là xây dựng một hệ phần mềm thông
minh chống virus máy tính, đáp ứng kịp thời nhu cầu bức xúc của xã hội, t
ừng bước
giải quyết nạn virus máy tính, góp phần làm trong sạch môi trường CNTT hiện nay.
1.4. Cấu trúc của luận án
Luận án gồm năm chương. Chương 1 dẫn nhập và giới thiệu chung về đề tài.
Chương 2 trình bày các cơ chế chẩn đoán virus máy tính và một số vấn đề liên
quan. Trước tiên, Chương 2 sẽ giới thiệu các chiến lược nhận dạng virus; khảo sát
các hoạt động nghiên cứu ứng dụ
ng phòng chống virus trong và ngoài nước; phân
tích các vấn đề mở của công nghệ anti-virus; đánh giá tình hình và đề xuất hướng
tiếp cận, phương pháp giải quyết vấn đề. Kế tiếp, Chương 2 trình bày cơ sở lý
thuyết của các hệ khám phá tri thức từ CSDL, các hệ học và hệ chuyên gia. Phần
cuối Chương 2 trình bày quá trình tìm hiểu, phân tích các nghiên cứu hướng tiếp
cận máy học và hệ chuyên gia trong lĩnh vực nhận dạng mã độc.

nh dạng dữ liệu nhiễm virus
máy tính; Phụ lục 3: Các tác tử hoạt động và thuật toán SID Tìm kiếm – Suy luận –
Chẩn đoán; Phụ lục 4: Phân tích hệ thống phần mềm MAV; Phụ lục 5: Phân hệ máy
chủ MAVSR và Phụ lục 6: Phân hệ máy trạm MAVCL.

Trích đoạn Bài toán 3: Chẩn đoán lớp virus B-class Dự báo virus lạ bằng kỹ thuật hợp nhất dữ liệ u Đánh giá hiệu quả nhận dạng virus của MAV Những đóng góp mới của đề tài Hướng phát triển tương lai
Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status