(Luận văn thạc sĩ) Nghiên cứu một số thuật toán lọc thư rác và ứng dụng trong lọc email nội bộ - Pdf 56

i

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN
THÔNG

Khamchan PHOMTHAVONG

NGHIÊN CỨU MỘT SỐ THUẬT TOÁN LỌC THƯ
RÁC
VÀ ỨNG DỤNG TRONG LỌC EMAIL NỘI BỘ

Chuyên ngành: Khoa học máy tính
Mã số: 8 48 0101

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Người hướng dẫn khoa học: TS. NGUYỄN HẢI MINH

THÁI NGUYÊN – 2019
Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

http://lrc.tnu.edu.vn

ii

LỜI CẢM ƠN
Để hoàn thành chương trình cao học và viết luận văn, tôi đã nhận được sự
hướng dẫn, giúp đỡ góp ý nhiệt tình của quý thầy cô trường Đại học Công nghệ
Thông tin và Truyền thông - Đại học Thái Nguyên.

Chương 1. THƯ RÁC VÀ CÁC PHƯƠNG PHÁP LỌC THƯ RÁC ................... 2
1.1. Một số khái niệm cơ bản ............................................................................. 2
1.1.1. Định nghĩa thư rác ................................................................................ 2
1.1.2. Phân loại thư rác ................................................................................... 3
1.2. Các phương pháp lọc thư rác ...................................................................... 3
1.2.1. Lọc thư rác thông qua việc đưa ra luật lệ nhằm hạn chế, ngăn chặn
việc gửi thư rác. .............................................................................................. 3
1.2.2. Lọc thư rác dựa trên địa chỉ IP ............................................................. 5
1.2.3. Lọc dựa trên chuỗi hỏi/ đáp .................................................................. 6
1.2.4. Phương pháp lọc dựa trên mạng xã hội ................................................ 6
1.2.5. Phương pháp lọc nội dung .................................................................... 7
Chương 2. TỔNG QUAN CÁC THUẬT TOÁN NSA, PSA, PNSA TRONG
LỌC THƯ RÁC ................................................................................................... 11
2.1. Cơ sở lý thuyết về hệ miễn dịch nhân tạo. ................................................ 11
2.1.1. Khái niệm về hệ miễn dịch nhân tạo .................................................. 11
2.1.2. Phạm vi ứng dụng của hệ miễn dịch nhân tạo .................................... 11
2.1.3. Cấu trúc cơ bản của hệ miễn dịch nhân tạo ........................................ 11
2.2. Cơ sở lý thuyết về thuật toán chọn lọc tiêu cực (Negative Selection
Algorithms - NSA)........................................................................................... 16
2.3. Cơ sở lý thuyết về thuật toán chọn lọc tích cực (Positive Selection
Algorithms – PSA)........................................................................................... 17
2.4. Cơ sở lý thuyết thuật toán cải tiến chọn lọc thư rác (Positive and Negative
Selection Algorithms – PNSA) ........................................................................ 18
2.4.1. Một số định nghĩa ............................................................................... 18
Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

http://lrc.tnu.edu.vn

iv

v

DANH MỤC HÌNH ẢNH
Hinh 1.1: Tất cả các thư điện tử ............................................................................. 2
Hinh 1.2 : Mô tả tổng quan quá trình hoạt động của honeyd ................................. 8
Hình 2.1: Cấu trúc phân tầng của Hệ miễn dịch nhân tạo ................................... 12
Hình 2.2: Kháng thể nhận diện kháng nguyên dựa vào phần bù ......................... 13
Hình 2.3 Sơ đồ khối thuật toán chọn lọc tiêu cực ................................................ 17
Hình 2.4 Sơ đồ khối thuật toán chọn lọc tích cực ................................................ 18
Hình 3.1. Mô hình tổng quát của quá trình gửi và nhận thư điện tử .................... 30
Hinh 3.2 : Mô hình mạng nội bộ của bộ Tổng tham mưu Lào ............................ 30
Hinh 3.3.Giao diện phần mềm Weka ................................................................... 40
Hình 3.4 Giao diện Weka Explorer ...................................................................... 40
Hình 3.5 Giao diện Weka Explorer sau khi chọn CSDL Spambase .................... 41
Hình 3.6 Phân loại dữ liệu.................................................................................... 41

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

http://lrc.tnu.edu.vn

vi

DANH MỤC BẢNG
Bảng 3.1. Kết quả khi chạy chương trình với 9 bộ test ........................................ 34
Bảng 3.2. So sánh kết quả .................................................................................... 36
Bảng 3.3. Kết quả thử nghiệm trên WEKA và PNSA ......................................... 45
Bảng 3.4. So sánh PNSA với một số phương pháp cho kết quả tốt hơn ............ 46
Bảng 3.5. So sánh PNSA với một số phương pháp cho kết quả thấp hơn .......... 47

Nội dung luận văn gồm có 3 chương:
Dự kiến nội dung báo cáo của luận văn gồm: Phần mở đầu, 3 chương
chính, phần kết luận, tài liệu tham khảo, phụ lục. Bố cục được trình bày như sau:
Phần mở đầu: Nêu lý do chọn đề tài và hướng nghiên cứu chính
Chương 1: THƯ RÁC VÀ CÁC PHƯƠNG PHÁP LỌC THƯ RÁC
Chương 2: TỔNG QUAN CÁC THUẬT TOÁN NSA, PSA, PNSA
TRONG LỌC THƯ RÁC.
Chương 3: CÀI ĐẶT CÁC THUẬT TOÁN.
Phần kết luận: Tóm tắt các kết quả đã đạt được và hướng phát triển tiếp
theo của đề tài.
Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

http://lrc.tnu.edu.vn

2
Chương 1.
THƯ RÁC VÀ CÁC PHƯƠNG PHÁP LỌC THƯ RÁC
1.1. Một số khái niệm cơ bản
1.1.1. Định nghĩa thư rác
Có nhiều tranh cãi về việc đâu là định nghĩa chính xác của thư rác (spam
email), bởi vì thư rác mang tính cá nhân hóa nên khó mà nói lên được hết ý nghĩa
của thư rác. Nhiều ý kiến cho rằng thư rác là những “thư điện tử (email) không
mong muốn”. Định nghĩa này cũng không thực sự chính xác, như một nhân viên
nhận những thư điện tử về công việc từ sếp của họ, đây là những thư điện tử
người nhân viên không mong muốn nhưng chúng không phải là thư rác. Lại có ý
kiến khác cho rằng thư rác là những “thư điện tử thương mại không được yêu cầu
từ phía người nhận” những thư này bao gồm các thư điện tử quảng cáo về các
sản phẩm và thư điện tử lừa gạt. Nhưng định nghĩa này cũng không thực sự chính
xác, nó làm mọi người nghĩ rằng thư rác giống như là thư đáng bỏ đi (junk mail).

gửi tới một người nhận xác định nào đó nhằm mục đích phá vỡ và gây cản trở
công việc của người nhận hay mạng của nhà cung cấp dịch vụ thư điện tử (ESP)
được gọi là “bom thư”. Thư rác còn được cố ý gửi đi nhằm thông báo tin sai lệch,
làm xáo trộn công việc và cuộc sống của người nhận.
Sự phân loại thư rác rất quan trọng không chỉ trong lĩnh vực tạo những bộ
lọc thư rác có hiệu quả cao mà còn giúp cho việc ban hành các bộ luật chống thư
rác phù hợp.
1.2. Các phương pháp lọc thư rác
1.2.1. Lọc thư rác thông qua việc đưa ra luật lệ nhằm hạn chế, ngăn chặn
việc gửi thư rác.
Khi tình trạng thư rác ngày càng tăng trên đường truyền internet gây ra
nhiều phiền toái và thiệt hại lớn trên thế giới rất nhiều các quốc gia đã đưa ra các
luật để ngăn chặn thư rác. Dưới đây là một số nội dung cơ bản liên quan tới giải
pháp ngăn chặn thông qua luật lệ pháp lý được đưa ra trên báo điện tử của bộ
viễn thông .
Mỹ là một những nước đầu tiên trên thế giới cố gắng ban hành các văn
bản pháp luật để giải quyết vấn đề thư điện tử rác tràn ngập. Từ tháng 7 năm
1997, bang Nevada đã dẫn đầu trong việc ban hành các quy phạm pháp luật quy
Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

http://lrc.tnu.edu.vn

4
định về hành vi phục vụ và sử dụng thư tín điện tử. Tính đến tháng 3 năm 2003,
đã có 26 bang ban hành quy phạm pháp luật quy định về dịch vụ và hành vi sử
dụng thư tín điện tử. Đến tháng 11 năm 2003, con số này lên đến 36. Về phía
chính quyền liên bang, từ những năm 1990, cả Thượng nghị viện và Hạ nghị viện
đều quan tâm đến sự lan rộng của thư tín điện tử quấy rối và thư rác, và đã đưa ra
nhiều dự án luật như “Luật bảo vệ hộp thư không bị quấy rối” (1999), “Luật Bảo

quản lý ba hình thức quảng cáo đang bức xúc: thư điện tử, tin nhắn điện thoại di
động và quảng cáo trên trang thông tin điện tử
1.2.2. Lọc thư rác dựa trên địa chỉ IP
Phương pháp lọc thư rác thông qua địa chỉ IP là phương pháp đơn giản và
được sử dụng sớm nhất trong công cuộc chống thư rác. Dựa vào địa chỉ IP của
người gửi để xác định thư đó bị ngăn chặn hoặc cho qua. Có hai cách để thực
hiện việc lọc thư: một là duy trì một danh sách các địa chỉ IP bị chặn (còn gọi là
danh sách đen blacklist); thứ hai là sử dụng một danh sách các địa chỉ IP cho
phép qua (danh sách trắng whitelist).
Danh sách đen (Blacklist)
Người ta lập ra một danh sách các địa chỉ gửi thư rác. Các nhà cung cấp
dịch vụ thư điện tử (ISP) sẽ dựa trên danh sách này để loại bỏ những thư nằm
trong danh sách này. Danh sách này thường xuyên được cập nhật và được chia sẻ
giữa các nhà cung cấp dịch vụ. Một số danh sách đen điển hình được lập ra như:
SpamCop Blocking List và Composite Block List.
Ưu điểm của phương pháp này là các ISP sẽ ngăn chặn được khá nhiều địa
chỉ gửi thư rác. Mặc dù danh sách đen này luôn được cập nhật nhưng với sự thay
đổi liên tục địa chỉ, sự giả mạo địa chỉ hoặc lợi dụng một mail server hợp pháp để
gửi thư rác đã làm số lượng thư rác gửi đi vẫn ngày càng tăng cao. Do đó phương
pháp này chỉ ngăn chặn được một nửa số thư rác gửi đi và sẽ mất rất nhiều thư
hợp pháp nếu ngăn chặn nhầm.
Danh sách trắng (Whitelist)
Danh sách các địa chỉ tin cậy (Safe Sender List), danh sách này có thể do
một nhà cung cấp dịch vụ nào đó cung cấp. Những địa chỉ thuộc danh sách sẽ
được cho qua bộ lọc. Người dùng phải đăng ký với nhà cung cấp danh sách để
được nằm trong danh sách.
Ưu điểm: số lượng địa chỉ trong danh sách trắng sẽ ít hơn trong danh sách
đen vì thế sẽ dễ cập nhật hơn danh sách đen và giải quyết được tình trạng chặn
nhầm thư.

cung liên kết với node này) và những cung liên kết giữa các node hàng xóm này
với nhau. Nếu thành phần nào có độ phân cụm thấp thì node tương ứng với thành
phần đó là một địa chỉ gửi thư rác. Trong thành phần mạng xã hội của những
node gửi thư rác, những node hàng xóm của nó thường là những node rất ngẫu
nhiên, không có mối quan hệ (không có sự trao đổi email qua lại với nhau) nên
độ phân cụm của mạng xã hội của những node này rất thấp. Ngược lại, mạng xã
hội ứng với những người dùng bình thường có độ phân cụm cao hơn.
Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

http://lrc.tnu.edu.vn

7
Dựa vào độ phân cụm, người ta tạo được danh sách đen (Blacklist) gồm
địa chỉ email tương ứng với những node có độ phân cụm rất thấp, danh sách
trắng (Whitelist) ứng với node có độ phân cụm cao, số node còn lại sẽ được đưa
vào danh sách cần xem xét (Greylist). Phương pháp này có thể phân loại được
53% tổng số email một cách chính xác là ham hay spam. Nhược điểm của
phương pháp là những spammer có thể xây dựng mạng xã hội của chính họ nên
khó có thể phát hiện ra
1.2.5. Phương pháp lọc nội dung
Phương pháp lọc nội dung để phân loại thư rác đã và đang được quan tâm,
nghiên cứu và ứng dụng nhiều nhất. Phương pháp này dựa vào nội dung và chủ
đề bức thư để phân biệt thư rác và thư hợp lệ. Phương pháp này có ưu điểm đó là
chúng ta có thể dễ dàng thay đổi bộ lọc để nó có thể lọc các loại thư rác cho phù
hợp. Nhược điểm của phương pháp này là: do biết được cách thức lọc nội dung
nên các spammer luôn luôn thay đổi hình thức nội dung của thư rác.
Phần dưới đây trình bày những nét cơ bản nhất về các phương pháp lọc
nội dung thông dụng [1,2].
Lọc dựa trên các dấu hiệu nhận biết

Hệ thống tìm xem các từ trong danh sách đen/trắng có nằm trong thư mới
đến không và đếm số lần xuất hiện của chúng. Nếu số lượng từ thuộc danh sách
trắng nhiều hơn rất nhiều số từ thuộc danh sách đen thì bức thư đó là hợp pháp và
ngược lại sẽ là thư rác.
Đặc trưng của bộ lọc thông qua bỏ phiếu trên danh sách đen/trắng:
- Không có biến đổi dữ liệu ban đầu.
- Biểu thức chính quy để tách từ ra khỏi thư là: [[:graph:]]+
- Việc chọn đặc trưng đơn giản chỉ là các từ đơn
- Cơ sở dữ liệu về đặc trưng chỉ được nạp khi các từ nằm trong danh sách
đen hoặc trắng. Nếu nằm trong danh sách đen thì đặt là -1, trong danh sách trắng
là +1, các trường hợp còn lại đặt là 0.
Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

http://lrc.tnu.edu.vn

9
- Luật tổ hợp là : “Điểm mới = Điểm cũ + trọng số đặc trưng”
- Ngưỡng lọc cuối cùng là : Nếu Điểm mới > 0 là thư hợp pháp, nếu < 0 là
thư rác.
Như vậy bộ lọc thực hiện chấm điểm các từ trong danh sách đen và các từ
trong danh sách trắng bằng nhau. Một số cải biên của phương pháp này là đánh
trọng số cho các từ trong danh sách đen cao hơn trong danh sách trắng hoặc
ngược lại.
Lọc thư rác dựa vào phương pháp heuristic.
Cách thức hoạt động của phương pháp này là dựa trên việc xác định
những từ đặc trưng thuộc về thư rác, từ đặc trưng thuộc về thư hợp pháp, sau đó
phát hiện những đặc trưng đó trong thư mới nhận để đưa ra kết luận thư đó là thư
rác hay thư hợp lệ.
Người ta đánh trọng số cho các đặc trưng trên bằng tay hoặc bằng thuật

Nhược điểm của phương pháp này là phải có một tập hợp các thư để huấn
luyện. Hiệu suất của bộ lọc sẽ phụ thuộc nhiều vào tập huấn luyện này. Tập dữ
liệu càng lớn càng chứa nhiều dạng khác nhau thì kết quả phân loại về sau sẽ
càng chính xác.
Hiện nay phương pháp lọc thư rác theo học máy và xác suất thống kê là
một phương pháp có triển vọng với nhiều ứng dụng thương mại như Hotmail,
Google, Yahoo.
Để có một bộ lọc hoàn hảo dường như không thể thực hiện được, một bộ
lọc tốt nhất là bộ lọc kết hợp nhiều bộ lọc. Việc Spam ngày càng được thực hiện
tinh vi hơn đòi hỏi các bộ lọc phải có khả năng biến đổi theo sự thay đổi của
Spam, sự thay đổi về số lượng, về nội dung và cấu trúc của các thư spam. Vì vậy
yêu cầu đặt ra phải có một bộ lọc có khả năng cập nhật để có thể thay đổi, chống
lại những thư spam có cấu trúc nội dung mới, bộ lọc học máy lọc dựa trên nội
dung Email Classification Using Example(ECUE) đã được chứng minh là có khả
năng thực hiện được điều đó. Trong khuôn khổ luận văn này em xin trình bày

hệ thống lọc thư rác NSA, PSA, PNSA mới được đề xuất và đã xây dựng
thử nghiệm thành công.

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

http://lrc.tnu.edu.vn

11
Chương 2.
TỔNG QUAN CÁC THUẬT TOÁN NSA, PSA, PNSA
TRONG LỌC THƯ RÁC
2.1. Cơ sở lý thuyết về hệ miễn dịch nhân tạo.
2.1.1. Khái niệm về hệ miễn dịch nhân tạo

12
tác của các phần tử nhân tạo, và một tập thuật toán để điều khiển tính động của
hệ AIS(Hệ thống nhận dạng tự động).
Mô hình cho hệ miễn dịch nhân tạo

Hình 2.1: Cấu trúc phân tầng của Hệ miễn dịch nhân tạo
Tầng đầu tiên là lĩnh vực ứng dụng. Đối với lĩnh vực ứng dụng khác nhau
sẽ quyết định những thành phần và cách thức biểu diễn khác nhau và dẫn tới các
thao tác trên các thành phần cũng khác nhau.
Tầng thứ hai là biểu diễn các thành phần: Trong AIS(Hệ thống nhận dạng
tự động) phải biểu diễn được hai thành phần quan trọng là kháng thể và kháng
nguyên.
Tầng thứ ba là các phương pháp đánh giá độ thích hợp: Để đánh giá độ
thích hợp có thể sử dụng nhiều phương pháp khác nhau như khoảng cách
Hamming, khoảng cách Euclid, hoặc khoảng cách Mahattan.
Tầng thứ tư là sử dụng các thuật toán miễn dịch: Có thể dùng các thuật
toán miễn dịch như thuật toán chọn lọc tích cực, thuật toán chọn lọc tiêu cực,
thuật toán chọn lọc Clone, thuật toán aiNet, thuật toán RAIN để điều chỉnh tính
động của hệ AIS(Hệ thống nhận dạng tự động).
Tầng thứ năm là đưa ra lời giải cho bài toán: Lời giải cho bài toán sẽ được
cập nhật lại sau khi một quần thể mới được tạo và đưa ra kết quả cuối cùng khi
đạt đến điều kiện kết thúc nào đó ví dụ như sau một số bước lặp nhất định.
Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

http://lrc.tnu.edu.vn

13
Các mô hình trừu tượng của hệ miễn dịch và tương tác giữa chúng

- Không gian nguyên (Integer - shape - space): Chuỗi thuộc tính có các
phần tử nhận giá trị nguyên.
- Không gian Hamming (Hamming - shape - space): Chuỗi thuộc tính có
các phần tử nhận một giá trị nào đó trong bảng hữu hạn k mẫu tự.
- Không gian ký hiệu (Symbolic - shape - space): Thường tạo bởi các
thuộc tính có kiểu khác nhau, trong đó có ít nhất một thuộc tính là kiểu ký hiệu.
Không mất tính tổng quát ta có thể giả sử kháng thể và kháng nguyên có
cùng độ dài là L. Tổng quát một kháng thể được biểu diễn bởi vector
Ab=<Ab1,Ab2,…,AbL> và một kháng nguyên được biểu diễn bởi vector
Ag=<Ag1,Ag2,…,AgL> để xác định tương tác của các kháng thể với nhau và
kháng thể với kháng nguyên có thể dùng công thức tính khoảng cách để đo độ
thích hợp của 2 phần tử.
c) Đánh giá tương tác giữa các phần tử
- Không gian Euclid và không gian Mahattan:
Không gian toạ độ thực dùng công thức tính toán khoảng cách (2.1) được
gọi là không gian Euclid, dùng công thức tính toán khoảng cách (2.2) được gọi là
không gian Mahattan:

D

L

  Ab  Ag 
i l

i

i

2

i l

Tuỳ thuộc vào bài toán, một không gian nguyên cũng có thể được áp
dụng. Trong không gian này các thuộc tính tương ứng với các biến có giá trị
nguyên. Không gian nguyên có thể được xem như một trường hợp đặc biệt của
không gian Hamming.
Các công thức trên không chỉ dùng để biểu diễn tương tác giữa các kháng
thể với kháng nguyên, mà còn có thể dùng để biểu diễn tương tác giữa các phần
tử trong Hệ miễn dịch .Ta có thể coi các công thức trên là những công thức
chung để xác định tương tác giữa các phần tử trong Hệ miễn dịch.
Ngoài ra để xác định tương tác giữa các phần tử, ta quy định một ngưỡng
nào đó, tuỳ từng bài toán và từng trường hợp cụ thể nếu khoảng cách D giữa 2
phần tử nhỏ hơn hoặc lớn hơn ngưỡng ta có 2 phần tử tương tác với nhau, hay
có thể nhận diện được nhau.
Một số thuật toán miễn dịch
Dựa vào biểu diễn thích hợp cho các tế bào và phần tử miễn dịch cũng
như cách tương tác giữa các phần tử, người ta đưa ra một số thuật toán miễn dịch
chung dựa trên những ý tưởng của Hệ miễn dịch.
- Mô hình dựa trên hoạt động của tuỷ xương (Bone marrow models):
Được dùng để sản sinh quần thể tế bào và các phần tử.
- Mô hình dựa trên hoạt động của tuyến ức: được dùng để chọn lọc quần
thể tế bào và các phần tử có khả năng nhận diện Self và nonSelf.
- Mô hình mạng miễn dịch và thuật toán chọn lọc Clone: Được dùng để
mô tả tương tác giữa các phần tử trong Hệ miễn dịch với nhau và với môi trường,
điều khiển các thành phần của Hệ miễn dịch tương tác với môi trường bên ngoài.
Bao gồm các quá trình chọn lọc, nhân rộng, đột biến, bổ sung phần tử mới.

Các thuật toán sẽ được mô tả ở mức tổng quát cao, đưa ra các mô
hình tính toán chung tương ứng với quá trình miễn dịch sinh học. Ý tưởng
chung của các thuật toán miễn dịch là điều chỉnh quần thể, kháng thể nhằm

http://lrc.tnu.edu.vn

17

S

Quần thể tiềm năng P

pP nhận diện được s S

Loại bỏ

Đúng

Sai

Cho vào quần thể có giá trị A

Hình 2.3 Sơ đồ khối thuật toán chọn lọc tiêu cực
2.3. Cơ sở lý thuyết về thuật toán chọn lọc tích cực (Positive Selection
Algorithms – PSA)
Ý tưởng của thuật toán khá đơn giản, đó là chọn lọc những T-cell có thể
nhận diện các peptide (một phần của kháng nguyên xâm nhập vào cơ thể), mà
peptide này đã kết hợp với MHC (Major Histocompatibility Complex - phức hợp
các phần tử có nhiệm vụ trình diện peptide kháng nguyên cho T- cell) để tạo
thành MHC/peptide. Giả thiết có tập MHC/peptide, kí hiệu là tập S, các cơ quan
thụ cảm T-cell sẽ phải được kiểm tra về khả năng kết hợp với các phần tử thuộc
tập S này. Nếu một T-cell không nhận diện được bất kỳ phần tử nào, nó sẽ bị loại

Cho vào quần thể có giá trị A

Hình 2.4 Sơ đồ khối thuật toán chọn lọc tích cực
2.4. Cơ sở lý thuyết thuật toán cải tiến chọn lọc thư rác (Positive and
Negative Selection Algorithms – PNSA)

S là tập Self hay còn gọi là tập tế bào cần bảo vệ.
A là quần thể có giá trị.
Phân biệt self và nonself trong sinh học quá trình chọn lọc các tế bào BCell và T-Cell, Hệ miễn dịch thích nghi không chỉ phải chọn những tế bào có khả
năng nhận biết những tế bào lạ (Antigen hay nonself), mà nó còn phải loại bỏ
những tế bào nhận biết được những tế bào do cơ thể tạo ra (Self – antigen hay
đơn giản là Self). Tương ứng với hai quá trình này ta có quá trình chọn lọc tích
cực và chọn lọc tiêu cực. Hai quá trình này xảy ra với cả B-Cell và T-Cell với nguyên
lý khá giống nhau. Khi xây dựng thuật toán chúng ta chỉ cần xét với T-Cell
2.4.1. Một số định nghĩa
Trong các định nghĩa dưới đây, ta chỉ xét các xâu được xây dựng từ
cùng một tập kí tự Σ. Không mất tính tổng quát, trong luận văn ta chỉ xét các xâu
nhị phân, nghĩa là Σ = {0,1}. Ngoài ra, kí hiệu Σk được hiểu theo nghĩa thông
thường là tập tất cả các xâu kí tự độ dài k xây dựng từ tập kí tự Σ.
Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

http://lrc.tnu.edu.vn

19
2.4.1.1. Self
Self hay còn được gọi là tập S bao gồm các xâu s  Σℓ mà chúng ta
đang cần được bảo vệ.
2.4.1.2. NonSelf

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

(Luận văn thạc sĩ) Nghiên cứu một số thuật toán lọc thư rác và ứng dụng trong lọc email nội bộ - Pdf 56

Tài liệu, ebook tham khảo khác

Học thêm