ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ CAO THỊ NHÂM
LOẠI BỎ MẨU TIN NHÂN BẢN THỪA
TRONG CƠ SỞ DỮ LIỆU QUAN HỆ
LUẬN VĂN THẠC SĨ
Ngành: Công nghệ thông tin
Chuyên ngành: Công nghệ phần mềm
Mã số: 60 48 10
LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. Lê Huy Thập Hà Nội - 2009 3 MỤC LỤC
LỜI CAM ĐOAN 1
LỜI CẢM ƠN 2
MỤC LỤC 3
2.4 TỔNG KẾT CHƯƠNG 2 39
Chương 3 ỨNG DỤNG THUẬT TOÁN 40
3.1 HỆ THỐNG LOẠI BỎ MẨU TIN NHÂN BẢN THỪA TRONG CSDL
QUAN HỆ 40
3.1.1 Mô tả bài toán 40
3.1.2 Yêu cầu đặt ra đối với hệ thống 40
3.1.3 Khả năng giải quyết bài toán 41
3.1.4 Sơ đồ hệ thống 42
3.2 THIẾT KẾ HỆ THỐNG LOẠI BỎ MẨU TIN NHÂN BẢN THỪA TRONG
CSDL QUAN HỆ 49
3.2.1 Xây dựng các lớp đối tượng 49
3.2.2 Biểu đồ tuần tự 59
3.3 KẾT QUẢ ỨNG DỤNG THUẬT TOÁN 61
3.3.1 Môi trường phát triển 61
3.3.2 Kết quả thực nghiệm 62
3.4 TỔNG KẾT CHƯƠNG 3 68
Chương 4 KẾT LUẬN & HƯỚNG PHÁT TRIỂN 69
4.1.1 Kết quả thu được trong quá trình nghiên cứu đề tài 69
4.1.2 Hướng phát triển 69
TÀI LIỆU THAM KHẢO 71
5 DANH MỤC HÌNH VẼ
Hình 1-1 Kiến trúc cơ sở dữ liệu phân tán 23
Bảng 3-6 Bảng thuộc tính của lớp clsRuleEngine 52
Bảng 3-7 Bảng các phương thức của lớp clsRuleEngine 53
Bảng 3-8 Bảng các phương thức của lớp clsExpressionEvaluator 54
Bảng 3-9 Bảng các phương thức của lớp clsProxy 55
Bảng 3-10 Bảng các thuộc tính của lớp clsDeduplicate 55
Bảng 3-11 Bảng các phương thức của lớp clsDeduplicate 56 7 Bảng 3-12 Bảng các thuộc tính của lớp clsDAO 56
Bảng 3-13 Bảng các phương thức của lớp clsDAO 57
Bảng 3-14 Bảng các phương thức của lớp clsInterface 57
Bảng 3-15 Bảng các phương thức của lớp clsSetting 58
8 HỆ THỐNG CÁC TỪ VIẾT TẮT
Kí hiệu viết tắt Tên tiếng Anh Ý nghĩa
EDRS
Eliminate duplicate record
system
Hệ thống loại bỏ mẩu tin nhân
bản thừa
CSDL
9 MỞ ĐẦU
Các ứng dụng làm việc với thông tin nói chung và hệ cơ sở dữ liệu lớn ngày càng
phát triển và đóng vai trò quan trọng trong mọi lĩnh vực ứng dụng và nghiên cứu. Đi đôi
với sự lớn mạnh của các hệ thống này là sự xuất hiện những dữ liệu “bẩn” và dữ liệu dị
thường. Dữ liệu dị thường và dữ liệu “bẩn” làm ảnh hưởng rấ
t nhiều tới hiệu quả xử lý
và độ chính xác của kết quả xử lý cũng như ảnh hưởng tới việc biểu diễn và phân tích
dữ liệu. Tệ hại hơn có thể làm hệ thống phần mềm trở nên vô giá trị.
Dữ liệu dị thường và dữ liệu “bẩn” xuất hiện trong dữ liệu thực là chuyện không
thể tránh khỏi, người ta ước tính dữ li
ệu dị thường và dữ liệu “bẩn” chiếm khoảng 5%.
Thực tế này dẫn tới xu hướng phát triển các phương pháp làm sạch dữ liệu. Không có
mô tả chung nào cho mục đích và cũng không có mô tả bao quát cho quá trình làm sạch
dữ liệu. Làm sạch dữ liệu đòi hỏi rất nhiều loại tri thức cũng như đòi hỏi có nhiều kiến
thức về việc xử lý và bảo trì dữ liệu. Mụ
c đích trước hết của làm sạch dữ liệu là loại bỏ
những nhân bản thừa trong tập hợp dữ liệu có sẵn.
Quá trình làm sạch dữ liệu khó có thể thực hiện được nếu không có sự tham gia
của các chuyên gia hay các kiến thức chuyên gia, vì việc loại bỏ dữ liệu dị thường và dữ
liệu “bẩn” cần phải có kiến thức chuyên gia về lĩnh vực đó. Quá trình làm sạch d
ữ liệu
là quá trình bán tự động. Nhưng nên xử lý tự động nhiều nhất có thể. Hiệu quả và sự
thành công của quá trình làm sạch dữ liệu phụ thuộc rất nhiều vào kiến thức chuyên gia
hiện có và những thông tin cần thiết để xác định và chỉnh sửa những dữ liệu dị thường.
Làm sạch dữ liệu là một thuật ngữ không rõ ràng và không có định nghĩa chính
xác. Nguyên nhân chính là vì mục đích chính của làm s
còn đề cập đến các kiểu phân mảnh trong cơ sở dữ liệu phân tán, kiến thức này là
nền tảng cho ý tưởng của thuật toán loại bỏ mẩu tin nhân bản thừa trong cơ sở dữ
liệu quan hệ.
9 Lý thuyết chắc chắn: Lý thuyết chắc chắn là kiến thức c
ơ sở giúp xây dựng thuật
toán loại bỏ mẩu tin nhân bản thừa. Nội dung cơ bản là nghiên cứu các luật và suy
luận dựa vào các hệ số chắc chắn thu thập được từ hệ các chuyên gia hoặc hệ
chuyên gia.
Chương 2: Thuật toán loại bỏ mẩu tin nhân bản thừa trong cơ sở dữ liệu quan hệ.
Chương này trình bày thuật toán nhận diện bản ghi nhân bản thừa trong cơ sở dữ li
ệu
quan hệ dựa vào kiến thức về cơ sở dữ liệu và lý thuyết chắc chắn ở Chương 1.
Chương 3: Ứng dụng thuật toán. Là phần phân tích yêu cầu, thiết kế và cài đặt hệ
thống loại bỏ mẩu tin nhân bản thừa trong cơ sở dữ liệu quan hệ. Bên cạnh đó luận văn 11 cũng đưa ra những kết quả kiểm thử trên dữ liệu thật để đi đến những đánh giá về hiệu
quả của thuật toán.
Chương 4. Kết luận và hướng phát triển. Kết luận, đánh giá những gì đã đạt được và
chưa làm được trong luận văn tốt nghiệp và nêu ra hướng phát triển của đề tài là nội
dung trình bày của chương này. 12 Chương 1 CƠ SỞ LÝ THUYẾT
13 hoặc một liên kết của thế giới thực. Tên bảng và tên cột dùng để giải thích ý nghĩa của
các giá trị trong mỗi hàng. Mọi giá trị trong cùng một cột có cùng một kiểu dữ liệu.
Theo thuật ngữ mô hình quan hệ hình thức, mỗi hàng được gọi là một bộ, mỗi cột
được gọi là thuộc tính và bảng được gọi là một quan hệ. Số lượng các thuộc tính có
trong một quan hệ gọi là mứ
c(grade), số lượng các bộ gọi là lực lượng(cardinality) của
quan hệ đó.
Để hiểu rõ hơn các khái niệm nêu trên chúng ta xét ví dụ sau đây:
Bảng 1-1 biểu diễn quan hệ EMP (NHÂN VIÊN) gồm 4 thuộc tính: EMPNUM
(Mã số nhân viên), NAME (Tên nhân viên), AGE (Tuổi), DEPTNUM (Mã số phòng
ban) và 5 bộ, ví dụ (18, Mary, 31, 1) là một bộ. Quan hệ này có 4 thuộc tính do vậy mức
của quan hệ này là 4 và lực lượng của quan hệ này là 5.
EMPNUM NAME AGE DEPTNUM
3 Jones 23 1
7 Smith 45 2
11 Bob 18 1
15 Jane 27 3
18 Mary 31 1
Bảng 1-1 Quan hệ EMP
Một lược đồ quan hệ được tạo nên từ tên một quan hệ và danh sách các thuộc tính
của nó, kí hiêu một lược đồ quan hệ như sau: <Tên quan hệ>(<danh sách các thuộc
tính>). Ví dụ: EMP(EMPNUM, NAME, AGE, DEPTNUM) là lược đồ quan hệ của
quan hệ EMP ở trên.
Tập hợp các giá trị có thể có của một thuộc tính gọi là miền của thuộc tính. Ví dụ,
EMPNUM lấy giá trị từ miền mã số nhân viên, là các số nguyên dương, AGE có miền
giá trị từ tu
, d
2
,…, d
n
) trong đó d
1
thuộc miền D
1
, d
2
thuộc miền D
2
,…, d
n
thuộc miền D
n
. Định nghĩa này rất hữu dụng trong việc phân tích
các tính chất của mô hình quan hệ và đại số.
Trong tài liệu này, chúng ta coi thứ tự các cột trong một quan hệ là không quan
trọng. Điều này có nghĩa chúng ta coi quan hệ là ánh xạ từ tập tên của các thuộc tính tới
tập giá trị tương ứng. Vì vậy, quan hệ EMP
1
dưới đây cũng giống quan hệ EMP ở hình
1-1.
EMPNUM AGE DEPTNUM NAME
3 23 1 Jones
7 45 2 Smith
11 18 1 Bob
15 27 3 Jane
ra khỏi K thì sẽ còn lại một tập K không phải là siêu khóa của R. Như vậy, một khóa là
một siêu khóa tố
i thiểu, nghĩa là đó là một siêu khóa mà ta không thể vứt bỏ thuộc tính
nào rời khỏi nó mà vẫn giữ được ràng buộc về tính duy nhất.
Tính chất quan trọng của khóa là duy nhất về mặt ngữ nghĩa, chúng ta không coi
một thuộc tính là khóa chỉ vì nó thỉnh thoảng mới định danh cho một bản ghi nào đó.
Trong bảng 1-1, EMPNUM(mã số nhân viên) là khóa của quan hệ EMP, bởi vì không
có hai bộ nhân viên có cùng một giá trị cho EMPNUM(mã số nhân viên). Mọi tập hợp
thuộc tính có ch
ứa EMPNUM(mã số nhân viên), ví dụ {EMPNUM, AGE}, đều là một
siêu khóa. Tuy nhiên, siêu khóa {EMPNUM, AGE} không phải là khóa vì nếu bỏ thuộc
tính AGE đi thì nó vẫn còn là một siêu khóa.
Một khóa được xác định từ ý nghĩa của thuộc tính và tính chất là bất biến, tính
chất đó phải thỏa mãn khi chúng ta chèn một bộ mới vào quan hệ. Ví dụ: chúng ta
không thể và không được chỉ định thuộc tính NAME(Tên nhân viên) làm khóa vì không
có gì đảm bảo rằng không tồn tại hai nhân viên có cùng họ tên.
Nói chung, một lược đồ quan hệ có thể có nhi
ều hơn một khóa. Trong trường hợp
đó, mỗi khóa được gọi là một khóa dự tuyển. Thông thường ta phải chỉ định một trong 16 các khóa dự tuyển làm khóa chính của quan hệ. Khóa chính là một khóa dự tuyển mà
các giá trị của chúng được dùng để xác định các bộ trong quan hệ.
Chú ý rằng, khi một lược đồ quan hệ có nhiều khóa dự tuyển thì việc lựa chọn
khóa chính là tùy ý, tuy nhiên tốt nhất là chọn khóa chính gồm một thuộc tính hoặc có
số thuộc tính ít nhất.
1.1.2 Các phép toán đại số quan hệ
chọn có cùng thuộc tính như R.
Ví dụ: Ta xét quan hệ NHÂNVIÊN như sau
MãNV TênNV Lương
01 David 2000
02 Mary 3500
04 John 1200
05 Cathy 5600
Bảng 1-3 Quan hệ NHÂNVIÊN
Để chọn ra các bộ NHÂNVIÊN có lương lớn hơn 2000 ta viết như sau:
σ
< Lương > 2000>
( NHÂNVIÊN)
Kết quả trả về như dưới đây:
MãNV TênNV Lương
02 Mary 3500
05 Cathy 5600
Bảng 1-4 Kết quả phép chọn
Biểu thức logic chỉ ra trong <điều kiện chọn> được tạo nên từ một số hạng mục có
dạng :
<tên thuộc tính> <phép so sánh> <giá trị hằng>
hoặc <tên thuộc tính> <phép so sánh> <tên thuộc tính>
trong đó <tên thuộc tính> là tên của một thuộc tính trong R, <phép so sánh> là
một trong các phép toán so sánh {<, >, ≤, ≥, ≠, =}, <giá trị hằng> là một giá trị hằng từ
miền giá trị của thuộc tính. Các hạng mục có thể được nối với nhau bằng các phép toán
logic AND, OR, NOT để tạo ra một điều kiện chọn chung.
Phép chọn là phép toán có tính chất giao hoán, nghĩa là :
σ
< điều kiện chọn 1>
( σ
< điều kiện chọn 2>
π
<TênNV, Lương>
( NHÂNVIÊN) có kết quả như sau:
TênNV Lương
David 2000
Mary 3500
John 1200
Cathy 5600
Bảng 1-5 Kết quả phép chọn
1.1.2.3 Các phép toán lý thuyết tập hợp
Nhóm tiếp theo của các phép toán đại số quan hệ là các phép toán toán học thông 19 thường trên các tập hợp. Đó là các phép giao, hợp và trừ tập hợp. Các phép toán này là
phép toán hai ngôi, nghĩa là mỗi phép toán được áp dụng cho hai tập hợp. Khi áp dụng
phép toán này cho cơ sở dữ liệu quan hệ, hai quan hệ tham gia vào một trong phép toán
trên phải có kiểu của các bộ như nhau, hay nói cách khác, chúng phải có cùng một cấu
trúc. Điều đó có nghĩa là, hai quan hệ có cùng số các thuộc tính và mỗi cặp thuộc tính
tương ứng có cùng miền giá trị.
Các phép toán được định nghĩa nh
ư sau :
Phép hợp: Hợp của hai quan hệ R và S, kí hiệu là R ∪ S, cho kết quả là một quan
hệ chứa tất cả các bộ có trong R hoặc trong S hoặc trong cả hai. Các bộ trùng lặp bị loại
bỏ.
Phép giao: Giao của hai quan hệ R và S, kí hiệu là R ∩ S, cho kết quả là một quan
hệ chứa tất cả các bộ có trong cả hai quan hệ R và S.
Phép trừ quan hệ. Phép trừ quan hệ R và S, được kí hiệu là R – S, cho kết quả là
R-S HọTên Tuổi GiớiTính
AA 20 Nam
CC 21 Nam
Bảng 1-6 Kết quả của các phép toán tập hợp 20 Các phép toán hợp và giao có tính chất giao hoán, nghĩa là :
R ∪ S = S ∪ R và R ∩ S = S ∩ R
Các phép toán trên cũng có tính chất kết hợp, nghĩa là :
R ∪ (S ∪ T) = (R ∪ S) ∪ T và R ∩ (S ∩ T) = (R ∩ S) ∩ T
Phép trừ tập hợp không có tính chất giao hoán.
Ngoài các phép toán trên, còn một phép toán gọi là tích Đề Các. Tích Đề Các còn
gọi là tích hỗn hợp(cross product), được kí hiệu là ×. Đó cũng là phép toán hai ngôi
nhưng quan hệ mà nó áp dụng trên đó không phải là tương thích đồng nhất. Phép toán
này được sử d
ụng để nối các bộ của hai quan hệ vào một kiểu kết hợp. Kết quả của
R(A
1
, A
2
, , A
n
) × S(B
1
, B
2
dd R×S
A
1
A
2
B
1
aa bb cc
ab ac cc
aa bb dd
ab ac dd
Bảng 1-7 Tích Đề Các của hai quan hệ R và S
1.1.2.4 Phép nối
Phép nối được kí hiệu là và được dùng để kết hợp các bộ có liên hệ với
nhau từ hai quan hệ thành một bộ. Phép toán này rất quan trọng đối với cơ sở dữ liệu 21 quan hệ có nhiều bảng bởi vì nó cho phép ta xử lý các mối liên kết giữa các quan hệ.
Dạng tổng quát của phép nối trên hai quan hệ R(A
1
, A
2
hợp bộ mà điều kiện nối là đúng được chứa trong quan hệ kết quả Q như là một bộ đơn.
Một điều kiện nối tổng quát có dạng
<điều kiện> AND <điều kiện> AND … AND <điều kiệ
n>
trong đó mỗi điều kiện có dạng A
i
θ B
j
, A
i
là một thuộc tính của R, B
j
là một thuộc
tính của S, A
i
và B
j
có cùng miền và θ là một trong các dấu phép toán so sánh {<, <=, =,
>=, >, ≠}. Một phép toán nối với điều kiện tổng quát như vậy gọi là một phép nối tê-ta.
Các bộ có các thuộc tính nối là null không xuất hiện trong kết quả. Theo nghĩa đó, phép
toán không nhất thiết phải xử lý mọi thông tin trong các quan hệ tham gia. Ví dụ :
R A
1
A
2
aa bb
ab ac
ad null
22 phép nối chỉ sử dụng phép so sánh bằng được gọi là nối bằng (equi join). Ví dụ trong
bảng 1-8 là một phép nối bằng. Chú ý rằng trong kết quả của phép nối bằng chúng ta
thấy luôn luôn có một hoặc nhiều cặp thuộc tính có các giá trị như nhau trong mỗi bộ.
Việc có các cặp thuộc tính có giá trị như nhau là thừa, vì vậy người ta đề nghị một phép
nối mới gọi là nối tự nhiên, ký hiệu là *. Phép nối t
ự nhiên nhằm loại bỏ thuộc tính thứ
hai (thuộc tính thừa) trong điều kiện nối bằng. Định nghĩa chuẩn của nối tự nhiên đòi
hỏi hai thuộc tính nối (hoặc mỗi cặp thuộc tính nối) phải có tên như nhau trong cả hai
quan hệ. Nếu các thuộc tính đó không cùng tên thì trước khi nối phải áp dụng phép toán
đặt lại tên. Ví dụ, ta cần nối tự nhiên hai quan hệ R(A
1
,A
2
) và S(B
1
,B
2
) như trong ví dụ
trên. Để có thể thực hiện được phép nối tự nhiên với điều kiện so sánh bằng, ta phải đổi
tên thuộc tính B
1
thành A
2
.
Phép nối sẽ có kết quả như sau :
R*S A
1
dụng nối một bảng với chính nó. Chúng ta có thể áp dụng phép nối tự nhiên và nối bằng
để nối nhiều bảng với nhau. Nếu ta nối n bảng với nhau thì phải chỉ ra n-1 điều kiện nối.
23 1.2 PHÂN MẢNH CƠ SỞ DỮ LIỆU QUAN HỆ
1.2.1 Khái quát về cơ sở dữ liệu phân tán
Hình dưới đây thể hiện kiến trúc một cơ sở dữ liệu quan hệ. Kiến trúc này không
phải lúc nào cũng được triển khai trong mọi cơ sở dữ liệu nhưng các cấp độ của nó là
các khái niệm cơ bản để chúng ta hiểu được kiến trúc của cơ sở dữ liệu phân tán.
Hình 1-1 Kiến trúc cơ sở dữ liệu phân tán
Mức trên cùng của hình 1-1 là lược đồ toàn cục. Lược đồ toàn cục định nghĩa toàn
bộ dữ liệu có trong cơ sở dữ liệu phân tán. Vì vậy, lược đồ toàn cục định nghĩa một cách
chính xác nhất một cơ sở dữ liệu lúc chưa phân tán. Trong tài liệu này chúng ta sử dụng
mô hình quan hệ để mô tả cơ sở dữ liệu phân tán. Khi đó, lược đồ toàn cục bao gồm tập
hợp các quan h
ệ toàn cục.
Mỗi quan hệ toàn cục có thể được chia thành nhiều phần không giao nhau, người
Global schema
Fragement schema
Allocation schema
Local
mapping
schema 1
DMS of
site 1
một hoặc nhiều nơi khác nhau. Lược đồ phân bố(allocation schema) định nghĩa vị trí
lưu trữ phân mảnh. Kiểu phân bố phân mảnh quy định cơ sở dữ liệu có dư thừa hay
không bị dư thừa. Tất cả phân mảnh thuộc về cùng một một quan h
ệ toàn cục R và lưu
trữ tại vị trí j tạo thành hình ảnh vật lý của quan hệ toàn cục R tại vị trí j. Vì vậy chúng
ta có quan hệ một-một giữa hình ảnh vật lý và cặp đôi quan hệ toàn cục-vị trí, hình ảnh
vật lý được kí hiệu bằng tên quan hệ toàn cục cộng với số thứ tự của vị trí. Để phân biệt
các phân mảnh với nhau ta sử dụng số
mũ, ví dụ: R
j
là hình ảnh vật lý của quan hệ toàn
cục R tại vị trí j.
Quay trở lại kiến trúc cơ sở dữ liệu phân tán ở trên, ta thấy ba cấp độ trên cùng
mối quan hệ giữa các đối tượng không phụ thuộc vào mô hình dữ liệu của hệ quản trị cơ
sở dữ liệu. Tại mức thấp hơn, cần phải ghép giữa hình ảnh vật lý với đối tượng t
ương
ứng trong hệ quản trị cơ sở dữ liệu địa phương.
Mô hình ở trên mô tả rất cơ bản kiến trúc của một cơ sở dữ liệu phân tán. Mục
đích chính của mô hình này là: phân mảnh dữ liệu, lưu trữ, kiểm soát dư thừa dữ liệu và
độc lập với các hệ quản trị cơ sở dữ liệu địa phương.
1. Tách biệ
t khái niệm phân mảnh dữ liệu và lưu trữ dữ liệu. Sự tách biệt này giúp
chúng ta phân biệt được hai mức độ trong suốt trong phân tán dữ liệu: trong suốt
phân mảnh và trong suốt về mặt lưu trữ. Trong suốt phân mảnh là mức độ cao nhất.
Ở mức độ này người dùng hoặc các chương trình ứng dụng sử dụng cơ sở dữ liệu
phân tán như đang sử dụng cơ s
ở dữ liệu tập trung. Trong suốt về mặt lưu trữ ở mức
độ thấp hơn. Mức độ này đòi hỏi người dùng hay các chương trình ứng dụng phải
con, các tập con này có cùng tính chất. Có thể biểu diễn phân mả
ng ngang bằng phép