Các mẫu dịch vụ thông tin, Phần 3: Mẫu làm sạch dữ liệu pot - Pdf 11

Các mẫu dịch vụ thông tin, Phần 3: Mẫu làm sạch dữ liệu
Giới thiệu
Thông tin là một trong những tài sản chiến lược nhất của bất kỳ tổ chức nào. Chất
lượng dữ liệu là một điều kiện tiên quyết quan trọng về sử dụng thông tin để đạt
được những lợi thế thấy rõ trên thị trường. Dữ liệu tồi chỉ biến thông tin có giá trị
tiềm năng cao thành các luồng byte vô dụng. Ví dụ, thông tin địa chỉ không chính
xác về một "bên tham gia" (chẳng hạn như một người dùng dịch vụ, bệnh nhân
hoặc khách hàng) sẽ hạn chế tầm hiểu biết chiến lược để có thể hiểu rõ về thông
tin. Loại dữ liệu này có thể bao gồm thông tin để cho biết rằng liệu hai bên tham
gia có giống nhau hay không, con số tổng của những người dùng dịch vụ và có cái
nhìn đầy đủ về khách hàng. Dữ liệu tùy tiện có thể làm giảm sự hài lòng của khách
hàng, làm cho việc trao đổi thông tin khó khăn và làm tăng các chi phí khi cố tìm
cách né tránh vấn đề, cũng như tạo ra những thách thức khác.
Các tầng trong một kiến trúc phần mềm
Một kiến trúc phần mềm có bốn tầng:
Tầng Cơ sở dữ liệu Nằm ở "dưới cùng", nó chịu trách nhiệm duy trì dữ liệu và
cung cấp các hoạt động tạo, đọc, cập nhật và xóa dữ liệu.
Tầng Ứng dụng Nằm trên tầng cơ sở dữ liệu, nó cung cấp logic nghiệp vụ.
Tầng Tiến trình Nó sắp xếp thứ tự logic nghiệp vụ thông qua việc quản lý luồng
công việc.
Tầng Trình bày Nằm trên cùng, nó đưa ra hiển thị trực quan của tất cả các tầng
bên dưới cho người dùng cuối.
Các vấn đề về chất lượng dữ liệu là nghiêm trọng nhất khi thông tin nằm rải rác
trên các kho lưu trữ dữ liệu bị cô lập và không đồng nhất. Bản chất không đồng
nhất và cô lập của môi trường như vậy thường đi cùng với một kiến trúc có các
định dạng khác nhau và các giá trị không nhất quán. Ngay cả trong một cơ sở dữ
liệu đơn lẻ, chất lượng dữ liệu đã lưu giữ lâu dài không nhất thiết là tốt hơn nếu
không thực thi các quy tắc thích hợp. Cho dù thông tin vẫn còn trong một kho lưu
trữ dữ liệu hoặc được một ứng dụng đang hoạt động xử lý, chất lượng dữ liệu
thường hoặc không được thực thi chút nào hoặc bị kiểm soát bởi các thành phần
khác nhau, sử dụng những quy tắc không nhất quán, nhúng trong một mã ứng dụng

Mẫu này cung cấp các hướng dẫn thực hành được gợi ý về cách định rõ các quy tắc
làm sạch và cách áp dụng có hiệu quả nhất các hướng dẫn đó cho dữ liệu lưu giữ
lâu dài và dữ liệu tạm thời. Nhiều bản thực hiện mẫu làm sạch dữ liệu cung cấp các
công cụ tinh vi để phát triển, thử nghiệm và triển khai các quy tắc làm sạch. Các
công cụ này có thể giúp làm giảm chi phí hoạt động trong nhiều dự án trong đó các
quy tắc làm sạch được xác định bằng thủ công và phải duy trì một cách rất vất vả.
Ưu điểm về khả năng tái sử dụng
Một khía cạnh quan trọng của mẫu làm sạch dữ liệu là nó tập trung vào khả năng
tái sử dụng ở mức doanh nghiệp. Nếu mỗi cơ sở dữ liệu và ứng dụng thực hiện quy
trình làm sạch riêng của mình, thì điều này có thể dẫn đến các quy tắc làm sạch
không nhất quán, trong đó mức chất lượng dữ liệu tăng thêm, nhưng không theo
một cách nhất quán và có hiệu quả và chưa đạt đến mức cần thiết. Mẫu này mô tả
làm thế nào có thể áp dụng một cách nhất quán các quy tắc làm sạch như nhau cho
rất nhiều người tiêu dùng.
Về đầu trang
Bối cảnh
Bối cảnh truyền thống của mẫu làm sạch dữ liệu là tầng cơ sở dữ liệu, đó là nơi áp
dụng mẫu này thường xuyên nhất. Dựa trên sự quan tâm ngày càng tăng về SOA,
chúng ta thấy có nhiều cơ hội mới để áp dụng mẫu này trong một bối cảnh SOA.
Bối cảnh truyền thống, không-SOA
Mẫu làm sạch dữ liệu vẫn thường được áp dụng trong việc làm sạch thông tin tên
và địa chỉ, nhưng cũng có thể áp dụng nó cho bất kỳ văn bản dạng tự do nào, chẳng
hạn như các mô tả về sản phẩm trong các hệ thống hàng tồn kho. Văn bản dạng tự
do thường hay nói đến nhất là văn bản nhập dữ liệu thủ công, không chọn dữ liệu
từ một danh sách lựa chọn tiêu chuẩn hoặc nhập dữ liệu không theo bất kỳ định
dạng nào, chẳng hạn như một địa chỉ đầy đủ trong một trường đơn lẻ. Mẫu làm
sạch dữ liệu được định nghĩa như là sự tiêu chuẩn hóa, làm sạch sẽ và cuối cùng,
so khớp (hoặc loại bỏ sự trùng lặp và dư thừa) các bản ghi dựa trên nội dung của
các trường văn bản dạng tự do.
Định nghĩa về Quản lý dữ liệu chủ

những thông tin như vậy là một ví dụ về việc áp dụng mẫu làm sạch dữ liệu. Ban
đầu được xem là một cách để tiết kiệm những thứ đơn giản như phí bưu chính, bây
giờ các công ty biết lo xa đã tin dùng mẫu làm sạch dữ liệu để đạt sự hiểu biết tốt
hơn về các mẫu chi tiêu của người tiêu dùng, để xác định tốt hơn những người mua
khối lượng lớn và để hợp nhất các yêu cầu bán hàng, hỗ trợ khách hàng và thanh
toán vào một chỗ để cải thiện trải nghiệm của khách hàng.
Hình 1 minh họa kiến trúc mức cao về áp dụng mẫu làm sạch dữ liệu trong bối
cảnh truyền thống.

Hình 1. Bối cảnh truyền thống của mẫu làm sạch dữ liệu

Bối cảnh SOA
Bối cảnh SOA với mẫu làm sạch dữ liệu tận dụng lợi thế của các kỹ thuật tiêu
chuẩn hóa và so khớp tinh vi và mở rộng chúng tới vị trí quan trọng nhất của các
ứng dụng gần thời gian thực. Được xem xét trong bối cảnh này, mẫu làm sạch dữ
liệu cho phép một doanh nghiệp mở rộng các khả năng của mình để xác nhận hợp
lệ và so khớp với điểm tạo. Hơn nữa, có thể tích hợp logic loại bỏ trùng lặp và
logic so khớp giống nhau thường dùng trong các hoạt động xử lý theo gói với các
phương pháp luận tìm kiếm tinh vi hoặc để tăng cường khả năng định vị thông tin
khách hàng khi thông tin hay các mã định danh khách hàng hoặc chưa biết hoặc
chưa đầy đủ.
Bối cảnh SOA để làm sạch dữ liệu cho phép tiêu chuẩn hóa và so khớp các chuỗi
yêu cầu riêng lẻ. Một tên hoặc địa chỉ đơn lẻ tự động được làm sạch, được trả về
theo một định dạng tiêu chuẩn hoặc trong trường hợp phát hiện, được trả về cùng
với một tập hợp các ứng viên tiềm năng được xác định trong quá trình so khớp.
Trong các giải pháp nhập dữ liệu, việc này cải thiện sự biểu diễn dữ liệu (các chữ
viết tắt thống nhất cho các kiểu đường phố và các bang, chẳng hạn) và tăng thêm
lợi thế để tìm kiếm một dữ liệu trùng lặp hay dư thừa trước khi lưu giữ lâu dài nó.
Việc tránh trước các vấn đề do dữ liệu trùng lặp hay dư thừa gây ra sẽ ít tốn kém
hơn nhiều so với việc cố gắng sửa chữa chúng về sau hoặc phải chịu những hậu

Các lỗi nhập dữ liệu (lỗi gõ phím).
Các định nghĩa siêu dữ liệu (các mô hình dữ liệu) quá lỏng lẻo và không được xác
định nhất quán.
Các ràng buộc về tính toàn vẹn được không được xác định hoặc thực thi (thích
hợp).
Ví dụ, định nghĩa hoặc ràng buộc rằng một mã bưu điện phải là một số hợp lệ
chẳng hạn, có thể bị bỏ sót hoặc không được thực thi nhất quán. Nhiều bản thực
hiện có thể không kiểm tra xem số mã đó có hợp lệ không hoặc thậm chí số mã đó
có là một số hay không. Các định dạng để biểu diễn cùng một thực thể thế giới
thực có thể mâu thuẫn nhau (ví dụ: kiểu số so với kiểu chuỗi ký tự để biểu diễn một
mã bưu điện). Đúng như vừa mô tả, sự không nhất quán có thể thể hiện ở mức siêu
dữ liệu, cũng như ở chính mức dữ liệu. Thậm chí nếu các mô hình dữ liệu đã được
định nghĩa một cách thích hợp và nhất quán, việc thiếu các ràng buộc thích hợp về
tính toàn vẹn đối với các giá trị dữ liệu có thể dẫn đến các vấn đề về chất lượng và
tính nhất quán. Cùng một thực thể thế giới thực có thể được biểu diễn bằng các giá
trị dữ liệu khác nhau, chẳng hạn như các số mã bộ phận khác nhau của một sản
phẩm hoặc các số đo trọng lượng khác nhau. Một số vấn đề phổ biến nhất bao
gồm:
Thiếu sự phân tách các giá trị (ví dụ, địa chỉ đầy đủ dưới dạng trường văn bản tự
do mà không có bất kỳ dấu hiệu nào cho thấy nơi tên đường phố kết thúc và bắt
đầu tên thành phố)
Thiếu các tiêu chuẩn cho các định dạng và giá trị dữ liệu như:
Các kiểu dữ liệu (ví dụ, số nguyên hoặc varchar).
Định dạng văn bản ("123-45-6789" hoặc "123.456.780" hoặc "123 45 6789").
Các từ viết tắt ("IBM" hoặc "I.B.M" hoặc "Int. Bus. Machines" hoặc "International
Business Machines").
Mức độ trừu tượng hóa và độ chi tiết ("Massachusetts" hay là "Suffolk County").
Các thuộc tính bắt buộc (danh hiệu cho một người) hoặc các phần của các thuộc
tính (kiểu của một tổ chức bên trong tên của nó (ví dụ như "IBM" hoặc "IBM
Corporation").

hướng ở Mỹ, chẳng hạn như "1007 North Main Street", nhưng không phổ biến ở
Đức).
Sau khi gán chính xác các giá trị dữ liệu cho các thuộc tính, nhà thiết kế cần quy
định cách chuẩn hóa các giá trị này. Điều này có nghĩa là nhà thiết kế cần tìm câu
trả lời cho các câu hỏi như sau:
Văn bản sẽ có dạng chữ hoa hoặc dạng hỗn hợp chữ hoa, chữ thường?
Các con số sẽ được chuyển đổi sang kiểu dữ liệu thích hợp (chẳng hạn như "mười
chín" thành "19") hay không?
Các con số trong trường mã bưu điện có biểu diễn một mã bưu điện đúng không?
Mã bưu điện có khớp với bang (và thành phố) không)?
Địa chỉ đầy đủ này (số phố, phố, thành phố, bang, mã bưu điện) có tồn tại không?
Biểu diễn chuẩn cho một tên (ví dụ như "Bob") sẽ là gì? (Bước này là để nhận biết
các sự trùng lặp, không phải đề xuất một tên chính xác, rất có thể là "Bob" mà
không phải là "Robert").
Một số quy tắc tiêu chuẩn hóa rất đơn giản và không đòi hỏi nỗ lực đáng kể nào,
chẳng hạn như chuyển đổi dữ liệu ký tự hỗn hợp thành dữ liệu chữ hoa. Một số quy
tắc là tương đối nâng cao và yêu cầu truy cập vào một cơ sở dữ liệu lưu trữ các giá
trị chính xác, chẳng hạn như sự kết hợp chính xác giữa mã bưu điện, thành phố và
bang ở Mỹ. Các quy tắc chuẩn hóa cũng có thể phải theo ngữ cảnh: một chuỗi như
"St. Virginia St." được xác định có một tên phố là "St. Virginia" và một kiểu “phố”
viết là "street" (giả sử đây là một địa chỉ của Hoa Kỳ). " St." và " St.", về mặt kỹ
thuật đều giống nhau, nhưng chúng có một ý nghĩa khác khi được diễn giải qua con
mắt của một bộ quy tắc thông minh.
Trong nhiều trường hợp, nhà thiết kế phải nhận biết được các bản ghi trùng lặp
tiềm năng. Thật không may, ngay cả sau khi chuẩn hóa, các giá trị dữ liệu của các
bản ghi thường không giống hệt nhau. Trong một bản ghi, tên của một người có thể
là "J. Smith" và trong bản ghi khác, tên đó có thể là "John Smith". Một trong
những thách thức khi nhận biết một sự trùng khớp là xác định liệu có khả năng tên
"J. Smith" là "John Smith" không. Rõ ràng, điều này tùy thuộc vào những thông tin
khác chứa trong hồ sơ. Nếu địa chỉ hoàn toàn giống nhau, rất có thể có khả năng

Hình 3. Các khía cạnh thời gian thiết kế của Mẫu làm sạch dữ liệu

Định nghĩa về lược tả dữ liệu
Lược tả dữ liệu là phân tích cơ sở dữ liệu để hiểu rõ hơn về siêu dữ liệu của chúng.
Các mục tiêu gồm có:
Phát hiện ra siêu dữ liệu chưa được quy định bao gồm bất kỳ các mối quan hệ bên
trong và giữa các cơ sở dữ liệu.
Kiểm tra độ chính xác của các quy tắc toàn vẹn đã quy định.
Gợi ý về một mô hình dữ liệu thích hợp hơn.
Mục tiêu cuối cùng đặc biệt quan trọng để định nghĩa một mô hình dữ liệu tích hợp
trên các nguồn không đồng nhất.
Điều quan trọng cần lưu ý là mẫu làm sạch dữ liệu thường được áp dụng cùng với
các mẫu khác, các hộp màu xanh lá cây trong Hình 3 là một ví dụ như vậy. Đối với
các nhà phát triển hoặc nhà thiết kế, để quy định các quy tắc làm sạch, cần thiết
phải có một sự hiểu biết đầy đủ về các nguồn dữ liệu nên áp dụng mẫu làm sạch dữ
liệu cho chúng. Điều này bao gồm việc nhận biết và hiểu ngữ nghĩa của thông tin,
chẳng hạn như ý nghĩa của các phần tử mô hình dữ liệu cũng như thông tin cấu
trúc. Lược tả dữ liệu sẽ giúp lấy được kiến thức này từ các nguồn dữ liệu bên dưới.
Trong nhiều trường hợp, mẫu làm sạch dữ liệu được áp dụng cùng với mẫu hợp
nhất dữ liệu. Trong một kịch bản như vậy, cần quy định các ánh xạ các phần tử dữ
liệu từ các nguồn tới đích (được gọi là mô hình hóa tích hợp - integration modeling
trong Hình 3).
Thời gian chạy
Dịch vụ làm sạch dữ liệu nhận dữ liệu có mức chất lượng dữ liệu không xác định
làm đầu vào. Thông thường, hoặc dịch vụ được gọi ra với đầu vào này làm một
tham số của yêu cầu dịch vụ (theo giá trị) hoặc dịch vụ này thu gom dữ liệu từ một
hoặc nhiều nguồn đã định (theo tham chiếu). Sau đó dịch vụ này áp dụng các quy
tắc làm sạch đối với dữ liệu nguồn. Tùy thuộc vào sự phức tạp của các quy tắc làm
sạch dữ liệu, quá trình này có thể yêu cầu tra tìm trong một cơ sở dữ liệu hoặc một
từ điển để xác nhận tính chính xác của thông tin (chẳng hạn như một tổ hợp đúng

Hiệu năng /thời gian đáp ứng giao dịch
Sự phức tạp của các quy tắc làm sạch và khả năng của máy chủ làm sạch để xử lý
dữ liệu có hiệu quả sẽ xác định thời gian đáp ứng giao dịch (áp dụng các quy tắc
làm sạch đối với dữ liệu đầu vào và trả về kết quả). Nhiều bản thực hiện máy chủ
làm sạch có thể phối hợp các quy tắc và khai thác các khả năng xử lý song song sẽ
thực hiện tốt hơn so với những bản khác.
Khối lượng dữ liệu cho mỗi giao dịch
Việc áp dụng mẫu làm sạch dữ liệu đối với các tập hợp dữ liệu lớn cũng như các
bản ghi riêng lẻ là khá phổ biến. Vì vậy, máy chủ làm sạch dữ liệu cần có khả năng
điều chỉnh quy mô để xử lý nhiều khối lượng dữ liệu lớn.
Các khả năng chuyển đổi
Các hoạt động làm sạch dữ liệu (phân tích cú pháp hay phân tách các giá trị, chuẩn
hóa và so khớp và tiếp tục tồn tại) được quy định dưới dạng các quy tắc làm sạch.
Cuối cùng có thể áp dụng các hoạt động đó cho việc chuyển đổi dữ liệu đầu vào,
có thể có chất lượng thấp, thành một kết quả đầu ra có một mức chất lượng và tính
nhất quán cao hơn. Do các quy tắc chuyển đổi có thể có nhiều và phức tạp, nên
nhiều bản thực hiện mẫu làm sạch dữ liệu triển khai các quy tắc làm sạch dưới
dạng các hoạt động chuyển đổi bằng cách sử dụng một máy chủ làm sạch dữ liệu.
Các khả năng chuyển đổi của mẫu làm sạch dữ liệu được chuyên môn hóa và tập
trung vào việc cải thiện chất lượng và tính toàn vẹn dữ liệu bằng cách tiêu chuẩn
hóa và so khớp dữ liệu. Các cách tiếp cận chuyển đổi dữ liệu tổng quát hơn –
chẳng hạn như được mô tả trong Phần 2: Mẫu hợp nhất dữ liệu tập trung vào
việc trao đổi và định dạng lại, chia tách và sáp nhập dữ liệu và không có hỗ trợ tinh
vi hơn về chất lượng dữ liệu.
Các yêu cầu chuyển đổi thường hay bị ảnh hưởng nhất bởi sự đa dạng của nguồn
dữ liệu và như vậy, khả năng để định nghĩa các đặc điểm của các chuyển đổi phức
tạp là rất quan trọng. Các yêu cầu chuyển đổi càng phức tạp và khác nhau, việc
chuyển đổi thời gian chạy hoặc máy chủ làm sạch dữ liệu phải càng tinh vi hơn.
Kiểu mô hình nguồn, các giao diện, các giao thức
Các bản triển khai sản phẩm của mẫu làm sạch dữ liệu thay đổi tùy theo phạm vi

Các quy tắc làm sạch càng trở nên phức tạp, thì các chi phí phát triển thực hiện sẽ
càng cao. Chi phí gắn liền với phân tích dữ liệu, đi kèm với các chu kỳ phát triển
và thử nghiệm nhiều lần cần thiết để giải quyết tính phức tạp cũng cao hơn.
Khả năng tái sử dụng
Khả năng tái sử dụng trong các mẫu làm sạch dữ liệu được thực hiện thông qua
việc định nghĩa các quy tắc làm sạch để có thể áp dụng các quy tắc làm sạch đó ở
mức bản ghi thông qua một dịch vụ hoặc thông qua một quá trình xử lý theo gói
cho dữ liệu lớn. Cơ hội tái sử dụng thứ hai là thông qua việc sử dụng một quy trình
máy chủ chung để thực hiện các quy tắc làm sạch.
Về đầu trang
Kết luận
Mẫu làm sạch dữ liệu chỉ rõ một cách thực hành gợi ý để cải thiện chất lượng dữ
liệu của dữ liệu lưu giữ lâu dài hoặc vào lúc nhập dữ liệu hoặc sau khi nhập dữ
liệu.
Các vùng trọng tâm để áp dụng mẫu làm sạch dữ liệu
Cải thiện chất lượng và tính nhất quán của dữ liệu cho các nhu cầu thông tin quan
trọng, chẳng hạn như tên và địa chỉ của khách hàng. Như đã mô tả ở trên, mẫu làm
sạch dữ liệu có thể biến dữ liệu chưa nhất quán (và do đó, không dùng được) thành
một tài sản chiến lược có giá trị.
Các vùng nhiều rủi ro nếu áp dụng mẫu hợp nhất dữ liệu
Thiếu hiểu biết và định nghĩa chung về dữ liệu nghiệp vụ cốt lõi.
Thiếu các hướng dẫn nghiệp vụ và quản trị ổn định về chất lượng dữ liệu. Đặc tả
của các quy tắc làm sạch dữ liệu cần dựa trên các hướng dẫn được các chuyên gia
nghiệp vụ phê duyệt và phần lớn đã ổn định. Nếu các hướng dẫn về chất lượng
thay đổi quá thường xuyên hoặc chưa được phê duyệt, việc duy trì các quy tắc làm
sạch và triển khai liên tục các quy định mới có thể dẫn đến việc gia tăng đáng kể
tải công việc.
Thiếu sự hỗ trợ giữa các phòng ban, đặc biệt khi các ứng dụng truy cập và sửa đổi
thông tin vượt qua ranh giới các phòng ban. Mặc dù một tổ chức duy nhất có thể
cải thiện chất lượng dữ liệu của họ, các ứng dụng có thể thay đổi dữ liệu bên ngoài


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status