Nghiên cứu và phát triển thuật toán tìm luật kết hợp tối ưu trên thuật toán số - pdf 27

Link tải luận văn miễn phí cho ae Kết nối

6
MỞ ĐẦU

Sự tiến bộ vượt bậc của công nghệ máy tính, Internet đã cung cấp nhiều phương pháp thu thập, lưu trữ một sô" lượng lớn dữ liệu một cách hiệu quả và ít tốn kém. Rất nhiều thông tin chiến lược quan trọng đang nằm trong các cơ sở dữ liệu to lớn này. Tuy nhiên, các phương pháp xử lý, tìm kiếm, phân tích và rút trích thông tin truyền thống không còn thích hợp nữa. Để tìm kiếm các thông tin quí báu, tiềm ẩn trong cơ sở dữ liệu đòi hỏi những công cụ mới ngoài công cụ cổ điển. Chính vì vậy trong những năm gần đây, lĩnh vực Tim kiếm tri thức trong cơ sở dữ liệu ( Knovvledge Discovery in Database - KDD) hay còn được gọi là Khai mỏ dữ liệu ( Data mining) đã ra đời và phát triển nhanh chóng.

Khai mỏ dữ liệu [6] là một quá trình khảo sát, phân tích bằng các phương pháp tự động, bán tự động để tìm kiếm các mẫu và các luật có ý nghĩa trong một khôi lượns dữ liệu khổng lồ. Các chức năng chính của khai mỏ dữ liệu :

• Phân lớp ( classification) : xác định các đặc tính của đôi tượng mới và xếp nó vào các lớp đã có sẩn.

• đoán (Prediction): ước lượng hay dự báo các giá trị của dữ liệu bị thiếu hay sự phân bô" dữ liệu của thuộc tính trong tập các đối tượng.

• Luật kết hợp (Association rules) : tìm kiếm các mốì kết hợp hay mối liên kết giữa các đố"i tượng. Luật kết hợp có dạng Ain .... n Ai -> BịO .... n Bj. Nó nói rằng các đối tượng Bt, Bj có xu hướng

7
xuất hiện cùng một lúc với các đối tượng Aị, ề.., A; trong cơ sở dữ liệu .

• Phân cụm (clustering) : xác định các lớp ( các cụm) cho một tập các đối tượng chưa được phân lớp dựa trên những thuộc tính của chúng. Phân cụm khác phân lớp ở chỗ phân cụm không dựa trên các lớp đã có sẩn.

• Phát hiện sự sai lệch : xác định những thay đổi rõ rệt nhất của các đối tượng mẫu so với các giá trị trước đó hay các giá trị mong đợi.

Trong các chức năng trên thì bài toán tìm luật kết hợp là bài toán được quan tâm nghiên cứu nhiều nhất, nhất là bài toán tìm luật kết hợp trên các thuộc tính dạng Nhị phân.

Trong thực tế, phần lớn các cơ sở dữ liệu ( nếu không nói là tất cả) không chỉ có mỗi loại thuộc tính dạng Nhị phân mà còn chứa nhiều dữ liệu số” ( ví dụ tuổi, thu nhập, điểm trung bình,...) và thuộc tính phi sô" (loại xe, học vị,...). Thuộc tính kiểu Nhị phân là một trường hợp đặc biệt của thuộc tính phi sô”. Bài toán tìm luật kết hợp trên các thuộc tính sô" và phi sô" là một bài toán tương đối khó và chưa được giải quyết thỏa đáng .

Mốì quan tâm chính của luận văn này là khai thác luật kết hợp trên thuộc tính số và ứng dụns vào Cơ sở dữ liệu (CSDL) điểm của sinh viên.


https://1drv.ms/u/s!AgJa1CtKrfM4hXT5EZaL9AXji82Q
Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status