ghiên cứu các phương pháp trích chọn các thuộc tính đặc trưng để phát triển thuật toán hiệu quả nhằm phân lớp số liệu lớn đặc biệt trong tin sinh học - pdf 27

Link tải miễn phí Luận văn:ghiên cứu các phương pháp trích chọn các thuộc tính đặc trưng để phát triển thuật toán hiệu quả nhằm phân lớp số liệu lớn đặc biệt trong tin sinh học : Đề tài NCKH. QG.08.01
Nhà xuất bản:ĐHCN
Đại học Quốc gia Hà Nội
Ngày:2010
Miêu tả:89 tr.
Nghiên cứu về khai phá dữ liệu nói chung cũng như trong nghiên cứu về các thuật toán phân lớp nói riêng, vấn đề xử lý dữ liệu lớn càng trở thành vấn đề cấp thiết và đóng vai trò chủ đạo trong việc giải quyết các bài toán thực tế. Phần lớn các thuật toán phân lớp đã phát triển chỉ có thể giải quyết được với một lượng số liệu giới hạn cũng như với một độ phức tạp dữ liệu biết trước. Trong khi đó lượng dữ liệu thu thập được ngày càng trở nên phong phú và đa dạng nhờ các sự phát triển mạnh mẽ của khoa học kỹ thuật. Mặc dù rất nhiều thuật toán phân lớp dựa trên nhiều nền tảng lý thuyết khác nhau đã được phát triển và ứng dụng từ rất lâu, nhưng thực tế cho thấy kết quả phụ thuộc rất nhiều vào đặc tính dữ liệu cũng như khả năng xử lý dữ liệu thô của từng nhóm nghiên cứu. Một điều hiển nhiên là với mỗi phương pháp chỉ có thể đáp ứng và xử lý tốt trên một vài dữ liệu và ứng công cụ thể nào đó. Với những lĩnh vực nghiên cứu mới đòi hỏi xử lý một lượng dữ liệu lớn, chưa rõ đặc trưng hay rất khó phát hiện ra đặc trưng đòi hỏi các nhà nghiên cứu phải tìm tòi phát triển hay áp dụng các thuật toán thích hợp. Hiện nay có rất nhiều hướng cải tiến các thuật toán phân lớp như áp dụng các thuật toán lai ghép (ensemble method), các thuật toán dựa vào phương pháp nhân (Kernel-based method), hay áp dụng các phương pháp trích chọn đặc trưng (feature extraction / seclection method). Trong các phương pháp kể trên phương pháp trích chọn đặc trưng trở nên nổi trội và có một số ưu điểm phù hợp trong việc xử lý dữ liệu có số lượng thuộc tính lớn (vài nghìn đến vài trăm nghìn thuộc tính) nhưng đồng thời chỉ có số lượng khá nhỏ các mẫu phân tích (vài chục hay vài trăm). Phương pháp trích chọn nội dung có một số ưu điểm. Thứ nhất phương pháp này giúp giảm số lượng các thuộc tính của dữ liệu, điều này giúp giảm thời gian tính toán của thuật toán phân lớp. Thứ hai, phương pháp trích chọn đặc trưng cũng giúp tìm ra các thuộc tính đặc trưng giúp cho việc nhận dạng đối tượng hiệu quả hơn. Thứ ba, nó giúp loại bỏ các thuộc tính thừa và những thuộc tính gây nhiễu có ảnh hưởng đến kết quả đoán nhận. Kết quả: Đã hoàn thành chương trình mô phỏng thuật toán phân lớp dựa trên tìm đặc trưng tối ưu dữ liệu đầu vào thông qua tối ưu hàm nhân. Nghiên cứu cho thấy phương pháp do đề nghị và cài đặt có khả năng phân lớp tốt hơn so với thuật toán ban đầu. Phương pháp này có khả năng mở rộng khả năng học bằng cách thêm các tham số hay ứng dụng cho việc phân lớp các bộ dữ liệu khác một cách dễ dàng.

Ngôn ngữ:vie
Kiểu:Text
Định dạng:Text/pdf
Bảo hiểm:Thư viện nhà C1T - 144 Xuân Thủy – Cầu Giấy – Hà Nội
Quyền:Access limited to members
Link tải Free download cho anh em kết nối:
Tài liệu đang trong kho của Ket-noi, ai cần thì trả lời để mods up lên cho

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status