Ứng dụng phương pháp luận sáng tạo khoa học trong tin học – Rút trích và phân tích dữ liệu - Pdf 12

Đại Học Quốc Gia Thành Phố Hồ Chí Minh
Trường Đại Học Công Nghệ Thông Tin

Báo Cáo Đề Tài
Nội Dung : Ứng dụng phương pháp
luận sáng tạo khoa học trong tin học –
Rút trích và phân tích dữ liệu
Môn: Phương pháp luận sáng tạo khoa học
Giáo viên hướng dẫn : GS.TSKH Hoàng Văn Kiếm
Sinh viên thực hiện: Nguyễn Hoàng Hiếu
MSSV: 07520118
Lớp: KHMT02
Ứng dụng phương pháp luận sáng tạo khoa học trong tin học

LỜI CẢM ƠN
Em xin chân thành cám ơn tất cả các thầy, cô giáo đã giảng dạy em trong
suốt thời gian qua. Em xin cảm ơn GS-TSKH Hoàng Văn Kiếm truyền đạt cho
em những kiến thức quý báu về Phương pháp luận sáng tạo khoa học giúp em
hoàn thành tốt đề tài này.
Bài làm của em có thể còn nhiều thiếu sót do kiến thức có hạn và thời gian
không cho phép. Em rất mong nhận được sự đóng góp quí báu của các thầy cô.
Thành phố Hồ Chí Minh, ngày 5 tháng 1 năm 2011
Sinh viên
Nguyễn Hoàng Hiếu
2 | P a g e
Ứng dụng phương pháp luận sáng tạo khoa học trong tin học
MỤC LỤC
MỤC LỤC 3
1. Vấn đề khoa học 5
2. Phương pháp giải quyết vấn đề khoa học về phát minh, sáng chế 5
TÀI LIỆU THAM KHẢO 32

II. Những nội dung chính trong Phương Pháp Luận Sáng Tạo Và
Đổi Mới
1. Vấn đề khoa học
Vấn đề khoa học là câu hỏi đặt ra khi người nghiên cứu đứng trước
mâu thuẫn giữa tính hạn chế của tri thức khoa học hiện có với yêu cầu
phát triển tri thức đó ở trình độ cao hơn.
2. Phương pháp giải quyết vấn đề khoa học về phát minh, sáng chế
Có 40 thủ thuật (nguyên tắc) sáng tạo cơ bản:
1) Nguyên tắc phân nhỏ
2) Nguyên tắc “tách khỏi”
3) Nguyên tắc phẩm chất cục bộ
4) Nguyên tắc phản đối xứng
5) Nguyên tắc kết hợp
6) Nguyên tắc vạn năng
5 | P a g e
Ứng dụng phương pháp luận sáng tạo khoa học trong tin học
7) Nguyên tắc “chứa trong”
8) Nguyên tắc phản trọng lượng
9) Nguyên tắc gây ứng suất sơ bộ
10) Nguyên tắc thực hiện sơ bộ
11) Nguyên tắc dự phòng
12) Nguyên tắc đẳng thế
13) Nguyên tắc đảo ngược
14) Nguyên tắc cầu (tròn) hoá
15) Nguyên tắc linh động
16) Nguyên tắc giải “thiếu” hoặc “thừa”
17) Nguyên tắc chuyển sang chiều khác
18) Nguyên tắc sử dụng các dao động cơ học
19) Nguyên tắc tác động theo chu kỳ
20) Nguyên tắc liên tục tác động có ích

nhiên các hệ thống tìm kiếm hiện nay hầu như chỉ dừng lại với những kết quả trả
về là các đường link liên quan đến từ khóa cần tìm, đôi khi còn có các thông tin
không liên quan đến nội dung cần tìm, người sử dụng phải mất thêm một khoảng
thời gian nữa chỉ để coi các thông tin liên quan đến sản phẩm cần tìm của mình
từ các đường link tìm kiếm được ở trên.
Vấn đề được đặt ra là ta phải xây dựng hệ thống như thế nào để giải
quyết vấn đề trên? Để giải quyết vấn đề này, ta cần xây dựng hệ thống rút trích
sao cho đáp ứng đầy đủ thông tin mà người dùng mong muốn- cụ thể ở đây là
hệ thống có thể tìm được những thông tin phản hồi (feedback) của các sản
phẩm và phân loại những feedback đó.
2. Hướng tiếp cận:
Có 2 cách tiếp cận để tìm kiếm các feedback trên hệ thống tìm kiếm.
- Tìm kiếm feedback dựa trên những trang website chỉ định trước.
- Tìm kiếm feedback dựa vào máy học.
8 | P a g e
Ứng dụng phương pháp luận sáng tạo khoa học trong tin học
Tuy nhiên cả hai phương pháp này đều có những nhược điểm riêng và tốc
độ xử lý cũng cần phải được quan tâm.
3. Cơ sở lý thuyết:
a. Phương pháp so sánh mẫu (template):
Hầu hết các trang web hiện nay đều là những trang web được thiết kế trên
các template có sẵn, đặc điểm của những trang cùng template là có cấu trúc
tương tự nhau, do đó việc tiến hành rút trích dữ liệu từ những trang web trên
chỉ cần so khớp với một template từ đó xác định khung trình bày chung và đi
đến rút trích ra nội dung nằm trong phần được xác định chứa nội dung chính
trên trang mẫu.
Để xác định được khung trình bày chung giữa một template và trang web
cần rút trích thông thường người ta hay phân tích cấu trúc 2 trang web thành
dạng cây đa phần đựa vào mã html.
Hình 2.1: ví dụ về một cây đa phân

c. RSS:
RSS là một định dạng tập tin thuộc họ XML(eXtensible Markup Language)
dùng trong việc chia sẻ tin tức Web được dùng bởi nhiều website tin tức và
blog. Chữ viết tắt (theo tiếng Anh) dùng để chỉ các chuẩn sau:
• Rich Site Summary (RSS 0.91)
• RDF Site Summary (RSS 0.9 and 1.0)
• Really Simple Syndication (RSS 2.0.0)
Định dạng RSS cung cấp nội dung web và tóm lược nội dụng web cùng
với các liên kết đến phiên bản đầy đủ của nội dung tin đó, và các siêu-dữ-liệu
(meta-data) khác. Thông tin này được cung cấp dưới dạng một tập tin XML
12 | P a g e
RSS Icon
Ứng dụng phương pháp luận sáng tạo khoa học trong tin học
được gọi là một RSS feed, webfeed, RSS stream, hay RSS channel.

Hình 2.3 : ví dụ về cấu trúc rss
Cùng với việc hỗ trợ cung cấp chia sẻ thông tin, RSS cho phép những độc
giả thường xuyên của một website có thể theo dõi các cập nhật của site đó.
Vào giữa năm 2000, việc sử dụng RSS trở nên phổ biến.Nhờ vào RSS các
nhà cung cấp tin tức cho phép các website khác tổng hợp các bản tin, tiêu đề
dưới nhiều hình thức thỏa hiệp khác nhau. RSS ngày nay được dùng cho
13 | P a g e
Ứng dụng phương pháp luận sáng tạo khoa học trong tin học
nhiều mục dích bao gồm tiếp thị , báo cáo lỗi hay các hoạt động cập nhật, xuất
bản định kỳ…
Hình 2.4: Giao diện một website sử dụng rss
Cấu trúc của RSS thực chất là XML document vì vậy việc rút trích dữ liệu
từ các website có RSS sẽ đơn giản hơn rất nhiều so với trang web sử dụng
html thông thường, bởi vì xml là một cấu trúc chặt chẽ về mặt ngữ pháp.
d. Search Engine:

Ví dụ minh họa:
Đối tượng Thuộc tính 1(X) Thuộc tính 2 (Y)
A 1 1
B 2 1
C 4 3
D 5 4
Yêu cầu gom nhóm các đối tượng với k=2.Mỗi đối tượng có 2 thuộc tính
(X,Y)
Khởi tạo:
Giả sử ta chọn A , B là các trọng tâm ban đầu , khi đó c
1
=(1,1); c
2
=(2,1)
Bước 2 : tính khoảng cách giữa các trọng tâm đến các đối tượng khác.

16 | P a g e
=> C thuộc nhóm 2
Ứng dụng phương pháp luận sáng tạo khoa học trong tin học

Bước 3 : cập nhật lại trọng tâm
Trọng tâm nhóm 1 c
1
=(1,1)
Trọng tâm nhóm 2 c
2
(x,y)= ( )=(13/3,10/3)
Bước 4 :
• lặp lại bước 2 : tính khoảng cách
S(A,c

)=18.5=> A thuộc nhóm 1
S(B,c
1
)=0.25 < S(B,c
2
)=12.5=>B thuộc nhóm 1
S(C,c
1
)=10.25 > S(C,c
2
)=0.5=> C thuộc nhóm 2
S(D,c
1
)=21.25 > S(D,c
2
)=0.5=>D thuộc nhóm 2
• lặp lại bước 3: cập nhật trọng tâm
17 | P a g e
=> D thuộc nhóm 2
Ứng dụng phương pháp luận sáng tạo khoa học trong tin học
c
1
=(3/2,1) và c
2
=(9/2,7/2)
 thuật toán kết thúc.
4. Áp dụng nguyên tắc sáng tạo:
- Nguyên tắc sử dụng trung gian: sử dụng các cơ sở dữ liệu trung gian chứa các tên sản
phẩm đã tìm được để dựa trên đó tìm kiếm và phân tích feedback.
- Nguyên tắc phân nhỏ: bài toán tìm kiếm feedback sẽ được phân nhỏ thành nhiều bài

dụng trong thời điểm hiện tại và chương trình có thể sẽ không hoạt động được
khi website thay đổi source code.
- Khi search với từ khóa sony vaio ta thấy url trên thanh address như sau:
/>&keyword=sony+vaio&keyword_reject=&price=0&price_to=0&iCat=317&module
=product&page=1 trong đoạn url này ta chỉ cần chú ý đến 2 vị trí là
keyword=sony+vaio và page=1trong đó sony+vaio chính là từ khóa mà ta truyền
vào và page=1 sẻ hiển thị trang 1 trong kết quả search được. Như vậy, rõ ràng
ta chỉ cần truyền biến vào 2 vị trí này là có thể lấy được các kết quả từ các từ
khóa mong muốn. Vấn đề bây giờ là ta tải các kết quả search được này và tách
ra dữ liệu mong muốn.
20 | P a g e
Ứng dụng phương pháp luận sáng tạo khoa học trong tin học
- Ta để ý thấy trong mã html thì tên sản phẩm được trình bày trong tag <div
class="name"> .
- Do đó , chỉ cần split thông tin trong tag <div class="name"> thì sẽ cho ta
thông tin tên sản phẩm.
21 | P a g e
Ứng dụng phương pháp luận sáng tạo khoa học trong tin học

Hình 3.2: demo rút trích thông tin sản phẩm từ vatgia.com
b. Search Engine Association(Google):
- Hiện nay, Google vẫn là lựa cho số một cho rất nhiều người trên thế giới
để tìm kiếm. Ngoài ra Google còn cho phép người dùng sử dụng chức năng
Google API để nhúng vào một trang web bất kỳ hổ trợ cho việc search thông tin.
22 | P a g e
Ứng dụng phương pháp luận sáng tạo khoa học trong tin học
Tuy nhiên khi sử dụng Google API kết quả trả về chỉ được tối đa 8 trang và mỗi
trang chỉ được 8 kết quả tìm kiếm.
- Một khó khăn nữa khi sử dụng search engine của Google đó là bị giới
hạn số lần truy vấn. Đối với người dùng search ít truy vấn thì không vấn đề gì

24 | P a g e
Ứng dụng phương pháp luận sáng tạo khoa học trong tin học
rút trích dữ liệu trên các trang đó, các bước thực hiện khá đơn giản tuy nhiên lại
không cho kết quả tổng quát do chỉ xét trên một số website nhất định.
d. Lấy feedback từ website chỉ định trước:
Phương pháp thực hiện lấy feedback từ các website chỉ định trước đơn giản
chỉ là xác định cấu trúc các trang và tiến hành rút trích dữ liệu như đã nói ở trên.
Để kết quả có tính tương đối thì rút trích càng nhiều website trên nhiều lĩnh
vực càng tốt. Lợi dụng cách search trên site của Google mà ta có thể dễ dàng
xác định các trang có liên quan đến thông tin vật phẩm cần tìm trong trang chỉ
định.
Như vậy, lấy thông tin từ những trang dã chỉ định trước đồng nghĩa với việc
chúng ta coi như đã biết cấu trúc của các trang đó và để dễ dàng trong tiếp cận
chúng ta sẽ xem xét một vài website cụ thể.
Phương pháp chung để lấy các feedback từ các website là sử dụng chức
năng search engine để tìm kiếm các đường dẫn url liên quan đến thông tin cần
tìm, do đã chỉ định website cần tìm kiếm nên cấu trúc các trang tìm được đều
giống nhau cho nên chỉ cần phân tích cấu trúc của một trang ta có thể áp dụng
cho toàn bộ các trang còn lại. Các feedback trên từng trang được trình bày ở
nhiểu hình thức khác nhau, có thể là hình thức giới thiệu tính năng, đánh giá sản
phẩm hoặc là các phản hồi của người sử dụng sản phẩm.
Như đã nói ở phần trước Google engine cung cấp cho ta chức năng search
nâng cao trên website với các từ khóa đặc biệt giúp ta có thể dễ dàng tiếp cận
nhanh với thông tin cần tìm kiếm. Đặc biệt với 2 từ khóa:
 inurl : key_word cho phép ta tìm các kết quả có key_word trong
đường dẫn url của website.
25 | P a g e


Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Music ♫

Copyright: Tài liệu đại học © DMCA.com Protection Status