Phân tích dữ liệu môi trường truyền thông xã hội và dữ liệu có cấu trúc với BigInsights InfoSphere potx - Pdf 11

Phân tích dữ liệu môi trường truyền thông xã hội và
dữ liệu có cấu trúc với BigInsights InfoSphere
Bạn có thể đã nghe nói về Big Data (dữ liệu lớn) và tác động của nó đối với việc phân tích kinh
doanh. Và có lẽ bạn đang tự hỏi tổ chức của mình có thể thu nhặt được những hiểu biết gì từ việc
nắm bắt, xử lý và quản lý dữ liệu lớn được thu thập từ các trang web, các cảm biến điện tử hoặc
các bản ghi nhật ký phần mềm, cùng với các dữ liệu truyền thống mà bạn đã có. Chắc chắn,
không thiếu các dự án của bên thứ ba và nguồn mở được thiết kế để giúp bạn giải quyết các khía
cạnh khác nhau của các dự án Big Data của mình. Nhưng hầu hết các dự án đều được hướng về
phía các lập trình viên, các quản trị viên và các chuyên gia kỹ thuật với các kỹ năng cụ thể.
Điều gì sẽ xảy ra nếu bạn muốn làm cho Big Data có thể tới được các nhà phân tích kinh doanh,
các nhà lãnh đạo ngành kinh doanh và các nhân viên khác, những người không phải là các lập
trình viên? BigSheets đáng giá hơn vẻ bề ngoài của nó. Đó là một công cụ kiểu-bảng tính đi kèm
với InfoSphere BigInsights, cho phép những người không phải là lập trình viên có thể khám phá,
thao tác và hiển thị trực quan dữ liệu được lưu trữ trong hệ thống tệp phân tán của bạn. Các ứng
dụng ví dụ mẫu kèm theo BigInsights giúp bạn thu thập và nhập dữ liệu từ nhiều nguồn khác
nhau. Trong bài này, chúng tôi sẽ giới thiệu cho bạn về BigSheets và hai ứng dụng ví dụ mẫu đi
kèm theo nó.
Nền tảng
BigInsights là một nền tảng phần mềm có thể giúp các công ty phát hiện và phân tích những hiểu
biết kinh doanh ẩn dấu trong các khối lượng lớn của rất nhiều lĩnh vực dữ liệu — dữ liệu thường
bị bỏ qua hoặc bị vứt bỏ vì nó quá không thực tế hoặc quá khó xử lý bằng cách sử dụng các
phương tiện truyền thống.
Để giúp các doanh nghiệp lấy được giá trị từ những dữ liệu đó một cách hiệu quả, Ấn bản Doanh
nghiệp của BigInsights bao gồm một số dự án nguồn mở, gồm có Apache Hadoop và một số
công nghệ đã phát triển của IBM, gồm BigSheets. Hadoop và các dự án liên quan của nó cung
cấp một framework phần mềm hiệu quả cho các ứng dụng chuyên về dữ liệu, khai thác các môi
trường tính toán phân tán để đạt được khả năng mở rộng quy mô cao.
Các công nghệ của IBM làm phong phú thêm framework nguồn mở này với phần mềm phân
tích, tích hợp phần mềm doanh nghiệp, các phần mở rộng nền tảng và các công cụ. Để biết thêm
thông tin về BigInsights, hãy xem phần Tài nguyên. BigSheets là một công cụ phân tích dựa trên
trình duyệt ban đầu được nhóm Emerging Technologies của IBM phát triển. Hiện nay, BigSheets

IBM Watson
IBM Watson là một dự án nghiên cứu mà nó thực hiện các phân tích phức tạp để trả lời các câu
hỏi được trình bày theo một ngôn ngữ tự nhiên. Phần mềm của Watson tra cứu dữ liệu được thu
thập từ nhiều nguồn khác nhau và sử dụng Hadoop để xử lý hiệu quả dữ liệu này qua một hệ
thống các máy chủ IBM Power 750. IBM Watson đầu tiên được dùng trong một cuộc thi trò chơi
trên truyền hình vào năm 2011, đánh bại hai người chơi dẫn đầu. Xem phần Tài nguyên để biết
thêm các chi tiết về IBM Watson và chương trình trò chơi Jeopardy!.
Trước khi bắt đầu, chúng ta hãy xem xét các kịch bản ứng dụng ví dụ mẫu. Việc này đòi hỏi
phân tích dữ liệu của môi trường truyền thông xã hội về IBM Watson và, cuối cùng, nối dữ liệu
này với dữ liệu nội bộ của IBM đã mô phỏng về các nỗ lực tiếp cận môi trường truyền thông
được trích ra từ một DBMS quan hệ. Ý tưởng là khám phá khả năng hiển thị, đưa tin và "lan
truyền" xung quanh một nhãn hàng, dịch vụ hay dự án nổi bật — một yêu cầu chung trong nhiều
tổ chức. Chúng tôi sẽ không trình bày hết các khả năng phân tích cho một ứng dụng như vậy ở
đây, do ý định của chúng tôi chỉ đơn giản là nêu bật cách các khía cạnh quan trọng của BigSheets
có thể giúp các nhà phân tích bắt đầu nhanh chóng công việc với dữ liệu lớn như thế nào. Tuy
nhiên, công việc mà chúng ta sẽ tìm hiểu sẽ giúp bạn hiểu những gì là có thể với một chút nỗ lực
— và có lẽ mang đến một hay hai bất ngờ về sự nổi tiếng của IBM Watson.
Về đầu trang
Bước 1: Thu thập dữ liệu của bạn
Trước khi khởi chạy BigSheets, bạn cần một số dữ liệu dùng cho việc phân tích của mình. Trước
hết, chúng ta sẽ tập trung vào việc thu thập dữ liệu của môi trường truyền thông xã hội.
Thu thập dữ liệu của môi trường truyền thông xã hội
Như bạn có thể dự kiến, việc thu thập và xử lý dữ liệu được trích ra từ các trang web của môi
trường truyền thông xã hội có thể là thách thức, do các trang web khác nhau nắm giữ thông tin
khác nhau và sử dụng các cấu trúc dữ liệu khác nhau. Hơn nữa, việc xác định và dò tìm qua rất
nhiều các trang web cá nhân có thể rất tốn thời gian.
Ở đây, chúng tôi đã sử dụng ứng dụng ví dụ mẫu BoardReader kèm theo BigInsights để khởi
chạy một tìm kiếm về các blog, các nguồn cấp tin tức, các diễn đàn thảo luận và các trang web
video. Hình 2 minh họa các tham số đầu vào mà chúng tôi đã cung cấp cho ứng dụng
BoardReader của BigInsights, chúng tôi đã khởi chạy nó từ trang Applications (Các ứng dụng

để tìm hiểu. Nhưng điều đáng lưu ý là mỗi tệp có chứa một cấu trúc JSON hơi khác một chút —
một tình huống cần giải quyết khi mô hình hóa một bộ sưu tập, mà nó hợp nhất các tập hợp dữ
liệu blog và tin tức. Trong các dự án dữ liệu lớn, điều khá phổ biến là phải chuẩn bị hoặc chuyển
đổi các cấu trúc dữ liệu của bạn theo cách nào đó để đơn giản hóa việc phân tích tiếp theo.
Thu thập dữ liệu từ một DBMS quan hệ
Sau khi tìm hiểu một số khía cạnh nhất định về dữ liệu của môi trường truyền thông xã hội này,
chúng ta sẽ nối nó với dữ liệu được trích ra từ một DBMS quan hệ. Nhiều dự án dữ liệu lớn đòi
hỏi phân tích các nguồn thông tin mới, chẳng hạn như dữ liệu của môi trường truyền thông xã
hội, trong bối cảnh có mặt thông tin doanh nghiệp, bao gồm dữ liệu được lưu trữ trong một
DBMS quan hệ. BigInsights cung cấp kết nối đến các DBMS quan hệ và các kho dữ liệu khác
nhau, gồm có Netezza, DB2®, Informix®, Oracle, Teradata và những cái khác.
Đối với kịch bản ví dụ mẫu của chúng tôi, chúng tôi đã điền vào một bảng DB2 có dữ liệu mô
phỏng về các nỗ lực tiếp cận môi trường truyền thông của IBM. Việc nối dữ liệu quan hệ này với
thông tin được trích ra từ các trang web môi trường truyền thông xã hội có thể cung cấp cho
chúng ta một số dấu hiệu về tính hiệu quả và đạt được những nỗ lực công khai khác nhau. Trong
khi BigInsights cung cấp truy cập truy vấn DBMS quan hệ động thông qua một giao diện dòng
lệnh, chúng tôi đã sử dụng ứng dụng ví dụ mẫu Data Import (Nhập khẩu dữ liệu) của giao diện
bàn điều khiển web của BigInsights để trích ra dữ liệu quan tâm.
Hình 4 minh họa các tham số đầu vào mà chúng tôi đã cung cấp cho ứng dụng này. Tệp đặc tính
mykeys trong kho lưu trữ thông tin BigInsights chứa các tham số đầu vào JDBC cần thiết để
thiết lập một kết nối cơ sở dữ liệu, gồm URL JDBC (ví dụ,
jdbc:db2://myserver.ibm.com:50000/sample), lớp trình điều khiển JDBC (ví dụ,
com.ibm.db2.jcc.DB2Driver) và mã định danh (ID) và mật khẩu người dùng DBMS. Các tham
số đầu vào khác gồm có một câu lệnh SQL SELECT đơn giản để lấy dữ liệu quan tâm từ cơ sở
dữ liệu đích, định dạng kết quả (tệp các giá trị được phân cách bằng dấu phẩy) và thư mục kết
quả của BigInsights cho các kết quả.

Hình 4. Gọi ứng dụng nhập khẩu dữ liệu từ giao diện bàn điều khiển web BigInsights

Lưu ý rằng trước khi thực hiện ứng dụng này, chúng tôi đã tải lên các tệp trình điều khiển DBMS

tập là "Watson_blogs". Cuối cùng, hãy tạo một bộ sưu tập thứ ba cho tệp CSV với dữ liệu
DBMS, chọn Dữ liệu CSV (Comma Separated Values) của BigSheets làm trình đọc cho tệp này.
Đặt tên bộ sưu tập này là "Media_Contacts".
Điều đáng lưu ý là bạn có thể tạo ra một bộ sưu tập dựa trên các nội dung của một thư mục, chứ
không phải là một tệp duy nhất. Để làm như vậy, hãy sử dụng trình dẫn hướng hệ thống tệp để
nhận dạng thư mục đích, nhấn chuột vào nút Sheets trong ô cửa sổ bên phải và chỉ rõ trình đọc
thích hợp được áp dụng cho tất cả các tệp trong thư mục. Tuy nhiên, kịch bản ứng dụng được mô
tả trong bài này yêu cầu ba bộ sưu tập riêng, như được mô tả ở trên.
Về đầu trang
Bước 3: Điều chỉnh bộ sưu tập của bạn
Rất nhiều lần, các nhà phân tích cũng muốn điều chỉnh định dạng, nội dung và cấu trúc của các
bộ sưu tập của họ trước khi nghiên cứu các khía cạnh khác nhau của chính dữ liệu đó. BigSheets
cung cấp một số các macro và các hàm để hỗ trợ các hoạt động chuẩn bị dữ liệu như vậy. Trong
phần này, chúng ta sẽ tìm hiểu hai lựa chọn sau: loại bỏ dữ liệu không cần thiết bằng cách xóa
các cột và hợp nhất dữ liệu từ hai bộ sưu tập thông qua một phép hợp.
Xóa các cột
Ứng dụng BoardReader của BigInsights trả về dữ liệu tin tức và blog điền vào các cột khác nhau
trong mỗi bộ sưu tập BigSheets. Chúng tôi chỉ cần một tập hợp con của các cột này dùng cho
việc phân tích mà chúng tôi sẽ thảo luận trong bài này, do đó một bước đầu quan trọng đòi hỏi
phải tạo ra các bộ sưu tập mới chỉ giữ lại các cột mà chúng tôi muốn:
1. Từ trang chủ BigSheets, hãy mở bộ sưu tập Watson_news mà bạn đã tạo ra từ tệp news-
data.txt.
2. Nhấn chuột vào Build New Collection (Xây dựng bộ sưu tập mới).
3. Chuyển hướng đến cột IsAdult, như hiển thị trong Hình 6. Nhấn chuột vào mũi tên xuống
trong tiêu đề cột và Remove (Loại bỏ) cột. Làm điều này với tất cả các cột trong bộ sưu
tập, ngoại trừ các cột Country, FeedInfo, Language, Published, SubjectHtml, Tags, Type
và Url.
4. Lưu và thoát ra, đặt tên cho bộ sưu tập mới là "Watson_news_revised". Khi được nhắc,
hãy chạy bộ sưu tập này. Lưu ý rằng một thanh trạng thái ở bên phải của nút Run cho
phép bạn theo dõi tiến trình công việc. (Ở hậu trường, BigSheets thực hiện các kịch bản

4. Nhấn Add sheets > Union để tạo ra một trang bảng tính khác để hợp nhất dữ liệu blog
với dữ liệu tin tức. Khi được nhắc, nhấn chuột vào trình đơn thả xuống và chọn
Watson_news_revised làm trang bảng tính mà bạn sẽ hợp nhất với dữ liệu blog mà bạn
vừa nạp. (Xem Hình 9.) Nhấn chuột vào dấu cộng (+) bên cạnh hộp, rồi nhấn vào dấu
chọn màu xanh lá cây ở phía dưới cùng để bắt đầu hợp nhất.

Hình 9. Chỉ rõ các trang bảng tính để hợp nhất

5. Lưu và thoát ra, đặt tên nó là Watson_news_blogs. Chạy bộ sưu tập này.
Tiếp theo, phân tích dữ liệu trong bộ sưu tập mới này.
Về đầu trang
Bước 4: Khai thác bộ sưu tập để kiểm tra tin tức về IBM Watson
Một lĩnh vực mà chúng ta muốn khai thác đòi hỏi mối quan tâm và tin tức toàn cầu về IBM
Watson. Ban đầu, bạn có thể bị lôi kéo lựa chọn bộ sưu tập Watson_news_blogs dựa trên các giá
trị cột country. Tuy nhiên, nếu bạn kiểm tra dữ liệu, bạn sẽ thấy rằng nhiều hàng có chứa các giá
trị rỗng (null) với cột này. Đây là trường hợp điển hình của dữ liệu được thu thập từ các trang
web môi trường truyền thông xã hội và các nguồn khác. Thông thường, dữ liệu mong muốn còn
thiếu, buộc các nhà phân tích phải xem xét các phương tiện khác để đi sâu vào các lĩnh vực quan
tâm.
Sắp xếp các bản ghi
Hầu hết các mục blog và tin tức của chúng ta đều chỉ thị ngôn ngữ ban đầu, vì vậy chúng ta sẽ
sắp xếp các bản ghi của mình theo ngôn ngữ và kiểu để giúp chúng ta tìm hiểu tin tức toàn cầu
về IBM Watson trong các bài đăng tin tức và blog:
1. Mở bộ sưu tập Watson_news_blogs và nhấn vào Build New Collection.
2. Từ tiêu đề Language (Ngôn ngữ), hãy để lộ ra trình đơn thả xuống và nhấn vào Sort >
Advanced. Khi được nhắc, hãy chọn cột Language và cột Type từ trình đơn Add
Columns to Sort (Thêm các cột để sắp xếp). Thay đổi giá trị sắp xếp của Language là
Descending (Giảm dần) và kiểm tra xem Language có là cột sắp xếp chính không, như
thể hiện trong Hình 10. Nhấn chuột vào mũi tên màu xanh lá cây để áp dụng hoạt động

Như bạn có thể dự kiến, biểu đồ hình tròn kết quả chỉ ra rằng gần 79% dữ liệu tin tức và blog mà
chúng tôi đã thu thập đã được xuất bản bằng tiếng Anh. Nhưng bạn có thể dự đoán ngôn ngữ phổ
biến nhất tiếp sau cho IBM Watson không? Biểu đồ hình tròn được minh họa trong Hình 12 chỉ
ra rằng đó là tiếng Nga. Bằng cách di chuột trên bất kỳ lát mỏng nào của một biểu đồ hình tròn
đã hiển thị trong BigSheets, bạn có thể xác định giá trị bên dưới của nó (trong trường hợp này là
giá trị cột Language).

Hình 12. Đo mối quan tâm toàn cầu về IBM Watson theo ngôn ngữ, dựa trên dữ liệu tin tức
và blog có sẵn

Xóa các giá trị dữ liệu
Nếu bạn di chuột qua các lát mỏng lớn nhất thứ năm và thứ sáu của biểu đồ hình tròn được hiện
thị trong Hình 12 (với tỷ lệ phần trăm là 2,6 và 1,9), bạn sẽ thấy rằng chúng là hai biến thể tiếng
Trung Quốc. Điều này minh họa một tình hình phổ biến khác liên quan đến dữ liệu được thu thập
từ các nguồn dữ liệu khác nhau, chẳng hạn như các trang web môi trường truyền thông xã hội
khác nhau — các giá trị dữ liệu mà bạn có thể muốn xử lý giống hệt thường được biểu diễn hơi
khác một chút.
Hãy tìm hiểu cách sử dụng BigSheets để thay đổi các giá trị này sao cho các biến thể tiếng Trung
Quốc được thay thế bằng một giá trị duy nhất của "tiếng Trung Quốc":
1. Nếu cần, hãy mở bộ sưu tập Watson_sorted và nhấn vào nút Edit (bên dưới tên của bộ
sưu tập ở góc trên bên trái).
2. Điều hướng đến cột Language và nhấn vào mũi tên xuống trong tiêu đề cột để trưng ra
trình đơn thả xuống. Chọn Insert Right > New Column để tạo một cột mới để chứa dữ
liệu đã xóa. Khi được nhắc, hãy đặt tên cột mới là LanguageRevised và nhấn chuột vào
dấu chọn màu xanh lá cây để hoàn thành hoạt động này.
3. Với con trỏ của bạn được đặt trên cột LanguageRevised, hãy nhập công thức sau đây vào
hộp fx (đặc tả công thức) ở phía trên cùng của trang bảng tính: IF(SEARCH('Chin*',
#Language) > 0, 'Chinese', #Language). Xem Hình 13.

Hình 13. Chỉ rõ một công thức để lấy một giá trị của cột

Hình 14. Lọc dựa trên một giá trị cột

4. Lưu công việc của bạn (đặt tên trang bảng tính này là Watson_sorted_English_UK ),
nhưng không thoát ra, vì bạn sẽ tiếp tục tinh chỉnh bộ sưu tập này.
5. Thêm một trang bảng tính khác để gọi một Macro. Khi được nhắc, hãy nhấn vào
Categories > url > URLHOST. Chọn cột URL của bộ sưu tập của bạn làm cột đích chứa
các giá trị URL. (Macro sẽ đọc các giá trị trong cột này và trích ra thông tin máy chủ
URL từ chuỗi lớn hơn. Ví dụ, dựa vào một giá trị URL của
" />cancer/," macro này sẽ trả về "www.georgeemsden.co.uk" làm tên máy chủ URL).
6. Nhấn vào ngăn Carry Over (Để lại) ở dưới cùng của ô cửa sổ này, như thể hiện trong
Hình 15. Điều này quan trọng bởi vì nó cho phép bạn chỉ rõ bạn muốn giữ lại các cột nào
của bộ sưu tập hiện tại (hoặc "để lại").

Hình 15. Làm việc với macro URLHOST

7. Nhấn vào Add all (Thêm tất cả) để giữ lại tất cả các cột hiện có và áp dụng hoạt động
này. Lưu công việc của bạn, nhưng không thoát ra.
8. Thêm một trang bảng tính khác để lọc thêm dữ liệu. Khi được nhắc, phối hợp bất kỳ
trong hai tiêu chí sau đây: "URLHOST ends with uk" và "Country is GB", như thể hiện
trong Hình 16. (Do tính chất dàn trải của dữ liệu trong bộ sưu tập này, chúng ta cần phối
hợp cả hai điều kiện này để phát hiện các trang chủ URL đặt tại Anh). Áp dụng hoạt động
này.

Hình 16. Lọc dữ liệu dựa trên hai cột

9. Lưu và thoát khỏi bộ sưu tập, sau đó chạy nó.
Việc sắp xếp các kết quả trên cột URLHOST hoặc vẽ một biểu đồ sẽ cho phép bạn nhanh chóng
xác định các trang web của Vương quốc Anh trong bộ sưu tập kết quả đã trình bày IBM Watson
thường xuyên nhất. Ví dụ, Hình 17 mô tả một biểu đồ đám mây thẻ mà chúng tôi đã tạo ra cho10

4. Lưu và thoát khỏi bộ sưu tập này, chạy nó khi được nhắc. Quan sát xem có nhiều hơn
một chút so với 2.800 trang web riêng biệt không, như được hiển thị ở góc dưới bên phải
của Hình 18. Nếu bạn mở bộ sưu tập Watson_news_blogs, bạn sẽ thấy có hơn 7.200 tổng
số bản ghi.

Hình 18. Xác định số lượng các trang chủ riêng biệt

Bây giờ bạn biết rằng một số trang web có chứa nhiều bài đăng, bạn có thể muốn xác định 12
trang web hàng đầu có chứa nhiều bài đăng nhất về IBM Watson và hiển thị trực quan các kết
quả trong một thanh biểu đồ. Điều đó dễ làm và các kết quả thậm chí có thể làm bạn ngạc nhiên:
1. Nếu cần, hãy mở bộ sưu tập mà bạn vừa tạo ra.
2. Nhấn vào Add chart > Chart > Column. Cung cấp các giá trị mà bạn đã chọn dùng cho
tên và tiêu đề của biểu đồ. Giữ lại các giá trị mặc định cho các trục X và Y. Đặt Limit đến
12. Áp dụng các giá trị cài đặt này và chạy biểu đồ. Hình 19 minh họa các kết quả. Nếu
bạn đã dự kiến IBM hoặc một trang được IBM tài trợ là một trong ba trang hàng đầu, thì
bạn đã nhầm.

Hình 19. Vẽ biểu đồ 12 trang web hàng đầu đưa tin về IBM Watson dựa trên số
lượng bài đăng

Nếu bạn kiểm tra các URL với hai trang web hàng đầu, bạn sẽ thấy rằng chúng là các biến thể
của bizjournals.com, cho biết rằng bạn có thể muốn quay trở lại bộ sưu tập và chuyển đổi hoặc
xóa dữ liệu này. Như đã đề cập, việc phân tích dữ liệu lớn thường đòi hỏi thăm dò, xử lý và sàng
lọc dữ liệu nhiều lần.
Cuối cùng, việc xác định 12 trang web hàng đầu có thể làm cho bạn muốn tìm hiểu về số lượng
các bài đăng cho mỗi trang chủ URL. Hãy gói ví dụ này bằng cách thực hiện một cách tiếp cận
dễ dàng để có được thông tin đó:
1. Nếu cần, mở bộ sưu tập và chỉnh sửa nó.
2. Nhấn vào Add Sheet > Pivot. Đặt tên cho trang bảng tính này là "Pivot" (Trụ), xác định
trang bảng tính của các máy chủ URL làm trang bảng tính đầu vào và chọn URLHOST

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Phân tích dữ liệu môi trường truyền thông xã hội và dữ liệu có cấu trúc với BigInsights InfoSphere potx - Pdf 11

Tài liệu, ebook tham khảo khác

Học thêm