Nghiên cứu phát triển một số phương pháp xử lí dữ liệu lớn và ứng dụng trong thương mại điện tử - Pdf 57

ĐẠI HỌC QUỐC GIA HÀ Nộ]
VỈẸN CONG NGHẸ THONG TIN

BÁO CÁO TỔNG KẾT ĐỀ TÀI
NGHIÊN c ứ ư PHÁT TRIỂN MỘT SÓ PHƯƠNG PHÁP x ử LÍ DỮ
LIỆU LỚN VÀ ỨNG DỤNG TRONG THƯƠNG MẠI ĐIỆN TỦ

j

ĐAI HỌC QUỐC GIA HÀ NÔI
TRUNG TẮM THÔNG TIN THƯ VIÊN

I

___ODOfiOnm 3 ỸQ

í

Hà N ôi 04/2017

MỤC LỤC
I.

II.

Các thông tin cơ bản
1. Thông tin chung
2. Tổng quan tình hình nghiên cứu
2.1.
Một số nét cơ bản về Big Data

Mục tiêu đề tài
- Nghiên cứu phát triển và ứng dụng một sổ phương pháp tổ chức và xử lí dữ liệu
lớn
- Thiết kể xây dựng một hệ phần mềm thử nghiệm hỗ trợ việc đánh giá xu hướng
của khách hàng với hàng hóa trong thương mại điện tử
2. Tổng quan tình hình nghiên cứu

2

Những năm gần đây, chúng ta chứng kiên sự phát triên mạnh mẽ của truyên
thông xã hội, của công nghệ tìm kiếm, như Facebook, MySpace, Twitter, Blogger,
Google và Yahoo. Các công nghệ này cùng các công nghệ khác làm tăng đột biến
khối lượng dữ liệu. Chính xu thế này đã dẫn đến sự phát triển rất sôi động của một
hướng nghiên cứu mới trong lĩnh vực Công nghệ thông tin. Đó là hướng nghiên cứu
về các hệ thống dữ liệu lớn (Big Data). Không chỉ khối lượng dữ liệu tăng vọt mà cấu
trúc dữ liệu cũng rất đa dạng bao gồm dữ liệu phi cấu trúc (bảng, file) và dữ liệu có
cấu trúc. Dữ liệu có cấu trúc bao gồm dữ liệu dạng chuỗi (sequence), dạng cây (tree),
và dạng đồ thị (graph) có mặt ở khắp nơi và đang gia tăng rất nhanh chóng. Khai phá
và dự đoán dữ liệu có cấu trúc hiện đang là một xu thế mới trên thế giới, thu hút sự
chú ý rất lớn của giới nghiên cứu cũng như của các doanh nghiệp do ứng dụng to lớn
của chúng trong các lĩnh vực như phân tích hình ảnh, phân tích hiệu quả kinh doanh,
xử lý ngôn ngữ tự nhiên, phân tích mạng xã hội, các ứng dụng trong y sinh, hoá sinh,
viễn thông,...
Hiện nay, Google, Yahoo, Facebook và nhiều công ty khác đang phát triển rất
mạnh mẽ các phương pháp tổ chức và xử lí các hệ thống dữ liệu lớn.
Việc phân tích dữ liệu lớn đóng vai trò rất quan trọng để tăng chất lượng của
các doanh nghiệp. Các công ty lớn về Công nghệ thông tin và nhiều nhà khoa học đã
nghiên cứu và phát triển các giải pháp phân tích dữ liệu lớn.
Các phưưng pháp khai phá dữ liệu như phân lớp/dự đoán, phân cụm, khai phá

Search để liệt kê các tập đồ thị độc lập cực đại. Kiyomi và Ưno [3] liệt kê các đồ thị
con dạng dây trong đó các đồ thị con được sinh bằng cách đính thêm các clique. Ưno
[5] sinh các giả clique với sổ cạnh lớn hơn một ngưỡng xác định.
Ngoài ra, một số phương pháp khác không áp dụng Reverse Search đã được
công bố. M ột số tác giả đã phát triển W ARMR bàng cách kết hợp quy hoạch logic quy
nạp và tìm kiếm kiểu Apriori. Tan và đồng sự [4] sinh cấu trúc con theo mẫu dạng
cây. Một số tác giả khác sử dụng phương pháp chiếu rút gọn (chia để trị) để sinh các
cấu trúc thường xuyên.
Nhằm mục đích cung cấp một cái nhìn tổng quan toàn diện và bức tranh tổng thể
hơn về lĩnh vực Big Data. Báo cáo tổng kết sẽ trình bày một số nét cơ bản về Big
Data. Đầu tiên báo cáo giới thiệu về nền tảng chung của Big Data và trình bày về các
công nghệ liên quan như điện toán đám mây, Internet kết nối vạn vật (Internet o f
Things -IoT), các trung tâm dữ liệu (data center) và Hadoop. Tiếp theo, báo cáo khái
quát một số ứng dụng tiêu biểu của Big Data, bao gồm quản lý doanh nghiệp, Internet
o f Things, mạng xã hội trực tuyến, y tế và trí tuệ tập trung. Cuối cùng, báo cáo trình
bày khái quát tình hình nghiên cứu và phát triển Big Data ở Việt Nam.
2.1.

M ột số nét cơ bản về Big Data

Trong 20 năm qua, dữ liệu đã tăng lên với một quy mô lớn trong các lĩnh vực
khác nhau. Theo một báo cáo từ Tập đoàn Dữ liệu Quốc tế (IDC), trong năm 2011,
dung lượng dữ liệu được tạo ra và sao chép trên toàn thế giới là 1.8ZB (~ 1021B), tăng
gần chín lần trong vòng năm năm. Con số này sẽ tăng gấp đôi ít nhất hai năm một lần
trong tương lai gần.
4

Dưới sự gia tăng một cách bùng nố của dữ liệu toàn câu, thuật ngữ vê Big Data
vẫn chủ yếu được sử dụng để mô tả các hệ thống dữ liệu lớn. So với các tập dữ liệu

mang tên Big Data, Big Im pact trình bày tại Diễn đàn Davos ở Thụy Sĩ, đã thông báo
ràng Big Data đã trở thành một loại tài sản kinh tế mới, giống như tiền tệ hoặc vàng.
Gartner, một cơ quan nghiên cứu quốc tế, đưa ra Hype Cycles from 2012-2013, trong
đó phân loại tính toán Big Data, phân tích xã hội, và phân tích dữ liệu lưu trữ thành 48
công nghệ đang nổi lên mà đáng để chú ý nhiều nhất.
Nhiều chính phủ quốc gia như Hoa Kỳ cũng đã rất quan tâm đến dữ liệu lớn.
Trong tháng 3 năm 2012, chính quyền Obama đã công bố một khoản đầu tư 200 triệu
USD để khởi động "Ke hoạch Nghiên cứu và Phát triển Big Data", mà đã là một sáng
kiến phát triển khoa học và công nghệ chủ yếu thứ hai sau khi "xa lộ thông tin" bắt
đầu vào năm 1993. Trong tháng 7 năm 2012 , dự án "Đẩy mạnh công nghệ thông tin
Nhật Bản" được ban hành bởi Bộ Nội vụ và Truyền thông Nhật Bản chỉ ra rằng sự
phát triển Big Data, nên có một chiến lược quốc gia và các công nghệ ứng dụng nên là
trọng tâm. Trong tháng 7 năm 2012, Liên Hiệp Quốc đã đưa ra báo cáo Big Data cho
phát triển, trong đó tóm tắt cách các chính phủ sử dụng Big Data để phục vụ tốt hơn
và bảo vệ người dân của họ như thế nào.
Những thách thức của Big Data
Sự gia tăng mạnh dồn dập dữ liệu trong kỷ nguyên big data m ang tới những
thách thức rất lớn về việc thu thập, lưu trữ, quản lý và phân tích dữ liệu. Hệ thống
quản lý và phân tích dữ liệu truyền thống được dựa trên hệ thống quản lý cơ sở dữ liệu
quan hệ (RDBM S). Tuy nhiên, RDBMS như vậy chỉ áp dụng cho các dữ liệu có cấu
trúc, khác với những dữ liệu bán cấu trúc hoặc không có cấu trúc. Ngoài ra, RDBMS
đang ngày càng sử dụng ngày càng nhiều phần cứng đắt tiền. Các RDBMS truyền
thống không thể xử lý dung lượng rất lớn và không đồng nhất của big data. Cộng đồng
nghiên cứu đã đề xuất một số giải pháp theo các quan điểm khác nhau. Đối với các
giải pháp lưu trữ vĩnh viễn và quản lý các tập dữ liệu qui mô lớn không có trật tự, hệ
thống tập tin được phân phổi và cơ sở dữ liệu NoSQL là những lựa chọn tốt. Những
frameworks lập trình như vậy đã đạt được thành công lớn trong các bài toán xử lý
cụm, đặc biệt đối với lập thứ hạng trang web (webpage ranking). Nhiều ứng dụng dữ
7

nguyên tắc quan trọng liên quan đến các giá trị phân tích cần được phát triển
để quyết định dữ liệu sẽ được lưu trữ và dữ liệu nào sẽ được loại bỏ.
Cơ chế phân tích: hệ thống phân tích big data sẽ xử lý khối lượng dữ liệu
không đồng nhất trong một thời gian giới hạn. Tuy nhiên, RDBM S truyền
thống được thiết kế với sự thiếu khả năng thay đổi và khả năng mở rộng, do
đó không thể đáp ứng các yêu cầu về hiệu suất. Cơ sở dữ liệu không quan hệ
đã chỉ ra những lợi thế riêng của mình trong việc xử lý dữ liệu phi cấu trúc
của và bắt đầu trở thành đề tài chủ đạo trong phân tích big data. Mặc dù vậy,
vẫn còn một số vấn đề về cơ sở dữ liệu không quan hệ trong hoạt động và
những ứng dụng cụ thể của chúng. Chúng ta phải tìm một giải pháp thỏa hiệp
giữa RDBM S và cơ sở dữ liệu không quan hệ. Ví dụ, một số doanh nghiệp đã
sử dụng một kiến trúc cơ sở dữ liệu hỗn hợp mà tích hợp nhũng ưu điểm của
cả hai loại cơ sở dữ liệu (ví dụ, Facebook và Taobao). c ầ n nghiên cứu thêm
về các cơ sở dữ liệu và các mẫu dữ liệu trong bộ nhớ dựa trên phân tích gần
đúng.
8

-

-

-

-

Bảo mật dữ liệu: hầu như các nhà cung cấp dịch hoặc chủ sở hữu hiện tại
dịch vụ big data có thể không duy trì và phân tích một cách hiệu quả các tập
dữ liệu lớn như vậy vì khả năng hạn chế của họ. Họ phải dựa vào các chuyên
gia hoặc các công cụ để phân tích dữ liệu như vậy, làm tăng rủi ro bảo mật.

Mặc dù có nhiều công nghệ trùng lặp trong điện toán đám mây và big data, tuy
nhiên chúng khác nhau ở hai khía cạnh sau đây. Đầu tiên, các khái niệm khác nhau ở
một mức độ nhất định. Điện toán đám mây biến đổi kiến trúc CNTT trong khi big data
ảnh hưởng đến các quyết định kinh doanh. Tuy nhiên, big data phụ thuộc vào điện
toán đám mây như các cơ sở hạ tầng cơ bản để hoạt động trơn tru.

9

Thứ hai, Big Data và điện toán đám mây có khách hàng mục tiêu khác nhau.
Điện toán đám mây là một công nghệ và sản phẩm nhắm đến C hief Information
Officers (CIO) như một giải pháp CNTT tiên tiến. Big data là một sản phẩm nhắm đến
Chief Executive Officers (CEO) người mà chỉ tập trung vào hoạt động kinh doanh.
Khi những người ra quyết định có thể trực tiếp cảm nhận được áp lực cạnh tranh trên
thị trường, họ phải đánh bại các đối thủ kinh doanh theo nhiều cách cạnh tranh hơn.
Với sự tiến bộ của big data và điện toán đám mây, hai công nghệ này là tất yếu và
ngày càng kết hợp chặt với nhau. Điện toán đám mây, với các chức năng tương tự như
của máy tính và hệ điều hành, cung cấp tài nguyên cấp hệ thống; dữ liệu lớn hoạt động
trong các cấp độ bên trên được hỗ trợ bởi điện toán đám mây và cung cấp chức năng
tương tự như của cơ sở dữ liệu và khả năng xử lý dữ liệu có hiệu quả. Kissinger, Chủ
tịch EMC, chỉ ra rằng các ứng dụng dữ liệu lớn phải được dựa trên điện toán đám
mây.
Sự phát triển của big data được thúc đẩy bởi sự tăng trưởng nhanh chóng của
nhu cầu ứng dụng và điện toán đám mây được phát triển từ công nghệ ảo hóa. Do đó,
điện toán đám mây không chỉ cung cấp tính toán và xử lý big data, mà tự nó cũng là
một chế độ dịch vụ. Đến một mức độ nào đó, các tiến bộ của điện toán đám mây cũng
thúc đẩy sự phát triển của big data, cả hai bổ sung cho nhau.
IoT và Big Data
Trong mô hình IoT, một sổ lượng lớn các bộ cảm biến kết nối mạng được nhúng
vào các thiết bị và các máy móc khác nhau trong thế giới thực. Các cảm biến như vậy

Trong mô hình dữ liệu lớn, các trung tâm dữ liệu không chỉ là một nên tảng lưu
trữ tập trung dữ liệu, mà còn đảm nhận nhiều trách nhiệm, chẳng hạn như thu thập dữ
liệu, quản lý dữ liệu, tổ chức dữ liệu, và tận dụng các giá trị dữ liệu và các chức năng.
Các trung tâm dữ liệu tập trung chủ yếu vào "dữ liệu" khác với "trung tâm". Dữ liệu
được tổ chức và quản lý theo mục tiêu và phát triển con đường cốt lõi của trung tâm
dữ liệu. Sự xuất hiện của big data mang lại những cơ hội phát triển và thách thức lớn
cho các trung tâm dữ liệu. Big data là một mô hình mới, mô hình này sẽ thúc đẩy sự
tăng trưởng bùng nổ của các cơ sở hạ tầng và các phần mềm liên quan của trung tâm
dữ liệu. M ạng lưới trung tâm dữ liệu vật lý là nòng cốt hỗ trợ big data, nhưng hiện nay
cơ sở hạ tầng chính mới là điều cần gấp nhất.
Big data đòi hỏi trung tâm dữ liệu cung cấp nền tảng hỗ trợ mạnh mẽ. Các mô
hình big data yêu cầu nghiêm ngặt hơn về khả năng lưu trữ và khả năng xử lý, cũng
như khả năng truyền tải mạng.
Sự phát triển của các ứng dụng big data tăng tốc cho các cuộc cách mạng và đổi
mới của các trung tâm dữ liệu. Nhiều ứng dụng big data đã phát triển các cấu trúc độc
đáo của mình và trực tiếp thúc đẩy sự phát triển của lưu trữ, mạng, và các công nghệ
tính toán liên quan đến trung tâm dữ liệu.
Big data tạo ra cho các trung tâm dữ liệu nhiều chức năng hơn. Trong các mô
hình big data, trung tâm dữ liệu có trách nhiệm không chỉ tập trung vào các thiết bị
phần cứng m à còn tăng cường năng lực mềm, tức ỉà, khả năng thu hồi, xử lý, tổ chức,
phân tích và ứng dụng của big data. Các trung tâm dữ liệu có thể giúp nhân viên kinh
doanh phân tích các dữ liệu hiện có, phát hiện ra các vấn đề trong hoạt động kinh
doanh và phát triển các giải pháp từ big data.
Hadoop và Big Data
Hiện nay, Hadoop được sử dụng rộng rãi trong các ứng dụng big data trong
công nghiệp, ví dụ như, lọc thư rác, tìm kiếm mạng, phân tích luồng clicks, và khuyến
cáo xã hôi. Ngoài ra, các nghiên cứu học thuật đáng kể hiện nay dựa trên Hadoop.
11

liệu lớn, chúng tôi xin trình bày cụ thể hơn về công cụ này.
Hadoop là một Apache framework mã nguồn mở được viết bằng java, cho phép xử lý
phân tán (distributed processing) các tập dữ liệu lớn trên các cụm máy tính (clusters of
computers) thông qua mô hình lập trình đơn giản. Hadoop được thiết kế để mở rộng
quy mô từ một máy chủ đơn sang hàng ngàn máy tính khác có tính toán và lưu trữ cục
bộ (local computation and storage).
Hadoop framework gồm 4 module:

12

■ Hadoop Common: Đây là các thư viện và tiện ích cần thiết của Java để các
module khác sử dụng. Những thư viện này cung cấp hệ thống file và lớp OS
trừu tượng, đồng thời chứa các mã lệnh Java để khởi động Hadoop.
■ H adoop YARN: Đây là framework để quản iý tiến trình và tài nguyên của các
cluster.
•

Hadoop Distributed File System (HDFS): Đây là hệ thống file phân tán cung
cấp truy cập thông lượng cao cho ứng dụng khai thác dữ liệu.

«

H adoop M apR educe: Đây là hệ thống dựa trên YARN dùng để xử lý song
song các tập dữ liệu lớn.

MapReduce
Hadoop M apR educe là một framework dùng để viết các ứng dụng xử lý song song
một lượng lớn dữ liệu có khả năng chịu lỗi cao xuyên suốt hàng ngàn cụm máy tính.
Thuật ngữ MapReduce liên quan đến hai tác vụ mà chương trình Hadoop thực hiện:

thống file. Chúng cũng quản lý việc tạo, huỷ, và nhân rộng các block thông qua các
chỉ thị từ NameNode.
HDFS cũng hỗ trợ các câu lệnh shell để tương tác với tập tin như các hệ thống file
khác.

Hadoop hoạt động như thế nào
Giai đoạn 1
Một người dùng hay một ứng dụng có thể gửi một tác vụ lên Hadoop (hadoop job
client) với yêu cầu xử lý cùng các thông tin cơ bản:
1. Nơi lưu (location) dữ liệu input, output trên hệ thống dữ liệu phân tán.
2. Các lớp jav a ở định dạng jar chứa các dòng lệnh thực thi các hàm map và
reduce.
3. Các thiết lập cụ thể liên quan đến job thông qua các thông số truyền vào.
Giai đoạn 2
Hadoop job client gửi tác vụ (file jar, file thực thi) và các thiết lập cho JobTracker.
Sau đó, máy chủ m aster sẽ phân phổi tác vụ đến các máy slave để theo dõi và quản lý
tiến trình các máy này, đồng thời cung cấp thông tin về tình trạng và chẩn đoán liên
quan đến job-client.
Giai đoạn 3
TaskTrackers trên các node khác nhau thực thi tác vụ MapReduce và trả về kết quả
output được lưu trong hệ thống file.
Ưu điểm của Hadoop
■ Hadoop framework cho phép người dùng nhanh chóng viết và kiểm tra các hệ
thổng phân tán. Đây là cách hiệu quả cho phép phân phối dữ liệu và công việc
xuyên suốt các máy trạm nhờ vào cơ chế xử lý song song của các lõi CPU.
■ Hadoop không dựa vào cơ chế chịu lỗi của phần cứng, thay vì vậy bản
thân Hadoop có các thư viện được thiết kể để phát hiện và xử lý các lỗi ở lớp
ứng dụng.
14

doanh nghiệp có thể dự đoán chính xác hơn về hành vi của người tiêu dùng và tìm ra
các mô hình kinh doanh mới. Trong việc lập kế hoạch bán hàng, sau khi so sánh các
dữ liệu lớn, các doanh nghiệp có thể tối ưu hóa giá cả hàng hóa của họ. Trong các hoạt
động điều hành, doanh nghiệp có thể nâng cao hiệu quả hoạt động của mình và sự hài
lòng, tối ưu hóa lực lượng lao động, dự báo yêu cầu phân bổ nhân sự chính xác, tránh
dư thừa nguồn nhân lực, và giảm chi phí lao động. Trong chuỗi cung ứng, với việc sử
dụng dữ liệu lớn các doanh nghiệp có thể tiến hành tối ưu việc kiểm kê, lưu kho, tối
ưu hóa logistic và phối hợp cung cấp
để giảm thiểu khoảng cách giữa cung và cầu,
kiểm soát ngân sách, và cải thiện dịch vụ.
15

Trong lĩnh vực tài chính, các ứng dụng dữ liệu lớn ở các doanh nghiệp được phát
triển một cách nhanh chóng. Một ví dụ từ ngân hàng China Merchants Bank (CMB),
Trung Quốc cho thấy hiệu quả của việc ứng dụng Big Data, cụ thể là phân tích dữ liệu
hàng cũng sử dụng mô hình cảnh báo khả năng người dùng ngưng sử dụng dịch vụ để
xây đựng các gói dịch vụ tín dụng lãi suất cao nhàm giữ chân khách hàng. Kết quả của
ứng dụng Big Data, ngân hàng này đã bán được các sản phẩm tính dụng lãi suất cao
cho 20% khách hàng có khả năng ngưng sử dụng dịch vụ của mình. Ngòai ra, tỷ lệ
khách ngưng sử dụng thẻ Gold Cards giảm 15%, thẻ Sunflower Cards giảm 7%. Bằng
cách phân tích hồ sơ giao dịch của khách hàng có thể xác định hiệu quả các khách
hàng tiềm năng là doanh nghiệp nhỏ. Bằng cách sử dụng dịch vụ ngân hàng từ xa và
các nền tảng điện toán đám mây để thực hiện bán chéo, tăng hiệu suất đáng kể đã đạt
được.
Rõ ràng, các ứng dụng cổ điển nhất của big data là trong thương mại điện tử.
Hàng chục ngàn giao dịch được thực hiện tại Taobao và thời điểm giao dịch tương
ứng, giá cả hàng hóa và số lượng mua được ghi nhận mỗi ngày. Và quan trọng hơn, đó
là thông tin về người mua cũng như người bán như: độ tuổi, giới tính, địa chỉ, và thậm
chí là cả những sở thích và sự quan tâm của họ. Cube dữ liệu của Taobao là một ứng

Miami-Dade ở Florida và IBM kết nối chặt chẽ 35 phòng ban chính của chính quyền
quận và thành phố Miami và giúp hỗ trợ các nhà lãnh đạo chính quyền thông tin tốt
hon trong việc ra quyết định đối với quản lý nguồn nước, giảm ùn tắc giao thông, cải
thiện an ninh công cộng. Việc ứng dụng các thành phố thông minh mang lại lợi ích về
nhiều mặt cho quận Dade.
ứ n g dụng của mạng xã hội trực tuyến theo định hướng dữ liệu lớn
Mạng xã hội (MXH) trực tuyến là một cấu trúc xã hội được cấu thành bởi các cá
nhân và các kết nối giữa các cá nhân dựa trên một mạng thông tin xã hội. Dữ liệu lớn
của mạng xã hội trực tuyến chủ yểu xuất phát từ các tin nhắn tức thời, xã hội trực
tuyển, blog, và không gian chia sẻ..., chủng chính các hoạt động của những người
dùng khác nhau. Việc phân tích các dữ liệu lớn từ mạng xã hội trực tuyến sử dụng
phương pháp phân tích tính toán được cung cấp cho việc hiểu biết các mối quan hệ
trong xã hội loài người bởi các lý thuyết và phương pháp bao gồm toán học, tin học,
xã hội học, và khoa học quản lý... ứ n g dụng bao gồm mạng lưới phân tích quan điểm
của công chúng, thu thập tình báo mạng và phân tích, marketing mạng xã hội, hỗ trợ
ra quyết định của chính phủ, và giáo dục trực tuyến... Những ứng dụng cơ bản của dữ
liệu lớn từ MXH trực tuyến trực tuyến được đề cập ở dưới đây:
-

-

Các ứng dụng dựa trên nội dung: Ngôn ngữ và văn bản là hai hình thức quan
trọng nhất của một thể hiện trong MXH. Thông qua việc phân tích ngôn ngữ
và văn bản, có thể nhận biết được sở thích người dùng, cảm xúc, quan tâm và
nhu cầu...
Các ứng dụng dựa trên cấu trúc: trong MXH, người dùng được biểu diễn
như là các nút trong khi mối quan hệ xã hội, quan tâm và sở thích... tổng hợp
các mối quan hệ giữa người sử dụng thành một cấu trúc cụm. c ấ u trúc như
vậy có quan hệ chặt chẽ giữa các cá nhân bên trong, nhưng quan hệ bên
ngoài lỏng cũng được gọi là một cộng đồng. Các phân tích dựa vào cộng

thiết bị y tế cá nhân và gia đình. Hiện nay, thông tin về sức khỏe có thể được đưa vào
và tải lên với các thiết bị di động thông m inh và nhập tò các hồ sơ y tế cá nhân của một
bên thứ ba. Ngoài ra, nó có thể được tích họp với một ứng dụng của bên thứ ba với các
bộ phát triển phần mềm (SDK) và giao diện mở.
Trí tuệ tập hợp
Trí tuệ tập hợp (Collective Intelligence - CI) nghiên cứu về dữ liệu cung cấp bởi
một tập thể để đưa ra quyết định, dự đoán tốt hơn. Và lĩnh vực này đã được đem áp
dụng cho Mạng xã hội và phát huy tác dụng một cách đột phá. Dựa vào Profile của
từng User, sở thích, thói quen truy cập, sử dụng và tương tới với w ebsite... mà ta có
được các thông tin cần thiết về mối tương quan giữa sở thích, hành vi của các User
trong website. Nấu có càng nhiều thông tin dạng này thì hoạt động của CI càng chính
xác, thân thiện và hợp lý hơn. Từ các dữ liệu của User, ta có thể viết ra các chức năng
đề nghị như kiểu Facebook với chức năng đề nghị kết bạn, Amazon với chức năng đề
nghị sách...H oặc các chức năng thông minh như lọc dữ liệu, phát hiện các thành viên
có “tiền án gây sự” V.V..

Những hệ thống được khuyến cáo như Pandora (âm nhạc), Netflix (phim ảnh), và
Amazon (sách và sản phẩm) dùng dữ liệu khách hàng và nhiều đại lý trong một
phương pháp tiếp cận được biết đến là collaborative filtering (phương pháp lọc cộng
18

tác). Dịch vụ dữ liệu lớn này đã là chủ đề của nhiều nghiên cứu tiên tiến trong máy học
và khai phá dữ liệu. Rõ ràng là nếu khả năng thực hiện gợi ý tốt thì có thể tăng doanh
số bán hàng và sự hài lòng của khách hàng.
2.4.
Big Data ở Việt Nam
Theo số liệu thống kê, tính đến ngày 1/1/2015, Việt Nam có dân số là 90,7 triệu
người, trong đó có 39,8 triệu người sử dụng internet (tương đương với 44%), 28 triệu
người sở hữu tài khoản mạng xã hội (chiếm 31%), 128,3 triệu người có kết nối mạng

Hiện nay, môn hệ thống dữ liệu lớn đã bắt đầu được dạy trong trường đại học.
Ví dụ Học viện Bưu chính viễn thông đã dạy môn này cho các lớp học viên cao học.
Big Data n g ày càn g đóng vai trò quan trọng trong việc mang lại những giá trị
to lớn cho các tổ chức doanh nghiệp, cho nền kinh tế quốc gia và cho các công dân
trong nền kinh tế đó. Tuy nhiên, đây vẫn là lĩnh vực còn rất mới, đặt ra nhiều vấn đề
và thách thức mà các tổ chức và các nhà nghiên cứu cần giải quyết.
Tài liệu tham khảo
[1] Avis, D., Fukuda, K., "Reverse search for enumeration”, Discrete Appl. Math. 65, 2146(1996)
[2] Eppstein,

D.,

“All maximal independent sets and dynamic dominance for

sparsegraphs”, CoRR cs.DS/0407036 (2004)
[3]

Kiyomi, M., Ưno, T., "Generating chordal graphs included in given graphs”. IEICE-

Trans. Inf. Syst. E89-D, 763-770 (2006)
[4] Tan, H., Dillon, T., Hadzic, F., Chang, E., Feng, L., "Tree model guided
candidategeneration fo r

mining frequent

subtrees

from

xml

[7]

Vũ Đức Thi, "Một sổ vấn để tính toán liên quan đến cơ sở dữ liệu và khai phá dữ

TDWI Research, 2011.

liệu ”, Tạp chí Khoa học và Công nghệ, T.50, s. 6, tr. 679 - 703, 2012
18] Vu Due Thi, Nguyen Long Giang, “An effective Algorithm for determining the set o f all
reductive attributes

in

incomplete

decision

tables”, Cybernetics

and

Information

Technologies CIT, Sofia, Bulgarian Academy of Sciences, Volume 13, No 4, pp. 118-126,
2013.
[9] Demetrovics J., N.T.L. Huong, V.D.Thi, N.L.Giang (2016). Metric Based
Attribute Reduction Method in Dynamic Decision Tables “ J. Commucations and
Information Technologies - CIT, Bulgarian Academy o f Sciences, V 16, N. 2, pp. 315
[10] Demetrovics J., V.D. Thi, T. H. Duong (2015). An algorithm to mine normalized
weighted sequential patterns using prefix-projeted database, SERDICA J. of

- Hoạt động 2: Đánh giá các phương pháp xử lý dữ liệu lớn và viết báo cáo khoa học
+ Chuyên đề: Đánh giá các phương pháp xử lý dữ liệu lớn và viết báo cáo khoa

Nội dung 3: Một số phương pháp tổ chức khai phá dữ liệu lớn
- Hoạt động 1: Thu thập dữ liệu, lựa chọn phương pháp tổ chức
+ Chuyên đề: Thu thập dữ liệu, lựa chọn phương pháp tổ chức
- Hoạt động 2: Các phương pháp khai phá dữ liệu trên bảng (dữ liệu phi cấu trúc)
+ Chuyên đề: Các phương pháp khai phá dữ liệu trên bảng (dữ liệu phi cấu
trúc)
- Hoạt động 3: Phương pháp khai phá dữ liệu trên bảng sử dụng lý thuyết tập thô
+ Chuyên đề: Phương pháp khai phá dữ liệu trên bảng sử dụng lý thuyết tập thô
21

- Hoạt động 4: Các phương pháp khai phá dữ liệu trên chuỗi (sequence) (dữ liệu có
cấu trúc)
+ Chuyên đề: Các phương pháp khai phá dữ liệu trên chuỗi (sequence) (dữ liệu
có cấu trúc)
- Hoạt động 5: Các phương pháp khai phá dữ liệu trên cây (dữ liệu có cấu trúc)
+ Chuyên đề: Các phương pháp khai phá dữ liệu trên cây (dữ liệu có cấu trúc)
- Hoạt động 6: Các phương pháp khai phá dữ liệu trên đồ thị (dữ liệu có cấu trúc)
+ Chuyên đề: Các phương pháp khai phá dữ liệu trên cây (dữ liệu có cấu trúc)
- Hoạt động 7: Nghiên cứu và đề xuất các thuật toán mới phục vụ cho việc xử lý dữ
liệu lớn
+ Chuyên đề: Nghiên cứu và đề xuất các thuật toán mới phục vụ cho việc xử lý
dữ liệu lớn
Nội dung 4: Xây dựng hệ thống phần mềm thử nghiệm hỗ trợ việc đánh giá xu
hướng của khách hàng vói hàng hóa trên một số trang web thưong mại điện tử
- Hoạt động 1: Khai thác hệ phần mềm Hadoop
+ Chuyên đề: Khai thác hệ phần mềm Hadoop

+ Nội dung 2. Báo cáo chuyên đề “Một số phương pháp xử lý đữ liệu lớn”.
+ Nội dung 3, hoạt động 1. Báo cáo chuyên đề “Thu thập dữ liệu, lựa chọn phương
pháp tổ chức”.
+ Nội đung 3, hoạt động 2. Báo cáo chuyên đề “Các phương pháp khai phá dữ liệu
trên bảng (dữ liệu phi cấu trúc)”.
+ Nội dung 3, hoạt động 3. Báo cáo chuyên đề “Phương pháp khai phá dữ liệu trên
bảng sử dụng lý thuyết tập thô”.
Năm 2016- 6/2017
+ Nội dung 3, hoạt động 4. Báo cáo chuyên đề “Các phương pháp khai phá dữ liệu
trên chuỗi (sequence) (dữ liệu có cấu trúc)”.
+ Nội dung 3, hoạt động 5. Báo cáo chuyên đề “Các phương pháp khai phá dữ liệu
trên cây (dữ liệu có cấu trúc)”.
+ Nội dung 3, hoạt động 6. Báo cáo chuyên đề “Các phương pháp khai phá dữ liệu
trên đồ thị (dữ liệu có cấu trúc)”.
+ Nội dung 3, hoạt động 7. Báo cáo chuyên đề “Nghiên cứu và đề xuất các thuật toán
mới phục vụ cho việc xử lý dữ liệu lớn”.
+ Nội dung 4, hoạt động 1. Báo cáo chuyên đề “Khai thác hệ phần mềm Hadoop”.
+ Nội dung 4, hoạt động 4. Báo cáo chuyên đề “Nghiên cứu một số các trang web liên
quan đến thương mại điện tử”.
- Hoạt động 5: Thực hiện thử nghiệm khai phá dữ liệu bằng phân cụm dữ liệu
+ Chuyên đề: Thực hiện thử nghiệm khai phá dữ liệu bàng phân cụm dữ liệu
- Hoạt động 6: Xây dựng module phần mềm thu thập dữ liệu khách hàng (thiết kế, lập
trình và thử nghiệm )

+ Chuyên đề: Xây dựng module phần mềm thu thập dữ liệu khách hàng (thiết
23

kế, lập trình và thử nghiệm)

Academy o f Sciences, có giấy xác nhận đăng năm 2016, V 16, N.4 (12/2016).
[4]
N. Thien, Demetrovics J., V.D.Thi, N.L.Giang, N.N. Son “ A method to
contruct extention fuzzy information granularity based on fuzzy distance” J.
Serdica of Computing, 2016, Bulgarian Academy of Sciences, V 10, N .l, pp
13-30
[5]
Demetrovics J., Huong N.T.L., V.D.Thi, N.L.Giang “ Metric Based
Attribute Method in Dynamic Decision Tables” J. Commucations and
Information Technologies - CIT, Bulgarian Academy of Sciences, 2016, V.16,
N.2, pp. 3-15.
[6]
Demetrovics J., Quang H.M., V.D.Thi, N .v. Anh “ An optimization o f
closed frequent subgraph mining algorith” J. Commucations and Information
Technologies - CIT, Bulgarian Academy of Sciences. Có giấy xác định dăng
sổ 1 năm 2017.
[7]
Demetrovics J., Quang H. M., V.D.Thi, N.V.Anh “ An efficient method
to reduce the size of consistent decision tables” J. ACTA CYBERNETICA,
Hungarian Academy o f Sciences. ( Accepted 2017).

Các bài báo trong nư ớ c:
[8]

Hoàng Minh Quang, Vũ Đức Thi, Kiều Thu Thủy. Đào Văn Tuyết.
Phan Trung Kiên. Khai phá cây con thường xuyên trên cơ sở dữ liệu
WEBLOGS. Kỷ yếu Hội nghị “Nghiên cứu cơ bản và ứng dụng Công nghệ
thông tin” lần thứ VIII (FAIR 8). Viện CNTT-ĐHQGHN, tháng 07 năm 2015.
p. 327-335.

attribute reduction in numerial decision tables “ Chuyên san “ Nghiên cứu và
phát triển về CNTT và TT” - Bộ Thông tin và truyền thông, có giấy xác nhận
đăng s 1,N. 16(36).
[15]
Vũ Đức Thi, “ Công nghệ tri thức”, sách chuyên khảo, Nhà xuất bản
Khoa học tự nhiên và công nghệ , tháng 11/2016

4.3. Sản phẩm đào tạo:
+ Số lượng thạc sỹ: 05.
25

Nhờ tải bản gốc

Tài liệu, ebook tham khảo khác

Nghiên cứu phát triển một số phương pháp xử lí dữ liệu lớn và ứng dụng trong thương mại điện tử - Pdf 57

Tài liệu, ebook tham khảo khác

Học thêm