92
DIỄN ĐÀN KHOA HỌC
Các công cụ khai phá dữ liệu lớn
Dữ li u lớn liên quan chặt chẽ với ph n m m mã
nguồn mở. N n t ng xử lý dữ li u lớn l Hadoop với
c c ph n m m:
- Apache Hadoop cho phép xử lý dữ li u lớn d nh
cho c c ứng d ng dữ li u phân t n, d a trên mô
h nh lập tr nh MapReduce v h thống file phân t n.
Hadoop cho phép viết c c ứng d ng xử lý dữ li u
song song, xử lý dữ li u theo lô v c kh năng xử lý
khối lư ng dữ li u c c lớn.
- C c ứng d ng liên quan đến Apache Hadoop:
Apache Pig, Apache Hive, Apache HBase, Apache
ZooKeeper, Apache Cassandra…
- Apache S4 (Simple Scalable Streaming System):
n n t ng xử lý luồng dữ li u liên t c theo thời gian
th c.
C c n n t ng mã nguồn mở ph biến nhất sử d ng
cho khai ph dữ li u lớn:
- Apache Mahout: Ph n m m học m y v khai ph
dữ li u mã nguồn mở d a chủ yếu trên Hadoop. Ph n
m m n y tri n khai nhi u thuật to n học m y v khai
ph dữ li u: Phân c m, phân lớp, lọc cộng t c v khai
ph mẫu.
- R: Một ngôn ngữ lập tr nh mã nguồn mở đư c
thiết kế cho t nh to n thống kê. Rđư c thiết kế bởi Ross
Ihaka Robert Gentleman t i Đ i học Auckland, New
Zealand t năm 1993 v d ng cho phân t ch thống kê
với tập dữ li u rất lớn. R c chứa nhi u lo i kỹ thuật
thống kê: Mô h nh h a tuyến t nh v phi tuyến, ki m
thử thống kê c đi n, phân t ch chuỗi thời gian, phân
lớp, phân c m. R c th t o ra những đồ thị chất lư ng
cao c ng c c bi u tư ng to n học.
- MOA: Ph n m m khai ph dữ li u theo thời gian
th c. Ph n m m n y tri n khai c c kỹ thuật khai ph :
Phân lớp, hồi quy, phân c m…
- Vowpal Wabbit (VW): D n mã nguồn mở do
Yahoo khởi xướng v đư c Microsoft tiếp t c ph t
tri n.
Như vậy, khai ph dữ li u lớn l một l nh v c
nghiên cứu đ y th ch thức bởi n vư t qua h u hết
những giới h n của c c kỹ thuật khai ph dữ li u hi n
thời. Những th ch thức trong l nh v c n y bao gồm:
S đa d ng/không đồng nhất, quy mô, tốc độ/t nh
chuy n động liên t c, t nh ch nh x c v tin cậy, b o
mật, tương t c của dữ li u.
Tài liệu tham khảo:
1. Beyer, M.A, Laney, D: The Importance of ‘big data’: A Definition. Gartner (2012);
2. Laney, D.: 3D Data Management: Controlling Data Volume, Velocity and Variety.
Gartner (2001);
3. New Vantage Partners: Big Data Executive Survey 2013,
com/wpcontent/uploads/2013/02/NVP-Big-Data-Survey-2013.
quyết vấn đ tốc độ. Cấu tr c chỉ số đa chi u đặc bi t
hữu ch cho dữ li u lớn.
Một hướng tiếp cận kh c nh m tăng tốc độ truy
cập v khai ph dữ li u lớn l khai th c kỹ thuật song
song ho trong vi c truy cập v khai ph dữ li u. T nh
m m dẻo của xử lý song song c ng với đi n to n đ m
mây l cơ sở cho vi c th c đẩy hi u suất v kh năng
mở rộng của h thống khai ph dữ li u lớn. V vậy,
vi c thiết kế của c c mô h nh t nh to n song song mới
v hi u qu hơn bên c nh đ vẫn l th ch thức c n
gi i quyết.
Tính chính xác và tin cậy
Đối với dữ li u lớn, dữ li u c th đến t nhi u
nguồn kh c nhau. V vậy, độ ch nh x c v tin cậy của
c c nguồn dữ li u l một vấn đ c n xem xét. Đ gi i
quyết vấn đ n y, vi c x c minh nguồn gốc dữ li u l
bước quan trọng trong qu tr nh khai ph tri thức.
Dữ li u lớn c t nh động cao, do đ , h thống phân
t ch v qu n lý dữ li u ph i cho phép c c dữ li u đư c
qu n lý trong đ đư c thay đ i v ph t tri n. V vậy,
“dữ li u gốc” l th nh ph n không th thiếu của bất
k h thống xử lý dữ li u lớn n o. Dữ li u gốc liên
quan đến lịch sử ph t tri n, tiến ho hoặc nguồn gốc
m dữ li u đư c tr ch xuất hay thu thập. Khi dữ li u
ph t tri n, c c độ đo độ tin cậy c n đư c thay đ i hoặc
cập nhật, do đ , c c độ đo n y không nên đặt cố định.
Nguồn gốc của dữ li u g p ph n tr c tiếp v o độ
ch nh x c v tin cậy của kết qu khai ph dữ li u. Tuy
nhiên, thông tin v nguồn gốc dữ li u không ph i l c
n o cũng c sẵn hoặc đư c ghi chép. Vi c khai ph
dữ li u c th đư c sử d ng đ ph t hi n v x c minh
nguồn gốc của dữ li u.
Bảomật
Dữ li u riêng tư luôn l vấn đ c n xem xét trong
khai ph dữ li u. Vấn đ n y còn nghiêm trọng hơn
khi c c ứng d ng khai ph dữ li u lớn thường, đòi hỏi
c c thông tin c nhân đ t o ra c c kết qu c liên quan
đến t ng c nhân như c c dịch v d a trên địa đi m
(chẳng h n qu ng c o). Nếu không c l chắn b o v
th kẻ xấu dễ d ng lấy thông tin, t i s n v dữ li u...
Sự tương tác
S tương t c của một h thống khai ph dữ li u cho
phép người d ng tương t c một c ch nhanh ch ng v
đ y đủ. Sử d ng thông tin ph n hồi/hướng dẫn c th
gi p thu hẹp khối lư ng dữ li u, đẩy nhanh tốc độ xử
lý, tăng kh năng mở rộng của h thống. Đồng thời
cho phép người d ng c kh năng h nh d ng, đ nh
gi (ti n đ nh gi ) v gi i th ch kết qu khai ph trung
gian v cuối c ng.