TÀI CHÍNH -
Tháng 7/2016
91
to n kh th vị đ xử lý c c dữ li u không đồng nhất.
Theo đ , t c gi sử d ng kỹ thuật phân ho ch tập dữ
li u ban đ u th nh c c tập con đồng nhất v p d ng
một mô h nh chuyên bi t cho mỗi tập con đồng nhất
đ . Kỹ thuật n y gi p đẩy nhanh qu tr nh kh m ph
tri thức t dữ li u lớn không đồng nhất, thế nhưng
c th l m bỏ s t c c tri thức ti m năng một khi vi c
phân ho ch l m ph vỡ c c mối quan h quan trọng
trong dữ li u.
Quymô dữ liệu
Dung lư ng v quy mô lớn của dữ li u đòi hỏi c c
công c qu n lý v khai ph ph i đư c c i tiến tương
ứng. Những hướng tiếp cận dưới dây nếu đư c p
d ng h p lý sẽ đem l i hi u qu trong khai ph dữ
li u lớn: Đi n to n đ m mây kết h p với t nh to n
song song; Tương t c người d ng v h thống trở nên
nhanh ch ng v hi u qu .
Tốc độ/tính chuyển động liên tục
Kh năng truy nhập nhanh v khai ph dữ li u lớn
l một nhi m v xử lý đặc bi t đối với c c dòng dữ
li u, ph i ho n th nh vi c xử lý/khai ph dòng dữ li u
đ trong một thời gian nhất định. Nếu không, kết qu
xử lý/khai ph đ sẽ trở nên t c gi trị, thậm ch l
vô gi trị. Chẳng h n, ứng d ng đòi hỏi ch y theo thời
gian th c như d đo n động đất, d đo n thị trường
chứng kho n, thị trường ngo i hối…
Tốc độ khai ph dữ li u ph thuộc v o hai yếu
tố ch nh: (1) thời gian truy cập dữ li u; (2) hi u qu
của c c thuật to n khai ph dữ li u. Vi c khai th c c c
chương tr nh lập chỉ m c tiên tiến l ch a kh a gi i
Cơ hội và thách thức
C ch m ng công ngh đã t o ra nguồn dữ li u to
lớn với s b ng n của thiết bị kỹ thuật số, c c thiết
bị c m biến… t o ra dữ li u lớn. Xu thế n y sẽ không
ng ng ph t tri n m nh mẽ. M c tiêu của c c kỹ thuật
khai ph dữ li u lớn l đưa ra đư c c c thông tin yêu
c u hoặc thậm ch ph t hi n ra những mối quan h ẩn
v c c mẫu trong h ng lo t c c tham số. Vi c phân t ch
c c dòng dữ li u nhanh v lớn c th đưa ra những tri
thức mới c gi trị v thậm ch l c c kh i ni m mang
t nh lý thuyết. Tuy nhiên, đi u n y mang l i nhi u
những th ch thức cho cộng đồng nghiên cứu.
Sự đa dạng và không đồng nhất
S đa d ng l một trong những đặc đi m quan
trọng của dữ li u lớn, đây l kết qu g n như không
giới h n c c nguồn dữ li u. Vi c khai ph những dữ
li u lớn l một th ch thức lớn đến mức kh c th d
đo n đư c, bởi lẽ vi c xử lý những nguồn dữ li u gồm
c cấu tr c, b n cấu tr c v phi cấu tr c n y l vấn
đ phức t p. C c h thống cơ sở dữ li u n y c th
ph h p với cấu tr c dữ li u c cấu tr c hoặc ph h p
một ph n mới dữ li u b n cấu tr c nhưng chắc chắn
l không ph h p với dữ li u phi cấu tr c. Tuy nhiên,
t nh không đồng nhất của dữ li u cũng đem l i những
cơ hội kh m ph tri thức mới.
Th c tế cho thấy, vi c xây d ng một mô h nh đơn
đ khai ph dữ li u không đồng nhất c th dẫn đến
kết qu khai ph không chấp nhận đư c. Do vậy, c n
ph i xây d ng c c h thống phức t p, đa mô h nh.
Vucetic - chuyên gia tin học đã giới thi u một thuật
CƠHỘI, THÁCHTHỨC VÀ CÔNG CỤKHAI THÁC DỮ LIỆU
THÔNGTINTRONGBỐI CẢNHMỚI
ThS. LÊ QUÝ TÀI
- Học viện Ngân hàng
Rất khó có thể quản lý, khai phá được các dữ liệu có kích thước lớn với các phương pháp và công cụ hiện có
do tính đa dạng của dữ liệu, tính chuyển động liên tục của dữ liệu và độ lớn của dữ liệu. Từ đây nảy sinh
ra thuật ngữ khai phá dữ liệu lớn với mục đích khai phá tri thức từ các nguồn dữ liệu lớn. Việc khai phá dữ
liệu lớn thực sự là một thách thức và cũng là cơ hội đặt ra trong những năm tới. Bài viết khái quát về khai
phá dữ liệu lớn với cơ hội, thách thức đang đặt ra cũng như những công cụ khai phá dữ liệu lớn đã và đang
được sử dụng.
•
Từ khoá: Khai phá, dữ liệu, thông tin, tri thức, quản lý.