Câu 1+3 Dữ liệu lớn tron kinh tế và kinh doanh

You might also like

Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 8

Câu 1:

* Đặc trưng cơ bản của dữ liệu lớn là mô hình 5V: Volume(Kích thước),
Variety(Đa dạng), Velocity( Tốc độ),Veracity(Độ tin cậy), value(Giá trị). Đây là 5
tính chất quan trọng của dữ liệu lớn được công bố bởi Gartner - một công ty nghiên
cứu và tư vấn công nghệ thông tin hàng đầu thế giới.

- Kích thước(Volume): Đúng như cái tên dữ liệu lớn(Big Data) dung lượng của dữ
liệu có kích thước rất lớn. Với kích thước lớn đến mức hàng Zettabyte hay
Brontobyte. Dung lượng của Big Data đang tăng lên mạnh mẽ từng ngày. Theo
một báo cáo của IDC(International Data Corporation), năm 2011, lượng dữ liệu
được tạo ra trên thế giới tăng gần 9 lần chỉ trong vòng 5 năm. Vào tháng 9/2013,
Intel đưa ra tài liệu cho rằng cứ mỗi 11 giây, 1 petabyte dữ liệu sẽ được tạo ra trên
toàn thế giới, tương đương với một đoạn video HD dài 13 năm.Hay từ thí nghiệm
Máy gia tốc hạt lớn(LHC) ở châu Âu. Kết quả của thí nghiệm ghi nhận 150 triệu
cảm biến với nhiệm vụ truyền tải dữ liệu khoảng 40 triệu lần mỗi giây. Nếu như
ghi nhận hết kết quả từ mọi cảm biến thì luồng dữ liệu trở nên vô cùng lớn, có thể
đạt 150 triệu Petabyte mỗi năm, hoặc 500 Exabyte mỗi ngày, cao hơn 200 lần tất
cả các nguồn dữ liệu khác trên thế giới gộp lại.
Trong mỗi giây như thế lại có đến khoảng 600 triệu vụ va chạm giữa các hạt chất
diễn ra, nhưng sau lọc lại từ khoảng 99,99% các luồng dữ liệu đó, chỉ có 100 vụ va
chạm là được các nhà khoa học quan tâm. Điều này có nghĩa là cơ quan chủ quản
của hệ thống LHC phải tìm những biện pháp mới để quản lý và xử lí hết số dữ liệu
khổng lồ này.
Việc tăng trưởng nhanh khiến dữ liệu trở nên quá lớn để lưu trữ và phân tích theo
cơ sở dữ liệu truyền thống. Để quản lý được dữ liệu khổng lồ, cơ quan của hệ
thống LHC đã áp dụng nhiều cách khác nhau. Việc áp dụng công nghệ điện toán
đám mây, tại các trung tâm dữ liệu đã giúp chúng ta có thể lưu trữ và sử dụng
những tập dữ liệu này với sự giúp đỡ từ hệ thống phân tán, nơi mà dữ liệu chỉ được
lưu trữ một phần tại các địa điểm khác nhau và được quản trị bởi các phần mềm
chuyên dụng.
- Tốc độ(Velocity): Ngoài đặc trưng đầu tiên là khối lượng rất lớn thì khi nói đến
Big data là phải nói đến tốc độ dữ liệu mới được tạo ra và tốc độ xử lý dữ liệu hiện
nay. Với sự ra đời của các kỹ thuật, công cụ, ứng dụng lưu trữ, nguồn dữ liệu lớn
liên tục được bổ sung với tốc độ nhanh chóng. Tổ chức McKinsey Global ước tính
lượng dữ liệu đang tăng trưởng với tốc độ 40%/năm. Hãy tưởng tượng đó là các
thông điệp của mạng xã hội lan truyền theo đơn vị giây hay đó là tốc độ mà các
giao dịch thẻ tín dụng gian lận được kiểm tra. Một ví dụ cụ thể cho khối lượng dữ
liệu tạo ra, vào năm 2016 lượng truy cập toàn cầu chỉ là 6.2 exabytes/tháng, đến
năm 2020 thì con số này lên đến 40.00 exabytes/tháng. Điều này có thể giải thích
được, dữ liệu hiện nay phát triển nhanh đến mức nào.
Công nghệ dữ liệu lớn cho phép chúng ta phân tích dữ liệu ngay khi chúng đang
được tạo ra mà không cần lưu trữ chúng trong các cơ sở dữ liệu. Xử lý dữ liệu
nhanh ở mức thời gian thực, có nghĩa dữ liệu được xử lý ngay tức thời ngay sau
khi chúng phát sinh( tính bằng mili giây).
- Đa dạng(Variety): Đặc trưng thứ ba là sự đa dạng của các loại dữ liệu. Sự đa dạng
của dữ liệu đến từ nhiều nguồn khác nhau, như từ các thiết bị cảm biến, thiết bị di
động, hay thông qua các trang mạng xã hội. Sự đa dạng dữ liệu được thể hiện qua
các yếu tố:
+ Đa dạng về nguồn gốc: Dữ liệu lớn có thể được thu nhập từ nhiều nguồn khác
nhau, bao gồm các nguồn dữ liệu nội bộ của tổ chức, dữ liệu từ các nguồn bên
ngoài như mạng xã hội, trang web, máy cảm biến, thiết bị Iot( Internet of Things),
các hệ thống giao thông và nhiều nguồn dữ liệu khác.
+ Đa dạng về kích thước: Dữ liệu lớn thường có kích thước lớn, từ hàng terabyte
đến petabyte hoặc thậm chí exabyte. Điều này có nghĩa dữ liệu lớn bao gồm một
lượng lớn thông tin và chi tiết về các sự kiện, giao dịch, hành vi người dùng và
nhiều thông tin khác.
+ Đa dạng về định dạng: Dữ liệu lớn có thể tồn tại dưới nhiều định dạng khác nhau
như văn bản, hình ảnh, âm thanh, video, tệp đồ thi, tệp dạng bảng và nhiều định
dạng khác.
+ Đa dạng về tốc độ: Dự liệu lớn thường được tạo ra và cập nhật liên tục từ nhiều
nguồn khác nhau. Ví dụ, dữ liệu từ các mạng xã hội được tạo ra trong thời gian
thực, dữ liệu từ máy cảm biến Iot được gửi với tốc độ nhanh. Điều này yêu cầu khả
năng xử lý dữ liệu lớn và phân tích nhanh chóng để tận dụng được giá trị của dữ
liệu.
Sự đa dạng của dữ liệu lớn đòi hỏi các công nghệ và phương pháp xử lý dữ liệu
phù hợp, bao gồm kho dữ liệu, công cụ phân tích dữ liệu, thuật toán thông minh để
tìm ra những thông tin quan trọng, xu hướng và hiểu biết từ dữ liệu đa dạng này.
- Độ tin cậy( Veracity): Tính chất phức tạp nhất của dữ liệu lớn là độ tin cậy/độ
chính xác của dữ liệu vì khối lượng lớn thường đi kèm với việc thiếu chính xác và
chất lượng của dữ liệu.
Tính xác chất là một đặc tính của dữ liệu lớn liên quan đến tính nhất quán, độ
chính xác, chất lượng hay độ tin cậy của dữ liệu. Tính xác thực của dữ liệu đề cập
đến sự sai lệch, nhiễu, bất thường trong dữ liệu. Nó đề cập đến dữ liệu không đầy
đủ hoặc sự hiện diện của lỗi, giá trị ngoại lệ. Để chuyênr đổi loại dữ liệu này thành
nguồn thông tin nhất quán sẽ là một thách thức lớn cho các tổ chức và doanh
nghiệp.
Trong khi trọng tâm chính của các doanh nghiệp là sử dụng toàn bộ tiềm năng của
dữ liệu để thu thập thông tin chi tiết, họ có xu hướng bỏ lỡ các vấn đề do quản trị
dữ liệu kém gặp phải. Khi chúng ta nói về độ chính xác của dữ liệu lớn, nó không
chỉ là về chất lượng của dữ liệu mà còn phụ thuộc vào mức độ đáng tin cậy của
nguồn dữ liệu và các quy trình dữ liệu của bạn.
Chẳng hạn, để biết tác động của tác động của tính tin cậy của dữ liệu bằng cách có
thông tin của hàng triêu người có nhu cầu tiêu dùng một loại hàng hóa của doanh
nghiệp. Tuy nhiên, dữ liệu này không thể chuyển đổi thành dữ liệu bán hàng do
thông tin khách hàng không chính xác. Chất lượng dữ liệu kém hoặc dữ liệu không
chính xác có thể dẫn đến việc nhắm sai mục tiêu khách hàng và thông tin liên lạc,
điều này gây thiệt hại về doanh thu cho doanh nghiệp.
Bài toán phân tích và loại bỏ dữ liệu thiếu chính xác và nhiễu đang là tính chất
quan trọng của dữ liệu lớn. Tất nhiên dữ liệu không được phép sai hoàn toàn,
nhưng chúng ta sẵn sàng hy sinh một chút trong sự chính xác để đổi lại hiểu biết về
xu hướng của chúng. Dữ liệu lớn biến đổi các con số thành một cái gì đó mang tính
xác suất nhiều hơn là tính chính xác.
- Giá trị(Value): Chữ V cuối cùng được đề cập đến của dữ liệu lớn và là yếu tố
quan trọng nhất. Nó đề cập đến giá trị của Big Data có thể cung cấp và liên quan
trực tiếp đến những tổ chức có thể làm với dữ liệu được thu thập đó. Việc tiếp cận
được dữ liệu lớn lớn sẽ chẳng có ý nghĩa nếu chúng ta không chuyển được chúng
thành những thứ có giá trị vì giá trị của dữ liệu lớn tăng đáng kể tùy thuộc vào
những hiểu biết sâu sắc có thể thu được từ chúng.
Ví dụ như chúng ta có bộ dữ liệu của hàng tỷ hoạt động khám chữa bệnh của các
bệnh nhân tại một bệnh viện lớn trong thời gian 5 năm gần đây mà được lưu trữ
một cách cơ học trên hệ thống máy chủ thì cũng sẽ không mang lại giá trị cho bệnh
viện và bệnh nhân. Tuy nhiên nếu bộ dữ liệu đó được đem đi phân tích nhằm tìm
kiếm được các xu hướng khám chữa bệnh, các loại thuốc nào điều trị hiệu quả hơn,
loại bệnh nào người bệnh hay mắc phải,...thì sẽ mang lại giá trị rất lớn cho cả bệnh
viện và cộng đồng vì sẽ giúp dự báo về sức khỏe chính xác hơn, giảm được chi phí
điều trị và chi phí liên quan đến y tế.
Hay ví dụ khác cũng thể hiện được giá trị của dữ liệu lớn là quá trình chuyển đổi
số của mỗi tổ chức và doanh nghiệp. Trong những năm gần đây, khi nhu cầu về
chuyển đổi số ngày càng tăng, dữ liệu lớn đã nổi lên như một nguồn nhiên liệu
chính tiếp sức cho cuộc hành trình này. Khả năng phân tích một lượng lớn dữ liệu
cấu trúc và dữ liệu phi cấu trúc để có được những thông tin chi tiết, thường là theo
thời gian, là cơ sở nền tảng của hầu hết các nỗ lực chuyển đổi số, vì thông tin chi
tiết thu được thông qua phân tích dữ liệu được sử dụng để thúc đẩy quá trình số
hóa và tự động hóa quy trình làm việc. Khi các tổ chức có thể tận dụng được dữ
liệu lớn cho mục đích báo cáo và cải tiến quy trình thì “giá trị đích thực sẽ đến từ
khả năng kết hợp dữ liệu lớn với các nỗ lực chuyển đổi số để cho phép số hóa và tự
động hóa toàn bộ hoạt động nhằm thúc đẩy hiệu quả và các mô hình kinh doanh
mới”. Nếu chuyển đổi số cho mổi tổ chức và doanh nghiệp là con đường thì dữ liệu
lớn là một trong những phương tiện giúp đi nhanh trên con đường đó.
* Nếu như bản thân là chủ sở hữu nguồn dữ liệu của 1 tỷ người sử dụng mạng xã
hội thì em sẽ có các giải pháp kinh doanh hợp pháp cho dữ liệu lớn này: Sử dụng
nguồn dữ liệu này để phân tích xu hướng sở thích thói quen của người dùng và đề
xuất các sản phẩm phù hợp cho khách hàng. Liên kết với các doanh ngiệp khác để
chia sẻ, trao đổi dữ liệu, tạo giá trị gia tăng từ nguồn dữ liệu có sẵn. Phân tích dữ
liệu để nhận biết nhu cầu, xu hướng để định hình chiến lược để phát triển sản phẩm
phù hợp nhu cầu khách hàng tiềm năng. Tạo các chiến dịch quảng cáo, marketing,
tiếp thị phù hợp với chi phí thấp, hiệu quả cao từ thông tin chi tiết về thông tin
khách hàng. Cải thiện trải nghiệm dịch vụ tới khách hàng làm tăng sự tin tưởng,
yêu thích của khách hàng tới thương hiệu của mình. Tiết kiệm được chi phí cho
doanh nghiệp bằng cách nhắm đến các đối tượng khách hàng có giá trị cao. Đối với
những trang web thương mại điện tử, xác định nhóm khách hàng mang lại doanh
thu cao rất hữu ích cho việc nhắm mục tiêu các chiến dịch và xây dựng rõ mục tiêu
tiếp thị.
Việc áp dụng các biện pháp phải dự trên 5 đặc trưng của dữ liệu lớn để khai thác
được hiệu quả:
- Dựa vào đặc trưng kích thước: Áp dụng kỹ thuật phân tích đám đông khách hàng
để xác định hành vi tiêu dùng rồi đưa ra chiến lược tiếp thị, quảng cáo, marketing
phù hợp.
-Dựa vào đặc trưng tốc độ: Sử dụng công cụ phân tích và dự báo xu hướng thông
qua xu hướng hoạt động mạng xã hội để phát triển sản phẩm và dịch vụ phù hợp.
- Dựa vào đặc trưng đa dạng: Tìm được nhóm khách hàng tiềm năng thông qua
nhiều loại dữ liệu khác nhau: hình ảnh, âm thanh,..thể hiện thông tin người dùng;
tìm ra các đặc điểm chung để phân khúc khách hàng tiềm năng theo độ tuổi, giới
tính,.. và đưa ra các tiếp cận trực tiếp theo nhu cầu của tệp khách hàng.
-Dựa vào đặc trưng độ tin cậy: Đánh giá được chính xác các thông tin cá nhân
khách hàng về tài khoản, bình luận, tin nhắn,... nhằm kiểm tra thông tin họ có đúng
hay không, có từng dính vào những điều tiêu cực không nhằm đưa giải pháp giải
quyết hoặc loại bỏ ra khỏi dữ liệu đang tìm kiếm.
- Dựa vào đặc trưng giá trị: Đem lại thêm giá trị có người dùng bằng các sản phẩm
chất lượng được cải thiện.
Câu 3:
* Sơ lược về 4 kỹ thuật phân tích dữ liệu: Phân lớp dữ liệu, phân cụm dữ liệu, phát
hiện luật kết hợp và hồi quy.
- Phân lớp dữ liệu: Là một kỹ thuật trong khai phá dữ liệu mà trong đó ta gắn tên
lớp cho một phần tử của tập dữ liệu dựa vào đặc điểm của lớp. Bản chất là quá
trình gán nhãn cho một đối tượng dữ liệu mới vào một lớp ( trong tập nhãn đã cho
trước) nhờ một mô hình phân lớp. Tập nhãn hữu hạn với vài giá trị rời rạc( dữ liệu
phân loại). Phân lớp dữ liệu chính là quá trình phân tích dữ liệu có sẵn để trích rút
ra mô hình mô tả dữ liệu hoặc dự báo xu hướng tiếp theo.. Để thực hiện cần trải
qua hai giai đoạn là: Giai đoạn học hay huấn luyện và giai đoạn phân lớp.
Giai đoạn học là giai đoạn xây dựng mô hình mô tả dữ liệu dựa trên bộ dữ liệu đã
biết trước nhãn lớp hay dữ liệu huấn luyện. Dữ liệu huấn luyện là tập các phần tử
dữ liệu có gán nhãn, trong đó có một thuộc tính là thuộc tính lớp cho biết phần tử
dữ liệu này gán nhãn của lớp nào. Quá trình huấn luyện thực hiện bằng một thuật
toán phân lớp, thực hiện học dữ liệu huấn luyện để rút ra thông tin và xác định mô
hình mô tả dữ liệu. Mô hình chính là các quy tắc, luật hay công thức toán mô tả
lớp.
Giai đoạn phân lớp là giai đoạn sử dụng mô hình xây dựng được ở giai đoạn huấn
luyện để phân lớp dữ liệu mới nếu hiệu quả thì đựo chấp nhận. Trước khi sử dụng
mô hình người ta phải đánh giá tính chính xác: Nhãn được biết của mẫu kiểm tra
được so sánh với kết quả phân lớp mô hình, độ chính xác là phần trăm của tập hợp
mẫu kiểm tra mà phân loại đúng bởi mô hình, tập kiểm tra độc lập với tập huấn
luyện. Phân lớp là một hình thức học được giám sát ( tập dữ liệu huấn luyện: Quan
sát, thẩm định) đi đôi với những nhãn chỉ định lớp quan sát,những dữ liệu mới
được phân lớp dựa trên tập huấn luyện.
Các mô hình: Cây quyết định, rừng ngẫu nhiên, K phần tử gần nhất(K-Nearest
Neighbor), Naive Bayes, máy vecto hỗ trợ(SVM).

Mô hình cây quyết định

- Phân cụm dữ liệu: Từ một tập dữ liệu lớn chưa được gán nhãn(đánh dấu xem một
phần tử dữ liệu thuộc lớp nào) sẽ phân nhỏ ra thành các cụm nhỏ hơn sao cho các
phần tử liệu trong cùng một cụm sẽ có sự tương nhau cao hơn so với các phần tử ở
cụm khác nhau. Để đo sự tương tự hay khác biệt của các phần tử dữ liệu thông
thường là sử dụng đo độ khoảng cách. Đặc điểm: Số cụm dữ liệu không được biết
trước, có nhiều cách tiếp cận, mỗi cách có vài kỹ thuật. Các kỹ thuật khác nhau
mang lại kết quả khác nhau. Các yêu cầu phân cụm: Có khả năng mở rộng, khả ăng
thích nghi với các kiểu thuộc tính khác nhau, khả năng thích nghi với dữ liệu
nhiễu, tối thiểu lượng tri thức cần xác định các tham số đầu vào, số chiều lớn, phân
cụm ràng buộc, dễ hiểu và dễ sử dụng. Các phương pháp phân cụm: Phân cụm
phẳng và phân cụm phân cấp, phân cụm dựa vào mật độ, phân cụm dựa trên lưới,
phân cụm dựa trên mô hình, phân cụm đơn định, phân dựa vào số chiều lớn hay
trên ràng buộc, phân cụm theo lô. Thuật toán phổ biến là: K-means và DBSCAN

- Phát hiện luật kết hợp: Tìm kiếm các mối quan hệ và mẫu quy luật dự đoán giữa
các mục trong dữ liệu. Tìm ra các mối quan hệ tương quan, kết hợp giữa các đối
tượng để tạo ra giá trị cao hơn. Ví dụ như những nhóm mặt hàng nào khách hàng
mà khách hàng hay mua cùng nhau thì sẽ được đặt cạnh nhau. Mục tiêu là tìm ra
các mẫu tương quan và quy tắc kết hợp giữa các mục trong tập dữ liệu. Nó giúp
phát hiện mối quan hệ tiềm ẩn và tạo ra thông tin giá trị , hỗ trợ ra quyết định và dự
đoán trong nhiều lĩnh vực khác nhau.

- Hồi quy: Kỹ thuật hồi quy thuộc dạng phân tích dự đoán và mô hình dự đoán
được huấn luyện dựa trên dữ liệu mẫu đã được gán nhãn hay là sử dụng phương
pháp giám sát. Với tập nhãn dự đoán là một miền số thực liên tục. Là bài toán gán
nhãn cho dữ liệu thực, biểu diễn và dự đoán đầu ra dựa trên tổng quát hóa các dữ
liệu từ đầu vào để tìm ra một hàm dự đoán. Dễ gặp phải rối hay nhiễu hoặc quan
sát dữ liệu sai. Xây dựng bài toán từ dữ liệu đầu vào các tập thuộc tính X được gán
nhãn tương úng tập nhãn Y (miền liên tục). Ví dụ như dự đoán giá cước đi của
Grab sau một vài lần đi và thống kê về số đường đi (Km) và đưa ra mối liên hệ giá
cước. Kỹ thuật hồi quy sử dụng trong phân tích dữ liệu sẽ có những tiêu chí phân
loại khác nhau thì có sự phân loại khác nhau. Một số loại kỹ thuật phân tích hồi
quy: Hồi quy tuyến tính, hồi quy đa thức, hồi quy từng bước,...
Mục đích: Mô hình hóa mối quan hệ giữa các biến phản ứng vô hướng và nhiều
biến giải thích
* So sánh phân cụm và phân lớp dữ liệu: Đây đều là hai kỹ thuật phân tích dữ liệu
quan trọng nhưng lại có sự khác nhau cơ bản về mục đích và phương pháp.
- Phân cụm dữ liệu: Nhóm các điểm dữ liệu tương tự nhau (tương đồng) dựa trên
các đặc điểm của chúng mà không cần nhãn. Thường được sử dụng để khám phá
dữ liệu.
+ Có mục đích là nhóm các dữ liệu tương tự nhau dựa trên các đặc điểm của chúng
mà không cần đến sự giám sát từ trước.
+ Sử dụng phương pháp không giám sát, tức không có nhãn dữ liệu từ trước. Ứng
dụng hữu ích trong việc khám phá dữ liệu và tìm ra các mẫu cơ bản hoặc cấu trúc
tự nhiên trong dữ liệu
- Phân lớp dữ liệu: Phân loại dữ liệu dựa vào các lớp đã được xác định từ trước.
Dữ liệu có nhãn và phân loại chúng vào các lớp cụ thể. Có yêu cầu kiến thức về
các lớp dữ liệu.
+ Có mục đích là gán nhãn cho các điểm dữ liệu mới dựa trên một tập hợp các lớp
đã được xác định từ trước.
+ Sử dụng phương pháp kỹ thuật học có giám sát ( dữ liệu được gán nhãn từ trước
để huấn luyện mô hình). Ứng dụng trong công tác nhận diện và phát hiện như nhận
diện giọng nói hoặc thư rác.
* Ví dụ trong thực tế về kỹ thuật phân cụm và phân lớp:
- Ví dụ phân lớp dữ liệu: Các dịch vụ trực tuyến (Facebook, Tiktok,..) có thể chia
sẻ ảnh, tin hay video thì cần một hệ thống phân lớp có khả năng phát hiện các tin,
hình ảnh, video có nội dung không phù hợp với các vấn đề văn hóa, chính trị hay
có các nội dụng dung tục để ngăn chặn tự động. Không để các nội dụng này lan
truyền ngày càng rộng.
- Ví dụ về phân cụm dữ liệu: Trong thư viện thì các loại sách có những nội dung và
ý nghĩa tương đồng nhau thì sẽ được cạnh kế nhau để dễ dàng cung cấp cho đọc
giả

You might also like