N I Dung Chương1

You might also like

Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 39

Chương 1: Tổng quan về Big Data

Big Data là các tập dữ liệu có khối lượng lớn và phức tạp. Độ lớn đến
mức các phần mềm xử lý dữ liệu truyền thống không có khả năng thu thập,
quản lý và xử lý dữ liệu trong một khoảng thời gian hợp lý.

Những tập dữ liệu lớn này có thể bao gồm các dữ liệu có cấu trúc, không
có cấu trúc và bán cấu trúc, mỗi tập có thể được khai thác để tìm hiểu insights.

Các giải pháp Big Data cung cấp các công cụ, phương pháp và công nghệ
được sử dụng để nắm bắt, lưu trữ, tìm kiếm và phân tích dữ liệu trong vài giây
để tìm mối quan hệ và hiểu biết về cải tiến và lợi ích cạnh tranh mà trước đây
không có.

Công nghệ Big Data

Có rất nhiều công nghệ được giải quyết vấn đề để lưu trữ và xử lý Big
Data.Những công nghệ đó là Apache Hadoop,Apache Spark,Apache
Kafka,v..v.. Dưới đây là thông tin tổng về công nghệ này

PAGE \* MERGEFORMAT 5
Ví dụ như phương pháp cá nhân hóa nội dung đề xuất cho mỗi người trên
các nền tảng Spotify, Netflix, Youtube, các nền tảng Thương mại điện tử như
Shopee, Lazada,...

Đặc trưng của Big data


Đặc trưng của Big data bao gồm 3 yếu tố chính, được gọi là "3V": lượng
dữ liệu lớn (volume), tốc độ xử lý nhanh (velocity) và tính đa dạng, linh hoạt
(variety).

Volume - Khối lượng dữ liệu

Big data là thuật ngữ nói về khối lượng dữ liệu lớn, kích thước lớn. Xác
định giá trị của dữ liệu và kích thước dữ liệu là rất quan trọng và cần thiết, nếu
khối lượng lớn, đó chính là Big data.

PAGE \* MERGEFORMAT 5
Volume là khối lượng dữ liệu được các doanh nghiệp thu thập từ các
nguồn khác nhau, như IoT (Internet of Things), video, giao dịch kinh doanh, các
phương tiện truyền thông xã hội,...

Khi công nghệ chưa có sự phát triển vượt bậc, việc lưu trữ lượng lớn dữ
liệu là một thách thức lớn. Tuy nhiên ngày nay, các nền tảng lưu trữ giá thành rẻ
như Hadoop và Data lake xuất hiện, việc lưu trữ đã trở nên dễ dàng hơn nhiều.

Velocity - Tốc độ xử lý

Dựa vào tốc độ xử lý của luồng dữ liệu để xác định đó có phải là Big data
hay không. Thường thì tốc độ của luồng dữ liệu trực tiếp vào bộ nhớ cao hơn so
với khi được ghi vào đĩa. Đặc biệt là ngày nay, với sự phát triển của IoT, các
luồng dữ liệu truyền tải với tốc độ cực nhanh và chúng phải được xử lý kịp thời.

Ví dụ: Trên mạng xã hội Facebook, các thông báo như status, tweet,... đã
cũ sẽ không được người dùng quan tâm và bị quên lãng nhanh chóng. Dữ liệu
giờ đây được tính gần như vào thời gian thực và tốc độ cập nhật thông tin
dường như giảm xuống đơn vị mili giây.

Variety - Tính đa dạng, linh hoạt

Đặc trưng tiếp theo của Big data chính là tính đa dạng, linh hoạt, ở dạng
cấu trúc và phi cấu trúc, bao gồm dữ liệu số, Email, Video, âm thanh, giao dịch
tài chính,... Tính đa dạng ảnh hưởng đến hiệu suất, đây là một trong những vấn
đề chính mà lĩnh vực Big data cần phải giải quyết.

Đặc trưng tiếp theo của Big data chính là tính đa dạng, linh hoạt, ở dạng
cấu trúc và phi cấu trúc, bao gồm dữ liệu số, Email, Video, âm thanh, giao dịch
tài chính,... Tính đa dạng ảnh hưởng đến hiệu suất, đây là một trong những vấn
đề chính mà lĩnh vực Big data cần phải giải quyết.

PAGE \* MERGEFORMAT 5
Ngoài 3 đặc trưng chính trên của Doug Laney, thì còn có thêm rất nhiều
tiêu chí khác xác định đặc trưng của Big data, bao gồm: Veracity (Xác thực),
Value (Giá trị), Relationality (Mối quan hệ),...

Lĩnh vực ứng dụng tốt nhất Big data


 Ngân hàng.
 Giáo dục.
 Ngành bán lẻ
 Y tế
 Truyền thông và giải trí
 Digital Marketing.
 Giao thông vận tải.
 Dịch vụ khách hàng.

Lĩnh vực công nghệ đề cập đến xử lý và phân tích dữ liệu lớn và phức
tạp

PAGE \* MERGEFORMAT 5
Dữ liệu lớn

Là một thuật ngữ cho việc xử lý một tập hợp dữ liệu rất lớn và phức tạp
mà các ứng dụng xử lý dữ liệu truyền thống không xử lý được. Dữ liệu lớn bao
gồm các thách thức như phân tích, thu thập, giám sát dữ liệu, tìm kiếm, chia sẻ,
lưu trữ, truyền nhận, trực quan, truy vấn và tính riêng tư. Thuật ngữ này thường
chỉ đơn giản đề cập đến việc việc sử dụng các phân tích dự báo, phân tích hành
vi người dùng, hoặc một số phương pháp phân tích dữ liệu tiên tiến khác trích
xuất giá trị từ dữ liệu mà ít khi đề cập đến kích thước của bộ dữ liệu.[2] "Vài
nghi ngờ cho rằng số lượng của dữ liệu có sẵn hiện nay thực sự lớn, nhưng đó
không phải là đặc trưng phù hợp nhất của hệ sinh thái dữ liệu mới này."[3]
Phân tích tập dữ hợp liệu có thể tìm ra tương quan mới tới "xu hướng
kinh doanh hiện tại, phòng bệnh tật, chống tội phạm và vân vân".[4] Các nhà
khoa học, điều hành doanh nghiệp, y bác sĩ, quảng cáo và các chính phủ cũng
thường xuyên gặp những khó khăn với các tập hợp dữ liệu lớn trong các lĩnh
vực bao gồm tìm kiếm internet, thông tin tài chính doanh nghiệp. Các nhà khoa
học gặp giới hạn trong công việc cần tính toán rất lớn, bao gồm khí tượng học,
bộ gen,[5] mạng thần kinh, các mô phỏng vật lý phức tạp, sinh vật học và nghiên
cứu môi trường.[6]thường bao gồm tập hợp dữ liệu với kích thước vượt xa khả
năng của các công cụ phần mềm thông thường để thu thập, hiển thị, quản lý và
xử lý dữ liệu trong một thời gian có thể chấp nhận được. Kích thước dữ liệu lớn
là một mục tiêu liên tục thay đổi. Như năm 2012 thì phạm vi một vài tá
terabytes tới nhiều petabytes dữ liệu. Dữ liệu lớn yêu cầu một tập các kỹ thuật
và công nghệ được tích hợp theo hình thức mới để khai phá từ tập dữ liệu đa
dạng, phức tạp, và có quy mô lớn.
Trong báo cáo nghiên cứu năm 2001 và những diễn giả liên quan, META
Group (bây giờ là Gartner) nhà phân tích Doug Laney định nghĩa những thách
thức và cơ hội tăng dữ liệu như là 3 chiều, tăng giá trị dữ liệu, tốc độ vào ra của
dữ liệu (velocity), và khổ giới hạn của kiểu dữ liệu (variety). Gartner, và nhiều
ngành công nghiệp tiếp tục sử dụng mô hình '3Vs' để mô tả dữ liệu lớn. Trong
năm 2012, Gartner đã cập nhật định nghĩa như sau: "Dữ liệu lớn là khối lượng
lớn, tốc độ cao và/hoặc loại hình thông tin rất đa dạng mà yêu cầu phương thức
xử lý mới để cho phép tăng cường ra quyết định, khám phá bên trong và xử lý
tối ưu". Định nghĩa '3Vs' của Gartner vẫn được sử dụng rộng rãi, và trong phù
hợp với định nghĩa đồng thuận.là: "Dữ liệu lớn tiêu biểu cho tập thông tin mà
đặc điểm như khối lượng lớn (Volume), tốc độ cao(Velocity) và đa dạng
(Variety) để yêu cầu phương thức phân tích và công nghệ riêng biệt để biến nó
thành có giá trị". Thêm nữa, vài tổ chức đã thêm vào tính xác thực(Veracity) để
mô tả về nó. 3Vs đã được mở rộng để bổ sung đặc tính của dữ liệu lớn.

 Volume: Khối lượng - dữ liệu lớn không có mẫu; nó chỉ thực hiện và lần
theo những gì diễn ra

PAGE \* MERGEFORMAT 5
 Velocity: Tốc độ - dữ liệu lớn thường được xử lý thời gian thực
 Variety: Đa dạng - dữ liệu lớn có thể thu thập từ văn bản, hình ảnh, âm
thanh, video, cộng với nó hoàn thành các phần dữ liệu thiếu thông qua tổng
hợp dữ liệu
 Machine Learning: Máy học - dữ liệu lớn thường không hỏi tại sao và đơn
giản xác định hình mẫu.
 Digital footprint: Dấu chân kỹ thuật số - dữ liệu lớn thường là phụ sinh miễn
phí của quá trình tương tác kỹ thuật số.
Phân loại Big data
Big data thường được phân loại dựa trên 3 yếu tố dữ liệu phổ biến: Dữ
liệu có cấu trúc, dữ liệu phi cấu trúc và dữ liệu bán cấu trúc.
Dữ liệu có cấu trúc
Dữ liệu có cấu trúc được xem là dữ liệu đơn giản nhất để quản lý và tìm
kiếm. Nó là những dữ liệu có thể truy cập, lưu trữ và xử lý ở định dạng cố định.
Các thành phần của dữ liệu có cấu trúc được phân loại dễ dàng, cho phép các
nhà thiết kế và

Chương 2. Tìm hiểu Big Data trong MS Excel


Dữ liệu là thứ mà tất cả chúng ta thường xuyên gặp trong cuộc sống
hàng ngày. Nó có thể là bất cứ thứ gì ví dụ như nhạc hoặc video được chuyển từ
một thiết bị di động sang thiết bị di động khác, nó có thể là dữ liệu khi sử dụng
internet 4G, hay tất cả ảnh của bạn trên ổ đĩa hoặc đơn giản là dữ liệu khi ta
đăng nhập vào tài khoản mạng xã hội.

Cùng với thời gian và tiến bộ trong CNTT, nhu cầu sử dụng mạng xã hội
đặc biệt cho các doanh nghiệp cũng tăng lên. Ta có thể thấy các nền tảng như
WhatsApp và Skype hiện nay tập trung phát triển các phiên bản dành cho doanh
nghiệp. Lý do là chúng ta đang dần chuyển sang thời đại dữ liệu. Nếu phân tích
các hoạt động hàng ngày, bạn sẽ nhận ra, dữ liệu đó là một cái gì đó mà ta tiếp
tục sử dụng bây giờ và mãi về sau.

Do việc sử dụng ngày càng nhiều phương tiện mạng xã hội, Wi-Fi công
cộng, có một lượng dữ liệu khổng lồ được tạo ra gần như mỗi ngày. Vì vậy, để
phân biệt dữ liệu này với dữ liệu truyền thống, người ta phát sinh ra thuật ngữ
Dữ liệu lớn (Big data).

Dữ liệu lớn có thể được định nghĩa là một khối lượng lớn dữ liệu không
thể lưu trữ trong hệ thống cơ sở dữ liệu truyền thống. Big Data không chỉ lớn
mà còn là một bộ dữ liệu thực sự phức tạp mà chúng ta không thể xử lý hoặc

PAGE \* MERGEFORMAT 5
thực hiện bất kỳ thao tác nào trên nó bằng cách sử dụng các ứng dụng cơ sở dữ
liệu đơn giản, hàng ngày.

Big Data không nghi ngờ gì nữa là nội dung quan trọng trong lĩnh vực IT
và cả các lĩnh vực khác trong nền kinh tếhiện nay. Tầm quan trọng của Big Data
được thể hiện qua việc phát triển và áp dụng bởi rất nhiều doanh nghiệp khổng
lồ hiện tại và trong tương lai. Và chắc chắn chúng ta có thể nhìn thấy nhu cầu về
các chuyên gia Big Data hay Data

Vai trò của Big Data trong doanh nghiệp

 Nhắm đúng mục tiêu của khách hàng: dữ liệu của Big Data được thu
tập từ nhiều nguồn khác nhau, trong đó có cả mạng xã hội.. Là một trong
những kênh được người dùng sử dụng thường xuyên. Chính vì thế, doanh
nghiệp phân tích Big Data có thể hiểu được hành vi, sở thích, nhu cầu của
khách hàng đồng thời phân loại và lựa chọn đúng đối tượng khách hàng
phù hợp với sản phẩm và dịch vụ của doanh nghiệp.
 Phòng chống an ninh, giảm thiểu rủi ro: Big Data được các doanh
nghiệp sử dụng như một công cụ để thăm dò, ngăn chặn và phát hiện các
nguy cơ, rủi ro, đánh cắp thông tin mật, xâm nhập hệ thống.
 Tối ưu hóa giá cả: Việc định giá bất kì một sản phẩm nào cũng đều là
một điều quan trọng cũng như là một sự thách thức đối với doanh nghiệp
vì công ty đó cần nghiên cứu rất kỹ nhu cầu từ phía khách hàng và mức
giá của sản phẩm đó từ các đối thủ cạnh tranh.
 Định lượng và tối ưu hóa hiệu suất cá nhân: Do sự xuất hiện của các
thiết bị di động thông minh như laptop, tablet, hay smartphone mà việc
thu thập thông tin và các dữ liệu cá nhân cũng trở nên dễ dàng hơn bao
giờ hết. Việc thu thập dữ liệu cá nhân từ những người dùng sẽ giúp cho
doanh nghiệp có cái nhìn rõ nét về xu hướng và nhu cầu của từng khách
hàng. Điều này sẽ hỗ trợ doanh nghiệp vạch ra định hướng và chiến lược
phát triển trong tương lai
 Nắm bắt các giao dịch tài chính: Các giao diện tài chính trên website
hay các app thương mại điện tử đang ngày một tăng lên do sự phát triển
mạnh mẽ của thương mại điện tử trên toàn thế giới. Do đó các thuật toán
Big Data được doanh nghiệp sử dụng để gợi ý, đưa ra quyết định giao
dịch cho khách hàng.

PAGE \* MERGEFORMAT 5
cách thức của Big Data trong ngành y tế

PAGE \* MERGEFORMAT 5
 Cho phép người quản lý ca dự đoán các bác sĩ cần thiết vào những thời
điểm cụ thể
 Theo dõi tình trạng bệnh nhân bằng hồ sơ sức khỏe điện tử.
 Sử dụng các thiết bị kỹ thuật số có thể đeo, từ đó, hệ thống Big Data có
thể theo dõi tình trạng bệnh nhân, gửi báo cáo cho các bác sĩ.
 Big Data có thể đánh giá các triệu chứng và xác định nhiều bệnh ở giai
đoạn đầu.
 Có thể lưu giữ các hồ sơ nhạy cảm được bảo mật và lưu trữ lượng dữ liệu
khổng lồ một cách hiệu quả.
 Ứng dụng Big Data có thể báo trước khu vực có nguy cơ bùng phát dịch
như: sốt xuất huyết hoặc sốt rét.

Ứng dụng của Big Data trong thương mại điện tử

Big Data có thể tạo lợi thế cạnh tranh cho doanh nghiệp bằng cách cung
cấp thông tin chuyên sâu và các bản báo cáo phân tích xu hướng tiêu dùng.
Cách thức ứng dụng của Big Data trong thương mại điện tử:

 Có thể thu thập dữ liệu và yêu cầu của khách hàng


 Tạo ra một mô hình tiếp thị hiệu suất cao.
 Nhà quản lý có thể xác định các sản phẩm được xem nhiều nhất và tối ưu
thời gian hiển thị của các trang sản phẩm này.
 Đánh giá hành vi của khách hàng và đề xuất các sản phẩm tương tự. Điều
này làm tăng khả năng bán hàng, từ đó tạo ra doanh thu cao hơn.
 Nếu bất kỳ sản phẩm nào được thêm vào giỏ hàng nhưng khách hàng
không mua, Big Data có thể tự động gửi code khuyến mại cho khách
hàng cụ thể đó.

PAGE \* MERGEFORMAT 5
 Các ứng dụng Big Data còn có thể tạo một báo cáo theo các tiêu chí: độ
tuổi, giới tính, địa điểm của khách truy cập, v.v.

Ứng dụng Big Data vào Giáo dục

Big Data tạo ra các phương pháp tiếp cận dựa trên dữ liệu để dạy học
sinh.
Cách thức ứng dụng Big Data vào giáo dục:

 Có thể lưu trữ, quản lý, phân tích các bộ dữ liệu lớn bao gồm hồ sơ của
sinh viên.
 Duy trì bảo mật bằng cách sử dụng hệ thống quản lý big data có khả năng
trích xuất phân cấp.
 Big Data giúp các bộ đề kiểm tra gần như không thể bị lộ
 Big Data cung cấp dữ liệu về các hoạt động trong lớp và giúp đưa ra
quyết định cho giáo viên hay người điều hành tổ chức.
 Big Data có thể đánh giá biểu cảm khuôn mặt và di chuyển của học sinh
trong lớp từ đó giáo viên có thể đánh giá được chất lượng giảng dạy
bằng máy ảnh độ phân giải cao, cảnh quay video và xử lý hình ảnh.

Big Data và Cloud (Điện toán đám mây)

PAGE \* MERGEFORMAT 5
Với cơ sở dữ liệu quá lớn thì đám mây là phương tiện được sử dụng để
cung cấp cơ sở hạ tầng cần thiết cho việc tính toán dữ liệu lớn. Trong cuộc sống
thực, nhiều tổ chức đang kết hợp hai công nghệ này để cải thiện hoạt động điều
phối kinh doanh của mình.
Cách thức ứng dụng Big Data:

 Cloud cung cấp các công cụ để trích xuất dữ liệu. Từ đó, bằng việc phân
tích dữ liệu lớn, thì mục tiêu và các quyết định của kinh doanh được xác
định.
 Ứng dụng Big Data trong kinh doanh trên nền tảng Cloud giúp các tổ
chức quản lý hiệu quả nhiều công cụ phần mềm và phần cứng.
 Cloud đã tăng tốc độ quản lý và truy cập cơ sở dữ liệu chứa hàng lượng
lớn hồ sơ.

Dịch vụ khách hàng sử dụng Big Data

Để thành công thì doanh nghiệp cần làm hài lòng khách hàng và hiểu nhu
cầu của họ. Trong giai đoạn mới gia nhập thị trường và tìm lợi thế cạnh tranh,
thì sẽ rất khó để bạn biết khách hàng đang tìm kiếm điều gì. Big Data sẽ giúp
chủ doanh nghiệp tìm ra giải pháp và đưa ra đề xuất tốt nhất.
Cách thức ứng dụng của Big Data vào dịch vụ khách hàng:

 Xác định các yêu cầu của khách hàng, tập trung thực hiện nhu cầu của họ.
 Phân tích hành vi, sự quan tâm của khách hàng tạo ra các sản phẩm
hướng đến khách hàng.
 Có thể thu thập nhiều dữ liệu về hành vi khách hàng để thiết kế mô hình
tiếp thị tối ưu
 Tìm ra sự tương đồng giữa khách hàng và nhu cầu của họ, từ đó, việc
nhắm mục tiêu các chiến dịch quảng cáo có thể chính xác và đạt hiệu quả
cao.

Big Data đối với ngành bán lẻ

Big Data mang lại cơ hội cho lĩnh vực bán lẻ bằng việc giúp xác định
hành trình trải nghiệm, xu hướng mua sắm và sự hài lòng của khách hàng từ
cách thu thập dữ liệu đa dạng. Từ những dữ liệu thu thập được có thể cải thiện
hiệu suất và hiệu quả bán hàng.
Cách thức ứng dụng Big Data trong bán lẻ:

 Big data giúp nhà quản lý xây dựng mô hình chi tiêu của từng khách hàng
 Với các phân tích dự đoán, ngành công nghiệp có thể so sánh tỷ lệ cung –
cầu và có thể tránh tung ra sản phẩm không được đón nhận

PAGE \* MERGEFORMAT 5
 Ngành bán lẻ có thể xác định vị trí bố trí sản phẩm trên kệ hàng tùy vào
thói quen và nhu cầu mua hàng của khách hàng và thiết lập chiến lược
kinh doanh để cải thiện
 Kết hợp phân tích cùng lúc các dữ liệu về thời điểm, giao dịch, truyền
thông xã hội, dự báo thời tiết để xác định chính xác sản phẩm phù hợp để
cung ứng cho khách hàng.

Ứng dụng Big Data trong Digital Marketing

Digital Marketing là chìa khóa để doanh nghiệp tiếp cận gần nhất với
khách hàng. Quan trọng, với Digital Marketing, tất cả các doanh nghiệp ở mọi
quy mô lớn nhỏ... đều có thể tiến hành các hoạt động quảng cáo tiếp thị trên các
nền tảng truyền thông xã hội..
Cách thức ứng dụng Big Data trong Digital Marketing:

 Phân tích thị trường, đối thủ cạnh tranh và đánh giá mục tiêu kinh doanh.
Điều này giúp xác định cơ hội tốt để tiếp tục tiến hành các kế hoạch kinh
doanh tiếp theo
 Có thể xác định người dùng trên các phương tiện truyền thông xã hội và
nhắm mục tiêu cho họ dựa trên nhân khẩu học, giới tính, thu nhập, tuổi
tác và sở thích
 Tạo báo cáo cho chiến dịch quảng cáo:hiệu suất, khách hàng và giải pháp
để tạo kết quả tốt hơn
 Khoa học dữ liệu được sử dụng cho các khách hàng nhắm mục tiêu và
nuôi dưỡng chu trình khách hàng
 Tập trung vào các chủ đề được tìm kiếm cao và tư vấn cách để nội dung
để xếp hạng trang web doanh nghiệp cao hơn trên google (SEO).
 Có thể tạo đối tượng tương tự bằng cách sử dụng cơ sở dữ liệu đối tượng
hiện có để nhắm mục tiêu các khách hàng tương tự và kiếm được lợi
nhuận.
PAGE \* MERGEFORMAT 5
Lĩnh vực truyền thông & Giải trí

Các công ty truyền thông cần thúc đẩy chuyển đổi kỹ thuật số để phân
phối sản phẩm và nội dung của họ nhanh nhất có thể tại thị trường hiện tại. Đối
với những người ảnh hưởng trên các phương tiện truyền thông đại chúng, Big
Data có thể giúp tìm ra quan điểm hoặc lượt thích của một nghệ sĩ để đo lường
mức độ phổ biến trong lĩnh vực truyền thông số.

Cách thức ứng dụng Big Data trong truyền thông và giải trí:

 Giúp thu thập thông tin và nhu cầu của cá nhân


 Xác định thiết bị và thời gian tạo hiệu quả cao nhất thông qua các dữ liệu
để phân tích
 Có thể xác định lý do đăng ký và hủy đăng ký một nội dung và đánh giá
sự quan tâm của khán giả đối với một kiểu nội dung cụ thể
 Ứng dụng Big Data còn giúp đặt nhóm mục tiêu quảng cáo cho các công
ty truyền thông
 Có thể tạo thêm các tính năng mới để phân tích nhu cầu

PAGE \* MERGEFORMAT 5
 Nhà quảng cáo (công ty truyền thông, người nổi tiếng, người phụ trách
truyền thông) có thể chọn địa điểm tần xuất phân phối
 Tùy mức độ phổ biến, nghệ sĩ có thể chọn thiết bị, hệ điều hành để phân
phối bài hát hoặc video của mình

Chương 3. Triển khai & Thực nghiệm


Data Analysis trong Excel: Tổng hợp các kỹ thuật quan trọng

Data Analysis With Excel (Phân Tích Dữ Liệu với Excel) là một series giúp bạn
bước đầu tiếp cận với lĩnh vực Data Analytics.

PAGE \* MERGEFORMAT 5
Data Analysis trong Excel là một trong những kỹ thuật quan trọng khi
bắt đầu phân tích dữ liệu.

Data Analysis With Excel (Phân Tích Dữ Liệu với Excel) là một series
giúp bạn bước đầu tiếp cận với lĩnh vực Data Analytics. Đối với những
bạn beginner, non-tech muốn trở thành một Data Analyst chuyên nghiệp
thì Microsoft Excel là một chương trình phân tích dữ liệu phù hợp, giúp bạn bắt
đầu học về data dễ dàng hơn.

Data Analysis trong Excel là quá trình bao gồm khám phá, làm sạch và mô
hình hóa dữ liệu để trích xuất thông tin hữu ích. Excel, một công cụ vượt trội
trong bộ Microsoft Office, cung cấp nhiều phương pháp để người dùng có thể tiến
xa hơn trong việc khám phá, chuẩn bị và phân tích dữ liệu. Trong đó, "Analyze
Data" nổi bật như một tính năng "ngôi sao", giúp bạn khám phá dữ liệu bằng cách
sử dụng truy vấn ngôn ngữ tự nhiên. Đặc biệt, tính năng này cung cấp các tóm tắt
trực quan, bao gồm xu hướng và mẫu dữ liệu quan trọng.
Nhìn chung, các kiến thức cơ bản về Data Analysis trong Excel không chỉ hữu ích
với những bạn có định hướng phát triển như một chuyên gia về dữ liệu mà còn là
"chìa khóa thành công" cho người làm việc trong ngày Marketing, kinh doanh...
Bạn có thể khám phá thêm về Data Analysis trong Excel thông qua tài liệu học và
khóa học trực tuyến.

Vì sao Excel được ứng dụng nhiều trong phân tích dữ liệu?

Excel là một công cụ đa năng và phổ biến trong lĩnh vực phân tích dữ liệu,
và điều này hoàn toàn có lý do. Trước hết, Excel sở hữu hơn 400 hàm tính toán,
giúp bạn thực hiện các tác vụ hàng ngày như tính tổng dãy ô hoặc trung bình
trường dữ liệu. Thứ hai, với bảng Pivot, Excel dễ dàng đơn giản hóa việc phân
tích dữ liệu, cho phép tóm tắt và phân tích lượng lớn thông tin. Thứ ba, không cần
bằng cấp phức tạp, bạn có thể sử dụng Excel với hiệu suất tốt. Không chỉ dễ học
PAGE \* MERGEFORMAT 5
mà còn có nhiều người đã quen với nó. Thứ tư, Excel cung cấp nhiều cách để biểu
diễn dữ liệu một cách trực quan. Cuối cùng, với các Macro và Add-In, Excel mở
ra nhiều khả năng mở rộ.

Nhờ những lý do này, Excel không chỉ là một công cụ phổ biến mà còn
mạnh mẽ trong việc thực hiện phân tích dữ liệu.

Excel là một phần mềm khá là quen thuộc, chắc hẳn ai trong chúng ta cũng
đã từng nghe hoặc sử dụng đến nó. Sự quen thuộc này giúp bạn có thể dễ dàng
tiếp cận với việc phân tích dữ liệu hơn so với việc "ngụp lặn" trong các ngôn ngữ
lập trình xa lạ như Python, SQL, R,... hay những công cụ như Google Data
Studio, Power BI, Tableau,...

Để trở thành data analyst chuyên nghiệp thì kiểu gì bạn cũng phải học hết
các ngôn ngữ và công cụ trên. Tuy nhiên, đối với người mới, việc vừa học các
khái niệm trong phân tích dữ liệu vừa học coding một ngôn ngữ lập trình thì khá
nặng về mặt kiến thức.

Thế nên để hành trình trở thành Data Analyst của bạn trở nên nhẹ nhàng
hơn, Microsoft Excel là công cụ tốt nhất để bạn có thể học các khái niệm trong
phân tích dữ liệu mà không cần quan tâm nhiều đến code.

Nội dung của series Data Analysis bằng Excel

PAGE \* MERGEFORMAT 5
Photo by Carlos Muza / Unsplash

Series xoay quanh chủ đề "Data Analysis trong Excel" sẽ cung cấp cho bạn
kiến thức về các tính năng của Excel mà nó hỗ trợ cho việc phân tích dữ liệu.

Nội dung của series này sẽ bao gồm các chủ đề dưới đây:

1. Sort - Học cách sắp xếp dữ liệu bằng Excel

Bạn có thể sắp xếp dữ liệu trên một cột hoặc nhiều cột, theo thứ tự tăng dần
hoặc giảm dần. Nội dung được chia sẻ trong bài viết: Custom Sort Order, Sort
by Color, Reverse List, Randomize List, SORT function

Phân tích dữ liệu với Excel: Sort

Sort là một chức năng cơ bản trong Excel. Ngoài việc sắp xếp theo thứ tự tăng

hoặc giảm dần thì nó cũng còn khá nhiều kỹ thuật hay ho khác đấy.

Phân tích dữ liệu với Excel: Sort

1. Click vào bất kỳ ô nào trong cột mà bạn muốn sort.

PAGE \* MERGEFORMAT 5
Sort một cột

2. Để sort theo thứ tự tăng dần, bạn hãy vào tab Data, trong group Sort &
Filter, bạn hãy click vào biểu tượng AZ.

Sort theo thứ tự tăng dần

Kết quả sẽ như thế này

PAGE \* MERGEFORMAT 5
Kết quả: sort theo thứ tự tăng dần

3. Để sort theo thứ tự giảm dần, bạn chỉ cần click vào biểu tượng ZA

Sort nhiều cột

Để sort trong nhiều cột, bạn hãy thực hiện các bước sau đây.

1. Bạn vào tab Data, trong group Sort & Filter, bạn hãy click vào biểu
tượng Sort

Sort trong nhiều cột

Một hộp thoại Sort sẽ xuất hiện

2. Từ trường "Sort by" hãy chọn cột "Last Name"

PAGE \* MERGEFORMAT 5
Sort by

3. Để sort thêm một cột nữa, bạn chọn Add Level

4. Từ trường "Then by" hãy chọn cột "Sales"

Then by

5. Click OK

Sau khi thực hiện các thao tác trên thì record sẽ sort cột Last Name trước
rồi mới tới cột Sales sau.

PAGE \* MERGEFORMAT 5
Kết quả: sort nhiều cột

Custom Sort Order

Bạn có thể sử dụng Excel để sort dữ liệu theo một thứ tự tùy chỉnh. Trong
ví dụ dưới đây, chúng ta sẽ sort theo cột Priority (High, Normal, Low)

1. Click vào ô bất kỳ trong data set

PAGE \* MERGEFORMAT 5
Custom Sort Order

2. Bạn vào tab Data, trong group Sort & Filter, bạn hãy click vào biểu
tượng Sort

Sort & Filter

Một hộp thoại Sort sẽ xuất hiện

3. Từ trường "Sort by" hãy chọn cột "Priority"

4. Từ trường "Order" hãy chọn Custom List

Một hộp thoại Custom Lists sẽ xuất hiện

5. Nhập vào list entries "High, Normal, Low"

PAGE \* MERGEFORMAT 5
List entries

6. Click OK

7. Tiếp tục click vào nút OK

Custom Sort Order

Kết quả chúng ta có được bảng records được sắp xếp theo cột Priority
(High, Normal, Low)

PAGE \* MERGEFORMAT 5
Kết quả sau khi sort theo custom list

Sort by color

Trong phần này, chúng ta sẽ tìm hiểu cách để sort dữ liệu theo màu.

Sort by Color

1. Click vào một ô bất kỳ trong data set


PAGE \* MERGEFORMAT 5
2. Bạn vào tab Data, trong group Sort & Filter, bạn hãy click vào biểu
tượng Sort

Sort & Filter

Một hộp thoại Sort sẽ xuất hiện

3. Từ trường "Sort by" hãy chọn cột "Last Name" (hoặc bất kỳ cột nào khác
cũng được). Trường "Sort on" chọn Cell Color (bạn cũng có thể sort theo Font
Color hoặc Cell Icon). Cuối cùng, trường Order chọn màu xanh cho level đầu tiên.

4. Click Copy Level hai lần và chọn các màu còn lại

PAGE \* MERGEFORMAT 5
5. Click OK

Kết quả

Kết quả sau khi Sort by Color

Reverse List

Trong phần này, chúng ta sẽ đi tìm nhiều cách khác nhau để đảo ngược
(reverse) một danh sách. Trong ví dụ dưới đây, chúng ta sẽ đảo ngược danh sách
ở cột A.

PAGE \* MERGEFORMAT 5
1. Nhập giá trị 1 vào ô B1 và giá trị 2 vào ô B2

2. Bôi đen range B1:B2, click vào góc dưới bên phải của range này và kéo
xuống tới ô B8

Bôi đen range B1:B2

3. Click vào một số bất kỳ trong cột B

4. Để sắp xếp theo thứ tự giảm dần, bạn vào tab Data => Group Sort &
Filtter => Click ZA

Sort & Filtter

Bạn sẽ nhận được kết quả là cả cột A và cột B đều được đảo ngược thứ tự

Kết quả

PAGE \* MERGEFORMAT 5
Nếu bạn dùng Excel 365 hay Excel 2021, hãy sử dụng SEQUENCE,
SORTBY và ROWS để sort một danh sách theo thứ tự đảo ngược.

Ngoài cách làm thủ công ở trên thì chúng ta còn có công thức cũng khá là
thú vị tiếp theo đây.

5. Đầu tiên, bạn hãy dùng hàm SEQUENCE để tạo danh sách các chữ số.
Hàm SEQUENCE trong ví dụ dưới đây có 4 tham số: Rows = 8, Columns = 1,
Start = 1, Step = 1.

Hàm SEQUENCE

6. Hàm SORTBY sắp xếp thứ tự của một dãy dựa trên dãy được chọn
tương ứng. Sử dụng -1 để sort theo thứ tự giảm dần

Hàm SORTBY

7. Sử dụng hàm SEQUENCE bên trong hàm SORTBY

PAGE \* MERGEFORMAT 5
Sử dụng hàm SEQUENCE bên trong hàm SORTBY

8. Nếu bạn có một danh sách dài hơn chẳng hạn 20 cái tên thì bạn chỉ đơn
giản thay đổi giá trị 8 thành 20 trong công thức trên. Thậm chí bạn có thể sử dụng
hàm ROWS để thay thế.

Sử dụng hàm ROWS để thay thế

Hàm ROWS có chức năng đếm số hàng trong một dãy đã chọn

SORT function

Sử dụng hàm SORT trong Excel 365/2021 để sort dữ liệu trong một cột
hoặc nhiều cột

1. Hàm SORT đơn giản như hình bên dưới chỉ sử dụng một tham số
(A2:D15). Hàm SORT sẽ mặc định sắp xếp theo thứ tự tăng dần của ô đầu tiên.

PAGE \* MERGEFORMAT 5
Hàm SORT đơn giản

2. Sử dụng thêm tham số thứ hai để sort một cột khác với cột mặc định.
Hàm SORT bên dưới sort theo cột thứ hai (A2:D15,2).

Sort một cột khác với cột mặc định

PAGE \* MERGEFORMAT 5
3. Sử dụng thêm tham số thứ ba để sort theo một thứ tự khác. Hàm SORT
bên dưới sort theo cột đầu tiên, thứ tự giảm dần. (A2:D15,1,-1).

Sort theo một thứ tự khác

1 sort theo tứ tự tăng dần, -1 sort theo thứ tự giảm dần.

4. Để sort theo nhiều cột, bạn chỉ cần thêm một hằng số mảng. Hình bên
dưới sort theo cột Last Name đầu tiên sau đó là cột Sales.

PAGE \* MERGEFORMAT 5
Sort theo nhiều cột

5. Hàm SORT nâng cao bên dưới đây sort theo cột Last Name đầu tiên
(theo thứ tự tăng dần) tiếp the là cột Sales (theo thứ tự giảm dần).

Hàm SORT nâng cao

PAGE \* MERGEFORMAT 5
6. Cuối cùng, sử dụng hàm SORTBY trong Excel để sort một dãy dựa trên
giá trị của một dãy đã chọn tương ứng

SORTBY trong Excel

1 sort theo tứ tự tăng dần, -1 sort theo thứ tự giảm dần.

2. Filter - Lọc dữ liệu hiệu quả cùng Excel

Nếu bạn muốn hiển thị dữ liệu theo những tiêu chí nhất định thì hãy sử
dụng Filter của Excel. Nội dung được chia sẻ trong bài viết: Number and Text
Filters, Date Filters, Advanced Filter, Data Form, Remove Duplicates,
Outlining Data, Subtotal, Unique Values, FILTER function

Phân tích dữ liệu với Excel: Filter

PAGE \* MERGEFORMAT 5
3. Conditional formatting trong Excel

Conditional formatting trong Excel cho phép bạn hightlight những ô với
màu sắc nhất định tùy thuộc vào giá trị của ô đó. Nội dung được chia sẻ trong bài
viết: Manage Rules, Data Bars, Color Scales, Icon Sets, Find Duplicates,
Shade Alternate Rows, Compare Two Lists, Conflicting Rules, Heat Map

Phân tích dữ liệu với Excel: Conditional Formatting

Phân tích dữ liệu với Excel: Conditional Formatting


PAGE \* MERGEFORMAT 5
4. Chart - Vẽ đồ thị đơn giản bằng Excel

Photo by Lukas Blazek / Unsplash

Một biểu đồ đơn giản trên Excel sẽ nói lên nhiều thứ hơn một sheet quá
nhiều con số. Trong bài viết này bạn sẽ được biết về: Column Chart, Line
Chart, Pie Chart, Bar Chart, Area Chart, Scatter Plot, Data Series, Axes,
Chart Sheet, Trendline, Error Bars, Sparklines, Combination Chart, Gauge
Chart, Thermometer Chart, Gantt Chart, Pareto Chart

Phân tích dữ liệu với Excel: Chart

Phân tích dữ liệu với Excel: Chart


PAGE \* MERGEFORMAT 5
5. Pivot tables - Tính năng mạnh mẽ của Data Analysis trong Excel

Pivot tables là một trong những tính năng mạnh mẽ nhất của Excel. Một
Pivot table cho phép bạn trích xuất ý nghĩa từ một tập dữ liệu lớn, chi tiết. Nội
dung được chia sẻ trong bài viết này: Group Pivot Table Items, Multi-level
Pivot Table, Frequency Distribution, Pivot Chart, Slicers, Update Pivot
Table, Calculated Field/Item, GetPivotData.

Phân tích dữ liệu với Excel: Pivot Tables

Phân tích dữ liệu với Excel: Pivot Tables

6. Tables trong Excel

Hiểu rõ về table và phân tích dữ liệu một cách dễ dàng, nhanh chóng hơn
với các kiến thức sau: Structured References, Table Styles, Quick Analysis,
Merge Tables.

7. What-If Analysis

What-If Analysis trong Excel cho phép bạn thử các giá trị khác nhau
(scenarios) cho formulas. Nội dung được chia sẻ trong bài viết: Data Tables,
Goal Seek, Quadratic Equation.

PAGE \* MERGEFORMAT 5
Phân tích dữ liệu với Excel: What-If Analysis

What-If Analysis trong Excel cho phép bạn thử các giá trị (scenarios) khác nhau
cho các công thức.

Phân tích dữ liệu với Excel: What-If Analysis

8. Solver

Solver là một công cụ trong Excel sử dụng các kỹ thuật từ nghiên cứu vận
toán để tìm các giải pháp tối ưu cho tất cả các vấn đề quyết định. Nội dung được
chia sẻ trong bài viết: Transportation Problem, Assignment Problem, Capital
Investment, Shortest Path Problem, Maximum Flow Problem, Sensitivity
Analysis, System of Linear Equations.

Phân tích dữ liệu với Excel: Solver

PAGE \* MERGEFORMAT 5
Phân tích dữ liệu với Excel: Solver

9. Analysis ToolPak

Analysis ToolPak là một chương trình Add-in trong Excel. Nó cung cấp các
công cụ phân tích dữ liệu cho tài chính, thống kê và phân tích dữ liệu kỹ thuật.
Nội dung được chia sẻ trong bài viết: Histogram, Descriptive Statistics, Anova,
F-Test, t-Test, Moving Average, Exponential Smoothing, Correlation,
Regression.

Phân tích dữ liệu với Excel: Analysis ToolPak

PAGE \* MERGEFORMAT 5
Phân tích dữ liệu với Excel: Analysis ToolPak

Tải trọn bộ tài liệu "Data Analysis Exel"

Photo by Mika Baumeister / Unsplash

Trong cuộc hành trình khám phá dữ liệu, Excel đã vượt qua vai trò của một
phần mềm văn phòng thông thường, trở thành một người bạn đồng hành đáng tin
cậy của những nhà phân tích dữ liệu. Với tầm quan trọng không thể phủ nhận,
Excel đã và đang chứng tỏ mình là một phần quan trọng không thể thiếu trong
hành trang của các chuyên gia phân tích dữ liệu.

PAGE \* MERGEFORMAT 5

You might also like