Professional Documents
Culture Documents
N I Dung Chương1
N I Dung Chương1
N I Dung Chương1
Big Data là các tập dữ liệu có khối lượng lớn và phức tạp. Độ lớn đến
mức các phần mềm xử lý dữ liệu truyền thống không có khả năng thu thập,
quản lý và xử lý dữ liệu trong một khoảng thời gian hợp lý.
Những tập dữ liệu lớn này có thể bao gồm các dữ liệu có cấu trúc, không
có cấu trúc và bán cấu trúc, mỗi tập có thể được khai thác để tìm hiểu insights.
Các giải pháp Big Data cung cấp các công cụ, phương pháp và công nghệ
được sử dụng để nắm bắt, lưu trữ, tìm kiếm và phân tích dữ liệu trong vài giây
để tìm mối quan hệ và hiểu biết về cải tiến và lợi ích cạnh tranh mà trước đây
không có.
Có rất nhiều công nghệ được giải quyết vấn đề để lưu trữ và xử lý Big
Data.Những công nghệ đó là Apache Hadoop,Apache Spark,Apache
Kafka,v..v.. Dưới đây là thông tin tổng về công nghệ này
PAGE \* MERGEFORMAT 5
Ví dụ như phương pháp cá nhân hóa nội dung đề xuất cho mỗi người trên
các nền tảng Spotify, Netflix, Youtube, các nền tảng Thương mại điện tử như
Shopee, Lazada,...
Big data là thuật ngữ nói về khối lượng dữ liệu lớn, kích thước lớn. Xác
định giá trị của dữ liệu và kích thước dữ liệu là rất quan trọng và cần thiết, nếu
khối lượng lớn, đó chính là Big data.
PAGE \* MERGEFORMAT 5
Volume là khối lượng dữ liệu được các doanh nghiệp thu thập từ các
nguồn khác nhau, như IoT (Internet of Things), video, giao dịch kinh doanh, các
phương tiện truyền thông xã hội,...
Khi công nghệ chưa có sự phát triển vượt bậc, việc lưu trữ lượng lớn dữ
liệu là một thách thức lớn. Tuy nhiên ngày nay, các nền tảng lưu trữ giá thành rẻ
như Hadoop và Data lake xuất hiện, việc lưu trữ đã trở nên dễ dàng hơn nhiều.
Velocity - Tốc độ xử lý
Dựa vào tốc độ xử lý của luồng dữ liệu để xác định đó có phải là Big data
hay không. Thường thì tốc độ của luồng dữ liệu trực tiếp vào bộ nhớ cao hơn so
với khi được ghi vào đĩa. Đặc biệt là ngày nay, với sự phát triển của IoT, các
luồng dữ liệu truyền tải với tốc độ cực nhanh và chúng phải được xử lý kịp thời.
Ví dụ: Trên mạng xã hội Facebook, các thông báo như status, tweet,... đã
cũ sẽ không được người dùng quan tâm và bị quên lãng nhanh chóng. Dữ liệu
giờ đây được tính gần như vào thời gian thực và tốc độ cập nhật thông tin
dường như giảm xuống đơn vị mili giây.
Đặc trưng tiếp theo của Big data chính là tính đa dạng, linh hoạt, ở dạng
cấu trúc và phi cấu trúc, bao gồm dữ liệu số, Email, Video, âm thanh, giao dịch
tài chính,... Tính đa dạng ảnh hưởng đến hiệu suất, đây là một trong những vấn
đề chính mà lĩnh vực Big data cần phải giải quyết.
Đặc trưng tiếp theo của Big data chính là tính đa dạng, linh hoạt, ở dạng
cấu trúc và phi cấu trúc, bao gồm dữ liệu số, Email, Video, âm thanh, giao dịch
tài chính,... Tính đa dạng ảnh hưởng đến hiệu suất, đây là một trong những vấn
đề chính mà lĩnh vực Big data cần phải giải quyết.
PAGE \* MERGEFORMAT 5
Ngoài 3 đặc trưng chính trên của Doug Laney, thì còn có thêm rất nhiều
tiêu chí khác xác định đặc trưng của Big data, bao gồm: Veracity (Xác thực),
Value (Giá trị), Relationality (Mối quan hệ),...
Lĩnh vực công nghệ đề cập đến xử lý và phân tích dữ liệu lớn và phức
tạp
PAGE \* MERGEFORMAT 5
Dữ liệu lớn
Là một thuật ngữ cho việc xử lý một tập hợp dữ liệu rất lớn và phức tạp
mà các ứng dụng xử lý dữ liệu truyền thống không xử lý được. Dữ liệu lớn bao
gồm các thách thức như phân tích, thu thập, giám sát dữ liệu, tìm kiếm, chia sẻ,
lưu trữ, truyền nhận, trực quan, truy vấn và tính riêng tư. Thuật ngữ này thường
chỉ đơn giản đề cập đến việc việc sử dụng các phân tích dự báo, phân tích hành
vi người dùng, hoặc một số phương pháp phân tích dữ liệu tiên tiến khác trích
xuất giá trị từ dữ liệu mà ít khi đề cập đến kích thước của bộ dữ liệu.[2] "Vài
nghi ngờ cho rằng số lượng của dữ liệu có sẵn hiện nay thực sự lớn, nhưng đó
không phải là đặc trưng phù hợp nhất của hệ sinh thái dữ liệu mới này."[3]
Phân tích tập dữ hợp liệu có thể tìm ra tương quan mới tới "xu hướng
kinh doanh hiện tại, phòng bệnh tật, chống tội phạm và vân vân".[4] Các nhà
khoa học, điều hành doanh nghiệp, y bác sĩ, quảng cáo và các chính phủ cũng
thường xuyên gặp những khó khăn với các tập hợp dữ liệu lớn trong các lĩnh
vực bao gồm tìm kiếm internet, thông tin tài chính doanh nghiệp. Các nhà khoa
học gặp giới hạn trong công việc cần tính toán rất lớn, bao gồm khí tượng học,
bộ gen,[5] mạng thần kinh, các mô phỏng vật lý phức tạp, sinh vật học và nghiên
cứu môi trường.[6]thường bao gồm tập hợp dữ liệu với kích thước vượt xa khả
năng của các công cụ phần mềm thông thường để thu thập, hiển thị, quản lý và
xử lý dữ liệu trong một thời gian có thể chấp nhận được. Kích thước dữ liệu lớn
là một mục tiêu liên tục thay đổi. Như năm 2012 thì phạm vi một vài tá
terabytes tới nhiều petabytes dữ liệu. Dữ liệu lớn yêu cầu một tập các kỹ thuật
và công nghệ được tích hợp theo hình thức mới để khai phá từ tập dữ liệu đa
dạng, phức tạp, và có quy mô lớn.
Trong báo cáo nghiên cứu năm 2001 và những diễn giả liên quan, META
Group (bây giờ là Gartner) nhà phân tích Doug Laney định nghĩa những thách
thức và cơ hội tăng dữ liệu như là 3 chiều, tăng giá trị dữ liệu, tốc độ vào ra của
dữ liệu (velocity), và khổ giới hạn của kiểu dữ liệu (variety). Gartner, và nhiều
ngành công nghiệp tiếp tục sử dụng mô hình '3Vs' để mô tả dữ liệu lớn. Trong
năm 2012, Gartner đã cập nhật định nghĩa như sau: "Dữ liệu lớn là khối lượng
lớn, tốc độ cao và/hoặc loại hình thông tin rất đa dạng mà yêu cầu phương thức
xử lý mới để cho phép tăng cường ra quyết định, khám phá bên trong và xử lý
tối ưu". Định nghĩa '3Vs' của Gartner vẫn được sử dụng rộng rãi, và trong phù
hợp với định nghĩa đồng thuận.là: "Dữ liệu lớn tiêu biểu cho tập thông tin mà
đặc điểm như khối lượng lớn (Volume), tốc độ cao(Velocity) và đa dạng
(Variety) để yêu cầu phương thức phân tích và công nghệ riêng biệt để biến nó
thành có giá trị". Thêm nữa, vài tổ chức đã thêm vào tính xác thực(Veracity) để
mô tả về nó. 3Vs đã được mở rộng để bổ sung đặc tính của dữ liệu lớn.
Volume: Khối lượng - dữ liệu lớn không có mẫu; nó chỉ thực hiện và lần
theo những gì diễn ra
PAGE \* MERGEFORMAT 5
Velocity: Tốc độ - dữ liệu lớn thường được xử lý thời gian thực
Variety: Đa dạng - dữ liệu lớn có thể thu thập từ văn bản, hình ảnh, âm
thanh, video, cộng với nó hoàn thành các phần dữ liệu thiếu thông qua tổng
hợp dữ liệu
Machine Learning: Máy học - dữ liệu lớn thường không hỏi tại sao và đơn
giản xác định hình mẫu.
Digital footprint: Dấu chân kỹ thuật số - dữ liệu lớn thường là phụ sinh miễn
phí của quá trình tương tác kỹ thuật số.
Phân loại Big data
Big data thường được phân loại dựa trên 3 yếu tố dữ liệu phổ biến: Dữ
liệu có cấu trúc, dữ liệu phi cấu trúc và dữ liệu bán cấu trúc.
Dữ liệu có cấu trúc
Dữ liệu có cấu trúc được xem là dữ liệu đơn giản nhất để quản lý và tìm
kiếm. Nó là những dữ liệu có thể truy cập, lưu trữ và xử lý ở định dạng cố định.
Các thành phần của dữ liệu có cấu trúc được phân loại dễ dàng, cho phép các
nhà thiết kế và
Cùng với thời gian và tiến bộ trong CNTT, nhu cầu sử dụng mạng xã hội
đặc biệt cho các doanh nghiệp cũng tăng lên. Ta có thể thấy các nền tảng như
WhatsApp và Skype hiện nay tập trung phát triển các phiên bản dành cho doanh
nghiệp. Lý do là chúng ta đang dần chuyển sang thời đại dữ liệu. Nếu phân tích
các hoạt động hàng ngày, bạn sẽ nhận ra, dữ liệu đó là một cái gì đó mà ta tiếp
tục sử dụng bây giờ và mãi về sau.
Do việc sử dụng ngày càng nhiều phương tiện mạng xã hội, Wi-Fi công
cộng, có một lượng dữ liệu khổng lồ được tạo ra gần như mỗi ngày. Vì vậy, để
phân biệt dữ liệu này với dữ liệu truyền thống, người ta phát sinh ra thuật ngữ
Dữ liệu lớn (Big data).
Dữ liệu lớn có thể được định nghĩa là một khối lượng lớn dữ liệu không
thể lưu trữ trong hệ thống cơ sở dữ liệu truyền thống. Big Data không chỉ lớn
mà còn là một bộ dữ liệu thực sự phức tạp mà chúng ta không thể xử lý hoặc
PAGE \* MERGEFORMAT 5
thực hiện bất kỳ thao tác nào trên nó bằng cách sử dụng các ứng dụng cơ sở dữ
liệu đơn giản, hàng ngày.
Big Data không nghi ngờ gì nữa là nội dung quan trọng trong lĩnh vực IT
và cả các lĩnh vực khác trong nền kinh tếhiện nay. Tầm quan trọng của Big Data
được thể hiện qua việc phát triển và áp dụng bởi rất nhiều doanh nghiệp khổng
lồ hiện tại và trong tương lai. Và chắc chắn chúng ta có thể nhìn thấy nhu cầu về
các chuyên gia Big Data hay Data
Nhắm đúng mục tiêu của khách hàng: dữ liệu của Big Data được thu
tập từ nhiều nguồn khác nhau, trong đó có cả mạng xã hội.. Là một trong
những kênh được người dùng sử dụng thường xuyên. Chính vì thế, doanh
nghiệp phân tích Big Data có thể hiểu được hành vi, sở thích, nhu cầu của
khách hàng đồng thời phân loại và lựa chọn đúng đối tượng khách hàng
phù hợp với sản phẩm và dịch vụ của doanh nghiệp.
Phòng chống an ninh, giảm thiểu rủi ro: Big Data được các doanh
nghiệp sử dụng như một công cụ để thăm dò, ngăn chặn và phát hiện các
nguy cơ, rủi ro, đánh cắp thông tin mật, xâm nhập hệ thống.
Tối ưu hóa giá cả: Việc định giá bất kì một sản phẩm nào cũng đều là
một điều quan trọng cũng như là một sự thách thức đối với doanh nghiệp
vì công ty đó cần nghiên cứu rất kỹ nhu cầu từ phía khách hàng và mức
giá của sản phẩm đó từ các đối thủ cạnh tranh.
Định lượng và tối ưu hóa hiệu suất cá nhân: Do sự xuất hiện của các
thiết bị di động thông minh như laptop, tablet, hay smartphone mà việc
thu thập thông tin và các dữ liệu cá nhân cũng trở nên dễ dàng hơn bao
giờ hết. Việc thu thập dữ liệu cá nhân từ những người dùng sẽ giúp cho
doanh nghiệp có cái nhìn rõ nét về xu hướng và nhu cầu của từng khách
hàng. Điều này sẽ hỗ trợ doanh nghiệp vạch ra định hướng và chiến lược
phát triển trong tương lai
Nắm bắt các giao dịch tài chính: Các giao diện tài chính trên website
hay các app thương mại điện tử đang ngày một tăng lên do sự phát triển
mạnh mẽ của thương mại điện tử trên toàn thế giới. Do đó các thuật toán
Big Data được doanh nghiệp sử dụng để gợi ý, đưa ra quyết định giao
dịch cho khách hàng.
PAGE \* MERGEFORMAT 5
cách thức của Big Data trong ngành y tế
PAGE \* MERGEFORMAT 5
Cho phép người quản lý ca dự đoán các bác sĩ cần thiết vào những thời
điểm cụ thể
Theo dõi tình trạng bệnh nhân bằng hồ sơ sức khỏe điện tử.
Sử dụng các thiết bị kỹ thuật số có thể đeo, từ đó, hệ thống Big Data có
thể theo dõi tình trạng bệnh nhân, gửi báo cáo cho các bác sĩ.
Big Data có thể đánh giá các triệu chứng và xác định nhiều bệnh ở giai
đoạn đầu.
Có thể lưu giữ các hồ sơ nhạy cảm được bảo mật và lưu trữ lượng dữ liệu
khổng lồ một cách hiệu quả.
Ứng dụng Big Data có thể báo trước khu vực có nguy cơ bùng phát dịch
như: sốt xuất huyết hoặc sốt rét.
Big Data có thể tạo lợi thế cạnh tranh cho doanh nghiệp bằng cách cung
cấp thông tin chuyên sâu và các bản báo cáo phân tích xu hướng tiêu dùng.
Cách thức ứng dụng của Big Data trong thương mại điện tử:
PAGE \* MERGEFORMAT 5
Các ứng dụng Big Data còn có thể tạo một báo cáo theo các tiêu chí: độ
tuổi, giới tính, địa điểm của khách truy cập, v.v.
Big Data tạo ra các phương pháp tiếp cận dựa trên dữ liệu để dạy học
sinh.
Cách thức ứng dụng Big Data vào giáo dục:
Có thể lưu trữ, quản lý, phân tích các bộ dữ liệu lớn bao gồm hồ sơ của
sinh viên.
Duy trì bảo mật bằng cách sử dụng hệ thống quản lý big data có khả năng
trích xuất phân cấp.
Big Data giúp các bộ đề kiểm tra gần như không thể bị lộ
Big Data cung cấp dữ liệu về các hoạt động trong lớp và giúp đưa ra
quyết định cho giáo viên hay người điều hành tổ chức.
Big Data có thể đánh giá biểu cảm khuôn mặt và di chuyển của học sinh
trong lớp từ đó giáo viên có thể đánh giá được chất lượng giảng dạy
bằng máy ảnh độ phân giải cao, cảnh quay video và xử lý hình ảnh.
PAGE \* MERGEFORMAT 5
Với cơ sở dữ liệu quá lớn thì đám mây là phương tiện được sử dụng để
cung cấp cơ sở hạ tầng cần thiết cho việc tính toán dữ liệu lớn. Trong cuộc sống
thực, nhiều tổ chức đang kết hợp hai công nghệ này để cải thiện hoạt động điều
phối kinh doanh của mình.
Cách thức ứng dụng Big Data:
Cloud cung cấp các công cụ để trích xuất dữ liệu. Từ đó, bằng việc phân
tích dữ liệu lớn, thì mục tiêu và các quyết định của kinh doanh được xác
định.
Ứng dụng Big Data trong kinh doanh trên nền tảng Cloud giúp các tổ
chức quản lý hiệu quả nhiều công cụ phần mềm và phần cứng.
Cloud đã tăng tốc độ quản lý và truy cập cơ sở dữ liệu chứa hàng lượng
lớn hồ sơ.
Để thành công thì doanh nghiệp cần làm hài lòng khách hàng và hiểu nhu
cầu của họ. Trong giai đoạn mới gia nhập thị trường và tìm lợi thế cạnh tranh,
thì sẽ rất khó để bạn biết khách hàng đang tìm kiếm điều gì. Big Data sẽ giúp
chủ doanh nghiệp tìm ra giải pháp và đưa ra đề xuất tốt nhất.
Cách thức ứng dụng của Big Data vào dịch vụ khách hàng:
Xác định các yêu cầu của khách hàng, tập trung thực hiện nhu cầu của họ.
Phân tích hành vi, sự quan tâm của khách hàng tạo ra các sản phẩm
hướng đến khách hàng.
Có thể thu thập nhiều dữ liệu về hành vi khách hàng để thiết kế mô hình
tiếp thị tối ưu
Tìm ra sự tương đồng giữa khách hàng và nhu cầu của họ, từ đó, việc
nhắm mục tiêu các chiến dịch quảng cáo có thể chính xác và đạt hiệu quả
cao.
Big Data mang lại cơ hội cho lĩnh vực bán lẻ bằng việc giúp xác định
hành trình trải nghiệm, xu hướng mua sắm và sự hài lòng của khách hàng từ
cách thu thập dữ liệu đa dạng. Từ những dữ liệu thu thập được có thể cải thiện
hiệu suất và hiệu quả bán hàng.
Cách thức ứng dụng Big Data trong bán lẻ:
Big data giúp nhà quản lý xây dựng mô hình chi tiêu của từng khách hàng
Với các phân tích dự đoán, ngành công nghiệp có thể so sánh tỷ lệ cung –
cầu và có thể tránh tung ra sản phẩm không được đón nhận
PAGE \* MERGEFORMAT 5
Ngành bán lẻ có thể xác định vị trí bố trí sản phẩm trên kệ hàng tùy vào
thói quen và nhu cầu mua hàng của khách hàng và thiết lập chiến lược
kinh doanh để cải thiện
Kết hợp phân tích cùng lúc các dữ liệu về thời điểm, giao dịch, truyền
thông xã hội, dự báo thời tiết để xác định chính xác sản phẩm phù hợp để
cung ứng cho khách hàng.
Digital Marketing là chìa khóa để doanh nghiệp tiếp cận gần nhất với
khách hàng. Quan trọng, với Digital Marketing, tất cả các doanh nghiệp ở mọi
quy mô lớn nhỏ... đều có thể tiến hành các hoạt động quảng cáo tiếp thị trên các
nền tảng truyền thông xã hội..
Cách thức ứng dụng Big Data trong Digital Marketing:
Phân tích thị trường, đối thủ cạnh tranh và đánh giá mục tiêu kinh doanh.
Điều này giúp xác định cơ hội tốt để tiếp tục tiến hành các kế hoạch kinh
doanh tiếp theo
Có thể xác định người dùng trên các phương tiện truyền thông xã hội và
nhắm mục tiêu cho họ dựa trên nhân khẩu học, giới tính, thu nhập, tuổi
tác và sở thích
Tạo báo cáo cho chiến dịch quảng cáo:hiệu suất, khách hàng và giải pháp
để tạo kết quả tốt hơn
Khoa học dữ liệu được sử dụng cho các khách hàng nhắm mục tiêu và
nuôi dưỡng chu trình khách hàng
Tập trung vào các chủ đề được tìm kiếm cao và tư vấn cách để nội dung
để xếp hạng trang web doanh nghiệp cao hơn trên google (SEO).
Có thể tạo đối tượng tương tự bằng cách sử dụng cơ sở dữ liệu đối tượng
hiện có để nhắm mục tiêu các khách hàng tương tự và kiếm được lợi
nhuận.
PAGE \* MERGEFORMAT 5
Lĩnh vực truyền thông & Giải trí
Các công ty truyền thông cần thúc đẩy chuyển đổi kỹ thuật số để phân
phối sản phẩm và nội dung của họ nhanh nhất có thể tại thị trường hiện tại. Đối
với những người ảnh hưởng trên các phương tiện truyền thông đại chúng, Big
Data có thể giúp tìm ra quan điểm hoặc lượt thích của một nghệ sĩ để đo lường
mức độ phổ biến trong lĩnh vực truyền thông số.
Cách thức ứng dụng Big Data trong truyền thông và giải trí:
PAGE \* MERGEFORMAT 5
Nhà quảng cáo (công ty truyền thông, người nổi tiếng, người phụ trách
truyền thông) có thể chọn địa điểm tần xuất phân phối
Tùy mức độ phổ biến, nghệ sĩ có thể chọn thiết bị, hệ điều hành để phân
phối bài hát hoặc video của mình
Data Analysis With Excel (Phân Tích Dữ Liệu với Excel) là một series giúp bạn
bước đầu tiếp cận với lĩnh vực Data Analytics.
PAGE \* MERGEFORMAT 5
Data Analysis trong Excel là một trong những kỹ thuật quan trọng khi
bắt đầu phân tích dữ liệu.
Data Analysis With Excel (Phân Tích Dữ Liệu với Excel) là một series
giúp bạn bước đầu tiếp cận với lĩnh vực Data Analytics. Đối với những
bạn beginner, non-tech muốn trở thành một Data Analyst chuyên nghiệp
thì Microsoft Excel là một chương trình phân tích dữ liệu phù hợp, giúp bạn bắt
đầu học về data dễ dàng hơn.
Data Analysis trong Excel là quá trình bao gồm khám phá, làm sạch và mô
hình hóa dữ liệu để trích xuất thông tin hữu ích. Excel, một công cụ vượt trội
trong bộ Microsoft Office, cung cấp nhiều phương pháp để người dùng có thể tiến
xa hơn trong việc khám phá, chuẩn bị và phân tích dữ liệu. Trong đó, "Analyze
Data" nổi bật như một tính năng "ngôi sao", giúp bạn khám phá dữ liệu bằng cách
sử dụng truy vấn ngôn ngữ tự nhiên. Đặc biệt, tính năng này cung cấp các tóm tắt
trực quan, bao gồm xu hướng và mẫu dữ liệu quan trọng.
Nhìn chung, các kiến thức cơ bản về Data Analysis trong Excel không chỉ hữu ích
với những bạn có định hướng phát triển như một chuyên gia về dữ liệu mà còn là
"chìa khóa thành công" cho người làm việc trong ngày Marketing, kinh doanh...
Bạn có thể khám phá thêm về Data Analysis trong Excel thông qua tài liệu học và
khóa học trực tuyến.
Vì sao Excel được ứng dụng nhiều trong phân tích dữ liệu?
Excel là một công cụ đa năng và phổ biến trong lĩnh vực phân tích dữ liệu,
và điều này hoàn toàn có lý do. Trước hết, Excel sở hữu hơn 400 hàm tính toán,
giúp bạn thực hiện các tác vụ hàng ngày như tính tổng dãy ô hoặc trung bình
trường dữ liệu. Thứ hai, với bảng Pivot, Excel dễ dàng đơn giản hóa việc phân
tích dữ liệu, cho phép tóm tắt và phân tích lượng lớn thông tin. Thứ ba, không cần
bằng cấp phức tạp, bạn có thể sử dụng Excel với hiệu suất tốt. Không chỉ dễ học
PAGE \* MERGEFORMAT 5
mà còn có nhiều người đã quen với nó. Thứ tư, Excel cung cấp nhiều cách để biểu
diễn dữ liệu một cách trực quan. Cuối cùng, với các Macro và Add-In, Excel mở
ra nhiều khả năng mở rộ.
Nhờ những lý do này, Excel không chỉ là một công cụ phổ biến mà còn
mạnh mẽ trong việc thực hiện phân tích dữ liệu.
Excel là một phần mềm khá là quen thuộc, chắc hẳn ai trong chúng ta cũng
đã từng nghe hoặc sử dụng đến nó. Sự quen thuộc này giúp bạn có thể dễ dàng
tiếp cận với việc phân tích dữ liệu hơn so với việc "ngụp lặn" trong các ngôn ngữ
lập trình xa lạ như Python, SQL, R,... hay những công cụ như Google Data
Studio, Power BI, Tableau,...
Để trở thành data analyst chuyên nghiệp thì kiểu gì bạn cũng phải học hết
các ngôn ngữ và công cụ trên. Tuy nhiên, đối với người mới, việc vừa học các
khái niệm trong phân tích dữ liệu vừa học coding một ngôn ngữ lập trình thì khá
nặng về mặt kiến thức.
Thế nên để hành trình trở thành Data Analyst của bạn trở nên nhẹ nhàng
hơn, Microsoft Excel là công cụ tốt nhất để bạn có thể học các khái niệm trong
phân tích dữ liệu mà không cần quan tâm nhiều đến code.
PAGE \* MERGEFORMAT 5
Photo by Carlos Muza / Unsplash
Series xoay quanh chủ đề "Data Analysis trong Excel" sẽ cung cấp cho bạn
kiến thức về các tính năng của Excel mà nó hỗ trợ cho việc phân tích dữ liệu.
Nội dung của series này sẽ bao gồm các chủ đề dưới đây:
Bạn có thể sắp xếp dữ liệu trên một cột hoặc nhiều cột, theo thứ tự tăng dần
hoặc giảm dần. Nội dung được chia sẻ trong bài viết: Custom Sort Order, Sort
by Color, Reverse List, Randomize List, SORT function
Sort là một chức năng cơ bản trong Excel. Ngoài việc sắp xếp theo thứ tự tăng
hoặc giảm dần thì nó cũng còn khá nhiều kỹ thuật hay ho khác đấy.
PAGE \* MERGEFORMAT 5
Sort một cột
2. Để sort theo thứ tự tăng dần, bạn hãy vào tab Data, trong group Sort &
Filter, bạn hãy click vào biểu tượng AZ.
PAGE \* MERGEFORMAT 5
Kết quả: sort theo thứ tự tăng dần
3. Để sort theo thứ tự giảm dần, bạn chỉ cần click vào biểu tượng ZA
Để sort trong nhiều cột, bạn hãy thực hiện các bước sau đây.
1. Bạn vào tab Data, trong group Sort & Filter, bạn hãy click vào biểu
tượng Sort
PAGE \* MERGEFORMAT 5
Sort by
Then by
5. Click OK
Sau khi thực hiện các thao tác trên thì record sẽ sort cột Last Name trước
rồi mới tới cột Sales sau.
PAGE \* MERGEFORMAT 5
Kết quả: sort nhiều cột
Bạn có thể sử dụng Excel để sort dữ liệu theo một thứ tự tùy chỉnh. Trong
ví dụ dưới đây, chúng ta sẽ sort theo cột Priority (High, Normal, Low)
PAGE \* MERGEFORMAT 5
Custom Sort Order
2. Bạn vào tab Data, trong group Sort & Filter, bạn hãy click vào biểu
tượng Sort
PAGE \* MERGEFORMAT 5
List entries
6. Click OK
Kết quả chúng ta có được bảng records được sắp xếp theo cột Priority
(High, Normal, Low)
PAGE \* MERGEFORMAT 5
Kết quả sau khi sort theo custom list
Sort by color
Trong phần này, chúng ta sẽ tìm hiểu cách để sort dữ liệu theo màu.
Sort by Color
3. Từ trường "Sort by" hãy chọn cột "Last Name" (hoặc bất kỳ cột nào khác
cũng được). Trường "Sort on" chọn Cell Color (bạn cũng có thể sort theo Font
Color hoặc Cell Icon). Cuối cùng, trường Order chọn màu xanh cho level đầu tiên.
4. Click Copy Level hai lần và chọn các màu còn lại
PAGE \* MERGEFORMAT 5
5. Click OK
Kết quả
Reverse List
Trong phần này, chúng ta sẽ đi tìm nhiều cách khác nhau để đảo ngược
(reverse) một danh sách. Trong ví dụ dưới đây, chúng ta sẽ đảo ngược danh sách
ở cột A.
PAGE \* MERGEFORMAT 5
1. Nhập giá trị 1 vào ô B1 và giá trị 2 vào ô B2
2. Bôi đen range B1:B2, click vào góc dưới bên phải của range này và kéo
xuống tới ô B8
4. Để sắp xếp theo thứ tự giảm dần, bạn vào tab Data => Group Sort &
Filtter => Click ZA
Bạn sẽ nhận được kết quả là cả cột A và cột B đều được đảo ngược thứ tự
Kết quả
PAGE \* MERGEFORMAT 5
Nếu bạn dùng Excel 365 hay Excel 2021, hãy sử dụng SEQUENCE,
SORTBY và ROWS để sort một danh sách theo thứ tự đảo ngược.
Ngoài cách làm thủ công ở trên thì chúng ta còn có công thức cũng khá là
thú vị tiếp theo đây.
5. Đầu tiên, bạn hãy dùng hàm SEQUENCE để tạo danh sách các chữ số.
Hàm SEQUENCE trong ví dụ dưới đây có 4 tham số: Rows = 8, Columns = 1,
Start = 1, Step = 1.
Hàm SEQUENCE
6. Hàm SORTBY sắp xếp thứ tự của một dãy dựa trên dãy được chọn
tương ứng. Sử dụng -1 để sort theo thứ tự giảm dần
Hàm SORTBY
PAGE \* MERGEFORMAT 5
Sử dụng hàm SEQUENCE bên trong hàm SORTBY
8. Nếu bạn có một danh sách dài hơn chẳng hạn 20 cái tên thì bạn chỉ đơn
giản thay đổi giá trị 8 thành 20 trong công thức trên. Thậm chí bạn có thể sử dụng
hàm ROWS để thay thế.
Hàm ROWS có chức năng đếm số hàng trong một dãy đã chọn
SORT function
Sử dụng hàm SORT trong Excel 365/2021 để sort dữ liệu trong một cột
hoặc nhiều cột
1. Hàm SORT đơn giản như hình bên dưới chỉ sử dụng một tham số
(A2:D15). Hàm SORT sẽ mặc định sắp xếp theo thứ tự tăng dần của ô đầu tiên.
PAGE \* MERGEFORMAT 5
Hàm SORT đơn giản
2. Sử dụng thêm tham số thứ hai để sort một cột khác với cột mặc định.
Hàm SORT bên dưới sort theo cột thứ hai (A2:D15,2).
PAGE \* MERGEFORMAT 5
3. Sử dụng thêm tham số thứ ba để sort theo một thứ tự khác. Hàm SORT
bên dưới sort theo cột đầu tiên, thứ tự giảm dần. (A2:D15,1,-1).
4. Để sort theo nhiều cột, bạn chỉ cần thêm một hằng số mảng. Hình bên
dưới sort theo cột Last Name đầu tiên sau đó là cột Sales.
PAGE \* MERGEFORMAT 5
Sort theo nhiều cột
5. Hàm SORT nâng cao bên dưới đây sort theo cột Last Name đầu tiên
(theo thứ tự tăng dần) tiếp the là cột Sales (theo thứ tự giảm dần).
PAGE \* MERGEFORMAT 5
6. Cuối cùng, sử dụng hàm SORTBY trong Excel để sort một dãy dựa trên
giá trị của một dãy đã chọn tương ứng
Nếu bạn muốn hiển thị dữ liệu theo những tiêu chí nhất định thì hãy sử
dụng Filter của Excel. Nội dung được chia sẻ trong bài viết: Number and Text
Filters, Date Filters, Advanced Filter, Data Form, Remove Duplicates,
Outlining Data, Subtotal, Unique Values, FILTER function
PAGE \* MERGEFORMAT 5
3. Conditional formatting trong Excel
Conditional formatting trong Excel cho phép bạn hightlight những ô với
màu sắc nhất định tùy thuộc vào giá trị của ô đó. Nội dung được chia sẻ trong bài
viết: Manage Rules, Data Bars, Color Scales, Icon Sets, Find Duplicates,
Shade Alternate Rows, Compare Two Lists, Conflicting Rules, Heat Map
Một biểu đồ đơn giản trên Excel sẽ nói lên nhiều thứ hơn một sheet quá
nhiều con số. Trong bài viết này bạn sẽ được biết về: Column Chart, Line
Chart, Pie Chart, Bar Chart, Area Chart, Scatter Plot, Data Series, Axes,
Chart Sheet, Trendline, Error Bars, Sparklines, Combination Chart, Gauge
Chart, Thermometer Chart, Gantt Chart, Pareto Chart
Pivot tables là một trong những tính năng mạnh mẽ nhất của Excel. Một
Pivot table cho phép bạn trích xuất ý nghĩa từ một tập dữ liệu lớn, chi tiết. Nội
dung được chia sẻ trong bài viết này: Group Pivot Table Items, Multi-level
Pivot Table, Frequency Distribution, Pivot Chart, Slicers, Update Pivot
Table, Calculated Field/Item, GetPivotData.
Hiểu rõ về table và phân tích dữ liệu một cách dễ dàng, nhanh chóng hơn
với các kiến thức sau: Structured References, Table Styles, Quick Analysis,
Merge Tables.
7. What-If Analysis
What-If Analysis trong Excel cho phép bạn thử các giá trị khác nhau
(scenarios) cho formulas. Nội dung được chia sẻ trong bài viết: Data Tables,
Goal Seek, Quadratic Equation.
PAGE \* MERGEFORMAT 5
Phân tích dữ liệu với Excel: What-If Analysis
What-If Analysis trong Excel cho phép bạn thử các giá trị (scenarios) khác nhau
cho các công thức.
8. Solver
Solver là một công cụ trong Excel sử dụng các kỹ thuật từ nghiên cứu vận
toán để tìm các giải pháp tối ưu cho tất cả các vấn đề quyết định. Nội dung được
chia sẻ trong bài viết: Transportation Problem, Assignment Problem, Capital
Investment, Shortest Path Problem, Maximum Flow Problem, Sensitivity
Analysis, System of Linear Equations.
PAGE \* MERGEFORMAT 5
Phân tích dữ liệu với Excel: Solver
9. Analysis ToolPak
Analysis ToolPak là một chương trình Add-in trong Excel. Nó cung cấp các
công cụ phân tích dữ liệu cho tài chính, thống kê và phân tích dữ liệu kỹ thuật.
Nội dung được chia sẻ trong bài viết: Histogram, Descriptive Statistics, Anova,
F-Test, t-Test, Moving Average, Exponential Smoothing, Correlation,
Regression.
PAGE \* MERGEFORMAT 5
Phân tích dữ liệu với Excel: Analysis ToolPak
Trong cuộc hành trình khám phá dữ liệu, Excel đã vượt qua vai trò của một
phần mềm văn phòng thông thường, trở thành một người bạn đồng hành đáng tin
cậy của những nhà phân tích dữ liệu. Với tầm quan trọng không thể phủ nhận,
Excel đã và đang chứng tỏ mình là một phần quan trọng không thể thiếu trong
hành trang của các chuyên gia phân tích dữ liệu.
PAGE \* MERGEFORMAT 5