Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 11

Câu 1: Khoa học dữ liệu là gì? Trình bày các lĩnh vực của Khoa học dữ liệu.

Trong các lĩnh vực


đó em thích nhất lĩnh vực nào và giải thích vì sao lại yêu thích

Bài làm

1.1 Khái quát về ngành Khoa học dữ liệu

1. Thuật ngữ

 Thuật ngữ “Khoa học dữ liệu” lần đầu xuất hiện vào khoảng thập niên 60, trong vai trò là
tên gọi khác của thống kê. Đến cuối thập niên 90, các chuyên gia khoa học máy tính đã
chính thức hóa thuật ngữ này. Một định nghĩa được đề xuất cho khoa học dữ liệu mô tả
lĩnh vực này như một ngành riêng biệt gồm 3 khía cạnh: thiết kế, thu thập và phân tích dữ
liệu. Vẫn phải mất thêm một thập niên nữa thì thuật ngữ này mới được sử dụng ngoài giới
học thuật.
2. Định nghĩa cơ bản của Khoa học dữ liệu

 Khoa học dữ liệu là lĩnh vực nghiên cứu dữ liệu nhằm khai thác những thông tin chuyên
sâu có ý nghĩa đối với hoạt động kinh doanh. Đây là một lĩnh vực đa ngành, hội tụ kiến
thức và kỹ năng từ toán học, thống kê, khoa học máy tính, trí tuệ nhân tạo và chuyên môn
cụ thể của từng ngành để phân tích, xử lý, và suy diễn thông tin từ lượng lớn dữ liệu. Đây
không chỉ là quá trình thu thập và lưu trữ dữ liệu, mà còn bao gồm khai thác, làm sạch, và
cuối cùng là phân tích để đưa ra những thông tin có giá trị, hỗ trợ quyết định và tạo ra
kiến thức mới.
 Khoa học dữ liệu không chỉ đơn giản là xử lý số liệu, mà còn liên quan đến việc hiểu và
giải quyết các vấn đề thực tế thông qua dữ liệu. Nhà khoa học dữ liệu sử dụng các mô
hình thống kê và máy học để dự đoán và phân tích khuynh hướng, đồng thời sử dụng các
kỹ năng trực quan hóa để trình bày dữ liệu một cách hiệu quả và dễ hiểu.
 Có thể hình dung đơn giản về khái niệm Khoa học dữ liệu như sau: “Khoa học dữ liệu là
khoa học về việc quản trị và phân tích dữ liệu, trích xuất các giá trị từ dữ liệu để tìm ra
các hiểu biết, các tri thức hành động, các quyết định dẫn dắt hành động”.

3. Mục tiêu và ứng dụng


Khoa học dữ liệu nhằm mục tiêu chính là khám phá ra những thông tin ẩn chứa trong dữ liệu,
giúp đưa ra các quyết định chính xác và phát triển chiến lược kinh doanh hiệu quả. Việc này đòi
hỏi sự kết hợp giữa kỹ năng phân tích, hiểu biết sâu rộng về toán học và thống kê, cùng với khả
năng ứng dụng công nghệ thông tin. Đây là một số lĩnh vực chính thức mà khoa học dữ liệu đang
có ảnh hưởng đáng kể:

Y Tế:

 Trong ngành y tế, khoa học dữ liệu có vai trò thiết yếu trong việc cải thiện chất lượng
chăm sóc sức khỏe và giảm chi phí. Bằng cách phân tích dữ liệu từ các bệnh nhân, máy
móc y tế và nghiên cứu lâm sàng, các nhà khoa học dữ liệu có thể dự đoán chính xác hơn
về sự tiến triển của bệnh, cá nhân hóa phác đồ điều trị cho từng bệnh nhân, và phát hiện
sớm các biến chứng có thể xảy ra. Điều này không chỉ giúp nâng cao hiệu quả điều trị mà
còn đảm bảo an toàn cho bệnh nhân.

Tài Chính và Ngân Hàng:

 Khoa học dữ liệu đã cách mạng hóa ngành tài chính bằng cách phân tích mô hình rủi ro,
phát hiện gian lận, và tự động hóa giao dịch. Các mô hình dự đoán phức tạp giúp các
ngân hàng đánh giá khả năng vay trả của khách hàng, giảm thiểu rủi ro mất mát tài chính.
Đồng thời, việc phân tích hành vi giao dịch giúp ngăn chặn các hoạt động gian lận bằng
cách phát hiện các giao dịch bất thường nhanh chóng.

Thương Mại Điện Tử và Bán Lẻ:

 Khoa học dữ liệu giúp các công ty thương mại điện tử và bán lẻ hiểu rõ hơn về hành vi và
sở thích của khách hàng, từ đó cá nhân hóa các sản phẩm và dịch vụ. Bằng cách phân tích
dữ liệu từ lịch sử mua hàng, đánh giá sản phẩm, và hành vi trực tuyến, các công ty có thể
tạo ra những đề xuất sản phẩm chính xác, tăng cường hiệu quả chiến dịch tiếp thị và nâng
cao trải nghiệm khách hàng. Điều này đóng vai trò quan trọng trong việc giữ chân khách
hàng và tăng doanh số bán hàng.

Giao thông vận tải và Logistics

 Khoa học dữ liệu giúp tối ưu hóa các hoạt động trong lĩnh vực giao thông và logistics.
Các thuật toán phức tạp được sử dụng để dự đoán và quản lý lưu lượng trên đường, tối ưu
hóa các lộ trình vận chuyển hàng hóa, và giảm thiểu chi phí nhiên liệu. Điều này không
chỉ giúp các công ty logistics giảm thiểu chi phí vận hành

4. Kỹ Năng và Công Cụ trong Khoa Học Dữ Liệu

Khoa học dữ liệu là một lĩnh vực đòi hỏi nhiều kỹ năng chuyên môn khác nhau. Một nhà khoa
học dữ liệu không chỉ cần có khả năng lập trình mà còn phải hiểu biết sâu rộng về toán học,
thống kê và có khả năng phân tích dữ liệu một cách hiệu quả. Dưới đây là một số kỹ năng và
công cụ cơ bản nhưng thiết yếu đối với một nhà khoa học dữ liệu.

Toán Học và Thống Kê:

 Nhà khoa học dữ liệu cần có nền tảng vững chắc về toán học và thống kê để phân tích và
xử lý dữ liệu. Kỹ năng này bao gồm hiểu biết về xác suất, các mô hình thống kê, phân
tích hồi quy, phân tích chuỗi thời gian và các phương pháp thống kê khác. Các phương
pháp này giúp xác định xu hướng, dự đoán và hiểu các mối quan hệ giữa các biến.

Lập Trình:

 Các ngôn ngữ lập trình như Python và R là công cụ chính trong tay của một nhà khoa học
dữ liệu. Python là một ngôn ngữ lập trình mạnh mẽ với các thư viện như Pandas, NumPy,
SciPy, Matplotlib và Scikit-learn, hỗ trợ từ phân tích dữ liệu đơn giản đến các mô hình
máy học phức tạp. R là ngôn ngữ lập trình thống kê mạnh mẽ và được ưa chuộng trong
các nghiên cứu thống kê và biểu đồ hóa dữ liệu.

Xử Lý và Làm Sạch Dữ Liệu:

 Kỹ năng quan trọng là có thể xử lý và làm sạch dữ liệu để chuẩn bị cho phân tích. Điều
này bao gồm khả năng xử lý dữ liệu thiếu, loại bỏ nhiễu và chuẩn hóa dữ liệu. Việc này
thường được thực hiện thông qua các ngôn ngữ lập trình như Python và R.

Trực Quan Hóa Dữ Liệu:

 Khả năng trực quan hóa dữ liệu để truyền đạt thông tin một cách hiệu quả là rất quan
trọng. Công cụ như Tableau, Power BI, và các thư viện trực quan hóa trong Python như
Matplotlib và Seaborn giúp nhà khoa học dữ liệu trình bày dữ liệu một cách trực quan, dễ
hiểu.
5. Tầm quan trọng của Khoa học dữ liệu trong thời đại số

Dữ liệu thô chẳng có giá trị trừ khi chúng có thể được sử dụng đểgiải quyết vấn đề. Các nhà khoa
học dữ liệu có thể chuyển đổi dữ liệu thô thành những đề xuất có ý nghĩa. Họ có thể phát hiện và
giải quyết các vấn đề mà doanh nghiệp còn không biết là chúng tồn tại. Khoa học dữ liệu quan
trọng bởi vì lĩnh vực này kết hợp các công cụ, phương pháp và công nghệ để rút ra ý nghĩa từ dữ
liệu. Khoa học dữ liệu ngày càng trở thành một trong những lĩnh vực quan trọng và ảnh hưởng
nhất trong kỷ nguyên số hiện nay. Sự phát triển vượt bậc của công nghệ thông tin đã tạo ra một
lượng lớn dữ liệu; khoa học dữ liệu giúp chúng ta không chỉ hiểu mà còn khai thác giá trị từ
lượng dữ liệu đó. Dưới đây là một số khía cạnh cụ thể về vai trò và tầm quan trọng của khoa học
dữ liệu

Phân Tích và Ra Quyết Định Dựa Trên Dữ Liệu


 Quyết Định Dựa Trên Dữ Liệu:
Trong mọi ngành nghề, từ y tế đến tài chính, từ giáo dục đến sản xuất, việc ra quyết định dựa
trên dữ liệu là cần thiết. Khoa học dữ liệu cung cấp khả năng phân tích dữ liệu phức tạp và lớn,
giúp các nhà quản lý hiểu rõ tình hình, dự đoán xu hướng và đưa ra các quyết định thông minh,
khoa học hơn.
 Phân Tích Dự Đoán:
Các mô hình học máy và thống kê được phát triển qua khoa học dữ liệu cho phép các tổ chức dự
đoán xu hướng tương lai. Ví dụ, trong ngành bán lẻ, phân tích dự đoán có thể giúp dự báo nhu
cầu sản phẩm và tối ưu hóa quá trình quản lý hàng tồn kho.

Tối Ưu Hóa Hoạt Động Kinh Doanh


 Tối Ưu Chuỗi Cung Ứng:
Khoa học dữ liệu giúp các công ty tối ưu hóa hoạt động bằng cách phân tích các mô hình trong
chuỗi cung ứng, từ đó nhận diện các điểm yếu và cơ hội cải tiến. Điều này không chỉ giảm thiểu
chi phí mà còn cải thiện hiệu quả hoạt động.
 Tối Ưu Chiến Dịch Marketing:
Phân tích dữ liệu khách hàng giúp các doanh nghiệp phát triển các chiến dịch marketing cá nhân
hóa hiệu quả hơn. Khoa học dữ liệu cho phép phân tích sâu về hành vi và sở thích của khách
hàng, từ đó thiết kế các thông điệp quảng cáo đúng đắn, đến đúng người, đúng thời điểm.

Cải Thiện và Phát Triển Sản Phẩm


 Phát Triển Sản Phẩm Dựa Trên Dữ Liệu:
Khoa học dữ liệu giúp các công ty hiểu được nhu cầu và mong muốn của khách hàng qua phân
tích phản hồi, đánh giá và xu hướng thị trường. Điều này hỗ trợ trong việc thiết kế và phát triển
sản phẩm mới phù hợp với nhu cầu thị trường, từ đó tăng khả năng thành công của sản phẩm
mới.
 Nâng Cao Chất Lượng Sản Phẩm:
Phân tích liên tục dữ liệu từ hoạt động sản xuất và phản hồi của khách hàng giúp các công ty
nhanh chóng nhận ra

1.2 Các nhánh của Khoa học dữ liệu:


Lĩnh Vực Khoa học dữ liệu có thể chia làm 5 nhánh nghề nghiệp như sau:
 Thống kê (Statistics): Thống kê là một dạng phân tích toán học sử dụng các mô hình, sự
biểu diễn và tóm tắt định lượng cho một tập hợp dữ liệu thực nghiệm hoặc nghiên cứu
thực tế nhất định. Thống kê nghiên cứu các phương pháp để thu thập, xem xét, phân tích
và rút ra kết luận từ dữ liệu. Thống kê được sử dụng trong đa ngành như tâm lý học, kinh
doanh, khoa học vật lí, xã hội, nhân văn… Dữ liệu thống kê được tu thập chủ yếu bằng
phương pháp thu thập mẫu. Hai loại phương pháp thống kê được sử dụng trong phân tích
dữ liệu là thống kê mô tả và thống kê suy luận. Thống kê mô tả được sử dụng để đồng bộ
hoá dữ liệu từ một mẫu để tính độ lệch trung bình hoặc độ lệch chuẩn. Thống kê suy luận
thì được sử dụng để nhìn vào một dữ liệu được đánh giá là phần nhỏ của một con số cụ
thể

 Khai phá dữ liệu (Data mining): Là quá trình tính toán để tìm ra các mẫu trong các nội bộ
dữ liệu lớn liên quan đến phương pháp tại giao điểm của học máy (Machine Learning),
thống kê và các hệ thống cơ sở dữ liệu. Đây là một lĩnh vực liên ngành của khoa học máy
tính. Mục tiêu tổng thể của quá trình khai thác dữ liệu là trích xuất thông tin từ một bộ dữ
liệu và chuyển nó thành một cấu trúc dễ hiểu để sử dụng tiếp. Ngoài bước phân tích thô,
nó còn liên quan tới cơ sở dữ liệu và các khía cạnh quản lý dữ liệu, xử lý dữ liệu trước,
suy xét mô hình và suy luận thống kế, các thước đo thú vị, các cân nhắc phức tạp, xuất
kết quả về các cấu trúc được phát hiện, hiện hình hóa và cập nhật trực tuyến. Như vậy,
khai phá dữ liệu là bước phân tích của quá trình "khám phá kiến thức trong cơ sở dữ
liệu".

Các phương pháp khai phá dữ liệu bao gồm:

 Phân loại (Classification): Là phương pháp dự báo, cho phép phân loại một đối
tượng vào một hoặc một số lớp cho trước.
 Hồi quy (Regression): Khám phá chức năng học dự đoán, ánh xạ một mục dữ liệu
thành biến dự đoán giá trị thực.
 Phân cụm (Clustering): Một nhiệm vụ mô tả phô biến trong đó người ta tìm cách xác
định một tập hợp hữu hạn các cụm để mô tả dữ liệu.
 Tổng hợp (Summarization): Một nhiệm vụ mô tả bổ sung liên quan đến phương pháp
cho việc tìm kiểm một mô tả nhỏ gọn cho một bộ (hoặc tập hợp con) của dữ liệu.
 Mô hình ràng buộc (Dependency modeling): Tìm mô hình cục bộ mô tả các phụ
thuộc đáng kể giữa các biến hoặc giữa các giá trị của một tính năng trong tập dữ liệu
hoặc trong một phần của tập dữ liệu.
 Dò tìm biến đổi và độ lệch (Change and Deviation Detection): Khám phá những thay
đổi quan trọng nhất trong bộ dữ liệu.

 Học máy (Machine learning): là một lĩnh vực nghiên cứu cho phép máy tính có khả năng
cải thiện chính bản thân chúng dựa trên dữ liệu mẫu (training data) hoặc dựa vào kinh
nghiệm (những gì đã được học). Machine learning có thể tự dự đoán hoặc đưa ra quyết
định mà không cần được lập trình cụ thể. Bài toán học máy thường được chia làm hai loại
là dự đoán (prediction) và phân loại (classification). Các bài toán dự đoán như dự đoán
giá nhà, giá xe .. Các bài toán phân loại như nhận diện chữ viết tay, nhận diện đồ vật, ...
Có hai cách phổ biến phân nhóm các thuật toán Machine learning: Một là dựa trên
phương thức học (learning style), hai là dựa trên chức năng (function) của mồi thuật toán.

Theo phương thức học, các thuật toán Machine Learning thường được chia làm 4 nhóm: Học có
giám sát (Supervised learning), học không giám sát (Unsupervised learning), học bán giám sát
(Semi-supervised learning) và học tăng cường (Reinforcement learning).

Dựa theo chức năng, các thuật toán Machine Learning thường được chia làm các nhóm như sau:
Thuật toán hồi quy (Regression algorithms); Thuật toán phân lớp (Classification algorithms);
Thuật toán phân cụm (Clustering algorithms); Thuật toán Bayes (Bayesian algorithms); Thuật
toán mạng thần kinh nhân tạo (Artificial Neural Network algorithms); Thuật toán giảm thiểu số
chiều (Dimensionality Reduction algorithms), ...

 Quản trị và xử lý Cơ sở dữ liệu (Database and process): Thông thường, trong một công ty
lớn hoặc các tổ chức quan trọng của một quốc gia thì cơ sở dữ liệu dường như là điều tối
mật. Vì vậy các tổ chức hay công ty này đều phải cần một đội ngũ quản trị cơ sở dữ liệu.
Công tác quản trị và xử lý dữ liệu là làm những nhiệm vụ như cài đặt, sao lưu, kiểm soát,
xử lý, duy trì hệ thống dữ liệu an toàn. Đội ngũ quản trị cơ sở dữ liệu là những người
thiết kế, "chăm sóc" hệ thống thông tin của tổ chức, công việc của họ là tìm ra cách lưu
trữ hiệu quả nhất, nhằm đưa thông tin tới người cần vào đúng thời điểm. Họ còn là người
xác định nhu cầu của người sử dụng, thiết lập và đảm bảo hệ thống hoạt động thông suốt.

Để thực hiện được công tác quản trị dữ liệu, đội ngũ kỹ thuật sẽ phải sử dụng một hoặc một số
Hệ quản trị cơ sở dữ liệu (Database Management System - DBMS). DBMS là một phần mềm
cho phép tạo lập các cơ sở dữ liệu cho các ứng dụng khác nhau và điều khiến mọi truy cập tới
các cơ sở dữ liệu đó. Nghĩa là, hệ quản trị cơ sở dữ liệu cho phép định nghĩa (xác định kiểu, cấu
trúc, ràng buộc dữ liệu), tạo lập (lưu trữ dữ liệu trên các thiết bị nhớ) và thao tác (truy vấn, cập
nhật, kết xuất, ...) các cơ sở dữ liệu cho các ứng dụng khác nhau.

Trên thị trường hiện nay, có rất nhiều DBMS khác nhau, mỗi hệ quản trị sẽ có
những ưu điểm và hạn chế nhất định. Sau đây là danh sách xếp hạng 10 DBMS phổ
biến nhất trên thế giới hiện nay.

Trực quan hóa và phân tích dữ liệu (Visualization): là kỹ thuật tạo ra những hình ảnh, biểu
đồ, đồ thị để diễn tả thông điệp, thông tin đến người dùng. Trực quan hóa nghiên cứu
trình bày một cách trực quan khối dữ liệu trừu tượng để tăng cường nhận thức của con
người. Trong hoạt động thống kê và phân tích dữ liệu, trực quan hóa kết quả phân tích
dưới dạng đồ hoạ thông tin, biểu đồ, sơ đồ, hình ảnh, …là phương thức trình bày rất phổ
biến nhằm diễn giải số liệu dễ hiểu cho người xem.

Hiện nay, để thuận tiện cho người dùng trong việc trực quan hóa dữ liệu và phân tích, các
công cụ hầu hết đều đã tối ưu tính năng thiết kế biểu đồ theo hệ trục tọa độ và các bộ màu
mặc định. Người dùng chỉ cần thao tác thêm để biểu đồ hiển thị đầy đủ hơn theo các nội
dung phân tích. Một số công cụ phổ biến cho trực quan hóa và phân tích dữ liệu như:

Microsoft Excel: một công cụ văn phòng rất phổ biến của Microsoft, có thể quản lý dữ liệu
và trực quan hóa bằng biểu đồ. Tuy nhiên, Excel phù hợp với các phân tích ngắn và không
sử dụng quá nhiều biểu đồ. Việc trực quan hóa dữ liệu thành các bảng tổng quan
(Dashboard) bằng Excel sẽ khó khăn hơn, không được tối ưu như các phần mềm chuyên
dụng khác.

Google Data Studio: một công cụ trực quan hóa dữ liệu trực tuyến và miễn phí của Google.
Công cụ này có thể kết nối với các nguồn dữ liệu từ Google Analytics, Facebook Ads,
Google Sheets hoặc Google BigQuery, ... và tổng hợp thành các bảng tổng quan
(Dashboard) sử dụng cho báo cáo và phân tích.

Microsoft Power BI: là một công cụ trực quan dữ liệu nâng cao của Excel Pivot Table. Công
cụ này có thể kết nối với rất nhiều nguồn dữ liệu như: Excel, Google Analytics SQL server,
…và tổng hợp thành các bang tổng quan (Dashboard). Ngoài các biểu đồ mặc định cơ bản
cho trước, người dùng cũng có thể tải các dạng biểu đồ đặc biệt từ PowerBI visuals sử dụng
cho các phân tích nâng cao hơn. Microsoft Power BI có giao diện thân thiện và dễ sử dụng
cho người dùng phổ thông và có thể sử dụng phiên bản miễn phí, hoặc có phí từ 10
USD/tháng.

Tableau: một công cụ có những tính năng tương tự như Microsoft Power BI nhưng không
giới hạn phạm vi kết nối các nguồn dữ liệu và có tính năng tối ưu hơn (khả năng phần tích,
xử lý và trực quan mạnh mẽ) đối với các nguồn dữ liệu lớn. Công cụ này đòi hỏi trình độ
người phân tích và xử lý dữ liệu cao hơn, ngoài ra số tiền bỏ ra để sử dụng phần mềm này
cũng khá lớn. Do đó, Tableau ít được người dùng phổ thông sử dụng, mà thường là lựa chọn
của các doanh nghiệp lớn.
1.3 Lĩnh Vực Yêu Thích: Quản Trị và Xử Lý Cơ Sở Dữ Liệu.
Quản trị và xử lý cơ sở dữ liệu không chỉ là nền tảng của khoa học dữ liệu mà còn là lĩnh
vực mà em ấn tượng nhất. Sự quan tâm của em đối với lĩnh vực này bắt nguồn từ ý thức về
vai trò quan trọng của việc quản lý dữ liệu một cách chính xác và hiệu quả để hỗ trợ quá
trình phân tích và ra quyết định trong kinh doanh.

Giải Thích Lý Do
Tầm Quan Trọng:
 Lĩnh vực quản trị và xử lý cơ sở dữ liệu đóng vai trò thiết yếu trong việc đảm bảo
rằng dữ liệu được lưu trữ một cách có tổ chức, an toàn và sẵn sàng cho quá trình
phân tích. Mọi dự án khoa học dữ liệu đều bắt đầu bằng việc xây dựng một cơ sở dữ
liệu vững chắc, từ đó mới có thể trích xuất thông tin và kiến thức cần thiết. Sự tinh
gọn và chính xác của cơ sở dữ liệu quyết định đến chất lượng và tốc độ của quá trình
phân tích dữ liệu sau này.
Cá Nhân:
 Sở thích cá nhân của em trong quản trị và xử lý cơ sở dữ liệu từ niềm đam mê với
việc tạo ra trật tự từ sự hỗn độn, cũng từ sở trường của bản thân là tư duy cấu trúc và
khả năng đọc các con số. Việc thiết lập cấu trúc, thực hiện các chuẩn mực bảo mật và
tối ưu hiệu suất là những thách thức thú vị, đồng thời cung cấp cảm giác thành tựu
khi dữ liệu được quản lý một cách hiệu quả. Không có gì bằng việc thấy các truy vấn
phức tạp được thực hiện nhanh chóng và chính xác, cũng như việc kiến thức được
khai thác từ cơ sở dữ liệu mà mình đã cất công xây dựng và bảo trì.

Kết luận:

 Quản trị và xử lý cơ sở dữ liệu là một phần không thể thiếu trong mọi hoạt động liên
quan đến dữ liệu. Sự kết hợp giữa kỹ thuật mạnh mẽ và hiểu biết sâu sắc về dữ liệu
tạo nên một nền tảng vững chắc cho sự thành công của các doanh nghiệp và tổ chức
trong kỷ nguyên số hiện nay. Với sự phát triển không ngừng của công nghệ, việc
quản trị và xử lý cơ sở dữ liệu sẽ tiếp tục phát triển, mở ra những khả năng và cơ hội
mới cho các nhà khoa học dữ liệu trong tương lai.

You might also like