Download as pdf or txt
Download as pdf or txt
You are on page 1of 59

Chương 1

GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU

1.1. SỰ PHÁT TRIỂN VÀ VAI TRÒ CỦA KHOA HỌC DỮ LIỆU

1.1.1. Lịch sử và sự phát triển của khoa học dữ liệu


Khoa học dữ liệu là một ngành mới mẻ và đang phát triển trong thế kỷ 21. Khoa học
dữ liệu là một lĩnh vực đa ngành, kết hợp các kiến thức và kỹ thuật từ toán học, thống kê,
khoa học máy tính, kinh tế, kinh doanh và các lĩnh vực khác. Đây là một cái nhìn tổng
quan về sự hình thành và phát triển của khoa học dữ liệu:
Những bước đầu (1960 - 1996): Trong giai đoạn này, thuật ngữ "Khoa học dữ liệu"
(data science) đã xuất hiện trong nhiều tài liệu liên quan đến các phương pháp tính toán.
Tuy nhiên, nó vẫn chưa được chính thống hóa và xác định rõ. Vào tháng 11 năm 1997,
một nhà nghiên cứu tên là Chien-Fu Jeff Wu đã đưa ra việc sử dụng thuật ngữ "Khoa học
dữ liệu" (data science) một cách chính thức trong bài thuyết trình mang tên "Statistics =
Data Science?" tại Đại học Michigan. Ông đã đề xuất rằng thống kê nên được đổi tên
thành Khoa học dữ liệu và những người làm công việc này nên được gọi là nhà khoa học
dữ liệu, do họ dành nhiều thời gian cho việc thao tác và thử nghiệm với dữ liệu.
Độc lập như một ngành (2001 - 2002): Năm 2001, William S. Cleveland đã giới
thiệu Khoa học dữ liệu như một ngành độc lập. Tháng 4 năm 2002, International Council
for Science đã ra mắt Tạp chí Khoa học dữ liệu, tập trung vào việc mô tả hệ thống dữ
liệu, xuất bản trực tuyến, ứng dụng và vấn đề pháp lý. Đại học Columbia cũng bắt đầu
xuất bản Tạp chí Khoa học dữ liệu vào tháng 01 năm 2003 để cung cấp một nền tảng cho
các nhà nghiên cứu dữ liệu chia sẻ quan điểm và ý kiến của họ.
Sự thức tỉnh trong thập kỷ 21 (2008 - 2013): Mặc dù thuật ngữ "Khoa học dữ liệu"
đã được sử dụng và định nghĩa ở một số mức độ từ thập kỷ trước, nhưng nó không được
phổ biến cho đến khi DJ Patil và Jeff Hammerbacher sử dụng nó để đặt tên cho công việc
của họ tại LinkedIn và Facebook vào năm 2008. Năm 2013, IEEE (Hội Kỹ sư Điện và
Điện tử) đã thành lập Nhóm công tác về Khoa học dữ liệu và Phân tích nâng cao, mở đầu
cho việc tăng cường sự thúc đẩy và nghiên cứu trong lĩnh vực này.
Sự lan rộng và thành lập tạp chí (2014 - 2015): Năm 2014, đã diễn ra hội nghị quốc
tế đầu tiên về Khoa học dữ liệu và Phân tích nâng cao của IEEE, đánh dấu sự công nhận
rộng rãi của lĩnh vực này. Năm 2015, Springer đã thành lập Tạp chí Quốc tế về Khoa học
dữ liệu và Phân tích (Journal of Data Science and Analytics) để xuất bản các tác phẩm
ban đầu về Khoa học dữ liệu và phân tích dữ liệu lớn.
Thế kỷ 21: Cuộc cách mạng dữ liệu (từ năm 2000 đến nay): Khoa học dữ liệu đã
trải qua sự bùng nổ trong thế kỷ 21 với sự ra đời của dữ liệu lớn (big data) và sự phát
triển vượt bậc của công nghệ thông tin. Ngày nay, Khoa học dữ liệu không chỉ là một
thuật ngữ mà còn là một ngành độc lập và một lĩnh vực nghiên cứu quan trọng. Nó đã và
đang được áp dụng rộng rãi trong nhiều lĩnh vực như kinh doanh, y tế, khoa học xã hội và
nhiều lĩnh vực khác, và là một phần quan trọng của cuộc cách mạng dữ liệu.
1.1.2. Tầm quan trọng và ứng dụng của Khoa học dữ liệu
a) Tầm quan trọng của Khoa học dữ liệu
Khoa học dữ liệu có khả năng nắm bắt, xử lý và phân tích lượng lớn dữ liệu. Trước
đây, thông tin chỉ được thu thập và lưu trữ một cách đơn giản. Tuy nhiên, với sự phát
triển của công nghệ, chúng ta hiện nắm giữ một nguồn dữ liệu phong phú từ nhiều nguồn
khác nhau như các trang web, cảm biến, thiết bị di động, mạng xã hội và nhiều nguồn
khác. Khoa học dữ liệu giúp chúng ta khai thác tri thức và thông tin tiềm ẩn trong dữ liệu
này, từ đó tạo ra sự hiểu biết sâu sắc và các giá trị trong nhiều lĩnh vực khác nhau.
Bên cạnh đó, Khoa học dữ liệu cũng giúp chúng ta phân tích dữ liệu và tìm ra thông
tin giá trị. Khoa học dữ liệu có một tầm quan trọng vô cùng đối với xã hội và nền kinh tế
hiện đại. Dưới đây là một số điểm quan trọng của Khoa học dữ liệu:
Các quyết định dựa trên dữ liệu: Khoa học dữ liệu giúp đưa ra quyết định dựa
trên sự hiểu biết và phân tích dữ liệu chính xác hơn. Các quyết định này có thể liên quan
đến kinh doanh, chính trị, y tế, và nhiều lĩnh vực khác.
1- Kinh doanh và Tiếp thị: Trong lĩnh vực kinh doanh và tiếp thị, việc thu thập và phân
tích dữ liệu giúp doanh nghiệp hiểu rõ hơn về hành vi của khách hàng, dự đoán xu hướng
thị trường, và tối ưu hóa chiến lược kinh doanh. Dữ liệu có thể đóng vai trò quan trọng
trong việc xác định sản phẩm/dịch vụ nào sẽ được phát triển và quảng cáo.
2- Chính trị và Bầu cử: Trong lĩnh vực chính trị, Khoa học dữ liệu có thể sử dụng để phân
tích dữ liệu xã hội và dự đoán xu hướng bầu cử. Các quyết định liên quan đến chiến dịch
truyền thông, phân phối tài nguyên, và đảm bảo thông điệp phù hợp với cử tri dựa trên
việc phân tích dữ liệu chính xác.
3- Y tế và Chăm sóc sức khỏe: Trong lĩnh vực y tế, Khoa học dữ liệu cung cấp cơ hội cải
thiện quản lý bệnh, chẩn đoán bệnh, và dự đoán tác động của thuốc. Phân tích dữ liệu từ
hồ sơ bệnh án và kết quả xét nghiệm đóng vai trò quan trọng trong việc đưa ra các quyết
định về điều trị và chăm sóc sức khỏe.
4- Tài chính và Đầu tư: Trong lĩnh vực tài chính, Khoa học dữ liệu được sử dụng để quản
lý rủi ro, dự đoán thị trường tài chính, và phân tích tín dụng. Dữ liệu giúp định hình quyết
định đầu tư thông minh, quản lý danh mục đầu tư, và xác định chiến lược giao dịch dựa
trên sự hiểu biết chính xác về thị trường.
5- Chính phủ và Dịch vụ công: Khoa học dữ liệu giúp chính phủ hiểu rõ hơn về nhu cầu
của cộng đồng, tối ưu hóa quy trình hành chính, và dự đoán xu hướng xã hội để đưa ra
các chính sách và quyết định hiệu quả hơn.
6- Giáo dục: Trong lĩnh vực giáo dục, Khoa học dữ liệu có thể cải thiện quá trình giảng
dạy và học tập bằng cách phân tích dữ liệu về tiến bộ học sinh, xác định mô hình học tập
hiệu quả, và tùy chỉnh nội dung giảng dạy.
Việc đưa ra quyết định dựa trên dữ liệu không chỉ là một phần quan trọng của cuộc
sống và công việc mà còn là một công cụ quan trọng để đảm bảo rằng những quyết định
này được đưa ra dựa trên sự chắc chắn và thông tin chính xác. Khoa học dữ liệu là công
cụ quyết định mạnh mẽ để tối ưu hóa hiệu suất và đảm bảo rằng các quyết định được đưa
ra mang lại lợi ích tối đa.
Cải thiện hiệu suất: Bằng cách ứng dụng Khoa học dữ liệu, các tổ chức có thể tối
ưu hóa quy trình và tăng cường hiệu suất. Điều này giúp giảm chi phí và tăng cường lợi
nhuận.
Khoa học dữ liệu đã thay đổi cách các tổ chức tiến hành sản xuất và cung cấp dịch
vụ. Bằng cách sử dụng dữ liệu, họ có khả năng tối ưu hóa quy trình nội bộ và nâng cao
hiệu suất, dẫn đến một loạt lợi ích khác nhau:
1- Dự đoán nhu cầu sản phẩm: Sử dụng dữ liệu lịch sử và dữ liệu thị trường, các doanh
nghiệp có thể dự đoán nhu cầu của sản phẩm hoặc dịch vụ của họ trong tương lai. Điều
này giúp họ lập kế hoạch sản xuất và phân phối sao cho đáp ứng đúng lúc và tránh tình
trạng dư thừa hoặc thiếu hụt.
2- Tối ưu hóa chuỗi cung ứng: Khoa học dữ liệu cung cấp thông tin chi tiết về toàn bộ
chuỗi cung ứng. Từ việc theo dõi lộ trình vận chuyển đến việc quản lý tồn kho, các tổ
chức có thể tối ưu hóa chuỗi cung ứng của họ. Điều này giúp giảm thiểu thất thoát, giảm
chi phí vận chuyển, và đảm bảo tính liên tục trong quá trình sản xuất.
3- Cải thiện chất lượng sản phẩm và dịch vụ: Phân tích dữ liệu có thể giúp tổ chức xác
định các vấn đề về chất lượng và hiệu suất sản phẩm hoặc dịch vụ. Bằng cách theo dõi
các chỉ số chất lượng và phản hồi của khách hàng, họ có thể nhanh chóng xác định và
khắc phục vấn đề này, tạo ra sản phẩm và dịch vụ tốt hơn.
4- Tiết kiệm năng lượng và tài nguyên: Khoa học dữ liệu có thể được áp dụng để giám sát
việc sử dụng năng lượng và tài nguyên. Điều này giúp tổ chức tìm ra các cách tiết kiệm
và tối ưu hóa sử dụng năng lượng, giảm thiểu lãng phí, và đóng góp vào bảo vệ môi
trường.
5- Dự báo bảo dưỡng và sửa chữa: Các công ty sử dụng Khoa học dữ liệu để dự đoán thời
điểm cần thực hiện bảo dưỡng và sửa chữa cho các thiết bị và hệ thống. Điều này giúp họ
tránh được các sự cố không mong muốn, giảm thời gian ngừng hoạt động, và tiết kiệm
chi phí bảo dưỡng.
Sự kết hợp của Khoa học dữ liệu và công nghệ cho phép các tổ chức cải thiện hiệu
suất và tối ưu hóa quy trình một cách đáng kể, dẫn đến giảm chi phí và tăng cường lợi
nhuận.
Dự đoán và phòng tránh rủi ro: Khoa học dữ liệu cho phép chúng ta dự đoán rủi
ro và tìm cách ngăn chặn chúng. Chúng ta có thể tìm hiểu vấn đề này qua một số lĩnh vực
cụ thể để hiểu rõ hơn:
1- Tài chính và Đầu tư: Trong lĩnh vực tài chính, Khoa học dữ liệu giúp dự đoán và
phòng tránh rủi ro tài chính. Phân tích dữ liệu thị trường tài chính, dự đoán biến động giá
cả, và xác định các yếu tố rủi ro có thể giúp các nhà đầu tư ra quyết định thông minh. Họ
có thể đa dạng hóa danh mục đầu tư để giảm rủi ro, hay sử dụng mô hình dữ liệu để theo
dõi và dự đoán tình hình tài chính của các công ty.
2- Y tế và Dự đoán sức khỏe: Khoa học dữ liệu đã thay đổi cách chúng ta đối phó với rủi
ro về sức khỏe. Bằng cách phân tích dữ liệu sức khỏe cơ bản và dữ liệu bệnh lý, nó cho
phép dự đoán nguy cơ mắc bệnh và tìm ra những biểu hiện tiền lâm sàng. Điều này giúp
cải thiện dự đoán bệnh, đưa ra biện pháp phòng ngừa và điều trị sớm.
3- Quản lý chuỗi cung ứng: Trong ngành sản xuất và quản lý chuỗi cung ứng, Khoa học
dữ liệu giúp dự đoán rủi ro liên quan đến nguồn cung ứng. Thông qua phân tích dữ liệu
về lịch sử cung ứng và các yếu tố ảnh hưởng như thời tiết, động đất, hoặc sự cố nhà cung
cấp, các tổ chức có thể tìm cách đề phòng và ứng phó với rủi ro hỏng hóc trong chuỗi
cung ứng.
4- Bảo mật mạng và Phát hiện xâm nhập: Trong lĩnh vực bảo mật mạng, Khoa học dữ
liệu giúp dự đoán và phòng tránh các cuộc tấn công mạng. Bằng cách phân tích dữ liệu
lưu lượng mạng và sử dụng các thuật toán học máy, nó có thể phát hiện các hoạt động bất
thường và tiềm ẩn nguy cơ xâm nhập.
5- Bảo hiểm và Quản lý rủi ro: Trong ngành bảo hiểm, Khoa học dữ liệu hỗ trợ việc ước
tính và quản lý rủi ro. Nó giúp bảo hiểm xác định giá trị thực sự của rủi ro và thiết lập giá
bảo hiểm hợp lý. Ngoài ra, nó có thể được sử dụng để theo dõi và dự đoán xu hướng tổn
thất bảo hiểm và giúp bảo hiểm phát triển chiến lược chi trả hiệu quả.
Khoa học dữ liệu không chỉ giúp dự đoán rủi ro mà còn cho phép tổ chức thực hiện
các biện pháp đề phòng thông minh và quản lý rủi ro một cách hiệu quả. Việc này giúp
giảm thiểu thiệt hại và tối ưu hóa quá trình quản lý rủi ro trong nhiều ngành.
Hiểu sâu hơn về khách hàng và người dùng: Khoa học dữ liệu đóng một vai trò
quan trọng trong việc hiểu rõ hơn về khách hàng và người dùng. Điều này không chỉ giúp
các tổ chức cung cấp dịch vụ và sản phẩm cá nhân hóa hơn mà còn đem lại nhiều lợi ích
khác:
1- Phân tích hành vi khách hàng: Khoa học dữ liệu cho phép tổ chức thu thập và phân
tích dữ liệu về hành vi trực tuyến và offline của khách hàng. Những thông tin này bao
gồm việc họ tương tác với trang web, ứng dụng di động, mua sắm trực tuyến, hoặc thậm
chí là tương tác trên mạng xã hội. Phân tích sâu hơn giúp xác định các thói quen, ưa
thích, và nhu cầu của khách hàng.
2- Cá nhân hóa dịch vụ và sản phẩm: Với thông tin từ Khoa học dữ liệu, các tổ chức có
thể cá nhân hóa sản phẩm và dịch vụ của họ để phản ánh những mong muốn cụ thể của
từng khách hàng. Ví dụ, các trang web mua sắm có thể đề xuất sản phẩm dựa trên lịch sử
mua hàng của người dùng. Các ứng dụng di động có thể đưa ra nội dung cá nhân hóa dựa
trên sở thích đọc tin tức của người dùng.
3- Tăng tương tác khách hàng: Bằng cách hiểu rõ hơn về khách hàng, tổ chức có thể
tương tác với họ một cách tốt hơn. Việc cung cấp thông tin và nội dung mà khách hàng
quan tâm tới tạo ra một trải nghiệm tích cực. Họ cảm thấy họ được quan tâm đến và đáng
giá, điều này có thể dẫn đến sự trung thành và tăng doanh số bán hàng.
4- Dự đoán xu hướng tương lai: Khoa học dữ liệu không chỉ giúp hiểu về khách hàng
hiện tại mà còn dự đoán xu hướng tương lai. Thông qua việc phân tích dữ liệu lịch sử và
sử dụng các mô hình học máy, tổ chức có thể đoán trước những thay đổi trong hành vi
của khách hàng và thị trường, từ đó điều chỉnh chiến lược kinh doanh của họ một cách
linh hoạt.
5- Tối ưu hóa chiến lược tiếp thị: Khoa học dữ liệu giúp làm rõ hơn về hiệu suất chiến
lược tiếp thị. Từ việc theo dõi hiệu suất quảng cáo trực tuyến đến đánh giá tương tác trên
mạng xã hội, tổ chức có thể xác định những chiến lược nào hiệu quả và nên tập trung
vào.
6- Dịch vụ khách hàng tốt hơn: Hiểu rõ hơn về khách hàng có thể giúp cải thiện dịch vụ
khách hàng. Từ việc cung cấp hỗ trợ cá nhân hóa đến việc giải quyết thắc mắc một cách
nhanh chóng và hiệu quả, tổ chức có thể tạo ra trải nghiệm khách hàng tích cực.
Khoa học dữ liệu không chỉ giúp các tổ chức đáp ứng nhu cầu và mong muốn của
khách hàng một cách tốt hơn mà còn tạo ra cơ hội tối ưu hóa các lĩnh vực khác của kinh
doanh từ tiếp thị đến phát triển thị trường. các khía cạnh khác của kinh doanh, từ tiếp
Nghiên cứu và phát triển: Khoa học dữ liệu là công cụ quan trọng cho nghiên cứu
và phát triển trong nhiều lĩnh vực, từ y học đến khoa học xã hội.
1- Tạo nền tảng dữ liệu lớn: Khoa học dữ liệu cung cấp nền tảng cho việc thu thập và lưu
trữ dữ liệu lớn, đa dạng từ nhiều nguồn khác nhau. Điều này cho phép các nhà nghiên
cứu có truy cập vào tài nguyên dữ liệu phong phú để thực hiện nghiên cứu.
2- Phân tích dữ liệu: Khoa học dữ liệu cung cấp các công cụ và kỹ thuật để phân tích dữ
liệu một cách sâu rộng. Các nhà nghiên cứu có thể áp dụng các thuật toán máy học và
khai phá dữ liệu để tìm ra mối liên hệ, xu hướng, và tri thức mới từ dữ liệu.
3- Y học: Trong lĩnh vực y học, Khoa học dữ liệu đã đóng một vai trò lớn trong việc phân
tích dữ liệu y tế. Nó giúp tạo ra các mô hình dự đoán về bệnh tật và phản ứng của bệnh
nhân đối với các phương pháp điều trị. Khoa học dữ liệu cũng hỗ trợ trong việc nghiên
cứu dịch tễ học và di truyền, từ việc xác định các yếu tố nguy cơ cho các bệnh đến việc
phát triển phương pháp chẩn đoán tiên tiến.
4- Khoa học xã hội: Trong lĩnh vực khoa học xã hội, Khoa học dữ liệu giúp nghiên cứu
và dự đoán hành vi của con người. Nó có thể áp dụng trong nghiên cứu về hành vi trực
tuyến, tương tác trên mạng xã hội, và phản ứng của công chúng đối với sự kiện xã hội.
5- Mô hình hóa: Khoa học dữ liệu cho phép xây dựng các mô hình và mô phỏng phức tạp
để nghiên cứu các hiện tượng khoa học. Ví dụ, trong lĩnh vực khí hậu học, Khoa học dữ
liệu được sử dụng để phân tích dữ liệu về biến đổi khí hậu và xây dựng các mô hình dự
đoán về tương lai của môi trường.
6- Tối ưu hóa: Khoa học dữ liệu cũng giúp tối ưu hóa quá trình nghiên cứu. Từ việc tự
động hóa việc thu thập dữ liệu đến việc tìm kiếm thông tin hiệu quả, các nhà nghiên cứu
có thể tiết kiệm thời gian và tài nguyên.
7- Khai phá tri thức mới: Khoa học dữ liệu giúp khai phá tri thức mới từ dữ liệu. Điều
này có thể giúp mở ra những cơ hội nghiên cứu mới, tạo ra hiểu biết sâu sắc về thế giới
xung quanh chúng ta.
Khoa học dữ liệu đóng một vai trò không thể thiếu trong việc thúc đẩy nghiên cứu
và phát triển trong nhiều lĩnh vực, giúp cải thiện hiểu biết, đưa ra dự đoán, và tạo ra ứng
dụng thực tiễn.
b) Ứng dụng của Khoa học dữ liệu trong các lĩnh vực cụ thể
Khoa học dữ liệu đã chứng minh sự quan trọng và đa dạng của nó thông qua những
tiến bộ đáng kể trong nhiều lĩnh vực. Sự phát triển của công nghệ và khả năng thu thập
dữ liệu đa dạng đã mở ra cánh cửa cho việc tận dụng thông tin để giải quyết các vấn đề
phức tạp và đưa ra những quyết định thông minh. Dưới đây, chúng ta sẽ đi sâu vào các
ứng dụng cụ thể của Khoa học dữ liệu trong ba lĩnh vực chính: y tế, tài chính và xã
hội/chính trị.
Trong lĩnh vực y tế: Khoa học dữ liệu đã thay đổi cách chúng ta chẩn đoán và điều
trị bệnh. Bằng cách phân tích dữ liệu từ hồ sơ bệnh án, kết quả xét nghiệm và dữ liệu di
truyền, chúng ta có thể tạo ra các mô hình dự đoán và phân loại bệnh. Điều này không chỉ
giúp cải thiện chẩn đoán sớm mà còn tối ưu hóa quản lý bệnh nhân và cung cấp chăm sóc
y tế tốt hơn. Ví dụ, trong lĩnh vực ung thư, Khoa học dữ liệu có thể giúp phân loại và dự
đoán mức độ nghiêm trọng của khối u dựa trên các yếu tố như kích thước, vị trí và các
đặc điểm sinh lý khác. Điều này giúp tăng cường khả năng chẩn đoán sớm, nhanh chóng
và chính xác, từ đó cải thiện kết quả điều trị và tỷ lệ sống sót của bệnh nhân.
Tối ưu hóa quy trình chăm sóc y tế cũng là một ứng dụng quan trọng của Khoa học
dữ liệu. Phân tích dữ liệu từ quy trình chăm sóc y tế, từ việc ghi nhận thông tin y tế đến
lịch trình điều trị và phản hồi của bệnh nhân, chúng ta có thể tìm ra các vấn đề tiềm ẩn và
tối ưu hóa quy trình. Ví dụ, Khoa học dữ liệu có thể giúp phát hiện và giải quyết các vấn
đề về chất lượng dịch vụ y tế, tối ưu hóa thời gian chờ đợi và cải thiện trải nghiệm bệnh
nhân.
Dự đoán tác động của thuốc và liệu pháp điều trị là một khía cạnh quan trọng khác
của ứng dụng Khoa học dữ liệu trong y tế. Phân tích dữ liệu về tác động của thuốc và các
liệu pháp điều trị giúp cá nhân hóa điều trị, tối ưu hóa kết quả điều trị và giảm thiểu tác
dụng phụ không mong muốn.
Nghiên cứu y khoa và phát triển mới cũng đã hưởng lợi từ Khoa học dữ liệu. Phân
tích dữ liệu từ các thử nghiệm lâm sàng, nghiên cứu di truyền và các nguồn dữ liệu y tế
khác giúp chúng ta xây dựng mô hình dự đoán, tìm ra mối liên hệ và khám phá tri thức
mới về các bệnh lý, yếu tố nguy cơ và biểu hiện lâm sàng.
Trong lĩnh vực tài chính: Khoa học dữ liệu đã có ứng dụng rộng rãi trong việc
quản lý rủi ro, dự báo thị trường tài chính và phân tích tín dụng. Các công ty tài chính sử
dụng Khoa học dữ liệu để xây dựng mô hình phân tích rủi ro để đánh giá và quản lý rủi ro
tài chính. Ví dụ, Khoa học dữ liệu có thể được sử dụng để phân tích lịch sử và biến động
giá cả, từ đó dự đoán và đánh giá rủi ro của các khoản đầu tư và giao dịch.
Dự báo thị trường tài chính là một lĩnh vực quan trọng khác của Khoa học dữ liệu.
Phân tích dữ liệu tài chính và kinh tế, cùng với việc theo dõi tin tức và sự kiện thế giới,
giúp dự đoán xu hướng và biến động giá cả trên thị trường chứng khoán. Điều này giúp
các nhà đầu tư và các công ty tài chính có thể tạo ra chiến lược đầu tư thông minh và đưa
ra quyết định giao dịch hiệu quả.
Phân tích tín dụng và đánh giá rủi ro tín dụng cũng được cải thiện thông qua Khoa
học dữ liệu. Bằng cách phân tích dữ liệu về lịch sử tín dụng của cá nhân và doanh nghiệp,
chúng ta có thể xác định khả năng trả nợ và đánh giá rủi ro tín dụng một cách chính xác
hơn.
Trong lĩnh vực xã hội và chính trị: Khoa học dữ liệu có ứng dụng trong việc phân
tích và hiểu hành vi của người dùng trên mạng xã hội và các nền tảng trực tuyến khác.
Phân tích dữ liệu xã hội giúp chúng ta hiểu về suy nghĩ, tư duy và hành vi của công
chúng. Điều này có thể ảnh hưởng đến quyết định chính trị, chiến dịch bầu cử và quản lý
dư luận.
Phân tích dữ liệu trên mạng xã hội cũng có thể giúp các doanh nghiệp cải thiện
chiến lược tiếp thị. Bằng cách theo dõi và phân tích tương tác của người dùng trên các
nền tảng truyền thông xã hội, các công ty có thể hiểu rõ hơn về sở thích và nhu cầu của
khách hàng, từ đó tạo ra chiến lược quảng cáo và tiếp thị đáng chú ý hơn.
Ngoài ra, Khoa học dữ liệu cũng được sử dụng trong việc dự đoán và ứng phó với
các sự kiện xã hội và chính trị quan trọng. Ví dụ, các mô hình dự đoán có thể được xây
dựng để dự đoán dịch bệnh, biểu đồ thay đổi xã hội và tình hình an ninh. Điều này giúp
chính phủ và các tổ chức xã hội chuẩn bị sẵn sàng và đưa ra quyết định nhanh chóng
trong trường hợp khẩn cấp.
Khoa học dữ liệu có ứng dụng quan trọng trong nhiều lĩnh vực, từ y tế, tài chính đến
xã hội và chính trị. Sự phát triển liên tục của Khoa học dữ liệu và công nghệ dữ liệu đang
mở ra nhiều cơ hội mới để tận dụng thông tin và giải quyết những thách thức phức tạp
của thế giới hiện đại.
c) Sự khác nhau giữa Khoa học dữ liệu và một số lĩnh vực dữ liệu khác
 Khoa học dữ liệu và Phân tích dữ liệu:
Phạm vi công việc:
Khoa học dữ liệu: Được mô tả là một khái niệm bao quát, bao gồm mọi khía cạnh
của xử lý dữ liệu. Nó bắt đầu từ việc thu thập dữ liệu, tiếp theo là việc lập mô hình dữ
liệu và cuối cùng là việc rút ra thông tin chuyên sâu từ dữ liệu. Khoa học dữ liệu bao gồm
toàn bộ quá trình từ đầu đến cuối và thường đòi hỏi sự hiểu biết về nhiều lĩnh vực như
thống kê, toán học, và khoa học máy tính.
Phân tích dữ liệu: Lĩnh vực này tập trung vào thống kê toán học, và phân tích thống
kê để tìm hiểu dữ liệu. Nó thường tập trung vào việc trích xuất thông tin từ dữ liệu sẵn có
mà không đi sâu vào các khía cạnh khác của xử lý dữ liệu.
Mục tiêu công việc:
Khoa học dữ liệu: Mục tiêu chính của khoa học dữ liệu là tạo ra giá trị từ dữ liệu.
Nó không chỉ dừng lại ở việc hiểu dữ liệu, mà còn đặt ra mục tiêu tạo ra dự đoán, đưa ra
quyết định, tối ưu hóa quy trình, và thậm chí phát triển các ứng dụng dựa trên dữ liệu.
Phân tích dữ liệu: Mục tiêu chính của phân tích dữ liệu là hiểu sâu hơn về dữ liệu
sẵn có. Nó tập trung vào việc sử dụng thống kê và toán học để mô tả và diễn giải dữ liệu
đã thu thập.
Các công việc phụ trợ:
Khoa học dữ liệu: Trong khoa học dữ liệu, người làm việc có thể bao gồm các vai
trò như thiết kế cơ sở dữ liệu, điều chỉnh và quản lý dữ liệu, phát triển các phương thức
lưu trữ, và tạo ra các công cụ mới để xử lý dữ liệu cho các nhà phân tích sử dụng.
Phân tích dữ liệu: Ngược lại, phân tích dữ liệu thường tập trung vào việc diễn giải
dữ liệu hiện có và cung cấp các báo cáo thường xuyên.
Sự hợp tác:
Trong nhiều môi trường làm việc, khoa học dữ liệu và phân tích dữ liệu thường phối
hợp cùng nhau để đạt được các mục tiêu kinh doanh chung. Một nhà phân tích dữ liệu có
thể tập trung vào việc phân tích thông thường và cung cấp các báo cáo thường xuyên.
Trong khi đó, một nhà khoa học dữ liệu có thể dành thời gian nghiên cứu, thiết kế
phương thức lưu trữ, và phát triển công cụ để cải thiện xử lý dữ liệu.
Sự sáng tạo và tạo ra giá trị mới:
Khoa học dữ liệu thường đòi hỏi sự sáng tạo để tạo ra các phương pháp và công cụ
mới để xử lý và tạo ra giá trị từ dữ liệu. Điều này có thể là việc sử dụng các thuật toán
máy học tiên tiến, xây dựng các ứng dụng dựa trên dữ liệu, hoặc tạo ra các công cụ phân
tích tùy chỉnh.
Khoa học dữ liệu và phân tích dữ liệu có sự liên quan chặt chẽ, nhưng có phạm vi,
mục tiêu công việc, và các công việc phụ trợ khác biệt, và thường hợp tác để tạo ra giá trị
từ dữ liệu.
 Khoa học dữ liệu và Phân tích kinh doanh
Phạm vi và mục tiêu công việc:
Khoa học dữ liệu: Mục tiêu chính của khoa học dữ liệu là tìm hiểu và tạo ra giá trị
từ dữ liệu bằng cách sử dụng các công nghệ và kỹ thuật phức tạp, chẳng hạn như học máy
và khai phá dữ liệu. Khoa học dữ liệu đặt ra câu hỏi về dữ liệu và thường tạo ra các sản
phẩm hoặc công cụ dựa trên dữ liệu như mô hình dự đoán hoặc ứng dụng dựa trên dữ
liệu.
Phân tích kinh doanh: Ngược lại, phân tích kinh doanh tập trung vào hiểu rõ hoạt
động kinh doanh và tối ưu hóa chúng bằng cách sử dụng dữ liệu. Mục tiêu của phân tích
kinh doanh là giúp doanh nghiệp ra quyết định chiến lược, cải thiện hiệu suất và tối ưu
hóa các quy trình hoạt động.
Khía cạnh công nghệ:
Khoa học dữ liệu: Các nhà khoa học dữ liệu thường là những chuyên gia về công
nghệ dữ liệu. Họ làm việc sát với các công nghệ mới và phức tạp để xử lý và phân tích dữ
liệu. Các nhà khoa học dữ liệu có khả năng phát triển và triển khai các thuật toán và mô
hình học máy mới.
Phân tích kinh doanh: Trong phân tích kinh doanh, công nghệ thường không nằm
trong trung tâm. Nhà phân tích kinh doanh tập trung vào việc sử dụng công cụ và phần
mềm có sẵn để hiểu dữ liệu kinh doanh và đưa ra các giải pháp dựa trên dữ liệu đã thu
thập.
Tầm nhìn công việc:
Khoa học dữ liệu: Các nhà khoa học dữ liệu thường có tầm nhìn xa hơn về việc sử
dụng dữ liệu. Họ không chỉ giải quyết các vấn đề kinh doanh hiện tại mà còn đưa ra các
phát triển mới, thiết kế các hệ thống dữ liệu phức tạp, và tạo ra các ứng dụng sáng tạo
dựa trên dữ liệu.
Phân tích kinh doanh: Trong phân tích kinh doanh, tầm nhìn thường hẹp hơn và tập
trung vào việc cung cấp các giải pháp cho các vấn đề kinh doanh cụ thể. Nhà phân tích
kinh doanh thường tạo ra các báo cáo và phân tích về hiệu suất kinh doanh hiện tại.
Công việc phụ trợ và sự hợp tác:
Khoa học dữ liệu: Các nhà khoa học dữ liệu có thể tham gia vào việc thiết kế cơ sở
dữ liệu, phát triển công cụ phân tích dữ liệu, và tạo ra các ứng dụng dựa trên dữ liệu. Họ
thường làm việc độc lập hoặc trong nhóm với các chuyên gia công nghệ dữ liệu khác.
Phân tích kinh doanh: Nhà phân tích kinh doanh thường làm việc trong môi trường
kinh doanh và hợp tác chặt chẽ với các bộ phận khác trong tổ chức, chẳng hạn như tiếp
thị, tài chính, và quản lý.
Khoa học dữ liệu và phân tích kinh doanh có vai trò quan trọng trong việc tạo ra giá
trị từ dữ liệu, nhưng tiếp cận vấn đề của hai lĩnh vực này từ các góc độ khác nhau, đặc
biệt là trong phạm vi công việc, mục tiêu công việc, sự liên quan đến công nghệ, tầm
nhìn công việc và cách công việc phụ trợ và sự hợp tác diễn ra.
 Khoa học dữ liệu và Kỹ thuật dữ liệu
Vai trò:
Kỹ thuật dữ liệu: Kỹ thuật dữ liệu tập trung vào quá trình thu thập, lưu trữ, và quản
lý dữ liệu. Nó liên quan đến việc xây dựng cơ sở dữ liệu, hệ thống lưu trữ, và các quy
trình tự động hóa để xử lý dữ liệu từ nguồn đến đích một cách hiệu quả.
Khoa học dữ liệu: Khoa học dữ liệu liên quan đến quá trình xử lý, phân tích, hiểu và
rút trích tri thức từ dữ liệu. Nó thường bao gồm việc sử dụng các kỹ thuật thống kê, học
máy và các phương pháp khác để khám phá mô hình, xu hướng, và thông điệp ẩn sau dữ
liệu.
Phạm vi công việc:
Kỹ thuật dữ liệu: Kỹ thuật dữ liệu giúp đảm bảo rằng dữ liệu được thu thập và lưu
trữ một cách an toàn và có thể truy xuất hiệu quả. Các kỹ sư dữ liệu thường làm việc với
cơ sở dữ liệu, các hệ thống lưu trữ đám mây, và phát triển các quy trình tự động hóa để
xử lý lượng lớn dữ liệu.
Khoa học dữ liệu: Khoa học dữ liệu thường được sử dụng để tìm kiếm thông tin hữu
ích, xây dựng mô hình dự đoán, và hỗ trợ quyết định dựa trên dữ liệu. Nó có ứng dụng
rộng rãi trong nhiều lĩnh vực như kinh doanh, y tế, tài chính, và khoa học xã hội.
Mức độ tương tác với công nghệ:
Kỹ thuật dữ liệu: Kỹ thuật dữ liệu phát triển và triển khai các giải pháp công nghệ
dựa trên dữ liệu. Các công việc bao gồm: quản lý hệ thống, lập kế hoạch và triển khai cơ
sở hạ tầng dữ liệu.
Khoa học dữ liệu: Vai trò của Khoa học dữ liệu chủ yếu liên quan đến việc sử dụng
công nghệ để phân tích và tạo ra giải pháp dựa trên dữ liệu.
Kỹ sư dữ liệu chủ yếu tập trung vào cơ sở hạ tầng dữ liệu và công nghệ, trong khi
nhà khoa học dữ liệu tập trung vào việc xây dựng và sử dụng mô hình dự đoán dựa trên
dữ liệu đã được xử lý. Cả hai vai trò này thường hợp tác để tạo ra giá trị từ dữ liệu cho
các tổ chức, các doanh nghiệp.
 Khoa học dữ liệu và Học máy
Phạm vi công việc:
Học máy: Học máy tập trung vào việc phát triển các thuật toán và mô hình máy tính
để máy móc có thể học hỏi và tự điều chỉnh từ dữ liệu. Mục tiêu chính là tạo ra các thuật
toán có khả năng dự đoán hoặc phân loại dữ liệu một cách tự động.
Khoa học dữ liệu: Khoa học dữ liệu mở rộng hơn, bao gồm việc thu thập, lưu trữ,
xử lý và phân tích dữ liệu, cùng với việc áp dụng máy học để tạo ra giá trị từ dữ liệu. Nó
không chỉ tập trung vào việc xây dựng các mô hình máy tính mà còn bao gồm các giai
đoạn khác của quy trình dữ liệu.
Mục tiêu công việc:
Học máy: Mục tiêu cốt lõi của máy học là phát triển các mô hình và thuật toán để
làm dự đoán hoặc phân loại dữ liệu. Nó tập trung vào việc xây dựng các hệ thống có khả
năng học hỏi và tự cải thiện.
Khoa học dữ liệu: Mục tiêu chính của khoa học dữ liệu là tạo ra thông tin và giá trị
từ dữ liệu thông qua việc áp dụng các kỹ thuật phân tích và khám phá dữ liệu. Nó không
chỉ dừng lại ở việc dự đoán, mà còn liên quan đến việc hiểu rõ sâu hơn về dữ liệu và đưa
ra quyết định dựa trên thông tin đó.
Khía cạnh công nghệ:
Học máy: Học máy chặt chẽ liên quan đến việc phát triển các thuật toán và mô hình
máy tính. Các kỹ sư máy học thường là người chuyên về các kỹ thuật tính toán và thuật
toán.
Khoa học dữ liệu: Khoa học dữ liệu không chỉ liên quan đến phân tích dữ liệu mà
còn bao gồm việc quản lý dữ liệu, thu thập dữ liệu, và xây dựng hệ thống xử lý dữ liệu.
Nó có phạm vi rộng hơn và yêu cầu sự hiểu biết về nhiều khía cạnh công nghệ.
Tầm nhìn công việc:
Học máy: Tầm nhìn chính của máy học là tạo ra các mô hình có khả năng dự đoán
hoặc phân loại dữ liệu một cách tự động và chính xác.
Khoa học dữ liệu: Tầm nhìn của khoa học dữ liệu bao gồm việc tạo ra thông tin và
hiểu rõ sâu hơn về dữ liệu để hỗ trợ quyết định và tạo ra giá trị cho tổ chức.
Cách làm việc phụ trợ và sự hợp tác:
Học máy: Các kỹ sư máy học thường là người tạo ra các mô hình máy tính và
thường làm việc độc lập trong việc phát triển thuật toán.
Khoa học dữ liệu: Khoa học dữ liệu thường đòi hỏi sự hợp tác giữa nhiều người
chuyên về nhiều khía cạnh khác nhau của quá trình dữ liệu, bao gồm thu thập, xử lý, phân
tích, và ứng dụng máy học.
Học máy và khoa học dữ liệu là hai khía cạnh quan trọng của công việc liên quan
đến dữ liệu, và chúng có mục tiêu và phạm vi công việc khác nhau, nhưng kết hợp để tạo
ra giá trị từ dữ liệu.
 Khoa học dữ liệu và Thống kê
Phạm vi và mục tiêu:
Thống kê: Thống kê là một lĩnh vực chuyên về việc thu thập, biểu đồ hóa, mô tả và
diễn giải dữ liệu để đưa ra những kết luận về tổng thể hoặc các mẫu con trong dữ liệu.
Mục tiêu của thống kê thường là nắm bắt tính cố định của dữ liệu và đánh giá sự khác
biệt có ý nghĩa thống kê.
Khoa học dữ liệu: Khoa học dữ liệu có phạm vi rộng hơn và tập trung vào việc thu
thập, xử lý, phân tích và trích xuất tri thức từ dữ liệu. Mục tiêu của khoa học dữ liệu là
hiểu rõ sâu hơn về dữ liệu, dự đoán, và cung cấp giải pháp cho các vấn đề thực tế. Nó liên
quan đến việc sử dụng nhiều phương pháp và công cụ khác nhau, bao gồm cả thống kê.
Phương pháp và quy trình:
Thống kê: Thống kê thường sử dụng các phương pháp thống kê kinh điển như kiểm
định giả thuyết, phân tích biến thể, và hồi quy. Quy trình thống kê thường bao gồm việc
thu thập dữ liệu, tiền xử lý, mô hình hóa và đánh giá thống kê.
Khoa học dữ liệu: Khoa học dữ liệu sử dụng một loạt các phương pháp, bao gồm cả
thống kê, nhưng không giới hạn bởi chúng. Quy trình khoa học dữ liệu bao gồm thu thập
dữ liệu, xử lý dữ liệu lớn, tạo các mô hình dự đoán và sử dụng các kỹ thuật máy học,
khám phá dữ liệu và tạo ra các ứng dụng dựa trên dữ liệu.
Khía cạnh công nghệ:
Thống kê: Thống kê truyền thống tập trung vào việc sử dụng các phương pháp
thống kê cổ điển mà không nhất thiết phải sử dụng công nghệ mới. Nó thường dựa vào
phương pháp thủ công để phân tích dữ liệu.
Khoa học dữ liệu: Khoa học dữ liệu thường liên quan đến sử dụng công nghệ tiên
tiến để xử lý và phân tích dữ liệu lớn. Nó có thể sử dụng các công cụ và ngôn ngữ lập
trình như Python, R, và các framework máy học như TensorFlow.
Tầm nhìn công việc:
Thống kê: Tầm nhìn chính của thống kê là cung cấp sự hiểu biết về dữ liệu, kiểm tra
giả thuyết và đánh giá sự chắc chắn trong các mẫu thống kê.
Khoa học dữ liệu: Tầm nhìn của khoa học dữ liệu rộng hơn, bao gồm việc hiểu rõ
sâu hơn về dữ liệu, tạo ra các ứng dụng dựa trên dữ liệu, và thúc đẩy sự phát triển của
công nghệ dữ liệu.
Thống kê và khoa học dữ liệu đều quan trọng trong việc xử lý dữ liệu, nhưng chúng
có phạm vi, mục tiêu và phương pháp khác nhau. Khoa học dữ liệu mở rộng và tích hợp
thống kê vào một khung công việc rộng hơn để khám phá và tạo ra giá trị từ dữ liệu.
Khoa học dữ liệu không giới hạn bản thân trong việc sử dụng chỉ riêng thống kê, mà thay
vào đó khoa học dữ liệu sử dụng một loạt các phương pháp và kỹ thuật để khám phá, xử
lý và tạo ra giá trị từ dữ liệu.
Khám phá và tạo ra giá trị từ dữ liệu: Mục tiêu của khoa học dữ liệu không chỉ đơn
thuần là "hiểu" dữ liệu mà còn là "tạo ra giá trị" từ dữ liệu. Điều này bao gồm việc tìm ra
các thông tin hữu ích, đưa ra dự đoán, phát triển ứng dụng có thể sử dụng dữ liệu, và
đóng góp vào việc phát triển công nghệ và sản phẩm dựa trên dữ liệu. Ví dụ, trong lĩnh
vực thống kê, bạn có thể dừng lại ở việc tính toán trung bình và phương sai của một tập
dữ liệu để hiểu về tính cố định của nó. Nhưng trong khoa học dữ liệu, bạn có thể tiến xa
hơn bằng việc sử dụng các thuật toán máy học để dự đoán xu hướng trong tương lai hoặc
phát triển một ứng dụng di động có thể cung cấp thông tin thời gian thực cho người dùng
dựa trên dữ liệu hiện tại.
1.1.3. Vai trò của Khoa học dữ liệu trong quyết định dựa trên dữ liệu
Khoa học dữ liệu đã nổi lên như một công cụ quan trọng trong việc ra quyết định
dựa trên dữ liệu, đóng vai trò quan trọng trong việc khám phá thông tin và tri thức từ các
nguồn dữ liệu khổng lồ. Bằng cách sử dụng nhiều phương pháp phân tích dữ liệu, công
cụ và kỹ thuật khác nhau, Khoa học dữ liệu cho phép chúng ta nhận biết các mẫu ẩn và
xu hướng, từ đó thúc đẩy quyết định có căn cứ và thông minh. Khoa học dữ liệu đã được
áp dụng rộng rãi và có nhiều ví dụ minh họa cụ thể cho việc giúp chúng ta hiểu rõ hơn
các mẫu ẩn và đưa ra các quyết định thông minh.
 Trong lĩnh vực bán lẻ và Thương mại Điện tử:
Khoa học dữ liệu hỗ trợ trong việc phân tích hành vi mua sắm và dự đoán xu hướng
tiêu dùng. Các công ty bán lẻ có thể sử dụng khoa học dữ liệu để phân tích lịch sử mua
sắm của khách hàng, theo dõi sở thích và tương tác trực tuyến, từ đó tạo ra các gợi ý sản
phẩm cá nhân hóa và chiến lược giá cả. Điều này cải thiện trải nghiệm của khách hàng,
tăng doanh số bán hàng và xây dựng lòng trung thành.
Ví dụ 1.1.1: Amazon sử dụng khoa học dữ liệu để phân tích hành vi mua sắm của
khách hàng. Họ theo dõi lịch sử mua sắm của khách hàng, đánh giá những sản phẩm bạn
đã xem và mua, sau đó đề xuất sản phẩm tương tự hoặc phù hợp với sở thích của bạn. Kết
quả bạn thấy những gợi ý sản phẩm chính xác hơn, điều này tăng khả năng mua sắm và
cải thiện trải nghiệm của bạn.
 Trong lĩnh vực Y tế:
Khoa học dữ liệu đã thay đổi cách chúng ta chẩn đoán và điều trị bệnh. Bằng cách
phân tích dữ liệu từ hồ sơ bệnh án, kết quả xét nghiệm và dữ liệu di truyền, chúng ta có
thể tạo ra các mô hình dự đoán và phân loại bệnh.
Ví dụ 1.1.2: Trong phân tích hình ảnh y tế, khoa học dữ liệu giúp phát hiện dấu hiệu
của bệnh từ hình ảnh chụp cắt lớp (CT) hoặc tia X. Chẳng hạn, một hệ thống khoa học dữ
liệu có thể xác định khối u tiền liệt trong một hình ảnh CT, cho phép các bác sĩ phát hiện
các vấn đề y tế một cách nhanh chóng và chính xác.
 Trong lĩnh vực Tài chính:
Khoa học dữ liệu được ứng dụng rộng rãi để dự đoán thị trường tài chính và quản lý
rủi ro. Các công ty tài chính sử dụng khoa học dữ liệu để phân tích các yếu tố tài chính,
dữ liệu kinh tế và tin tức, từ đó dự đoán xu hướng giá cả, biến động thị trường và rủi ro
đầu tư. Điều này giúp nhà đầu tư và quản lý tài chính đưa ra quyết định đầu tư thông
minh, quản lý rủi ro và tối ưu hóa lợi nhuận.
Ví dụ 1.1.3: Công ty Quỹ đầu cơ số học sử dụng khoa học dữ liệu để phân tích hàng
tỷ giao dịch chứng khoán hàng ngày. Họ sử dụng các mô hình dự đoán và thuật toán để
dự đoán biến động giá cả và đưa ra quyết định mua hoặc bán chứng khoán trong thời gian
thực. Điều này giúp họ tối ưu hóa lợi nhuận và quản lý rủi ro tốt hơn.
 Trong lĩnh vực sản xuất và công nghiệp:
Khoa học dữ liệu có thể tối ưu hóa quy trình và cải thiện hiệu suất. Bằng cách phân
tích dữ liệu từ các thiết bị cảm biến và hệ thống giám sát, chúng ta có thể phát hiện và dự
đoán sự cố, tối ưu hóa quy trình sản xuất và dự báo nhu cầu nguyên liệu. Điều này giúp
giảm thiểu lãng phí, tăng năng suất và cải thiện chất lượng sản phẩm.
Ví dụ 1.1.4: Trong ngành sản xuất ô tô, các cảm biến trên các dây chuyền sản xuất
thu thập dữ liệu về hiệu suất của các máy móc. Khoa học dữ liệu được sử dụng để theo
dõi sự hoạt động của máy móc và dự đoán khi nào cần thực hiện bảo trì. Điều này giúp
ngăn chặn sự cố sản xuất và giảm thiểu thời gian dừng máy, tiết kiệm tiền và thời gian.
 Trong chính trị và xã hội:
Khoa học dữ liệu được áp dụng để phân tích và hiểu hành vi người dùng trên các
nền tảng truyền thông xã hội, từ đó dự đoán tư duy và hành vi của công chúng. Trong
cuộc bầu cử, Khoa học dữ liệu có thể phân tích dữ liệu xã hội để dự đoán kết quả bầu cử
và đánh giá tác động của các chiến dịch và quảng cáo chính trị. Điều này giúp ứng viên
và đội ngũ chiến dịch xây dựng chiến lược hiệu quả và tương tác với cử tri.
Ví dụ 1.1.5: Trong chiến dịch bầu cử, các ứng viên sử dụng Khoa học dữ liệu để
phân tích dữ liệu truyền thông xã hội. Họ theo dõi cảm xúc và ý kiến của cử tri về các
chủ đề quan trọng và sử dụng thông tin này để thay đổi chiến lược trực tiếp và quảng cáo
trên mạng xã hội. Điều này có thể ảnh hưởng đến cách cử tri bỏ phiếu và kết quả cuộc
bầu cử.
Tóm lại, Khoa học dữ liệu đóng vai trò đa dạng và quyết định trong quyết định dựa
trên dữ liệu. Nó cho phép chúng ta khám phá các mẫu ẩn, xu hướng và thông tin quý báu
trong nhiều lĩnh vực, bao gồm bán lẻ, y tế, tài chính, sản xuất và chính trị. Hơn nữa, Khoa
học dữ liệu giúp các tổ chức tối ưu hóa quy trình, cải thiện hiệu suất và tạo ra giá trị mới
thông qua việc khám phá thông tin và cơ hội mới.

1.2. CÁC KHÁI NIỆM CƠ BẢN TRONG KHOA HỌC DỮ LIỆU

1.2.1. Khái niệm về dữ liệu


a) Khái niệm
Dữ liệu là một tập hợp các thông tin, sự kiện, hay các dấu hiệu thu thập từ thế giới
thực hoặc từ các nguồn khác nhau. Dữ liệu có thể được thu thập từ nhiều nguồn, bao gồm
các thiết bị đo lường, hệ thống máy tính, cảm biến, bản ghi người dùng trên internet, và
nhiều nguồn khác. Dữ liệu có thể tồn tại dưới nhiều dạng, bao gồm văn bản, số liệu, hình
ảnh, âm thanh, và video.
Dữ liệu có giá trị khi nó được xử lý và hiểu biết, giúp chúng ta hiểu về thế giới xung
quanh, dự đoán sự kiện tương lai, và hỗ trợ quyết định. Trong thời đại công nghệ hiện
nay, dữ liệu đóng vai trò quan trọng trong nhiều lĩnh vực, bao gồm kinh doanh, y tế, khoa
học, và công nghệ.
Dữ liệu có thể được chia thành: dữ liệu cấu trúc; dữ liệu không cấu trúc và dữ liệu
bán cấu trúc. Việc hiểu biết và sử dụng dữ liệu một cách hiệu quả trở thành một lĩnh vực
nghiên cứu và ứng dụng rộng lớn, gọi là khoa học dữ liệu. Trong khoa học dữ liệu, dữ
liệu được phân tích, đánh giá, và áp dụng các phương pháp học máy và thống kê để tạo ra
thông tin giá trị từ những tập dữ liệu lớn và phức tạp. Điều này giúp chúng ta tìm ra các
xu hướng, dự đoán sự kiện, và đưa ra quyết định dựa trên dữ liệu số liệu thực.
b) Các loại dữ liệu
 Dữ liệu có cấu trúc: Dữ liệu được lưu trữ, xử lý và thao tác trong hệ thống quản lý cơ
sở dữ liệu quan hệ truyền thống.
 Dữ liệu không có cấu trúc: Dữ liệu thường được tạo ra từ hoạt động của con người và
không phù hợp với định dạng cơ sở dữ liệu có cấu trúc.
 Dữ liệu bán cấu trúc: Dữ liệu không phù hợp với hệ thống cơ sở dữ liệu có cấu trúc,
nhưng vẫn được sắp xếp theo các thẻ hữu ích để tạo ra một hình thức sắp xếp và hệ
thống trong dữ liệu.
i) Dữ liệu có cấu trúc: là loại dữ liệu có tổ chức rõ ràng và được lưu trữ trong các bảng,
hệ thống cơ sở dữ liệu quan hệ hoặc các định dạng có cấu trúc khác. Dữ liệu có cấu trúc
được tổ chức thành các hàng và cột, tương tự như một bảng tính hoặc một hệ thống quan
hệ. Mỗi hàng trong bảng đại diện cho một bản ghi hoặc một mục dữ liệu cụ thể, trong khi
mỗi cột đại diện cho một thuộc tính hoặc một loại dữ liệu cụ thể.
Hình thức sắp xếp và hệ thống: Cấu trúc dữ liệu cung cấp một phương pháp hiệu
quả để tổ chức và truy xuất thông tin. Dữ liệu có cấu trúc có thể được lưu trữ và xử lý
trong các hệ thống cơ sở dữ liệu quan hệ, nơi các bảng và các quan hệ giữa chúng được
xác định bằng các khóa chính và khóa ngoại. Hệ thống cơ sở dữ liệu quan hệ như
MySQL, Oracle và SQL Server cung cấp các công cụ và ngôn ngữ truy vấn để thực hiện
các hoạt động như tìm kiếm, thêm, sửa đổi và xóa dữ liệu từ các bảng.
Ví dụ 1.2.1: Giả sử chúng ta có một bảng dữ liệu về học sinh, với các cột như tên,
tuổi và điểm số. Mỗi hàng trong bảng đại diện cho một học sinh cụ thể và mỗi cột chứa
thông tin cụ thể về học sinh đó. Dưới đây là một ví dụ về dữ liệu có cấu trúc của bảng
học sinh:
Bảng 1.1 Bảng dữ liệu cho ví dụ 1.2.1

Tên Tuổi Điểm số

John 18 85

Emma 17 92

Michael 16 78

Olivia 18 90
Trong ví dụ trên, mỗi hàng đại diện cho một học sinh cụ thể và mỗi cột chứa thông
tin về tên, tuổi và điểm số của học sinh đó. Bảng này có cấu trúc rõ ràng và mỗi mục dữ
liệu được lưu trữ trong một vị trí cụ thể. Điều này giúp chúng ta dễ dàng tìm kiếm và truy
xuất thông tin cần thiết từ bảng này.
Dữ liệu có cấu trúc rất hữu ích trong việc lưu trữ và quản lý các tập dữ liệu lớn và
phức tạp. Chúng ta có thể áp dụng các phương pháp và công cụ phân tích dữ liệu để truy
xuất thông tin từ các bảng cấu trúc và tạo ra các báo cáo, đồ thị và biểu đồ để hiểu rõ hơn
về dữ liệu. Điều này giúp chúng ta phân tích xu hướng, tìm ra mẫu và liên kết trong dữ
liệu có cấu trúc, từ đó đưa ra quyết định thông minh và tạo ra giá trị trong nhiều lĩnh vực
khác nhau như kinh doanh, y tế và khoa học xã hội.
Dữ liệu có cấu trúc là loại dữ liệu được tổ chức một cách rõ ràng và tuân theo một
cấu trúc nhất định. Nó thường được lưu trữ và xử lý trong các bảng, hệ thống cơ sở dữ
liệu quan hệ hoặc các định dạng có cấu trúc khác. Bản chất của dữ liệu cấu trúc là nó
được phân loại thành các hàng và cột, giúp tổ chức thông tin theo các quy tắc và mô hình
đã xác định trước.
Dữ liệu có cấu trúc có một số ưu điểm quan trọng. Trước tiên, nó cho phép việc truy
xuất và xử lý dữ liệu một cách dễ dàng và hiệu quả. Do có cấu trúc rõ ràng, ta có thể áp
dụng các phương pháp và công cụ truy vấn dữ liệu để tìm kiếm, sắp xếp, lọc và tính toán
thông tin từ các bảng dữ liệu. Điều này giúp ta nhanh chóng trích xuất thông tin cần thiết
và tiến hành các phân tích và xử lý dữ liệu phức tạp.
Dữ liệu có cấu trúc cũng cho phép ta xác định và tạo mối quan hệ giữa các phần tử
dữ liệu khác nhau. Bằng cách sử dụng các khóa chính và khóa ngoại, ta có thể xác định
mối quan hệ giữa các bảng và các mục dữ liệu trong chúng. Điều này giúp ta tạo ra các
mô hình quan hệ và kết nối dữ liệu từ nhiều nguồn khác nhau, tạo ra cái nhìn toàn diện
hơn về dữ liệu và liên kết giữa chúng.
Trong Khoa học dữ liệu, dữ liệu có cấu trúc đóng vai trò quan trọng trong việc thực
hiện các phân tích và xử lý dữ liệu. Với cấu trúc rõ ràng, ta có thể áp dụng các phương
pháp và công cụ phân tích dữ liệu như truy vấn dữ liệu, thống kê, khai phá dữ liệu và học
máy để tìm kiếm mẫu, xu hướng và thông tin giá trị. Điều này giúp ta tạo ra tri thức, đưa
ra dự đoán và đưa ra quyết định dựa trên cơ sở dữ liệu cấu trúc.
Ví dụ 1.2.2: Trong lĩnh vực kinh doanh, dữ liệu có cấu trúc từ các hệ thống quản lý
khách hàng, hệ thống bán hàng và dữ liệu tài chính có thể được phân tích để hiểu rõ hơn
về hành vi khách hàng, dự đoán xu hướng tiêu dùng và tối ưu hóa chiến lược kinh doanh.
Trong lĩnh vực y tế, dữ liệu cấu trúc từ các hồ sơ bệnh án, kết quả xét nghiệm và dữ liệu
di truyền có thể được sử dụng để phát hiện và phân loại bệnh, cải thiện chẩn đoán và tăng
cường quản lý bệnh.
Dữ liệu có cấu trúc là loại dữ liệu được tổ chức một cách rõ ràng theo một cấu trúc
nhất định. Nó cho phép việc truy xuất, xử lý và phân tích dữ liệu một cách dễ dàng và
hiệu quả. Trong Khoa học dữ liệu, dữ liệu cấu trúc được sử dụng để thực hiện các phân
tích, tìm kiếm mẫu và xu hướng, và đưa ra quyết định dựa trên thông tin từ các nguồn dữ
liệu.
Dữ liệu có cấu trúc là một loại dữ liệu được tổ chức và lưu trữ theo một cấu trúc cụ
thể trong hệ thống quản lý cơ sở dữ liệu quan hệ (RDBMS). Trong dữ liệu có cấu trúc,
thông tin được chia thành các bảng có các hàng và cột. Mỗi hàng trong bảng đại diện cho
một bản ghi riêng lẻ, trong khi mỗi cột đại diện cho một thuộc tính hoặc thông tin cụ thể.
Điều này cho phép dễ dàng lưu trữ và truy xuất dữ liệu thông qua các câu truy vấn SQL
(Structured Query Language).
Ví dụ 1.2.3: một hệ thống quản lý cơ sở dữ liệu có cấu trúc có thể lưu trữ thông tin
về các sản phẩm trong một cửa hàng. Có thể có một bảng "Sản phẩm" với các cột như
"Mã sản phẩm," "Tên sản phẩm," "Giá," và "Số lượng còn lại." Mỗi hàng trong bảng đại
diện cho một sản phẩm cụ thể, và các cột chứa thông tin chi tiết về từng sản phẩm.
Dữ liệu có cấu trúc rất hữu ích trong việc tổ chức và quản lý dữ liệu trong các hệ
thống doanh nghiệp. Nó cho phép các tổ chức lưu trữ thông tin một cách có tổ chức và dễ
dàng truy xuất thông tin cần thiết. Hơn nữa, sử dụng hệ thống quản lý cơ sở dữ liệu có
cấu trúc giúp bảo đảm tính nhất quán và tính toàn vẹn của dữ liệu, giúp người dùng tránh
những sai sót và truy xuất thông tin chính xác.
Sử dụng dữ liệu có cấu trúc: Trong khoa học dữ liệu, dữ liệu có cấu trúc được sử
dụng để giải quyết các vấn đề liên quan đến các bài toán phân tích, dự đoán và trích xuất
thông tin từ các nguồn dữ liệu có tổ chức và có định dạng rõ ràng. Dữ liệu có cấu trúc
được sử dụng phổ biến trong các lĩnh vực như:
 Phân tích kinh doanh: Dữ liệu có cấu trúc từ hệ thống quản lý khách hàng, hệ thống
bán hàng và dữ liệu tài chính của doanh nghiệp được sử dụng để phân tích hoạt động
kinh doanh, tối ưu hóa quy trình và đưa ra các quyết định chiến lược;
 Khoa học xã hội: Trong lĩnh vực này, dữ liệu có cấu trúc từ các khảo sát, cơ sở dữ
liệu chính phủ và dữ liệu tổ chức được sử dụng để nghiên cứu xu hướng xã hội, đánh
giá chính sách và dự đoán các sự kiện xã hội;
 Y tế: Dữ liệu có cấu trúc từ hồ sơ bệnh án, các thử nghiệm lâm sàng và cơ sở dữ
liệu y tế được sử dụng để phân tích và dự đoán các bệnh lý, đưa ra chẩn đoán và cải
thiện chất lượng chăm sóc sức khỏe;
 Tài chính và ngân hàng: Dữ liệu giao dịch, dữ liệu thị trường tài chính và dữ liệu tài
chính doanh nghiệp có cấu trúc được sử dụng để dự đoán xu hướng thị trường, phân
tích rủi ro và tối ưu hóa quản lý tài sản.
Ưu điểm của dữ liệu có cấu trúc:
Dễ dàng lưu trữ và truy xuất: Dữ liệu có cấu trúc được tổ chức trong các bảng, hàng
và cột, dễ dàng lưu trữ và truy xuất bằng các hệ quản lý cơ sở dữ liệu quan hệ (RDBMS)
như MySQL, PostgreSQL, Oracle, v.v.
Tính nhất quán: Dữ liệu có cấu trúc thường tuân thủ một cấu trúc nhất định, giúp
giữ cho dữ liệu được duy trì theo một tiêu chuẩn. Điều này làm cho việc tránh được các
lỗi và thông tin không nhất quán trong cơ sở dữ liệu.
Dễ dàng thực hiện phân tích: Với cấu trúc rõ ràng, dữ liệu có cấu trúc dễ dàng được
phân tích và xử lý bằng các câu truy vấn SQL hoặc công cụ phân tích dữ liệu khác.
Hiệu suất tối ưu: Cơ sở dữ liệu có cấu trúc được tối ưu hóa cho hiệu suất cao, giúp
xử lý lượng dữ liệu lớn nhanh chóng và hiệu quả.
Hỗ trợ tích hợp dữ liệu: Dữ liệu có cấu trúc thường dễ dàng tích hợp với các ứng
dụng và hệ thống khác, giúp tạo ra các hệ thống tích hợp phức tạp.
Tuy nhiên, dữ liệu có cấu trúc cũng có những hạn chế:
Giới hạn đối về định dạng: Dữ liệu có cấu trúc chỉ áp dụng cho các loại dữ liệu đã
được định dạng theo một cấu trúc cụ thể. Nó không thể xử lý các dạng dữ liệu không có
cấu trúc hoặc bán cấu trúc, như dữ liệu văn bản, dữ liệu hình ảnh và âm thanh.
Ví dụ 1.2.4: Một công ty đa quốc gia quản lý một hệ thống lớn với hàng nghìn nhà
hàng trên toàn thế giới. Họ sử dụng hệ thống quản lý dữ liệu cấu trúc để lưu trữ thông tin
về khách hàng, bao gồm tên, địa chỉ, số điện thoại, và lịch sử đơn hàng. Hệ thống này rất
hiệu quả trong việc quản lý thông tin đơn giản và cụ thể. Tuy nhiên, khi muốn theo dõi
cảm nhận của khách hàng về các món ăn qua các bình luận trên mạng xã hội thì dữ liệu
này thường là dạng văn bản không cấu trúc và đa dạng, chứa đựng cả từ ngôn ngữ tự do
và các biểu đồ cảm xúc. Hệ thống quản lý dữ liệu có cấu trúc không thể xử lý dữ liệu này
một cách hiệu quả, và việc tích hợp nó vào hệ thống hiện tại đòi hỏi việc xử lý phức tạp
và tốn kém. Điều này tạo ra một giới hạn đáng kể khi muốn hiểu sâu hơn về ý kiến của
khách hàng và tối ưu hóa chất lượng dịch vụ dựa trên các phản hồi không cấu trúc này.
Hạn chế của dữ liệu có cấu trúc:
Khả năng mở rộng: Khi lượng dữ liệu tăng lên, dữ liệu có cấu trúc có thể gặp khó
khăn trong việc mở rộng và xử lý lượng dữ liệu lớn. Cần phải sử dụng các công nghệ và
giải pháp phức tạp để đảm bảo khả năng mở rộng của hệ thống.
Phụ thuộc vào cấu trúc: Dữ liệu có cấu trúc đòi hỏi có một cấu trúc rõ ràng và định
dạng cụ thể. Khi cấu trúc thay đổi hoặc dữ liệu mới có định dạng khác, cần phải điều
chỉnh hệ thống để xử lý dữ liệu mới này.
ii) Dữ liệu không cấu trúc (còn gọi là dữ liệu phi cấu trúc): là loại dữ liệu không tuân
theo cấu trúc nhất định và không có định dạng cụ thể. Nó có thể tồn tại dưới nhiều hình
thức như văn bản tự do, hình ảnh, âm thanh hoặc video. Bản chất của dữ liệu không cấu
trúc là nó không có sự tổ chức theo cột và hàng như dữ liệu có cấu trúc, không có quy tắc
rõ ràng để truy xuất và xử lý dữ liệu.
Hình thức sắp xếp và hệ thống: Dữ liệu không cấu trúc thường có tính linh hoạt và
không giới hạn trong việc biểu diễn thông tin. Ví dụ, trong dữ liệu văn bản tự do, thông
tin có thể được biểu diễn dưới dạng câu, đoạn văn, hoặc bài viết dài. Trong dữ liệu hình
ảnh, thông tin có thể được biểu diễn dưới dạng hình ảnh, biểu đồ. Dữ liệu âm thanh và
video cũng có đặc điểm phi cấu trúc, không tuân theo một mô hình cụ thể. Dữ liệu không
cấu trúc chủ yếu được sử dụng trong khoa học dữ liệu để thực hiện các phân tích và xử lý
dữ liệu không có định dạng cấu trúc. Các phương pháp và công cụ phân tích dữ liệu
không cấu trúc đã được phát triển để khám phá thông tin tiềm ẩn, mẫu và mối liên hệ
trong dữ liệu không cấu trúc.
Ví dụ 1.2.5: Trong lĩnh vực xử lý ngôn ngữ tự nhiên, dữ liệu văn bản tự do có thể
được sử dụng để phân tích ý kiến, phát hiện từ khóa, hoặc phân loại văn bản theo chủ đề.
Các phương pháp xử lý ngôn ngữ tự nhiên sử dụng trong Khoa học dữ liệu giúp xác định
ý nghĩa và trích xuất thông tin từ dữ liệu văn bản tự do. Trong lĩnh vực xử lý hình ảnh và
video, dữ liệu không cấu trúc như hình ảnh và video có thể được sử dụng để phân loại,
nhận dạng đối tượng, hoặc phát hiện biểu đồ và khuôn mẫu. Các phương pháp xử lý hình
ảnh và video trong Khoa học dữ liệu giúp phân tích dữ liệu không cấu trúc và tạo ra
thông tin giá trị từ nó.
Dữ liệu không cấu trúc cũng có vai trò quan trọng trong việc kết hợp với dữ liệu cấu
trúc để tạo ra cái nhìn toàn diện và đầy đủ về dữ liệu. Kết hợp dữ liệu không cấu trúc và
dữ liệu cấu trúc giúp ta hiểu rõ hơn về mối liên hệ, mô hình và xu hướng trong dữ liệu.
Điều này giúp ta tạo ra tri thức và thông tin giá trị từ dữ liệu không tuân theo cấu trúc và
đưa ra quyết định thông minh dựa trên cả hai loại dữ liệu.
Sử dụng dữ liệu không cấu trúc: Dữ liệu không cấu trúc được sử dụng phổ biến
trong nhiều lĩnh vực khác nhau trong khoa học dữ liệu và các ngành công nghiệp khác.
Một số lĩnh vực phổ biến sử dụng dữ liệu không cấu trúc như:
 Mạng xã hội: dữ liệu từ các trang web mạng xã hội như Facebook, Twitter, và
Instagram thường không có cấu trúc và bao gồm các bài viết, bình luận, hình ảnh,
video và các loại dữ liệu khác;
 Đa phương tiện: Dữ liệu âm thanh, video và hình ảnh thường không có cấu trúc và
được sử dụng rộng rãi trong các lĩnh vực như xử lý ngôn ngữ tự nhiên, nhận dạng
giọng nói và xử lý hình ảnh;
 Dữ liệu từ thiết bị cảm biến: Các thiết bị cảm biến như máy móc, cảm biến IoT
(Internet of Things), thiết bị y tế và thiết bị di động tạo ra dữ liệu không cấu trúc như
đo đạc, nhịp tim, nhiệt độ và các thông số đo lường khác;
 Văn bản tự do: Dữ liệu từ tài liệu, bài viết, bài báo và các nguồn văn bản tự do khác
thường không có cấu trúc và được sử dụng trong các nhiệm vụ xử lý ngôn ngữ tự
nhiên và phân tích tình cảm;
 Dữ liệu web: Dữ liệu từ các trang web, blog và các nguồn trực tuyến khác thường
không có cấu trúc và được sử dụng để phân tích xu hướng, thông tin sản phẩm và dự
đoán tương tác khách hàng.
Dữ liệu không cấu trúc thường có thể chứa nhiều thông tin tiềm ẩn và thách thức
khi xử lý và phân tích. Tuy nhiên, với sự phát triển của khoa học dữ liệu và các công
nghệ liên quan, việc sử dụng dữ liệu không cấu trúc trở nên ngày càng phổ biến và hữu
ích trong việc tìm ra những thông tin quan trọng và giá trị từ dữ liệu đa dạng và phong
phú này.
Dữ liệu không có cấu trúc có một số ưu điểm và hạn chế khi sử dụng trong khoa học
dữ liệu:
Ưu điểm của dữ liệu không có cấu trúc:
Đa dạng và phong phú: Dữ liệu không cấu trúc bao gồm nhiều loại thông tin, từ văn
bản, hình ảnh, đến âm thanh và video, giúp cung cấp cái nhìn tổng quan và đa chiều về
một vấn đề cụ thể.
Khám phá thông tin mới: Dữ liệu không cấu trúc thường chứa các thông tin tiềm ẩn
và phức tạp, giúp phát hiện các mẫu và xu hướng mới mà không thể dễ dàng nhìn thấy
trong dữ liệu có cấu trúc.
Phân tích ngôn ngữ tự nhiên: Dữ liệu văn bản không cấu trúc cho phép sử dụng các
phương pháp xử lý ngôn ngữ tự nhiên để hiểu và trích xuất thông tin từ văn bản.
Hạn chế của dữ liệu không có cấu trúc:
Khó khăn trong xử lý: Dữ liệu không cấu trúc không phù hợp với cơ sở dữ liệu có
cấu trúc và yêu cầu các phương pháp xử lý đặc biệt để trích xuất và biến đổi thông tin từ
dữ liệu này.
Độ tin cậy: Dữ liệu không cấu trúc thường chứa nhiều thông tin không chính xác,
không đầy đủ hoặc không rõ ràng, làm cho việc đảm bảo tính chính xác và tin cậy của dữ
liệu trở nên khó khăn.
Dung lượng lớn: Dữ liệu không cấu trúc thường có kích thước lớn và đòi hỏi nhiều
tài nguyên để lưu trữ và xử lý.
iii) Dữ liệu bán cấu trúc: là một dạng dữ liệu mà không tuân theo một mô hình cấu trúc
cụ thể như cơ sở dữ liệu quan hệ, nhưng nó vẫn được tổ chức bằng các thẻ, nhãn hoặc
đánh dấu để tạo cấu trúc tương đối.
Hình thức sắp xếp và hệ thống: Dữ liệu bán cấu trúc được tổ chức và sắp xếp bằng
cách sử dụng các thẻ, nhãn hoặc đánh dấu. Điều này giúp tạo ra một hình thức sắp xếp và
hệ thống tương đối trong dữ liệu, cho phép người dùng tìm kiếm và truy xuất thông tin
một cách thuận tiện.
Sử dụng dữ liệu bán cấu trúc: Dữ liệu bán cấu trúc thường được sử dụng trong các
trường hợp mà việc sử dụng hệ thống cơ sở dữ liệu có cấu trúc trở nên hạn chế. Ví dụ,
trong trường hợp dữ liệu không đồng nhất hoặc dữ liệu có định dạng đa dạng, dữ liệu bán
cấu trúc có thể được sử dụng để tổ chức và tìm kiếm thông tin.
Ưu điểm của dữ liệu bán cấu trúc: Dữ liệu bán cấu trúc cung cấp một sự linh hoạt
và đa dạng trong việc tổ chức dữ liệu. Nó cho phép người dùng tạo ra các cấu trúc tương
đối đơn giản và linh hoạt, mà không yêu cầu sự phức tạp của hệ thống cơ sở dữ liệu có
cấu trúc. Ngoài ra, dữ liệu bán cấu trúc cũng có thể hỗ trợ việc tìm kiếm và truy xuất
thông tin một cách hiệu quả.
Hạn chế của dữ liệu bán cấu trúc: Mặc dù dữ liệu bán cấu trúc có sự linh hoạt và đa
dạng, nhưng nó cũng có hạn chế. Vì dữ liệu bán cấu trúc không tuân theo một mô hình
cấu trúc cụ thể, việc xử lý và phân tích dữ liệu có thể trở nên phức tạp hơn so với dữ liệu
có cấu trúc. Ngoài ra, khả năng tìm kiếm và truy xuất dữ liệu bán cấu trúc có thể không
hiệu quả như trong các hệ thống cơ sở dữ liệu có cấu trúc.
Dữ liệu bán cấu trúc là một dạng dữ liệu không phù hợp hoàn toàn với hệ thống cơ
sở dữ liệu có cấu trúc, nhưng vẫn được tổ chức và sắp xếp bằng các thẻ, nhãn hoặc đánh
dấu. Dữ liệu bán cấu trúc có ưu điểm về linh hoạt và đa dạng, nhưng cũng có hạn chế
trong việc xử lý và phân tích dữ liệu.
1.2.2. Khái niệm về thu thập và lưu trữ dữ liệu
a) Khái niệm thu thập dữ liệu
Trong xã hội hiện đại, thu thập dữ liệu đang trở thành một trụ cột quan trọng, là
nguồn lực quý báu đối với tổ chức, doanh nghiệp và cá nhân. Khái niệm về thu thập dữ
liệu không chỉ giới hạn ở việc hệ thống hóa thông tin, mà còn là quá trình khám phá, hiểu
biết, và tận dụng sức mạnh của dữ liệu để đưa ra những quyết định thông minh.
i) Khái niệm về thu thập dữ liệu
Thu thập dữ liệu không chỉ là việc đơn giản là lấy thông tin từ nguồn gốc, mà là quá
trình khám phá, chế biến, và biến đổi dữ liệu thành thông tin có ý nghĩa. Đây là bước
quan trọng trong việc xây dựng cơ sở thông tin, nền tảng cho sự hiểu biết sâu rộng về
nhiều lĩnh vực khác nhau. Mục tiêu của thu thập dữ liệu không chỉ là sự tích hợp thông
tin mà còn là sự hiểu biết, giúp chúng ta thấu hiểu hơn về thế giới xung quanh và hỗ trợ
quá trình ra quyết định.
ii) Mục đích của việc thu thập dữ liệu
Việc thu thập dữ liệu có sức ảnh hưởng lớn đến nhiều khía cạnh của đời sống. Từ
kinh doanh đến nghiên cứu khoa học, từ quản lý dự án đến hiểu biết văn hóa, dữ liệu
chính là chìa khóa mở cánh cửa cho nhiều cơ hội và tiềm năng phát triển. Một trong
những mục đích chính của việc thu thập dữ liệu là hiểu rõ hơn về khách hàng. Doanh
nghiệp sử dụng dữ liệu để phân tích hành vi mua sắm, dự đoán xu hướng tiêu dùng, và tối
ưu hóa chiến lược tiếp thị. Ngoài ra, thu thập dữ liệu cũng đóng vai trò quan trọng trong
nghiên cứu thị trường. Thông qua việc phân tích dữ liệu thị trường, chúng ta có thể đánh
giá sự cạnh tranh, đo lường hiệu suất sản phẩm, và dự đoán sự thay đổi trong nhu cầu của
người tiêu dùng. Dữ liệu là công cụ hỗ trợ quyết định quan trọng trong quản lý dự án,
giúp đo lường tiến độ, ước tính nguồn lực cần thiết, và theo dõi hiệu suất tổ chức.
iii) Các phương pháp thu thập dữ liệu
Có nhiều phương pháp để thu thập dữ liệu, mỗi phương pháp mang lại cái nhìn độc
đáo về thông tin. Khảo sát, một phương pháp phổ biến, thường sử dụng các câu hỏi để lấy
ý kiến từ một nhóm mẫu. Phỏng vấn, mặt khác, tập trung vào giao tiếp trực tiếp để thu
thập thông tin chi tiết và sâu sắc. Quan sát, một phương pháp không dựa vào phản hồi
trực tiếp của người tham gia, nhưng thay vào đó theo dõi hành vi, sự kiện, và quá trình
một cách hệ thống.
Ngoài ra, với sự phát triển nhanh chóng của công nghệ, thu thập dữ liệu số đang trở
nên ngày càng phổ biến. Từ việc thu thập dữ liệu từ trang web và ứng dụng di động đến
việc sử dụng cảm biến trong IoT (Internet of Things), dữ liệu số mở ra nhiều cơ hội mới.
Công nghệ này không chỉ giúp tiết kiệm thời gian mà còn mang lại sự chính xác và chi
tiết cao hơn trong quá trình thu thập dữ liệu.
Khảo sát (Surveys):
Phương pháp khảo sát là một phương pháp thu thập dữ liệu trong việc thu thập
thông tin và ý kiến từ đối tượng nghiên cứu. Phương pháp này được thiết kế để hệ thống
hóa ý kiến của một nhóm mẫu, khảo sát thường sử dụng các câu hỏi được chuẩn bị trước
để thu thập dữ liệu. Quy trình khảo sát không chỉ cung cấp cái nhìn toàn diện về quan
điểm và động lực của người tham gia mà còn giúp xác định xu hướng và ý kiến phổ biến.
Ưu điểm lớn nhất của phương pháp này là khả năng thu thập dữ liệu lớn từ một số
lượng lớn người tham gia. Các khảo sát trực tuyến và trực tiếp được thực hiện hiệu quả,
giúp tiết kiệm thời gian và chi phí so với các phương pháp khác. Tính linh hoạt trong việc
thiết kế câu hỏi cũng là một điểm mạnh, cho phép nghiên cứu tập trung vào những khía
cạnh cụ thể mà họ quan tâm.
Tuy nhiên, khi sử dụng phương pháp này cũng cần lưu ý về nhược điểm của phương
pháp. Sự chân thành và trung thực của người tham gia có thể ảnh hưởng đến chất lượng
dữ liệu. Nếu họ không trả lời một cách chân thật hoặc có ý định làm đẹp hình ảnh cá
nhân, dữ liệu thu thập có thể bị méo lệch. Nếu mẫu không đại diện cho đối tượng nghiên
cứu, kết quả của khảo sát có thể không phản ánh đúng xu hướng và ý kiến chung của
cộng đồng hoặc nhóm mục tiêu. Câu hỏi nhạy cảm ở đầu khảo sát có thể làm mất lòng tin
của người tham gia, dẫn đến sự giả mạo hoặc từ chối trả lời một cách chân thật. Quy trình
thiết kế câu hỏi, triển khai, và xử lý dữ liệu của một cuộc khảo sát có thể đòi hỏi nhiều
nguồn lực và thời gian. Điều này có thể tăng chi phí và làm chậm quá trình nghiên cứu.
Khi có lượng lớn dữ liệu, việc tổng hợp và phân tích có thể trở nên khó khăn và đòi hỏi
kỹ năng phân tích thống kê cao. Các phương thức khảo sát thường giới hạn sự lựa chọn
của người tham gia, có thể làm mất đi sự đa dạng và sự phức tạp của ý kiến và trả lời.
Việc hiểu rõ những nhược điểm này giúp nghiên cứu viên và nhà quản lý nghiên
cứu xác định những hạn chế và áp dụng biện pháp để giảm thiểu tác động tiêu cực khi sử
dụng phương pháp khảo sát.
Phỏng vấn (Interviews):
Phương pháp phỏng vấn là một quá trình thu thập dữ liệu trong nghiên cứu, trong
đó nghiên cứu viên tương tác trực tiếp với người tham gia để thu thập thông tin, ý kiến,
và kinh nghiệm. Phỏng vấn có thể được thực hiện theo nhiều cách khác nhau, bao gồm
các cuộc phỏng vấn cấu trúc, bán cấu trúc, và không cấu trúc.
Các cách phỏng vấn:
 Phỏng vấn cấu trúc: Các câu hỏi được thiết kế trước và được đặt ra theo một thứ tự
cố định. Các phản ứng và câu trả lời thường được ghi lại theo cách chuẩn.
 Phỏng vấn bán cấu trúc: Một số câu hỏi được thiết kế trước đó, nhưng có sự linh
hoạt trong việc điều chỉnh câu hỏi dựa trên phản ứng của người tham gia.
 Phỏng vấn không cấu trúc: Không có kịch bản hay câu hỏi cụ thể trước, nghiên cứu
viên chỉ tạo điều kiện cho một cuộc trò chuyện tự do với người tham gia. Điều này
thường tạo ra thông tin không dự kiến và tự nhiên.
Ưu Điểm của phương pháp phỏng vấn cho phép thu thập thông tin chi tiết và sâu
sắc về trải nghiệm và quan điểm của người tham gia. Phương pháp này tạo ra sự tương
tác trực tiếp giữa nghiên cứu viên và người tham gia tạo ra một môi trường linh hoạt và
có thể tạo ra thông tin không dự kiến. Phương pháp phỏng vấn cung cấp cơ hội để hiểu
biết rõ hơn về ngữ cảnh của câu trả lời, giúp tránh hiểu lầm và đảm bảo tính độc lập của
dữ liệu.
Tuy nhiên phương pháp phỏng vấn có những hạn chế nhất định. Phỏng vấn có thể
tốn thời gian và nguồn lực lớn, đặc biệt là khi cần xử lý mẫu lớn. Rủi ro chệch lệch có thể
xuất hiện nếu nghiên cứu viên và người tham gia không có mối quan hệ tốt hoặc nếu có
sự kiểm soát không đủ về tư duy chủ quan. Xử lý và phân tích dữ liệu từ phỏng vấn có
thể phức tạp, đòi hỏi kỹ năng và thời gian.
Phương pháp phỏng vấn, mặc dù mang đến những thông tin chi tiết và sự hiểu biết
sâu sắc về đối tượng nghiên cứu, nhưng phương pháp này đặt ra yêu cầu cao về sự cẩn
thận và chuyên nghiệp trong quá trình thiết kế câu hỏi phỏng vấn và thực hiện. Điều này
quan trọng cho việc đảm bảo tính chính xác và độ tin cậy của dữ liệu thu thập, đồng thời
giảm thiểu những yếu tố tác động từ sự chủ quan hay thiếu nhất quán trong quy trình
phỏng vấn. Sự kết hợp linh hoạt giữa sự tỉ mỉ trong việc lựa chọn câu hỏi, tạo môi trường
thoải mái cho người tham gia, và kỹ năng lắng nghe sẽ giúp nghiên cứu viên thu được
thông tin chất lượng và phản ánh đầy đủ về trải nghiệm và quan điểm của người được
phỏng vấn.
Quan sát (Observation):
Phương pháp thu thập dữ liệu bằng quan sát là một trong những cách tiếp cận mạnh
mẽ để nghiên cứu và hiểu sâu về hành vi, tương tác, và môi trường tự nhiên của đối
tượng nghiên cứu. Khác với các phương pháp khảo sát hoặc phỏng vấn, quan sát không
yêu cầu sự tương tác trực tiếp với người tham gia; thay vào đó, nó đặt nghiên cứu viên ở
vị trí quan sát viên, ghi chú và ghi lại các diễn biến theo thời gian.
Phương pháp quan sát thường sẽ được sử dụng kết hợp với nhiều phương pháp
khác để có thể chắc chắn hơn về mức độ chính xác của dữ liệu khi thực hiện các hoạt
động kiểm tra chéo. Thu thập dữ liệu bằng phương pháp này có thể chia theo hai cách
như sau:
Quan sát trực tiếp và gián tiếp:
 Quan sát trực tiếp là việc tiến hành quan sát các sự kiện, hành động đang được diễn ra.
 Quan sát gián tiếp là việc tiến hành quan sát các tác động hay kết quả của một hành vi
chứ không phải quan sát trực tiếp hành vi đó.
Quan sát ngụy trang và công khai:
 Quan sát ngụy trang được hiểu là cách quan sát, nghiên cứu các đối tượng mà chính họ
cũng không biết mình đang trở thành đối tượng được quan sát.
 Quan sát công khai là cách quan sát, nghiên cứu các đối tượng và họ biết rằng mình
đang là đối tượng được quan sát.
 Các công cụ quan sát được sử dụng có thể là các thiết bị quan sát hoặc chính con
người. Con người sẽ sử dụng các giác quan của mình để thực hiện việc quan sát đối
tượng nghiên cứu còn quan sát bằng thiết bị sẽ sử dụng các công cụ như máy đếm,
máy đọc quét,...
(tham khảo từ https://bizfly.vn/techblog/thu-thap-du-lieu.html)
Một trong những ưu điểm lớn nhất của phương pháp quan sát là khả năng chi tiết
hóa hành vi và tương tác tự nhiên của đối tượng mà không lớn đối với hành vi hoặc tương
tác đó. Điều này có nghĩa là đối tượng không bị ảnh hưởng quá mức bởi sự nhận thức về
sự quan sát từ phía nghiên cứu viên. Quan sát cho phép nghiên cứu viên ghi lại hành vi và
sự kiện trong bối cảnh tự nhiên, giúp dữ liệu phản ánh thực tế và không bị ảnh hưởng bởi
yếu tố của quá trình nghiên cứu. Phương pháp này không can thiệp vào bối cảnh hoặc
hành vi của đối tượng nghiên cứu, giúp giảm thiểu hiện tượng thay đổi hành vi do sự hiện
diện của người nghiên cứu. Quan sát có thể ghi lại các biểu hiện nhỏ, sự tương tác, và
ngữ cảnh mà người tham gia có thể không nhận ra hoặc không thể mô tả bằng lời.
Phương pháp quan sát linh hoạt và có thể áp dụng trong nhiều lĩnh vực như nghiên cứu
xã hội, y tế, giáo dục, và nhiều lĩnh vực khác. Khi được thực hiện một cách chính xác và
chuyên nghiệp, quan sát có thể tạo ra dữ liệu có độ tin cậy cao, đặc biệt là khi có sự đồng
nhất trong việc ghi chép và phân loại dữ liệu.
Tuy nhiên, cũng lưu ý các hạn chế khi sử dụng phương pháp quan sát. Quan sát
thường đòi hỏi nhiều thời gian và công sức, đặc biệt là khi theo dõi hành vi trong khoảng
thời gian dài hoặc khi nghiên cứu đối tượng có xu hướng xảy ra ở tần suất thấp. Những
yếu tố tâm lý, ý nghĩ, hoặc động cơ ẩn sau hành vi không thể đo lường một cách chính
xác chỉ thông qua quan sát, làm giảm độ phong phú của dữ liệu. Nguy cơ chủ quan từ
phía người quan sát có thể ảnh hưởng đến việc ghi nhận và diễn giải thông tin. Sự thiên
vị cá nhân có thể làm giả mạo kết quả nghiên cứu. Nhận thức về việc bị quan sát có thể
làm thay đổi hành vi tự nhiên của đối tượng, tạo ra hiện tượng "Hawthorne Effect" – một
biểu hiện của sự thay đổi do sự quan sát. Một số sự kiện có thể xảy ra một cách nhanh
chóng hoặc không thể dự đoán trước, gây khó khăn trong quá trình quan sát và ghi chép.
Việc thực hiện quan sát đòi hỏi kỹ năng chuyên nghiệp trong việc không chỉ nhận biết và
ghi chép mà còn hiểu biết sâu rộng về bối cảnh và đối tượng nghiên cứu.
Phương pháp quan sát, mặc dù mang lại dữ liệu chất lượng và tự nhiên, nhưng cũng
đối mặt với những thách thức cần được quản lý một cách chín chắn để đảm bảo tính
chính xác và độ tin cậy của kết quả nghiên cứu.
Thu thập dữ liệu số (Digital Data Collection):
Trong thời đại số ngày nay, phương pháp thu thập dữ liệu số đã trở thành một công
cụ quan trọng, giúp nghiên cứu viên và doanh nghiệp hiểu rõ hơn về thế giới xung quanh
thông qua sự tích hợp của công nghệ số và các nguồn dữ liệu tự động hóa. Phương pháp
này không chỉ mở ra cánh cửa cho sự thuận tiện và hiệu quả trong việc thu thập thông tin,
mà còn cung cấp khả năng xử lý và phân tích dữ liệu lớn, tạo ra bức tranh chi tiết và toàn
diện về nhiều khía cạnh của xã hội, kinh tế, và môi trường.
Các cách thu thập dữ liệu số:
1. Khảo sát trực tuyến: Khảo sát trực tuyến là một trong những phương pháp phổ
biến nhất, cho phép nghiên cứu viên tạo và phân phối bảng khảo sát qua internet. Người
tham gia có thể trả lời các câu hỏi một cách thuận tiện, tạo ra dữ liệu lớn về quan điểm, ý
kiến, và hành vi.
2. Theo dõi mạng xã hội: Mạng xã hội đã trở thành một nguồn dữ liệu quan trọng,
nơi mà người dùng chia sẻ mọi thứ từ ý kiến cá nhân đến trạng thái tâm lý. Bằng cách
theo dõi mạng xã hội, nghiên cứu viên có thể thu thập dữ liệu về xu hướng, tương tác, và
cảm nhận xã hội.
3. Sử dụng cảm biến và thiết bị IoT: Sự phát triển của cảm biến và thiết bị IoT mở
ra khả năng thu thập dữ liệu về môi trường, sức khỏe, và hoạt động hàng ngày một cách
tự động. Từ việc đo lường chất lượng không khí đến theo dõi dữ liệu sức khỏe cá nhân,
các thiết bị này mang lại thông tin chính xác và liên tục.
4. Thu thập dữ liệu từ ứng dụng di động: Ứng dụng di động không chỉ là công cụ
giải trí mà còn là nguồn dữ liệu quan trọng. Nghiên cứu viên có thể sử dụng ứng dụng để
thu thập thông tin vị trí, thói quen mua sắm, và các hoạt động khác của người dùng di
động.
5. Thu thập dữ liệu từ trang Web: Công cụ thu thập dữ liệu từ trang web có thể tự
động hóa quá trình này, thu thập thông tin về sản phẩm, giá cả, và đánh giá từ nhiều
nguồn khác nhau trên internet.
Ưu điểm của phương pháp thu thập dữ liệu số:
1. Tự động hóa và tiết kiệm thời gian: Phương pháp này giảm bớt công sức tay lao
và giúp nghiên cứu viên tiết kiệm thời gian, cho phép họ tập trung vào phân tích dữ liệu
và đưa ra những nhận định sâu sắc.
2. Dữ liệu lớn và đa dạng: Khả năng thu thập dữ liệu lớn từ nhiều nguồn cho phép
nghiên cứu viên có cái nhìn toàn diện về các xu hướng và biến động trong dữ liệu.
3. Cập nhật liên tục và thời gian thực: Dữ liệu số có thể được cập nhật liên tục và
theo thời gian thực, mang lại thông tin mới và chính xác. Điều này là quan trọng trong
việc theo dõi các sự kiện, xu hướng, và thay đổi nhanh chóng.
4. Dễ dàng thu thập từ đám đông: Phương pháp này mở cửa cho khả năng thu thập
dữ liệu từ một lượng lớn người tham gia, làm phong phú và đa dạng hóa nguồn thông tin.
Hạn chế của phương pháp thu thập dữ liệu số:
1. Rủi ro bảo mật và quyền riêng tư: Với sự thuận tiện của nó, phương pháp này
mang theo rủi ro về bảo mật và quyền riêng tư. Dữ liệu cá nhân có thể bị lộ ra nếu không
có biện pháp an ninh đủ.
2. Thiên lệch trong dữ liệu hoặc thiếu đại diện khiến cho dữ liệu không phản ánh
chính xác sự thật hoặc không đại diện cho toàn bộ tổng thể. Nếu mẫu dữ liệu được chọn
không đại diện cho toàn bộ tổng thể sẽ dẫn tới xuất hiện thiên lệch trong dữ liệu. Ví dụ,
nếu chỉ thu thập dữ liệu từ một phần nhỏ của một cộng đồng, dữ liệu có thể bị chệch và
không phản ánh đúng ý kiến của toàn bộ cộng đồng. Người thu thập dữ liệu có định kiến
hoặc quan điểm chủ quan, họ có thể chọn lọc thông tin theo hướng ưa thích của mình, tạo
ra sự chệch trong dữ liệu. Dữ liệu có thể bị chệch do sự chệch trong nền văn hóa hoặc tác
động xã hội.
3. Khả năng hiểu sai và thiếu ngữ cảnh: Dữ liệu số không thể tránh khỏi nguy cơ
hiểu sai nếu thiếu ngữ cảnh. Một số chi tiết có thể bị bỏ sót, làm suy giảm chất lượng của
dữ liệu.
4. Phụ thuộc vào công nghệ: Phương pháp này phụ thuộc vào sự phát triển và tin
cậy của công nghệ. Những thay đổi trong công nghệ có thể tạo ra thách thức và làm ảnh
hưởng đến quá trình thu thập dữ liệu.
Phương pháp thu thập dữ liệu số đóng vai trò quan trọng trong việc định hình cách
chúng ta hiểu và tương tác với thế giới xung quanh. Sự tiện lợi, hiệu quả, và khả năng tự
động hóa của phương pháp này đã làm thay đổi cách chúng ta tiếp cận và nghiên cứu dữ
liệu. Tuy nhiên, để tận dụng đầy đủ tiềm năng của nó, cần có sự cẩn thận trong việc xử lý
các vấn đề về bảo mật, đại diện, và chất lượng dữ liệu. Sự kết hợp linh hoạt giữa khả
năng tự động hóa và sự hiểu biết sâu sắc từ phía nghiên cứu viên sẽ là chìa khóa để thành
công trong việc áp dụng phương pháp thu thập dữ liệu số.
iv) Thách thức trong quá trình thu thập dữ liệu:
Mặc dù thu thập dữ liệu mang lại nhiều lợi ích, nhưng cũng đối mặt với nhiều thách
thức. Chi phí là một trong những rắc rối phổ biến, đặc biệt là khi sử dụng các phương
pháp truyền thống như khảo sát và phỏng vấn. Chất lượng dữ liệu là một thách thức khác,
đặc biệt khi dựa vào ý kiến của người tham gia, có thể bị ảnh hưởng bởi độ chệch hay
thiên lệch thông tin. Quyền riêng tư là mối quan tâm lớn, và việc bảo vệ thông tin cá nhân
của người tham gia là một trách nhiệm đạo đức cũng như hợp pháp.
 Khi thu thập dữ liệu từ nhiều nguồn, việc tổng hợp và đối chiếu thông tin có thể gặp
khó khăn. Sự không nhất quán giữa các nguồn dữ liệu có thể tạo ra thách thức trong
việc tạo ra một hình ảnh tổng thể và nhất quán.
 Môi trường thay đổi có thể tạo ra khả năng thích ứng với các yếu tố không dự đoán
được, đặt ra thách thức cho quá trình thu thập dữ liệu. Điều này đặc biệt đúng trong
các nghiên cứu dài hạn.
 Sự phát triển nhanh chóng của công nghệ đặt ra thách thức về việc cập nhật và sử dụng
các phương pháp thu thập dữ liệu tiên tiến. Việc duy trì đội ngũ chuyên gia và kỹ thuật
viên có kỹ năng hiện đại trở thành một yếu tố quan trọng.
 Khi nghiên cứu mở rộng, việc quản lý và thu thập dữ liệu ở quy mô lớn có thể trở nên
phức tạp. Khả năng mở rộng phải được xem xét từ giai đoạn thiết kế để đảm bảo tính
hiệu quả và đồng bộ của hệ thống.
 Nếu không tận dụng được tương tác và sự tham gia của đối tượng, việc thu thập dữ
liệu có thể trở nên hạn chế. Sự thiếu hứng thú hoặc tham gia từ phía đối tượng có thể
làm giảm chất lượng và tính chính xác của dữ liệu. Sự chủ quan của người thu thập dữ
liệu cũng có thể ảnh hưởng đến quá trình thu thập và phân tích. Điều này đặt ra thách
thức về tính khách quan của dữ liệu và kết quả nghiên cứu.
 Đối với các nghiên cứu yêu cầu ghi nhận hành vi trong thời gian ngắn, sự chuẩn bị và
tổ chức cần phải được quản lý tốt để tránh sót thông tin quan trọng.
 Quá trình thu thập dữ liệu thường đòi hỏi chi phí lớn và sử dụng nhiều nguồn lực, cũng
như mất nhiều thời gian. Điều này đặc biệt đúng khi nghiên cứu được thực hiện ở quy
mô lớn hoặc yêu cầu công nghệ cao.
 Sự ảnh hưởng của yếu tố tâm lý và xã hội đôi khi là không thể tránh khỏi trong quá
trình thu thập dữ liệu, làm mờ đi sự khách quan và đồng nhất của thông tin.
 Thu thập dữ liệu nhạy cảm đòi hỏi sự cẩn thận và tuân thủ nghiêm ngặt với các quy tắc
và đạo đức nghiên cứu, đặt ra thách thức lớn về khía cạnh đạo đức và pháp lý.
Quá trình vượt qua những thách thức này yêu cầu sự linh hoạt, sáng tạo, và sự chuyên
sâu trong việc quản lý quá trình thu thập dữ liệu để đảm bảo độ chính xác và tin cậy của
kết quả nghiên cứu.
v) Cơ hội và xu hướng tương lai trong thu thập dữ liệu:
Trong tương lai, xu hướng lớn trong thu thập dữ liệu bao gồm sự tích hợp của trí
tuệ nhân tạo và học máy. Các thuật toán này có khả năng phân tích lượng lớn dữ liệu một
cách nhanh chóng và hiệu quả, giúp đưa ra những nhận định sâu sắc và dự đoán chuẩn
xác. Ngoài ra, blockchain - công nghệ lưu trữ dữ liệu phi tập trung và an toàn, cũng có
thể đóng một vai trò quan trọng trong việc bảo vệ tính toàn vẹn và an ninh của dữ liệu.
Thu thập dữ liệu trong tương lai mang theo nhiều cơ hội và xu hướng đáng chú ý, là kết
quả của sự tiến bộ trong công nghệ và thay đổi trong quan điểm về nghiên cứu.
1. Sự lên ngôi của dữ liệu phi cấu trúc: Trong tương lai, dữ liệu phi cấu trúc sẽ
đóng vai trò quan trọng hơn trong quá trình thu thập. Dữ liệu này không phải là các bảng
dữ liệu cấu trúc truyền thống mà thường ta gặp, mà là thông tin không có định dạng cụ
thể, như dữ liệu văn bản, hình ảnh, và âm thanh. Công nghệ học máy và xử lý ngôn ngữ
tự nhiên sẽ giúp chúng ta chuyển đổi những dạng dữ liệu này thành thông tin có ý nghĩa
và đồng nhất.
2. Sự bùng nổ của dữ liệu người dùng: Với sự phổ biến của internet và mạng xã
hội, dữ liệu người dùng sẽ trở thành một nguồn lực quý báu. Tương tác trực tuyến của
người dùng, từ bài đăng trên mạng xã hội đến các đánh giá sản phẩm, sẽ cung cấp thông
tin chi tiết và phong phú về ý kiến, ưa thích, và hành vi người tiêu dùng.
3. Nguồn dữ liệu từ thiết bị kết nối: Các thiết bị kết nối (IoT) sẽ cung cấp một
nguồn dữ liệu lớn và đa dạng từ thế giới thực. Từ các cảm biến trong các thiết bị thông
minh đến dữ liệu y tế từ các thiết bị đeo thông minh, thông tin này sẽ mở ra những cơ hội
mới để hiểu rõ hơn về môi trường xung quanh và sức khỏe cá nhân.
4. Dữ liệu thời gian thực: Khả năng thu thập và xử lý dữ liệu thời gian thực sẽ trở
nên mạnh mẽ hơn, giúp nghiên cứu viên đưa ra quyết định dựa trên thông tin mới nhất.
Điều này có thể áp dụng trong nhiều lĩnh vực, từ theo dõi sự kiện xã hội đến phản hồi
người dùng trong sản phẩm và dịch vụ.
5. Sự kết hợp của dữ liệu đa nguồn: Xu hướng kết hợp dữ liệu từ nhiều nguồn khác
nhau sẽ ngày càng gia tăng. Việc kết hợp dữ liệu cấu trúc và phi cấu trúc, dữ liệu người
dùng và dữ liệu từ IoT, sẽ mở ra cơ hội để xây dựng cái nhìn toàn diện hơn về một vấn đề
nghiên cứu.
6. Sự đa dạng trong phương pháp thu thập: Tương lai của thu thập dữ liệu sẽ thấy
sự đa dạng trong phương pháp thu thập. Ngoài các phương pháp truyền thống như khảo
sát và phỏng vấn, sẽ xuất hiện nhiều phương pháp sáng tạo như thu thập dữ liệu từ trò
chơi, cảm biến xã hội, và các phương pháp thu thập dữ liệu thực tế ảo.
7. Công nghệ Blockchain cho an toàn dữ liệu: Blockchain có thể được sử dụng để
cải thiện tính an toàn và minh bạch trong quá trình thu thập dữ liệu. Nó giúp đảm bảo
rằng dữ liệu không bị sửa đổi và người tham gia có quyền kiểm soát thông tin cá nhân
của họ.
Cơ hội và xu hướng trong thu thập dữ liệu mở ra không gian cho sự sáng tạo và
phát triển trong nghiên cứu. Tận dụng những cơ hội này đòi hỏi sự linh hoạt và hiểu biết
sâu sắc về công nghệ và xu hướng xã hội, nhằm đảm bảo rằng quá trình thu thập dữ liệu
không chỉ là hiệu quả mà còn là đáng tin cậy và bảo mật.
b) Khái niệm về lưu trữ dữ liệu
Lưu trữ dữ liệu, trong thời đại số hóa ngày nay, đó không chỉ là việc giữ gìn thông
tin mà còn là yếu tố quyết định sự thành công của nhiều tổ chức và cá nhân. Nguồn thông
tin ngày càng tăng lên về cả về quy mô và đa dạng, từ dữ liệu doanh nghiệp đến thông tin
cá nhân và khoa học. Trong bối cảnh này, việc xây dựng và quản lý hệ thống lưu trữ dữ
liệu không chỉ là thách thức mà còn là cơ hội để tận dụng triệt hạng sức mạnh của thông
tin.
i) Khái niệm lưu trữ dữ liệu:
Lưu trữ dữ liệu là quá trình tổ chức, bảo quản, và duy trì thông tin để đảm bảo tính
toàn vẹn, khả dụng, và an toàn của dữ liệu trong thời gian dài. Điều này không chỉ bao
gồm việc giữ gìn thông tin, mà còn liên quan đến việc xây dựng cơ sở hạ tầng, áp dụng
chiến lược, và sử dụng công nghệ phù hợp để quản lý nguồn thông tin ngày càng phong
phú và đa dạng.
Lưu trữ dữ liệu không chỉ giữ vai trò là nơi lưu giữ thông tin mà còn đóng vai trò
quan trọng trong việc tạo ra cơ sở dữ liệu có giá trị. Điều này bao gồm việc áp dụng các
chiến lược và công nghệ phù hợp để đảm bảo tính toàn vẹn, an toàn, và sẵn sàng của
thông tin trong thời gian dài. Quản lý lưu trữ dữ liệu đòi hỏi sự chú ý đặc biệt đối với bảo
mật, hiệu suất, và khả năng mở rộng để đáp ứng với những thách thức ngày càng phức
tạp của thế giới số hóa.
ii) Mục đích của việc lưu trữ dữ liệu:
Lưu trữ dữ liệu không chỉ là việc giữ gìn thông tin mà còn là một cách tổ chức
thông tin để mang lại nhiều lợi ích quan trọng cho tổ chức và cá nhân. Lưu trữ dữ liệu
giúp tổ chức và cá nhân tiếp cận, quản lý và sử dụng thông tin một cách hiệu quả. Hệ
thống này không chỉ đơn thuần là nơi bảo quản dữ liệu mà còn mang lại nhiều lợi ích
khác nhau, từ việc bảo đảm tính toàn vẹn và an toàn của thông tin đến việc hỗ trợ quyết
định chiến lược và phân tích dữ liệu. Cùng điều này, lưu trữ dữ liệu cũng đóng vai trò
quan trọng trong việc thực hiện các mục đích cụ thể như bảo quản, truy cập linh hoạt, và
quản lý hiệu quả cơ sở dữ liệu.
1. Bảo quản tính toàn vẹn và an toàn: Một trong những mục đích chính của lưu trữ
dữ liệu là đảm bảo tính toàn vẹn và an toàn của thông tin. Bằng cách tạo bản sao lưu định
kỳ và sử dụng các biện pháp bảo mật mạnh mẽ, tổ chức có khả năng ngăn chặn mất mát
dữ liệu do các yếu tố như lỗi kỹ thuật, tấn công mạng, hay thậm chí là thảm họa tự nhiên.
Điều này đặt ra nhu cầu cấp thiết của việc quản lý rủi ro và đảm bảo rằng thông tin quan
trọng được bảo vệ một cách hiệu quả.
2. Hỗ trợ quá trình nghiên cứu và phân tích: Dữ liệu lưu trữ là nguồn thông tin quý
giá cho quá trình nghiên cứu và phân tích. Các tổ chức có thể sử dụng dữ liệu lịch sử để
đánh giá xu hướng, dự báo tương lai, và phân tích các mối quan hệ phức tạp. Việc lưu trữ
dữ liệu có tổ chức giúp tối ưu hóa quá trình phân loại và tìm kiếm thông tin, làm cho quá
trình nghiên cứu trở nên linh hoạt và hiệu quả.
3. Đáp ứng nhu cầu truy cập nhanh: Một trong những mục tiêu của hệ thống lưu trữ
dữ liệu là đáp ứng nhu cầu truy cập nhanh từ phía người sử dụng. Điều này không chỉ tạo
ra sự thuận tiện trong làm việc mà còn giúp tăng cường hiệu suất tổ chức. Truy cập linh
hoạt và nhanh chóng vào dữ liệu hỗ trợ quyết định kịp thời và giảm thiểu thời gian mất
mát do đợi chờ.
4. Quản lý hiệu quả cơ sở dữ liệu: Hệ thống lưu trữ giúp tổ chức cơ sở dữ liệu một
cách có tổ chức, làm cho quá trình quản lý trở nên hiệu quả hơn. Cấu trúc dữ liệu cơ bản
và kiến trúc hợp lý giúp trong việc tối ưu hóa hiệu suất làm việc, giảm thiểu rủi ro lỗi, và
nâng cao khả năng mở rộng của hệ thống.
5. Tuân thủ luật lệ và bảo mật: Lưu trữ dữ liệu cũng đóng vai trò quan trọng trong
việc đảm bảo tuân thủ các quy định pháp luật và chuẩn mực về quyền riêng tư và bảo mật
thông tin. Việc áp dụng các biện pháp bảo mật mạnh mẽ không chỉ giữ cho dữ liệu an
toàn mà còn đảm bảo rằng tổ chức tuân thủ mọi yêu cầu liên quan đến quản lý thông tin
và bảo vệ dữ liệu cá nhân.
6. Hỗ trợ quản lý doanh nghiệp: Dữ liệu lưu trữ cung cấp cơ sở cho việc theo dõi và
đánh giá hiệu suất doanh nghiệp. Quản lý có thể sử dụng dữ liệu để xây dựng báo cáo, dự
báo xu hướng, và thực hiện phân tích chi tiết về hoạt động của tổ chức. Điều này giúp họ
đưa ra quyết định chiến lược, điều chỉnh chiến lược kinh doanh, và tối ưu hóa các quy
trình làm việc.
Mục đích của việc lưu trữ dữ liệu không chỉ là để giữ gìn thông tin mà còn là để tối
ưu hóa quy trình làm việc, đảm bảo an toàn và tuân thủ, và cung cấp nguồn dữ liệu chất
lượng cho các hoạt động nghiên cứu và quản lý. Hệ thống lưu trữ dữ liệu chính là trụ cột
quan trọng trong việc xây dựng nền tảng thông tin cho sự phát triển bền vững của tổ chức
trong thời đại số hóa.
iii) Các thiết bị lưu trữ dữ liệu:
1. Hệ thống máy chủ: Hệ thống máy chủ đóng vai trò quan trọng trong quá trình lưu
trữ dữ liệu, sử dụng cả máy chủ vật lý và máy chủ ảo để tổ chức và quản lý thông tin.
Dưới đây là một mô tả chi tiết và rõ ràng hơn về vai trò và chức năng của hệ thống máy
chủ trong ngữ cảnh lưu trữ dữ liệu:
Máy chủ vật lý:
 Tổ chức và lưu trữ dữ liệu: Máy chủ vật lý là các thiết bị vật lý, có thể là các máy
chủ đặt tại trung tâm dữ liệu hoặc các phòng máy chủ trong tổ chức. Chúng được sử
dụng để tổ chức và lưu trữ lượng lớn dữ liệu của tổ chức.
 Cung cấp không gian lưu trữ: Máy chủ vật lý cung cấp không gian lưu trữ vật lý,
thông qua các ổ đĩa cứng và hệ thống lưu trữ, giúp tổ chức quản lý và duy trì dữ liệu
một cách hiệu quả.
 Bảo mật và kiểm soát truy cập: Máy chủ vật lý đảm bảo mức độ bảo mật cao cho dữ
liệu, thường được đặt trong môi trường được kiểm soát chặt chẽ để ngăn chặn truy cập
trái phép.
 Tài nguyên vật lý: Máy chủ vật lý cung cấp tài nguyên vật lý như bộ xử lý, bộ nhớ,
và công suất tính toán, giúp xử lý và phục vụ các yêu cầu của hệ thống.
Máy chủ ảo:
 Tối ưu hóa tài nguyên: Máy chủ ảo là một lớp trừu tượng hóa trên máy chủ vật lý,
cho phép tối ưu hóa sử dụng tài nguyên. Nhiều máy chủ ảo có thể chia sẻ cùng một
máy chủ vật lý.
 Linh động và dễ mở rộng: Máy chủ ảo mang lại tính linh hoạt và dễ mở rộng. Bạn
có thể tạo, di chuyển, và mở rộng máy chủ ảo một cách dễ dàng, tùy thuộc vào nhu cầu
của hệ thống.
 Bảo trì và sao lưu dữ liệu: Máy chủ ảo thường được sử dụng để triển khai các máy
chủ dự phòng và quản lý dữ liệu sao lưu, giúp đảm bảo an toàn và khả dụng của thông
tin.
 Tiết kiệm năng lượng: Bằng cách chia sẻ tài nguyên trên cùng một máy chủ vật lý,
máy chủ ảo giúp giảm tiêu thụ năng lượng so với việc triển khai nhiều máy chủ vật lý.
2. Lưu trữ đám mây: Lưu trữ đám mây là một mô hình lưu trữ dữ liệu hiện đại,
mang lại sự tiện lợi, linh hoạt, và khả năng mở rộng cho tổ chức và cá nhân. Thay vì phải
dựa vào hạ tầng vật lý hoặc máy chủ ảo, lưu trữ đám mây chủ yếu được triển khai trên
các hạ tầng đám mây, đồng nghĩa với việc dữ liệu được lưu trữ và quản lý thông qua
internet. Sử dụng các dịch vụ đám mây như AWS, Azure, hoặc Google Cloud để lưu trữ
và quản lý dữ liệu từ xa. Lưu trữ đám mây có những đặc điểm nổi bật:
 Khả năng tiện lợi và truy cập từ mọi nơi: Lưu trữ đám mây giúp người dùng truy
cập dữ liệu mọi lúc, mọi nơi thông qua internet. Điều này cực kỳ hữu ích cho các tổ
chức có nhân viên làm việc từ xa hoặc cần truy cập dữ liệu trên nhiều thiết bị khác
nhau.
 Khả năng mở rộng: Đám mây cung cấp khả năng mở rộng linh hoạt, cho phép tổ
chức mở rộng dung lượng lưu trữ theo nhu cầu mà không cần phải đầu tư vào hạ tầng
vật lý mới.
 Tính an toàn và bảo mật cao: Các dịch vụ lưu trữ đám mây thường có các biện pháp
an ninh và bảo mật cao, bao gồm mã hóa dữ liệu, chứng thực hai yếu tố, và quản lý
quyền truy cập, đảm bảo an toàn cho thông tin.
 Chi phí linh hoạt và tiết kiệm: Mô hình trả tiền theo sử dụng của lưu trữ đám mây
giúp tổ chức chỉ trả tiền cho dung lượng thực sự sử dụng, giảm chi phí cố định và đồng
thời tiết kiệm so với việc triển khai và duy trì hạ tầng vật lý.
 Dịch vụ tự động và quản lý đám mây: Các nhà cung cấp lưu trữ đám mây thường
cung cấp các dịch vụ tự động như sao lưu, khôi phục dữ liệu, và quản lý tài nguyên,
giúp đơn giản hóa quá trình quản lý và bảo trì.
 Đồng bộ dữ liệu tốt: Lưu trữ đám mây hỗ trợ đồng bộ hóa dữ liệu một cách hiệu
quả, đảm bảo rằng thông tin luôn cập nhật và sẵn sàng sử dụng trên mọi thiết bị.
 Phòng chống mất mát dữ liệu và tình trạng khẩn cấp: Các dịch vụ lưu trữ đám mây
thường có các biện pháp đảm bảo phòng chống mất mát dữ liệu và cung cấp tùy chọn
phục hồi dữ liệu trong tình trạng khẩn cấp.
Lưu trữ đám mây không chỉ là một xu hướng mà còn là một giải pháp hiện đại và
linh hoạt để quản lý dữ liệu, đặc biệt là trong bối cảnh công nghệ đang phát triển nhanh
chóng và nhu cầu di động ngày càng tăng. Điều này mở ra nhiều cơ hội và tiện ích cho
các tổ chức muốn tối ưu hóa quản lý thông tin của mình.
3. Lưu trữ nội bộ: Lưu trữ nội bộ là một phương thức quản lý dữ liệu mà nhiều tổ
chức sử dụng để giữ gìn và kiểm soát thông tin nội bộ của mình. Phương tiện chính để
thực hiện lưu trữ nội bộ bao gồm các hệ thống NAS (Network Attached Storage) và SAN
(Storage Area Network).
Hệ thống NAS (Network Attached Storage):
 Đơn giản và dễ triển khai: NAS là một giải pháp lưu trữ nội bộ phổ biến với việc
kết nối trực tiếp với mạng, giúp người dùng dễ dàng truy cập dữ liệu từ mọi thiết bị kết
nối mạng trong tổ chức.
 Quản lý dữ liệu phân tán: NAS cho phép tổ chức phân phối dữ liệu một cách phù
hợp và quản lý nó tại các vị trí cụ thể trên mạng, đồng thời tối ưu hóa việc truy cập.
 Tiết kiệm dung lượng lưu trữ: Các hệ thống NAS thường có khả năng thực hiện nén
dữ liệu và quản lý không gian lưu trữ một cách hiệu quả, giúp tiết kiệm chi phí và tăng
hiệu suất lưu trữ.
Hệ Thống SAN (Storage Area Network):
 Tích hợp với hạ tầng lớn: SAN thường được sử dụng trong các môi trường có hạ
tầng lớn, cung cấp dung lượng lưu trữ lớn và tốc độ truy cập cao.
 Hiệu năng cao: SAN được xây dựng để cung cấp hiệu năng tối đa cho việc xử lý và
truy cập dữ liệu, phù hợp cho các ứng dụng đòi hỏi sự nhanh nhạy và ổn định.
 Quản lý truy cập được chia sẻ: SAN cho phép nhiều người dùng truy cập vào dữ
liệu cùng một lúc mà không làm ảnh hưởng đến hiệu suất, điều này thích hợp cho các
tổ chức với nhu cầu truy cập đồng thời lớn.
Lưu trữ nội bộ với hệ thống NAS và SAN đảm bảo sự kiểm soát và an toàn cho dữ
liệu nội bộ của tổ chức, tuy nhiên, cũng đặt ra những thách thức liên quan đến chi phí và
khả năng mở rộng. Việc lựa chọn giữa lưu trữ nội bộ và các phương thức lưu trữ khác
thường phụ thuộc vào yêu cầu cụ thể và mục tiêu của tổ chức.
1.2.3. Khái niệm về xử lý và phân tích dữ liệu
a) Xử lý dữ liệu
i) Định nghĩa về xử lý dữ liệu:
Xử lý dữ liệu là quá trình xử lý và biến đổi thông tin từ dữ liệu thô thành dữ liệu có
ý nghĩa và giá trị. Điều này bao gồm nhiều công đoạn từ việc thu thập dữ liệu, làm sạch,
biến đổi, và tổ chức dữ liệu để chuẩn bị cho các công việc phân tích và trích xuất thông
tin hữu ích. Mục tiêu chính của xử lý dữ liệu là tạo ra một bộ dữ liệu có thứ bậc, có thứ
tự, và đủ chất lượng để giúp phân tích dữ liệu một cách hiệu quả.
(tham khảo: https://unitrain.edu.vn/xu-ly-du-lieu-la-gi-du-lieu-duoc-xu-ly-nhu-the-nao/)
ii) Quá trình xử lý dữ liệu:
Quá trình xử lý dữ liệu không chỉ là một bước đơn giản trong chuỗi công việc với
thông tin, mà còn là nền tảng quan trọng để biến những dòng chữ và con số thô thành
thông tin có ý nghĩa và hữu ích. Xử lý dữ liệu là bước quyết định sự thành công của nhiều
dự án, từ nghiên cứu khoa học đến quản lý doanh nghiệp. Bằng cách chuyển đổi và làm
sạch dữ liệu, chúng ta tạo ra một cơ sở dữ liệu mạnh mẽ để thực hiện phân tích, đưa ra
quyết định, và hiểu rõ hơn về thế giới xung quanh.
Quá trình xử lý dữ liệu không chỉ giới hạn trong việc loại bỏ nhiễu và làm sạch dữ
liệu. Nó là một chuỗi các bước phức tạp, từ việc thu thập thông tin đến biến đổi dữ liệu,
sắp xếp nó một cách có tổ chức, và cuối cùng là xác minh chất lượng. Mỗi bước đều đóng
vai trò quan trọng, định hình dữ liệu để nó trở thành một nguồn tài nguyên có thể tin cậy
và đáng tin cậy.
Trong phần này, chúng ta sẽ khám phá chi tiết về quá trình xử lý dữ liệu, từ các
khái niệm cơ bản đến những thách thức và cơ hội mà nó mang lại. Bằng cách hiểu rõ hơn
về quy trình này, chúng ta có thể xác định cách tối ưu hóa công việc của mình, tạo ra dữ
liệu chất lượng, và làm cho thông tin trở nên hiệu quả và có ý nghĩa. Quy trình việc xử lý
dữ liệu được thể hiện qua các bước sau:
Thu thập dữ liệu: Các nguồn thu thập dữ liệu, dữ liệu liên quan về mặt logic được
thu thập từ các nguồn khác nhau, định dạng khác nhau, các loại khác nhau như từ XML,
tệp CSV, phương tiện truyền thông xã hội, hình ảnh là dữ liệu có cấu trúc hoặc không có
cấu trúc,…
Lưu trữ dữ liệu: Dữ liệu được thu thập bây giờ cần được lưu trữ dưới dạng vật lý
như giấy tờ, sổ ghi chép, và tất cả hoặc dưới bất kỳ hình thức vật lý nào khác. Hiện nay
do khai thác dữ liệu và dữ liệu lớn, việc thu thập dữ liệu là rất lớn kể cả ở dạng có cấu
trúc hay không có cấu trúc. Dữ liệu sẽ được lưu trữ dưới dạng kỹ thuật số để thực hiện
phân tích và trình bày có ý nghĩa theo các yêu cầu ứng dụng.
Sắp xếp dữ liệu: Sau bước lưu trữ, bước ngay lập tức sẽ là phân loại và lọc. Việc
phân loại và lọc được yêu cầu để sắp xếp dữ liệu theo một số thứ tự có ý nghĩa và chỉ lọc
ra những thông tin được yêu cầu giúp dễ dàng hình dung và phân tích.
Xử lý dữ liệu: Một loạt quá trình xử lý hoặc sử dụng liên tục và xử lý được thực
hiện để xác minh, chuyển đổi, tổ chức, tích hợp và trích xuất dữ liệu ở dạng đầu ra hữu
ích để sử dụng xa hơn.
Phân tích dữ liệu: Phân tích dữ liệu là quá trình áp dụng hoặc đánh giá dữ liệu một
cách có hệ thống bằng cách sử dụng lập luận phân tích và logic để minh họa từng thành
phần của dữ liệu được cung cấp và để có được kết quả hoặc quyết định được đưa ra.
Trình bày dữ liệu và kết luận: Khi chúng ta đi đến kết quả phân tích, nó có thể
được biểu diễn thành các dạng khác nhau như biểu đồ, tệp văn bản, tệp excel, đồ thị,…
iii) Mục tiêu và ý nghĩa của việc xử lý dữ liệu:
Mục tiêu chính của quá trình xử lý dữ liệu là biến đổi thông tin thô từ các nguồn
khác nhau thành dữ liệu có ý nghĩa và hữu ích. Điều này không chỉ đơn giản là quá trình
làm sạch dữ liệu, mà còn liên quan đến việc tạo ra một bộ dữ liệu có thứ bậc, có tổ chức,
và đủ chất lượng để hỗ trợ quá trình phân tích và đưa ra quyết định.
 Tạo ra dữ liệu chất lượng: Quá trình xử lý dữ liệu nhằm vào việc loại bỏ nhiễu, sửa
chữa lỗi, và đảm bảo tính chính xác của thông tin. Mục tiêu là tạo ra một bộ dữ liệu
chất lượng cao, giảm thiểu sai lệch và đảm bảo sự tin cậy khi sử dụng trong các ứng
dụng phân tích và quyết định.
 Chuẩn bị dữ liệu cho phân tích: Quá trình xử lý giúp chuẩn bị dữ liệu cho quá trình
phân tích, làm giảm độ phức tạp của công việc phân tích và tăng cường khả năng hiểu
rõ của dữ liệu. Dữ liệu được chuẩn bị tốt giúp người sử dụng tập trung vào việc rút ra
thông điệp quan trọng thay vì bị làm phiền bởi nhiễu loạn.
 Nâng cao hiệu suất: Xử lý dữ liệu đảm bảo rằng dữ liệu được tổ chức một cách hiệu
quả, tăng cường khả năng truy cập và tìm kiếm. Điều này không chỉ giúp tăng cường
hiệu suất trong quá trình làm việc với dữ liệu mà còn giúp tối ưu hóa các tác vụ phức
tạp như học máy và dự đoán.
 Giảm thiểu rủi ro: Xử lý dữ liệu chính xác giúp giảm thiểu rủi ro từ thông tin sai
lệch. Trong các lĩnh vực như quản lý doanh nghiệp và nghiên cứu khoa học, sự tin cậy
của dữ liệu là quan trọng để đưa ra quyết định đúng đắn và định hình chiến lược phát
triển.
 Tăng cường tính tương tác: Dữ liệu được xử lý tốt không chỉ làm cho nó dễ hiểu mà
còn tạo ra tính tương tác. Dữ liệu có thứ bậc và có tổ chức giúp người sử dụng tương
tác linh hoạt và chia sẻ thông tin một cách hiệu quả với các bên liên quan.
Xử lý dữ liệu không chỉ là bước chuẩn bị cho phân tích, mà còn là yếu tố quyết
định sự thành công của nhiều dự án. Bằng cách chú ý đến những mục tiêu này, quá trình
xử lý dữ liệu trở thành một bước không thể thiếu trong việc làm cho dữ liệu trở nên có ý
nghĩa và hỗ trợ quyết định.
b) Phân tích dữ liệu
Phân tích dữ liệu đóng vai trò quan trọng trong quy trình nghiên cứu và quản lý,
mang lại cái nhìn sâu sắc về thông tin tiềm ẩn và xu hướng trong dữ liệu. Đây là giai
đoạn quyết định, nơi mà chúng ta chuyển đổi dữ liệu thô thành thông tin có ý nghĩa và
đưa ra những hiểu biết quan trọng cho quyết định và chiến lược. Từ sự đa dạng của dữ
liệu đến những kỹ thuật và công cụ ngày càng phức tạp, quá trình này đòi hỏi sự hiểu biết
sâu sắc về mảng kiến thức và kỹ năng phân tích. Đồng thời, phân tích dữ liệu là chìa khóa
để mở ra những câu hỏi mới, khám phá tri thức ẩn, và dự báo xu hướng tương lai.
i) Khái niệm phân tích dữ liệu:
Phân tích dữ liệu là quá trình sử dụng các phương pháp và công cụ để nghiên cứu,
tìm hiểu và rút ra thông tin có ý nghĩa từ dữ liệu thu thập được. Điều này bao gồm việc áp
dụng các kỹ thuật thống kê, toán học, và thậm chí là trí tuệ nhân tạo để hiểu biểu đồ, xu
hướng, và mối quan hệ trong dữ liệu. Phân tích dữ liệu không chỉ giúp hiểu rõ hơn về các
biến số, mà còn đưa ra các dự đoán và khám phá những thông điệp tiềm ẩn.
(tham khảo https://aws.amazon.com/vi/what-is/data-analytics/)
ii) Các phương pháp và công cụ phân tích dữ liệu:
Các loại phân tích dữ liệu bao gồm phân tích mô tả, chẩn đoán, dự đoán, và theo
quy định, mỗi phương pháp mang lại cái nhìn đặc biệt và giá trị riêng. Từ việc mô tả cơ
bản đến việc dự đoán xu hướng và đề xuất phản ứng tối ưu, mỗi loại phân tích đóng góp
một phần quan trọng vào quá trình hiểu biết và quyết định.
Phương pháp phân tích mô tả (thống kê mô tả): Thống kê mô tả là quá trình sắp
xếp, tóm tắt, và mô tả dữ liệu một cách hệ thống và tổng quan để hiểu rõ về các đặc điểm
chính của tập dữ liệu. Mục tiêu của thống kê mô tả là cung cấp một cái nhìn tổng quan và
dễ hiểu về tính chất thống kê của dữ liệu mà không cần đến các phương pháp phức tạp
hơn. Các đặc trưng của thống kê mô tả gồm:
 Trung bình (Mean): Được tính bằng cách cộng tất cả các giá trị và chia cho số
lượng các giá trị. Đây là giá trị trung ương của dữ liệu.
 Trung vị (Median): Là giá trị ở giữa khi dữ liệu được sắp xếp theo thứ tự. Giá trị này
không bị ảnh hưởng bởi giá trị ngoại lệ.
 Phương sai (Variance): Đo lường mức độ phân tán của dữ liệu. Phương sai cao cho
thấy sự biến động lớn giữa các giá trị.
 Biểu đồ đường (Line Chart): Sử dụng để minh họa xu hướng thay đổi của một biến qua
thời gian hoặc các điểm dữ liệu liên tục.
 Biểu đồ cột (Bar Chart): Thể hiện sự so sánh giữa các giá trị rời rạc hoặc nhóm dữ liệu.
 Biểu đồ hộp (Box Plot): Hiển thị phân phối của dữ liệu và làm nổi bật các giá trị ngoại
lệ.
 Biểu đồ phân phối (Histogram): Thể hiện tần suất xuất hiện của các khoảng giá trị,
giúp nhận biết hình dạng của phân phối dữ liệu.
Phương pháp phân tích mô tả có ưu điểm như:
 Phân tích mô tả giúp xác định xem dữ liệu có phân phối như thế nào, liệu có lệch trái,
lệch phải hay đối xứng;
 Đồ thị hộp giúp phát hiện giá trị ngoại lệ, những điểm dữ liệu nằm ngoài phạm vi bình
thường;
 Biểu đồ và đồ thị là công cụ mạnh mẽ để trực quan hóa dữ liệu, giúp làm rõ thông tin
và giúp người xem hiểu dễ dàng hơn.
Phương pháp phân tích mô tả cung cấp cái nhìn tổng quan về các đặc điểm quan
trọng của dữ liệu, giúp ta hiểu về trung tâm, phân tán, và hình dạng của phân phối. Quá
trình này thường là bước đầu tiên quan trọng trong việc phân tích dữ liệu và có thể hỗ trợ
quyết định trong nghiên cứu, kinh doanh, y học, và nhiều lĩnh vực khác.
Phân tích chẩn đoán: Phân tích chẩn đoán là một quá trình phân tích chuyên sâu
hoặc chi tiết dữ liệu để nắm được nguyên nhân khiến một sự kiện xảy ra. Đặc trưng của
phương pháp này là các kỹ thuật như truy sâu, khám phá dữ liệu, khai thác dữ liệu và đối
chiếu. Trong từng kỹ thuật này, nhiều hoạt động và thao tác biến đổi dữ liệu được sử
dụng để phân tích dữ liệu thô. Phương pháp phân tích chẩn đoán là một quá trình tập
trung vào việc khám phá sâu về dữ liệu để xác định nguyên nhân của một sự kiện hay
hiện tượng.
Phương pháp chẩn đoán là quá trình phân tích sâu sắc về dữ liệu để xác định
nguyên nhân và mối liên quan giữa các biến. Dưới đây là những bước quan trọng trong
phương pháp này:
Khám phá sâu dữ liệu:
 Xác định các biến quan trọng và xác định sự phân phối và biến đổi của chúng trong dữ
liệu.
 Tìm hiểu về mối quan hệ giữa biến đối lập (có thể là nguyên nhân) và biến phụ thuộc
(có thể là hậu quả).
Phân tích mối liên kết:
 Đánh giá cách các biến tương tác và ảnh hưởng lẫn nhau, đồng thời kiểm tra sự thay
đổi của chúng theo thời gian hoặc điều kiện khác nhau.
 Tách dữ liệu thành các nhóm để phân tích chi tiết và so sánh.
Khai thác dữ liệu:
 Sử dụng các kỹ thuật như khai thác dữ liệu để đào sâu và khám phá những mối liên kết
tiềm ẩn trong tập dữ liệu.
 Xem xét mối liên kết giữa các biến một cách chi tiết và cụ thể.
Phân tích dự đoán:
Phân tích dự đoán sử dụng dữ liệu lịch sử để đưa ra các dự báo chính xác về xu
hướng trong tương lai. Đặc trưng của phương pháp này là các kỹ thuật như máy học, dự
báo, so khớp mẫu và lập mô hình dự đoán. Trong từng kỹ thuật này, các máy tính được
đào tạo để thiết kế ngược các kết nối nhân quả trong dữ liệu.
Phương pháp dự đoán là một khía cạnh quan trọng của phân tích dữ liệu, tập trung
vào việc sử dụng thông tin lịch sử để đưa ra các dự báo chính xác về xu hướng trong
tương lai. Một số cách mà phương pháp dự đoán được thực hiện:
Học máy và dự báo:
 Sử dụng các mô hình học máy để dự đoán dựa trên dữ liệu lịch sử và các yếu tố tương
quan.
 Áp dụng các thuật toán dự báo như Random Forest, Support Vector Machines, hay
Neural Networks.
Dữ liệu lịch sử và mô hình hóa:
 Phương pháp dự đoán dựa trên thông tin đã xảy ra trong quá khứ để dự đoán xu hướng
tương lai.
 Tạo ra mô hình toán học dựa trên dữ liệu lịch sử để mô tả mối liên quan giữa các biến.
Kỹ thuật dự đoán:
 Sử dụng các phương pháp thống kê như dự đoán chuỗi thời gian hoặc dự đoán hồi quy
để xác định xu hướng và biến động.
 Xây dựng mô hình dự báo dựa trên dữ liệu cụ thể của một hệ thống hay sự kiện.
Phương pháp dự đoán là một công cụ mạnh mẽ để đưa ra quyết định dựa trên sự
hiểu biết vững về xu hướng và biến động trong dữ liệu. Việc tích hợp các kỹ thuật dự
đoán vào quy trình phân tích dữ liệu giúp cải thiện khả năng tiên đoán và chuẩn bị cho
những thách thức tương lai.
Phân tích theo quy định: Phân tích theo quy định đưa dữ liệu dự đoán lên một tầm
cao mới. Phương pháp này không chỉ dự đoán sự kiện gì sẽ xảy ra mà còn đề xuất một
phản ứng tối ưu cho kết quả đó. Nó có thể phân tích tác động tiềm ẩn của các lựa chọn
khác nhau và đề xuất hướng hành động tốt nhất. Đặc trưng của phương pháp này là phân
tích đồ thị, mô phỏng, xử lý sự kiện phức tạp, mạng nơ-ron và công cụ đề xuất.
iii) Một số công cụ để phân tích dữ liệu:
Với thời đại công nghệ 4.0, quá trình phân tích dữ liệu đã trở thành một phần quan
trọng của quyết định chiến lược và quản lý thông tin. Để hiệu quả trong việc hiểu và sử
dụng dữ liệu, các công cụ phân tích chính là những nguồn lực vô cùng quan trọng. Dưới
đây là một số công cụ phân tích dữ liệu đáng chú ý:
R: Ngôn ngữ lập trình và môi trường thống kê
 Môi trường thống kê: R không chỉ là ngôn ngữ lập trình mạnh mẽ mà còn là một
môi trường thống kê linh hoạt, hỗ trợ nhiều phương pháp phân tích dữ liệu từ cơ bản
đến nâng cao.
 R có cộng đồng đông đảo phát triển các gói mở rộng cho các mục đích thống kê, đồ
thị hóa, và phân tích dữ liệu chuyên sâu.
Python: Ngôn ngữ lập trình phổ biến cho phân tích dữ liệu
 Thư viện hỗ trợ mạnh mẽ: Python không chỉ là ngôn ngữ lập trình phổ biến mà còn
có nhiều thư viện như Pandas, NumPy, và SciPy giúp xử lý và phân tích dữ liệu một
cách linh hoạt.
 Python là một lựa chọn ưa thích cho các dự án máy học với thư viện như scikit-
learn và TensorFlow.
Tableau: Công cụ trực hóa dữ liệu
 Tableau cung cấp một môi trường trực quan hóa dữ liệu mạnh mẽ, giúp người dùng
tạo ra biểu đồ, đồ thị, và bảng mô tả dữ liệu một cách dễ dàng.
 Tableau hỗ trợ tích hợp dữ liệu từ nhiều nguồn khác nhau, giúp đồng bộ thông tin
và hiểu biết.
Excel: Công cụ thống kê và tính toán cơ bản
 Excel là một công cụ thống kê và tính toán cơ bản được sử dụng rộng rãi trong các
hoạt động văn phòng.
 Với giao diện đồ họa thân thiện, Excel là lựa chọn phổ biến cho những công việc
đơn giản đến trung bình.
Công cụ phân tích đồ thị và mô phỏng:
 MATLAB: Một môi trường tính toán và lập trình được sử dụng rộng rãi cho phân
tích đồ thị và mô phỏng.
 Gephi: Công cụ mạnh mẽ cho việc phân tích và trực quan hóa mạng phức tạp.
 Simul8: Công cụ mô phỏng quy trình kinh doanh và xử lý sự kiện.
Bằng cách sử dụng một sự kết hợp linh hoạt giữa các phương pháp và công cụ này,
chúng ta có thể chuyển đổi dữ liệu thành thông tin có ý nghĩa và đưa ra những quyết định
thông tin. Tùy thuộc vào mục tiêu và đặc điểm cụ thể của dữ liệu, người phân tích có thể
lựa chọn phương pháp và công cụ phù hợp nhất để đạt được kết quả tốt nhất.
iv) Mục tiêu và ý nghĩa của phân tích dữ liệu
Phân tích dữ liệu không chỉ là một công đoạn kỹ thuật mà còn là một tiến trình
chiến lược quan trọng đối với tổ chức và doanh nghiệp. Trong thời đại số hóa ngày nay,
khả năng hiểu biết sâu sắc về dữ liệu không chỉ là một lợi thế mà còn là chìa khóa để định
hình và tối ưu hóa chiến lược kinh doanh.
Mục tiêu của phân tích dữ liệu:
 Phát hiện xu hướng và biến động: Một trong những mục tiêu chính của phân tích dữ
liệu là phát hiện ra xu hướng và biến động trong dữ liệu. Điều này giúp tổ chức và cá
nhân dựa trên thông tin cụ thể để điều chỉnh chiến lược và kế hoạch.
 Đánh giá hiệu suất: Phân tích dữ liệu cho phép đánh giá hiệu suất của một hệ thống,
sản phẩm, hay dự án. Bằng cách này, quản lý có thể xác định được điểm mạnh và yếu
của các quy trình và thực hiện các biện pháp cần thiết.
 Dự đoán tương lai: Một mục tiêu quan trọng của phân tích dữ liệu là dự đoán xu
hướng và sự biến động trong tương lai. Các mô hình dự đoán được xây dựng dựa trên
dữ liệu lịch sử giúp tổ chức chuẩn bị và đưa ra các quyết định chiến lược.
 Phân loại và nhóm dữ liệu: Phân tích dữ liệu giúp phân loại và nhóm hóa thông tin.
Điều này giúp hiểu rõ hơn về đặc điểm của các phân khúc khác nhau, từ đó đưa ra các
chiến lược phù hợp.
Ý nghĩa của phân tích dữ liệu:
 Đưa ra quyết định chính xác: Phân tích dữ liệu cung cấp thông tin chi tiết và chính
xác, giúp quản lý và người đưa quyết định có cơ sở để đưa ra các quyết định chính xác
và có hiệu suất cao.
 Hiểu rõ khách hàng và thị trường: Phân tích dữ liệu từ khách hàng và thị trường
giúp doanh nghiệp hiểu rõ hơn về nhu cầu và mong muốn của đối tượng tiêu dùng, từ
đó tối ưu hóa sản phẩm và dịch vụ.
 Tối ưu hóa quy trình: Phân tích dữ liệu là công cụ quan trọng trong việc tối ưu hóa
quy trình làm việc. Bằng cách này, tổ chức có thể giảm chi phí và tăng cường hiệu
suất.
 Dự báo và phòng ngừa rủi ro: Phân tích dữ liệu giúp dự báo các rủi ro có thể phát
sinh và đưa ra các biện pháp phòng ngừa. Điều này giúp giảm thiểu tác động tiêu cực
đối với tổ chức.
 Xây dựng chiến lược kinh doanh: Hiểu rõ thông tin từ phân tích dữ liệu giúp xây
dựng chiến lược kinh doanh linh hoạt, đáp ứng nhanh chóng với sự thay đổi trong môi
trường kinh doanh.
Phân tích dữ liệu không chỉ là công cụ mạnh mẽ mà còn là một quá trình cần thiết
để đạt được sự hiểu biết sâu rộng về dữ liệu và từ đó tạo ra giá trị. Điều này không chỉ
giúp doanh nghiệp nắm bắt cơ hội mà còn là chìa khóa để quản lý rủi ro và đưa ra những
quyết định có tầm nhìn dài hạn.
1.2.4. Khái niệm về trí tuệ nhân tạo và học máy
a) Trí tuệ nhân tạo (AI)
Trí tuệ nhân tạo (AI) đại diện cho một lĩnh vực nghiên cứu và phát triển, trong đó
tập trung vào việc xây dựng các hệ thống máy tính có khả năng thực hiện các nhiệm vụ
đòi hỏi sự hiểu biết, quyết định và khả năng học tương tự như con người. Mục tiêu chính
của AI là phát triển các chương trình máy tính hoặc hệ thống có khả năng tự động hóa và
linh hoạt thích nghi với môi trường xung quanh chúng.
Lĩnh vực ứng dụng của trí tuệ nhân tạo:
 Xử lý ngôn ngữ tự nhiên (NLP): Trí tuệ nhân tạo đặt ra những bước đột phá trong
lĩnh vực xử lý ngôn ngữ tự nhiên. Công nghệ NLP giúp máy tính hiểu và tạo ra ngôn
ngữ tự nhiên, mở ra khả năng tương tác giữa máy tính và con người qua cách giao tiếp
ngôn ngữ.
 Thị giác máy tính: Hệ thống AI đã có khả năng đáng kể trong việc nhận diện và
hiểu hình ảnh thông qua thị giác máy tính. Từ việc nhận diện khuôn mặt cho đến phân
loại các đối tượng trong hình ảnh, AI đưa ra những độ chính xác và tốc độ xử lý ấn
tượng.
 Hệ thống tự điều khiển: Các ứng dụng như xe tự lái và robot tự hành là minh chứng
rõ ràng cho khả năng tự động và quyết định của trí tuệ nhân tạo trong thế giới thực. AI
giúp hệ thống tự điều khiển hiểu và phản ứng với môi trường xung quanh, thực hiện
các nhiệm vụ phức tạp mà trước đây đòi hỏi sự can thiệp của con người.
Những lĩnh vực trên chỉ là một phần nhỏ của ứng dụng rộng lớn của trí tuệ nhân tạo.
Sự tiến bộ trong AI không chỉ mở ra những khả năng mới mẻ mà còn định hình lại cách
chúng ta tương tác và tận dụng công nghệ trong nhiều khía cạnh của cuộc sống hàng
ngày.
Phương pháp làm việc:
 Học máy (Machine Learning): AI sử dụng học máy để cải thiện hiệu suất theo thời
gian mà không cần phải được lập trình một cách cụ thể.
 Mạng Nơ-ron nhân tạo (ANN): Là mô hình tính toán được thiết kế dựa trên cấu trúc
của não người, thường được sử dụng trong việc học máy.
Ứng dụng thực tế:
Trí tuệ nhân tạo là một lĩnh vực đa dạng và đang phát triển nhanh chóng, mang lại
nhiều ứng dụng quan trọng trong nhiều lĩnh vực khác nhau của cuộc sống và công
nghiệp.
 Y tế: AI có sự ảnh hưởng lớn trong lĩnh vực y tế, từ việc chẩn đoán tới điều trị và
quản lý bệnh tật. Hệ thống AI có thể phân tích hình ảnh y khoa, giúp nhận diện bất
thường và tìm ra các biểu hiện của bệnh lý trong các hình ảnh quét như CT hay MRI.
Điều này giúp nhanh chóng và chính xác hơn trong việc đưa ra chuẩn đoán, đặc biệt là
trong các trường hợp phức tạp.
 Tài chính và ngân hàng: Trong lĩnh vực tài chính, AI được sử dụng để dự báo xu
hướng thị trường, đánh giá rủi ro và tối ưu hóa quyết định giao dịch. Hệ thống AI có
khả năng phân tích lượng lớn dữ liệu tài chính và kinh doanh nhanh chóng, giúp nhà
đầu tư và ngân hàng đưa ra quyết định thông minh và linh hoạt.
 Giao thông và vận tải: Trong lĩnh vực giao thông, hệ thống AI được tích hợp vào ô
tô tự lái và hệ thống quản lý giao thông để tối ưu hóa luồng thông tin, giảm ùn tắc và
nâng cao an toàn giao thông. AI cũng hỗ trợ trong quá trình lập kế hoạch tuyến đường
và dự báo nhu cầu vận tải.
 Bán lẻ và dịch vụ khách hàng: Trong ngành bán lẻ, AI được sử dụng để tối ưu hóa
trải nghiệm mua sắm trực tuyến, dự đoán xu hướng mua hàng, và tư vấn sản phẩm
dựa trên lịch sử mua sắm của người dùng. Các trợ lý ảo và chatbot dựa trên AI cung
cấp dịch vụ khách hàng tự động và nhanh chóng.
 Sản xuất và quản lý chuỗi cung ứng: Trong lĩnh vực sản xuất, AI có thể tối ưu hóa
quy trình sản xuất, dự báo nhu cầu nguyên liệu, và theo dõi chất lượng sản phẩm.
Trong quản lý chuỗi cung ứng, AI giúp tối ưu hóa lịch trình vận chuyển, dự báo tồn
kho, và giảm thiểu rủi ro trong chuỗi cung ứng.
 Giáo dục: Trong giáo dục, AI có thể cá nhân hóa quá trình học tập, cung cấp giáo
trình tương tác và phản hồi tức thì. Hệ thống AI cũng giúp đánh giá năng lực học sinh
và đề xuất kế hoạch học tập phù hợp.
 An ninh và quốc phòng: AI được sử dụng trong các ứng dụng an ninh để phân tích
dữ liệu từ camera giám sát, nhận diện khuôn mặt và nhận dạng hành vi đáng ngờ.
Trong lĩnh vực quốc phòng, AI cung cấp khả năng tự động hóa các hệ thống quân sự
và dự đoán chiến lược quân sự.
Trí tuệ nhân tạo và học máy không chỉ đánh dấu một bước đột phá trong công nghệ
mà còn tạo nên sự thay đổi to lớn trong cách chúng ta tương tác với công nghệ và thông
tin. Cả hai đều có vai trò quan trọng trong việc giải quyết các thách thức phức tạp và
mang lại nhiều cơ hội mới cho sự phát triển của xã hội.
Thách thức và cơ hội của trí tuệ nhân tạo:
Trong bối cảnh sự tiến bộ nhanh chóng của trí tuệ nhân tạo (AI), xuất hiện nhiều
thách thức và cơ hội quan trọng, tác động đến định hình của chúng ta với công nghệ.
 Thách thức an sinh và đạo đức: Một trong những thách thức lớn nhất mà AI đối mặt
là vấn đề về an sinh và đạo đức. Sự tự động hóa trong nhiều lĩnh vực, từ sản xuất đến
dịch vụ, có thể dẫn đến mất việc làm và tăng cường khoảng cách xã hội. Đồng thời,
quyết định của AI cũng đặt ra những thách thức về tính minh bạch và trách nhiệm. Cần
phải xây dựng hệ thống giáo dục và luật lệ linh hoạt để đảm bảo rằng sự phát triển của
AI không làm tổn thương quyền lợi và giá trị cơ bản của con người.
 Tạo ra cơ hội mới: Tuy nhiên, mặc dù mang theo những thách thức, trí tuệ nhân tạo
cũng mở ra những cơ hội không ngờ. Trong lĩnh vực y tế, AI giúp tăng cường khả
năng chẩn đoán và dự báo bệnh tật, giảm thời gian và chi phí điều trị. Trong sản xuất,
các hệ thống tự động hóa giúp tăng cường hiệu suất và chất lượng sản phẩm. Các cơ
hội này không chỉ cải thiện cuộc sống hàng ngày mà còn tạo ra môi trường làm việc
sáng tạo và hiệu quả.
 Tầm nhìn tương lai: Để khắc phục thách thức và tận dụng cơ hội, cần sự hợp tác
chặt chẽ giữa các nhóm nghiên cứu, doanh nghiệp, và chính phủ. Việc đào tạo nguồn
nhân lực cho AI, đồng thời xây dựng môi trường pháp lý và đạo đức là quan trọng để
định hình tương lai của công nghệ này. Đồng thời, cần thiết lập các cơ quan quốc tế để
đảm bảo rằng sự phát triển của trí tuệ nhân tạo được thực hiện một cách công bằng và
bền vững, đồng thời đảm bảo an sinh xã hội và đạo đức không bị tổn thương trong quá
trình tiến hóa công nghệ.
b) Học Máy (Machine Learning - ML)
Học máy là một nhánh của trí tuệ nhân tạo (AI) tập trung vào việc phát triển các
thuật toán và mô hình máy tính có khả năng tự học từ dữ liệu và cải thiện hiệu suất mà
không cần sự can thiệp trực tiếp từ con người. Điều này tạo ra khả năng cho máy tính để
tự động hóa quá trình học từ kinh nghiệm, phản hồi.
Cơ sở lý thuyết: Học máy dựa trên một loạt các phương pháp thống kê, toán học, và
lý thuyết đồ thị. Mô hình học máy được xây dựng để nhận diện các mô hình và quy luật
ẩn sau dữ liệu. Các thuật toán trong học máy có thể chia thành nhiều loại, bao gồm học
giám sát (supervised learning), học không giám sát (unsupervised learning), và học tăng
cường (reinforcement learning).
 Học giám sát: Trong học giám sát, mô hình được đào tạo thông qua việc cung cấp
một tập dữ liệu đào tạo chứa các cặp đầu vào và đầu ra mong muốn. Mục tiêu là làm
cho mô hình có khả năng dự đoán đầu ra chính xác khi đối mặt với dữ liệu mới.
 Học không giám sát: Ngược lại, trong học không giám sát, mô hình phải tự học từ
dữ liệu mà không có đầu ra mong muốn được cung cấp. Mục tiêu là khám phá cấu trúc
ẩn trong dữ liệu, thường thông qua các kỹ thuật như phân cụm (clustering) hoặc giảm
chiều dữ liệu (dimensionality reduction).
 Học tăng cường: Học tăng cường liên quan đến việc mô hình tương tác với một môi
trường động và tự cải thiện thông qua thời gian thông qua các hành động và phần
thưởng hoặc hình phạt nhận được từ môi trường.
Ứng dụng cụ thể: Học máy đã trở thành một công cụ quan trọng trong nhiều lĩnh
vực. Trong y tế, nó có thể giúp dự đoán bệnh lý và hỗ trợ quyết định lâm sàng. Trong tài
chính, học máy được sử dụng để dự đoán xu hướng thị trường và quản lý rủi ro. Trong
công nghiệp, nó có thể tối ưu hóa quy trình sản xuất và dự đoán lỗi. Những ứng dụng này
chỉ là một phần nhỏ của tiềm năng đa dạng mà học máy mang lại cho cộng đồng khoa
học và doanh nghiệp.

1.3. QUY TRÌNH TRONG KHOA HỌC DỮ LIỆU

Khoa học dữ liệu đại diện cho một chuỗi các hoạt động chuyển đổi dữ liệu thô
thành thông tin và tri thức có ích, tạo nên một quy trình có cấu trúc và có mục tiêu. Các
bước chi tiết trong quá trình này không chỉ đơn giản là các công đoạn kỹ thuật, mà còn là
những khám phá sâu sắc và đóng góp quan trọng cho sự hiểu biết về dữ liệu.
Bước 1. Xác định mục tiêu nghiên cứu
Quá trình bắt đầu với việc đặt ra câu hỏi cụ thể mà chúng ta muốn trả lời thông qua
dữ liệu. Mục tiêu này có thể là dự đoán xu hướng, hiểu rõ sự tương tác giữa các yếu tố,
hoặc thậm chí là tạo ra mô hình dự đoán.
Bước 2. Thu thập dữ liệu và xử lý
Sau khi mục tiêu được định rõ, bước tiếp theo là thu thập dữ liệu. Điều này bao gồm
việc chọn lựa nguồn dữ liệu phù hợp và xây dựng quy trình thu thập. Dữ liệu thường
không hoàn hảo, vì vậy cần tiến hành xử lý dữ liệu để loại bỏ nhiễu và đảm bảo tính
chính xác.
Bước 3. Khám phá và phân tích dữ liệu
Bước này đòi hỏi sự sáng tạo và tò mò. Chúng ta sẽ thực hiện các phân tích thống
kê và trực quan hóa dữ liệu để hiểu rõ hơn về tính chất và mối quan hệ trong dữ liệu. Các
biểu đồ và đồ thị thường được sử dụng để hỗ trợ quá trình này.
Bước 4. Xây dựng mô hình và đánh giá
Dựa trên kiến thức từ bước trước, chúng ta có thể xây dựng các mô hình dự đoán
hoặc phân loại. Quá trình này liên quan đến việc lựa chọn và đào tạo mô hình, sau đó
đánh giá chúng để đảm bảo tính chính xác và khả năng áp dụng.
Bước 5. Trình bày kết quả và tương tác với dữ liệu
Bước cuối cùng, chúng ta cần trình bày kết quả một cách rõ ràng và trực quan. Báo
cáo và trình diễn giúp các bên liên quan hiểu rõ thông tin và quyết định dựa trên sự hiểu
biết từ dữ liệu. Đồng thời, cần tạo cơ hội cho sự tương tác để nhận phản hồi và cải thiện.
Quá trình này không phải là tuyến tính và thường xuyên yêu cầu việc quay lại các
bước trước để điều chỉnh phương pháp hoặc thêm dữ liệu mới. Khoa học Dữ liệu là một
cuộc phiêu lưu động và sáng tạo, nơi mỗi bước mang lại hiểu biết mới và giá trị cho tổ
chức.
1.3.1. Xác định mục tiêu nghiên cứu
Quá trình xác định mục tiêu nghiên cứu là bước quan trọng nhất trong hành trình
của khoa học dữ liệu. Điều này không chỉ định hình toàn bộ nghiên cứu mà còn tạo ra
hướng dẫn cho việc thu thập và xử lý dữ liệu.
a) Xác định câu hỏi nghiên cứu
Mỗi dự án khoa học dữ liệu bắt đầu với một câu hỏi hoặc vấn đề cụ thể mà người
nghiên cứu muốn giải quyết. Điều này có thể là dự đoán xu hướng tương lai, hiểu rõ mối
quan hệ giữa các biến, hoặc tạo ra một mô hình dự đoán. Để xác định câu hỏi nghiên cứu,
người nghiên cứu cần hiểu rõ ngữ cảnh của vấn đề và mục tiêu cuối cùng mà họ muốn
đạt được.
Ví dụ 1.3.1: Giả sử bạn là một nhà nghiên cứu dữ liệu làm việc cho một công ty bán
lẻ và bạn đang đối mặt với vấn đề về giữ chân khách hàng. Để xác định câu hỏi nghiên
cứu, bạn cần dựa vào ngữ cảnh và mục tiêu của tổ chức:
Ngữ cảnh:
 Công ty đang gặp khó khăn với việc giữ chân khách hàng.
 Chỉ số tỷ lệ khách hàng rời bỏ tăng cao.
 Cần tìm hiểu nguyên nhân và tìm cách cải thiện mức giữ chân.
Mục tiêu:
 Giảm tỷ lệ khách hàng rời bỏ để tăng lợi nhuận và duy trì sự ổn định trong kinh
doanh.
Câu hỏi nghiên cứu:
 "Làm thế nào các yếu tố tác động đến quyết định rời bỏ của khách hàng?". Với câu
hỏi này cần tìm hiểu về các biến như chất lượng dịch vụ, giá cả, và trải nghiệm khách
hàng.
 "Có mối quan hệ nào giữa tần suất tương tác của khách hàng và khả năng giữ
chân?". Cần kiểm tra liệu việc tương tác thường xuyên có thể giữ chân khách hàng hơn
không.
 "Làm thế nào thông tin phản hồi từ khách hàng có thể được sử dụng để cải thiện
chất lượng dịch vụ?". Với câu hỏi này cần phân tích ý kiến khách hàng để xác định
điểm mạnh và điểm yếu của dịch vụ.
 "Các chiến lược giảm tỷ lệ khách hàng rời bỏ đã từng thành công ở các doanh
nghiệp khác có thể áp dụng vào ngữ cảnh của chúng ta không?". Cần nghiên cứu các
trường hợp thành công để tìm ra chiến lược phù hợp.
Những câu hỏi này giúp hình thành một cơ sở nghiên cứu để giải quyết vấn đề giữ
chân khách hàng. Bằng cách này, mỗi câu hỏi nghiên cứu đều có mục tiêu cụ thể và liên
quan chặt chẽ đến vấn đề nguyên tắc mà tổ chức đang đối mặt.
b) Kết hợp mục tiêu với nguyên tắc SMART
Mục tiêu nghiên cứu cần được xây dựng theo nguyên tắc SMART - Cụ thể
(Specific), Đo lường được (Measurable), Đạt được (Achievable), Phù hợp (Relevant), và
có hạn (Time-bound). Điều này đảm bảo rằng mục tiêu không chỉ là rõ ràng mà còn có
thể đo lường và đạt được trong bối cảnh và thời gian nhất định.
Ví dụ mục tiêu tăng doanh số bán hàng của sản phẩm X trong nửa cuối năm nay kết
hợp với nguyên tắc SMART được thể hiện cụ thể:
 Specific (Cụ thể): Tăng doanh số bán hàng cho sản phẩm X.
 Measurable (Đo lường được): Tăng doanh số bán hàng từ 1000 sản phẩm/tháng lên
1500 sản phẩm/tháng.
 Achievable (Khả thi): Tăng 50% doanh số bán hàng có vẻ là một mục tiêu khả thi
với chiến lược tiếp thị và quảng cáo hiện tại.
 Relevant (Liên quan): Tăng doanh số bán hàng của sản phẩm X liên quan trực tiếp
đến mục tiêu tổng cảng của công ty về tăng cường doanh số bán hàng.
 Time-bound (Có thời hạn): Tăng doanh số bán hàng từ tháng 7 đến tháng 12 năm
nay.
Kết hợp những yếu tố trên, mục tiêu trở thành: "Tăng doanh số bán hàng của sản
phẩm X từ 1000 sản phẩm/tháng lên 1500 sản phẩm/tháng trong nửa cuối năm nay để đạt
được mục tiêu tăng cường doanh số bán hàng của công ty."
c) Xác định biến quan trọng
Sau khi có câu hỏi nghiên cứu, quá trình tiếp theo là xác định các biến quan trọng
có liên quan đến mục tiêu. Các biến này có thể là những yếu tố ảnh hưởng đến kết quả
của nghiên cứu. Việc xác định chính xác các biến này là quan trọng để định hình quy
trình thu thập dữ liệu và phân tích sau này.
Ví dụ mục tiêu nghiên cứu: Hiểu rõ tác động của các yếu tố tiếp xúc quảng cáo trực
tuyến đối với quyết định mua hàng trực tuyến. Trong mục tiêu này biến quan trọng:
 Số lần hiển thị quảng cáo: Xác định liệu việc tăng số lần hiển thị quảng cáo có tác
động tích cực đến việc mua hàng không.
 Thời lượng hiển thị quảng cáo: Kiểm tra xem thời gian mỗi quảng cáo hiển thị có
liên quan đến quyết định mua không.
 Nội dung quảng cáo: Phân tích ảnh hưởng của nội dung quảng cáo, bao gồm chất
lượng hình ảnh và thông điệp, đối với hành vi mua hàng.
 Ưu đãi hoặc khuyến mãi: Đánh giá tác động của các ưu đãi hoặc khuyến mãi đặc
biệt đến quyết định mua.
Việc xác định các biến này sẽ hỗ trợ quá trình thiết lập chiến lược thu thập dữ liệu,
bao gồm việc chọn các phương pháp như khảo sát trực tuyến, theo dõi hành vi trực tuyến,
và phân tích nội dung quảng cáo để thu thập dữ liệu liên quan đến mỗi biến. Qua đó,
nghiên cứu sẽ có khả năng giải đáp một cách chi tiết và cụ thể về tác động của các yếu tố
này đối với hành vi mua hàng trực tuyến.
d) Hiểu rõ ngữ cảnh và ứng dụng
Cuối cùng, mục tiêu nghiên cứu cần phản ánh sự hiểu biết vững về ngữ cảnh và môi
trường ứng dụng. Mục tiêu chỉ có ý nghĩa khi nó liên quan chặt chẽ đến vấn đề cụ thể cần
giải quyết và mang lại giá trị cho tổ chức hoặc cộng đồng sử dụng.
Ví dụ mục tiêu nghiên cứu: Tìm hiểu ảnh hưởng của chính sách giảm giờ làm việc
đối với sự hài lòng và hiệu suất của nhân viên trong môi trường làm việc ở các công ty
công nghệ. Khi đó ta cần hiểu rõ ngữ cảnh như sau
 Ngữ cảnh về lao động công nghệ: Nghiên cứu sẽ cần hiểu rõ về bối cảnh công nghệ,
nơi làm việc có tính linh hoạt cao, thường xuyên sử dụng công nghệ thông tin, và có
những yếu tố đặc biệt trong việc quản lý thời gian.
 Ngữ cảnh về sự hài lòng và hiệu suất: Tìm hiểu về cách mà sự hài lòng của nhân
viên và hiệu suất làm việc được định nghĩa và đánh giá trong môi trường công nghệ.
Các yếu tố như sự đánh giá công bằng, cơ hội phát triển, và tương tác với đồng nghiệp
có thể quan trọng.
Ứng dụng cụ thể:
 Đề xuất chính sách cụ thể: Nghiên cứu có thể đưa ra đề xuất về chính sách giảm giờ
làm việc cụ thể dựa trên thông tin thu thập được. Ví dụ, có thể là việc thiết lập một hệ
thống làm việc linh hoạt, hoặc cung cấp các hoạt động giải trí như thể dục trưa.
 Gợi ý biện pháp cải thiện: Dựa trên đánh giá sự hài lòng và hiệu suất, nghiên cứu có
thể đề xuất các biện pháp cải thiện cụ thể như chương trình đào tạo, phản hồi xây
dựng, hoặc các chính sách khuyến khích làm việc nhóm.
Thông qua việc hiểu rõ ngữ cảnh và áp dụng nghiên cứu vào môi trường thực tế,
mục tiêu nghiên cứu có thể đảm bảo rằng kết quả mang lại giá trị thực tế và có thể được
triển khai trong các tổ chức làm việc thực tế
Xác định mục tiêu nghiên cứu là một quá trình tinh tế, yêu cầu sự tỉ mỉ và hiểu biết
sâu sắc về lĩnh vực nghiên cứu. Chính mục tiêu này sẽ là nguồn động viên và hướng dẫn
cho toàn bộ quá trình khoa học dữ liệu, từ thu thập dữ liệu đến phân tích và đánh giá kết
quả.
1.3.2. Thu thập dữ liệu và xử lý
Sau khi xác định mục tiêu nghiên cứu, bước tiếp theo là lựa chọn phương pháp thu
thập dữ liệu và thực hiện các bước tiền xử lý để chuẩn bị dữ liệu cho quá trình phân tích.
Việc này đòi hỏi sự cân nhắc kỹ lưỡng để đảm bảo dữ liệu thu được đủ chất lượng và đáp
ứng yêu cầu của mục tiêu nghiên cứu.
a) Lựa chọn phương thức thu thập dữ liệu
Quyết định về phương thức thu thập dữ liệu là quan trọng vì nó ảnh hưởng lớn đến
chất lượng và tính đại diện của dữ liệu. Ví dụ, trong một nghiên cứu về hành vi mua sắm
trực tuyến, bạn có thể sử dụng phương pháp khảo sát trực tuyến để thu thập ý kiến của
người tiêu dùng. Còn trong nghiên cứu y tế, việc sử dụng phương thức thu thập dữ liệu từ
các hồ sơ bệnh án điện tử có thể là lựa chọn phù hợp.
Ví dụ 1.3.2: Nếu nghiên cứu về ý kiến của khách hàng về sản phẩm mới, bạn có thể
sử dụng khảo sát trực tuyến và nhận xét từ các trang web xã hội để thu thập dữ liệu.
Quyết định này phải dựa trên đối tượng nghiên cứu, mục tiêu nghiên cứu, và tài nguyên
có sẵn.
b) Tiền xử lý dữ liệu
Sau khi thu thập dữ liệu, bước quan trọng tiếp theo là tiền xử lý, nơi mà dữ liệu
được làm sạch và chuẩn bị cho phân tích. Điều này bao gồm việc kiểm tra và xử lý các
giá trị thiếu, kiểm tra tính nhất quán và tính đúng đắn của dữ liệu, và chuyển đổi dữ liệu
thành định dạng phù hợp.
Ví dụ 1.3.3: Trong trường hợp dữ liệu khảo sát, bạn có thể phải xử lý các câu trả lời
trống hoặc không hợp lý từ phản hồi của người tham gia khảo sát. Các bước tiền xử lý
cũng có thể bao gồm việc chuẩn hóa đơn vị đo lường, chuyển đổi ngày tháng thành định
dạng chung, và loại bỏ dữ liệu nhiễu.
Bước này đảm bảo dữ liệu sẽ đáp ứng chất lượng và độ tin cậy cần thiết để tiếp tục
vào các bước phân tích và tạo ra thông tin giá trị từ nghiên cứu.
1.3.3. Khám phá và phân tích dữ liệu
Sau khi dữ liệu đã được thu thập và tiền xử lý, quá trình khám phá và phân tích dữ
liệu trở thành bước quan trọng để hiểu sâu hơn về thông tin ẩn sau các số liệu và xu
hướng. Bước này giúp nghiên cứu giảm thiểu các hiểu lầm và đưa ra kết luận chặt chẽ,
tạo nên cơ sở cho việc xây dựng mô hình và đưa ra quyết định.
a)Thăm dò dữ liệu
Thăm dò dữ liệu (data exploration) là quá trình khám phá và hiểu rõ dữ liệu trước
khi thực hiện các phân tích chi tiết hoặc xây dựng mô hình. Mục tiêu của quá trình này là
tìm hiểu về cấu trúc, tính chất và thông tin ẩn sau dữ liệu. Thăm dò dữ liệu giúp định hình
một cái nhìn tổng quan về dữ liệu và cung cấp cơ sở để đưa ra quyết định về cách tiếp cận
phân tích hoặc xử lý dữ liệu.
Ví dụ 1.3.4: Trong nghiên cứu về hiệu suất học tập của sinh viên, thăm dò dữ liệu
có thể bao gồm việc vẽ biểu đồ phân phối điểm, kiểm tra mối quan hệ giữa thời gian học
và kết quả, hoặc phân loại sinh viên theo các yếu tố như giới tính, chương trình học, v.v.
b) Phân tích thống kê
Phân tích thống kê đưa ra cái nhìn tổng quan về dữ liệu, chú trọng vào sự biến động
và mối quan hệ giữa các biến. Phương pháp này giúp xác định tính ý nghĩa thống kê của
các phát hiện và giả định. Ví dụ, nếu bạn muốn biết xem có sự khác biệt về hiệu suất làm
việc giữa hai nhóm nhân viên, phân tích thống kê như kiểm định t-test có thể được áp
dụng.
Ví dụ 1.3.5: Trong nghiên cứu về hiệu quả của chiến lược quảng cáo trực tuyến,
phân tích thống kê có thể sử dụng để so sánh tỷ lệ chuyển đổi giữa các biến động, xác
định sự tương quan giữa ngân sách quảng cáo và doanh số bán hàng.
Qua quá trình này, nhà nghiên cứu sẽ xây dựng cơ sở dữ liệu kiến thức đặc sắc và
chuẩn bị cho bước tiếp theo là xây dựng mô hình và đánh giá. Điều này đảm bảo rằng
nghiên cứu không chỉ là một bộ số liệu mà còn là nguồn thông tin phong phú về hiểu biết
đối tượng nghiên cứu.
1.3.4. Xây dựng mô hình và đánh giá
Bước xây dựng mô hình và đánh giá nó để trả lời câu hỏi nghiên cứu một cách đáng
tin cậy và hiệu quả.
a) Lựa chọn mô hình:
Quá trình này bắt đầu bằng việc chọn lựa mô hình phù hợp với mục tiêu của nghiên
cứu. Việc này đòi hỏi sự hiểu biết vững về đặc điểm và yêu cầu của dữ liệu, cũng như
mục tiêu cụ thể của nghiên cứu. Mỗi mô hình (ví dụ: hồi quy tuyến tính, học máy, mạng
nơ-ron) sẽ phù hợp với các loại dữ liệu và mục tiêu khác nhau.
Ví dụ 1.3.6: Dự đoán doanh số bán hàng:
 Mục tiêu nghiên cứu: Dự đoán doanh số bán hàng trong tương lai dựa trên các biến
như quảng cáo trực tuyến, giảm giá, và dữ liệu lịch sử bán hàng.
 Mô hình phù hợp: Hồi quy tuyến tính có thể là lựa chọn tốt, vì nó có thể mô phỏng
mối quan hệ tuyến tính giữa các biến và doanh số bán hàng.
Ví dụ 1.3.7: Hệ thống dự báo trạng thái giao thông:
 Mục tiêu nghiên cứu: Dự đoán trạng thái giao thông trên các tuyến đường cụ thể
dựa trên dữ liệu từ cảm biến và cameras trên đường.
 Mô hình phù hợp: Mạng nơ-ron, học sâu (deep learning) có thể được ứng dụng để
xử lý dữ liệu phức tạp từ nhiều nguồn, nhận biết mẫu và dự đoán trạng thái giao thông.
Ví dụ 1.3.8: Dự đoán chất lượng nước:
 Mục tiêu nghiên cứu: Dự đoán chất lượng nước dựa trên các tham số như mức độ ô
nhiễm, nhiệt độ, và mức độ oxy hóa.
 Mô hình phù hợp: Mô hình học máy SVM (Support Vector Machine) có thể được
sử dụng để phân loại chất lượng nước thành các nhóm khác nhau dựa trên các đặc
điểm của nước.
Ví dụ 1.3.9: Dự đoán tình trạng sức khỏe:
 Mục tiêu nghiên cứu: Dự đoán tình trạng sức khỏe của bệnh nhân dựa trên lịch sử
bệnh lý, kết quả xét nghiệm, và các yếu tố sinh học.
 Mô hình phù hợp: Mô hình học máy như Random Forest có thể được sử dụng để
xác định các mối quan hệ phức tạp giữa các biến và dự đoán tình trạng sức khỏe.
Những ví dụ trên minh họa rằng quá trình chọn mô hình là một phần quan trọng của
Khoa học dữ liệu, và sự lựa chọn đúng mô hình có thể dựa trên sự hiểu biết sâu sắc về dữ
liệu và mục tiêu nghiên cứu cụ thể.
b) Huấn luyện và tinh chỉnh mô hình
Sau khi chọn mô hình là quá trình huấn luyện và tinh chỉnh. Điều này liên quan đến
việc sử dụng một tập dữ liệu đào tạo để "dạy" mô hình và điều chỉnh các tham số để tối
ưu hóa hiệu suất. Quá trình này đòi hỏi sự kiên nhẫn và hiểu biết về cách các tham số ảnh
hưởng đến mô hình.
Ví dụ trong một mô hình máy học dự đoán giá cổ phiếu, quá trình tinh chỉnh có thể
bao gồm việc điều chỉnh các siêu tham số như learning rate trong một thuật toán Gradient
Boosting để đạt được hiệu suất tốt nhất.
c) Đánh giá mô hình
Sau khi mô hình đã được huấn luyện, nó cần được đánh giá để đảm bảo rằng nó có
khả năng tổng quát hóa đối với dữ liệu mới và không chỉ là "nhớ" dữ liệu đào tạo. Đánh
giá hiệu suất của mô hình đòi hỏi sử dụng một tập dữ liệu kiểm thử độc lập.
Ví dụ trong trường hợp dự đoán chất lượng sản phẩm dựa trên các yếu tố như nhiệt
độ và độ ẩm, mô hình cần được kiểm tra trên dữ liệu mà nó chưa bao giờ gặp để đảm bảo
khả năng dự đoán chính xác.
Như vậy, quá trình xây dựng mô hình và đánh giá không chỉ là một bước cuối cùng
mà còn là quá trình liên tục. Nghiên cứu cần liên tục cải tiến và đánh giá lại mô hình khi
có thêm dữ liệu để đảm bảo rằng nó vẫn duy trì hiệu suất tốt nhất cho mục tiêu nghiên
cứu.
1.3.5. Trình bày kết quả và tương tác với dữ liệu
a) Trình bày kết quả
Sau khi hoàn thành phần quan trọng của quá trình Khoa học dữ liệu, bước tiếp theo
là trình bày kết quả một cách rõ ràng và chi tiết. Điều này đòi hỏi không chỉ hiểu biết về
dữ liệu và phương pháp, mà còn khả năng diễn đạt kết quả một cách dễ hiểu cho những
người không chuyên gia trong lĩnh vực.
Ví dụ đối với mô hình dự đoán doanh số bán hàng, báo cáo có thể bao gồm các biểu
đồ trực quan về dự đoán so với thực tế, các yếu tố ảnh hưởng lớn đến doanh số, và giải
thích về sự chính xác của mô hình.
b) Giao diện tương tác
Giao diện tương tác là cách tốt để chia sẻ kết quả với người dùng cuối một cách trực
quan và dễ tiếp cận. Các biểu đồ tương tác, bảng điều khiển, hoặc ứng dụng web có thể
giúp họ thăm dò dữ liệu và hiểu rõ hơn về các khía cạnh cụ thể của kết quả.
Ví dụ trong dự án dự đoán trạng thái giao thông, giao diện tương tác có thể cung
cấp bản đồ thời gian thực với các khu vực có giao thông đông đúc, thời gian dự kiến để
đến nơi, và lời khuyên về lựa chọn tuyến đường.
c) Học từ quá trình
Cuối cùng, quá trình Khoa học dữ liệu không chỉ kết thúc khi có kết quả, mà còn
bao gồm việc học từ trải nghiệm. Điều này bao gồm đánh giá và tổng kết những điều đã
học được từ dự án, bao gồm cả những điểm mạnh và điểm yếu của mô hình và quy trình.
Ví dụ một đánh giá có thể chỉ ra rằng mô hình dự đoán doanh số bán hàng hiệu quả
trong điều kiện xác định, nhưng có thể cần được tinh chỉnh khi có thay đổi lớn trong
chiến lược quảng cáo.
Thông qua việc trình bày kết quả, phát triển giao diện tương tác và học từ quá trình,
quá trình Khoa học dữ liệu trở nên có ý nghĩa và hiệu quả, tạo ra giá trị thực sự từ dữ
liệu.

1.4. CÔNG CỤ VÀ NGÔN NGỮ LẬP TRÌNH CHO KHOA HỌC DỮ LIỆU

1.4.1. Các công cụ được sử dụng phổ biến


Trong lĩnh vực Khoa học dữ liệu, sự chọn lựa giữa các ngôn ngữ lập trình là một
quyết định quan trọng, đặc biệt là khi đối mặt với sự đa dạng của dữ liệu và mục tiêu
nghiên cứu. Dưới đây là mô tả về sự đa dạng và sự lựa chọn giữa các ngôn ngữ lập trình
hàng đầu như Python, R, và SQL, mà không lặp lại các khái niệm đã được thảo luận ở
mục 1.2.1.
Python: Python là một trong những ngôn ngữ lập trình phổ biến nhất trong Khoa
Học Dữ Liệu. Với cộng đồng lớn và sự hỗ trợ mạnh mẽ từ các thư viện như Pandas,
NumPy và Scikit-Learn, Python cung cấp một môi trường mạnh mẽ cho việc xử lý và
phân tích dữ liệu. Sự linh hoạt của Python cũng làm cho nó trở thành một lựa chọn phổ
biến cho việc triển khai mô hình dự đoán và xây dựng ứng dụng.
R: Đặc biệt được phát triển cho phân tích thống kê và đồ họa, R là một ngôn ngữ
mạnh mẽ cho những người nghiên cứu muốn thực hiện các phân tích thống kê phức tạp
và tạo ra biểu đồ chất lượng cao. R cung cấp một loạt các gói mở rộng (packages) chuyên
sâu cho các lĩnh vực cụ thể của nghiên cứu, giúp tối ưu hóa quá trình phân tích.
SQL: SQL (Structured Query Language) là một ngôn ngữ quản lý cơ sở dữ liệu
được sử dụng rộng rãi trong việc truy vấn, cập nhật và quản lý dữ liệu trong cơ sở dữ
liệu. Trong Khoa Học Dữ Liệu, SQL đóng vai trò quan trọng khi phải làm việc với dữ
liệu lưu trữ trên các hệ quản lý cơ sở dữ liệu như MySQL, PostgreSQL, hoặc SQLite.
Lựa chọn giữa Python, R và SQL thường phụ thuộc vào mục tiêu cụ thể của dự án
và kỹ năng của người nghiên cứu. Python thường được ưa chuộng trong các tác vụ linh
hoạt và triển khai, trong khi R thường được chọn để phân tích thống kê sâu sắc. SQL là
một lựa chọn quan trọng khi làm việc với cơ sở dữ liệu quan hệ. Sự lựa chọn thông minh
giữa các ngôn ngữ này đóng vai trò quan trọng trong việc thành công của dự án Khoa học
dữ liệu.
1.4.2. Thư viện và Framework hỗ trợ
Trong Khoa học dữ liệu, việc sử dụng các thư viện và framework đóng vai trò quan
trọng trong việc tối ưu hóa quy trình làm việc và nâng cao hiệu suất của các dự án. Dưới
đây là mô tả chi tiết về các thư viện và framework quan trọng, mà không lặp lại các khái
niệm đã được thảo luận ở mục 1.2.3 và 1.3.4.
a) Thư viện
Pandas: Là một thư viện Python mạnh mẽ cho xử lý và phân tích dữ liệu. Pandas
cung cấp các cấu trúc dữ liệu linh hoạt như DataFrame, giúp thuận tiện cho việc thực
hiện các thao tác xử lý dữ liệu.
NumPy: Được sử dụng cho tính toán khoa học, NumPy giúp xử lý các mảng và ma
trận, làm tăng tốc độ thực hiện các phép toán số học và thống kê.
Matplotlib và Seaborn: Đây là thư viện tạo đồ thị và biểu đồ. Matplotlib thích hợp
cho việc tạo đồ thị cơ bản, trong khi Seaborn tối ưu hóa việc vẽ đồ thị thống kê phức tạp.
b) Framework
TensorFlow và PyTorch: Là hai framework mạnh mẽ trong lĩnh vực học máy và
trí tuệ nhân tạo. Chúng cung cấp công cụ để xây dựng, đào tạo và triển khai mô hình máy
học với hiệu suất cao.
Scikit-Learn: Là một framework chuyên sâu trong học máy, Scikit-Learn cung cấp
một loạt các thuật toán học máy cơ bản và công cụ tiện ích cho việc tiền xử lý dữ liệu và
đánh giá mô hình.
Flask và Django: Đối với việc triển khai mô hình và xây dựng ứng dụng web,
Flask và Django là hai framework phổ biến. Flask là một framework nhẹ, trong khi
Django cung cấp một hệ thống hoàn chỉnh cho phát triển web.
Sự kết hợp thông minh giữa các thư viện và framework này tùy thuộc vào nhu cầu
cụ thể của dự án. Việc lựa chọn đúng có thể giúp nâng cao hiệu suất và hiệu quả của quá
trình phân tích và triển khai trong Khoa học dữ liệu.
1.4.3. Công cụ và môi trường tích hợp
Trong quá trình Khoa học dữ liệu, sự tích hợp giữa các công cụ và môi trường là
chìa khóa quan trọng để tối ưu hóa quy trình làm việc và tăng cường khả năng tương tác
giữa các phần khác nhau của dự án. Dưới đây là mô tả chi tiết về các công cụ và môi
trường tích hợp, mà không lặp lại các khái niệm đã được thảo luận ở mục 1.2.2 và 1.2.3.
a) Công cụ tích hợp
Apache Airflow: Là một công cụ quản lý lịch trình và tự động hóa công việc.
Airflow giúp tích hợp các bước công việc khác nhau trong chuỗi làm việc của Khoa học
dữ liệu, từ thu thập dữ liệu đến xử lý và phân tích.
Knime: Đây là một công cụ mở rộng cho quy trình làm việc dữ liệu. Knime cho
phép người sử dụng kết nối các nút chức năng để xây dựng quy trình làm việc phức tạp từ
đầu đến cuối.
DVC (Data Version Control): Tích hợp quản lý phiên bản dữ liệu vào quy trình
làm việc. DVC giúp theo dõi và quản lý sự thay đổi trong dữ liệu, giảm thiểu rủi ro mất
mát thông tin và xung đột dữ liệu.
b) Môi trường tích hợp
Jupyter Notebooks: Cung cấp một môi trường tích hợp cho việc viết mã, thực
hiện thăm dò dữ liệu và chia sẻ kết quả. Jupyter Notebooks là một môi trường linh hoạt
và trực quan cho các dự án Khoa học dữ liệu.
Docker: Giúp tạo ra môi trường đồng nhất giữa các giai đoạn của dự án và giảm
thiểu vấn đề liên quan đến sự không tương thích của môi trường.
Anaconda: Một bộ công cụ tích hợp cho Khoa học dữ liệu, chứa đựng nhiều thư
viện phổ biến và cung cấp quy trình làm việc nhất quán trên nhiều nền tảng.
Sự kết hợp thông minh giữa các công cụ và môi trường tích hợp này giúp tạo ra
một quy trình làm việc mượt mà và hiệu quả trong Khoa học dữ liệu. Việc lựa chọn đúng
có thể đóng một vai trò quan trọng trong việc tối ưu hóa và tăng cường quá trình làm việc
của nhóm nghiên cứu dữ liệu.
1.4.4. Các nguồn tài liệu và cộng đồng hỗ trợ trong Khoa học dữ liệu
Khoa học dữ liệu là lĩnh vực đòi hỏi sự hiểu biết vững về lý thuyết và kỹ năng thực
hành trong xử lý dữ liệu, phân tích thống kê, và máy học. Dưới đây là một số nguồn tài
liệu và cộng đồng hỗ trợ quan trọng trong lĩnh vực này:
a) Nguồn tài liệu
Coursera, edX, Udacity: Cung cấp các khóa học trực tuyến về Khoa học dữ liệu
từ các trường đại học và tổ chức nổi tiếng.
Kaggle: Một nền tảng trực tuyến nơi bạn có thể tham gia vào các cuộc thi và dự án
thực tế về khoa học dữ liệu.
GitHub: Tìm kiếm các dự án mã nguồn mở và thư viện Python (ví dụ: pandas,
numpy, scikit-learn) để học và áp dụng.
Books: Hai sách quan trọng về thống kê và học là:
 "Python for Data Analysis" của Wes McKinney là một nguồn tuyệt vời về pandas.
 "Introduction to Statistical Learning" và "Elements of Statistical Learning"
Blogs và Articles: Medium, Towards Data Science là nơi có nhiều bài viết chất
lượng về các vấn đề và tiến triển trong khoa học dữ liệu.
Online Forums:
 Stack Overflow - Nơi bạn có thể đặt câu hỏi và nhận sự giúp đỡ từ cộng đồng.
 Cross Validated - Diễn đàn về thống kê và máy học.
b) Cộng đồng hỗ trợ
Reddit: r/datascience: Một cộng đồng trực tuyến để thảo luận về các vấn đề và chia
sẻ kiến thức trong lĩnh vực khoa học dữ liệu.
LinkedIn và Twitter: Theo dõi các chuyên gia và tổ chức trong lĩnh vực khoa học
dữ liệu để cập nhật thông tin và kết nối với cộng đồng.
Meetup và Hội Thảo: Tham gia các sự kiện địa phương hoặc trực tuyến để gặp gỡ
và học hỏi từ người khác trong ngành.
Data Science Communities: Các cộng đồng như Data Science Central và
KDnuggets cung cấp tin tức, bài viết, và cơ hội học nhanh về khoa học dữ liệu.
Việc kết hợp nhiều nguồn và tham gia vào cộng đồng sẽ giúp bạn tiếp cận được góc
độ đa dạng và sâu rộng trong lĩnh vực khoa học dữ liệu.
CÂU HỎI THẢO LUẬN CHƯƠNG 1
1.1. Khoa học dữ liệu hiện đang phát triển như thế nào?
1.2. Khoa học dữ liệu có ứng dụng trong những lĩnh vực nào trong thực tế?
1.3. Dữ liệu là gì, và tại sao nó quan trọng trong khoa học dữ liệu?
1.4. Phân tích dữ liệu là gì và tại sao nó quan trọng trong quá trình làm việc với dữ liệu?
1.5. Tổng hợp dữ liệu là gì và tại sao nó quan trọng trong xử lý dữ liệu lớn?
1.6. Làm thế nào quy trình thu thập dữ liệu được xây dựng?
1.7. Quy trình tiền xử lý dữ liệu bao gồm những bước nào?
1.8. Ngôn ngữ lập trình nào thường được sử dụng trong khoa học dữ liệu?
1.9. Các công cụ thống kê nào được sử dụng để phân tích dữ liệu trong khoa học dữ liệu?

You might also like