Session 2-Data Processing

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 53

Machine Translated by Google

Buổi 2: Xử lý dữ liệu

Giảng viên: TS Lê Hoàng Sơn


Đại học Quốc gia (VNU)
lehoangson@hus.edu.vn sonlh@vnu.edu.vn
Machine Translated by Google

nội dung

1 Giới thiệu

2 Tóm tắt dữ liệu

3 Dọn dẹp dữ liệu

4 Tích hợp dữ liệu

5 Giảm dữ liệu

6 Dữ liệu rời rạc

7 Thảo luận & Bài tập

2
Machine Translated by Google

1. Giới thiệu
Cơ sở dữ liệu trong thế giới thực rất dễ bị

Không đầy đủ: thiếu các giá trị thuộc tính hoặc một số thuộc tính quan
tâm hoặc chỉ chứa dữ liệu tổng hợp Nhiễu: chứa lỗi hoặc các giá trị

ngoại lai sai lệch so với


hy vọng

Không nhất quán: chứa sự khác biệt trong dữ liệu

Dữ liệu chất lượng thấp sẽ dẫn đến kết quả khai thác chất lượng thấp

3
Machine Translated by Google

lý do …
Không đầy đủ:

Dữ liệu liên quan có thể không được ghi lại do hiểu nhầm hoặc do trục trặc thiết bị
Dữ liệu không phù hợp với dữ liệu được ghi khác có thể đã bị xóa Việc ghi lại lịch

sử hoặc sửa đổi dữ liệu có thể đã bị xóa

bỏ qua

Ồn ào:

Dụng cụ thu thập dữ liệu có thể bị lỗi. Lỗi do con người hoặc máy tính xảy ra khi nhập dữ
liệu. Lỗi trong truyền dữ liệu cũng có thể xảy ra Có thể có những hạn chế về công nghệ,

chẳng hạn như kích thước bộ đệm hạn chế Quy ước đặt tên không nhất quán, bộ dữ liệu trùng

lặp

Tính không nhất quán:

Dữ liệu từ nhiều nguồn, một số thuộc tính đại diện cho một khái niệm nhất định có thể có
tên khác nhau trong các cơ sở dữ liệu khác nhau, gây ra sự không nhất quán và dư thừa

4
Machine Translated by Google

Tổng quan về các phương pháp xử lý dữ liệu

5
Machine Translated by Google

Phương pháp xử lý dữ liệu


Tóm tắt dữ liệu mô tả: nghiên cứu
đặc điểm chung của dữ liệu và xác định sự hiện
diện của nhiễu hoặc ngoại lệ

Làm sạch dữ liệu: loại bỏ nhiễu và sửa lỗi


không nhất quán trong dữ liệu

Tích hợp dữ liệu: hợp nhất dữ liệu từ


nhiều nguồn vào một kho lưu trữ dữ liệu nhất
quán, chẳng hạn như kho dữ liệu

Biến đổi dữ liệu: chuẩn hóa dữ liệu sang một miền mới

Giảm dữ liệu: giảm kích thước dữ liệu bằng


cách tổng hợp, lựa chọn tập hợp con thuộc
tính, giảm kích thước, giảm số lượng/ biểu
diễn

Dữ liệu rời rạc: tạo tự động


của hệ thống phân cấp khái niệm từ dữ liệu số

6
Machine Translated by Google

nội dung

1 Giới thiệu

2 Tóm tắt dữ liệu

3 Dọn dẹp dữ liệu

4 Tích hợp dữ liệu

5 Giảm dữ liệu

6 Dữ liệu rời rạc

7 Thảo luận & Bài tập

7
Machine Translated by Google

2. Tóm tắt dữ liệu


Xác định các thuộc tính điển hình của dữ liệu của bạn và đánh dấu những giá trị dữ liệu nào
nên được coi là tiếng ồn hoặc ngoại lệ

Đặc điểm dữ liệu (phân phối): xu hướng tập trung và phân tán của dữ liệu
dữ

liệu Xu hướng trung tâm: trung bình, trung bình, chế độ và tầm

trung Phân tán dữ liệu: tứ phân vị, phạm vi liên tứ phân vị (IQR), phương sai

Các khái niệm về số đo phân phối, số đo đại số và số đo chỉnh thể

số 8
Machine Translated by Google

Xu hướng tập trung


Bình quân gia quyền

Trung vị: Nếu N là số lẻ thì nó là giá trị ở giữa của tập sắp thứ tự; nếu không thì
là trung bình cộng của hai giá trị giữa

Mode: giá trị xuất hiện thường xuyên nhất trong tập hợp (unimodal, bimodal,
trimodal). Đa phương thức: mean-mode = 3*(mean - median)

9
Machine Translated by Google

công thức

10
Machine Translated by Google

ví dụ 1
Tính toán Trung bình Trọng số, Trung bình và Chế độ của tập dữ liệu IRIS

11
Machine Translated by Google

Phạm vi, Quartiles, Boxplots

Phạm vi của tập hợp là sự khác biệt


giữa các giá trị lớn nhất và nhỏ
nhất

Phân vị thứ k của một tập hợp dữ


liệu theo số thứ tự là giá trị xi
có thuộc tính k phần trăm của các
mục nhập dữ liệu nằm ở hoặc thấp hơn

xi . Q2: Phân vị thứ 50 (Trung

bình) Q1: Phân vị thứ 25

Q3: Phân vị thứ 75

Khoảng tứ phân vị: IQR = Q3 - Q1


Tối đa, Tối thiểu, Ngoại lệ

12
Machine Translated by Google

ví dụ 2
Vẽ Boxplot cho tất cả các thuộc tính trong IRIS

13
Machine Translated by Google

Phương sai, Độ lệch chuẩn, Biểu đồ

Phương sai của N quan sát, x1 , x2 , …., xN là

x là giá trị trung bình của các quan sát

Độ lệch chuẩn, σ, của các quan sát là căn bậc hai của
phương sai, σ2

Biểu đồ

14
Machine Translated by Google

ví dụ 3
Tính phương sai, độ lệch chuẩn và vẽ biểu đồ của IRIS

15
Machine Translated by Google

Biểu đồ lượng tử-quantile và biểu đồ phân tán

Biểu đồ lượng tử-phân vị (biểu đồ qq) vẽ biểu đồ lượng tử của một phân phối đơn biến so

với lượng tử tương ứng của phân phối khác

Đây là một công cụ trực quan mạnh mẽ để xem liệu có sự thay đổi trong việc chuyển từ phân
phối này sang phân phối khác hay không

Biểu đồ phân tán là một trong những phương pháp đồ họa hiệu quả nhất để

xác định xem có vẻ như có mối quan hệ, mẫu hoặc xu hướng giữa hai thuộc tính số

16
Machine Translated by Google

Ví dụ 4
Vẽ Lô QQ của 'Sepal_Width'

17
Machine Translated by Google

nội dung

1 Giới thiệu

2 Tóm tắt dữ liệu

3 Dọn dẹp dữ liệu

4 Tích hợp dữ liệu

5 Giảm dữ liệu

6 Dữ liệu rời rạc

7 Thảo luận & Bài tập

18
Machine Translated by Google

3. Làm sạch dữ liệu


Điền vào các giá trị còn thiếu, loại bỏ nhiễu trong khi xác định các giá trị ngoại lệ,
và khắc phục sự không nhất quán trong dữ liệu

19
Machine Translated by Google

Xử lý các giá trị bị thiếu

1. Bỏ qua tuple

2. Điền giá trị còn thiếu theo cách thủ công

3. Sử dụng hằng số toàn cầu để điền vào giá


trị còn thiếu (UNKNOWN)

4. Sử dụng thuộc tính mean để điền giá


trị còn thiếu

5. Sử dụng thuộc tính mean cho tất cả


các mẫu thuộc cùng một lớp với bộ đã
cho

6. Sử dụng giá trị có thể xảy ra nhất để điền


vào giá trị còn thiếu: hồi quy, các công
cụ dựa trên suy luận sử dụng hình thức
Bayesian, cây quyết định

20
Machine Translated by Google

Xử lý dữ liệu nhiễu
Tiếng ồn là một lỗi ngẫu nhiên hoặc
phương sai trong một biến đo lường

1. Chia thành

nhóm 2. Hồi quy 3.

Phân cụm

21
Machine Translated by Google

Ví dụ 5
Áp dụng Binning cho dãy: (N=3)

5, 10, 11, 13, 15, 35, 50 ,55, 72, 92, 204,215

22
Machine Translated by Google

nội dung

1 Giới thiệu

2 Tóm tắt dữ liệu

3 Dọn dẹp dữ liệu

4 Tích hợp dữ liệu

5 Giảm dữ liệu

6 Dữ liệu rời rạc

7 Thảo luận & Bài tập

23
Machine Translated by Google

4. Tích hợp dữ liệu


Kết hợp dữ liệu từ nhiều nguồn (nhiều cơ sở dữ liệu, dữ liệu
khối hoặc tệp phẳng) vào một kho lưu trữ dữ liệu nhất quán

Các vấn đề: Tích hợp lược đồ, khớp đối tượng, dư thừa, không nhất quán

Customer_ID trong một cơ sở dữ liệu và Cust_number trong một cơ sở

dữ liệu khác tham chiếu đến cùng một thuộc tính?

Wage_customers trong cơ sở dữ liệu có thể được tính thông qua Wage_month


và Total_customers trong các cơ sở dữ liệu khác?

Sự dư thừa có thể được phát hiện bằng phân tích tương quan (đo lường

mức độ mạnh mẽ của một thuộc tính ngụ ý khác)

24
Machine Translated by Google

Tương quan Pearson (số)

25
Machine Translated by Google

Ví dụ 6
Tính tương quan Pearson giữa các cặp thuộc tính (trừ Class)

26
Machine Translated by Google

Tương quan Chi bình phương (phân loại)

27
Machine Translated by Google

Ví dụ 7
Tính tương quan Chi bình phương

28
Machine Translated by Google

Chuyển đổi dữ liệu

Dữ liệu được chuyển đổi hoặc hợp nhất thành các dạng thích hợp cho
khai thác

Làm mịn: loại bỏ nhiễu khỏi dữ liệu bằng cách sử dụng tính năng tạo tệp, hồi quy,

phân cụm

Tổng hợp: dữ liệu có thể được tổng hợp để tính toán tổng số tiền hàng tháng và
hàng năm, ví dụ:

Khái quát hóa: dữ liệu cấp thấp (tuổi) được thay thế bằng các khái niệm
cấp cao hơn (thanh niên, trung niên và cao niên)

Chuẩn hóa: dữ liệu thuộc tính được thu nhỏ để nằm trong một phạm vi nhỏ

Xây dựng thuộc tính: các thuộc tính mới được xây dựng và thêm vào từ

tập thuộc tính đã cho

29
Machine Translated by Google

Ví dụ 8
Tổng hợp dữ liệu theo lớp để thể hiện số lượng của từng thuộc tính theo lớp.
Tính một thuộc tính mới: total_length

30
Machine Translated by Google

bình thường hóa


Tối thiểu-Tối đa

Chỉ số Z

Tỉ lệ thập phân

31
Machine Translated by Google

Ví dụ 9
Chuẩn hóa từng thuộc tính bằng 3 phương pháp

32
Machine Translated by Google

nội dung

1 Giới thiệu

2 Tóm tắt dữ liệu

3 Dọn dẹp dữ liệu

4 Tích hợp dữ liệu

5 Giảm dữ liệu

6 Dữ liệu rời rạc

7 Thảo luận & Bài tập

33
Machine Translated by Google

5. Giảm dữ liệu
1. Tập hợp khối dữ liệu: các phép toán tập hợp được áp dụng cho
dữ liệu trong việc xây dựng một khối dữ liệu

2. Lựa chọn tập hợp con thuộc tính: không liên quan, ít liên quan hoặc
các thuộc tính hoặc kích thước dư thừa được phát hiện và loại bỏ

3. Giảm kích thước: cơ chế mã hóa (PCA, Wavelet) được sử dụng để giảm kích
thước tập dữ liệu

4. Giảm số lượng: dữ liệu được thay thế hoặc ước tính bằng các biểu diễn dữ
liệu thay thế, nhỏ hơn

5. Sự rời rạc hóa và tạo phân cấp khái niệm: dữ liệu thô
giá trị cho các thuộc tính được thay thế bằng phạm vi hoặc mức độ khái niệm
cao hơn

34
Machine Translated by Google

tổng hợp khối dữ liệu

Các khối dữ liệu cung cấp khả năng truy cập nhanh vào dữ liệu tóm tắt, được tính toán trước,
do đó mang lại lợi ích cho việc xử lý phân tích trực tuyến cũng như khai thác dữ liệu

35
Machine Translated by Google

Lựa chọn tập hợp con thuộc tính


1. Lựa chọn chuyển tiếp từng bước: Quy trình bắt đầu với một tập hợp các thuộc
tính trống và mỗi lần lặp lại hoặc bước tiếp theo, các thuộc tính ban
đầu tốt nhất còn lại sẽ được thêm vào tập hợp

2. Loại bỏ ngược từng bước: Quy trình bắt đầu với tập hợp đầy đủ các thuộc
tính và mỗi bước, loại bỏ thuộc tính xấu nhất còn lại trong tập hợp

3. Kết hợp chọn xuôi và loại bỏ lùi: mỗi bước quy trình chọn thuộc tính tốt

nhất và loại bỏ thuộc tính xấu nhất

4. Cảm ứng cây quyết định: ID3, C4.5, GIỎ HÀNG được sử dụng để đạt được
đạt được thông tin tốt nhất

36
Machine Translated by Google

Lựa chọn tập hợp con thuộc tính (2)

37
Machine Translated by Google

Giảm kích thước


Giảm kích thước suy hao: biến đổi wavelet và nguyên tắc
phân tích thành phần (PCA)

Biến đổi wavelet rời rạc (DWT) là tín hiệu tuyến tính
kỹ thuật xử lý chuyển đổi vectơ dữ liệu X thành vectơ
X0 của hệ số wavelet

Phân tích thành phần chính, hoặc PCA tìm kiếm kn


các vectơ trực giao có chiều có thể được sử dụng tốt nhất để biểu diễn dữ
liệu, trong đó k < n. Do đó, dữ liệu gốc được chiếu lên một không gian nhỏ hơn
nhiều, dẫn đến giảm kích thước

38
Machine Translated by Google

Giảm kích thước (2)

39
Machine Translated by Google

Giảm số lượng
Giảm khối lượng dữ liệu bằng cách chọn các dạng thay thế, nhỏ hơn
Sự miêu tả dữ liệu
Phương pháp tham số: ước tính các phân bố xác suất rời rạc nhiều
chiều (Mô hình log-tuyến tính)

Các phương thức không tham số: lưu trữ các biểu diễn rút gọn của
dữ liệu (biểu đồ, phân cụm và lấy mẫu) • Biểu
đồ: phân vùng phân phối dữ liệu của A thành các tập con rời rạc, hoặc
xô. Nếu mỗi nhóm chỉ đại diện cho một cặp thuộc tính-giá trị/tần số, thì các nhóm đó
được gọi là nhóm đơn


Phân cụm: phân chia các đối tượng thành các nhóm hoặc cụm sao cho các đối tượng
trong một cụm “tương tự” với nhau và “không giống” với các đối tượng trong các cụm
khác

• Lấy mẫu: cho phép một tập dữ liệu lớn được biểu diễn bằng một tập dữ liệu nhỏ hơn nhiều
mẫu ngẫu nhiên (hoặc tập hợp con) của dữ liệu

40
Machine Translated by Google

phương pháp tham số

41
Machine Translated by Google

Phương pháp phi tham số

42
Machine Translated by Google

nội dung

1 Giới thiệu

2 Tóm tắt dữ liệu

3 Dọn dẹp dữ liệu

4 Tích hợp dữ liệu

5 Giảm dữ liệu

6 Dữ liệu rời rạc

7 Thảo luận & Bài tập

43
Machine Translated by Google

6. Phân bổ dữ liệu

Các kỹ thuật rời rạc hóa dữ liệu có thể được sử dụng để giảm số lượng giá trị cho một
thuộc tính liên tục nhất định bằng cách chia phạm vi của thuộc tính thành các khoảng.
Các nhãn khoảng thời gian sau đó có thể được sử dụng để thay thế các giá trị dữ liệu thực tế

đóng thùng

phân tích biểu đồ

Entropy rời rạc hóa


ChiMerge
phân cụm

44
Machine Translated by Google

đóng thùng

45
Machine Translated by Google

nội dung

1 Giới thiệu

2 Tóm tắt dữ liệu

3 Dọn dẹp dữ liệu

4 Tích hợp dữ liệu

5 Giảm dữ liệu

6 Dữ liệu rời rạc

7 Thảo luận & Bài tập

46
Machine Translated by Google

Thảo luận & Bài tập


Tiền xử lý dữ liệu là một vấn đề quan trọng đối với cả kho dữ liệu và khai thác dữ liệu, vì dữ liệu
trong thế giới thực có xu hướng không đầy đủ, nhiễu và không nhất quán

Tóm tắt dữ liệu mô tả cung cấp nền tảng phân tích cho tiền xử lý dữ liệu

Các quy trình làm sạch dữ liệu cố gắng điền vào các giá trị còn thiếu, loại bỏ nhiễu trong khi xác định
các ngoại lệ và sửa lỗi không nhất quán trong dữ liệu

Tích hợp dữ liệu kết hợp dữ liệu từ nhiều nguồn để tạo thành một dữ liệu nhất quán
cửa hàng

Chuyển đổi dữ liệu chuyển đổi dữ liệu thành các dạng thích hợp để khai thác

Rút gọn dữ liệu thu được biểu diễn giảm của dữ liệu trong khi giảm thiểu
mất nội dung thông tin

Sự rời rạc hóa dữ liệu tạo ra hệ thống phân cấp khái niệm cao hơn

47
Machine Translated by Google

câu hỏi

48
Machine Translated by Google

bài tập

49
Machine Translated by Google

Bài tập (2)

50
Machine Translated by Google

Bài tập (3)

51
Machine Translated by Google

Tài liệu tham khảo chính

52
Machine Translated by Google

C licktoeditcompanyslog một .

You might also like