Professional Documents
Culture Documents
L2-Data-Preparation en VI
L2-Data-Preparation en VI
com
28/6/2023
1
28/6/2023
Tiền xử lý dữ liệu
-Tại sao chúng ta cần chuẩn bị dữ liệu?
-Trong các ứng dụng trong thế giới thực, dữ liệu có thể đượckhông nhất quán,chưa hoàn thiệnvà/hoặcồn ào
-Các vấn đề về nhập dữ liệu, truyền dữ liệu hoặc thu thập dữ liệu
-Sự khác biệt trong quy ước đặt tên
-Hồ sơ trùng lặp
-Dữ liệu không đầy đủ hoặc bị thiếu
-Cơ hội tốt hơn để khám phá kiến thức hữu ích khi dữ liệu sạch
2
28/6/2023
Tiền xử lý dữ liệu
Dọn dẹp dữ liệu
Giảm dữ liệu
3
28/6/2023
-Sử dụng hằng số toàn cầu để điền vào các giá trị còn thiếu (NULL, không xác định, v.v.);
-Sử dụng giá trị trung bình của thuộc tính để điền vào các giá trị còn thiếu của thuộc tính đó;
-Sử dụng giá trị trung bình thuộc tính cho tất cả các mẫu thuộc cùng một loại để điền
vào các giá trị còn thiếu;
-Suy ra giá trị có thể xảy ra nhất để điền vào giá trị còn thiếu
-có thể cần sử dụng các phương pháp như phân loại Bayes hoặc
cây quyết định để tự động suy ra các giá trị thuộc tính bị thiếu
Ví dụ: Dữ liệu gốc cho “giá” (sau khi sắp xếp): 4, 8, 15, 21, 21, 24, 25, 28, 34
số 8
4
28/6/2023
3 u ám 83 78 SAI 5 68
4 cơn mưa 70 96 SAI 9 69
5 cơn mưa 68 80 SAI 4 70 Thùng2
12 u ám 73 90 ĐÚNG VẬY 13 81
13 u ám 81 75 SAI 3 83
14 cơn mưa 75 80 ĐÚNG VẬY 1 85
Thùng5
10
5
28/6/2023
7 58 7 64
6 65 Thùng1 6 64 Thùng1
5 68 5 64
9 69 9 70
4 70 Thùng2 4 70 Thùng2
10 71 10 70
số 8 72 số 8 73
12 73 Thùng3 12 73 Thùng3
11 75 11 73
14 75 14 79
2 80 thùng4 2 79 thùng4
13 81 13 79
3 83 3 84
Thùng5 Thùng5
1 85 1 84
Giá trị của mọi bản ghi trong mỗi thùng được thay đổi thành giá trị trung
bình cho thùng đó. Nếu cần giữ giá trị ở dạng số nguyên thì các giá trị
trung bình được làm tròn đến số nguyên gần nhất.
11
Bảng cuối cùng với các giá trị mới cho thuộc tính Nhiệt độ.
3 u ám 84 78 SAI
4 cơn mưa 70 96 SAI
5 cơn mưa 64 80 SAI
6 cơn mưa 64 70 ĐÚNG VẬY
7 u ám 64 65 ĐÚNG VẬY
12 u ám 73 90 ĐÚNG VẬY
13 u ám 79 75 SAI
14 cơn mưa 79 80 ĐÚNG VẬY
12
6
28/6/2023
Pr(A,B) / (Pr(A).Pr(B))
= 1: độc lập,
> 1: tương quan thuận, <
1: tương quan nghịch.
-Siêu dữ liệu thường cần thiết để tích hợp dữ liệu thành công
13
-chuẩn hóa điểm z: chuẩn hóa v thành v' dựa trên giá trị
trung bình của thuộc tính và độ lệch chuẩn
-v' = (v - Trung bình) / Độ lệch chuẩn
14
7
28/6/2023
độ ẩm
độ ẩm
0,48
85
0,99
90
- 0,23
78
96 1,60
Trung bình = 80,3 - 0,03
80
70 Điểm chuẩn = 9,84 - 1,05
65 - 1,55
95 1,49
70 - 1,05
80 - 0,03
70 - 1,05
90 0,99
75 - 0,54
80 - 0,03
15
Chuẩn hóa: Ví dụ II
-Chuẩn hóa Min-Max trên cơ sở dữ liệu nhân viên
-khoảng cách tối đa cho tiền lương: 100000-19000 = 81000
-khoảng cách tối đa cho tuổi: 52-27 = 25
-Min mới cho tuổi và lương = 0; giá trị tối đa mới cho tuổi và lương = 1
Giới tính
NHẬN DẠNG Tuổi Lương Giới tính
NHẬN DẠNG Tuổi Lương
1 F 27 19.000 1 1 0,00 0,00
2 m 51 64.000 2 0 0,96 0,56
3 m 52 100.000 3 0 1,00 1,00
4 F 33 55.000 4 1 0,24 0,44
5 m 45 45.000 5 0 0,72 0,32
16
số 8
28/6/2023
-Phân biệt được sử dụng để giảm số lượng giá trị cho một thuộc tính
liên tục nhất định
-thường được thực hiện bằng cách chia phạm vi của thuộc tính thành các khoảng
-nhãn khoảng thời gian sau đó được sử dụng để thay thế giá trị dữ liệu thực tế
-Một số thuật toán khai thác dữ liệu chỉ chấp nhận các thuộc tính phân loại và
không thể xử lý một phạm vi giá trị thuộc tính liên tục
-Disretization cũng có thể được sử dụng để tạo rahệ thống phân cấp khái niệm
-giảm dữ liệu bằng cách thu thập và thay thế các khái niệm cấp thấp (ví dụ: giá trị số
cho “tuổi”) bằng các khái niệm cấp cao hơn (ví dụ: “trẻ”, “trung niên”, “già”)
17
độ ẩm
độ ẩm
85
Cao
90 Cao
78 Thấp = 60-69 Bình thường
96 Cao
80 Bình thường = 70-79 Cao
70
65
Cao = 80+ Bình thường
Thấp
95 Cao
70 Bình thường
80 Cao
70 Bình thường
90
Cao
75
Bình thường
80
Cao
18
9
28/6/2023
19
-Chia phạm vi thành N khoảng có kích thước bằng nhau: lưới đồng nhất
-nếu A và B là giá trị thấp nhất và cao nhất của thuộc tính thì độ
rộng của khoảng sẽ là: W = (B –A)/N.
-Đơn giản nhất, nhưng ngoại lệ có thể thống trị
trình bày
-Dữ liệu sai lệch không được xử lý tốt
20
10
28/6/2023
-Phân tích tương quan (ví dụ: Chi-merge: rời rạc hóa
dựa trên χ2)
-Được giám sát: sử dụng thông tin lớp
-Hợp nhất từ dưới lên: hợp nhất các khoảng lân cận tốt nhất (những
khoảng có phân bố lớp tương tự nhau, nghĩa là giá trị χ2 thấp)
-Hợp nhất được thực hiện theo cách đệ quy, cho đến khi điều kiện dừng được xác định
trước
21
7 u ám 58 65 ĐÚNG VẬY
Gió (đúng, sai)
số 8 nhiều nắng 72 95 SAI
9 nhiều nắng 69 70 SAI
10 cơn mưa 71 80 SAI
11 nhiều nắng 75 70 ĐÚNG VẬY
12 u ám 73 90 ĐÚNG VẬY
13 u ám 81 75 SAI
14 cơn mưa 75 80 ĐÚNG VẬY
Định dạng bảng tính tiêu chuẩn
Nhìn ra Nhìn ra Nhìn ra Nhìn Nhiệt độ Độ ẩm Gió Gió nhiều
Tạo các cột riêng biệt cho u ám cơn mưa nhiều nắng ĐÚNG VẬY SAI
mỗi giá trị của một 0 0 1 85 85 0 1
0 0 1 80 90 1 0
thuộc tính phân loại (ví
1 0 0 83 78 0 1
dụ: 3 giá trị cho thuộc 0 1 0 70 96 0 1
tính Outlook và hai giá trị 0 1 0 68 80 0 1
của thuộc tính Windy). 0 1 0 65 70 1 0
1 0 0 64 65 1 0
Không có thay đổi đối với
. . . . . . .
các thuộc tính số. . . . . . . .
22
11
28/6/2023
Giảm dữ liệu
-Dữ liệu thường quá lớn; giảm dữ liệu có thể cải thiện hiệu suất
-Giảm dữ liệu bao gồm giảm biểu diễn của tập dữ liệu trong khi tạo
ra kết quả giống nhau (hoặc gần như giống nhau)
23
-Các truy vấn liên quan đến thông tin tổng hợp nên được trả lời bằng cách sử
dụng khối dữ liệu khi có thể
24
12
28/6/2023
25
x2
x1
26
13
28/6/2023
-Sử dụng các thành phần chính mạnh nhất, có thể tái
tạo lại dữ liệu gốc gần đúng
-Chỉ hoạt động cho dữ liệu số
27
-Không chứa thông tin hữu ích cho nhiệm vụ khai thác dữ liệu trong tầm
tay
-Ví dụ: ID của sinh viên thường không liên quan đến nhiệm vụ dự đoán điểm trung
28
14
28/6/2023
Tìm kiếm theo kinh nghiệm trong lựa chọn thuộc tính
-Thuộc tính đơn tốt nhất theo giả định độc lập thuộc
tính: chọn bằng kiểm định ý nghĩa
-Lựa chọn tính năng từng bước tốt nhất:
-Thuộc tính đơn tốt nhất được chọn trước. Sau đó, điều kiện thuộc tính tốt nhất tiếp theo đến điều kiện đầu
tiên, ...
29
30
15
28/6/2023
31
-Ví dụ: Các mô hình log-tuyến tính—lấy giá trị tại một điểm trongtôi-D
không gian là tích trên các không gian con biên thích hợp
32
16
28/6/2023
33
-Phân phối xác suất nhiều chiều rời rạc gần đúng
-Ước tính xác suất của mỗi điểm trong không gian nhiều chiều cho một tập hợp
các thuộc tính rời rạc, dựa trên một tập hợp con nhỏ hơn các chiều
-Hữu ích cho việc giảm kích thước và làm mịn dữ liệu
34
17
28/6/2023
Giảm số lượng
-Giảm thông qua biểu đồ:
-Chia dữ liệu thành các nhóm và lưu trữ biểu diễn
của các nhóm (tổng, số lượng, v.v.)
35
Dữ liệu thô
Dữ liệu thô
36
18