L2-Data-Preparation en VI

Translated from English to Vietnamese - www.onlinedoctranslator.
com
28/6/2023
Chuẩn bị & tiền xử lý dữ liệu
Phụ trách: TS. Võ Thị Hồng Thắm
Check tra fast

-Hãy nêu ngắn gọn những hiểu biết của bạn
về:
-Chất lượng dữ liệu
-Làm sạch dữ liệu

-Tích hợp dữ liệu
-Giảm dữ liệu
-Chuyển đổi dữ liệu
-Dữ liệu rời rạc
1
28/6/2023
Quá trình khám phá tri thức
- Quá trình KDD
Tiền xử lý dữ liệu
-Tại sao chúng ta cần chuẩn bị dữ liệu?
-Trong các ứng dụng trong thế giới thực, dữ liệu có thể đượckhông nhất quán,chưa hoàn thiệnvà/hoặcồn ào
-Các vấn đề về nhập dữ liệu, truyền dữ liệu hoặc thu thập dữ liệu
-Sự khác biệt trong quy ước đặt tên
-Hồ sơ trùng lặp
-Dữ liệu không đầy đủ hoặc bị thiếu
-mâu thuẫn trong dữ liệu
-Điều gì xảy ra khi dữ liệu không thể tin cậy được?

-Quyết định có thể được tin tưởng? Việc ra quyết định bị đe dọa
-Cơ hội tốt hơn để khám phá kiến thức hữu ích khi dữ liệu sạch
2
28/6/2023
Tiền xử lý dữ liệu
Dọn dẹp dữ liệu
Tích hợp dữ liệu
- 2,32,100,59,48 - 0,02,0,32,1,00,0,59,0,48 Chuyển đổi dữ liệu
Giảm dữ liệu
Dọn dẹp dữ liệu

-Dữ liệu ứng dụng trong thế giới thực có thể không đầy đủ, ồn ào và không
nhất quán
-Không có giá trị được ghi cho một số thuộc tính
-Không được xem xét tại thời điểm nhập cảnh
-lỗi ngẫu nhiên

-Các bản ghi hoặc trường không liên quan
-Các nỗ lực làm sạch dữ liệu nhằm:

-Điền các giá trị còn thiếu
-Làm mịn dữ liệu nhiễu
-Sửa lỗi không nhất quán
-Xóa dữ liệu không liên quan
3
28/6/2023
Xử lý các giá trị bị thiếu

-Giải quyết vấn đề thiếu dữ liệu
-Bỏ qua bản ghi với các giá trị bị thiếu;
-Điền các giá trị còn thiếu theo cách thủ công;
-Sử dụng hằng số toàn cầu để điền vào các giá trị còn thiếu (NULL, không xác định, v.v.);
-Sử dụng giá trị trung bình của thuộc tính để điền vào các giá trị còn thiếu của thuộc tính đó;
-Sử dụng giá trị trung bình thuộc tính cho tất cả các mẫu thuộc cùng một loại để điền
vào các giá trị còn thiếu;
-Suy ra giá trị có thể xảy ra nhất để điền vào giá trị còn thiếu
-có thể cần sử dụng các phương pháp như phân loại Bayes hoặc
cây quyết định để tự động suy ra các giá trị thuộc tính bị thiếu
Làm mịn dữ liệu nhiễu

-Mục đích của việc làm mịn dữ liệu là loại bỏ nhiễu và “làm
mịn” các dao động của dữ liệu.
Ví dụ: Dữ liệu gốc cho “giá” (sau khi sắp xếp): 4, 8, 15, 21, 21, 24, 25, 28, 34
Phân vùng thành các thùng cân bằng

Thùng1: 4, 8, 15
đóng thùng Ô2: 21, 21, 24
Ô3: 25, 28, 34
tối thiểu và tối đa

các giá trị trong mỗi
Mỗi giá trị trong một có nghĩa ranh giới thùng được xác định
thùng được thay thế Ô 1: 9, 9, 9 Thùng1: 4, 4, 15
(ranh giới).
theo nghĩa là Ô2: 22, 22, 22 Ô2: 21, 21, 24 Mỗi giá trị trong một
giá trị của thùng. Ô3: 29, 29, 29 Ô3: 25, 25, 34 thùng được thay thế
với gần nhất

giá trị biên.
số 8
4
28/6/2023
Làm mịn dữ liệu nhiễu

-Các phương pháp khác
Các giá trị tương tự được tổ chức

thành các nhóm (cụm). Các giá trị nằm
ngoài cụm có thể được coi là "ngoại lệ"
phân cụm và có thể là ứng cử viên để loại bỏ.
Khớp dữ liệu với một chức năng. Hồi

quy tuyến tính tìm đường tốt nhất để
phù hợp với hai biến. Hồi quy bội có thể
hồi quy xử lý nhiều biến. Các giá trị do hàm đưa
ra được sử dụng thay cho các giá trị ban
đầu.
Làm mịn dữ liệu nhiễu - Ví dụ

Muốn làm mịn “Nhiệt độ” bằng thùng có nghĩa là với thùng cỡ 3:
1. Trước tiên hãy sắp xếp các giá trị của thuộc tính (theo dõi ID hoặc khóa
để có thể thay thế các giá trị đã chuyển đổi trong bảng gốc.
2. Chia dữ liệu thành các ngăn có kích thước 3 (hoặc ít hơn trong trường hợp ngăn cuối cùng).
3. Chuyển đổi các giá trị trong mỗi ngăn thành giá trị trung bình cho ngăn đó
4. Đặt các giá trị kết quả vào bảng gốc
NHẬN DẠNG Quan điểm Nhiệt độ độ ẩm Có gió Nhiệt độ

NHẬN DẠNG
1 nhiều nắng 85 85 SAI 7 58

2 nhiều nắng 80 90 ĐÚNG VẬY 6 65 Thùng1
3 u ám 83 78 SAI 5 68
4 cơn mưa 70 96 SAI 9 69
5 cơn mưa 68 80 SAI 4 70 Thùng2
6 cơn mưa 65 70 ĐÚNG VẬY 10 71

7 u ám 58 65 ĐÚNG VẬY số 8 72
số 8 nhiều nắng 72 95 SAI 12 73 Thùng3
9 nhiều nắng 69 70 SAI 11 75

10 cơn mưa 71 80 SAI 14 75
11 nhiều nắng 75 70 ĐÚNG VẬY 2 80 thùng4
12 u ám 73 90 ĐÚNG VẬY 13 81
13 u ám 81 75 SAI 3 83
14 cơn mưa 75 80 ĐÚNG VẬY 1 85
Thùng5
10
5
28/6/2023

Nhiệt độ
NHẬN DẠNG Nhiệt độ
NHẬN DẠNG
7 58 7 64
6 65 Thùng1 6 64 Thùng1
5 68 5 64
9 69 9 70
10 71 10 70
số 8 72 số 8 73
11 75 11 73
14 75 14 79
2 80 thùng4 2 79 thùng4
13 81 13 79
3 83 3 84
Thùng5 Thùng5
1 85 1 84
Giá trị của mọi bản ghi trong mỗi thùng được thay đổi thành giá trị trung
bình cho thùng đó. Nếu cần giữ giá trị ở dạng số nguyên thì các giá trị
trung bình được làm tròn đến số nguyên gần nhất.
11
Bảng cuối cùng với các giá trị mới cho thuộc tính Nhiệt độ.
NHẬN DẠNG Quan điểm Nhiệt độ độ ẩm Có gió

1 nhiều nắng 84 85 SAI
2 nhiều nắng 79 90 ĐÚNG VẬY
3 u ám 84 78 SAI
4 cơn mưa 70 96 SAI
6 cơn mưa 64 70 ĐÚNG VẬY
7 u ám 64 65 ĐÚNG VẬY
số 8 nhiều nắng 73 95 SAI

13 u ám 79 75 SAI
12
6
28/6/2023
Tích hợp dữ liệu

-Phân tích dữ liệu có thể yêu cầu kết hợp dữ liệu từ nhiều nguồn vào
kho lưu trữ dữ liệu nhất quán
-Những thách thức trong tích hợp dữ liệu:

-Tích hợp giản đồ: CID = C_number = Cust-id = cust#
-không đồng nhất ngữ nghĩa
-Xung đột giá trị dữ liệu (các biểu diễn hoặc tỷ lệ khác nhau, v.v.)
-Đồng bộ hóa (đặc biệt quan trọng trong khai thác sử dụng Web)
-Các thuộc tính dư thừa (dư thừa nếu nó có thể được lấy từ các thuộc tính khác) -- có
thể xác định các dư thừa thông qua phân tích tương quan:
Pr(A,B) / (Pr(A).Pr(B))
= 1: độc lập,
> 1: tương quan thuận, <
1: tương quan nghịch.
-Siêu dữ liệu thường cần thiết để tích hợp dữ liệu thành công
13
Chuyển đổi dữ liệu: Chuẩn hóa

-Chuẩn hóa tối thiểu-tối đa: biến đổi tuyến tính từ v sang v'
-v' = [(v - tối thiểu)/(tối đa - tối thiểu)]x (newmax - newmin) + newmin
-Lưu ý rằng nếu phạm vi mới là [0..1], thì điều này đơn giản hóa thành
v' = [(v - min)/(max - min)]
-Ví dụ: chuyển đổi $30000 giữa [10000..45000] thành [0..1] ==>
[(30000 – 10000)/35000] = 0,514
-chuẩn hóa điểm z: chuẩn hóa v thành v' dựa trên giá trị
trung bình của thuộc tính và độ lệch chuẩn
-v' = (v - Trung bình) / Độ lệch chuẩn
-Chuẩn hóa theo tỷ lệ thập phân

-di chuyển dấu thập phân của v theojnhững vị trí sao chojlà số vị trí tối thiểu
được di chuyển sao cho giá trị tuyệt đối lớn nhất rơi vào [0..1].
-v' = v/10j
-Ví dụ: nếu v trong [-56 .. 9976] vàj=4 ==> v' trong [-0,0056 .. 0,9976]
14
7
28/6/2023
Bình thường hóa: Ví dụ

-chuẩn hóa điểm số z: v' = (v - Mean) / Stdev
-Ví dụ: bình thường hóa thuộc tính “Độ ẩm”:
độ ẩm
độ ẩm
0,48
85
0,99
90
- 0,23
78
96 1,60
Trung bình = 80,3 - 0,03
80
70 Điểm chuẩn = 9,84 - 1,05
65 - 1,55
95 1,49
70 - 1,05
80 - 0,03
70 - 1,05
90 0,99
75 - 0,54
80 - 0,03
15
Chuẩn hóa: Ví dụ II
-Chuẩn hóa Min-Max trên cơ sở dữ liệu nhân viên
-khoảng cách tối đa cho tiền lương: 100000-19000 = 81000
-khoảng cách tối đa cho tuổi: 52-27 = 25
-Min mới cho tuổi và lương = 0; giá trị tối đa mới cho tuổi và lương = 1
Giới tính
NHẬN DẠNG Tuổi Lương Giới tính
NHẬN DẠNG Tuổi Lương
1 F 27 19.000 1 1 0,00 0,00
2 m 51 64.000 2 0 0,96 0,56
3 m 52 100.000 3 0 1,00 1,00
4 F 33 55.000 4 1 0,24 0,44
5 m 45 45.000 5 0 0,72 0,32
16
số 8
28/6/2023
Chuyển đổi dữ liệu: Discretization

-3 Các loại thuộc tính
-trên danh nghĩa- các giá trị từ một tập hợp không có thứ tự (cũng là thuộc tính "phân loại")
-thứ tự- các giá trị từ một tập hợp có thứ tự

-số/liên tục- số thực (nhưng đôi khi cũng là giá trị số nguyên)
-Phân biệt được sử dụng để giảm số lượng giá trị cho một thuộc tính
liên tục nhất định
-thường được thực hiện bằng cách chia phạm vi của thuộc tính thành các khoảng
-nhãn khoảng thời gian sau đó được sử dụng để thay thế giá trị dữ liệu thực tế
-Một số thuật toán khai thác dữ liệu chỉ chấp nhận các thuộc tính phân loại và
không thể xử lý một phạm vi giá trị thuộc tính liên tục
-Disretization cũng có thể được sử dụng để tạo rahệ thống phân cấp khái niệm
-giảm dữ liệu bằng cách thu thập và thay thế các khái niệm cấp thấp (ví dụ: giá trị số
cho “tuổi”) bằng các khái niệm cấp cao hơn (ví dụ: “trẻ”, “trung niên”, “già”)
17
Rời rạc hóa - Ví dụ

-Ví dụ: rời rạc hóa thuộc tính “Độ ẩm” bằng cách sử dụng 3
ngăn.
độ ẩm
độ ẩm
85
Cao
90 Cao
78 Thấp = 60-69 Bình thường
96 Cao
80 Bình thường = 70-79 Cao
70
65
Cao = 80+ Bình thường
Thấp
95 Cao
70 Bình thường
80 Cao
70 Bình thường
90
Cao
75
Bình thường
80
Cao
18
9
28/6/2023
Phương pháp rời rạc hóa dữ liệu

-đóng thùng
-Tách từ trên xuống, không giám sát
-phân tích biểu đồ

-Tách từ trên xuống, không giám sát
-phân tích cụm

-Không giám sát, tách từ trên xuống hoặc hợp nhất từ dưới lên
-Phân tích cây quyết định

-Giám sát, phân chia từ trên xuống
-Phân tích tương quan (ví dụ: -2)

-Không giám sát, hợp nhất từ dưới lên
19
Đơn giản Discretization: Binning

-Phân vùng theo chiều rộng (khoảng cách) bằng nhau
-Chia phạm vi thành N khoảng có kích thước bằng nhau: lưới đồng nhất
-nếu A và B là giá trị thấp nhất và cao nhất của thuộc tính thì độ
rộng của khoảng sẽ là: W = (B –A)/N.
-Đơn giản nhất, nhưng ngoại lệ có thể thống trị
trình bày
-Dữ liệu sai lệch không được xử lý tốt
-Phân vùng theo độ sâu (tần số) bằng nhau

-Chia phạm vi thành N khoảng, mỗi khoảng
chứa số lượng mẫu xấp xỉ như nhau
-Mở rộng dữ liệu tốt
-Quản lý các thuộc tính phân loại có thể phức tạp
20
10
28/6/2023
Rời rạc hóa theo phân loại &

Phân tích tương quan
-Phân loại (ví dụ: phân tích cây quyết định)
-Được giám sát: Đã cho nhãn lớp, ví dụ: ung thư so với lành tính
-Sử dụng entropy để xác định điểm phân tách (discretization point)
-Từ trên xuống, phân tách đệ quy
-Phân tích tương quan (ví dụ: Chi-merge: rời rạc hóa
dựa trên χ2)
-Được giám sát: sử dụng thông tin lớp
-Hợp nhất từ dưới lên: hợp nhất các khoảng lân cận tốt nhất (những
khoảng có phân bố lớp tương tự nhau, nghĩa là giá trị χ2 thấp)
-Hợp nhất được thực hiện theo cách đệ quy, cho đến khi điều kiện dừng được xác định
trước
21
Chuyển đổi các thuộc tính phân loại thành

Thuộc tính số
NHẬN DẠNG Quan điểm Nhiệt độ độ ẩm Có gió
Thuộc tính:
3 u ám 83 78 SAI Outlook (u ám, mưa, nắng)
4 cơn mưa 70 96 SAI Nhiệt độ thực
5 68 80 SAI
cơn mưa
độ ẩm thực
Gió (đúng, sai)
số 8 nhiều nắng 72 95 SAI
13 u ám 81 75 SAI
Định dạng bảng tính tiêu chuẩn
Nhìn ra Nhìn ra Nhìn ra Nhìn Nhiệt độ Độ ẩm Gió Gió nhiều
Tạo các cột riêng biệt cho u ám cơn mưa nhiều nắng ĐÚNG VẬY SAI
mỗi giá trị của một 0 0 1 85 85 0 1
0 0 1 80 90 1 0
thuộc tính phân loại (ví
1 0 0 83 78 0 1
dụ: 3 giá trị cho thuộc 0 1 0 70 96 0 1
tính Outlook và hai giá trị 0 1 0 68 80 0 1
của thuộc tính Windy). 0 1 0 65 70 1 0
1 0 0 64 65 1 0
Không có thay đổi đối với
. . . . . . .
các thuộc tính số. . . . . . . .
22
11
28/6/2023
Giảm dữ liệu
-Dữ liệu thường quá lớn; giảm dữ liệu có thể cải thiện hiệu suất
-Giảm dữ liệu bao gồm giảm biểu diễn của tập dữ liệu trong khi tạo
ra kết quả giống nhau (hoặc gần như giống nhau)
-Giảm dữ liệu bao gồm:

-tổng hợp khối dữ liệu
-Giảm kích thước
-rời rạc
-Giảm số lượng
-hồi quy
-biểu đồ
-phân cụm
-Lấy mẫu
23
Tổng hợp khối dữ liệu

-Giảm dữ liệu xuống mức khái niệm cần thiết trong phân tích
-Sử dụng mức độ nhỏ nhất (chi tiết nhất) cần thiết để giải quyết vấn đề
-Các truy vấn liên quan đến thông tin tổng hợp nên được trả lời bằng cách sử
dụng khối dữ liệu khi có thể
24
12
28/6/2023
Giảm kích thước

-Lời nguyền của chiều
-Khi số chiều tăng lên, dữ liệu ngày càng trở nên thưa thớt
-Mật độ và khoảng cách giữa các điểm, vốn rất quan trọng đối với việc phân cụm, phân tích
ngoại lệ, trở nên ít ý nghĩa hơn
-Các tổ hợp có thể có của các không gian con sẽ phát triển theo cấp số nhân
-Giảm kích thước

-Tránh lời nguyền của chiều
-Giúp loại bỏ các tính năng không liên quan và giảm tiếng ồn
-Giảm thời gian và không gian cần thiết trong khai thác dữ liệu
-Cho phép hình dung dễ dàng hơn
-Kỹ thuật giảm kích thước

-Phân tích thành phần chính
-Lựa chọn tập hợp con thuộc tính
-Tạo thuộc tính hoặc tính năng
25
Phân tích thành phần chính (PCA)

-Tìm phép chiếu thu được lượng biến thể lớn nhất trong dữ
liệu
-Dữ liệu gốc được chiếu lên một không gian nhỏ hơn
nhiều, dẫn đến giảm kích thước
-Hoàn thành bằng cách tìm các vectơ riêng của ma trận hiệp phương sai và các vectơ
riêng này xác định không gian mới
x2
x1
26
13
28/6/2023
Phân tích thành phần chính (Các bước)

-Được choNvectơ dữ liệu (các hàng trong bảng) từNkích thước
(thuộc tính), tìmk≤Nvectơ trực giao (thành phần chủ yếu) có thể
được sử dụng tốt nhất để biểu diễn dữ liệu
-Chuẩn hóa dữ liệu đầu vào: Mỗi thuộc tính nằm trong cùng một phạm vi
-tính toánkvectơ trực giao (đơn vị), tức là,thành phần chủ yếu
-Mỗi dữ liệu đầu vào (vectơ) là sự kết hợp tuyến tính củakvectơ
thành phần chính
-Các thành phần chính được sắp xếp theo thứ tự giảm dần “ý
nghĩa” hoặc sức mạnh
-Kích thước của dữ liệu có thể được giảm bớt bằng cách loại bỏlinh kiện yếu,
tức là, những người có phương sai thấp
-Sử dụng các thành phần chính mạnh nhất, có thể tái
tạo lại dữ liệu gốc gần đúng
-Chỉ hoạt động cho dữ liệu số
27
Lựa chọn tập hợp con thuộc tính

-Một cách khác để giảm kích thước của dữ liệu
-thuộc tính dự phòng
-Sao chép nhiều hoặc tất cả thông tin chứa trong một hoặc nhiều
thuộc tính khác
-Ví dụ: giá mua sản phẩm và số tiền thuế bán hàng đã trả
-thuộc tính không liên quan
-Không chứa thông tin hữu ích cho nhiệm vụ khai thác dữ liệu trong tầm
tay
-Ví dụ: ID của sinh viên thường không liên quan đến nhiệm vụ dự đoán điểm trung
bình của sinh viên
28
14
28/6/2023
Tìm kiếm theo kinh nghiệm trong lựa chọn thuộc tính
-Có2đcác kết hợp thuộc tính có thể có củađthuộc tính

-Các phương pháp lựa chọn thuộc tính heuristic điển hình:
-Thuộc tính đơn tốt nhất theo giả định độc lập thuộc
tính: chọn bằng kiểm định ý nghĩa
-Lựa chọn tính năng từng bước tốt nhất:
-Thuộc tính đơn tốt nhất được chọn trước. Sau đó, điều kiện thuộc tính tốt nhất tiếp theo đến điều kiện đầu
tiên, ...
-{}{A1}{A1, A3}{A1, A3, A5}

-Loại bỏ thuộc tính từng bước:
-Liên tục loại bỏ thuộc tính xấu nhất: {A1, A2, A3, A4, A5}{A1, A3, A4, A5}
{A1, A3, A5}, ….
-Kết hợp lựa chọn và loại bỏ thuộc tính
-Cảm ứng cây quyết định
29
Cảm ứng cây quyết định

Sử dụng các kỹ thuật lý thuyết thông tin để chọn các thuộc tính
“có nhiều thông tin” nhất
30
15
28/6/2023
Tạo thuộc tính (Tạo tính năng)

-Tạo các thuộc tính (tính năng) mới có thể nắm bắt thông tin
quan trọng trong tập dữ liệu hiệu quả hơn các thuộc tính
ban đầu
-Ba phương pháp chung
-khai thác thuộc tính
-Tên miền cụ thể
-Ánh xạ dữ liệu sang không gian mới (xem: giảm dữ liệu)
-Ví dụ: phép biến đổi Fourier, phép biến đổi wavelet, v.v.
-xây dựng thuộc tính
-Kết hợp các tính năng
-Dữ liệu rời rạc
31
Giảm dữ liệu: Giảm số lượng

-Giảm khối lượng dữ liệu bằng cách chọn thay thế,hình thức nhỏ
hơn biểu diễn dữ liệu
-Phương pháp tham số (ví dụ: hồi quy)
-Giả sử dữ liệu phù hợp với một số mô hình, ước tính các tham số mô
hình, chỉ lưu trữ các tham số và loại bỏ dữ liệu (ngoại trừ các ngoại lệ
có thể xảy ra)
-Ví dụ: Các mô hình log-tuyến tính—lấy giá trị tại một điểm trongtôi-D
không gian là tích trên các không gian con biên thích hợp
-phương pháp phi tham số

-Đừng giả định các mô hình
-Các họ chính: biểu đồ, phân cụm, lấy mẫu, …
32
16
28/6/2023
Phân tích hồi quy

y
-Bộ sưu tập các kỹ thuật để mô
hình hóa và phân tích
dữ liệu số bao gồm các giá trị của Y1
mộtbiến phụ thuộc (Mà cònbiến
phản ứnghoặc đo đạc) và của một
hoặc nhiều biến độc lập(aka. biến Y1'
y=x+1
giải thíchhoặc người dự đoán)
-Các tham số được ước tính để có X1 x

được dữ liệu "phù hợp nhất"
-Thông thường, sự phù hợp nhất được đánh giá bằng -Được sử dụng để dự đoán (bao gồm dự
cách sử dụng phương pháp bình phương nhỏ nhất, báo dữ liệu chuỗi thời gian), suy luận,
nhưng các tiêu chí khác cũng đã được sử dụng kiểm tra giả thuyết và mô hình hóa
các mối quan hệ nhân quả
33
Phân tích hồi quy

-Hồi quy tuyến tính:Y = w X + b
-Hai hệ số hồi quy,wVàb,chỉ định dòng và sẽ được ước tính bằng
cách sử dụng dữ liệu có sẵn
-Sử dụng tiêu chí bình phương nhỏ nhất trên các giá trị đã biết củaY1, Y2, …, X1, X2, ….
-Hồi quy bội:y = b0+ b1X1+ b2X2

-Nhiều chức năng phi tuyến tính có thể được chuyển đổi thành trên
-Mô hình log-tuyến tính
-Phân phối xác suất nhiều chiều rời rạc gần đúng
-Ước tính xác suất của mỗi điểm trong không gian nhiều chiều cho một tập hợp
các thuộc tính rời rạc, dựa trên một tập hợp con nhỏ hơn các chiều
-Hữu ích cho việc giảm kích thước và làm mịn dữ liệu
34
17
28/6/2023
Giảm số lượng
-Giảm thông qua biểu đồ:
-Chia dữ liệu thành các nhóm và lưu trữ biểu diễn
của các nhóm (tổng, số lượng, v.v.)
-Giảm thông qua phân cụm

-Phân vùng dữ liệu thành các cụm dựa trên “sự
gần gũi” trong không gian
-Giữ lại các đại diện của cụm (trung tâm) và

ngoại lệ
-Giảm thông qua lấy mẫu

-Các mẫu trong mẫu có đại diện cho các mẫu
trong dữ liệu không?
-Lấy mẫu ngẫu nhiên có thể tạo ra kết quả kém
-Mẫu phân tầng (tầng = nhóm dựa trên giá trị
thuộc tính)
35
Phương pháp thử mẫu
Dữ liệu thô
Mẫu cụm / phân tầng
Dữ liệu thô
36
18

L2-Data-Preparation en VI

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

L2-Data-Preparation en VI

Uploaded by

Copyright:

Available Formats

Translated from English to Vietnamese - www.onlinedoctranslator.

Chuẩn bị & tiền xử lý dữ liệu

Phụ trách: TS. Võ Thị Hồng Thắm

Check tra fast

-Làm sạch dữ liệu

Quá trình khám phá tri thức

- Quá trình KDD

-mâu thuẫn trong dữ liệu

-Điều gì xảy ra khi dữ liệu không thể tin cậy được?

Tích hợp dữ liệu

- 2,32,100,59,48 - 0,02,0,32,1,00,0,59,0,48 Chuyển đổi dữ liệu

Dọn dẹp dữ liệu

-lỗi ngẫu nhiên

-Các nỗ lực làm sạch dữ liệu nhằm:

Xử lý các giá trị bị thiếu

Làm mịn dữ liệu nhiễu

Phân vùng thành các thùng cân bằng

tối thiểu và tối đa

với gần nhất

Làm mịn dữ liệu nhiễu

Các giá trị tương tự được tổ chức

Khớp dữ liệu với một chức năng. Hồi

Làm mịn dữ liệu nhiễu - Ví dụ

NHẬN DẠNG Quan điểm Nhiệt độ độ ẩm Có gió Nhiệt độ

1 nhiều nắng 85 85 SAI 7 58

6 cơn mưa 65 70 ĐÚNG VẬY 10 71

9 nhiều nắng 69 70 SAI 11 75

Làm mịn dữ liệu nhiễu - Ví dụ

Làm mịn dữ liệu nhiễu - Ví dụ

NHẬN DẠNG Quan điểm Nhiệt độ độ ẩm Có gió

số 8 nhiều nắng 73 95 SAI

Tích hợp dữ liệu

-Những thách thức trong tích hợp dữ liệu:

Chuyển đổi dữ liệu: Chuẩn hóa

-Chuẩn hóa theo tỷ lệ thập phân

Bình thường hóa: Ví dụ

Chuyển đổi dữ liệu: Discretization

-thứ tự- các giá trị từ một tập hợp có thứ tự

Rời rạc hóa - Ví dụ

Phương pháp rời rạc hóa dữ liệu

-phân tích biểu đồ

-phân tích cụm

-Phân tích cây quyết định

-Phân tích tương quan (ví dụ: -2)

Đơn giản Discretization: Binning

-Phân vùng theo độ sâu (tần số) bằng nhau

Rời rạc hóa theo phân loại &

Chuyển đổi các thuộc tính phân loại thành

-Giảm dữ liệu bao gồm:

Tổng hợp khối dữ liệu

Giảm kích thước

-Giảm kích thước

-Cho phép hình dung dễ dàng hơn

-Kỹ thuật giảm kích thước

Phân tích thành phần chính (PCA)

Phân tích thành phần chính (Các bước)

Lựa chọn tập hợp con thuộc tính

bình của sinh viên

-Có2đcác kết hợp thuộc tính có thể có củađthuộc tính

-{}{A1}{A1, A3}{A1, A3, A5}

Cảm ứng cây quyết định

Tạo thuộc tính (Tạo tính năng)

Giảm dữ liệu: Giảm số lượng