Professional Documents
Culture Documents
Session 2-Data Processing
Session 2-Data Processing
Session 2-Data Processing
Buổi 2: Xử lý dữ liệu
nội dung
1 Giới thiệu
5 Giảm dữ liệu
2
Machine Translated by Google
1. Giới thiệu
Cơ sở dữ liệu trong thế giới thực rất dễ bị
Không đầy đủ: thiếu các giá trị thuộc tính hoặc một số thuộc tính quan
tâm hoặc chỉ chứa dữ liệu tổng hợp Nhiễu: chứa lỗi hoặc các giá trị
Dữ liệu chất lượng thấp sẽ dẫn đến kết quả khai thác chất lượng thấp
3
Machine Translated by Google
lý do …
Không đầy đủ:
Dữ liệu liên quan có thể không được ghi lại do hiểu nhầm hoặc do trục trặc thiết bị
Dữ liệu không phù hợp với dữ liệu được ghi khác có thể đã bị xóa Việc ghi lại lịch
bỏ qua
Ồn ào:
Dụng cụ thu thập dữ liệu có thể bị lỗi. Lỗi do con người hoặc máy tính xảy ra khi nhập dữ
liệu. Lỗi trong truyền dữ liệu cũng có thể xảy ra Có thể có những hạn chế về công nghệ,
chẳng hạn như kích thước bộ đệm hạn chế Quy ước đặt tên không nhất quán, bộ dữ liệu trùng
lặp
Dữ liệu từ nhiều nguồn, một số thuộc tính đại diện cho một khái niệm nhất định có thể có
tên khác nhau trong các cơ sở dữ liệu khác nhau, gây ra sự không nhất quán và dư thừa
4
Machine Translated by Google
5
Machine Translated by Google
Biến đổi dữ liệu: chuẩn hóa dữ liệu sang một miền mới
6
Machine Translated by Google
nội dung
1 Giới thiệu
5 Giảm dữ liệu
7
Machine Translated by Google
Đặc điểm dữ liệu (phân phối): xu hướng tập trung và phân tán của dữ liệu
dữ
liệu Xu hướng trung tâm: trung bình, trung bình, chế độ và tầm
trung Phân tán dữ liệu: tứ phân vị, phạm vi liên tứ phân vị (IQR), phương sai
số 8
Machine Translated by Google
Trung vị: Nếu N là số lẻ thì nó là giá trị ở giữa của tập sắp thứ tự; nếu không thì
là trung bình cộng của hai giá trị giữa
Mode: giá trị xuất hiện thường xuyên nhất trong tập hợp (unimodal, bimodal,
trimodal). Đa phương thức: mean-mode = 3*(mean - median)
9
Machine Translated by Google
công thức
10
Machine Translated by Google
ví dụ 1
Tính toán Trung bình Trọng số, Trung bình và Chế độ của tập dữ liệu IRIS
11
Machine Translated by Google
12
Machine Translated by Google
ví dụ 2
Vẽ Boxplot cho tất cả các thuộc tính trong IRIS
13
Machine Translated by Google
Độ lệch chuẩn, σ, của các quan sát là căn bậc hai của
phương sai, σ2
Biểu đồ
14
Machine Translated by Google
ví dụ 3
Tính phương sai, độ lệch chuẩn và vẽ biểu đồ của IRIS
15
Machine Translated by Google
Biểu đồ lượng tử-phân vị (biểu đồ qq) vẽ biểu đồ lượng tử của một phân phối đơn biến so
Đây là một công cụ trực quan mạnh mẽ để xem liệu có sự thay đổi trong việc chuyển từ phân
phối này sang phân phối khác hay không
Biểu đồ phân tán là một trong những phương pháp đồ họa hiệu quả nhất để
xác định xem có vẻ như có mối quan hệ, mẫu hoặc xu hướng giữa hai thuộc tính số
16
Machine Translated by Google
Ví dụ 4
Vẽ Lô QQ của 'Sepal_Width'
17
Machine Translated by Google
nội dung
1 Giới thiệu
5 Giảm dữ liệu
18
Machine Translated by Google
19
Machine Translated by Google
1. Bỏ qua tuple
20
Machine Translated by Google
Xử lý dữ liệu nhiễu
Tiếng ồn là một lỗi ngẫu nhiên hoặc
phương sai trong một biến đo lường
1. Chia thành
Phân cụm
21
Machine Translated by Google
Ví dụ 5
Áp dụng Binning cho dãy: (N=3)
22
Machine Translated by Google
nội dung
1 Giới thiệu
5 Giảm dữ liệu
23
Machine Translated by Google
Các vấn đề: Tích hợp lược đồ, khớp đối tượng, dư thừa, không nhất quán
Sự dư thừa có thể được phát hiện bằng phân tích tương quan (đo lường
24
Machine Translated by Google
25
Machine Translated by Google
Ví dụ 6
Tính tương quan Pearson giữa các cặp thuộc tính (trừ Class)
26
Machine Translated by Google
27
Machine Translated by Google
Ví dụ 7
Tính tương quan Chi bình phương
28
Machine Translated by Google
Dữ liệu được chuyển đổi hoặc hợp nhất thành các dạng thích hợp cho
khai thác
Làm mịn: loại bỏ nhiễu khỏi dữ liệu bằng cách sử dụng tính năng tạo tệp, hồi quy,
phân cụm
Tổng hợp: dữ liệu có thể được tổng hợp để tính toán tổng số tiền hàng tháng và
hàng năm, ví dụ:
Khái quát hóa: dữ liệu cấp thấp (tuổi) được thay thế bằng các khái niệm
cấp cao hơn (thanh niên, trung niên và cao niên)
Chuẩn hóa: dữ liệu thuộc tính được thu nhỏ để nằm trong một phạm vi nhỏ
Xây dựng thuộc tính: các thuộc tính mới được xây dựng và thêm vào từ
29
Machine Translated by Google
Ví dụ 8
Tổng hợp dữ liệu theo lớp để thể hiện số lượng của từng thuộc tính theo lớp.
Tính một thuộc tính mới: total_length
30
Machine Translated by Google
Chỉ số Z
Tỉ lệ thập phân
31
Machine Translated by Google
Ví dụ 9
Chuẩn hóa từng thuộc tính bằng 3 phương pháp
32
Machine Translated by Google
nội dung
1 Giới thiệu
5 Giảm dữ liệu
33
Machine Translated by Google
5. Giảm dữ liệu
1. Tập hợp khối dữ liệu: các phép toán tập hợp được áp dụng cho
dữ liệu trong việc xây dựng một khối dữ liệu
2. Lựa chọn tập hợp con thuộc tính: không liên quan, ít liên quan hoặc
các thuộc tính hoặc kích thước dư thừa được phát hiện và loại bỏ
3. Giảm kích thước: cơ chế mã hóa (PCA, Wavelet) được sử dụng để giảm kích
thước tập dữ liệu
4. Giảm số lượng: dữ liệu được thay thế hoặc ước tính bằng các biểu diễn dữ
liệu thay thế, nhỏ hơn
5. Sự rời rạc hóa và tạo phân cấp khái niệm: dữ liệu thô
giá trị cho các thuộc tính được thay thế bằng phạm vi hoặc mức độ khái niệm
cao hơn
34
Machine Translated by Google
Các khối dữ liệu cung cấp khả năng truy cập nhanh vào dữ liệu tóm tắt, được tính toán trước,
do đó mang lại lợi ích cho việc xử lý phân tích trực tuyến cũng như khai thác dữ liệu
35
Machine Translated by Google
2. Loại bỏ ngược từng bước: Quy trình bắt đầu với tập hợp đầy đủ các thuộc
tính và mỗi bước, loại bỏ thuộc tính xấu nhất còn lại trong tập hợp
3. Kết hợp chọn xuôi và loại bỏ lùi: mỗi bước quy trình chọn thuộc tính tốt
4. Cảm ứng cây quyết định: ID3, C4.5, GIỎ HÀNG được sử dụng để đạt được
đạt được thông tin tốt nhất
36
Machine Translated by Google
37
Machine Translated by Google
Biến đổi wavelet rời rạc (DWT) là tín hiệu tuyến tính
kỹ thuật xử lý chuyển đổi vectơ dữ liệu X thành vectơ
X0 của hệ số wavelet
38
Machine Translated by Google
39
Machine Translated by Google
Giảm số lượng
Giảm khối lượng dữ liệu bằng cách chọn các dạng thay thế, nhỏ hơn
Sự miêu tả dữ liệu
Phương pháp tham số: ước tính các phân bố xác suất rời rạc nhiều
chiều (Mô hình log-tuyến tính)
Các phương thức không tham số: lưu trữ các biểu diễn rút gọn của
dữ liệu (biểu đồ, phân cụm và lấy mẫu) • Biểu
đồ: phân vùng phân phối dữ liệu của A thành các tập con rời rạc, hoặc
xô. Nếu mỗi nhóm chỉ đại diện cho một cặp thuộc tính-giá trị/tần số, thì các nhóm đó
được gọi là nhóm đơn
•
Phân cụm: phân chia các đối tượng thành các nhóm hoặc cụm sao cho các đối tượng
trong một cụm “tương tự” với nhau và “không giống” với các đối tượng trong các cụm
khác
• Lấy mẫu: cho phép một tập dữ liệu lớn được biểu diễn bằng một tập dữ liệu nhỏ hơn nhiều
mẫu ngẫu nhiên (hoặc tập hợp con) của dữ liệu
40
Machine Translated by Google
41
Machine Translated by Google
42
Machine Translated by Google
nội dung
1 Giới thiệu
5 Giảm dữ liệu
43
Machine Translated by Google
6. Phân bổ dữ liệu
Các kỹ thuật rời rạc hóa dữ liệu có thể được sử dụng để giảm số lượng giá trị cho một
thuộc tính liên tục nhất định bằng cách chia phạm vi của thuộc tính thành các khoảng.
Các nhãn khoảng thời gian sau đó có thể được sử dụng để thay thế các giá trị dữ liệu thực tế
đóng thùng
44
Machine Translated by Google
đóng thùng
45
Machine Translated by Google
nội dung
1 Giới thiệu
5 Giảm dữ liệu
46
Machine Translated by Google
Tóm tắt dữ liệu mô tả cung cấp nền tảng phân tích cho tiền xử lý dữ liệu
Các quy trình làm sạch dữ liệu cố gắng điền vào các giá trị còn thiếu, loại bỏ nhiễu trong khi xác định
các ngoại lệ và sửa lỗi không nhất quán trong dữ liệu
Tích hợp dữ liệu kết hợp dữ liệu từ nhiều nguồn để tạo thành một dữ liệu nhất quán
cửa hàng
Chuyển đổi dữ liệu chuyển đổi dữ liệu thành các dạng thích hợp để khai thác
Rút gọn dữ liệu thu được biểu diễn giảm của dữ liệu trong khi giảm thiểu
mất nội dung thông tin
Sự rời rạc hóa dữ liệu tạo ra hệ thống phân cấp khái niệm cao hơn
47
Machine Translated by Google
câu hỏi
48
Machine Translated by Google
bài tập
49
Machine Translated by Google
50
Machine Translated by Google
51
Machine Translated by Google
52
Machine Translated by Google
C licktoeditcompanyslog một .