Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 2

Tổng quan về khai phá dữ liệu

- 5 thành tố cơ bản để đặc tả một tác vụ khai phá dữ liệu


- Task relevant-data
+ task relevant-data: các dữ liệu hoặc thông tin mà cần được sử dụng để thực hiện một
tác vụ khai phá dữ liệu cụ thể hoặc để đạt được một mục tiêu cụ thể.
+ví dụ: Ví dụ, trong một tác vụ khai phá dữ liệu để dự đoán doanh số bán hàng của
một sản phẩm, task-relevant data có thể bao gồm các dữ liệu như lịch sử bán hàng,
chiến lược marketing, giá cả, và các yếu tố kinh tế khác có thể ảnh hưởng đến doanh
số bán hàng. Điều quan trọng là task-relevant data phản ánh chính xác mục tiêu của
tác vụ và cung cấp thông tin cần thiết để thực hiện quá trình khai phá dữ liệu.
- Kind of knowledge:
+Kind of knowledge: Mục tiêu của một tác vụ khai phá dữ liệu thường là trích xuất
một loại kiến thức cụ thể từ dữ liệu.
+Giả sử bạn đang thực hiện một tác vụ khai phá dữ liệu để dự đoán giá nhà dựa trên
các yếu tố khác nhau như diện tích, vị trí, số phòng, v.v. Loại kiến thức mà bạn mong
đợi từ tác vụ này có thể là một mô hình dự đoán chính xác về giá nhà dựa trên các
biến khác nhau. Kfk ở đây là dự đoán giá nhà
- Background knowledge:
+các kiến thức, kinh nghiệm hoặc thông tin trước đó mà một nhà nghiên cứu hoặc
chuyên gia sở hữu và áp dụng vào quá trình khai phá dữ liệu.
+Ví dụ: Dự đoán độ chính xác của một mô hình phân loại hoa Iris , Trong ví dụ này,
kiến thức nền về hoa Iris và các loài hoa được sử dụng để hiểu rõ hơn về dữ liệu và
chọn ra các đặc trưng quan trọng trong quá trình khai phá dữ liệu. Điều này giúp cải
thiện hiệu suất của mô hình phân loại và tạo ra các dự đoán chính xác hơn.
- Interestingness measures
+interestingness measures là các tiêu chí hoặc độ đo được sử dụng để đánh giá sự
"thú vị" của các mẫu hoặc kết quả được khai phá từ dữ liệu.
+ví dụ: Giả sử bạn là quản lý một siêu thị và muốn hiểu rõ hơn về cách mà các sản
phẩm được mua cùng nhau để tối ưu hóa việc trưng bày và quảng cáo. Bạn thu thập
dữ liệu từ hệ thống bán hàng và áp dụng phương pháp phát hiện luật kết hợp để tìm
ra các mẫu mua hàng phổ biến.

Sau khi áp dụng phương pháp này, bạn thu được các luật kết hợp như sau:

Luật 1: Bia và khoai tây chiên có confidence là 0.7


Luật 2: Bia và thịt nướng có confidence là 0.6
Luật 3: Rượu vang và sô cô la có confidence là 0.5
-

You might also like