Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 4

1.

Kết quả mà khdl hướng đến là


 Tri thức và thông tin
2. Công cụ thống kê mô tả nào được sử dụng khi cần tổng hợp dữ liệu đa chiều
 PivotTable
3. Công cụ thống kê mô tả nào có thể sử dụng trong trường hợp dữ liệu 2 chiều
 Subtotal, Consolidate, PivotTable
4. Để hợp nhất dữ liệu từ nhiều bảng không cùng cấu trúc khác nhau ta sử dụng
 Tự làm bằng tay
5. Để tính chỉ số EMA của chứng khoán người ta sử dụng phương pháp nào sau đây
 Trung bình trượt
6. Để dự đoán xu hướng tăng/giảm của 1 mã chứng khoán bất kỳ dựa trên thông tin về giá cả,
lượng cổ phiếu mua vào và bán ra của các ngày trước đó. Ta sử dụng công cụ nào
 Hồi quy
7. Thuộc tính “loại khách hàng” có giá trị “VIP”
“Premium” và “economic” là thuộc tính thuộc kiểu dữ liệu
 Định danh
8. Có mấy cách dùng để xử lý dữ liệu bị thiếu
 3
9. Khi nào cần rời rạc hoá dữ liệu
 Dữ liệu thuộc kiểu số học
10. Phân lớp dữ liệu thuộc phương pháp
 có giám sát
11. Thuật toán phân lớp tham gia vaò quá trình nào sau đây trong mô hình phân lớp dữ liệu
 Dự đoán
12. Thuật toán phân lớp nào sau đây cho phép xử lý trên nhiều kiểu/loại dữ liệu khác nhau
 Cây quyết định
13. Trong orange, biến có kiểu dữ liệu categorical là để chỉ các thuộc tính
14. Đối với bài toán phân lớp đa nhãn thì chỉ số đánh gía nào thường được dùng để đánh giá độ
hiệu quả của mô hình phân lớp
 F1 – score
15. Giá trị a[i;j] trong ma trận nhầm lẫn (confusion matrix) cho biết
 Số lượng mẫu i được phân nhầm vào mẫu j
16. Phương pháp chọn mẫu dữ liệu nào sau đây dùng để khắc phục tình trạng over-fitting
 Đánh giá chéo (k – fold cross validation)
17. Một người bị nghi ngờ bệnh lao đi thực hiện xét nghiệm. Nếu kết quả xét nghiệm cho
thấy người này bị lao trong khi anh ta thật sự không mắc bệnh lao. Trường hợp này,
được gọi là
 Tỷ lệ báo động nhầm

18. Phân cụm dữ liệu là thuộc phương pháp


 Không giám sát
19. Một phương pháp phân cụm tốt là phương pháp cho kết quả phân cụm mà trong đó
 Độ tương đồng bên trong cụm cao, đồng thời độ tương đồng giữa các cụm thấp.
20. Thuật toán nào sau đây cho phép một phần tử có thể thuộc về một hoặc nhiều cụm khác
nhau
 Fuzzy C-mean
21. Thuật toán phân cụm nào sau đây không cần biết trước số cụm
 Agnes
22. Trong Orange, đối với thuật toán phân cụm phân cấp (HAC) để có được kết quả phân cụm
với số lượng cụm cụ thể ta cần làm gì?
 Chọn đường cắt phù hợp trên cây phân cấp kết quả.
23. So sánh kết quả giữa các mô hình để xem xét tính hiệu quả của việc phân cụm thuộc
cách đánh giá nào sau đây
 Đánh giá ngoài
24. Trong Orange, đối với thuật toán K-mean, tham số đầu vào nào sau đây dùng để kiểm soát
trong trường hợp dữ liệu hội tụ chậm hoặc không hội tụ
 Số lượng cụm (number of cluster)
25. Thuật toán phân liệu tham gia vào quá trình nào trong phân lớp dữ liệu
 Huấn luyện
26. Khoa học dữ liệu là một lĩnh vực giao thoa giữa
 Toán học/thống kê, khoa học máy tính, kiến thức chuyên ngành
27. Thuật toán gom cụm nào sau đây không cần biết trước số cụm
 Diana
28. So sánh kết quả giữa các thuật toán phân cụm khác nhau để xem xét tính hiệu quả của mô
hình phân cụm thuộc loại đánh giá nào
 Đánh giá tương đối
29. Khi nào ta cần rời rạc hoá dữ liệu
 Dữ liệu thuộc kiểu số học
30. Định dạng dữ liệu nào sau đây khác với các dữ liệu còn lại
 Dữ liệu số (khác với video, âm thanh, ảnh)
31. Quy trình khai thác dữ liệu gồm
 6 bước

You might also like