Tri thức và thông tin 2. Công cụ thống kê mô tả nào được sử dụng khi cần tổng hợp dữ liệu đa chiều PivotTable 3. Công cụ thống kê mô tả nào có thể sử dụng trong trường hợp dữ liệu 2 chiều Subtotal, Consolidate, PivotTable 4. Để hợp nhất dữ liệu từ nhiều bảng không cùng cấu trúc khác nhau ta sử dụng Tự làm bằng tay 5. Để tính chỉ số EMA của chứng khoán người ta sử dụng phương pháp nào sau đây Trung bình trượt 6. Để dự đoán xu hướng tăng/giảm của 1 mã chứng khoán bất kỳ dựa trên thông tin về giá cả, lượng cổ phiếu mua vào và bán ra của các ngày trước đó. Ta sử dụng công cụ nào Hồi quy 7. Thuộc tính “loại khách hàng” có giá trị “VIP” “Premium” và “economic” là thuộc tính thuộc kiểu dữ liệu Định danh 8. Có mấy cách dùng để xử lý dữ liệu bị thiếu 3 9. Khi nào cần rời rạc hoá dữ liệu Dữ liệu thuộc kiểu số học 10. Phân lớp dữ liệu thuộc phương pháp có giám sát 11. Thuật toán phân lớp tham gia vaò quá trình nào sau đây trong mô hình phân lớp dữ liệu Dự đoán 12. Thuật toán phân lớp nào sau đây cho phép xử lý trên nhiều kiểu/loại dữ liệu khác nhau Cây quyết định 13. Trong orange, biến có kiểu dữ liệu categorical là để chỉ các thuộc tính 14. Đối với bài toán phân lớp đa nhãn thì chỉ số đánh gía nào thường được dùng để đánh giá độ hiệu quả của mô hình phân lớp F1 – score 15. Giá trị a[i;j] trong ma trận nhầm lẫn (confusion matrix) cho biết Số lượng mẫu i được phân nhầm vào mẫu j 16. Phương pháp chọn mẫu dữ liệu nào sau đây dùng để khắc phục tình trạng over-fitting Đánh giá chéo (k – fold cross validation) 17. Một người bị nghi ngờ bệnh lao đi thực hiện xét nghiệm. Nếu kết quả xét nghiệm cho thấy người này bị lao trong khi anh ta thật sự không mắc bệnh lao. Trường hợp này, được gọi là Tỷ lệ báo động nhầm
18. Phân cụm dữ liệu là thuộc phương pháp
Không giám sát 19. Một phương pháp phân cụm tốt là phương pháp cho kết quả phân cụm mà trong đó Độ tương đồng bên trong cụm cao, đồng thời độ tương đồng giữa các cụm thấp. 20. Thuật toán nào sau đây cho phép một phần tử có thể thuộc về một hoặc nhiều cụm khác nhau Fuzzy C-mean 21. Thuật toán phân cụm nào sau đây không cần biết trước số cụm Agnes 22. Trong Orange, đối với thuật toán phân cụm phân cấp (HAC) để có được kết quả phân cụm với số lượng cụm cụ thể ta cần làm gì? Chọn đường cắt phù hợp trên cây phân cấp kết quả. 23. So sánh kết quả giữa các mô hình để xem xét tính hiệu quả của việc phân cụm thuộc cách đánh giá nào sau đây Đánh giá ngoài 24. Trong Orange, đối với thuật toán K-mean, tham số đầu vào nào sau đây dùng để kiểm soát trong trường hợp dữ liệu hội tụ chậm hoặc không hội tụ Số lượng cụm (number of cluster) 25. Thuật toán phân liệu tham gia vào quá trình nào trong phân lớp dữ liệu Huấn luyện 26. Khoa học dữ liệu là một lĩnh vực giao thoa giữa Toán học/thống kê, khoa học máy tính, kiến thức chuyên ngành 27. Thuật toán gom cụm nào sau đây không cần biết trước số cụm Diana 28. So sánh kết quả giữa các thuật toán phân cụm khác nhau để xem xét tính hiệu quả của mô hình phân cụm thuộc loại đánh giá nào Đánh giá tương đối 29. Khi nào ta cần rời rạc hoá dữ liệu Dữ liệu thuộc kiểu số học 30. Định dạng dữ liệu nào sau đây khác với các dữ liệu còn lại Dữ liệu số (khác với video, âm thanh, ảnh) 31. Quy trình khai thác dữ liệu gồm 6 bước