Professional Documents
Culture Documents
Khaiphadulieu
Khaiphadulieu
Mục tiêu của dự án là phát triển một mô hình có thể dự đoán tuổi của một con bào
ngư hoàn toàn dựa trên các phép đo vật lý khác. Điều này sẽ cho phép các nhà
nghiên cứu ước tính tuổi của bào ngư mà không cần phải cắt vỏ và đếm số vòng.
1.2.2. Sử dụng các thuật toán KNN để xác định người nhận của chương trình
học bổng Smart Indonesia:
Chương trình học bổng Thẻ thông minh Indonesia (KIP) là một chương trình học
bổng của chính phủ
thông qua Bộ Tôn giáo của Cộng hòa Indonesia, được trao cho những sinh viên có
học lực khá nhưng kinh tế yếu kém. Đại học Nhà nước Hồi giáo Sultan Syarif
Kasim, Riau nhận sinh viên mới hàng năm, nhưng chỉ tiêu cho chương trình học
bổng KIP có giới hạn. Với hạn ngạch giới hạn cho chương trình KIP, cần có một
hệ thống có thể phân loại dữ liệu gửi từ các sinh viên đăng ký chương trình KIP, để
quá trình lựa chọn có thể
được thực hiện nhanh chóng, chính xác và phù hợp với hạn ngạch yêu cầu. Trong
nghiên cứu này, các thuật toán KModes và K-Nearest Neighbor (KNN) đã được sử
dụng bằng cách sử dụng dữ liệu về thành tựu, học bạ và điểm thi quốc gia khi học
cấp 3, thu nhập của bố, tình trạng của bố và tình trạng sở hữu nhà. Quá trình được
thực hiện bằng cách thực hiện các giai đoạn ban đầu, cụ thể là phân nhóm bằng
thuật toán K Modes, sau đó xác thực hoặc kiểm tra dữ liệu bằng cách áp dụng
phương pháp Xác thực chéo Tìm kiếm trong Lưới (GSCV) và cuối cùng là dự đoán
bằng thuật toán KNN. Thử nghiệm cho kết quả giá trị hiệu suất là 66,79% ..
PHẦN 2: CƠ SỞ LÝ THUYẾT
2.1. Khai phá dữ liệu là gì:
Data mining – khai phá dữ liệu là quá trình phân loại, sắp xếp các tập hợp dữ liệu
lớn để xác định các mẫu và thiết lập các mối liên hệ nhằm giải quyết các vấn đề
nhờ phân tích dữ liệu. Các MCU khai phá dữ liệu cho phép các doanh nghiệp có
thể dự đoán được xu hướng tương lai.
Quá trình khai phá dữ liệu là một quá trình phức tạp bao gồm kho dữ liệu chuyên
sâu cũng như các công nghệ tính toán. Hơn nữa, Data Mining không chỉ giới hạn
trong việc trích xuất dữ liệu mà còn được sử dụng để chuyển đổi, làm sạch, tích
hợp dữ liệu và phân tích mẫu.
Có nhiều tham số quan trọng khác nhau trong Data Mining, chẳng hạn như quy tắc
kết hợp, phân loại, phân cụm và dự báo. Một số tính năng chính của Data Mining:
Sau khi tiến hành các bước trên thì đây là bước chính của cả quá trình, ta sẽ tiến
hành khai thác và tìm kiếm tri thức.
Ta cần đánh giá lại xem trong các tri thức tìm được, ta sẽ sử đụng được những tri
thức nào, những tri thức nào dư thừa, không cần thiết
Ta biểu diễn tri thức vừa thu thập được dưới dạng ngôn ngữ tự nhiên và hình thức
sao cho người dùng có thể hiểu được những tri thức đó.
Ta lấy 3 giá trị có khoảng cách gần hình tam giác nhất. Trong 3 hình gần hình tam
giác có 2 hình màu tròn xanh và 1 hình vuông đỏ nên theo giải thuật knn thì hình
tam giác sẽ là hình tròn xanh.
Thuật toán sẽ lấy các giá trị x, y trên trục tọa độ của hình tam giác để tiến hành tính
toán khoảng cách đến các hình có giá trị x,y trên trục tọa độ theo công thức tính
khoảng cách:
Ví dụ tọa độ hình tam giác là 2,3. Và có 1 điểm ở gần là 4,5. Công thức tính
khoảng cách được áp dụng là: √ ( 2−4 )2 +(3−5)2=2.8
Thực hiện tương tự với hết tất cả các hình còn lại và lựa chọn ra k khoảng cách gần
nhất và theo ta chọn là 3. Nên cuối cùng ta xác định được nó là hình tròn xanh.
Ưu điểm: Với các bước như trên, chúng ta nhận thấy rằng thuật toán của KNN rất
đơn giản, dễ thực hiện, dễ cài đặt. Việc dự đoán kết quả thật là dễ dàng, độ phức
tạp của thuật toán nhỏ.
Nhược điểm:
Ý tưởng của thuật toán này là nó không học một điều gì từ tập dữ liệu học (nên
KNN được xếp vào loại lazy learning), mọi tính toán được thực hiện khi nó cần dự
đoán nhãn của dữ liệu mới.Nếu tập train của chúng ta có kích thước rất lớn, thì
việc duyệt qua tất cả các điểm dữ liệu để tính toán là rất mất thời gian, đặt biệt là
trong thời kỳ hiện nay thì dữ liệu thu thập được rất lớn
KNN rất nhạy cảm với dữ liệu nhiễu, đặc biệt là khi ta chọn K nhỏ. Việc này sẽ
dẫn đễn kết quả không tốt.
Ta cho chương trình đọc hình ảnh ra dưới dạng ảnh xám:
Ta cắt các ảnh nhỏ tương ứng với các số từ ảnh digits.png:
Tiến hành tạo các dữ liệu train và dữ liệu test, các dữ liệu sẽ được chuyển thành
dạng mảng 1 chiều dưới dạng float :
Tiến hành gán nhãn cho dữ liệu train, ví dụ khi đó là hình số 0 sẽ được gán là 0
Đưa vào dữ liệu nhận dạng(hình ảnh cần nhận dạng) ta cũng thực hiện việc chuyển
đổi dữ liệu như dữ liệu train
Áp dụng thuật toán knn tiến hành nhận dạng , trong trường hợp này k là 5 (lấy 5
giá trị gần với dữ liệu cần nhận dạng nhất)
3.3.Kết quả :
Khi ta đưa hình ảnh số 3 thì chương trình sẽ in ra kết quả nhận dạng là 3.
Ảnh nhận dạng: