Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 13

TRƯỜNG ĐẠI HỌC CẦN THƠ

KHOA CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG

ĐỒ ÁN MÔN KHAI KHOÁNG DỮ LIỆU

Người hướng dẫn: Sinh viên thực hiện:

TS. LƯU TIẾN ĐẠO

Cần Thơ, 9/2023


https://colab.research.google.com/drive/1x11ZRWv7v-NboXfgHGvmPPRNiWJadouS?
usp=sharing

CHƯƠNG 1 GIỚI THIỆU

I. Giới Thiệu
Hạt giống lúa là một trong những yếu tố quan trọng quyết định năng suất và chất lượng
sản phẩm lúa. Việc phân loại hạt giống lúa theo các đặc điểm quan trọng như khả năng
chống bệnh, sức chịu đựng với thời tiết khắc nghiệt và hiệu suất sinh trưởng có vai trò
quan trọng trong việc đảm bảo sự phát triển bền vững của ngành nông nghiệp lúa. Trong
quá trình phát triển khoa học và công nghệ, cây quyết định (decision tree) đã trở thành
một công cụ mạnh mẽ trong việc phân loại và dự đoán dữ liệu. phần nghiên cứu này sẽ
tập trung trình bày về ứng dụng của cây quyết định trong phân loại hạt giống lúa, mục
tiêu là tạo ra các mô hình dự đoán hiệu quả để giúp nâng cao chất lượng sản phẩm nông
nghiệp.
II. Đặt vấn đề
 Tình hình hiện tại
Nhu cầu về lượng lúa sản xuất ngày càng tăng cao để đáp ứng nhu cầu của dân số đang
gia tăng. Đồng thời, biến đổi khí hậu và các yếu tố bệnh hại đã và đang gây ra những
thách thức mới cho ngành nông nghiệp. Để đối mặt với những thách thức này, việc sử
dụng hạt giống lúa có khả năng thích nghi cao, chống bệnh tốt và mang lại năng suất ổn
định trở nên cực kỳ quan trọng. Tuy nhiên, việc lựa chọn và phân loại hạt giống theo cách
truyền thống dựa trên quan sát và kinh nghiệm cá nhân có thể gặp phải nhiều hạn chế.
Đây là lý do vì sao việc ứng dụng khoa học máy, đặc biệt là cây quyết định, trong việc
phân loại hạt giống lúa có tiềm năng thúc đẩy sự tiến bộ trong ngành nông nghiệp.
 Những thách thức cần giải quyết
Mặc dù việc ứng dụng cây quyết định trong phân loại hạt giống lúa mang lại nhiều lợi
ích, nhưng cũng đặt ra một số thách thức cần phải giải quyết. Dữ liệu thu thập được cần
phải đảm bảo chính xác và đủ lớn để đào tạo mô hình một cách hiệu quả. Sự phức tạp của
quá trình sinh trưởng của lúa cũng đòi hỏi phải xem xét nhiều yếu tố đa dạng, từ điều
kiện môi trường đến di truyền. Mô hình cây quyết định cần phải được tinh chỉnh để đảm
bảo tính linh hoạt và khả năng áp dụng rộng rãi.
 Giải pháp và tiềm năng
Tuy các thách thức trên tồn tại, việc ứng dụng cây quyết định trong phân loại hạt giống
lúa vẫn có tiềm năng lớn để cải thiện năng suất và chất lượng lúa. Việc tận dụng dữ liệu
cũng như kết hợp với các phương pháp khác của khoa học máy có thể giúp tạo ra những
mô hình phân loại chính xác và hiệu quả hơn. Sự phát triển trong lĩnh vực này có thể
đóng góp vào sự bền vững của ngành nông nghiệp và giúp nâng cao đời sống của người
dân.
CHƯƠNG 2 PHÂN TÍCH DỮ LIỆU

Thông tin về tập dữ liệu:


- Nhóm được kiểm tra: Bao gồm các hạt giống lúa mì Kama, Rosa và Canada. Mỗi
loại có 70 hạt, được chọn ngẫu nhiên cho thí nghiệm.
- Phương pháp ghi hình: Sử dụng kỹ thuật X-quang mềm để ghi lại hình ảnh cấu
trúc nhân bên trong của hạt giống. Phương pháp này không phá hủy và rẻ hơn so
với các kỹ thuật hình ảnh khác.
- Kích thước hình ảnh: Các hình ảnh được ghi lại trên tấm KODAK tia X có kích
thước 13x18 cm.
- Nguồn gốc: Các hạt lúa mì được thu hoạch từ cánh đồng thí nghiệm tại Viện Vật
lý nông nghiệp thuộc Viện Hàn lâm Khoa học Ba Lan ở Lublin.
Các thông số hình học đã được đo:
- Diện tích (A): Được đo để xác định diện tích bề mặt của hạt giống.
- Chu vi (P): Đo để xác định chu vi xung quanh hạt giống.
- Độ nén chặt (C): Tính bằng công thức C = 4 * π * A / P^2. Được sử dụng để đánh
giá mức độ nén chặt của hạt.
- Chiều dài của hạt: Đo để xác định chiều dài của hạt giống.
- Chiều rộng của hạt: Đo để xác định chiều rộng của hạt giống.
- Hệ số bất đối xứng: Đo để đánh giá mức độ bất đối xứng của hạt giống.
- Chiều dài rãnh nhân: Đo để xác định chiều dài của rãnh nhân bên trong hạt giống.
Tất cả các thông số hình học trên đều có giá trị thực liên tục, cho phép mô tả chi
tiết về hình dáng và cấu trúc của các hạt giống lúa mì trong tập dữ liệu.
Các phép đo đặc tính hình học của hạt thuộc ba loại lúa mì khác nhau. Một kỹ
thuật X-quang mềm và gói GRAINS đã được sử dụng để xây dựng tất cả bảy thuộc tính
có giá trị thực.
Các thông số hình học được đo và mục đích của chúng trong việc huấn luyện mô
hình cây quyết định để phân loại hạt giống lúa có thể được phân tích như sau:
Diện tích (A): Diện tích bề mặt của hạt giống. Thông số này có thể liên quan đến
kích thước tổng thể của hạt và có thể ảnh hưởng đến khả năng thụ phấn, sinh trưởng và
năng suất của cây lúa. Trong mô hình cây quyết định, diện tích có thể được sử dụng để
phân loại các hạt giống theo kích thước và khả năng sinh trưởng.
Chu vi (P): Chu vi xung quanh hạt giống. Chu vi có thể liên quan đến độ dẻo dai
và sức bền của hạt. Trong mô hình cây quyết định, thông số này có thể giúp phân loại hạt
theo độ bền và khả năng chống lại các tác động từ môi trường.
Độ nén chặt (C): Được tính bằng công thức C = 4 * π * A / P^2. Thông số này thể
hiện mức độ nén chặt của hạt giống. Độ nén chặt có thể ảnh hưởng đến khả năng thụ
phấn và tác động của môi trường lên hạt giống. Trong mô hình cây quyết định, độ nén
chặt có thể được sử dụng để phân loại hạt theo tính chất vật lý.
Chiều dài của hạt: Chiều dài tổng thể của hạt giống. Thông số này có thể liên quan
đến độ dài của thân cây và cơ cấu của hạt giống. Trong mô hình cây quyết định, chiều dài
của hạt có thể được sử dụng để phân loại hạt theo loại cây trồng.
Chiều rộng của hạt: Chiều rộng tổng thể của hạt giống. Thông số này cũng có thể
ảnh hưởng đến diện tích và hình dáng tổng thể của hạt. Trong mô hình cây quyết định,
chiều rộng của hạt có thể giúp phân loại hạt theo hình dáng.
Hệ số bất đối xứng: Đo lường mức độ bất đối xứng của hạt giống. Thông số này
có thể liên quan đến độ đẹp và độ đồng đều của hạt. Trong mô hình cây quyết định, hệ số
bất đối xứng có thể được sử dụng để phân loại hạt theo tính đồng đều và thẩm mỹ.
Chiều dài rãnh nhân: Đo lường chiều dài của rãnh nhân bên trong hạt giống.
Thông số này có thể liên quan đến cấu trúc nội bộ của hạt. Trong mô hình cây quyết định,
chiều dài rãnh nhân có thể được sử dụng để phân loại hạt theo cấu trúc nội bộ.
CHƯƠNG 3 CƠ SỞ LÝ THUYẾT

Cây quyết định là một thuật toán học máy được sử dụng rộng rãi trong việc phân
loại và dự đoán dữ liệu. Cây quyết định hoạt động bằng cách xây dựng một cây có cấu
trúc phân nhánh, trong đó mỗi nút đại diện cho một thuộc tính và mỗi nhánh đại diện cho
một giá trị của thuộc tính. Việc phân loại được thực hiện bằng cách đi xuống từ gốc cây
đến lá cây dựa trên giá trị của các thuộc tính.
Trong lĩnh vực máy học, cây quyết định là một kiểu mô hình dự báo (predictive
model), nghĩa là một ánh xạ từ các quan sát về một sự vật/hiện tượng tới các kết luận về
giá trị mục tiêu của sự vật/hiện tượng. Mỗi một nút trong (internal node) tương ứng với
một biến; đường nối giữa nó với nút con của nó thể hiện một giá trị cụ thể cho biến đó.
Mỗi nút lá đại diện cho giá trị dự đoán của biến mục tiêu, cho trước các giá trị của các
biến được biểu diễn bởi đường đi từ nút gốc tới nút lá đó. Kỹ thuật học máy dùng trong
cây quyết định được gọi là học bằng cây quyết định, hay chỉ gọi với cái tên ngắn gọn
là cây quyết định.
Học bằng cây quyết định cũng là một phương pháp thông dụng trong khai phá dữ
liệu. Khi đó, cây quyết định mô tả một cấu trúc cây, trong đó, các lá đại diện cho các
phân loại còn cành đại diện cho các kết hợp của các thuộc tính dẫn tới phân loại đó. Một
cây quyết định có thể được học bằng cách chia tập hợp nguồn thành các tập con dựa theo
một kiểm tra giá trị thuộc tính. Quá trình này được lặp lại một cách đệ quy cho mỗi tập
con dẫn xuất. Quá trình đệ quy hoàn thành khi không thể tiếp tục thực hiện việc chia tách
được nữa, hay khi một phân loại đơn có thể áp dụng cho từng phần tử của tập con dẫn
xuất.
Trong nông nghiệp, ứng dụng của cây quyết định là vô cùng đa dạng. Chẳng hạn,
cây quyết định có thể được sử dụng để dự đoán thời gian thu hoạch, ước tính năng suất,
phân loại loại cây trồng và cả phân loại hạt giống.
CHƯƠNG 4 THIẾT KẾ VÀ CÀI ĐẶT

1. Thu thập dữ liệu: Để xây dựng mô hình phân loại hạt giống lúa, cần thu thập dữ
liệu về các đặc điểm quan trọng của hạt giống.

Tập dữ liệu gồm 210 mẫu với mỗi mẫu là gồm 7 thuộc tính khác nhau như đã phân
tích ở chương 2 và nhãn gồm 3 loại chính đại diện cho 3 loại hạt lúa là Kama, Rosa and
Canadian
Các giá trị phân bổ đều giữa diện tích hạt và chu vi hạt nằm trong khoảng 13 - 20
Trong đó các loại hạt thu thập có chiều dài trung bình là 5,25 - 6 với thấp nhất là
10 còn cao nhất là 40
Ngoài ra tỉ lệ giữa diện tích hạt và độ đối xứng của hạt nằm ở khoảng 12 và 20
Dữ liệu thu thập có tính căn bằng trên các loại hạt số lượng dữ liệu thu tập trên 3
loại hạt là xấp xỉ nhau
2. Xử lý dữ liệu: Dữ liệu thu thập được cần được tiền xử lý để loại bỏ nhiễu như loại
bỏ các giá trị rỗng và chuẩn hóa các giá trị. Điều này đảm bảo rằng mô hình cây
quyết định hoạt động hiệu quả.
3. Xây dựng cây quyết định: Bằng cách sử dụng dữ liệu đã được tiền xử lý, có thể
xây dựng cây quyết định để phân loại hạt giống lúa dựa trên các đặc điểm của
chúng.
4. Đào tạo và đánh giá mô hình: Mô hình cây quyết định cần được đào tạo bằng cách
sử dụng một phần dữ liệu để học và sau đó đánh giá hiệu suất của mô hình bằng
cách sử dụng phần dữ liệu còn lại.
Quá trình đánh giá mô hình thu lại kết quả cao với độ chính xác dựa trên tập dữ
liệu kiểm tra là 83%
Trong đó

Độ sai sót trên mỗi lớp tương đối ít, tỉ lệ đúng của lớp Rosa là cao nhât 2/14 ~ 86% và tỉ
lệ đúng của lớp Canada là thấp nhất 3/17 ~ 83% từ biểu đồ trên cho ta thấy được mô hình
được xây dựng từ tập dữ liệu này dự đoán chính xác nhất với các hạt thuộc lớp rosa.
5. Dự đoán và ứng dụng: Sau khi mô hình được đào tạo và kiểm tra, nó có thể được
sử dụng để dự đoán và phân loại hạt giống lúa mới dựa trên các đặc điểm của
chúng. Điều này. giúp nâng cao chất lượng và hiệu suất của các sản phẩm nông
nghiệp.
CHƯƠNG 5 KẾT QUẢ

Trong bối cảnh năng suất và chất lượng nông sản ngày càng được quan tâm, ứng
dụng cây quyết định trong phân loại hạt giống lúa mang lại nhiều lợi ích đáng kể. Việc sử
dụng công nghệ để tối ưu hóa quy trình phân loại hạt giống có thể đóng góp vào sự phát
triển bền vững của ngành nông nghiệp và đáp ứng nhu cầu thực phẩm của xã hội.
Ngoài ra để nâng cao mô hình cần:
 So sánh với các phương pháp phân loại khác: Đánh giá hiệu suất của cây quyết
định so với các thuật toán phân loại khác như Random Forest, SVM (Support
Vector Machine), hoặc Neural Networks. So sánh này sẽ giúp bạn hiểu được lợi
ích và hạn chế của mô hình cây quyết định trong việc phân loại hạt giống lúa.
 Tối ưu cây quyết định: Nghiên cứu và thực hiện các kỹ thuật tối ưu hóa cây quyết
định như cắt tỉa cây (pruning), tăng cường (boosting), hoặc tổng hợp (ensemble)
để tăng tính tổng quát và tránh tình trạng quá khớp (overfitting).
 Điều chỉnh siêu tham số: Tùy chỉnh các tham số của cây quyết định như chiều sâu
cây, số lượng mẫu tối thiểu trong các nút lá, hoặc hàm đo lường không chính quy
để cải thiện khả năng dự đoán của mô hình.
 Giải thích mô hình: Nghiên cứu và triển khai các phương pháp giải thích mô hình
cây quyết định như giải thích bằng đoán đối lập (counterfactual explanations) hoặc
tạo ra biểu đồ quyết định (decision plots) để hiểu cách mô hình ra quyết định và
tạo ra các giải thích cho dự đoán.
 Sử dụng dữ liệu đa nguồn: Nghiên cứu và kết hợp dữ liệu từ nhiều nguồn khác
nhau để cải thiện hiệu suất của mô hình. Ví dụ, bạn có thể sử dụng dữ liệu về
thông số sinh trưởng của cây lúa từ các trạm quan trắc, dữ liệu về đất đai từ cơ sở
dữ liệu địa lý, v.v.
 Ứng dụng thực tiễn: Nghiên cứu về cách triển khai mô hình cây quyết định trong
ứng dụng thực tế, ví dụ như ứng dụng di động để nhận dạng loại hạt giống lúa
hoặc tích hợp vào các hệ thống tự động thu hoạch và phân loại cây lúa.

You might also like