Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 5

arXiv:1811.08404v1 [cs.

CV] 20 Tháng
Mạng nơ-ron tích chập sâu để phân loại cây giống

Daniel Nkemelu, Daniel Omeiza, Nancy Lubalo


[Dnkemelu, Domeiza, nlubalo]@africa.cmu.edu

Trừu tượng

Nông nghiệp rất quan trọng đối với sự sống còn của con người và vẫn là động
lực chính của một số nền kinh tế trên thế giới; nhiều hơn như vậy ở các nền kinh
tế kém phát triển và đang phát triển. Với nhu cầu ngày càng tăng đối với thực
phẩm và cây trồng tiền mặt, do dân số toàn cầu ngày càng tăng và những thách
thức do biến đổi khí hậu gây ra, nhu cầu cấp bách là tăng sản lượng nông nghiệp
trong khi phải chịu chi phí tối thiểu. Các công nghệ thị giác máy trước đây được
phát triển để làm cỏ chọn lọc đã phải đối mặt với thách thức phát hiện cỏ dại
đáng tin cậy và chính xác. Chúng tôi trình bày các phương pháp phân loại cây
giống cây trồng với bộ dữ liệu chứa 4.275 hình ảnh của khoảng 960 loài thực vật
độc đáo thuộc 12 loài ở một số giai đoạn tăng trưởng. Chúng tôi so sánh hiệu
suất của hai thuật toán truyền thống và Mạng nơ-ron tích chập (CNN), một kỹ
thuật học sâu được áp dụng rộng rãi để nhận dạng hình ảnh, cho nhiệm vụ này.
Phát hiện của chúng tôi cho thấy các ứng dụng phân loại cây giống do CNN điều
khiển khi được sử dụng trong tự động hóa canh tác có khả năng tối ưu hóa năng
suất cây trồng và cải thiện năng suất và hiệu quả khi được thiết kế phù hợp.

1 Giới thiệu

Thực vật tiếp tục phục vụ như một nguồn thực phẩm và oxy cho tất cả sự sống trên trái đất. Ở các
châu lục như Châu Phi, nơi nông nghiệp chiếm ưu thế, tự động hóa quy trình canh tác thích hợp
sẽ giúp tối ưu hóa năng suất cây trồng và đảm bảo năng suất và tính bền vững liên tục. Việc
chuyển đổi ngành nông nghiệp bằng cách sử dụng các phương pháp canh tác thông minh có thể
thúc đẩy tăng trưởng kinh tế ở nhiều quốc gia. Theo [2], có một mối liên hệ chặt chẽ giữa tăng
năng suất và thịnh vượng kinh tế.
Một lý do chính làm giảm năng suất cây trồng là sự xâm lấn của cỏ dại trên đất nông nghiệp. Cỏ
dại thường không có giá trị hữu ích về thực phẩm, dinh dưỡng hoặc thuốc men nhưng chúng đã
tăng tốc độ tăng trưởng và cạnh tranh ký sinh với cây trồng thực tế về chất dinh dưỡng và không
gian. Các quy trình không hiệu quả như làm cỏ bằng tay đã dẫn đến tổn thất đáng kể và tăng chi
phí do lao động thủ công [3]. Nông nghiệp chính xác, với mục tiêu xác định các hệ thống hỗ trợ ra
quyết định trong quản lý trang trại để tối ưu hóa lợi nhuận trên đầu ra trong khi vẫn bảo tồn tài
nguyên, và hệ thống kiểm soát cỏ dại đã được phát triển nhằm tối ưu hóa năng suất và chi phí
trong khi giảm thiểu các thách thức về môi trường; Một số hệ thống robot đã được sử dụng để
làm điều này [4]. Các robot và máy thị giác cần có khả năng phát hiện chính xác và đáng tin cậy cỏ
dại từ các cây hữu ích. Các công nghệ thị giác máy được phát triển để làm cỏ chọn lọc phải đối
mặt với một thách thức về phát hiện cỏ dại đáng tin cậy và chính xác. Không dễ để xác định cỏ dại
do ranh giới cây trồng không rõ ràng, với nền đá hoặc cát khác nhau, và kết quả là, các phương
pháp phân loại truyền thống có khả năng thất bại trong nhiệm vụ này [5].
Trong công việc này, chúng tôi khám phá hiệu suất của các phương pháp thị giác máy tính truyền
thống trong nhiệm vụ này và chỉ ra rằng Mạng nơ-ron tích chập sâu (CNN) thực hiện công việc tốt
nhất trong việc phân loại cây giống. Trong thị giác máy tính, CNN đã được biết đến là mô hình trực
quan mạnh mẽ mang lại hệ thống phân cấp các tính năng cho phép phân đoạn chính xác. Chúng
cũng được biết là thực hiện dự đoán tương đối nhanh hơn các thuật toán khác trong khi vẫn duy
trì hiệu suất cạnh tranh cùng một lúc [6].

Hình 1: Biểu đồ cột cho thấy sự phân bố của các lớp thực vật khác nhau

Hình 2: Các mẫu hình ảnh ngẫu nhiên trong tập dữ liệu

1.1 Dữ liệu

Bộ dữ liệu được sử dụng, được cung cấp bởi nhóm Xử lý tín hiệu Đại học Aarhus, phối hợp với Đại
học Nam Đan Mạch, chứa một bộ 4275 hình ảnh của khoảng 960 loài thực vật độc đáo thuộc 12
loài ở một số giai đoạn tăng trưởng. Dữ liệu chủ yếu được nhắm mục tiêu cho nghiên cứu cố gắng
xác định các loài thực vật ở giai đoạn tăng trưởng ban đầu của chúng. Điều này cho phép nông
dân tiến hành làm cỏ trước khi cỏ dại bắt đầu cạnh tranh với cây trồng về dinh dưỡng. Thực hiện
phân đoạn hình ảnh ở giai đoạn này cũng dễ dàng hơn vì ít lá chồng lên nhau [7].

2 Công việc liên quan

[7] Trong bài báo của họ đã cung cấp một bộ dữ liệu nhằm mục đích phát hiện cỏ dại hoặc đốm
đốm trên mặt đất và cũng đề xuất một biện pháp chuẩn cho các nhà nghiên cứu để cho phép dễ
dàng so sánh kết quả phân loại. [8] Trước đây đã chứng minh tính hiệu quả của mạng lưới thần
kinh tích chập để tìm hiểu các biểu diễn tính năng không giám sát cho 44 loài thực vật khác nhau
với độ chính xác cao.
Trong quá trình khám phá kiến trúc phù hợp cho mô hình của chúng tôi, chúng tôi xem xét công
việc của [9] trong việc phân loại lá bằng cách sử dụng kiến trúc GoogLeNet và VGGNet. [10] đã
2
triển khai mô hình học sâu 26 lớp bao gồm 8 khối còn lại trong phân loại 10.000 hình ảnh của 100
loài cây cảnh, đạt tỷ lệ phân loại lên tới 91,78%.
[11] đã giải quyết vấn đề phân đoạn ngữ nghĩa dựa trên CNN của các cánh đồng cây trồng tách cây
củ cải đường, cỏ dại và nền chỉ dựa trên dữ liệu RGB bằng cách đề xuất CNN bộ mã hóa sâu để
phân đoạn ngữ nghĩa được cung cấp với hình ảnh 14 kênh lưu trữ các chỉ số thực vật và các thông
tin khác mà trong quá khứ đã được sử dụng để giải quyết phân loại cây trồng-cỏ dại.

3 Đường cơ sở: Sử dụng các thuật toán truyền thống


Xử lý dữ liệu Chúng tôi đã thực hiện tiền xử lý hình ảnh trên tập dữ liệu trước khi đào tạo các mô
hình. Đầu tiên sử dụng Guassian Blur, chúng tôi làm mịn hình ảnh, loại bỏ nội dung tần số cao và
sau đó chuyển đổi phiên bản mờ này sang không gian HSV. Chúng tôi đã tạo ra một mặt nạ bằng
cách chỉ định một loạt các giá trị màu có thể có của cây con sẽ được chụp và sử dụng xói mòn hình
thái với hạt nhân cấu trúc 11x11, chúng tôi có thể tạo ra hình ảnh cây giống tiền cảnh với hậu cảnh
bị trừ.
Dưới đây là hình ảnh của một tập hợp con của cây con trước và sau khi trừ nền.

(a) Kết quả phân đoạn nền

(b) Kết quả của các mẫu trong hình 2 với nền được phân đoạn

Hình 3: Hình ảnh của quá trình phân đoạn và một bản sao được phân đoạn của Hình 1.

Sau đó, chúng tôi thực hiện chuẩn hóa hình ảnh bằng cách trừ giá trị trung bình từ mỗi pixel, chia
cho độ lệch chuẩn và sau đó chia tỷ lệ dữ liệu trong phạm vi [0,1].

Hỗ trợ máy vector và hàng xóm gần nhất K Để thực hiện các bài kiểm tra cơ bản, chúng tôi sử
dụng các kỹ thuật mạng phi thần kinh: Hỗ trợ Máy vector (SVM) và bộ phân loại K-Nearest
Neighbors. Để tìm các tham số tối ưu cho từng mô hình, chúng tôi thực hiện tìm kiếm lưới bằng
cách sử dụng kết hợp các tham số. Đối với mô hình KNN, sử dụng các giá trị cho số lượng tham số
lân cận,√ n_neighbours,

Dao động từ [1, n], trong đó n = kích thước đầu vào, chúng tôi sử dụng tìm kiếm lưới để tìm mô
hình tốt nhất của chúng tôi để có, số lượng hàng xóm = 5 với trọng số đồng đều và độ chính xác là
56,84%.
Đối với trình phân loại SVM của chúng tôi, sử dụng kỹ thuật tìm kiếm lưới tương tự, chúng tôi thấy
các tham số tối ưu của chúng tôi là: tham số hình phạt của thuật ngữ lỗi, C = 5, kernel = tuyến tính
và giá trị gamma = auto sử dụng 1 / n_features làm hệ số kernel. Độ chính xác của chúng tôi cho
mô hình này là 61,2%.

3
4 Mạng nơ-ron tích chập (CNN): Kết quả và so sánh
Chúng tôi cố gắng sử dụng CNN cho vấn đề này. CNN đã được sử dụng rộng rãi cho các nhiệm vụ
phân loại hình ảnh đa dạng. Chúng tôi sử dụng hai loại bộ đầu vào; trường hợp đầu tiên khi chúng
tôi chuyển các pixel hình ảnh gốc và trường hợp thứ hai trong đó chúng tôi đã thực hiện xử lý sơ
bộ OpenCV dữ liệu hình ảnh đầu vào như trong đường cơ sở.
Kiến trúc mạng nơ-ron có 6 lớp chập. Mỗi đơn vị được theo sau với một đơn vị tuyến tính chỉnh
lưu (ReLU). Hai lớp tích chập đầu tiên có 64 bộ lọc, lớp tiếp theo có 128 trong khi lớp cuối cùng có
256. Mỗi lớp tích chập không có đệm. Sau mỗi cặp lớp chập, chúng ta có một lớp gộp tối đa để
giảm kích thước và giảm 10% để tránh quá lắp. Ở cuối sáu lớp tích chập là 3 lớp được kết nối đầy
đủ. Lớp được kết nối đầy đủ cuối cùng có hàm kích hoạt softmax xuất ra phân phối xác suất cho
mỗi lớp trong số 12 lớp. Chúng tôi sử dụng trình tối ưu hóa Adam với kích thước lô là 32 cho mỗi
bước và tổn thất entropy chéo có trọng số, để xử lý số lượng pixel mất cân bằng cho mỗi lớp.

Hình 4: Ma trận nhầm lẫn hiển thị phân loại chính xác trong đường chéo và phân loại sai.

Bảng 1: Bảng thể hiện hiệu suất của các thuật toán
Thuật toán Sự miêu tả Độ chính xác
(%)
KNN với phân đoạn nền OpenCV 56.84
SVM với phân đoạn nền OpenCV 61.47
CNN với sự chú ý 80.21
CNN với phân đoạn nền OpenCV 92.60
Đối với mô hình của chúng tôi sử dụng CNN với sự chú ý và không có phép trừ nền bằng OpenCV,
chúng tôi có được độ chính xác đào tạo là 98,9% và độ chính xác xác thực là 80,21%. Khi chúng tôi
xử lý trước dữ liệu bằng OpenCV trước khi đào tạo mô hình CNN, chúng tôi thu được độ chính xác
98,3% trên dữ liệu đào tạo và 92,6% trên dữ liệu xác thực. Chúng tôi thấy rằng bằng cách sử dụng
các kỹ thuật phân đoạn hình ảnh truyền thống và CNN, chúng tôi có thể tăng độ chính xác của
mình lên hơn 12% so với việc chỉ sử dụng CNN với sự chú ý.

5 Kết luận và công việc trong tương lai


Một mô hình học sâu hiệu quả để phân loại cây giống có thể giúp nông dân tối ưu hóa năng suất
cây trồng và giảm đáng kể thiệt hại. Trong bài báo này, chúng tôi đã đề xuất một phương pháp
mạng nơ-ron tích chập sâu để phân loại cây giống. Một bộ dữ liệu chứa hình ảnh của khoảng 960
loài thực vật độc đáo thuộc 12 loài ở một số giai đoạn tăng trưởng đã được sử dụng. Mô hình có
thể phát hiện và phân biệt cỏ dại với các loại cây khác trong tự nhiên. Một phiên bản cơ sở của hệ
thống được đề xuất đạt được độ chính xác khoảng 93%. Hệ thống được đề xuất có thể được mở
rộng để hoạt động với các cánh tay robot để thực hiện hoạt động làm cỏ thực tế trong các trang
trại lớn.

4
Đối với tương lai của công việc của chúng tôi, chúng tôi hình dung các phần mở rộng theo 3
hướng chính:

1. Đào tạo một mô hình với một bộ dữ liệu toàn diện hơn. Ví dụ: sử dụng cây giống phổ
biến hơn trong nông nghiệp châu Phi hoặc các bộ phận khác của thế giới kém phát triển /
đang phát triển khác với nông nghiệp Đan Mạch như được cung cấp trong bộ dữ liệu của
chúng tôi.
2. Thử nghiệm mô hình bằng cách sử dụng hình ảnh với nhiều cây trong một cảnh. Mặc dù
lợi thế của việc làm cỏ trong giai đoạn đầu của cây con là giảm thiểu những thách thức đi
kèm với sự chồng chéo, nhưng sẽ rất sâu sắc khi xem mô hình xác định các lớp thực vật
khác nhau như thế nào và có khả năng dự đoán tỷ lệ của các lớp hiện tại.
3. Mục tiêu dài hạn là có thể nhúng một mô hình tổng quát hơn vào một bộ điều khiển
cánh tay robot sẽ được sử dụng để thực hiện nông nghiệp chính xác ở các trang trại lớn.

Chúng tôi tin rằng với những kết quả đầy hứa hẹn trong việc phân loại cây giống, chúng tôi sẽ có
thể tự động hóa hoàn toàn quy trình kiểm soát cỏ dại trong các trang trại lớn và do đó giảm chi
phí và lao động thủ công đồng thời cải thiện năng suất và năng suất cây trồng.

Tham khảo
[1] S. Corral, A. Díaz, M. Monagas và E. García, Chính sách nông nghiệp và tác động của chúng đối
với giảm nghèo ở các nước đang phát triển: Bài học rút ra từ ba lưu vực nước ở Cape Verde,
Tính bền vững, tập 9, số 10, trang 1841, 2017.

[2] Vai trò của các tổ chức quốc tế trong phát triển kinh tế và giảm nghèo ở các nước đang phát
triển, Tổ chức Lương thực và Nông nghiệp Liên Hợp Quốc. Rome, 2018.
http://www.fao.org/3/I9900EN/i9900en.pdf URL

[3] Y. Gharde, P. Singh, R. Dubey và P. Gupta, Đánh giá năng suất và thiệt hại kinh tế trong nông
nghiệp do cỏ dại ở Ấn Độ, Bảo vệ thực vật, tập 107, trang 12–18, 2018.

[4] M. Dyrmann, Tự động phát hiện và phân loại cây giống cỏ dại trong điều kiện ánh sáng tự
nhiên, 2017. URL http://pure.au.dk/portal/files/114969776/
MadsDyrmannAfhandlingMedOmslag.pdf.

[5] A. Lee, So sánh mạng nơ-ron sâu và thuật toán thị giác truyền thống trong robot di động, Đại
học Swarthmore. 2017. URL https://www.cs.swarthmore.edu/
meeden/cs81/f15/papers/Andy.pdf

[6] W. Shang, S. Kihyuk, A. Diogo và L. Honglak, Hiểu và cải thiện mạng lưới thần kinh tích chập
thông qua các đơn vị tuyến tính chỉnh lưu được ghép nối, Hội nghị quốc tế về học máy, trang
2217-2225. 2016.

[7] T. Giselsson, R. Jørgensen, P. Jensen, M. Dyrmann và H. Midtiby, Một cơ sở dữ liệu hình ảnh
công cộng cho điểm chuẩn của các thuật toán phân loại cây giống, CoRR, abs / 1711.05458,
2017.

[8] S. Lee, C. Chan, S. Mayo và P. Remagnino, How deep learning extracts and learns leaf features
for plant classification, Pattern Recognition, vol. 71, pp. 1-13, 2017.

[9] Jeon, Wang-Su và Sang-Yong Rhee, Nhận dạng lá cây bằng cách sử dụng mạng nơ-ron tích
chập, Tạp chí Quốc tế về Hệ thống Thông minh và Logic mờ 17, số 1, trang 26-34. 2017.

[10]Y. Sun, Y. Liu, G. Wang và H. Zhang, Học sâu để nhận dạng thực vật trong môi trường tự nhiên,
Trí thông minh tính toán và khoa học thần kinh, 2017.

[11]A. Milioto, P. Lottes và C. Stachniss, Phân đoạn ngữ nghĩa thời gian thực của cây trồng và cỏ
dại cho robot nông nghiệp chính xác tận dụng kiến thức nền tảng trong CNN, cs. CV, 2018. URL
arXiv:1709.06764v2..

You might also like