Máy tính và điện tử trong nông nghiệp

You might also like

Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 10

Máy tính và Điện tử trong Nông nghiệp 97 (2013) 47–5 5

Danh sách nội dung có sẵnKhoa


tại học SciVerseDirec
t

Máy tính và điện tử trong nông nghiệp


Tra n g c h ủ t ạ p c h í : w w w. e l s e v i e r. c o m / l o c a t e /c o m p ag

Đánh giá so sánh các kỹ thuật lựa chọn và phân loại tính năng để kiểm tra trực
quan cây giống cây giống trong chậu
L.O.L.A. Silva ⇑, M.L. Koga 1, C.E. Cugnasca 1, A.H.R. Costa 1
Phòng thí nghiệm tự động hóa nông nghiệp (LAA), Đại học São Paulo (USP), Av. Giáo sư Luciano Gualberto, trav. 3, n. 158, CEP 05508-900 São Paulo, SP, Brazil

article info abstract

Lịch sử bài viết: Tính đồng nhất đóng một vai trò quan trọng trong sản xuất cây cảnh và hoa. Vì đánh giá chất lượng cây con là một cách hiệu
Nhận ngày 18 tháng 12 năm 2012 quả để dự đoán hiệu suất tăng trưởng của cây, một hệ thống tầm nhìn có khả năng thực hiện nhiệm vụ này là mong muốn.
Nhận được trong mẫu sửa đổi 30 May 2013 Được chấp Tuy nhiên, việc phân loại quang học các sản phẩm nông nghiệp phải tìm cách kết hợp kiến thức từ các chuyên gia của con
nhận 2 Tháng Bảy 2013 người vào giải pháp tính toán. Mục đích của chúng tôi là đánh giá các kỹ thuật lựa chọn tính năng liên quan đến việc thực
hiện kiểm tra dựa trên tầm nhìn và phân loại cây giống cây giống trong chậu. Một bộ tính năng lớn ban đầu được lấy từ hình
ảnh cây con và một số tập hợp con được tạo ra với các kỹ thuật lựa chọn tính năng khác nhau. Hiệu suất của mỗi tập hợp con
Từ khoá: được so sánh với một số phân loại phổ biến nhất trong tài liệu: Naive Bayes, k-Nearest Neighbors, Logistic Regression, C4.5,
Thị giác máy tính Random Forest, Multilayer Perceptron cũng như Partial Least Squares và Support Vector Machine Discriminant Analysis. Trình
Máy học phân loại và cấu hình tập hợp con tốt nhất được trình bày; Kết quả của chúng tôi cho thấy lựa chọn tính năng thực sự có lợi,
Nông nghiệp tạo ra mức tăng độ chính xác lên đến 7,4%.
Phân loại 2013 Elsevier B.V. Đã đăng ký Bản quyền.

1. Giới thiệu ⇑
Tác giả tương ứng. Điện thoại: +55 11 996199690, di động: +55 11 30915366.
Địa chỉ email: luiz.lamardo@usp.br (L.O.L.A. Silva). 1 Điện
Đánh giá chất lượng cây giống đã được chứng minh là một thoại: +55 11 30915366.
cách hiệu quả để dự đoán hiệu suất tăng trưởng (Mattsson,
1997) và do đó, tối ưu hóa sản xuất cây trồng. Nó không chỉ 0168-1699/$ - xem mặt trước 2013 Elsevier B.V. Đã đăng ký Bản quyền.
cho phép tối đa hóa việc sử dụng diện tích nhà kính, mà còn http://dks.doi.org/10.1016/j.compag.2013.07.001

cải thiện việc lập kế hoạch cho nhu cầu thị trường theo mùa cũng như phân tích thành phần chính để cô đọng thông tin được
(Faust và Heins, 1994). Bằng cách phân loại cây con trước khi cung cấp cho bộ phân loại Mạng nơ-ron (NN), trong trường hợp
trồng, tức là bằng cách phân loại chúng thành các loại khác của chúng để phân loại cyclamen phát triển đầy đủ. Timmermans
nhau theo một số tiêu chí, có thể có lựa chọn cây đồng nhất và Hulzebosch (1996) đã so sánh hiệu suất của phân tích phân
hơn, cho phép người trồng kiểm soát tốt hơn các điều kiện biệt thống kê, sử dụng cả phương pháp tuyến tính và bậc hai, với
phát triển như ánh sáng và nhiệt độ. hiệu suất của NN để thực hiện phân đoạn cụm màu cũng như
Với kịch bản này, một trong những vấn đề mà các nhà sản phân loại cây Saintpaulia và xương rồng. Lựa chọn tính năng đã
xuất cây trồng trong chậu phải đối mặt là làm thế nào để tự được thực hiện, nhưng chủ yếu là thủ công. Giá trị thống kê U của
động thực hiện phân loại cây giống. Thị giác máy tính cũng như các tính năng thu được được coi là thước đo tiềm năng phân biệt
các kỹ thuật nhận dạng mẫu đã được sử dụng phần lớn để tự đối xử của chúng. Zheng et al. (2006), trong một đánh giá về kỹ
động hóa các nhiệm vụ kiểm tra trực quan trong nhiều ngành thuật trích xuất tính năng hình ảnh, nhấn mạnh rằng hiệu suất
công nghiệp, nhưng khác với các hệ thống thị giác công nghiệp phân loại của các sản phẩm thực phẩm có thể được cải thiện bằng
thông thường, việc phân loại quang học các sản phẩm nông cách kết hợp một số lượng lớn các tính năng, chẳng hạn như màu
nghiệp phải đối phó với sự thay đổi vốn có của từng trường sắc, kích thước, hình dạng và kết cấu, nhưng không đề cập đến
hợp được phân tích. Hơn nữa, trong một số trường hợp, các cách lựa chọn tính năng nên được thực hiện để xác định bộ tính
tiêu chí liên quan cụ thể để phân loại chưa được thiết lập. Tất năng chính xác cần được đưa vào. Parsons et al. (2009) đã nghiên
cả điều này đặc biệt đúng đối với phân loại cây giống trong cứu việc bổ sung các phép đo lập thể để trích xuất tính năng và sử
chậu, trong đó thực tế không có hình thức hóa tồn tại. dụng mô hình hồi quy nhiều để điều tra ảnh hưởng của bộ tính
năng được xem xét đối với điểm chất lượng của sự phát triển của
Một số công trình đã tiếp cận các vấn đề kiểm tra trực
cây Panys, Dianthus, Viola và Cyclamen bên trong nhà kính; tuy
quan có tính chất tương tự, chẳng hạn như hoa, trái cây và các
nhiên, không có lựa chọn tính năng nào được thực hiện. Zhang và
sản phẩm nông nghiệp khác. Brons et al. (1993) đã sử dụng
Wu (2012) đề xuất một phương pháp phân loại mới dựa trên máy
Multiple Linear Regression như
vectơ hỗ trợ hạt nhân nhiều lớp để phân loại trái cây trong các
siêu thị thương mại. Họ sử dụng kết hợp các tính năng màu sắc,
kết cấu và hình dạng để tạo ra không gian tính năng, được giảm
48 L.O.L.A. Silva và cộng sự /Máy tính và Điện tử trong Nông nghiệp 97 (2013) 47–55
bằng cách sử dụng phân tích thành phần chính trước khi thực trong kiểm tra của con người (ví dụ: diện tích cây con có thể được
hiện bộ phân loại máy vectơ hỗ trợ đã sửa đổi của họ, đạt độ sử dụng làm xấp xỉ khối lượng của nó).
chính xác lên tới 88,2%. Costa et al. (2011) đã xem xét và nhấn
mạnh sự liên quan của các đặc điểm hình thái của các sản phẩm
3. Đánh giá và lựa chọn tính năng
nông nghiệp đối với một số khía cạnh của đánh giá chất lượng sản
phẩm, bao gồm phân loại và phân loại. Họ cũng đề xuất một cách
Mặc dù một mặt, một bộ tính năng toàn diện cho phép kết
tiếp cận để phân tích hình dạng tự động và sử dụng PLS-DA trong
hợp tốt hơn kiến thức ngầm, nó cũng có thể đưa thông tin dư
số các phương pháp mô hình hóa đa biến khác, cũng như hình
thừa hoặc không liên quan vào hệ thống. Điều này sẽ làm giảm
dạng và phương sai trung bình (trong các nhóm giống cây) làm kỹ
quá trình đào tạo, cũng như trình bày một không gian dữ liệu
thuật lựa chọn tính năng, nhưng phương pháp mô hình hóa hình
chiều cao để các bộ phân loại xử lý.
dạng được sử dụng phù hợp nhất cho các hình dạng sản phẩm
Quy trình loại bỏ các tính năng không liên quan hoặc dư
đơn giản như trái cây, rau và các loại hạt, và do đó không đủ để
thừa cho tác vụ cần học có thể cải thiện hiệu suất của bộ phân
phân tích hình dạng phức tạp hơn như trường hợp cây giống cây
loại và được chọn tính năng có mệnh giá hoặc đôi khi là lựa
trồng trong chậu.
chọn thuộc tính. Vấn đề lựa chọn tính năng liên quan đến việc
Mục tiêu của công việc này là đánh giá ảnh hưởng của việc lựa
tìm kiếm một tập hợp các tính năng tốt theo một số chức năng
chọn tính năng đối với hiệu suất kiểm tra và phân loại cây giống
khách quan, chẳng hạn như độ chính xác dự đoán (John et al.,
dựa trên thị giác máy tính, sau đó tìm ra sự phù hợp nhất giữa kỹ
1994). Nó có thể được xem như là một nỗ lực để giảm tính
thuật lựa chọn tính năng và phân loại để thực hiện tự động hóa
chiều của không gian dữ liệu được sử dụng trong quá trình
nhiệm vụ này.
nhận dạng mẫu. Bằng cách loại bỏ các tính năng không quan
Bài viết này được tổ chức như sau: Phần 2 mô tả vấn đề xác
trọng, độ chính xác của việc học, cũng như tính dễ hiểu của kết
định tính năng nào phải được trích xuất để đảm bảo rằng các
quả, có xu hướng cải thiện (Dash et al., 2002), tăng cường khả
thông tin liên quan đến nhiệm vụ cần học đã được nắm bắt. Phần
năng khái quát hóa và cải thiện khả năng diễn giải mô hình.
3 trình bày những nhược điểm của việc sử dụng một số lượng lớn
Các biến thể về độ chính xác dự đoán của một số bộ phân
các tính năng trong phân loại và giải thích cách khái niệm lựa chọn
loại được so sánh trong công trình này để đánh giá hiệu quả
tính năng có thể hữu ích để giảm thiểu vấn đề này. Các kỹ thuật
của việc lựa chọn tập hợp con tính năng để giải quyết vấn đề
khác nhau được sử dụng trong công việc này cũng rất chi tiết.
phân loại cây giống tím châu Phi.
Phần 4 trình bày ngắn gọn vấn đề phân loại cũng như từng thuật
Kỹ thuật lựa chọn tính năng có thể được chia thành hai loại:
toán đã được áp dụng trong công việc này để xác nhận tập con.
xếp hạng tính năng và lựa chọn tập hợp con. Trong xếp hạng
Phần 5 trình bày các tài liệu và phương pháp. Mục 5.1 nêu chi tiết
tính năng, các tính năng được xếp hạng riêng lẻ, theo một số
về việc thu thập và dán nhãn hình ảnh; Phần 5.2 giải thích quá
chỉ số và các tính năng có điểm thấp hơn sẽ bị xóa. Các kỹ thuật
trình xử lý hình ảnh được thực hiện, cũng như cách tính toán từng
lựa chọn tập hợp con tuân theo cùng một logic, với sự khác
tính năng; Phần 5.3 mô tả cách các tập hợp con tính năng cho
biệt là chức năng đánh giá của chúng tìm kiếm và xếp hạng các
người đánh giá xếp hạng được tạo ra và Phần 5.4 giải thích cách
bộ tính năng thay vì các tính năng riêng lẻ. Các thuật toán lựa
ước tính và xác nhận độ chính xác của bộ phân loại. Phần 6 thảo
chọn tập hợp con, lần lượt, có thể được chia chủ yếu thành hai
luận về kết quả thí nghiệm; và cuối cùng, Phần 7 được dành cho
loại khác: bộ lọc và trình bao bọc.
các kết luận.
Trình bao bọc chạy thuật toán tìm kiếm thông qua không
gian của các tính năng có thể và đánh giá từng tập hợp con
2. Kiến thức ngầm và định nghĩa tính năng trên một thuật toán học tập cụ thể. Chi phí tính toán của chúng
có thể bị cấm, đặc biệt là đối với các tập dữ liệu lớn và hơn
Việc thiếu các tiêu chí để phân biệt cây con thành các nhóm nữa, chúng phải được chạy lại bất cứ khi nào thuật toán học
phát triển đầy đủ là một thách thức. Các quy tắc phân loại nằm rải tập được thay đổi (Hall và Holmes, 2003). Các bộ lọc hoạt động
rác trong tâm trí của người trồng và chuyên gia. Đây là một ví dụ theo cách tương tự, nhưng chúng đánh giá không gian tập hợp
về kiến thức ngầm, loại kiến thức khó chuyển giao rõ ràng cho con bằng cách sử dụng một tiêu chí đơn giản hơn, ngoài thuật
người khác. toán học tập (do đó tên của chúng). Xếp hạng tính năng, cũng
Việc xây dựng một hệ thống dựa trên kiến thức ngầm phải đối như các phương pháp lọc, không phụ thuộc vào bất kỳ mô hình
mặt với quá trình khai thác và tiếp thu kiến thức đó. Rất khó để học tập nào, cho phép sử dụng các thuật toán học tập khác
các chuyên gia chỉ ra đâu là các tính năng liên quan được sử dụng nhau cho các tập hợp con được tạo. Chúng cũng thực thi
trong kiểm tra trực quan của họ và cách sử dụng chúng để thực nhanh hơn nhiều so với trình bao bọc và do đó, ba xếp hạng
hiện phân loại. Do đó, đó là một công việc tốn nhiều công sức và tính năng và một kỹ thuật lọc đã được xem xét trong công việc
khó khăn để có được các quy tắc rõ ràng để phân loại này. Một mô tả ngắn gọn về từng cái được cung cấp trong các
(Timmermans và Hulzebosch, 1996). Các thuật toán học máy cố phần sau.
gắng hiểu các tính năng khác nhau như thế nào giữa các lớp khác
nhau và tạo ra một mô hình phân loại tái tạo mẫu của chúng. Tuy
nhiên, để có hiệu quả, các tính năng liên quan để phân loại phải 3.1. Bộ chọn tính năng dựa trên tương quan (CFS)
được cung cấp cho các thuật toán này.
Một cách để vượt qua khó khăn này, do đó đảm bảo kết hợp CFS là phương pháp lọc được sử dụng trong công việc này.
kiến thức tốt hơn vào hệ thống, là trích xuất một tập hợp lớn các Nó áp dụng một hàm heuristic dựa trên tương quan để đánh
tính năng. Lý tưởng nhất, các tính năng nên liên quan chặt chẽ giá và xếp hạng không gian tập hợp con tính năng, sử dụng tìm
đến thông tin được thu thập cùng với các chuyên gia. Tuy nhiên, kiếm đầu tiên tốt nhất. Mục đích của việc đánh giá là để có
suy luận có thể được sử dụng để mở rộng thông tin được trích được một tập hợp con tính năng trong đó các tính năng có
xuất từ hình ảnh và, bất cứ khi nào một tính năng quá phức tạp tương quan cao với một lớp cụ thể trong khi không tương
hoặc không hiệu quả về mặt tính toán để có được, các xấp xỉ có quan với các tính năng khác, theo Hall (1999) và định nghĩa của
thể được sử dụng để đảm bảo ít nhất một phần thông tin đang ông về một tập hợp con có liên quan: ''Một tập hợp con tính
được nắm bắt. Đối với những trường hợp này, các tính năng phải năng tốt là một tập hợp chứa các tính năng có tương quan cao
có mối tương quan cao với các tính năng được sử dụng hiệu quả
L.O.L.A. Silva và cộng sự / Máy tính và Điện tử trong Nông nghiệp 97 (2013) 47–55 49
với (dự đoán của) lớp, nhưng không tương quan với (không dự được thiết lập. Trong công việc này, một thử nghiệm toàn diện
đoán được) lẫn nhau''. đã được thực hiện để xác định điểm cắt tối ưu cho mỗi bộ
Trong phương pháp này, các tính năng không liên quan có phân loại được sử dụng; Do đó, đánh giá độ nhạy của chúng
xu hướng bị bỏ qua khi mối tương quan của chúng với lớp đối với các kỹ thuật chọn tính năng.
thấp. Các tính năng dư thừa cũng có nghĩa là bị loại bỏ một khi
chúng có tương quan cao với một hoặc nhiều tính năng khác. 4. Thuật toán phân loại
Hàm đánh giá tập con được sử dụng là:
Trong học máy có giám sát, phân loại là vấn đề gán một lớp
kr (hoặc danh mục) cho một thể hiện hoặc quan sát. Trình phân
Cô 1/4 Cf ð1Þ pffiffiffiffi þ kðk 1Þrffffi loại dựa trên một tập hợp đào tạo có chứa một số ví dụ được
phân loại chính xác, tức là các cặp lớp phiên bản đã biết. Mỗi
trong đó k là số lượng các tính năng trong một tập con S nhất trường hợp được mô tả bởi một số tính năng và trình phân
định, rcf là trung bình tương quan lớp tính năng, r ff là tương loại phải ánh xạ tập hợp các tính năng này vào một lớp duy
quan tính năng-tính năng trung bình và Ms đại diện cho giá trị nhất. Đây là một vấn đề được nghiên cứu rộng rãi, do đó có rất
của S. Khi năm lần gấp liên tiếp không cải thiện điểm tập hợp nhiều thuật toán và cách tiếp cận để giải quyết nó. Bên cạnh
con tính năng trước đó, tìm kiếm sẽ dừng lại. phân loại, có một cách tiếp cận phân tích khác trong học tập có
3.2. Bình phương chi giám sát, được gọi là mô hình hóa. Các kỹ thuật mô hình hóa
không chỉ cho phép ánh xạ một đối tượng đến nhiều hơn một
Chi-Squared là một bài kiểm tra thống kê rất phổ biến đo lớp mà còn không cho ai (Aguzzi et al., 201, 2). Dù sao, các
lường tính độc lập của một tính năng với lớp. Do đó, nó có thể thuật toán học máy có thể được phân biệt liên quan đến lựa
dễ dàng được sử dụng làm số liệu để xếp hạng tính năng. Với chọn tính năng. Một mặt, có các thuật toán sử dụng tất cả các
giả thuyết rằng một tính năng độc lập với một lớp, sự phân kỳ tính năng có sẵn (ví dụ: hàng xóm gần nhất), trong khi ở đầu
giữa các phân phối Chi-Squared quan sát và dự kiến được sử bên kia, chúng tôi tìm thấy các cây quyết định tập trung mạnh
dụng để kiểm tra nó. Trong trường hợp của chúng tôi, các tính vào các tính năng quan trọng nhất và có xu hướng bỏ qua
năng có liên quan nhất là những tính năng bác bỏ giả thuyết những tính năng ít liên quan hơn (Hall và Holmes, 2003).
này. Do đó, bằng cách làm điều này cho tất cả các tính năng, Hiện tại có rất nhiều thuật toán phân loại có sẵn: Naïve Bayes,
chúng có thể được xếp hạng theo các giá trị thu được. Logistic Regression, k-Nearest Neighbors, C4.5, Random Forest,
Multilayer Perceptron, Partial Least Squares và Support Vector
3.3. Thu thập thông tin Machine Discriminant Analysis. Một mô tả ngắn về mỗi được trình
bày trong các phần tiếp theo.
Tăng thông tin là một số liệu khác được sử dụng để xếp
hạng tính năng. Như tên cho thấy, nó xem xét có bao nhiêu 4.1. Căn cứ dẫn đường
thông tin thu được để phân loại miễn là tính năng được xem
xét. Nó đo lường sự thay đổi entropy thông tin cho một tính Naïve Bayes là một thuật toán phân loại khá đơn giản. Nó ước
năng Fi: tính xác suất của mỗi lớp được đưa ra quan sát, chọn lớp có xác
suất cao nhất làm câu trả lời. Để làm như vậy, nó đưa ra một giả
InfoGain ðC; FiÞ 1/4 HðCÞ HðCjFiÞ trong đó:
định mạnh mẽ: rằng tất cả các tính năng đều độc lập, do đó làm
cho ước tính ít tốn kém hơn nhiều. Mặc dù giả định này có thể
không phải lúc nào cũng đúng, nhưng trong thực tế, Naïve Bayes
HðCÞ 1/4 XpðcÞlog2pðcÞ
c2C
có thể trình bày một hiệu suất tương đương với nhiều thuật toán
phức tạp hơn khác (Rish, 2001).
HðCjFÞ 1/4 XpðfÞXpðcjaÞlog2pðcjaÞ
f2F c2C
4.2. Hồi quy Logistic

Sử dụng số liệu này, các tính năng có thể được sắp xếp theo Hồi quy Logistic thực hiện phân tích hồi quy, nhưng nó khác
điểm số cá nhân của chúng, tùy thuộc vào lượng thông tin với hồi quy tuyến tính vì trong khi hồi quy tuyến tính cố gắng khớp
chúng cung cấp để phân loại. một đường thẳng (trong trường hợp 2D) với ranh giới giữa các
lớp, logistic phù hợp với đường cong sigma. Giống như Naïve
3.4. Tỷ lệ tăng Bayes, nó cũng là một Công cụ ước tính khả năng tối đa, tức là nó
ước tính xác suất của từng lớp (với các tính năng quan sát được)
Gain Ratio rất giống với Information Gain. Như có thể thấy và chọn lớp có giá trị cao nhất. 4.3. k-Hàng xóm gần nhất (kNN)
từ Eq. (5), sự khác biệt chính từ số liệu này so với số liệu trước
đó là nó đo mức tăng thông tin để phân loại liên quan đến Đây là một trong những thuật toán đơn giản nhất trong số tất
entropy của tính năng đã cho Fi: cả các thuật toán học máy. Nó phân loại đối tượng có lớp phổ biến
nhất trong số k Hàng xóm gần nhất của nó trong không gian tính
HðCÞ HðCjFiT HðFiÞ năng (phải áp dụng một số liệu, thường là Khoảng cách Euclidian).
Tuy nhiên, sự hiện diện của các tính năng ồn ào hoặc không liên
Tỷ lệ khuếch đại ðC;FiÞ 1/4 quan có thể làm giảm nghiêm trọng độ chính xác phân loại. Trong
H(C) là entropy của lớp C, H(C|F i) là entropy của lớp C cho tác phẩm này, k = 5 và bộ phân loại sau đó được gọi là 5NN.
trước Fi và H(Fi) là entropy của tính năng Fi.
Tăng thông tin, Chi bình phương và Tỷ lệ khuếch đại, như 4.4. C4.5
đã đề cập, là các số liệu có thể được sử dụng để đánh giá và
xếp hạng các tính năng theo mức độ liên quan của chúng với C4.5 tạo ra một cây quyết định bằng cách sử dụng tập huấn
nhiệm vụ cần học. Để thực hiện hiệu quả việc lựa chọn tính luyện, chọn tại mỗi nút của cây tính năng chia tốt nhất các mẫu
năng, chỉ nên sử dụng một phần của danh sách được xếp hạng thành hai tập hợp con. Và tiêu chí được sử dụng để chọn tính
để có thể tạo một tập hợp con tính năng. Do đó, điểm cắt phải
50 L.O.L.A. Silva và cộng sự /Máy tính và Điện tử trong Nông nghiệp 97 (2013) 47–55
năng này là Độ lợi thông tin, là sự khác biệt của entropy do sự 5. Vật liệu và phương pháp
phân tách (Quinlan, 1993).
5.1. Thu thập dữ liệu
4.5. Rừng ngẫu nhiên
Cây con được lấy từ giâm cành thực vật của cây phát triển đầy
Rừng ngẫu nhiên (Breiman, 2001) là một bộ phân loại kết hợp đủ. Vật liệu được cung cấp bởi một nhà kính thương mại nằm ở
nhiều cây quyết định sử dụng lớp dự đoán thường xuyên nhất làm Holambra, Brazil. Cây giống được thu thập trong mùa xuân năm
đầu ra của nó. Bên cạnh đó, nó là "ngẫu nhiên" bởi vì nó chọn một 2011. Phân loại được thực hiện bởi một chuyên gia địa phương.
tập hợp con ngẫu nhiên của các tính năng được sử dụng để xây Ông chia cây con thành bốn nhóm, phù hợp với tiềm năng tăng
dựng mỗi cây quyết định. Cách tiếp cận này trình bày một số lợi trưởng của chúng. Hình 1 mô tả một ví dụ của mỗi lớp. Tổng cộng
thế như xử lý hiệu quả các cơ sở dữ liệu lớn và bộ tính năng. Hơn có 75 cây giống cho mỗi lớp đã thu được.
nữa, nó là một trong những thuật toán chính xác nhất, được thử Việc chiếu sáng được thực hiện với hai đèn TL-D 15W / 75-
nghiệm với nhiều bộ dữ liệu (Caruana và Niculescu-Mizil, 2006). 650 Philips; Một mái vòm khuếch tán bán xi lanh được sử dụng
để giảm thiểu bóng và quang sai specular. Quá trình chụp ảnh
4.6. Perceptron đa lớp được thực hiện bằng máy ảnh kỹ thuật số Logitech QuickCam
Pro 4000 với độ phân giải 1,3 Megapixel màu và kích thước 640
Mạng thần kinh nhân tạo (ANN) đã xuất hiện trong những 480 pixel. Cân bằng trắng tự động đã tắt để tránh dao động
thập kỷ qua và đã được sử dụng rộng rãi để giải quyết các vấn đề màu giữa các hình ảnh. Khoảng cách giữa ống kính máy ảnh và
phức tạp trong thế giới thực trong một số lĩnh vực khác nhau, cây con là 200 mm. Màu sắc bề mặt của giá đỡ là màu xanh, để
chẳng hạn như sinh học hoặc tài chính. Kiến trúc phổ biến nhất tăng cường độ tương phản. Diện tích quét camera là 165.123
cho ANN là Multilayer Perceptron (MLP) với thuật toán đào tạo mm.
Backpropagation (Basheer, 2000). Ưu điểm của ANN và thiết lập Hai hình ảnh của mỗi cây con đã thu được, mỗi bên một
này là khả năng phân biệt dữ liệu phi tuyến, tính song song và hình ảnh, bằng cách xoay cây con 180 theo chiều dọc, do đó
thực tế là nó đã được chứng minh rằng nó có thể xấp xỉ tùy ý tốt tạo ra khoảng 150 hình ảnh của mỗi loại (tổng cộng 607 hình
bất kỳ hàm liên tục nào của n số thực (Cybenko, 1989). ảnh). Tất cả các hình ảnh được dán nhãn có thể được lấy trực
tuyến từ http://sites.google.com/site/seedlingsdatabase/. Các
4.7. Phân tích phân biệt bình phương tối thiểu một phần (PLS-DA) cây con được căn chỉnh sao cho cực rễ luôn ở bên phải của
hình ảnh.
PLS-DA là việc sử dụng hồi quy PLS cho mục đích phân biệt đối
xử hoặc phân loại. PLS là một kỹ thuật hồi quy được giới thiệu lần
đầu tiên bởi will (1975) dưới tên NIPALS (bình phương nhỏ nhất 5.2. Tính năng trích xuất
một phần lặp phi tuyến). Nó tập trung vào việc tối đa hóa phương
sai của các biến phụ thuộc được giải thích bởi các biến độc lập
(Haenlein và Kaplan, 200, 4). PLS-DA cũng có thể được xem như
một kỹ thuật giảm kích thước để tối đa hóa hiệp phương sai giữa
khối độc lập dự đoán X và khối phụ thuộc dự đoán Y cho mỗi
thành phần. Nó mô hình hóa mối quan hệ giữa X và Y bằng cách
sử dụng một loạt các bình phương nhỏ nhất cục bộ, do đó tên của
nó.

4.8. Hỗ trợ phân tích phân biệt đối xử máy vector (SVM-DA)

Tương tự như PLS-DA, SVM-DA cũng là việc sử dụng hồi quy


SVM để phân loại các trường hợp giữa các lớp khác nhau. Hồi quy
SVM thực hiện hồi quy tuyến tính trong tính năng chiều cao, đồng
thời, cố gắng giảm độ phức tạp của mô hình (Cherkassky và Ma,
2004). Khi một hàm tuyến tính không thể mô hình hóa các hệ
thống phức tạp, hồi quy SVM có thể được sử dụng để sử dụng các
hàm kernel để ánh xạ từ không gian ban đầu đến không gian tính
năng. Hàm có thể có nhiều dạng, do đó cung cấp khả năng xử lý
các trường hợp hồi quy phi tuyến. Các hạt nhân có thể được xem
như một ánh xạ dữ liệu phi tuyến đến một không gian tính năng
chiều cao hơn, đồng thời cung cấp một lối tắt tính toán bằng cách
cho phép các thuật toán tuyến tính hoạt động với không gian tính
năng chiều cao hơn.
L.O.L.A. Silva và cộng sự / Máy tính và Điện tử trong Nông nghiệp 97 (2013) 47–55 51
Thư viện OpenCV 2.3.1 được sử dụng để thực hiện tất cả tránh biến dạng do hình thành rễ góc, có thể làm cho trục dọc
các xử lý hình ảnh cần thiết để trích xuất tính năng. Các hình quá xa đối xứng cây con.
ảnh được nhị phân thành tiền cảnh (đối tượng cây con) và nền Quy trình này làm cho việc trích xuất tính năng trở nên bất
xem xét các giá trị cường độ của mỗi pixel, theo: biến một phần đối với phép xoay và bất biến đối với bản dịch.
Sau khi thu được trục dọc, một hộp giới hạn được căn chỉnh
một R þ b G þ c B < k với nó được tính toán và 5 tính năng được trích xuất: chiều dài,
chiều rộng, độ lệch tâm, diện tích hộp và chiếm đóng hộp (nền
trong đó R, G và B lần lượt là các giá trị cường độ điểm ảnh trước / nền sau trong hộp).
cho các kênh màu đỏ, xanh lá cây và xanh lam của hình ảnh. Vòng tròn giới hạn của tiền cảnh cũng được tính toán, cho
Các giá trị của a = 2, b = 4, c = 4 và k = 0 được sử dụng để phân phép thu được ba đặc điểm khác: diện tích vòng tròn, chiếm
đoạn thành công và được điều chỉnh thủ công. Giá trị thực chỉ đóng vòng tròn (tiền cảnh / hậu cảnh trong vòng tròn) và
ra một pixel nền trong khi các giá trị sai được coi là tiền cảnh. khoảng cách giữa tâm của nó và trung tâm cây con. Tương tự
Các pixel bị cô lập trong hình ảnh nhị phân đã bị xóa bằng cách như vậy, khoảng cách giữa điểm gốc và trung tâm hình ảnh
sử dụng bộ lọc trung bình. Một thao tác mở đã được thực hiện cũng được cung cấp dưới dạng xấp xỉ thô của mật độ vùng rễ
để loại bỏ lông rễ trong cây con, tiếp theo là một bộ lọc trung cây con.
bình khác để loại bỏ bất kỳ pixel nào còn lại khỏi quy trình này. Sự phân bố khối lượng cũng thu được, thông qua 16 hình
Một ví dụ về kết quả của các hoạt động này có thể được nhìn chữ nhật như trong Hình 4. Mỗi cái chiếm 1/16 tổng diện tích
thấy trong Hình 2. hộp giới hạn. Số lượng pixel nền trước bên trong mỗi hình chữ
Độ phân giải không gian của mỗi pixel thu được bằng cách tính nhật là giá trị được sử dụng cho các tính năng này.
trung bình chiều dài tính bằng milimét của hình ảnh chia cho số Để xử lý các tính năng của các đơn vị và thang đo khác
cột và chiều rộng của nó cho số hàng. Tính năng đầu tiên thu nhau một cách đồng nhất, tất cả chúng đều được chuẩn hóa,
được là diện tích cây con, được tính bằng cách tính tổng tổng số chia tỷ lệ giá trị của chúng trong phạm vi [0, 1].
pixel tiền cảnh, sau đó được chuyển đổi thành milimét bình
phương.
Để làm cho việc trích xuất một loạt các tính năng bất biến 5.3. Định nghĩa tập hợp con tính năng
để quay, trục dọc của cây con phải được tìm thấy. Một ước tính
tốt về trục này có thể đạt được bằng cách kết nối trung tâm Information Gain, Chi Squared và Gain Ratio là các số liệu
cây con với một điểm khác, đại diện cho vị trí gốc của nó trong xếp hạng các tính năng theo mức độ liên quan của chúng với
hình ảnh. Mặc dù trung tâm cây con có thể dễ dàng tìm thấy nhiệm vụ phân loại. Nói cách khác, họ đo lường sức mạnh
bằng cách tính trung bình tọa độ ngang và dọc của các pixel phân biệt đối xử của từng tính năng và liệt kê chúng theo thứ
tiền cảnh, nhưng không có cách chung nào để có được điểm tự giảm dần, từ phù hợp nhất đến ít liên quan nhất. Nhưng để
gốc. tạo ra một tập hợp con các tính năng, một điểm cắt phải được
Với thực tế là tất cả các cây con được căn chỉnh với gốc của thiết lập và chỉ các tính năng có thứ hạng cao hơn nó được sử
chúng ở bên phải của hình ảnh, điểm đại diện cho vị trí gốc dụng để phân loại. Vì những người xếp hạng cho
được ước tính bằng cách tính trung tâm của các pixel tiền cảnh
trong vùng quan tâm (ROI) 10 20 mm tập trung theo chiều dọc
vào điểm ngoài cùng bên phải của vùng tiền cảnh và căn phải
theo chiều ngang với nó. Một ví dụ có thể được nhìn thấy
trong Hình 3. Trung tâm ROI được sử dụng làm điểm rễ để

Hình 1. Ví dụ về từng lớp cây giống theo thứ tự giảm dần; từ (a) tiềm năng tăng trưởng tốt nhất đến (d) tiềm năng tăng trưởng tồi tệ nhất.
52 L.O.L.A. Silva và cộng sự /Máy tính và Điện tử trong Nông nghiệp 97 (2013) 47–55
6. Kết quả và thảo luận

Bảng 1 hiển thị kết quả xếp hạng 26 tính năng với mỗi người
đánh giá được nghiên cứu. CFS là người duy nhất có tiêu chí dừng
được thiết lập trước (như được giải thích trong Hall (1999)), và do
đó, khác với các nhà đánh giá khác, nó chỉ xếp hạng các tính năng
được chọn.
Khu vực cây giống đạt điểm đầu tiên cho tất cả các phương
pháp được xem xét và ngoài ra, kết quả chứng minh rằng không có
sự đồng thuận rõ ràng về các tính năng khác liên quan đến nhiệm
vụ phân loại. Đây là một kết quả được mong đợi ở một mức độ
nào đó, vì các chuyên gia cũng không thể hiện sự đồng thuận về
vấn đề này. Tuy nhiên, người ta có thể nhận thấy sự tương đồng
đáng chú ý trong kết quả đầu ra của phương pháp Chi Squared và
Information Gain, và một số phương pháp ít rõ ràng hơn nhưng
cũng có liên quan trong một phân tích rộng hơn. Diện tích vòng
Hình 3. Ví dụ về tính toán trục dọc cây giống. Điểm A là điểm ảnh tiền cảnh ngoài tròn bao quanh tối thiểu, khoảng cách trung tâm cơ sở và các khu
cùng bên phải, điểm B là trung tâm của vùng ROI và điểm C đại diện cho trung
tâm cây con. Đường thẳng nối điểm B và C cho trục dọc.
vực lưới 6, 7, 10 và 11 được xếp hạng tương tự tốt cho tất cả các
phương pháp được xem xét. Tương tự như vậy, các khu vực lưới
3, 4 và 16 cũng như vòng tròn trung tâm khoảng cách đều được
1 2 3 4 xếp ở nửa dưới.
Hình 5–7 vẽ kết quả của phương pháp định nghĩa tập con,
5 6 7 8 được sử dụng để xác định kích thước tập con tối ưu theo thứ tự
xếp hạng được cung cấp cho mỗi người đánh giá được sử dụng.
9 10 11 12
Logistic Regression là công cụ hoạt động hàng đầu cho tất cả các
13 14 15 16 nhà đánh giá được xem xét. Đường cong chính xác của nó rất
Hình 4. Thứ tự lưới được sử dụng để tính toán phân phối hàng loạt của cây con. mượt mà, với một vài biến đổi trên đường đi. Độ chính xác dự
Màu sắc thể hiện số lượng pixel thuộc về cây con (chứ không phải nền) trong mỗi
đoán đạt đến mức tối đa khi 12-17 tính năng có mặt trong tập
hình chữ nhật. Màu càng đậm, con số càng cao.
hợp con, và sau đó từ từ hạ xuống khi nhiều tính năng được thêm
vào. Lựa chọn tính năng không chỉ giảm gần một nửa số tính năng
Không có thông tin về nơi thực hiện cắt giảm, một cuộc tìm kiếm cần thiết để phân loại mà còn tăng tỷ lệ chính xác của nó lên 2,8%
toàn diện đã được thực hiện để xác định điểm cắt tối ưu cho mỗi khi so sánh với bộ tính năng đầy đủ.
trận đấu của người xếp hạng và phân loại. Random Forest đứng thứ hai, với hiệu suất tương tự như
Việc tìm kiếm được thực hiện bằng cách thêm dần các tính Multilayer Perceptron. Tỷ lệ phần trăm các trường hợp được phân
năng được xếp hạng thấp hơn vào tập hợp con. Ban đầu, tập hợp loại chính xác có hành vi thường xuyên trong số tất cả các nhà
con tính năng chỉ bao gồm tính năng được xếp hạng tốt nhất trong đánh giá, bắt đầu từ tỷ lệ thấp nhất và tăng theo cấp số nhân lên
danh sách. Hiệu suất của tập hợp con tính năng này được đánh đường cơ sở. Nó hầu như không hạ xuống khi tập hợp con đến
giá cho từng bộ phân loại, sử dụng xác thực chéo (như được giải gần hơn với bộ đầy đủ. Điều này rất phù hợp với lý thuyết hỗ trợ
thích trong Phần 5.4). Sau đó, tính năng tốt thứ hai được bao gồm phân loại này: nó tạo ra một số lượng lớn cây phân loại, tránh quá
và hiệu suất của tập hợp con mới này được đánh giá lại cho tất cả phù hợp với dữ liệu đào tạo và do đó, làm cho nó ít nhạy cảm hơn
các bộ phân loại. Quy trình này được lặp lại cho đến khi tập hợp với dữ liệu không liên quan hoặc dư thừa. Tuy nhiên, nó vẫn được
con tính năng bằng với toàn bộ các tính năng có sẵn, hoàn tất tìm hưởng lợi từ việc lựa chọn tính năng vì nỗ lực tính toán bổ sung
kiếm. cần thiết để trích xuất một số lượng lớn các tính năng không được
bù đắp bằng những cải tiến về độ chính xác dự đoán.
Perceptron đa lớp cho kết quả tốt thứ ba. Đường cong tỷ lệ
5.4. Xác thực chéo chính xác của nó hoạt động tương tự như Logistic, nhưng hiệu
suất giảm nhanh hơn khi nửa sau của các tính năng được thêm
Để đánh giá một bộ phân loại, xác thực chéo 10 lần đã được vào tập hợp con. Điều này có thể là do sự phức tạp nội tại của
áp dụng. Dữ liệu được chia thành 10 tập hợp con bổ sung và 10 mô hình này (tăng theo cấp số nhân khi bao gồm nhiều đầu
vòng phân tích đã được thực hiện. Trong mỗi vòng, một tập hợp vào hơn), làm nổi bật những lợi thế của việc lựa chọn tính năng
con được chọn làm bộ thử nghiệm và chín tập còn lại được sử về chi phí tính toán.
dụng làm bộ đào tạo để xây dựng bộ phân loại. Xác thực chéo 10 Đối với phương pháp k-Nearest Neighbors, đường cong
lần được lặp lại 15 lần, luôn ngẫu nhiên hóa các phân tách tập dữ chính xác có nhiều biến đổi và hiệu suất giảm nhanh chóng khi
liệu. Cuối cùng, trung bình của tất cả các kết quả được sử dụng có hơn 10-12 tính năng bắt đầu được đưa vào. Hiện tượng này
làm tỷ lệ chính xác. cho thấy độ nhạy cao của bộ phân loại này đối với dữ liệu
không liên quan và không nhất quán, như mong đợi. Mức tăng
độ chính xác thu được khi lựa chọn tính năng lên tới 7,4%.

Hình 2. Ví dụ về quá trình phân đoạn của hình ảnh cây con. (a) Ảnh gốc; (b) sau khi nhị phân hóa; (c) sau các thủ tục trung gian và mở.
L.O.L.A. Silva và cộng sự / Máy tính và Điện tử trong Nông nghiệp 97 (2013) 47–55 53
Phân loại C4.5 có hiệu suất kém, thường là phân loại tồi tệ Cuối cùng, độ chính xác của Naïve Bayes là tồi tệ nhất trong
thứ hai để phân loại cây giống. Ngoài ra, hành vi đường cong hầu hết các trường hợp. Đường cong chính xác hoạt động khác
chính xác của nó khác biệt hợp lý so với hành vi quan sát được nhau tùy thuộc vào phương pháp lựa chọn tính năng được sử
đối với phương pháp Rừng ngẫu nhiên, cũng dựa trên chiến dụng. Trong khi đối với Chi Squared và Information Gain, hiệu
lược "đầu tiên phù hợp nhất" để xử lý dữ liệu được cung cấp. suất giảm trong năm tính năng đầu tiên, và sau đó tăng lên
Độ chính xác tổng thể thấp hơn và hiệu suất giảm sau khi một trong năm tính năng tiếp theo, giảm nhẹ và dao động sau đó.
số tính năng nhất định được thêm vào tập hợp con. Điều này Đổi lại, đối với Tỷ lệ khuếch đại, hiệu suất đã tăng lên trong
có thể là do C4.5 chỉ có một cây để thực hiện phân loại, khiến bốn đến năm tính năng đầu tiên, và sau đó dao động hợp lý
nó khó trích xuất càng nhiều thông tin càng tốt từ dữ liệu được trước khi tiếp tục giảm suôn sẻ. Hành vi tương tự của lần đầu
cung cấp và việc quá tải có xu hướng xảy ra nhanh hơn. tiên
Bảng 1 và loại bỏ chúng là một trong những mối quan tâm chính của
Tính năng xếp hạng theo từng người đánh giá.
CFS.
Xếp hạng Chi bình phương Thu thập thông tin Tỷ lệ tăng CFS Về mặt kích thước, số lượng các tính năng cần
1 Cây giốngKhu vực Cây giốngKhu vực Cây giốngKhu vực Cây giốngKhu vực thiết để phân loại cây giống đã giảm đáng kể cho tất cả các
2 vòng trònKhu vực vòng trònKhu vựcvòng trònKhu vực vòng trònKhu vực phương pháp và, trong hầu hết các trường hợp, có liên
3 distBaseCentroid Distabescentroid Mesh06 vòng trònOcuppationquan đến việc cải thiện độ chính xác dự đoán. Hồi quy
4 chiều dài chiều dài chiều dài distBaseCentroid
5 RectArea RectArea lưới10 lưới06
Logistic có hiệu suất tốt nhất để phân loại cây giống và sau
6 lưới06 lưới06 Distabescentroid Mesh07 khi lựa chọn tính năng, kích thước dữ liệu đã giảm 10 và tạo
7 lưới10 lưới10 RectArea lưới10 ra mức tăng 2,8%. Độ chính xác của Random Forest không
8 chiều rộng chiều rộng lưới11 lưới11 cải thiện nhiều, nhưng làm giảm đáng kể số lượng tính năng
9 lưới07 lưới11 Độ giãn dài lưới15
10 lưới11 lưới07 lưới15 –
cần thiết để phân loại, và tuy nhiên vẫn đạt được một số
11 lưới01 lưới01 chiều rộng – hiệu suất.
12 Độ giãn dài lưới12 lưới07 –
13 lưới12 lưới13 lưới13 –
14 lưới13 Độ giãn dài lưới01 –
15 lưới08 lưới08 lưới14 –
16 lưới05 Vòng tròn Vòng tròn –
distCentroid distCentroid
17 distCentroidCircle lưới05 lưới02 –
18 lưới14 lưới14 lưới09 –
19 vòng trònOcuppation vòng trònLưới cuppation12 –
20 chỉnh sửaOcuppationchỉnh sửaOcuppation lưới05 –
21 lưới09 lưới02 lưới08 –
22 lưới02 lưới09 chỉnh sửaOcuppation–

23 lưới15 lưới15 vòng


trònOcuppation -
24 lưới04 lưới04 lưới04 –
25 lưới16 lưới16 lưới16 –
26 lưới03 lưới03 lưới03 –

hai trình đánh giá có thể được giải thích bằng


thứ tự xếp hạng tính năng gần như giống hệt
nhau của cả hai phương pháp, trong khi trình
đánh giá Tỷ lệ khuếch đại trình bày nhiều điểm
khác biệt hơn theo thứ tự các tính năng được
thêm vào, biện minh cho độ chính xác của nó
đường cong mô hình khác nhau khi so sánh với
hai phương pháp đầu tiên.
Hình 8 trình bày kết quả của từng kỹ thuật
đánh giá tính năng cho mỗi phương pháp phân
loại được xem xét, chỉ xem xét độ chính xác tối
đa đạt được trong số tất cả các kích thước tập
hợp con. Ngoài ra, kết quả CFS được bao gồm
trong sơ đồ này, vì chúng được lưu ý phù hợp
với phân tích trước đó.
Về mặt tăng độ chính xác, một số bộ phân
loại được hưởng lợi nhiều hơn từ lựa chọn tính
năng so với những bộ phân loại khác. Sự cải
thiện lớn nhất được thể hiện bởi 5NN, từ phân
loại tồi tệ nhất, xem xét bộ đầy đủ, để có thể
so sánh với những người biểu diễn hàng đầu,
sau khi lựa chọn tính năng. Logistic, C4.5 và
Naïve Bayes cho thấy một số cải tiến, trong khi
Random Forest gần như không bị ảnh hưởng.
CFS đặc biệt hữu ích cho các bộ phân loại k-
Nearest Neighbors và Naïve Bayes, điều này
nhất quán khi cả hai bộ phân loại đều rất nhạy
cảm với sự hiện diện của các tính năng dư thừa
54 L.O.L.A. Silva và cộng sự /Máy tính và Điện tử trong Nông nghiệp 97 (2013) 47–55

Hình 5. Biểu đồ tỷ lệ chính xác dự đoán theo số lượng các tính năng được xếp hạng Chi-Squared có trong tập hợp con.

Hình 6. Biểu đồ tỷ lệ chính xác dự đoán theo số lượng các tính năng được xếp hạng Information Gain có trong tập hợp con.

Hình 7. Biểu đồ tỷ lệ chính xác dự đoán theo số lượng các tính năng được xếp hạng Tỷ lệ tăng có trong tập hợp con.
PLS-DA và SVM-DA có cách tiếp cận nhúng để khác, cho thấy nó không phù hợp với nhiệm vụ phân loại cây
lựa chọn tính năng, giảm tính kích thước của giống.
chúng bằng cách tạo ra các tính năng mới là sự
kết hợp có trọng số của các tính năng gốc. Bằng
cách khẳng định trọng số cao hơn hoặc thấp hơn
cho các tính năng theo mức độ liên quan của
chúng, họ nhúng khái niệm lựa chọn tính năng
trong quá trình tính toán hồi quy. Hình 9 trình bày
kết quả cuối cùng, bao gồm tỷ lệ chính xác của bộ
phân loại PLS-DA và SVM-DA với các kết quả
trước đó. SVM-DA có tỷ lệ chính xác 76,92%, rất
gần với các giá trị được tạo ra bởi Random Forest,
Multilayer Perceptron và 5NN, và là độ chính xác
cao thứ ba thu được. Mặt khác, tỷ lệ chính xác
PLS-DA thấp hơn đáng kể so với các phân loại
L.O.L.A. Silva và cộng sự / Máy tính và Điện tử trong Nông nghiệp 97 (2013) 47–55 55
7. Kết luận giống và mang lại lợi nhuận chính xác lên tới 7,4%. Hơn nữa, lựa
chọn tính năng giảm từ 26 xuống 11 số lượng tính năng trung
Công trình này đã nghiên cứu ảnh hưởng và bình được sử dụng trong phân loại, tạo điều kiện thuận lợi cho
lợi ích của các kỹ thuật lựa chọn tính năng được bước trích xuất tính năng hình ảnh và cải thiện khả năng hiểu mô

Hình 8. Độ chính xác dự đoán đạt được với mỗi phương pháp lọc. Các số phía trên các thanh cho biết số lượng tính năng cần thiết.

Hình 9. Độ chính xác dự đoán cuối cùng bao gồm kết quả PLS-DA và SVM-DA.
áp dụng cho việc phân loại trực quan cây giống hình được tạo cũng như khả năng khái quát hóa.
trong chậu. Bằng cách đánh giá và chọn các tính Bộ phân loại KNN và Naïve Bayes là những bộ phân loại dễ bị
năng phù hợp nhất để phân loại, chúng tôi có thể ảnh hưởng nhất bởi các tính năng không nhất quán và dư thừa,
đảm bảo rằng tất cả thông tin cần thiết để phân tận dụng tối đa việc thực thi lựa chọn tính năng. Random Forest,
loại đã được nắm bắt. Một bộ tính năng lớn ban lần lượt, ít bị ảnh hưởng nhất bởi sự xuất hiện của các tính năng
đầu thu được từ tất cả các hình ảnh cây con và ít liên quan hơn về độ chính xác. Tuy nhiên, nó cũng có thể được
sau đó, một số tập hợp con được tạo ra bằng cách hưởng lợi từ việc giảm kích thước tập hợp con tính năng đạt
đánh giá và xếp hạng các tính năng bằng các kỹ được với lựa chọn tính năng. Kết quả PLS-DA cho thấy phân loại
thuật khác nhau. Hiệu suất của mỗi tập hợp con này không phù hợp để phân loại cây giống.
tính năng được tạo ra sau đó được xác minh bằng Các tác phẩm trong tương lai có thể thử nghiệm nhiều hơn với
cách sử dụng các bộ phân loại phổ biến nhất các kỹ thuật nhúng để phân loại và lựa chọn tính năng.
trong tài liệu, bằng cách so sánh tỷ lệ chính xác Trong các thí nghiệm được thực hiện, kết quả phù hợp
của từng kết hợp bộ tính năng và bộ phân loại để nhất thu được để phân loại cây con là Logistic liên kết với Chi
phân loại cây giống trong chậu. Điều đáng chú ý là Squared, sử dụng 16 tính năng đầu tiên từ Bảng 1. Cấu hình
toàn bộ quá trình có thể được sử dụng để cải hệ thống này đạt tỷ lệ chính xác 80,0% và do đó là cấu hình
thiện phân loại trực quan của bất kỳ sản phẩm được khuyến nghị để tự động hóa việc phân loại cây giống
nông nghiệp nào khác phụ thuộc vào kiến thức trong chậu.
ngầm để phân loại.
Việc sử dụng các kỹ thuật lựa chọn tính năng Lời cảm ơn
đã tạo ra tỷ lệ chính xác cho tất cả các trường hợp
được nghiên cứu, với CFS + Random Forest là Công trình nghiên cứu này được hỗ trợ tài chính bởi
ngoại lệ duy nhất. Tuy nhiên, nó chỉ trình bày kết FAPESP (theo Khoản tài trợ số 2012/02190-9 và 2011/19280-
quả kém chính xác hơn 0,58% chỉ bằng cách sử
8) và CNPq (theo Khoản tài trợ số 311058/2011-6,
dụng 9 trong số 26 tính năng được xem xét ban
đầu. Do đó, việc sử dụng các kỹ thuật này cho 157665/2011-9 và 311325/2011-4). Tham khảo
thấy thuận lợi cho việc kiểm tra trực quan các sản
Aguzzi, J., Công ty, JB, Costa, C., Matabos, M., Azzuro, E., Mànuel, A., Menesatti,
phẩm nông nghiệp như cây giống trong chậu, hỗ P.,
trợ kết hợp kiến thức liên quan đến phân loại cây
56 L.O.L.A. Silva và cộng sự /Máy tính và Điện tử trong Nông nghiệp 97 (2013) 47–55
Francesc, S., Kênh đào, M., Delory, E., Cline, D., Xem số liệu thống kê xuất bản
Mattsson, A., 1997. Dự đoán hiệu suất đồng ruộng bằng cách sử dụng đánh giá
Favali, P., Juniper, S.K., Furushima, Y., Fujiwara, Y.,
chất lượng cây giống. Rừng mới 13 (1), 227–252.
Chiesa, JJ, Marotta, L., Bahamon, N., Priede, IG, 2012.
Những thách thức đối với việc đánh giá quần thể đáy Parsons, N.R., Edmondson, RN, Song, Y., rsons et al. (2009). Phân tích hình ảnh
và đa dạng sinh học là kết quả của hành vi nhịp và mô hình thống kê để đo lường và đánh giá chất lượng cây cảnh làm
nhàng: các giải pháp video từ các đài quan sát cáp. vườn trong nhà kính. Kỹ thuật hệ thống sinh học 104 (2), 161–168.
Hải dương học và Sinh học biển: Đánh giá hàng năm Quinlan, JR, 1993. C4.5: Các chương trình học máy. Nhà xuất bản Morgan
50, 235–286. Kaufmann , San Mateo.
Rish, I., Một nghiên cứu thực nghiệm về phân loại Bayes ngây thơ,Kỷ yếu của
Basheer, I.A., 2000. Mạng thần kinh nhân tạo: nguyên tắc cơ
bản, máy tính, thiết kế và ứng dụng. Tạp chí Phương Hội thảo IJCAI-01 về các phương pháp thực nghiệm trong, Trí tuệ nhân tạo,
pháp Microbiol 43, 3–31. 2001, 41–46.
Breiman, L., 2001. Rừng ngẫu nhiên. Máy học 45 (1), 5–32. Timmermans, A.J.M., Hulzebosch, A.A., 1996. Hệ thống thị giác máy tính để
Brons, A., Rabatel, G., Ros, F., Sévila, F., Touzet, C., 1993. phân loại trực tuyến các chậu cây bằng cách sử dụng bộ phân loại mạng
Phân loại thực vật bằng tầm nhìn bằng cách sử dụng thần kinh nhân tạo. Máy tính và Điện tử trong Nông nghiệp 15 (1), 41–55.
mạng lưới thần kinh và thống kê. Máy tính và Điện tử H., Mô hình mềm bằng các biến tiềm ẩn: phương pháp tiếp cận bình phương
trong Nông nghiệp 9 (1), 25–39. nhỏ nhất một phần lặp lại phi tuyến tính (NIPALS), Quan điểm về xác suất
Caruana, R. và Niculescu-Mizil, A., Một so sánh thực và thống kê, Để vinh danh MS Bartlett, 1975, 117–144.
nghiệm về các thuật toán học tập có giám sát,Trong : Zhang, Y., Wu, L., 2012. Phân loại trái cây bằng thị giác máy tính và máy vectơ hỗ
Kỷ yếu của Hội nghị quốc tế lần thứ 23 về, Học máy , trợ đa lớp. Cảm biến 12 (9), 12489–12505.
2006, 161–168. Trịnh, C., Sun, D., Trịnh, L., 2006. Những phát triển và ứng dụng gần đây của các
Cherkassky, V., Ma, Y., 2004. Lựa chọn thực tế các thông số tính năng hình ảnh để đánh giá và kiểm tra chất lượng thực phẩm - đánh
SVM và ước tính tiếng ồn cho hồi quy SVM. Mạng lưới giá. Xu hướng Khoa học & Công nghệ Thực phẩm, 17 (12), 642–655.
thần kinh 17 (1), 113–126.
Costa, C., Antonucci, F., Pallottino, F., Aguzzi, J., Sun, D.,
Menesatti, P., 2011. Phân tích hình dạng của các sản
phẩm nông nghiệp: đánh giá các tiến bộ nghiên cứu
gần đây và ứng dụng tiềm năng cho thị giác máy tính.
Công nghệ thực phẩm và chế biến sinh học 4 (5),
673–692.
Cybenko, G., 1989. Xấp xỉ bởi sự chồng chất của một
functio sigman. Toán học điều khiển, tín hiệu và hệ
thống 2 (4), 303–314.
Dash, M., Choi, K., Scheuermann, P., Liu, H., 2002. Lựa
chọn tính năng cho phân cụm – một giải pháp bộ
lọc. Hội nghị quốc tế IEEE về khai thác dữ liệu 2002,
115–122.
Faust, JE, Heins, R.D., 1994. Mô hình hóa sự phát triển
phát quang của Violet châu Phi (Saintpaulia ionantha
Wendl.). Tạp chí của Hiệp hội Khoa học Làm vườn
Hoa Kỳ 119 (4), 727–734.
Haenlein, M., Kaplan, AM, 2004. Hướng dẫn cho người
mới bắt đầu để phân tích bình phương tối thiểu một
phần. Hiểu Thống kê 3 (4), 283–297.
Hall, MA (chủ biên), 1999. Lựa chọn tập hợp con tính
năng dựa trên tương quan cho Machine Learning.
Đại học Waikato, Hamilton.
Hội trường, MA, Holmes, G., 2003. Điểm chuẩn các kỹ
thuật lựa chọn thuộc tính để khai thác dữ liệu lớp rời
rạc. IEEE Transactions on Knowledge and Da ta
Engineering 15 (6), 1437–1447.
John, G., Kohavi, R. và Pfleger, K., Các tính năng không liên
quan và vấn đề lựa chọn tập hợp con,Trong : Kỷ yếu
của Hội nghị Quốc tế lần thứ 11 về, Học máy , 1994,
121–129.

You might also like