1 s2.0 S1537511023000090 Main

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 13

Machine Translated by Google

Xem các cuộc thảo luận, số liệu thống kê và hồ sơ tác giả cho ấn phẩm này tại: https://www.researchgate.net/publication/367185734

Phát hiện bệnh ở lợn dựa trên đặc điểm hành vi cho ăn bằng máy học

Article in Biosystems Engineering · Tháng 2 năm 2023

DOI: 10.1016/j.biosystemseng.2023.01.004

TRÍCH DẪN ĐỌC

0 59

3 tác giả, gồm:

Alper cá ngừ Kavlak Matti Pastell

Đại học Helsinki Viện Tài nguyên thiên nhiên Phần Lan (Luke)

9 CÔNG BỐ 37 TRÍCH DẪN 180 CÔNG BỐ 2.507 TRÍCH DẪN

XEM HỒ SƠ XEM HỒ SƠ

Một số tác giả của ấn phẩm này cũng đang thực hiện các dự án liên quan sau:

SowMonitor: Theo dõi tự động quá trình đẻ Xem dự án

Dự án Kuvaa Nautaa: Hình ảnh nhiệt trong chăm sóc sức khỏe gia súc Xem dự án

Tất cả nội dung sau trang này đã được tải lên bởi Alper Tuna Kavlak vào ngày 17 tháng 1 năm 2023.

Người dùng đã yêu cầu cải tiến tệp đã tải xuống.


Machine Translated by Google

kỹ thuật hệ thống sinh học 226 (2023) 132 e143

Có sẵn trực tuyến tại www.sciencedirect.com

khoa học trực tiếp

trang chủ tạp chí: www.elsevier.com/locate/issn/15375110

Bài nghiên cứu

Phát hiện bệnh ở lợn dựa trên đặc điểm hành


vi cho ăn bằng máy học

TẠI Kavlak a,* , M. Pastell b , P. Uimari Một

Một

Khoa Khoa học Nông nghiệp, Đại học Helsinki, 00014 Helsinki, Phần Lan
b
Hệ thống sản xuất, Viện Tài nguyên thiên nhiên Phần Lan (Luke), 00790 Helsinki, Phần Lan

thông tin bài viết

Phát hiện bệnh là rất quan trọng để can thiệp kịp thời nhằm tăng khả năng điều trị thành công

Lịch sử bài viết: và giảm tác động tiêu cực đến phúc lợi của lợn. Mục tiêu của nghiên cứu này là theo dõi những

Đã nhận ngày 25 tháng 12 năm 2021 thay đổi trong mô hình hành vi cho ăn để phát hiện những con lợn có thể cần điều trị y tế hoặc

Nhận được ở dạng sửa đổi quản lý thêm. Dữ liệu bao gồm 794.509 ngày quan sát liên quan đến hành vi cho ăn và thông tin

15 tháng mười hai 2022 sức khỏe của 10.261 con lợn. Các đặc điểm hành vi cho ăn được tính toán bao gồm số lần cho ăn

Chấp nhận ngày 5 tháng 1 năm 2023 mỗi ngày (NVD), thời gian cho ăn mỗi ngày (TPD) và lượng thức ăn ăn vào hàng ngày (DFI). Tình
trạng sức khỏe (ốm hay khỏe) của lợn được dự đoán dựa trên các đặc điểm bao gồm các đặc điểm
hành vi cho ăn ban đầu và các đặc điểm bắt nguồn từ những đặc điểm sử dụng thuật toán máy học

từ khóa: (Xgboost). Các dự đoán dựa trên các đặc điểm từ cùng ngày (thời lượng một ngày), từ cùng ngày

Phúc lợi và hai ngày trước đó (thời lượng ba ngày) hoặc từ cùng ngày và sáu ngày trước đó (thời lượng

phát hiện bệnh bảy ngày). Mô hình dựa trên khoảng thời gian bảy ngày cho kết quả mạnh mẽ nhất và đạt được 80%

Lợn AUC, 7% điểm F1, độ nhạy 67%, độ đặc hiệu 73% và độ chính xác 4%. Các phân tích chỉ ra rằng các

học máy đặc điểm liên quan đến độ lệch của TPD và DFI quan sát được của lợn so với TPD và DFI dự kiến

hành vi cho ăn là cung cấp nhiều thông tin nhất, vì chúng đạt được điểm quan trọng cao nhất. Tóm lại, các đặc
điểm dựa trên hành vi cho ăn mang lại độ nhạy và độ đặc hiệu tốt trong việc dự đoán bệnh tật.
Tuy nhiên, độ chính xác của phương pháp này rất thấp, có thể do tỷ lệ mắc các triệu chứng bệnh
được theo dõi thấp, hạn chế việc áp dụng phương pháp này trong thực tế.

© 2023 (Các) Tác giả. Được xuất bản bởi Elsevier Ltd thay mặt cho IAgrE. Đây là một bài báo
truy cập mở theo giấy phép CC BY (http://creativecommons.org/licenses/by/4.0/).

bệnh tật (Matthews và cộng sự, 2017). Trong một trang trại thương
1. Giới thiệu mại, chỉ có thời gian hạn chế để quan sát hành vi cá nhân

những thay đổi ở lợn, chỉ cho phép phát hiện những thay đổi đáng
Phúc lợi cho lợn ngày càng được chú ý nhiều hơn trong những năm
kể về hành vi. Điều này có thể dẫn đến việc điều trị động vật bị
gần đây và cần được cải thiện, theo sự đồng thuận chung (Mellor,
bệnh quá muộn hoặc cải thiện quá muộn các điều kiện gây khó chịu
2016). Động vật thể hiện sự thoải mái của chúng thông qua việc cho
cho động vật, gây thiệt hại về sản xuất và suy giảm phúc lợi.
ăn, uống, hành vi xã hội, v.v. Những thay đổi trong hành vi có thể
được coi là dấu hiệu ban đầu của sự khó chịu và

* Đồng tác giả.


Địa chỉ email: alper.kavlak@helsinki.fi (AT Kavlak).
https://doi.org/10.1016/j.biosystemseng.2023.01.004
1537-5110/© 2023 (Các) Tác giả. Được xuất bản bởi Elsevier Ltd thay mặt cho IAgrE. Đây là một bài báo truy cập mở theo giấy phép CC BY (http://
creativecommons.org/licenses/by/4.0/).
Machine Translated by Google

kỹ thuật hệ thống sinh học 226 (2023) 132 e143 133

danh pháp m3_m2 Phương tiện của các khoảng thời gian thuộc phân phối
thứ hai với cửa sổ ba ngày m3 s1 (s1)
trí tuệ nhân tạo

Trí tuệ nhân tạo


Độ lệch chuẩn của các khoảng thời gian thuộc phân phối thứ nhất
Diện tích AUC dưới đường cong ROC
với cửa sổ ba ngày m3_s2 (s2) Độ lệch chuẩn của các
sơ yếu lý lịch xác thực chéo
khoảng thời gian thuộc phân phối thứ hai với cửa sổ ba ngày
delta_DRDFI Sự khác biệt giữa phương tiện xếp hạng hàng ngày
của lượng thức ăn ăn vào hàng ngày từ cửa sổ bảy
và ba ngày delta_DRTPD
m7_DRDFI Thứ hạng hàng ngày của lượng thức ăn hàng ngày với bảy ngày
Sự khác biệt giữa phương tiện xếp hạng hàng ngày về thời gian
cửa sổ
cho ăn mỗi ngày từ cửa sổ bảy ngày và ba ngày
m7_DRTPD Thứ hạng hàng ngày của thời gian cho ăn mỗi ngày
delta_NVD Sự khác biệt giữa
với cửa sổ bảy ngày m7_NVD
phương tiện của số lượt truy cập mỗi ngày từ cửa sổ bảy và
Số lượt truy cập mỗi ngày với cửa sổ bảy ngày m7_p Tỷ lệ các
ba ngày
khoảng thời gian thuộc phân phối đầu tiên với cửa sổ bảy
ngày
delta_p Sự khác biệt giữa giá trị trung bình của tỷ lệ khoảng
m7_ResDFI Dư lượng thức ăn hàng ngày với cửa sổ bảy ngày
thời gian thuộc về phân phối đầu tiên từ cửa sổ bảy
ngày và ba ngày delta_ResDFI Sự khác
m7_ResTPD Lượng thời gian còn lại cho ăn mỗi ngày với cửa sổ
biệt giữa giá trị trung bình của lượng thức ăn còn lại của lượng
bảy ngày m7_m1 Giá trị
thức ăn hàng ngày từ cửa sổ bảy và ba ngày
trung bình của khoảng thời gian thuộc phân phối thứ nhất
delta_ResTPD
với cửa sổ bảy ngày m7_m2 Giá trị trung
Sự khác biệt giữa giá trị trung bình của giá trị còn lại
bình của khoảng thời gian thuộc phân phối thứ hai với cửa sổ
thời gian dành cho ăn mỗi ngày từ cửa sổ bảy
bảy ngày
và ba ngày delta_m1 Sự khác biệt
m7 s1 (s1) Độ lệch chuẩn của các khoảng thời gian thuộc phân phối
giữa phương tiện của phương tiện của khoảng thời gian thuộc
thứ nhất với cửa sổ 7 ngày m7_s2 (s2) Độ lệch chuẩn
phân phối đầu tiên từ cửa sổ bảy ngày và ba ngày
của các khoảng thời gian thuộc phân phối thứ hai với cửa sổ 7 ngày
delta_m2 Sự khác biệt giữa phương
tiện của phương tiện của khoảng thời gian thuộc phân phối thứ

hai từ cửa sổ bảy và ba ngày delta s1 (s1) Sự khác


NVD Số lượt truy cập mỗi ngày
biệt giữa phương tiện của độ lệch chuẩn của
P Tỷ lệ các khoảng thuộc về phân phối đầu tiên
các khoảng thuộc phân phối đầu tiên từ cửa sổ bảy và ba
ngày
ResDFI Dư lượng thức ăn hàng ngày
RestTPD Phần còn lại của thời gian cho ăn mỗi ngày
Đặc điểm của người vận hành máy thu ROC
delta s2 (s2) Sự khác biệt giữa phương tiện của độ lệch
sd7_DRDFI Độ lệch chuẩn của thứ hạng hàng ngày của lượng thức
chuẩn của các khoảng thuộc phân phối thứ hai từ
ăn ăn vào hàng ngày trong cửa sổ bảy ngày
bảy và
sd7_DRTPD Độ lệch chuẩn của thứ hạng hàng ngày về thời gian cho
cửa sổ ba ngày
ăn mỗi ngày trong cửa sổ bảy ngày
DFI Lượng thức ăn hàng ngày

DRDFI Thứ hạng hàng ngày của lượng thức ăn ăn vào hàng ngày trong nhóm
sd7_NVD Độ lệch chuẩn của số lượt truy cập mỗi ngày
lợn
trong thời hạn bảy ngày
DRTPD Thứ hạng hàng ngày của thời gian cho ăn mỗi ngày trong vòng
sd7_p Độ lệch chuẩn của tỷ lệ các khoảng thời gian thuộc phân
nhóm lợn
phối đầu tiên trong cửa sổ bảy ngày sd7_ResDFI
máy học
học máy
Độ lệch chuẩn của
MLP Multilayer Perceptron m3_DRDFI
phần còn lại của lượng thức ăn ăn vào hàng ngày trong cửa sổ
Thứ hạng hàng ngày của lượng thức ăn ăn vào hàng ngày với cửa
bảy ngày
sổ ba ngày
sd7_ResTPD Độ lệch chuẩn của thời gian còn lại dành cho việc cho
m3_DRTPD Thứ hạng hàng ngày của thời gian cho ăn mỗi ngày
ăn mỗi ngày trong cửa sổ bảy ngày sd7_m1 Độ
với cửa sổ ba ngày m3_NVD
lệch
Số lượt truy cập mỗi ngày với cửa sổ ba ngày m3_p Tỷ lệ khoảng
chuẩn của trung bình của các khoảng thời gian thuộc phân
thời gian thuộc phân phối đầu tiên với cửa sổ ba ngày
phối đầu tiên trong cửa sổ bảy ngày sd7_m2 Độ
lệch chuẩn của trung
m3_ResDFI Dư lượng thức ăn hàng ngày với cửa sổ ba ngày
bình của các khoảng thời gian

thuộc phân phối thứ hai trong cửa sổ bảy ngày sd7 s1
m3_ResTPD Thời gian còn lại cho ăn mỗi ngày với cửa sổ ba
(s1) Độ lệch chuẩn
ngày m3_m1 Giá trị trung
của độ lệch chuẩn của các khoảng thuộc phân phối đầu tiên trong
bình của các khoảng thời gian thuộc phân phối đầu tiên với
cửa sổ bảy ngày
cửa sổ ba ngày
Machine Translated by Google

134 kỹ thuật hệ thống sinh học 226 (2023) 132 e143

sd7 s2 (s2) Độ lệch chuẩn của độ lệch chuẩn của các khoảng m2 Trung bình của các khoảng thuộc phân phối thứ hai
thuộc phân phối thứ hai trong cửa sổ s1 (s1) Độ

bảy ngày lệch chuẩn của các khoảng thuộc phân phối thứ nhất s2 (s2) Độ
TPD Thời gian cho ăn mỗi ngày lệch chuẩn của các

m1 Phương tiện của các khoảng thuộc về phân phối khoảng thuộc phân phối thứ hai
đầu tiên

Mặc dù những thay đổi nhỏ trong hành vi hàng ngày không dễ định Thứ Ba hoặc thứ Tư, và các bài kiểm tra bắt đầu vào thứ Bảy.
lượng, nhưng dữ liệu được thu thập tự động từ các cảm biến và Lợn được nhóm thành các chuồng khác nhau theo tuổi đến (89 ± 10
máy cho ăn có thể bao gồm thông tin có giá trị liên quan đến các ngày), trọng lượng (34,4 ± 6,4 kg) và giới tính (chỉ lợn đực
dấu hiệu của vấn đề phúc lợi. Ví dụ, sự bồn chồn gia tăng ở lợn giống hoặc kết hợp lợn nái và thiến). Mức tăng trung bình hàng
có thể báo hiệu sự bùng phát của hành vi cắn đuôi lên đến sáu ngày ngày là 946 ± 113 g/ngày trong tổng thời gian thử nghiệm (trung
trước đó, điều mà ở quy mô thương mại sẽ không thể phát hiện bình là 95 ± 3 ngày), trọng lượng và tuổi giết mổ trung bình lần
được trong quá trình kiểm tra hàng ngày (Matthews et al., 2017). lượt là 121,2 ± 12,9 kg và 186 ± 10 ngày. Số lợn con trung bình
Ngoài ra, micro đã được sử dụng để theo dõi tiếng ho của lợn nhằm trong một chuồng là 9,8 (±1,19). Sẵn như nước. Ngoài ra, loại
xây dựng hệ thống báo động thông minh nhằm phát hiện bệnh ở giai thức ăn (cho ăn khô) là quảng cáo tự do, bao gồm hai loại thức ăn
đoạn đầu (Guarino et al., 2008), camera 3D để dự đoán các đợt bùng công nghiệp và tỷ lệ của hai loại thức ăn dựa trên đường cong tốc
phát cắn đuôi bằng cách xác định cụp đuôi. tư thế (D'Eath và cộng độ tăng trưởng của một con lợn trung bình từ các giai đoạn thử
sự, 2018) và những sai lệch trong cách cho ăn điển hình để theo nghiệm trước đó.
dõi sức khỏe tổng thể của lợn (ví dụ: Brown-Brandl và cộng sự, Thuốc kháng sinh và các loại thuốc khác chỉ được cung cấp cho
2013; Bus và cộng sự, 2021; Munsterhjelm và cộng sự, 2015) . người bệnh dựa trên đơn thuốc thú y. Cơ sở có hệ thống thông gió
Dữ liệu được thu thập từ các cảm biến và bộ nạp tạo ra tự động dựa trên tuổi heo và nhiệt độ ngoài trời, và chiếu sáng
những thách thức để tìm ra các tín hiệu thực sự của những thay đổi nhân tạo từ 7 giờ sáng đến 3 giờ chiều
hành vi ngoài tiếng ồn. Sự phức tạp của dữ liệu lớn với các phụ Kích thước của chuồng là 16,8 m2 với sàn bê tông (2/3 đặc, 1/3
thuộc phi tuyến tính và các tương tác không xác định giữa nhiều dốc). Các lần cho ăn được ghi lại tự động bằng Schauer Spotmix
biến thách thức các giả định của nhiều phương pháp thống kê tiêu với bộ nạp điện tử Schauer Multilayer Perceptron (MLP) và phần
chuẩn (Valletta et al., 2017). Các phương pháp học máy (ML) có mềm quản lý dữ liệu của trình quản lý MLP (Schauer Agrotronic
hiệu quả cao trong việc xác định mối quan hệ phi tuyến tính giữa GmbH). Để biết thêm thông tin, xem Kavlak et al. (2021).
các biến trong dữ liệu (Hastie và cộng sự, 2009). Ví dụ, Pandey et
al. (2021) đã thu thập dữ liệu về chuyển động, âm thanh và nhiệt Dữ liệu thô bao gồm 28.826.029 lượt cho ăn riêng lẻ từ 10.261
độ của lợn bằng cảm biến tai và áp dụng các mô hình ML để dự đoán con lợn (Yorkshire của Phần Lan, Landrace của Phần Lan và lai F1),
tình trạng sức khỏe và phúc lợi của lợn dựa trên dữ liệu thu thập và bao gồm id bộ phát đáp thẻ tai, ngày, thời gian vào máng ăn,
được. Dựa trên kết quả của họ, phương pháp ML là một công cụ thời gian rời khỏi máng ăn và lượng thức ăn ăn vào mỗi lần ghé
mạnh mẽ để theo dõi tình trạng sức khỏe của lợn dẫn đến giảm các thăm . Lượng thức ăn ăn vào được đo bằng trọng lượng của thức ăn
phương pháp điều trị y tế, tiết kiệm chi phí và nâng cao phúc trước và sau khi heo được cho ăn. Số lần cho ăn mỗi ngày (NVD),
lợi động vật. Do đó, các phương pháp ML, chẳng hạn như eXtreme thời gian cho ăn mỗi ngày (TPD) và lượng thức ăn ăn vào hàng ngày
Gradient Boosting, Random Forest và Support Vector Ma chine, cung (DFI) được tính toán từ các quan sát được ghi lại. Các quan sát
cấp một phương pháp đầy hứa hẹn để phát hiện những thay đổi hành từ ngày thử nghiệm đầu tiên không được đưa vào do DFI cho thấy
vi ở động vật trang trại có liên quan đến các vấn đề phúc lợi có một số con lợn là ngoại lệ cực độ, có thể do hệ thống ghi lại việc
thể xảy ra (Liakos et al., 2018) . Bất kể phương pháp nào, chất cho ăn gây ra. Các DFI cực đoan tương tự không được quan sát
lượng dữ liệu là rất quan trọng để tránh các kết quả không mong thấy trên quy mô lớn vào bất kỳ ngày thử nghiệm nào khác.
muốn và đạt được kết quả mạnh mẽ nhất có thể. Do đó, việc đặt
tiêu chí cho các ngoại lệ và áp dụng lọc dữ liệu trước khi áp
dụng các phương pháp ML cho dữ liệu là rất quan trọng (Alsaaod et al.,2.2.
2012). dữ liệu bệnh tật

Mục tiêu của nghiên cứu này là sử dụng các phương pháp ML áp
dụng trên dữ liệu hành vi cho ăn để phát hiện những con lợn có khả Dữ liệu về bệnh tật được nhân viên trạm kiểm tra ghi lại hàng
năng bị bệnh và có thể cần điều trị y tế hoặc quản lý thêm. ngày trong quá trình kiểm tra định kỳ (hai lần một ngày) và bao
gồm ID của lợn, (các) triệu chứng và ngày tháng. Các triệu chứng
được phân loại là ho, đi khập khiễng, chán ăn (lợn ăn dưới 600
2. Vật liệu và phương pháp g), tổn thương da và cắn đuôi. Trong số 794.509 quan sát sức khỏe
hàng ngày, 13.018 quan sát có liên quan đến các triệu chứng được
2.1. Dữ liệu hành vi cho ăn và chuồng lợn ghi lại. Trong bất kỳ ngày nào, một con lợn có thể bị một số
triệu chứng. Trong các mô hình ML, những con lợn có bất kỳ triệu
Dữ liệu hành vi cho ăn được cung cấp bởi Figen Oy (Pie tarsaari, chứng nào được ghi nhận đều được phân loại là “ốm” cho ngày đó
Phần Lan) từ trạm thử nghiệm trung tâm của họ, kéo dài từ năm 2011 và những con lợn không có triệu chứng nào được ghi nhận được
đến 2016. Lợn đến trạm thử nghiệm trên một phân loại là “khỏe mạnh”.
Machine Translated by Google

kỹ thuật hệ thống sinh học 226 (2023) 132 e143 135

2.3. xử lý tính năng hai ngày trước đó. Tương tự, đối với phương pháp cửa sổ 7 ngày, tình

trạng sức khỏe của heo được dự đoán dựa trên giá trị trung bình của các

Các giá trị tuyệt đối của TPD và DFI có thể không phải là các tính năng đặc điểm trong cùng ngày và 6 ngày trước đó. Dựa trên các tính năng cửa

tối ưu để dự đoán tình trạng bệnh tật của động vật, vì chúng có liên sổ ba và bảy ngày, một tính năng mới “delta” và “SD” đã được tính toán;

quan chặt chẽ đến tuổi của động vật. Do đó, chúng tôi đã tạo các tính delta là sự khác biệt giữa phương tiện của cùng một tính năng trong

năng mới, bao gồm xếp hạng hàng ngày và số dư. Thứ hạng hàng ngày liên khoảng thời gian bảy ngày và ba ngày và SD là độ lệch chuẩn của các tính

quan đến thứ hạng quan sát của một con vật (DRTPD và DRDFI) so với những năng trong khoảng thời gian bảy ngày. Các cửa sổ chồng lên nhau.

con lợn khác trong chuồng vào một ngày nhất định và phần còn lại (ResTPD

và ResDFI) mô tả sự khác biệt của con vật đó so với giá trị TPD và DFI

mong đợi đối với một con lợn cùng một độ tuổi. Số lượng quan sát bệnh tật và khỏe mạnh hàng ngày được đưa ra trong

Phần dư của TPD và DFI được tính bằng cách khớp mô hình hồi quy đa thức Bảng 1. Số lượng quan sát khác nhau giữa các mô hình bởi vì trong các

(bậc hai) với toàn bộ dữ liệu mô hình cửa sổ ba và bảy ngày nếu bất kỳ đặc điểm hàng ngày nào trong
bộ: một cây hoặc bảy ngày tương ứng bị thiếu đối với một con lợn nhất

định, con lợn đó không được đưa vào phân tích. Ngoài ra, các kết hợp
yi ¼ b0 þ b1* agei þ b2* age2 þ ei (1)
khác nhau của các triệu chứng đã được sử dụng; trong mô hình Alt-1, “đi
Tôi

trong đó yi là TPD hoặc DFI của lợn i, b0 là giá trị trung bình tổng khập khiễng” và “chán ăn” được coi là “ốm”, trong khi các triệu chứng

thể, agei là tuổi của lợn i liên quan đến quan sát yi, b1 và b2 là các khác (ho, đuôi bị cắn, tổn thương da) bị bỏ qua và trong mô hình Alt-2

hệ số hồi quy tuyến tính và bậc hai, và ei là phần dư được sử dụng “đuôi bị cắn” và “tổn thương da” được coi là “bệnh” (Bảng 1). Đối với

trong ML. bất kỳ con lợn nào, trung bình có 7,1 ngày ốm liên tục (độ dài trung

Liên quan đến phúc lợi động vật dựa trên hành vi cho ăn, các chuyến bình của thời gian ốm).

thăm ngắn hạn là một thách thức đáng kể để giải thích trong các phân

tích hành vi của động vật khi sử dụng các phương pháp thông thường

(Young & Lawrence, 1994). Tần suất các lần thăm khám mà không ăn và
2.4. thuật toán xgboost

khoảng cách giữa các lần thăm khám có thể là các mô hình cho ăn mang

tính thông tin góp phần dự đoán tình trạng sức khỏe của động vật (Garrido- eXtreme Gradient Boosting (Xgboost) là một phương pháp ML tương tự

như Random Forest, cây quyết định, tăng cường, tăng cường độ dốc, v.v.
Izard và cộng sự, 2020). Tolkamp et al. (1998) đã đề xuất phân phối chuẩn
Nó là một trình phân loại tập hợp có nguồn gốc từ cây quyết định tăng
logarit để lập mô hình trong và giữa các sự kiện cho ăn. Trong nghiên

cứu này, các khoảng thời gian giữa các tác giả tuyên bố rằng họ không cường độ dốc. Xgboost kết hợp các bộ phân loại cơ sở yếu thành một bộ

phân loại mạnh. Tại mỗi lần lặp lại của quá trình đào tạo, phần dư của
biết các lợi ích tài chính cạnh tranh hoặc các mối quan hệ cá nhân có
bộ phân loại cơ sở được sử dụng trong bộ phân loại tiếp theo để tối ưu
thể ảnh hưởng đến công việc được báo cáo trong bài báo này. 10 lần cho

ăn được tính bằng sự khác biệt giữa thời điểm vào máng ăn và thời gian hóa hàm mục tiêu. Trong nghiên cứu này, thuật toán Xgboost được áp dụng

bằng cách sử dụng gói R Xgboost (Chen và cộng sự, 2018) trong phần mềm R
thời gian rời máng ăn trong lần cho ăn trước. Các khoảng thời gian đầu

tiên được chuyển đổi log và sau đó là hỗn hợp của hai phân phối bình 3.6.1 (Nhóm R Core, 2019).

thường Siêu tham số là các tham số tối ưu hóa điều chỉnh hiệu suất của các

thuật toán ML (Bergstra & Bengio, 2012). Trong nghiên cứu này, các siêu

đã được trang bị cho các khoảng thời gian chuyển đổi log của mỗi con lợn đường kính được chọn bằng cách sử dụng tìm kiếm dạng lưới về số lần

cho mỗi ngày. Phân phối đầu tiên liên quan đến các chuyến thăm ngắn trong lặp tăng cường (vòng), độ sâu tối đa của cây (độ sâu tối đa), eta kiểm

một bữa ăn và thứ hai đại diện cho khoảng thời gian giữa các bữa ăn. soát tốc độ học cũng như gamma, lambda, mẫu phụ. Lưới giá trị được sử

Các tính năng hàng ngày cho mỗi con lợn từ các phân phối hỗn hợp này là dụng cho các siêu đường kính được đưa ra trong Bảng 2 và các siêu

đường kính cuối cùng (tốt nhất) được đưa ra trong Bảng 3 dựa trên dữ
tỷ lệ các khoảng thuộc về phân phối đầu tiên (p), s1 (s1) và s2 (s2) độ
liệu huấn luyện. Mục tiêu của mô hình phân loại là nhị phân (nhị phân:
lệch chuẩn và m1 và m2 là phương tiện của các phân phối.
hậu cần) và mô hình được trang bị bằng cách giảm thiểu tỷ lệ lỗi phân

Cuối cùng, các tính năng được sử dụng trong ML là NVD, TPD, DFI, loại nhị phân.

DRTPD, DRDFI, ResTPD, ResDFI, m1, m2, s1, s2 và p. Giá trị trung bình và

sự phân bố của các đặc điểm trong nhóm khỏe mạnh và nhóm ốm yếu theo
2.5. Kiểm tra hiệu suất và xác thực chéo
thời gian (Tuần) được trình bày trong Hình 1. Trước khi tạo các đặc

điểm và mô hình ML, các giá trị cực đại của NVD, TPD, DFI (phân vị ngoài
Để thực hiện thuật toán Xgboost, dữ liệu được chia thành tập dữ liệu
0,5% và 99,5% tương ứng với các lỗi đăng ký có khả năng xảy ra từ
huấn luyện và thử nghiệm. Trong nghiên cứu này, 70% quan sát được sử
những người cho ăn) đã bị loại bỏ (dưới 0,3% số lần quan sát hàng ngày
dụng để đào tạo mô hình và 30% để thử nghiệm mô hình (Hình 2). Việc lấy
bị bệnh và ít hơn 5% số lần quan sát hàng ngày khỏe mạnh) khỏi dữ liệu.
mẫu quan sát ngẫu nhiên được phân tầng theo các triệu chứng và ID lợn

để đảm bảo rằng tỷ lệ quan sát bị bệnh và khỏe mạnh là như nhau trong
Tình trạng sức khỏe của lợn được dự đoán bằng cách sử dụng ba độ dài
cả hai bộ dữ liệu và dữ liệu từ các con lợn khác nhau được sử dụng để
cửa sổ khác nhau để xác định các đặc điểm: cửa sổ một ngày, cửa sổ ba
huấn luyện và thử nghiệm mô hình.
ngày và cửa sổ bảy ngày (số lượng quan sát được đưa ra trong Bảng 1 ) .

Trong phương pháp cửa sổ một ngày, tình trạng sức khỏe của lợn được dự
Để tối ưu hóa các siêu tham số và các tính năng, đồng thời tránh
đoán dựa trên các đặc điểm của cùng một ngày. Trong phương pháp cửa sổ
khớp quá mức các mô hình, chúng tôi đã áp dụng xác thực chéo 10 lần
ba ngày, tình trạng sức khỏe của lợn được dự đoán dựa trên giá trị trung
(CV) trong quá trình đào tạo mô hình. Tập dữ liệu huấn luyện được chia
bình của các đặc điểm trong cùng một ngày và
thành 10 bộ (các nếp gấp) có kích thước bằng nhau. Trong mỗi bước xác

thực, chín trong số các tập hợp con đã được sử dụng để huấn luyện mô hình và
Machine Translated by Google

136 kỹ thuật hệ thống sinh học 226 (2023) 132 e143

Hình 1 e Biểu đồ hình hộp về các đặc điểm trong giai đoạn thử nghiệm (tính theo tuần) được nhóm theo tình trạng bệnh của lợn (13.018 quan
sát bị bệnh hàng ngày và 781.491 quan sát không bị bệnh hàng ngày). Các chữ viết tắt của các tính năng được giải thích trong văn bản.
Machine Translated by Google

kỹ thuật hệ thống sinh học 226 (2023) 132 e143 137

Hình 1 e Tiếp tục


Machine Translated by Google

138 kỹ thuật hệ thống sinh học 226 (2023) 132 e143

Hình 1 e tiếp tục


Machine Translated by Google

kỹ thuật hệ thống sinh học 226 (2023) 132 e143 139

Bảng 1 e Số lượng các triệu chứng và quan sát “ốm” và “khỏe mạnh” (lợn x ngày) cho mỗi mô hình.

Đi khập khiễng Ho Đuôi cắn Chán ăn Tổn thương da Bị ốm Quan sát khỏe mạnh Tổng

Mô hình

1 ngày 6603 988 2941 1015 1471 13,018 781.491 794.509

3 ngày 6377 956 2888 968 1357 12,546 761.477 774.023

7 ngày 5747 846 2787 824 1060 11,264 722.070 733.334


Alt-1a 5747 e e

824 e

6571 722.070 728.641


Alt-2b e e

2787 e

1060 347 722.070 725.917


Mức độ phổ biến 0,008 0,001 0,004 0,001 0,002 0,016

N ¼ Số quan sát; Mức độ phổ biến ¼ Tỷ lệ tổng số triệu chứng được dán nhãn là “ốm” trong tổng số quan sát trong dữ liệu dựa trên mô hình 1 ngày;
Một

Trong mô hình Alt-1, chỉ có “đi khập khiễng” và “chán ăn” được gắn nhãn là “ốm” với mô hình cửa sổ bảy ngày và tất cả các triệu chứng khác đều bị
b
bỏ qua; Trong mô hình Alt-2, chỉ có “một cái đuôi bị cắn” và “tổn thương da” được gắn nhãn là “ốm” với mô hình cửa sổ bảy ngày và tất cả các triệu
chứng khác đều bị bỏ qua.

Bảng 2 e Phạm vi giá trị của các siêu tham số.

siêu tham số Sự miêu tả Phạm vi giá trị

vòng tròn số lần lặp lại tăng cường Độ 10e20

max_deep sâu tối đa của cây kiểm 3e6


eta soát tốc độ học tập kiểm 0,05e0,5

gamma soát mức giảm tối thiểu trong hàm mất mát 0e5
lambda chính quy hóa sườn núi để ngăn chặn tỷ lệ 1.0e2.0

mẫu phụ mẫu phụ phù hợp quá mức của các quan sát đào tạo 0,5e1,0

Bảng 3 e Các giá trị cuối cùng (tốt nhất) của siêu đường kính
(Validation-fold) (Hastie et al., 2009). Tập hợp các siêu tham
dựa trên dữ liệu huấn luyện.
số cung cấp chỉ số hiệu suất (AUC) tốt nhất của mô hình đã
Độ dài cửa sổ (ngày)
được chọn để huấn luyện mô hình trong tập huấn luyện, sau đó
Siêu tham số cuối cùng 1 3 7 Alt-1a Alt-2b áp dụng mô hình thu được để dự đoán tình trạng sức khỏe trong
max_depth 4443 4 Eta 0,45 0,45 0,45 tập thử nghiệm (Tập dữ liệu thử nghiệm trong Hình 2 ).
0,45 0,45
Bằng cách sử dụng bộ dữ liệu thử nghiệm, các mô hình được
Gamma 4 5 4 2 3
đánh giá dựa trên độ chính xác (tỷ lệ dự đoán dương tính thực
Lambda 1 2 1.4 2 2
1 0,9 0,8 0,9 1 (một con vật được dự đoán là bị bệnh) trong số tất cả các dự
mẫu phụ
đoán dương tính; TP/(TP + FP)), độ nhạy (tỷ lệ dương tính
(ốm) mà được xác định chính xác; TP/(TP + FN)) và tính đặc

một tập hợp con đã được sử dụng để thử nghiệm mô hình (Hình hiệu (tỷ lệ âm tính (lành mạnh) được xác định chính xác; TN/

2). Ngoài ra, chúng tôi đã sử dụng một tham số bổ sung (TN + FP)). Ngoài ra, phương tiện điều hòa của độ chính xác

(scale_pos_weight: tỷ lệ số lớp phủ định so với lớp tích cực) và độ nhạy (điểm F1 ¼ 2 x độ chính xác x độ nhạy/(độ chính xác

trong các mô hình để kiểm soát sự cân bằng của các trọng số þ độ nhạy)) và đường cong AUC (đặc điểm hoạt động của bộ thu)
đã được tính toán. Mô hình được coi là không thông tin với
lớp do tập dữ liệu không cân bằng. Tham số được tính bằng tỷ
lệ giữa số lượng quan sát bị bệnh so với số lượng quan sát AUC 0,50, yếu với AUC 0,50-0,70, chính xác với AUC 0,70-0,90

khỏe mạnh. Từ mỗi bước xác thực, diện tích dưới đường cong và chính xác cao với AUC 0,90 (Swets, 1988; Greiner et al.,

ROC (AUC) được tính toán từ nếp gấp chéo giữ lại 2000).

Hình 2 e Tổng quan về xác thực chéo 10 lần và thử nghiệm mô hình.
Machine Translated by Google

140 kỹ thuật hệ thống sinh học 226 (2023) 132 e143

Chúng tôi cũng đã tính toán tầm quan trọng của tính năng bằng cách sử dụng cửa sổ bảy ngày (Bảng 4). Ngoài ra, sự khác biệt về độ chính xác của các chỉ số

khả năng của Xgboost để loại bỏ các yếu tố dự đoán không cung cấp thông tin hiệu suất với tập dữ liệu huấn luyện và thử nghiệm là nhỏ, điều này cho thấy

hoặc dư thừa khỏi mô hình (Chen và cộng sự, 2018). Trong khi điều chỉnh các mô rằng việc tham số hóa quá mức hoặc dưới mức tham số hóa của các mô hình đã

hình Xgboost, một ma trận tầm quan trọng được tạo ra từ mỗi mô hình. Số liệu được tránh. Các siêu đường kính tốt nhất thu được dựa trên dữ liệu được cung

"tăng" cho biết mức đóng góp tương đối của đặc điểm tương ứng đối với mô cấp trong quá trình đào tạo và được sử dụng để dự đoán các mô hình (Bảng 3).

hình được tính bằng cách lấy đóng góp của từng đặc điểm cho mỗi cây trong mô

hình. Độ nhạy và độ đặc hiệu của các mô hình có thể chấp nhận được với tất cả
Số liệu "độ che phủ" cho biết số lượng quan sát tương đối các độ dài cửa sổ. Tuy nhiên, độ chính xác và điểm F1 khá thấp. Một lần nữa,

liên quan đến tính năng này và tần suất, là tỷ lệ phần trăm của số lần tương hiệu suất tốt nhất (độ nhạy 67% và độ đặc hiệu 73%) đạt được với mô hình được

đối một tính năng cụ thể xuất hiện trong cây của mô hình. Điểm đạt được của mỗi áp dụng trong khoảng thời gian bảy ngày. Không giống như mô hình cửa sổ bảy

ngày, các mô hình khác hoạt động với hiệu quả thấp hơn một chút theo số liệu
tính năng này dựa trên lượng thông tin thêm về hiệu suất. Nhìn chung, kết quả cho thấy bằng cách tăng độ dài cửa sổ, hiệu suất

lớp đạt được khi sử dụng tính năng đó. Chúng tôi đã định lượng tầm quan trọng của các mô hình phân loại tăng lên.

của các tính năng bằng “mức tăng tính năng” (Hình 3). Các bước đưa ra ở trên

được thực hiện với dấu mũ gói R (Kuhn và cộng sự, 2018) trong phần mềm R (Nhóm

R Core, 2019). Việc dán nhãn thay thế cho động vật bị bệnh đã được thử nghiệm với hai mô

hình thay thế. Đối với mô hình thay thế đầu tiên (mô hình Alt-1), chúng tôi chỉ

dán nhãn “đi khập khiễng” và “chán ăn” là “ốm” và bỏ qua tất cả các triệu chứng

3. Kết quả khác (ho, đuôi bị cắn và tổn thương da). Mô hình này cho hiệu suất dựa trên

AUC tốt hơn 3e4% so với hiệu suất của mô hình cửa sổ bảy ngày thực tế (Bảng
3.1. Hiệu suất phân loại của các mô hình 4). Mặt khác, mô hình thay thế thứ hai (mô hình Alt-2), trong đó “đuôi bị cắn”

và “tổn thương da” được phân loại là “ốm” và bỏ qua tất cả các triệu chứng

Các mô hình được đánh giá dựa trên chỉ số hiệu suất phân loại, bao gồm cả AUC. khác (ho, khập khiễng và chán ăn), cho kết quả tương tự

Hiệu suất ac tốt nhất theo AUC thu được với mô hình được áp dụng trong

Hình 3 e Tầm quan trọng của các tính năng Xgboost đối với độ dài cửa sổ khác nhau. "Thông tin đạt được" ngụ ý sự đóng góp tương đối của tính năng tương ứng

cho mô hình. Các chữ viết tắt của các tính năng được giải thích trong văn bản.
Machine Translated by Google

kỹ thuật hệ thống sinh học 226 (2023) 132 e143 141

Bảng 4 e Kết quả từ các mô hình dựa trên dữ liệu thử nghiệm và đào tạo (trung bình từ CV gấp 10 lần) (được đưa ra trong ngoặc đơn).

Độ dài cửa sổ (ngày)

số liệu 1 3 7 Alt-1 Alt-2

AUC 0,70 (0,71) 0,73 (0,75) 0,80 (0,81) 0,83 (0,85) 0,77 (0,80)
Độ chính xác 0,03 (0,03) 0,03 (0,03) 0,04 (0,04) 0,03 (0,03) 0,01 (0,01)

Nhạy cảm 0,60 (0,61) 0,63 (0,65) 0,67 (0,72) 0,67 (0,71) 0,67 (0,74)

độ đặc hiệu 0,67 (0,67) 0,69 (0,69) 0,73 (0,73) 0,78 (0,81) 0,70 (0,70)
điểm F1 0,06 (0,06) 0,06 (0,06) 0,07 (0,08) 0,05 (0,06) 0,02 (0,02)

Trong mô hình Alt-1, chỉ có “đi khập khiễng” và “chán ăn” được gắn nhãn là “ốm” với mô hình cửa sổ bảy ngày và tất cả các triệu chứng khác đều bị bỏ
qua.

Trong mô hình Alt-2, chỉ có “đuôi bị cắn” và “tổn thương da” được phân loại là “ốm” với mô hình cửa sổ 7 ngày và tất cả các triệu chứng khác đều bị
bỏ qua.

(0,7e0,83). Tuy nhiên, độ chính xác của mô hình rất thấp (các mô hình dự đoán
Bảng 5 e Trực quan hóa dạng bảng của các giá trị được quan sát so
nhiều động vật bị bệnh hơn so với báo cáo trong dữ liệu). Tương tự như nghiên
với dự đoán từ mô hình ALT-1 dựa trên dữ liệu thử nghiệm.
cứu của chúng tôi, Thomas et al. (2021) dự đoán bệnh tiêu chảy dựa trên lượng

nước và thức ăn phụ thuộc vào cân nặng bằng cách sử dụng phương pháp học máy
Giá trị quan sát được
với bảy phương pháp khác nhau. Hầu hết các phương pháp được thử nghiệm đều
Đau ốm Khỏe mạnh Tổng cộng
không phát hiện được lợn bị tiêu chảy do sự bất ổn đáng kể của từng cá thể khi

Giá trị dự đoán TP (1.321) FP (46.682) 48.003 cho ăn hoặc uống nước liên quan đến cân nặng. Ngay cả với mô hình tốt nhất, vẫn
Khỏe mạnh FN (650) TN (169.939) 170.589 có 25% heo con bị bệnh không được phát hiện. Tương tự như nghiên cứu của chúng
1971
Tổng 216.621 218.592
tôi, Maselyne et al. (2018) đã điều tra xem liệu những thay đổi hành vi bất

Số lượng quan sát của các giá trị được quan sát và dự đoán được đưa thường trong mô hình cho ăn ở lợn có thể được sử dụng như một chỉ báo về các
ra trong ngoặc đơn. TP ¼ dương tính thật, TN ¼ âm tính thật, FP ¼ vấn đề về sức khỏe, phúc lợi và năng suất hay không. Mặc dù chúng có độ đặc hiệu
dương tính giả, FN ¼ âm tính giả.
cao đáng kể (98,7%) và độ chính xác (96,7%), nhưng độ nhạy (58,0%) và độ chính

xác (71,1%) lại thấp hơn, gây ra cảnh báo sai về các vấn đề sức khỏe và sự thiếu

tin tưởng của người nông dân đối với hệ thống. Độ chính xác cao hơn (trung bình

hiệu suất khi dán nhãn tất cả các triệu chứng là “ốm” (Bảng 4). Phân bổ chi tiết 80%) cũng đã đạt được trong một số nghiên cứu khác, ví dụ, trong Alsaaod et al.

các đánh giá cho Alt-1 được trình bày trong Bảng 5, cho thấy tỷ lệ động vật (2012) và Gertz et al. (2020). Gertz và cộng sự. (2020) đã báo cáo hiệu suất

được dự đoán là bị bệnh là khoảng 22%, mặc dù tỷ lệ phổ biến dựa trên dữ liệu phân loại rất tốt (86% AUC, 81% điểm F1, độ đặc hiệu 78% và độ nhạy 81%) bằng

quan sát được là khoảng 1%, dẫn đến độ chính xác thấp. cách sử dụng thuật toán Xgboost, trong đó các bệnh liên quan đến vận động được

dự đoán bằng cách sử dụng dữ liệu vận động được thu thập từ cảm biến chân và cổ

trong trang trại thương phẩm 397 con bò sữa. Tình trạng sức khỏe của bò được

nhân viên trang trại và bác sĩ thú y theo dõi trong quá trình sinh hoạt hàng
3.2. Các tính năng quan trọng nhất ngày. Dựa trên những phát hiện của họ, việc sử dụng các mô hình khác nhau với

các tính năng và phân đoạn cửa sổ khác nhau đã làm tăng hiệu suất của mô hình và

Các tính năng mang tính thông tin nhất là những tính năng liên quan đến thời gian các hành vi liên quan đến bệnh tật đã được xác định chính xác. Hơn nữa, Alsaaod

cho ăn hàng ngày và lượng thức ăn ăn vào hàng ngày: ResTPD và ResDFI trong mô et al. (2012) đã báo cáo độ chính xác phân loại tốt hơn (76%) để dự đoán tình

hình cửa sổ một ngày và ba ngày và SD_ResTPD trong mô hình cửa sổ bảy ngày. Chỉ trạng khập khiễng ở bò sữa bằng cách sử dụng các tính năng được tạo từ dữ liệu

riêng họ đã giải thích được từ 20% đến 35% lượng thông tin thu được (Hình 3). hoạt động bước chân và hành vi khi nằm so với độ chính xác phân loại (65%) đạt

Tầm quan trọng của các tính năng khác nhỏ hơn 10% (Hình 3). Nói chung, các tính được với dữ liệu thô bằng cách sử dụng máy Support vector mô hình phân loại. Do

năng mới được tính toán từ NVD, TPD và DFI quan trọng hơn trong việc dự đoán đó, phù hợp với những phát hiện của chúng tôi, các tính năng mới sáng tạo được
tình trạng sức khỏe so với các giá trị tuyệt đối của NVD, TPD và DFI. Như chúng tính toán từ dữ liệu thô có nhiều thông tin hơn so với

tôi mong đợi, việc sử dụng mô hình cửa sổ bảy ngày chỉ với 10 tính năng quan

trọng tốt nhất thay vì tất cả 40 tính năng đã tăng nhẹ hiệu suất của mô hình

(dựa trên AUC) (1e2%) và giảm thời gian chạy của mô hình (kết quả không được

hiển thị).

dữ liệu cảm biến thực tế trong việc dự đoán bệnh tật của động vật.

Trong nghiên cứu của chúng tôi, sức khỏe của lợn được nhân viên trạm theo

dõi trong quá trình kiểm tra định kỳ hàng ngày. Có thể nhân viên chỉ phát hiện
4. Cuộc thảo luận ra những trường hợp nghiêm trọng nhất và một số trường hợp nhẹ hơn đã bị bỏ

sót, và do đó, tỷ lệ thực sự của các triệu chứng có thể cao hơn 2% quan sát

Trong nghiên cứu này, thuật toán Xgboost, với các tính năng dựa trên hồ sơ trạm được (tùy thuộc vào triệu chứng nào được phân loại là “bệnh”) trong dữ liệu

cho ăn, đã được áp dụng để dự đoán khả năng mắc bệnh của lợn trong môi trường (Bảng 1). Do đó, một số trường hợp tiêu cực thực sự (được chỉ định là khỏe mạnh

trạm thử nghiệm. Các triệu chứng được cân nhắc là đi khập khiễng, ho, đuôi bị trong dữ liệu) có thể đã bị bệnh. Tỷ lệ lưu hành thực tế cao hơn được hỗ trợ

cắn, chán ăn và tổn thương da hoặc bất kỳ sự kết hợp nào của các triệu chứng bởi Munsterhjelm et al. (2015), trong đó 2672 con lợn trong cùng một trạm thử

này. Nhìn chung, các model đạt AUC tương đối cao nghiệm (Langelm €aki, Phần Lan) đã được theo dõi ở

Machine Translated by Google

142 kỹ thuật hệ thống sinh học 226 (2023) 132 e143

chi tiết về các triệu chứng ba đến bốn lần mỗi ngày bởi nhân viên trang lượng ăn vào của một con lợn trung bình ở cùng độ tuổi là một dấu

trại, người được giám sát bởi bác sĩ thú y đàn gia súc, từ tháng 11 hiệu tốt về một vấn đề sức khỏe có thể xảy ra. Tương tự như vậy, xếp

năm 2007 đến tháng 12 năm 2008. Trong khoảng thời gian đó, tỷ lệ cắn hạng hàng ngày của TPD và DFI có nhiều thông tin và dễ tính toán hơn so với

đuôi là 13%, 11% đối với việc đi khập khiễng, 2% đối với tổn thương phần dư của TPD và DFI. Hoy et al. (2012) cũng đề xuất rằng phải phân

da và 6,1% đối với các triệu chứng khác (bao gồm tiêu chảy, sụt cân, loại cấp hàng ngày dựa trên việc cho ăn vì nhiều lợn có thể tiếp cận

nôn mửa, v.v.). Một lời giải thích khả dĩ khác cho độ chính xác thấp một nơi cho ăn trong chuồng. Do đó, chúng tôi đề xuất sử dụng các đặc

trong nghiên cứu của chúng tôi có thể là do trình phân loại không tìm điểm chỉ ra sự khác biệt về hành vi ăn uống của động vật so với bạn

hiểu ranh giới quyết định tối ưu với tập dữ liệu mất cân bằng cao của cùng chuồng (thứ hạng) hoặc với lợn cùng tuổi (dư lượng) thay vì quan

chúng tôi mặc dù chúng tôi đã sử dụng phương pháp cân cho các mẫu từ sát thô (NVD, TPD, DFI). Hơn nữa, chỉ sử dụng các tính năng quan trọng

lớp thiểu số. Bất kỳ tập dữ liệu thực nào cũng có thể có một số lớp nhất trong mô hình thay vì tất cả các tính năng có sẵn

không cân bằng gây ra sự phân loại sai lệch trong học máy. Nhiều kỹ

thuật khác nhau đã được phát triển để giải quyết vấn đề này chẳng hạn cải thiện hiệu suất thuật toán một chút (1e2%).

như phương pháp lấy mẫu dưới, phương pháp lấy mẫu quá mức, phương Từ quan điểm thực tế, độ nhạy cao quan trọng hơn độ chính xác cao

pháp tập hợp, v.v. để cải thiện hiệu suất của bộ phân loại (He & vì đánh giá cuối cùng về bệnh của động vật sẽ dựa trên việc nhân viên

Garcia, 2009; Japkowicz & Stephen, 2002; Provost, 2000). Mặc dù chúng quản lý kiểm tra lại nếu thuật toán được áp dụng cho thấy động vật có

tôi đã chia tỷ lệ trọng số của lớp theo mức độ phổ biến của các quan thể bị bệnh. Chi phí kiểm tra lại các con vật bổ sung nên nhỏ hơn so

sát trong mỗi lớp để giải quyết vấn đề phân loại không cân bằng, chúng với việc điều trị một con vật bị bệnh không được phát hiện sớm. Mặc

tôi nên thử các phương pháp được đề xuất khác và tìm ra phương pháp dù vậy, độ chính xác phải cao hơn nhiều so với những gì đã đạt được ở

tốt nhất trong tương lai cho tập dữ liệu của mình. Tuy nhiên, kỹ thuật đây để có được sự tin tưởng của người dùng thuật toán một cách thường
hiệu quả nhất vẫn có thể khác nhau tùy thuộc vào tập dữ liệu. xuyên. Các tính năng bắt nguồn từ các hệ thống ghi dữ liệu tự động

khác, chẳng hạn như cảm biến chuyển động định vị, có thể cải thiện

Những thay đổi hành vi bất thường ở lợn có thể là dấu hiệu của hiệu suất dự đoán của phương pháp.

bệnh. Những thay đổi hành vi này có thể diễn ra nhanh chóng và biểu

hiện bệnh ngay sau khi những thay đổi hành vi xảy ra hoặc những thay

đổi này có thể bắt đầu vài ngày trước khi bị bệnh. Do đó, chúng tôi đã

áp dụng các mô hình có độ dài cửa sổ khác nhau. Chúng tôi nhận thấy một

xu hướng rõ ràng rằng việc xem xét các bản ghi từ nhiều ngày trước đó 5. kết luận

thay vì một ngày duy nhất là có lợi (AUC tăng từ 0,70 lên 80). Gertz

và cộng sự. (2020) cũng báo cáo rằng việc sử dụng các độ dài cửa sổ Dựa trên các số liệu về hiệu suất (AUC, độ nhạy và độ đặc hiệu), bệnh

khác nhau cho phép bộ phân loại chọn lượng dữ liệu dẫn đến hiệu suất lợn có thể được phát hiện bằng cách áp dụng thuật toán Xgboost cho dữ

dự đoán tốt nhất. Tuy nhiên, Xgboost ưu tiên chọn độ dài cửa sổ ngắn liệu hành vi cho ăn. Tuy nhiên, độ chính xác thu được rất thấp, có thể

hơn trong nghiên cứu của họ so với nghiên cứu của chúng tôi. do dữ liệu không cân bằng.

Sử dụng các quan sát trong vài ngày (bảy ngày) đã đưa ra những dự đoán

Do đó, việc kiểm tra một số độ dài cửa sổ luôn là một phương pháp hay chính xác hơn so với dự đoán dựa trên một ngày duy nhất, mặc dù kết

vì hiệu suất của phương pháp phụ thuộc vào các tính năng và bản chất quả không khác biệt đáng kể. Khi dự đoán dựa trên các quan sát trong

của dữ liệu và khoảng thời gian dài có thể không phải lúc nào cũng tối một hoặc ba ngày (cửa sổ một và ba ngày), các tính năng quan trọng nhất

ưu. Ngoài ra, trong các nghiên cứu hành vi khác (ví dụ: Piette và cộng là ResTPD và ResDFI. Nhìn chung, chúng tôi đã kiểm tra một bộ tính năng

sự, 2020; Riaboff và cộng sự, 2020; Smith và cộng sự, 2016), cách tiếp rộng lớn nhưng hạn chế và kết quả của chúng tôi có thể được cải thiện

cận độ dài cửa sổ trượt đã có tác động tích cực đến hiệu suất của bằng cách tính toán các tính năng mới, xem xét tương tác giữa các tính

thuật toán. năng, sử dụng (các) thời lượng cửa sổ khác nhau, các phương pháp khác

Việc chọn các siêu tham số tối ưu là rất quan trọng để đạt được nhau, v.v. Điều này sẽ cần nhiều nghiên cứu hơn.

hiệu suất mô hình thành công, vì các phương pháp ML có rủi ro cao về

việc trang bị thiếu/thừa dữ liệu huấn luyện. Tuy nhiên, không có cách

tối ưu để điều chỉnh các siêu tham số. Trong nghiên cứu của chúng tôi,

các siêu đường kính được điều chỉnh bằng phương pháp tìm kiếm dạng Tuyên bố đóng góp quyền tác giả của CRediT
lưới (Bergstra & Bengio, 2012) với CV gấp 10 lần và các siêu đường

kính tốt nhất đã được chọn để phân tích thêm. Do đó, mặc dù việc điều Alper Tuna Kavlak: Khái niệm hóa, Phương pháp luận, Phân tích chính

chỉnh siêu tham số cần thêm thời gian tính toán, nhưng nên đạt được thức, Điều tra, Quản lý dữ liệu, Phần mềm, Viết bản thảo gốc. Matti

hiệu suất dự đoán tốt. Pastell: Phương pháp luận, Phân tích hình thức, Phần mềm, Quản lý dữ

liệu, Viết- Đánh giá và Chỉnh sửa.

Cuối cùng, tập hợp các tính năng có sẵn để dự đoán là rất quan Pekka Uimari: Giám sát, Khái niệm hóa, Phương pháp luận, Phân tích

trọng để cải thiện hiệu suất của phân loại. Trong nghiên cứu của chúng chính thức, Quản lý dữ liệu, Viết- Đánh giá và Chỉnh sửa.

tôi, các tính năng được tính toán từ dữ liệu hành vi cho ăn với các

phân đoạn cửa sổ ngắn và dài. Các tính năng quan trọng nhất là ResTPD

và ResDFI cùng với SD_ResTPD trong mô hình thời lượng cửa sổ bảy ngày

(Hình 3), cho thấy rằng việc sử dụng phần còn lại của các đặc điểm hành Tuyên bố về lợi ích cạnh tranh
vi cho ăn sẽ có lợi hơn trong việc dự đoán bệnh ở lợn so với các giá

trị tuyệt đối. Do đó, sự sai lệch so với thời gian cho ăn hàng ngày Các tác giả tuyên bố rằng họ không có lợi ích tài chính cạnh tranh hoặc

điển hình hoặc lượng thức ăn hàng ngày so với thời gian cho ăn và mối quan hệ cá nhân nào có thể ảnh hưởng đến công việc được báo cáo

lượng thức ăn hàng ngày trong bài báo này.


Machine Translated by Google

kỹ thuật hệ thống sinh học 226 (2023) 132 e143 143

Kavlak, AT, Stranden, I., Lidauer, MH, & Uimari, P. (2021).


Nhìn nhận Ước tính các tác động di truyền xã hội đối với hành vi cho ăn và đặc
điểm sản xuất ở lợn. Động vật, 15(3), Điều 100168.
Kuhn, M., Wing, J., Weston, S., Williams, A., Keefer, C.,
Nghiên cứu được tài trợ bởi Raisio Oyj Tutkimussa€ati€o (Phần Lan)€ và Suomen Sianjalostuksen Sa€ati€o

Engelhardt, A., Cooper, T., Mayer, Z., Kenkel, B., Benesty, M.,
(Phần Lan). Các tác giả rất biết ơn Viện Tài nguyên thiên nhiên Phần Lan (Luke) vì đã hợp tác trong
Lescarbeau, R., Ziem, A., Scrucca, L., Tang, Y., Candan, C., & Hunt, T.
dự án này và Timo Serenius (Figen Oy), Marja-Liisa Sevon-Aimonen (Luke) và Jarmo Valaja (Đại học
(2018). dấu mũ: Phân loại và đào tạo hồi quy.
Helsinki) vì những ý kiến đóng góp của họ. thành viên hội đồng tư vấn luận án. Liakos, KG, Busato, P., Moshou, D., Pearson, S., & Bochtis, D.

(2018). Học máy trong nông nghiệp: Đánh giá. Cảm biến, 18, 2674.

Maselyne, J., Van Nuffel, A., Briene, P., Vangeyte, J., De Ketelaere, B.,
Millet, S., Van den Hof, J., Maes, D., & Saeys, W. ( 2018). Hệ thống cảnh
báo trực tuyến cho từng heo vỗ béo dựa trên mô hình cho ăn của chúng.
người giới thiệu Kỹ thuật hệ thống sinh học, 173, 143e156.

Matthews, SG, Miller, AL, Plotz, T., & Kyriazakis, I. (2017).


Theo dõi tự động để đo lường những thay đổi hành vi ở lợn để theo dõi

sức khỏe và phúc lợi. Báo cáo khoa học, 7(1), Điều 17582.
Alsaaod, M., Romer, C., Kleinmanns, J., Hendriksen, K., Rose- Meierhofer,

S., Plu ¨mer, L., & Bu¨ scher, W. (2012). Phát hiện điện tử tình
Mellor, DJ (2016). Cập nhật tư duy về phúc lợi động vật: Vượt ra khỏi
trạng khập khiễng ở bò sữa thông qua đo lường hoạt động theo dõi
“năm quyền tự do” để hướng tới “Một cuộc sống đáng sống”.
bước chân và hành vi nói dối. Khoa học Hành vi Động vật Ứng
Động vật, 6, 21.
dụng , 142, 134e141.
Munsterhjelm, C., Heinonen, M., & Valros, A. (2015). Ảnh hưởng của bệnh
Bergstra, J., & Bengio, Y. (2012). Tìm kiếm ngẫu nhiên cho siêu
què lâm sàng và tổn thương do cắn đuôi đối với lượng thức ăn tự
tối ưu hóa tham số. Tạp chí Nghiên cứu Máy học, 13, 281e305.
nguyện ăn vào ở lợn đang phát triển. Khoa học chăn nuôi, 181, 210e219.
Pandey, S., Kalwa, U., Kong, T., Guo, B., Gauger, PC, Peters, DJ, & Yoon, KJ
Brown-Brandl, T., Rohrer, GA, & Eigenberg, RA (2013). Phân tích hành vi ăn
(2021). Công cụ giám sát hành vi cho người chăn nuôi lợn: Cảm biến thẻ
uống của lợn giai đoạn phát triển nuôi theo nhóm .
tai, trí thông minh của máy móc và lộ trình áp dụng công nghệ.
Máy tính và Điện tử trong Nông nghiệp, 96, 246e252.
Động vật, 11(9), 2665.
Xe buýt, JD, Boumans, IJMM, Webb, LE, & Bokkers, EAM
Piette, D., Norton, T., Exadaktylos, V., & Berckmans, D. (2020).
(2021). Tiềm năng của các mô hình cho ăn để đánh giá phúc lợi chung
Phát hiện khập khiễng tự động được cá nhân hóa ở bò sữa và tác động
ở lợn đang lớn và lợn vỗ béo. Khoa học Hành vi Động vật Ứng dụng ,
của độ dài cửa sổ lịch sử đối với hiệu suất thuật toán. Động vật,
241, Điều 105383.
14, 409e417.
Chen, T., He, T., Benesty, M., Khotilovich, V., Tang, Y., Cho, H.,
Hiệu trưởng, F. (2000). Máy học từ tập dữ liệu mất cân bằng 101.
Chen, K., Mitchell, R., Cano, I., Zhou, T., Li, M., Xie, J., Lin, M.,
Hội thảo về học hỏi từ các tập dữ liệu mất cân bằng. Texas, Mỹ: AAAI.
Geng, Y., & Li, Y. (2018). xgboost: Tăng cường độ dốc cực độ.
Nhóm nòng cốt R. (2019). R: Một ngôn ngữ và môi trường cho tính toán
D'Eath, RB, Jack, M., Futro, A., Talbot, D., Zhu, Q., Barclay, D., & Baxter,
thống kê. Viên, Áo: R Foundation for Statistical Computing.
EM (2018). Tự động cảnh báo sớm hiện tượng lợn cắn đuôi : Camera 3D có
thể phát hiện tư thế cụp đuôi trước khi bùng phát. PLoS Một, 13, 18.
Riaboff, L., Poggi, S., Madouasse, A., Couvreur, S., Aubin, S.,
Bedere, N., Goumand, E., Chauvin, A., & Plantier, G. (2020).
Garrido-Izard, M., Correa, EC, Requejo, JM, & Diezma, B. (2020).
Phát triển khung phương pháp luận để dự đoán mạnh mẽ các hành vi
Giám sát liên tục lợn vỗ béo bằng hệ thống đa cảm biến: Các mẫu hành
chính của bò sữa bằng cách sử dụng kết hợp các thuật toán học máy
vi. Động vật, 10, 17.
trên dữ liệu gia tốc kế. Máy tính và Điện tử trong Nông
Gertz, M., Große-Butenuth, K., Junge, W., Maassen-Francke, B., Renner, C.,
nghiệp, 169, Điều 105179.
Sparenberg, H., & Krieter, J. (2020). Sử dụng thuật toán XGBoost
để phân loại dữ liệu cảm biến hoạt động của cổ và chân bằng cách sử dụng
Smith, D., Rahman, A., Bishop-Hurley, GJ, Hills, J., Shahriar, S., Henry,
các bản ghi sức khỏe tại trang trại đối với các bệnh liên quan đến
D., & Rawnsley, R. (2016). Phân loại hành vi của những con bò được
vận động. Máy tính và Điện tử trong Nông nghiệp, 173.
đeo vòng cổ chuyển động: Phân tách phân loại đa lớp thành một tập
Greiner, M., Pfeiffer, D., & Smith, RD (2000). nguyên tắc và
hợp các vấn đề nhị phân. Máy tính và Điện tử trong Nông nghiệp,
ứng dụng thực tế của phân tích đặc tính vận hành máy thu cho các xét
131, 40e50.
nghiệm chẩn đoán. Thú Y Dự Phòng, 45,
Kẹo ngọt, JA (1988). Đo độ chính xác của hệ thống chẩn đoán.
23e41.
Khoa học, 240, 1285e1293.
Guarino, M., Jans, P., Costa, A., Aerts, JM, & Berckmans, D. (2008).
Thomas, J., Rousseliere, Y., Marcon, M., & H emonic, A. (2021).
Thử nghiệm thực địa thuật toán phát hiện ho tự động trong chuồng lợn.
Phát hiện sớm bệnh tiêu chảy ở heo con cai sữa từ dữ liệu về thức ăn,
Máy tính và Điện tử trong Nông nghiệp, 62, 22e28.
nước và cân nặng của từng cá thể. Biên giới trong Khoa học Động vật, 2,
Hastie, T., Tibshirani, R., & Friedman, JH (2009). Các yếu tố của học thống 2673e6225.
kê: Khai thác dữ liệu, suy luận và dự đoán. New York, NY: Mùa xuân.
Tolkamp, BJ, Allcroft, DJ, Austin, EJ, Nielsen, BL, &
Kyriazakis, I. (2016). Cảm giác no chia hành vi ăn thành từng
Anh ấy, H., & Garcia, EA (2009). Học hỏi từ dữ liệu mất cân bằng.
cơn. Tạp chí Sinh học lý thuyết, 194, 235e250.
Kiến thức và Kỹ thuật dữ liệu, IEEE, 21(9), 1263e1284.
Valletta, JJ, Torney, C., Kings, M., Thornton, A., & Madden, J.
Hoy, S., Schamun, S., & Weirich, C. (2012). Các cuộc điều tra về lượng thức
(2017). Các ứng dụng của học máy trong nghiên cứu hành vi động vật.
ăn ăn vào và hành vi xã hội của lợn vỗ béo được nuôi tại một
Hành vi của Động vật, 124, 203e220.
trạm cho ăn điện tử. Khoa học Hành vi Động vật Ứng dụng, 139, 58e64.
Trẻ, RJ, & Lawrence, AB (1994). Hành vi ăn của lợn trong các nhóm được giám
sát bởi hệ thống cho ăn trên máy vi tính. Khoa học Động vật , 58,
Japkowicz, N., & Stephen, S. (2002). Vấn đề mất cân bằng lớp học: Một nghiên
145e152.
cứu có hệ thống. Phân tích dữ liệu thông minh, 6(5), 429e449.

Xem số liệu thống kê xuất bản

You might also like