TFG Plantilla A Introduccion

Capítulo 1
Introdución
1.1. A xestión dos datos: un problema a resolver

Nos días actuais a gran cantidade de datos aos que temos acceso tanto nós
como as nosas aplicacións fai preciso que se faga unha xestión organizada de toda
esta información. Esto vese claro se temos en conta que, aínda que a cantidade
de datos potencialmente útiles está a medrar dun xeito bastante rapido o seu re-
uso está limitado. Nesta situación créanse os principios FAIR (na lingua inglesa
este acrónimo refírese a findable,accesible,interoperable e reusable) entendendo
a reusabilidade como que tanto humanos como máquinas poidan volver a facer
emprego destes recursos.
Findable FAIR Principles Reusable
Accesible Interoperable
Figura 1.1: Principios FAIR [15]
1
2 CAPÍTULO 1. INTRODUCIÓN
Para explicar mellor esta situación podemos empezar falando sobre a multi-
disciplinariedad da maioría das ciencias, un arquitecto podería precisar de datos
climáticos para medir o posible deterioro dos seus edificios nun contexto determi-
nado, un químico podería ter que obter datos climáticos para un experimento ou
un biólogo podería interesarse sobre as propiedades químicas de certos elementos
no solo mariño para estudar un ecosistema concreto .
Como podemos razoar a partir destas observacións, un foco de atención importan-

te para moitos organismos e organizacións está posto no rol dos datos en tódolos
campos da investigación científica, a parte da necesidade obvia do intercambio
de información entre a comunidade científica tamén nos temos que decatar que
ten que darse tamén un troco fluido entre esta mesma comunidade e os usuarios
finais, asi mesmo cós proveedores dos datos.
O obxectivo final é mellorar a efectividade e transferencia da investigación cien-

tífica e o seu uso na mellora da sociedade no seu conxunto, un grupo de inves-
tigadores con moitos datos de libre acceso obtibles de forma sinxela pode facer
investigacións independentes, como a que sacou a luz o fraude das investigacións
de Volkswagen.
Un dos maiores problemas para acadar este obxectivo e a compartición dos datos,
o “data sharing”, que supón o principal pescozo de botella que impide o máximo
aproveitamento dos datos. Para arranxar esto creáronse os principios FAIR antes
mencionados. Unha das iniciativas clave para solucionar isto é enlazar datos dun
amplio abanico de fontes diversas, como defendeu Tim Berners-Lee no seu modelo
das 5 estrelas que el mesmo propuso(podemos velo na táboa 1.1), estes principios
máis que axudar ao creador do dataset servirían para que outros usuarios puide-
sen buscar,acceder,entender e procesar automáticamente os datos.
As cinco estrelas de datos abertos de Berners-Lee seguen sendo un marco de

referencia para calquera que traballe con datos abertos. En xeral interpretáronse
como acumulativos, xa que cada estrela adicional presume que os datos cumpre
cós criterios dos pasos anteriores, dado que sempre tivo un peso enorme o primeiro
paso, unha licenza aberta. Sen a presenza dunha licenza aberta, a implementa-
ción dos requerimentos das outras catro estrelas non darían lugar a datos abertos.
Todas as demais estrelas están relacionadas coa interoperabilidade dos datos,

mentres que a primeira estrela trata sobre a apertura para a reutilización. As
cinco estrelas de datos abertos de Berners-Lee son un marco para a apertura;
polo tanto, tamén se lles chama “as cinco estrelas da apertura”.
Volvendo a falar dos principios FAIR,estes axudan a que os metadatos non só

sexan lexibles pola máquina, senón tamén que sexan accionables por estas. Esto
1.1. A XESTIÓN DOS DATOS: UN PROBLEMA A RESOLVER 3
Nivel Explicación Exemplo

dispoñible na web e cunha licencia aberta PDF
dispoñible como datos estructurados EXCEL
dispoñible nun formato de software non propietario CSV
URIs para identificar os obxectos RDF
enlazar datos diferentes para proporcionar contexto LOD
Cadro 1.1: Five-Star model, información sacada do AGROVOC 1:Data sharing,

interoperability and knowledge organization systems[10]
permitelles interpretar datos ata certo punto sen interacción humana, apoiando á
realización de novos descubrimentos mediante a colleita e a análise de múltiples
datasets.
Para procesar estes datos son precisas ferramentas que automaticen a súa xestión
e estean dispoñibles para os proveedores dos datos e mais para os usuarios, ade-
mais ter accesibeis vocabularios e produtos asociados a estos desenvolvidos por
unha comunidade aberta pódenos axudar á perfeccionalas.
Pero a que se refiren, exactamente, os principios FAIR, os 4 principios que
podemos ver na imaxe 1.1 son:
Findable: Cómpre que exista un id global,único e permanente, polo tanto asíg-

nase un identificador que permite anotar os datos con metadatos enriqueci-
dos,deste xeito tamén se poden atopar a través de portais de descubrimento
disciplinario. Este é un paso esencial, sen el sería moito máis difícil atopar
o resto dos principios FAIR,podemos subdividir este principio en:
F1: Aos metadatos asígnaselle un identificador global único e persistente.

F2: Os datos son destritos usando un conxunto de metadatos ricos en con-
tido, como se poderá ver no apartado R1
F3: Os metadatos inclúen de forma clara e explícita o identificador dos
datos que describen
F4: Os metadatos son rexistrados ou indexados nun recurso dispoñible
son, en xeral, de formato uniforme.
Accesible: Unha vez atopados os datos, é necesario saber como acceder a eles.
É recomendable que os datos e os metadatos se poidan recuperar nunha
variedade de formatos que sexan entendibles tanto para os humanos como
para as máquinas que fan uso dos identificadores persistentes asignados
mediante o F1.
A1: Os metadatos son recuperables polo seu identificador mediante un pro-

tocolo estandarizado de comunicacións, como HTTP ou File Transfer
Protocol (FTP), o protocolo é aberto,libre e pode ser universalmente
implementable. O protocola permitirá as operacións de autentificación
e autorización cando estas sexan precisas.
A2: Os metadatos son accesibles, incluso cando os datos xa non o son.
Interoperable: A descrición dos elementos pertencentes aos metadatos debe se-

guir as directrices comunitarias que usan vocabularios abertos,ben definidos
e que dependen dos linguaxes de representación do coñecemento:
I1: Os metadatos usan unha linguaxe formal, accesible, compartida e am-

plamente aplicable para a representación do coñecemento;
I2: Os metadatos usan vocabularios que seguen os principios FAIR.
I3: Os metadatos inclúen referencias cualificadas a outros metadatos.
Os vocabularios empregados tamén deberían cumprir os principios FAIR.

Isto significa, por exemplo, que o vocabulario controlado utilizado para
describir conxuntos de datos debe documentarse e tamén se pode recoñecer
mediante identificadores únicos e persistentes a nivel mundial. Esta docu-
mentación debe ser facilmente atopada e accesible por calquera que utilice
o conxunto de datos.
Reusable: Este é o derradeiro principio: os datos deben manter a súa riqueza

inicial. A descrición de elementos de metadata esenciais, recomendados e
opcionais deben de ser procesables por máquina e verificables. Os metadatos
deben ser ricamente descritos cunha pluralidade de atributos precisos e
relevantes, como os seguintes:
R1: Os metadatos son publicados cunha licenza de uso dos datos clara e
accesible.
R2: Os metadatos conteñen a procedencia detallada dos datos.
I3: Os (meta)datos cumpren os estándares comunitarios que son relevantes
para o dominio específico.
Ademais, o uso dos datos debe ser sinxelo e os datos deben ser citables para
manter o intercambio de datos e recoñecer o valor deles.
Para compartir os datos precísase un entendemento compartido do significado e

unha terminoloxía inequívoca. O contido e os metadatos deben ser de elevada
calidade e estar estandarizados, para que poida ser compartido e reutilizado. É
importante utilizar estándares internacionais para termos como países, rexións
ou linguas.
1.2. XESTIÓN DOS DATOS: PROBLEMAS NA AGRICULTURA 5
1.2. Xestión dos datos: problemas na agricultura

No caso do ámbito de estudo do noso TFG ímonos enfocar nos datos agrícolas,
estes tamén están medrando de forma exponencial grazas aos avances tecnolóxi-
cos ( aumento da capacidade dos dispositivos de IOT, melloras no almaceamento
na nube, avances en aprendizaxe máquina para procesar estes datos, etc... ).
Como falababamos na sección anterior os datos enfróntanse a unha serie de

problemas que hai que abordar, moitas destas dificultades inciden de forma es-
pecial neste dominio, por exemplo, a falta de compartición e organización dos
datos de procedencia moi heteroxénea, ou a multidisciplinariedade do noso cam-
po (Para facer investigacións sobre agricultura precisamos tanto datos quími-
cos:Sulfatos,fermentación,etc...; como legais: propiedade da terra,cultivos permi-
tidos,lexislación sobre insecticidas; como xeográficos: composición do chan, cuncas
fluviais e que efecto teñen na temperatura, etc...).
A variedade dos produtores de información tamén agranda este problema, pois

as fontes dos datos cós que temos que traballar son moi diversas, por exemplo:
Governos: Recollen datos para fins de seguimento, xestión de información e
procedementos administrativos. Estes datos, que inclúen estatísticas etno-
gráficas, datos de seguimento das subvencións e impostos e datos sobre o
desempeño ambiental e a saúde nacional, son, en xeral, de formato uniforme.
Proxectos de investigación: Non son publicados cun formato periódico de for-

ma xeral e non son uniformes na organización dos datos que presentan, soen
estar só parcialmente anotados.
Industrias: Recollen datos para as súas operacións e tamén para as súas acti-
vidades de investigación e desarrollo, non son propensos ao compartimento
dos datos se lles fai perder unha potencial vantaxe respecto aos seus com-
petidores.
Aparte destes dous feitos temos tamén que falar de varios desafíos que temos
que solucionar para conseguer que os nosos datos sexan FAIR neste contexto:
Falta de interoperabilidade: Esta dificultade é moitas veces debida á falta de
estándares en todas as ciencias agrícolas e alimentarias. Algunhas partes das
ciencias da agricultura e dos alimentos teñen unha forte implementación de
estándares, como a xenética de plantas a través de BRAPI, xeoespacial a
través de OGC, termos de tesauro e traducións de idiomas a través de GACS
e AGROVOC (FAO, 2021) e eventos de xestión de granxas a través de
AgGateway. Os vencellos entre estes estándares son débiles, e faltan moitas
partes cruciais.Como a relación entre os termos do tesauro de AGROVOC
e conceptos espaciais en OCC, estas lagoas en branco levan á conclusión de
que o avance da aplicación do big data nas técnicas de agroalimentación é

máis un problema de variedade que de volume.
Falta de acceso: Non ter a man os datos e as solucións precisas para un goberno
e xestión de datos confiable e seguro para a privacidade. Moitas fontes de
datos interesantes seguen pechadas por motivos comerciais ou doutra índole,
aínda que o acceso controlado a eles non causaría ningunha desvantaxe. Isto
dificulta o uso destes datos na investigación agroalimentaria.
Uniformidade: Falta de acordo sobre como utilizar o dispoñible tecnoloxías en

sensores IoT, instrumentos de laboratorio e todo tipo de equipos. Deben
recompilar (transmitir) datos dunha forma estandarizada e robusta. Aínda
hai moitos pasos que o investigador necesita para descargar datos un forma-
to compartido, convérteo e xúntalo desde unha diversidade de dispositivos
Falta de formación específica: Os investigadores están máis preparados para

procurar solucións software as cales serven resolver problemas específicos
no seu dominio que para ter habilidades e boas prácticas para o tratamento
dos datos.
Interoperabilidade
Acceso Problemas Formación
Uniformidade
Figura 1.2: Principais problemas nos tratamentos dos datos agrícolas

1.2. XESTIÓN DOS DATOS: PROBLEMAS NA AGRICULTURA 7
Hai varios proxectos en marcha para solventar esto e facer os datos agronó-
micos máis “FAIR”, pero antes de explicalos, temos que plantexarnos os seguintes
puntos:
Ó conxunto de datos é interesante?
Cómpre o esforzo a realizar para facelo reutilizable?
Para medir o éxito do “data sharing” deberiamos considerar que se cumplen
certas condicións:
Despois de estar accesible un usuario potencial debería ser capaz de acceder a
este “dataset” segundo a súa temática,fonte dos datos, variables, formato ou outro
conxunto calquera de criterios na web, o usuario tamén tería a opción de:
Decidir se é interesante para a tarefa que está a facer e saber se ten permitido
usalo para ese propósito.
Poder recoller ese conxunto de datos e procesalo, o que inclúe mapear as
variables publicadas e procesalas xunto ás que xa tén.
Poder engadir nova metada á orixinal e enlazar o novo dataset basado nos
seus descubrimentos.
e Research programs
[ Publishers
ï Industries
Universities
Plan Collect Process Analyse Write

Design
tests Data Data Data Reports
Figura 1.3: Procesos e institucións na analise dos datos
Hai varios traballos que se están a desenvolver para permitir aumentar a efica-
cia no intercambio dos datos. Por exemplo, no proxecto da Unión Europea Cybele
fíxose un experimento para engadir unha API adicional para acceder a datos do
repositorio AgroDataCube.Provee ao usuario cunha transformación automática
entre representacións semánticas, tamén especifica un mapeado entre o vocabula-
rio de AGROVOC e os códigos referentes aos cultivos definidos polo RVO, deste
xeito proporciona unha traducción entre o seu nome en todas as linguaxes in-
cluídas en AGROVOC.Ademais , esta ferramenta ten incluída conexións a outros
’datasets’ que tamén están mapeados usando ese vocabulario.
1.3. Ontoloxías: unha solución?
Vocabulario Controlado:
Lista pechada de palabras predefinidas
Taxonomía:
Engade unha xerarquía, conexións broader/narrower
Thesaurus:
Engade relacións, termos preferidos, etc
Ontoloxía:
reglas e restriccións
Figura 1.4: clasificación de organizacións do coñecemento
Como falabamos nas anteriores seccións sería preciso avanzar na estandari-

zación e armonización dos conceptos na agricultura e no dominio alimentario
mediante o uso de vocabularios controlados e máis ontoloxías.
Para explicar mellor esto referenciaremos a imaxe 1.3, un vocabulario contro-

lado soe referirse a unha lista pechada de palabras que nos proveen dunha lixeira
taxonomía de termos, mentres unha ontoloxía proporcionanos un modelo lóxico
que formaliza conceptos e relacións nun dominio, os vocabularios poden usarse
de axuda para buscar palabras nas fontes de datos non estruturadas, pola con-
tra, unha ontoloxía poderá realizar consultas e facer inferencias sobre ’datasets’
complexos pero organizados; tanto unha como outra poden ser mapeadas nas
estruturas do software.
Por poñer un exemplo, un vocabulario controlado como AGROVOC foi desenvol-

vido para estructurar terminoloxía relacionada cós dominios agrícolas e alimen-
tarios có propósito de procurar recursos nun conxunto de libros e artigos.
1.4. SINÓNIMOS PARA MELLORAR A ONTOLOXÍA 9
Con todo, incluso contando que tanto os vocabularios coma as ontoloxías fa-
cilitan a búsqueda e conexión de diferentes fontes de datos, estas tecnoloxías
seguen requerindo un certo esforzo para a súa aplicación efectiva na práctica, por
exemplo, para converxer diferentes datasets.
Un dos problemas é que as etiquetas escritas na lenguaxe natural que usamos

os humanos para designar conceptos son a miúdo ambiguas. Termos que teñen
etiquetas similares poden facer referencia a diferentes conceptos e etiquetas dife-
rentes son usadas para termos semellantes.
O termo “maize” pode refererse ao millo como cultivo, pero tamén pode facer
referencia ao millo como produto alimentario. Nestes casos os conceptos veciños
no grafo encarganse de especificar cal é o significado exacto do nodo individual.
Polo tanto, o reuso de vocabularios e ontoloxías non é trivial se os subdominios

non están ben cubertos tanto en calidade como cantidade.
1.4. Sinónimos para mellorar a ontoloxía

Tendo por seguro todo o visto ata agora, quédanos formular unha serie de
preguntas, se as ontoloxías1.3 poden axudarnos a conseguer melloras na procu-
ra, accesibilidade, interoperabilidade,reusabilidade1.1 sería posible mellorar esta
eficacia atopando sinónimos que a partir de diferentes termos refiranse nunha úl-
tima instancia a un mesmo concepto? Como se levaría a cabo este proceso? Que
resultados tería?
Daquela poderiamos propoñer a hipótese de que debido a que as ontoloxías son

construidas con diferentes obxectivos varias ontoloxías que definan conceptos que
se refiren ás mesmas entidades do mundo real van ter diferentes sinónimos usados
para o seu contexto particular, os cales a pesar da súa diversidade son válidos
(ex: “maize” no anterior apartado1.3).
Estes diferentes enfoques poden estar relacionados có contexto, cós dominios ex-
pertos e coas diferentes fontes dos datos. Considerando todos estes termos pode-
mos construír vocabularios extendidos que poden mellorar a potencia de tarefas
de minería de textos levadas a cabo grazas á axuda das ontoloxías.
Polo tanto construír mecanismos de expansión de sinónimos para ontoloxías que

mestura coincidencia léxica e equivalencia semántica para obter novos termos
semellantes para os mesmos conceptos vai moi posiblemente a mellorar as ferra-
mentas que usen estas ontoloxías para a anotación de textos e datasets.
Unha búsqueda estricta de coincidencias léxicas pode ser usada para identifi-
car termos que doutro xeito non se ligarían e que conteñen unha etiqueta a cal é
a mesma á primeira etiqueta do outro termo.
Despois de facer esto teríamos que facer consultas de equivalencia a partir de

clases que son similares á nosa de entrada, pero que non teñen a primeira eti-
queta igual, é dicir , detectar conceptos equivalentes segundo a súa posición na
xerarquía da ontoloxía.
Poñendo como exemplo un problema similar á do noso traballo, se estivésemos

tentando optimizar unha ontoloxía biomédica estaríamos falando dun problema
multidisciplinar(similar ao dominio agrícola 1.2), onde interveñen diferentes taxo-
nomías tanto de enfermidades, como de bacterias e virus que as provocan, tanto
como ontoloxías sobre o corpo humano e áreas afectadas por estas.
bradyrhythmia
bradycardia
Reduced heart rate
Figura 1.5: Exemplo da expansión dos sinónimos[13]
Como podemos ver no exemplo seguinte,1.4, a partir dun mesmo concepto

usando estes dous formatos de búsqueda podemos obter termos doutras ontolo-
xías(ou da mesma) que fan referencia a un mesmo concepto, mellorando así a
indexación e anotación sobre formatos non estruturados e mellorando a aplica-
ción dos principios FAIR a estos textos.
Tamén se poderían elimiñar os falsos sinónimos usando como base un corpus

lingüístico. Por exemplo, se un candidato a sinónimo nunca , ou, polo menos
raramente,aparece no mesmo documento que outra etiqueta que é usada como si-
nónimo para este termo nun corpus literario, é posible que se refira a un concepto
diferente nun contexto distinto. Isto tamén se pode realizar mediante a análise
dos metadatos dos corpus de texto.É posible que teñan significados diferentes,
polo que teríamos que facer unha análise posterior dos sinónimos optidos para
comprobar a súa validez.
A expansión dos sinónimos entre ontoloxías pode levar a un gran aumento da

capacidade do vocabulario dispoñible para aplicacións de minería de textos. Aín-
1.5. AGROVOC 11
da que a precisión do vocabulario estendido non é perfecta, con todo levou a

mellorar significativamente a caracterización baseada na ontoloxía dos pacientes
a partir do texto nun só escenario. Ademais, onde un erro na execución non sexa
aceptable, a técnica pódese utilizar para proporcionar sinónimos candidatos que
poden ser verificados por un experto nos dominios que nos concernentes.
1.5. AGROVOC
AGROVOC é un vocabulario controlador de termos relacionados á agricultu-
ra, ten gardados máis de 38.000 conceptos, é multilingüe, tendo idiomas como o
francés,inglés,portugués,galego,alemán,inglés e ruso entre outros.
O ámbito de AGROVOC é amplo, pois abarca moitos campos relacionados coa

súa actividade principal, entre os principais temos: pesca, silvicultura e medio
ambiente. Xestionar o contido do tesauro en áreas especializadas require unha
profunda experiencia temática; aínda así, o equipo principal de AGROVOC é moi
pequeno. A curación de contidos depende da colaboración cunha rede internacio-
nal de institucións, que tradicionalmente encárgare do control dun vocabulario.
Ao mesmo tempo, hai unha serie de comunidades técnicas de práctica que poden
ter un vocabulario controlado na súa área de investigación, pero carecen dunha
infraestrutura moderna para compartir isto como datos vinculados. Isto signi-
fica que están perdendo a oportunidade de aproveitar o poder das tecnoloxías
semánticas para facer a súa investigación máis accesible e visible. Por ese motivo
requírese a participación de comunidades de expertos para que engadan os seus
vocabularios controlados e tesauros ao marco de AGROVOC, o cal benefíciase
desta nova pericia na materia.
Asemade, estas coleccións benefician a infraestrutura técnica e a rede editorial

de AGROVOC, ao tempo que tamén pasan a formar parte da estrutura de datos
abertos vinculados.
Có obxectivo de aumentar a accesibilidade e a visibilidade dos produtos de in-

vestigación nos seus países membros, a FAO vén promovendo o intercambio de
información científica e técnica relacionada con todos os aspectos da agricultura
desde principios dos anos 70. Pasando do formato a papel ao dixital. A FAO
estableceu unha serie de programas para apoiar estes esforzos e facer que os co-
ñecementos, a información e os datos de investigación sobre agricultura e ciencias
relacionadas estean dispoñibles e sexan accesibles e utilizables.
Como comentamos antes AGROVOC é unha ontoloxía multidisplinar que en-

tre outras abrangue diferentes disciplinas de importante relación coa agricultura,
Figura 1.6: schemas de AGROVOC[8]
nalgúns casos para representar de mellor xeito estas disciplinas úsanse “sche-
mes”,como podemos ver na imaxe 1.5, que forman parte desta ontoloxía repre-
sentando cada un o seu dominio específico, entre estes temos:
Landvoc: LandVoc(Land Governance) é un vocabulario controlado o cal contén

calquera concepto relacionado coa gobernanza do territorio. É o resultado
dun proceso en curso no que se estiveron enriquecendo os termos do terreo
en AGROVOC.
ASFA: é unha cooperativa internacional de organizacións de pesca e acuicultu-

ra que traballan xuntos para rexistrar e difundir a literatura mundial sobre
ciencias acuáticas e pesca. O vocabulario ASFA é unha ferramenta de in-
dexación que contén os descritores das materias que son empregadas para
indexar os rexistros da base de datos de ASFA.
FAOlex: A FAO comprometeuse coa recollida e difusión de aspectos legais,de

gobernanza e información política durante máis de 70 anos. O seu mandato
principal ten incluíu sempre a recollida, análise, interpretación e difusión de
información relativa á nutrición, a alimentación e a agricultura. FAOLEX
complementa esta función principal mediante o asesoramento aos membros
da FAO sobre medidas legais e institucionais.
1.5. AGROVOC 13
Figura 1.7: Relación entre as ontoloxías de AGROVOC[8]
A parte dos “schemes” temos tamén que ter en consideración a existencia de rela-
cións con outros grafos de coñecemento multilingüe como poderemos ver na imaxe
1.5, construíndo conexións entre “datasets”, como con wikidata, xa que algúns dos
seus conceptos teñen un id de agrovoc para asociar os dous sistemas, eurovoc ta-
mén e comparte parte dos seus conceptos, e se falamos sobre especies animais
e vexetais estes conceptos na súa maioría compárteos có grafo de coñecemento
gbif, Global Biodiversity Information Facility, o que axuda a proporcionar infor-
mación máis extensa sobre distribución, comportamentos, hábitats e usos. Esto
é importante xa que permite obter información doutros grafos de coñecemento
usando como referencia un id particular,porén,se facemos unha búsqueda léxica
temos que ter coidado coa realización de búsquedas federadas entre vocabularios
pois realizalas non é unha tarefa sinxela.
Tamén temos que falar sobre este tema respecto das relacións de agrovoc que
permiten a obtención de información doutros sistemas, como as subpropiedades
skos:mappingRelation para aliñarse cós conceptos presentes noutros vocabula-
rios. En particular, estes son skos:closeMatch, skos:exactMatch, skos:broadMatch,
skos:narrowMatch e skos:relatedMatch.
Sobre estas últimas relacións destacaremos a propiedade skos:exactMatch, a cal

úsase para vincular dous conceptos, indicando un alto grao de confianza en que
os conceptos poden usarse indistintamente nunha ampla gama de aplicacións de
recuperación de información. Como poderemos ver na imaxe 1.5 hai un conxunto

de vocabularios que nos poden aportar nova información sobre un concepto se
buscamos neles.
Figura 1.8: vocabularios externos[9]
A vantaxe de ter un tesauro como AGROVOC publicado como un conxunto

de datos abertos vencellados entre eles é que unha vez que se enlazan os vo-
cabularios, tamén se vinculan os recursos que indexan. AGROVOC é o tesauro
máis utilizado en agricultura e campos relacionados (silvicultura,gandería,pesca)
no mundo, e é un dos recursos máis populares para indexar e etiquetar recursos
de información en países de baixos ingresos. Entre outras cousas é o vocabulario
usado para indexar rexistros AGRIS1.
O contido de AGROVOC é accesible tanto para os humanos como en formato

lexible por máquinas. Pódese buscar manualmente conceptos ou termos, buscar
por xerarquía, descargar como un conxunto de datos RDF, acceder a través de
servizos web ou buscar mediante consultas SPARQL, utilizando un ’endpoint’
de SPARQL público. Os URI dos conceptos AGROVOC resólvense en recursos
web que proporcionan información máis detallada como etiquetas e relacións con
outros termos para un determinado concepto.[14]
1.5. AGROVOC 15
As relacións máis coñecidas son as de ’Broader’,’Narrower’ e ’Related’, sendo

a función das dúas primeiras a de estruturar xerárquicamente o vocabulario par-
tindo de 25 palabras clave ou ’Top Concepts’, porén, a parte das principais rela-
cións tamén existen outras deseñadas específicamente para agrovoc, englobadas
no agrontology e que modelan vencellos como ’includes’ ou ’hasGoalouProcess’
Figura 1.9: concepto de exemplo sobre o arroz[8]
como podemos ver na figura 1.9 o concepto do arroz conta cunha serie de
nomes para cada linguaxe á que foi traducida , a parte pode contar con ’altlabels’
que definan outros nomes polo que é coñecida esta especie coloquialmente, un ou
varios ’Broaders’ que agrupan o concepto nunha categoría superior á que o arroz
pertence e varios ’Narrowers’ que recollen significados máis restritivos, neste caso
concreto subespecies do arroz
De todas as maneiras, despois de explicar a orixe e a organización básica deste
vocabulario, cal é a súa función?
1.6. usos
Volvendonos referir aos anteriores apartados debemos lembrar que a reutiliza-
ción dos datos é unánimemente recoñecida como un gran motor para a innovación
e o xeito en que se comparten estes datos é clave para un reuso axeitado, debido a
isto surxiu unha nova interese arredor dunha definición máis formal e máis coor-
dinada dun novo marco que podería atender de forma mellor un uso intensivo de
datos, que permitise compartilos e realizar investigacións a partir deles en toda
a súa cadea de valor, os chamados principios FAIR 1.1.
Con cada vez máis textos e datos producidos, a posibilidade de atopar recur-
sos como publicacións, artigos, ’datasets’ e servizos convértese nun factor crucial
para a recuperación de información específica e eficiente. Se a esto sumámoslle
os problemas particulares vistos no apartado 1.2 como a falta de uniformidade
ou a falta de interoperabilidade, este problema de recuperación da información é
perentorio e debe de ser resolto. Por esta razón surxen os sistemas e ferramentas
de anotación de textos, que teñen como obxectivo facilitar a identificación de
temas e entidades clave nun texto necesarios para unha correcta clasificación.
Como vimos no apartado 1.3 un vocabulario controlado pode facer un uso de

etiquetas de linguaxe natural relacionándoas con conceptos que representan en-
tidades da vida real, facendo que a anotación se produza dun xeito no que sexa
validable e eficiente
Porén, temos que decatarnos de que un vocabulario controlado como Agrovoc

é produto dun esforzo comunitario,e, como toda actividade humana, esta suxeito
a incompletitudes, como vimos no apartado de 1.4 a búsqueda de etiquetas que
sexan sinónimos do mesmo termo existente no noso grafo de coñecemento pode
ampliar o noso vocabulario e facelo máis capaz de afrontar tarefas como a ano-
tación de xeito satisfactorio.
Para elaborar un sistema de búsqueda de sinónimos que produza un resultado

xeral axeitado temos que ter en conta os beneficios de usar a estrutura xerár-
quica de Agrovoc 1.5 así como as súas etiquetas alternativas e preferidas, pois
nos pode axudar a atopar sinónimos que se parezan na estrutura das relacións
do seu significado á etiqueta do concepto. Outras implementacións poderían dar
uso ás relacións específicas de agrovoc, o agrontology, ou incluso aos vocabularios
externos en caso de falta de conceptos relacionados (wikidata ou o vocabulario
da unión europea)
Parte da información da introdución foi sacada do seguinte artigo AGROVOC:

The linked data concept hub for food and agriculture[14]

TFG Plantilla A Introduccion

Uploaded by

Copyright:

Available Formats

You might also like

TFG Plantilla A Introduccion

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

TFG Plantilla A Introduccion

Uploaded by

Copyright:

Available Formats

Capítulo 1

1.1. A xestión dos datos: un problema a resolver

Findable FAIR Principles Reusable

Figura 1.1: Principios FAIR [15]

Como podemos razoar a partir destas observacións, un foco de atención importan-

O obxectivo final é mellorar a efectividade e transferencia da investigación cien-

As cinco estrelas de datos abertos de Berners-Lee seguen sendo un marco de

Todas as demais estrelas están relacionadas coa interoperabilidade dos datos,

Volvendo a falar dos principios FAIR,estes axudan a que os metadatos non só

Nivel Explicación Exemplo

Cadro 1.1: Five-Star model, información sacada do AGROVOC 1:Data sharing,

Findable: Cómpre que exista un id global,único e permanente, polo tanto asíg-

F1: Aos metadatos asígnaselle un identificador global único e persistente.

son, en xeral, de formato uniforme.

A1: Os metadatos son recuperables polo seu identificador mediante un pro-

Interoperable: A descrición dos elementos pertencentes aos metadatos debe se-

I1: Os metadatos usan unha linguaxe formal, accesible, compartida e am-

Os vocabularios empregados tamén deberían cumprir os principios FAIR.

Reusable: Este é o derradeiro principio: os datos deben manter a súa riqueza

Para compartir os datos precísase un entendemento compartido do significado e

1.2. Xestión dos datos: problemas na agricultura

Como falababamos na sección anterior os datos enfróntanse a unha serie de

A variedade dos produtores de información tamén agranda este problema, pois

Proxectos de investigación: Non son publicados cun formato periódico de for-

que o avance da aplicación do big data nas técnicas de agroalimentación é

Uniformidade: Falta de acordo sobre como utilizar o dispoñible tecnoloxías en

Falta de formación específica: Os investigadores están máis preparados para

Acceso Problemas Formación

Figura 1.2: Principais problemas nos tratamentos dos datos agrícolas

Plan Collect Process Analyse Write

Figura 1.3: Procesos e institucións na analise dos datos

1.3. Ontoloxías: unha solución?

Figura 1.4: clasificación de organizacións do coñecemento

Como falabamos nas anteriores seccións sería preciso avanzar na estandari-

Para explicar mellor esto referenciaremos a imaxe 1.3, un vocabulario contro-

Por poñer un exemplo, un vocabulario controlado como AGROVOC foi desenvol-

Un dos problemas é que as etiquetas escritas na lenguaxe natural que usamos

Polo tanto, o reuso de vocabularios e ontoloxías non é trivial se os subdominios

1.4. Sinónimos para mellorar a ontoloxía

Daquela poderiamos propoñer a hipótese de que debido a que as ontoloxías son

Polo tanto construír mecanismos de expansión de sinónimos para ontoloxías que

Despois de facer esto teríamos que facer consultas de equivalencia a partir de

Poñendo como exemplo un problema similar á do noso traballo, se estivésemos

Reduced heart rate

Figura 1.5: Exemplo da expansión dos sinónimos[13]

Como podemos ver no exemplo seguinte,1.4, a partir dun mesmo concepto

Tamén se poderían elimiñar os falsos sinónimos usando como base un corpus

A expansión dos sinónimos entre ontoloxías pode levar a un gran aumento da

da que a precisión do vocabulario estendido non é perfecta, con todo levou a

O ámbito de AGROVOC é amplo, pois abarca moitos campos relacionados coa

Asemade, estas coleccións benefician a infraestrutura técnica e a rede editorial

Có obxectivo de aumentar a accesibilidade e a visibilidade dos produtos de in-

Como comentamos antes AGROVOC é unha ontoloxía multidisplinar que en-

Figura 1.6: schemas de AGROVOC[8]

Landvoc: LandVoc(Land Governance) é un vocabulario controlado o cal contén

ASFA: é unha cooperativa internacional de organizacións de pesca e acuicultu-

FAOlex: A FAO comprometeuse coa recollida e difusión de aspectos legais,de

Figura 1.7: Relación entre as ontoloxías de AGROVOC[8]