Professional Documents
Culture Documents
TFG Plantilla A Introduccion
TFG Plantilla A Introduccion
TFG Plantilla A Introduccion
Introdución
Accesible Interoperable
1
2 CAPÍTULO 1. INTRODUCIÓN
Para explicar mellor esta situación podemos empezar falando sobre a multi-
disciplinariedad da maioría das ciencias, un arquitecto podería precisar de datos
climáticos para medir o posible deterioro dos seus edificios nun contexto determi-
nado, un químico podería ter que obter datos climáticos para un experimento ou
un biólogo podería interesarse sobre as propiedades químicas de certos elementos
no solo mariño para estudar un ecosistema concreto .
Un dos maiores problemas para acadar este obxectivo e a compartición dos datos,
o “data sharing”, que supón o principal pescozo de botella que impide o máximo
aproveitamento dos datos. Para arranxar esto creáronse os principios FAIR antes
mencionados. Unha das iniciativas clave para solucionar isto é enlazar datos dun
amplio abanico de fontes diversas, como defendeu Tim Berners-Lee no seu modelo
das 5 estrelas que el mesmo propuso(podemos velo na táboa 1.1), estes principios
máis que axudar ao creador do dataset servirían para que outros usuarios puide-
sen buscar,acceder,entender e procesar automáticamente os datos.
permitelles interpretar datos ata certo punto sen interacción humana, apoiando á
realización de novos descubrimentos mediante a colleita e a análise de múltiples
datasets.
Para procesar estes datos son precisas ferramentas que automaticen a súa xestión
e estean dispoñibles para os proveedores dos datos e mais para os usuarios, ade-
mais ter accesibeis vocabularios e produtos asociados a estos desenvolvidos por
unha comunidade aberta pódenos axudar á perfeccionalas.
Pero a que se refiren, exactamente, os principios FAIR, os 4 principios que
podemos ver na imaxe 1.1 son:
Accesible: Unha vez atopados os datos, é necesario saber como acceder a eles.
É recomendable que os datos e os metadatos se poidan recuperar nunha
variedade de formatos que sexan entendibles tanto para os humanos como
para as máquinas que fan uso dos identificadores persistentes asignados
mediante o F1.
4 CAPÍTULO 1. INTRODUCIÓN
R1: Os metadatos son publicados cunha licenza de uso dos datos clara e
accesible.
R2: Os metadatos conteñen a procedencia detallada dos datos.
I3: Os (meta)datos cumpren os estándares comunitarios que son relevantes
para o dominio específico.
Ademais, o uso dos datos debe ser sinxelo e os datos deben ser citables para
manter o intercambio de datos e recoñecer o valor deles.
Industrias: Recollen datos para as súas operacións e tamén para as súas acti-
vidades de investigación e desarrollo, non son propensos ao compartimento
dos datos se lles fai perder unha potencial vantaxe respecto aos seus com-
petidores.
Aparte destes dous feitos temos tamén que falar de varios desafíos que temos
que solucionar para conseguer que os nosos datos sexan FAIR neste contexto:
Falta de interoperabilidade: Esta dificultade é moitas veces debida á falta de
estándares en todas as ciencias agrícolas e alimentarias. Algunhas partes das
ciencias da agricultura e dos alimentos teñen unha forte implementación de
estándares, como a xenética de plantas a través de BRAPI, xeoespacial a
través de OGC, termos de tesauro e traducións de idiomas a través de GACS
e AGROVOC (FAO, 2021) e eventos de xestión de granxas a través de
AgGateway. Os vencellos entre estes estándares son débiles, e faltan moitas
partes cruciais.Como a relación entre os termos do tesauro de AGROVOC
e conceptos espaciais en OCC, estas lagoas en branco levan á conclusión de
6 CAPÍTULO 1. INTRODUCIÓN
Falta de acceso: Non ter a man os datos e as solucións precisas para un goberno
e xestión de datos confiable e seguro para a privacidade. Moitas fontes de
datos interesantes seguen pechadas por motivos comerciais ou doutra índole,
aínda que o acceso controlado a eles non causaría ningunha desvantaxe. Isto
dificulta o uso destes datos na investigación agroalimentaria.
Interoperabilidade
Uniformidade
Hai varios proxectos en marcha para solventar esto e facer os datos agronó-
micos máis “FAIR”, pero antes de explicalos, temos que plantexarnos os seguintes
puntos:
Ó conxunto de datos é interesante?
Cómpre o esforzo a realizar para facelo reutilizable?
Para medir o éxito do “data sharing” deberiamos considerar que se cumplen
certas condicións:
Despois de estar accesible un usuario potencial debería ser capaz de acceder a
este “dataset” segundo a súa temática,fonte dos datos, variables, formato ou outro
conxunto calquera de criterios na web, o usuario tamén tería a opción de:
Decidir se é interesante para a tarefa que está a facer e saber se ten permitido
usalo para ese propósito.
Poder recoller ese conxunto de datos e procesalo, o que inclúe mapear as
variables publicadas e procesalas xunto ás que xa tén.
Poder engadir nova metada á orixinal e enlazar o novo dataset basado nos
seus descubrimentos.
e Research programs
[ Publishers
ï Industries
Universities
Hai varios traballos que se están a desenvolver para permitir aumentar a efica-
cia no intercambio dos datos. Por exemplo, no proxecto da Unión Europea Cybele
8 CAPÍTULO 1. INTRODUCIÓN
fíxose un experimento para engadir unha API adicional para acceder a datos do
repositorio AgroDataCube.Provee ao usuario cunha transformación automática
entre representacións semánticas, tamén especifica un mapeado entre o vocabula-
rio de AGROVOC e os códigos referentes aos cultivos definidos polo RVO, deste
xeito proporciona unha traducción entre o seu nome en todas as linguaxes in-
cluídas en AGROVOC.Ademais , esta ferramenta ten incluída conexións a outros
’datasets’ que tamén están mapeados usando ese vocabulario.
Vocabulario Controlado:
Lista pechada de palabras predefinidas
Taxonomía:
Engade unha xerarquía, conexións broader/narrower
Thesaurus:
Engade relacións, termos preferidos, etc
Ontoloxía:
reglas e restriccións
Con todo, incluso contando que tanto os vocabularios coma as ontoloxías fa-
cilitan a búsqueda e conexión de diferentes fontes de datos, estas tecnoloxías
seguen requerindo un certo esforzo para a súa aplicación efectiva na práctica, por
exemplo, para converxer diferentes datasets.
O termo “maize” pode refererse ao millo como cultivo, pero tamén pode facer
referencia ao millo como produto alimentario. Nestes casos os conceptos veciños
no grafo encarganse de especificar cal é o significado exacto do nodo individual.
Estes diferentes enfoques poden estar relacionados có contexto, cós dominios ex-
pertos e coas diferentes fontes dos datos. Considerando todos estes termos pode-
mos construír vocabularios extendidos que poden mellorar a potencia de tarefas
de minería de textos levadas a cabo grazas á axuda das ontoloxías.
Unha búsqueda estricta de coincidencias léxicas pode ser usada para identifi-
car termos que doutro xeito non se ligarían e que conteñen unha etiqueta a cal é
a mesma á primeira etiqueta do outro termo.
bradyrhythmia
bradycardia
1.5. AGROVOC
AGROVOC é un vocabulario controlador de termos relacionados á agricultu-
ra, ten gardados máis de 38.000 conceptos, é multilingüe, tendo idiomas como o
francés,inglés,portugués,galego,alemán,inglés e ruso entre outros.
Ao mesmo tempo, hai unha serie de comunidades técnicas de práctica que poden
ter un vocabulario controlado na súa área de investigación, pero carecen dunha
infraestrutura moderna para compartir isto como datos vinculados. Isto signi-
fica que están perdendo a oportunidade de aproveitar o poder das tecnoloxías
semánticas para facer a súa investigación máis accesible e visible. Por ese motivo
requírese a participación de comunidades de expertos para que engadan os seus
vocabularios controlados e tesauros ao marco de AGROVOC, o cal benefíciase
desta nova pericia na materia.
nalgúns casos para representar de mellor xeito estas disciplinas úsanse “sche-
mes”,como podemos ver na imaxe 1.5, que forman parte desta ontoloxía repre-
sentando cada un o seu dominio específico, entre estes temos:
A parte dos “schemes” temos tamén que ter en consideración a existencia de rela-
cións con outros grafos de coñecemento multilingüe como poderemos ver na imaxe
1.5, construíndo conexións entre “datasets”, como con wikidata, xa que algúns dos
seus conceptos teñen un id de agrovoc para asociar os dous sistemas, eurovoc ta-
mén e comparte parte dos seus conceptos, e se falamos sobre especies animais
e vexetais estes conceptos na súa maioría compárteos có grafo de coñecemento
gbif, Global Biodiversity Information Facility, o que axuda a proporcionar infor-
mación máis extensa sobre distribución, comportamentos, hábitats e usos. Esto
é importante xa que permite obter información doutros grafos de coñecemento
usando como referencia un id particular,porén,se facemos unha búsqueda léxica
temos que ter coidado coa realización de búsquedas federadas entre vocabularios
pois realizalas non é unha tarefa sinxela.
Tamén temos que falar sobre este tema respecto das relacións de agrovoc que
permiten a obtención de información doutros sistemas, como as subpropiedades
skos:mappingRelation para aliñarse cós conceptos presentes noutros vocabula-
rios. En particular, estes son skos:closeMatch, skos:exactMatch, skos:broadMatch,
skos:narrowMatch e skos:relatedMatch.
como podemos ver na figura 1.9 o concepto do arroz conta cunha serie de
nomes para cada linguaxe á que foi traducida , a parte pode contar con ’altlabels’
que definan outros nomes polo que é coñecida esta especie coloquialmente, un ou
varios ’Broaders’ que agrupan o concepto nunha categoría superior á que o arroz
pertence e varios ’Narrowers’ que recollen significados máis restritivos, neste caso
concreto subespecies do arroz
De todas as maneiras, despois de explicar a orixe e a organización básica deste
vocabulario, cal é a súa función?
16 CAPÍTULO 1. INTRODUCIÓN
1.6. usos
Volvendonos referir aos anteriores apartados debemos lembrar que a reutiliza-
ción dos datos é unánimemente recoñecida como un gran motor para a innovación
e o xeito en que se comparten estes datos é clave para un reuso axeitado, debido a
isto surxiu unha nova interese arredor dunha definición máis formal e máis coor-
dinada dun novo marco que podería atender de forma mellor un uso intensivo de
datos, que permitise compartilos e realizar investigacións a partir deles en toda
a súa cadea de valor, os chamados principios FAIR 1.1.
Con cada vez máis textos e datos producidos, a posibilidade de atopar recur-
sos como publicacións, artigos, ’datasets’ e servizos convértese nun factor crucial
para a recuperación de información específica e eficiente. Se a esto sumámoslle
os problemas particulares vistos no apartado 1.2 como a falta de uniformidade
ou a falta de interoperabilidade, este problema de recuperación da información é
perentorio e debe de ser resolto. Por esta razón surxen os sistemas e ferramentas
de anotación de textos, que teñen como obxectivo facilitar a identificación de
temas e entidades clave nun texto necesarios para unha correcta clasificación.