Download as pdf or txt
Download as pdf or txt
You are on page 1of 2

L’IDA requereix temps i recursos en el pressupost de recerca que, encara que pot

10 regles senzilles per a l’anàlisi inicial de dades semblar cost i càrrega addicional, no fer-ho pot resultar un cost més car més endavant.
Una anàlisi adequada de les dades és una de les tasques més difícils, doncs moltes coses Un projecte que disposa de temps per la planificació, l’execució i la revisió de l’IDA
poden sortir malament en qualsevol pas. Les dades que conformen una base de dades pot garantir que aquestes tasques es realitzin de manera sistemàtica. Es requereix:
- Coneixement de domini
són números amb context i, quan les propietats i el context no es tenen en compte, les
- Investigadors amb comprensió de per què i com es van mesurar i recopilar les
dades poden “mentir” provocant danys.
dades
L’anàlisi de dades inicials (IDA) es descriu com el primer pas per l’anàlisi de dades, - Experiència en gestió
doncs és el pas per comprovar si les dades observades corresponen a les expectatives - Gestió de dades
sobre aquestes dades. IDA proporciona als investigadors el context necessari sobre les - Competències en la planificació i implementació de l’anàlisi de dades
propietats i estructures de les dades per evitar inconvenients. El que s’hauria de fer és - Experiència en pràctiques d’informàtica científica
L’IDA pot portar manca de recursos o de les barreres organitzatives. Algunes
que els investigadors treballin fent servir els següents passos.
organitzacions poden tenir un equip d’analistes mentre que en altres llocs aquestes
1. Configuració de metadades tasques les fa un únic investigador que gestiona les principals anàlisis estadístiques.
2. Neteja de dades
3. Cribratge de dades Regla 3: Fer que l’IDA sigui reproduïble.
L’IDA ha d’estar ben documentada per promoure la transparència, la utilitat i la
4. Informes inicials de dades
reproductibilitat. S’ha de fer un seguiment dels canvis que es fan a les dades del
5. Afinar i actualitzar el pla d’anàlisi de la recerca
projecte, els programes (paquets, scripts, etc.) i la documentació.
6. Documentar i informar de l’IDA
La clau és no canviar ni sobreescriure les dades d’origen i organitzar el projecte de
S’han desenvolupat 10 regles per explicar IDA i els beneficis d’adoptar-la a la pràctica. manera que hi hagi una distinció clara entre els conjunts de dades d’origen i derivats.
Aquestes regles s’apliquen a projectes de recerca ja sigui per la recollida de dades Totes les derivacions s’han de documentar amb una descripció clara de totes les regles
primàries o la reutilització d’un conjunt de dades existent. de neteja de dades. Aquestes regles s’han d’implementar amb codi informàtic i no
manualment.
Regla 1: Desenvolupar un pla IDA que doni suport a l’objectiu de recerca. Un control dels scripts i l’automatització dels passos estalviarà molt temps quan es
Es poden realitzar activitats per ajudar a comprendre i interpretar les conclusions requereixi una revisió o l’explicació a un altre investigador. Qualsevol anàlisi
d’una anàlisi. Aquestes formen part de les fases de neteja o detecció de dades d’IDA i específica es pot rastrejar, tornar a executar o revisar i reproduir.
poden incloure:
- Avaluació de la distribució i l’escala de les variables explicatives Regla 4: El context importa. Coneix les teves dades.
- Comprovació d’observacions inusuals o inverosímils IDA requereix una comprensió del que representen els números. Aquest coneixement
- Resum de patrons de dades que falten es capta gràcies a dades que descriuen altres dades. Les metadades, que és com es
- Investigació de qualsevol altre cosa que pugui influir en l’anàlisi formal coneix, comprenen
Tot pot informar de propers passos, com ara el perfeccionament del model. S’han de - Informació relacionada amb variables tècniques, com ara etiquetes, límits de
prendre decisions però segons com, si no es planifica de manera prospectiva, la plausibilitat, codis per a dades que falten, unitats de mesura o expectatives
qualitat i el context de les dades, els límits entre respondre la pregunta de recerca, la sobre propietats i associacions de distribució.
comprovació de models, la neteja de dades o l’examen de les propietats de les dades - Informació a nivell d’estudi i procés relacionada amb les característiques de
poden erosionar-se i convertir-se en una investigació clínica. disseny d’una recollida de dades, el reclutament de participants i els mètodes
Això pot suposar un cost enorme d’una gran sobrecàrrega de comunicació a l’equip de realització de mesures. Si es fan servir dades existents, la font de dades ha
de recerca. Qualsevol decisió que es desviï de l’anàlisi planificada especificada posa de ser clara.
en risc la integritat i transparència del projecte, especialment si aquestes activitats no - Compren el coneixement sobre les anàlisis previstes, que es poden extreure
estan clarament documentades i informades. d’un pla d’anàlisi.
El desenvolupament d’un pla IDA juntament amb els objectius de l’estudi i el disseny S’ha d’incloure al projecte la configuració, gestió i publicació de les metadades dins
pot gestionar aquest abast. El valor d’una estratègia IDA eficaç garanteix que les dades d’un pla de gestió i gestió de dades.
siguin de qualitat i donin suport a les decisions per a les anàlisis estadístiques. Han
d’estar ben documentades. Regla 5: L’IDA no toca la pregunta de recerca.
Es requereix una bona comprensió de la pregunta de recerca i interpretar correctament
Regla 2: IDA necessita temps i recursos. els resultats. La concordança de la rellevància de la recollida de dades amb la pregunta
IDA ha de ser una part clau de qualsevol proposta de recerca. Els investigadors han de recerca s’ha denominat el “problema zero”.
d’invertir temps a la configuració adequada i la comprensió de les dades abans de les Un principi clau de l’IDA és no tocar la pregunta de recerca. La realització de l’IDA
anàlisis finals. per identificar patrons interessants corre el risc d’una selecció d’anàlisis i mètodes
basats en dades, observacions causals que pot donar lloc a informacions incorrectes o

10 regles senzilles per a l’anàlisi inicial de dades. Mark Baillie et. al.
inflades. Les opcions poden incloure l’eliminació injustificada d’observacions “no Regla 9: Informar els resultats de l’IDA en els articles de recerca.
desitjades” o estratègies d’anàlisi “optimitzades” quan es realitzen de manera no Les directrius d’informes s’han d’augmentar per adaptar-se a les troballes específi-
sistemàtica o separades de les preguntes científiques. ques de les anàlisis inicials de les dades. És important destacar que la informació de
S’han d’establir les hipòtesis prèviament als resultats de les dades. És possible que l’IDA que pot influir en la interpretació dels resultats s’hauria d’esmentar sempre
algunes parts del pla de recerca original no sigui factibles a causa de les propietats de d’una manera exhaustiva i sistemàtica.
les dades revelades i les troballes de l’IDA.
- Distribucions esbiaixades. Poden portar a l’aplicació d’una transformació. Regla 10: Ser proactiu i rigorós.
- Distribucions multivariants. Poden identificar la necessitat d’incloure o És millor evitar problemes de dades a l’inici de la recollida de dades que buscar
eliminar un terme d’interacció. solucions estadístiques després. Els investigadors haurien de cooperar estretament
- Patrons de dades. Poden requerir mètodes més avançats per tractar les dades amb la integritat d’un estudi durant la seva etapa de disseny i realització.
que falten. La realització de pasos IDA seleccionats com a part d’un seguiment de les dades a
intervals regulars durant la realització de l’estudi facilitarà la detecció precoç i la
Regla 6: Visualitzar les dades. mitigació dels problemes de qualitat de les dades.
L’ús de gràfics és una pràctica clau, doncs la visualització de dades admet la recerca
d’informació, la identificació de patrons i el reconeixement durant les fases de l’IDA.
Les ajudes visuals garanteixen la informació rellevant que es presenta de manera
clara i fàcil d’interpretar. IDA és un pas crucial i té com a objectiu la transparència i la integritat en proporcionar
És important tenir clar el propòsit i ser precís amb la implementació. Pot conduir a un conjunt de dades llest per a l’anàlisi i informació fiable sobre les seves propietats que
una comprensió més profunda, mentre que una mala pràctica pot conduir a passar permeti realitzar les anàlisis estadístiques de manera responsable i interpretar els
per alt un context important i a problemes més en la línia de recerca. resultats obtinguts.

Seguir aquestes regles també pot ajudar a futurs investigadors a reutilitzar de manera
Regla 7: Comproveu el que falta.
Les dades faltants són habituals en molts estudis i sovint no es gestionen correctament. fiable les dades i resultats de la investigació, fent que les decisions sovint ocultes d’anàlisi
Pot comportar una reducció de la potència estadística o pot introduir biaixos de dades siguin més transparents.
importants en els resultats.
S’ha d’investigar la proporció de valors faltants a cada variable. També s’hauria de
resumir com falten variables simultàniament. IDA es pot utilitzar per revelar l’impacte
potencial de la mancança i avaluar l’adequació del mecanisme esperat i les opcions
previstes per gestionar les dades que falten.
Si la proporció de valors faltants en una variable explicativa important és massa gran,
o quan els individus amb valors que falten són considerablement diferents dels altres,
no és adequat ignorar la falta de l’anàlisi estadística posterior.

Regla 8: Comunicar les conclusions i considerar les conseqüències.


Un informe de l’IDA ha de contenir informació suficient que permeti a l’equip de
recerca continuar. Pot incloure:
1. Resum de les metadades, inclòs el disseny de l’estudi, les fonts de dades i el
contingut de les dades.
2. Un diagrama de flux d’estudi que il·lustra la mida de la mostra, els criteris
d’inclusió i exclusió i les seleccions posteriors que s’estan fent per arribar a la
mida de la mostra seleccionada.
3. Resum del procés de neteja de dades amb una visió general dels problemes de
qualitat de les dades i una visió general de les regles utilitzades per identificar
i corregir els errors.
4. Descripció de la freqüència i els patrons dels valors faltants.
5. Visió general de les distribucions univariants i multivariables.
6. Resum de les troballes que poden influir en la interpretació dels resultats.
7. Resum de les conclusions que pot donar lloc a una actualització o millora.

10 regles senzilles per a l’anàlisi inicial de dades. Mark Baillie et. al.

You might also like