Ejerciciopráctico

You might also like

Download as pdf
Download as pdf
You are on page 1of 16
sir2018 rmineriaddats - home home Bienvenidos! Este Wiki esté disefiado con el objetivo de que puedas aprender el uso de una valiosa herramienta, como lo es el Arbol de Decisién. Un Arbol de decisién (también conocido como arbol de clasificacién) es una técnica que permite analizar decisiones secuenciales, basadas en el uso de resultados y sus probabilidades asociadas. Los arboles de decisién son los bloques de construccién tradicionales de la mineria de datos, utiizado en el Ambito de la inteligencia artificial, a partir de! cual se desarrollan diagramas de construcciones Iégicas, muy similares a los sistemas de prediccién basados en reglas, que sirven para representar y categorizar una serie de condiciones que ocurren de forma sucesiva, para la resolucién de un problema. Un Arbol de decision tiene variables de entrada referidas a una situacién descrita por medio de un conjunto de atributos y a partir de estas entradas, devuelve una respuesta la cual es una decisién que es tomada a partir de ellas. Los valores que pueden tomar las entradas y las salidas pueden ser valores discretos 0 continuos. Por lo general se utilizan mas los valores discretos por la simplicidad de la interpretacién. Cuando se ulizan valores discretos en las funciones de una aplicacién se denomina clasificacién y cuando se utilizan los continuos se denomina regresion Los Arboles de decisién son normalmente construidos a partir de la descripcién de la narrativa de un problema Proveen una visién grafica de la toma de decisién necesaria, especifican las variables de entrada que son evaluadas, qué acciones deben ser tomadas y el orden en la cual la toma de decisién serd efectuada. Cada vez que se ejecuta un arbol de decisién, solo un camino ser seguido dependiendo del valor actual de la variable evaluada. La estructura de Arbol se utiliza en muchos campos del conocimiento, como la medicina, légica, informatica, en resolucién de problemas, mercadeo, y la ciencia de la administracién. A partir de la raiz, el arbol divide su Unico tronco en dos o més ramas. Cada una se podria dividir atin més, en dos o mas ramas. Esto continda hasta que leguemos a una hoja, a partir de la cual no habra mas division y representan cada una de las posibles decisiones. La ralz y las hojas son consideran también como nodos. hitps:simineriaddats wikispaces.comihome?:print 116 sir2018 rmineriaddats - home Raiz Nodo Nodo| Hoja Hoja Hoja Hoja Ahora veremos cémo desarrollar un arbol de decisién, utiizando el programa Rattle, Rattle es una herramienta de la mineria de datos que posee una interfaz muy intuitiva y facil de manejar. Cuenta con ayudas que amplian la informacién que son utilizadas por este paquete. Una de las grandes ventajas es que esta desarrollado bajo el lenguaje R, por lo que es gratuito y s6lo se necesita una conexién a internet para adquiririo, En el siguiente archivo encontrards la direccién de la pagina en la que puedes descargar R. También se detalla el paso ‘paso para realizar su instalacién, asi como la instalacién de Rattle “A, Instaar pat 1 Datals Download 801 KB Existen varias maneras de cargar los datos, debido a la variedad de formatos en que se pueden encontrar. Por lo general, 1os datos se consiguen en una tabla de Excel, es por esta raz6n que se explicard detalladamente ‘c6mo importar los datos si se encuentran en este formato. En primer lugar, debes abrir el archivo teniendo en cuenta que las columnas corresponden a las variables y las fllas corresponden a los individuos, excepto la primera que es donde se identifica cada una de las variables. Asegurate de que los nombres asignados no contengan acentos, esto arrojard un error mas adelante. En el menu Archivoa guardar como, selecciona el tipo de archivo, el cual debe ser CSV(delimitado por comas) hitps:simineriaddats wikispaces.comihome?:print 28 snaps mineriagdates = herve excussususrs steeeseussrtesseeess peveeeeseuseeeveusouene sees ePeWeleet alice eurey sexsueees Si te aparecen los siguientes mensajes, presionas Aceptar o SI, segin sea el caso (todos los que te aparezcan) Ste weno eons et aatne loa cater mute Ne a reo ro ea, a ee Ae, ebiqarar ure be, ceeded drinpracadaunao entender gs pati anh Mis! (reese) Ceres) xatnain cv nee recat cretes con CO (ta pr cos). Deserta fas dio? ra eect ert se ncn copes ag Pr sears cron hag sen y Sense snd oa ons rt de cme resets ou vw aa pos pert, fafn es Gg) Cote) Cte Una vez completado este proceso, ubica el archivo guardado anteriormente, cliqueas sobre él con el botén derecho del mouse, escoges la opcién Abrir con, seleccionas Block de nota. Una vez abierto el archivo en Block de nota, debes cambiar las comas por puntos (para las cifras decimales) y luego los punto y coma por coma (para separarlos datos) y debes hacerlo en este orden. Recuerda que el archivo debe estar delimitado por comas, es decir que cada dato se separa por coma y cuando Io abres observards que las separaciones estén hechas con punto y coma Para esto seleccionas en el mend Edicién, Reemplazar. En la casilla buscar colocas primero una coma (,) y en hipsimineriaddstos.wikispaces.comihome print 316 co ‘minariadates- hore reemplazar un punto (.) Presionas Reemplazar todo. Posteriormente en la casilla buscar colocas un punto y coma (;) y en reemplazar una coma (,) y cambia tambien las vocales acentuadas a no acentuadas, por ejemplo si una variable en algtin momento toma el valor "Si" cambia la { por i para que la opcién sea "Si" Luego seleccionas en el mend Archivo, Guardar y puedes cerrarlo, Puedes intentar hacer estos pasos con el siguiente archivo: Extubaclon.xisx Details Download 17 KB el cual debe quedar de esta manera EXTUBACIONcsv Details Download 5K ‘Ahora es el momento de abrir el programa Rattle, recuerda que primero debes abrir R y una vez en la consola, escribes los siguientes comandos: > library(rattle) > rattle() hitps:simineriaddats wikispaces.comihome?:print a6. snaps mineriagdates = herve Una vez que el programa Rattle se ha abierto, debes seleccionar en la pestafia Datos, meni origen, Hoja de célculo (1). Luego presionas el botén que se encuentra a la derecha de Archivo, en el cual debe aparecer la palabra Ninguno (2), para que se desplieguen los archivos disponibles, ubica el archivo en la carpeta que lo hayas guardado y seleccionas abrir (3) y luego ejecutar (4). En nuestro caso, el archivo se llama *EXTUBACION.csv" el cual se refiere a datos que corresponden a los registro de 79 recién nacidos, que en el periodo comprendido entre Febrero y Diciembre de 2011, fueron ingresados a la Unidad de Cuidados Intensivos Neonatales del Instituto Auténomo Hospital Universitario de Los Andes, por requerir ventilacién mecanica. De éstos nifios, 24 tuvieron como resultado de la extubacién endotraqueal, no exitosa. Las variables que se consideran tienen mayor relevancia al momento de realizar la extubacién son: La edad gestacional, peso al nacer, Frecuencia Respiratoria del paciente (FR), Frecuencia respiratoria aportada por el ventilador mecanico, Frecuencia Cardiaca (FC), Tensién Arterial Media (TAM), Saturacién de oxigeno, Tiempo en Ventilacién Mecanica (TVM), Frecuencia Ventilatoria (FV), Presién Media de la Via Aérea (PMVA), Presién parcial de Diéxido de Carbono (PCO2), pH sanguineo y Test de Silverman, que mide el esfuerzo respiratorio, El objetivo del ejercicio que vamos a desarrollar a continuacién, consiste en predecir a pai de entrada, el éxito 0 fracaso de la extubacién, utilizando para ello el arbol de decisién, Una vez cargado los datos, debes asegurarte que la variable destino esté seleccionada correctamente. Esta es la variable dependiente, la cual divide al conjunto de datos en tantos grupos como categorias tenga. En nuestro caso, tenemos a extubacién exitosa como variable destino, por lo que el conjunto de dato se divide en hipsimineriaddstos.wikispaces.comihome print 16 co ‘minariadates- hore “Si, para aquellos niffos cuya extubacién fue exitosa y *No”, para aquellos que no lo fue. coger —— & ea a 04 Perse eae “oom [pre [rte] reteme | ew [cna tater ope See cme Somancincn $2 sent: [ oeomat:|~ CE) trcmenn rents ET sa] Hef ul | CSS a Cee Coe km mee © 0 0 0 0 0 ms fm mes 83 8s 3 Pm mes 8 9 8 8 Get fe mess 38 8 $ sh ci mes peo 8 8 8 ae eas eS, 68 8 oe Existe la posibilidad de ignorar las variables que se deseen ya que puede darse el caso en el que éstas no posean informacién relevante para el andlisis. Esto se hace seleccionando la variable y luego presionando el botén rojo de ignorar, Siempre que se realicen cambios sobre las variables se debe presionar de nuevo el botén ejecutar. Hecho esto, en la pestafia Modelo, debes seleccionar el tipo de modelo que deseas aplicar, en nuestro caso, seria Arbol. hitps:simineriaddats wikispaces.comihome?:print a8 mineriagdates = herve ce ene Senne ee mien fF tate le itt ert PF corinne ae nn teste [raselewenerota acs itera] ‘Al momento de generar el modelo se pueden ajustar ciertas opciones con el fin de que el modelo se adapte a lo que se desea. El primer cuadro de texto que se observa es “Divisién minima” este campo especifica el rniimero minimo de observaciones que deben existir en un nodo antes de que se realice la divisién. “Cubo minimo” indica el minimo de observaciones que debe haber en cada hoja del arbol. “Profundidad maxima” es 1 nimero maximo de niveles permitidos en el arbol. “Complejidad” es un parémetro utiizado para controlar el tamajo del arbol y para seleccionar el tamafio éptimo, si el costo de agregar otra variable al nodo de decision supera el valor de este parémetro se detiene la construccién del arbol. En caso de haber datos faltantes, debes seleccionar la opcién para esto. Finalmente presionas ejecutar y aparece lo siguiente. hipsimineriaddstos.wikispaces.comihome print m6 snaps mineriagdates = herve eee Pe ea ened ‘elon mmr lien eee TO lat Qe Oh 0m Ome Oars rem ke Se ae eere 2 ee Si presionas el botén dibujar, aparecera el diagrama que representa al drbol de decisién, Arbol de decision Extubacion.csy § Extubaexitosa "ie ” " 2 © Foes 08 | se ae We sete oo soot te 8 ate eee, ‘Al observar el Arbol, podemos notar que con los datos con los que se contaban, la variables con mayor poder livo son: + Tiempo en Ventilacién Mecanica hitps:simineriaddats wikispaces.comihome?:print ans, sano ineriagatas = home + Saturacién de Oxigeno + Edad Gestacional + Presién parcial de Diéxido de Carbono y + Frecuencia Cardiaca \Veamos un ejemplo de la desicién que se ha de tomar de acuerdo a algunos valores de la variable: Si el Tiempo en Ventilacién Mecdnica es mayor a 5.5 dias, la saturacién de oxigeno es menor a 94.7% y la edad gestacional es menor a 31.5 semanas, el paciente no debe ser extubado, ya que existe un 100% de probabilidad de que la extubacién sea no exitosa. Nos referimos a la hoja marcada con un circulo rojo en el Arbol. Veamos otra prediccién Si el Tiempo en Ventilacién Mecanica es menor a 5.5 dias, la Presién parcial de Diéxido de Carbono es mayor a 44.4 y la Frecuencia Cardiaca es mayor a 144.5 pero menor a 147 pulsaciones por minuto, el paciente no debe ser extubado, ya que existe un 100% de probabilidad de que la extubacién sea no exitosa. Nos referimos a la hoja marcada con un circulo aziil en el arbol. ‘Arbol de decision Extubacion.csv § ExtubaExitosa Si bien es cierto que se cuenta con un niimero limitado de datos, los resultados no se alejan de la realidad. Este elercicio practico sélo con fines didacticos, demuestra el valor predictivo de este recurso, que seria alin mas certero y significativo y se cuenta con una mayor cantidad de datos. Con el fin de determinar el comportamiento de las variables més relevantes para la prediccién de acuerdo al Arbol de decisién, se puede hacer una represnetacién gréfica de cada una de ellas. Para esto selecionas la pestafia Explorar, Tipo: Distribuciones, y escoges las representaciones que mas te interesen. hitps:simineriaddats wikispaces.comihome?:print ane. snaps mineriagdates = herve En nuestro caso seleccionaremos Diagrama de caja e Histogramas, ya que dan una buena informacién referenta a la distribucién y comportamiento de las variables. Esto lo harmos con algunas de las variables que segtin el arbol, tienen mayor relevancia predictiva, como son Tiempo en Ventilacién Mecanica, Saturacién de Oxigeno y Frecuencia Cardiaca del paciente. jwcer nine sow coer lire teow one Sat Sere corre A ese ot é = 8 a 0 4 ‘raat [ome sma Pe] Tor Ot Orem Comte Onan tra a ie ne Ciemnietet spent [THO m0 ma 13 AS bmw DD mm rmmcm ane km 8 Bo 0 nmamecm Smee 2 DD cman bm 8 BS 0 Beeman fm o BD Bema 3 Sov mau connie Lire [lease [ber i pas [om ] En primer lugar tenemos la representacién en mosaico que nos muestra la proporcién de cada grupo. hipsimineriaddstos.wikispaces.comihome print snaps mineriagdates = herve Mosaico de Extuba.Exitosa (muestra) por Extuba.Exitosa ‘Se puede observar que existe una mayor proporcién de pacientes que fueron extubados exitosamente, Extuba Extese Sapaexinsa \Veamos la distribucién del Tiempo en Ventilacién Mecanica Distribucion de TVM (muestra) por Extuba.Exitosa Frecuencia hipsimineriaddstos.wikispaces.comihome print a6 sir2018 rmineriaddats - home Distribucién de TVM (muestra) por Extuba.Exitosa 35 20 ™ 18 10 = Al No si Extuba Bxitosa En los Graficos se puede observar que el tiempo en ventilacién mecénica promedio de los pacientes cuya extubacién fue exitosa, es menor que el de los que tuvieron una extubacién no exitosa. Esto da indicios de que ‘a mayor tiempo en ventilacién mecanica, mayor es el riesgo de fracaso en la extubacién. \Veamos ahora la distribucién de la Saturacién de Oxigeno hitps:simineriaddats wikispaces.comihome?:print v6. snaps mineriagdates = herve Distribucién de Sat_O2 (muestra) por Extuba.Exitosa 35 B84 5 Bod oF 0 % 100 Sal_02 Distribucion de Sat_O2 (muestra) Por Extuba.Exitosa s4 8 34 , 8 3 hitps:simineriaddats wikispaces.comihome?:print 118 sir2018 rmineriaddats - home En los Graficos se puede observar que la saturacién de oxigeno en los pacientes cuya extubacién fue exitosa, es mayor que la de los que tuvieron una extubacién no exitosa, Esto da indicios de que a mayor saturacién de ‘oxigeno, menor es el riesgo de fracaso en la extubacién, Esto debido a que mientras mas alto sea este valor, indica que es mayor el porcentaje de oxigeno que es entregado a los tejidos. distribucién de la frecuencia Cardiaca Distribucin de FC (muestra) por Extuba.Exitosa 20 a Zz 5 No B Si 8 120 «1300« 140,150. 160170180 hitps:simineriaddats wikispaces.comihome?:print san6. sir2018 rmineriaddats - home Distribucin de FC (muestra) por Extuba.Exitosa ° 8 ° 84 Extuba.Exitosa La Frecuencia Cardiaca de los pacientes cuya extubacién fue exitosa, es menor que la de los que tuvieron una extubacién no exitosa, Esto da indicios de que a mayor frecuencia cardiaca, mayor es el riesgo de fracaso en la extubacion Todos estos resultados coinciden con las combinaciones plasmadas en el Arbol de decisin Para profundizar mas aun en este tema, se recomienda el libro de Graham Williams sobre Mineria de Datos usando Rattle Ju) Data Mining With Ratto and R_The Arto, 2 Data Download 11 MB A continuacién se presenta un material interesante en el que encontrars casos de estudio de la mineria de datos usando R J.) Minera de Oats con R Cap 29 3.pdr Detalls Download 2 MB Cualquier sugerencia o duda escribe a: yonelp@amail.com hitps:simineriaddats wikispaces.comihome?:print 1518 sir2018 rmineriaddats - home Contributions to https/Imineriaddatos.wikispaces.comy are licensed under a Creative Commons Attribution Share-Alike 3.0 License. a Portions not contributed by visitors are Copyright 2018 Tangient LLC. The largast network of teachers in th hitps:simineriaddats wikispaces.comihome?:print 1818.

You might also like