Professional Documents
Culture Documents
Paper
Paper
I. I NTRODUCCIN
Se conoce como clstering a la clasificacin no supervisada
de patrones, basados en la similaridad de stos, denominados
clsters. De esta manera un patrn puede ser definido como
observaciones, puntos dimensionales en un espacio (sea
euclideno o vectorial), datos y/o vectores caratersticos, etc.
Intuitivamente podemos inferir que los patrones dentro de un
clster son ms similares a los elementos que pertenezcan a
otro. El clustering es tambin utlizado en muchos procesos
de anlisis exploratorio de datos, agrupamientos, toma
de decisines, aprendizaje de mquina, minera de datos,
extraccin de informacin, etc. Para informacion detallada
revisar [5]
Es importante entender la diferencia entre clstering y
clasificacin. Clstering se define como una clasificacin
A. La Nebulosa Protosolar
La teora de la nebulosa protosolar SNDM sostiene que
el Sol se form a partir del colapso gravitacional de un
fragmento de nube molecular gigante de varios aos luz de
dimetro. Debdo a la conservacin del momento angular, la
nube presolar empieza a girar ms rpido conforme colapsa
y se enfra. El material dentro de la nube se comienza a
condenzar incrementando la colisin de las partculas y la
energa cintica se convierte en calor. De esta manera la
zona central en la que se acumla la mayor parte de la
masa se calienta mucho ms rpido que la regin externa.
La competicin entre gravedad, preson del gas, los campos
magnticos, y la rotacin da lugar a la contraccin de la
nube en un disco protoplanetario de unas 200 AU de dimetro.
En el centro del disco se forma entonces, una protoestrella
densa y caliente. En un perido de unos 50 millones de aos,
la temperatura y la densidad en el ncleo de la protoestrella
aumentan de manera sosteniada hasta que el hidrgeno
comienza a fusionarse, lo que marca la entrada del Sol en su
primera fase de existencia, la la secuencia principal. Mayor
informacin acerca de la formacin de estrellas es revisada
en [20]. La evolucin de discos protoplanetarios es mostrada
en [13], [21], [22], y [23]. Informacin ms detallada puede
ser encontrada en libro de [24] Protostars and Planets III.
Los planetas se forman entonces a partir del disco protosolar
remanente que orbita alredededor de la nueva estrella recin
Fig. 1. Estrella jveb tpica de dos salidas, conocida por ser una protoestrella
binaria, con un disco solar de un rdio de aproximadamente 10 AU y una
masa de unos 0.05 masas solares. [25], [26]. Se puede Observar a grandes
razgos como esta formado un disco de acrecin y las proporciones del mismo
respecto a la protoestrella.
Fig. 4. Los cuerpos grandes tienden a tener una velocidad relativa baja como
resultado de los nmerosos encuentros gravitacionales. Cuando cuerpos muy
largos pasan cerca de otros sus trayectorias son centradas por su atraccin
gravitacional. Los cuerpos pequeos vuelan tan rpido que no son afectados
por su atraccin mutua y por ende crecen mas rpidamente. [30]
IV. P ROPUESTA
Se procedere a mostrar el diseo del nuevo algoritmo
propuesto. Mostrando la analoga de cada etapa descrita en
la SNDM con nuestro algoritmo. En cada etapa descrita
se mencionarn los operadores y las mtricas usadas para
poder validar los clsters generados de manera adecuada. Se
puede notar, finalmente, que el algoritmo consta solamente
de dos fases poniendolo a la par con otros algoritmos ya
implementados.
im jm
I jc ic I2
im jm
I jc ic I2 + k
k R, k 1
i, j S
Fi, j
F
, reemplazando ai, j =
m
mi
R
Ll = 2.456 R ( )1/3
r
d = v0 t +
~a t 2
2
g(t) jm t 2
(2 I jc ic I3 ) + k
t2
g(t) jm
[(2 I jc ic I3 ) + k] im
determinar
Sean dos
coeficiente
la fuerza
1 m
IC[k] cI
m k=0
Si Ii CI 2 radio, S(i)
Esto quiere decir que s una partcula i se encuentra ms
aleajada que el ndice de covarianza del clster al que
Propiedad
Complejidad
Resultado final
Dinmica
Algoritmo
O(logN)
Depende de parmetros
Mvil
Otros
O(N 2 logN)
Un gran cluster
Esttica
TABLE I
C OMPARACIN DE LA PROPUESTA CON OTROS ALGORITMOS
ALGOMERATIVOS .
V. I MPLEMENTACIN Y R ESULTADOS
A. Anlisis de complejidad
El tiempo de ejecucin del sistema puede estimarse
fcilmente que es O(log2 n) puesto que durante cada iteracin
el muestreo de cada partcula permite que el conjunto
inicial S de elementos se reduzca. El clculo del indice de
covarianza de cada clster se realiza de manera incremental,
por ende el tiempo de clculo no es significativo. Los
centroides de cada cluster son calculados conforme estos
van moviendo durante su recorrido. Es asi que se presenta
un aprendisaje hebbiano para todas las partculas, lo cual
Propiedad
Complejidad
Parada
Nro de part.
Masa
Gravedad
Propuesta
O(logN)
Nro Iter
Var
Var
Dpnd. m-t
Wright
O(N 2 )
Nro Part.
Var
Var
Dpnd. masa
Gomez
O(N)
Nro Iter
N
6
Const
Zhang
O(N)
Nro Iter
Var
6
Const
TABLE II
C OMPARACIN DE LA PROPUESTA CON OTROS ALGORITMOS SIMILARES .
F. Parmetros de acrecin
A lo largo de la propuesta se debe establecer dos parmetros
para poder generar los clusters, dichos parmetros no son
tan importantes pero si significativos. Determinan el nivel
de segmentacin. Si son demasiado grandes generarn malos
clsters. Tras los experimientos realizados , se propone que
el valor de acresin sea de un 10% mientras que el valor
minDist de un 20% para la obtencin de resultados favorables.
G. Implementacin
Fig. 11. Data set IRIS de prueba, utilizado como entrada para la propuesta.
consta de 150 patrones agrupados en 2 clusters diferentes.
Fig. 13. Data set P1 de prueba, utilizado como entrada para la propuesta.
Consta de 5400 patrones agrupados en 5 clusters diferentes por forma.
Fig. 12. Prueba realizada con el dataset IRIS de U.E.F. utilizando el algoritmo
propuesto, se puede observar una correcta divisin automtica de los clsters.
VI. C ONCLUSIN
Como hemos podido apreciar a lo largo de este trabajo.
Debemos notar lo siguiente. La naturaleza nos provee de
soluciones para problemas complejos. En este trabajo nos
inspiramos en una teora que fue formulada hace ms de un
siglo atrs pero que actualmente ya ha sido comprobada.
Simplemente estamos usando una teora de la astrofsica para
aplicarla a un contexo computacional. El universo de por si es
un gran clster. Lo que se busca en este trabajo, en un aspecto
trascendental, es intentar demostrar que a veces debemos
levantar la mirada al cielo para encontrar nuevas soluciones,
queda mucho por descubrir y usar. Esperamos haber dado
un paso ms y de esta manera abrir la imaginacin a nuevos
investigadores demostrando que todo aspecto aspecto natural
puede ser usado para llegar a hacer computacin.
R EFERENCES
implcita constante.
A. Problemas encontrados
A nuestros resultados falta an establecer mejoras para
que estos sean ms exactos, pero como hemos podido
apreciar existe una tendencia natural a generar resultados
prometedores. Debemos dejar en claro que muchas mejoras
pueden realizarse para generar mejores resultados tanto el
la etapa de acrecin gravitacional as como en la acrecin
cataclsmica, dejamos por ende abierta la posibilidad de
nuevos cambios.
B. Recomendaciones
Este algoritmo es altamente paralelizable pues cada partcula
puede ser vista como un hilo de evolucin. Teniendo la
posibilidad de ser extendido a programacion multihebra y
masivamente paralelo.
C. Trabajos futuros
Como trabajos futuros podemos alegar el uso de nuevas
mtricas para generar los clsters. As como el modelamiento
de nuevas etapas que en este trabajo quedaron fuera, como el
echo de simular distintos tipos de colisiones, y formacin de
satelites (sub-clusters), entre otros procesos astro-fsicos.
Finalmente se espera realizar una implementacin paralela
haciendo uso de estrategias de paralelizacin masiva tales
como CUDA y OPENCL. Para poder realizar la paralelizacin
solamente debe ser modificada el proceso de acrecin puesto
que esa es la etapa ms complicada del algoritmo.