Articulo Combariza

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 20

Revista Colombiana de Estadística

Edición para autor(es)

AN ADAPTATION OF THE STATIS METHOD


FOR NON-SYMMETRICAL ANALYSIS OF
QUALITATIVE VARIABLE BLOCKS
UNA ADAPTACION DEL METODO STATIS PARA EL ANALISIS
NO SIMETRICO DE BLOQUES DE VARIABLES CUALITATIVAS
1, a 1, b 1, c
Jennyfer Combariza , Guillermo Ramírez , Maura Vásquez

1 Postgrado en Estadística, Facultad de ciencias económicas y sociales,

Universidad Central de Venezuela, Caracas, Venezuela

Abstract

One of the methods proposed for the simultaneous analysis of multiple tables
of data on several occasions is the STATIS, whose purpose is to explore the
similarities between structures called objects, which summarize the informa-
tion of individuals.
The problem raised in this research focuses mainly on the search for a met-
hodology, based on the STATIS, that allows to compare and simultaneo-
usly explain the inuence of a qualitative explanatory variable x as deter-
minant of a categorical variable criterion and on H occasions. To this end,
a Frobenius-type scalar product is dened among the objects, which will
allow to conceptualize a statistical distance between objects, function of the
Goodman-Kruskal τ statistic.
It also presents an application of the proposed technique on a set of real data
consisting of 8 blocks of paired data, where each block contains the measu-
rement of two qualitative variables on 786 individuals, in order to determine
whether the risk rating Credit of the clients of a nancial institution based
on information emanating from the Colombian credit bureaus, has some re-
lation to the risk classication estimated with information from the entity.
Key words : STATIS, τ Goodman-Kruskal, non-symmetric correspondence
analysis, three-way analysis..

Resumen
a Tesista doctoral. E-mail: jennyfer.combariza@gmail.com
b Profesor titular. E-mail: guillermo.ramirez.ucv@gmail.com
c Profesor titular. E-mail: mauralvasquez@gmail.com

1
2 Jennyfer Combariza, Guillermo Ramírez & Maura Vásquez

Uno de los métodos propuestos para el análisis simultáneo de tablas múlti-


ples de datos en varias ocasiones es el STATIS, cuya nalidad es explorar
las similaridades entre unas estructuras denominadas objetos, que resumen
la información de los individuos.
El problema planteado en esta investigación se centra principalmente en la
búsqueda de una metodología, basada en el STATIS, que permita comparar
y explicar simultáneamente la inuencia que tiene una variable cualitativa
explicativa x como determinante de una variable categórica criterio y en H
ocasiones. Con este n se dene un producto escalar tipo Frobenius entre los
objetos, que permitirá conceptualizar una distancia estadística entre objetos,
función del estadístico τ de Goodman-Kruskal.
Se presenta además una aplicación de la técnica propuesta sobre un conjunto
de datos reales del ámbito nanciero conformado por 8 bloques de datos apa-
reados, donde cada bloque contiene la medición de dos variables cualitativas
sobre 786 individuos, con el propósito de determinar si la calicación de ries-
go de crédito de los clientes de una entidad nanciera basada en información
emanada de las centrales de riesgo colombianas, tiene alguna relación con la
clasicación de riesgo estimada con información de la entidad.
Palabras clave : STATIS, τ de Goodman-Kruskal, análisis de correspon-
dencias no simétrico, análisis de tres vías..

1. Introduction
Predicción es el término usualmente utilizado para referirse a la estimación de una
variable categórica criterio y , en H ocasiones, como función de una o más varia-
bles independientes x1 , x2 · · · , xp , en un modelo lineal o no lineal, lo que implica
explicar la inuencia que las últimas ejercen como determinantes del comporta-
miento de la primera. En el caso particular de una única variable explicativa x, y
que tanto ésta como la y sean categóricas, D'Ambra y Lauro (1984, [2]) han pro-
puesto el análisis de correspondencias no simétrico (ACNS) del bloque apareado
de información (x, y). Esta técnica, basada en la descomposición del estadístico
τ de Goodman-Kruskal, plantea obtener estimaciones mínimo cuadráticas de y,
proyectando ortogonalmente sobre el espacio generado por las modalidades de x.
Lo anterior consiste esencialmente en proyectar el vector de probabilidades con-
dicionales de y, jadas cada una de las modalidades de x, sobre las direcciones
principales de la matriz de varianzas y covarianzas de las estimaciones de y dado
x.
En este trabajo se propone una adaptación del método STATIS al caso de la aplica-
ción de un ACNS en H oportunidades, a una estructura de datos correspondiente
a la caracterización de los mismos individuos mediante dos variables categóricas
1
, organizada sobre bloques apareados no simétricos (xh , yh ), en H ocasiones.
El problema central de esta investigación es principalmente la búsqueda de una
metodología que permita comparar y explicar simultáneamente la inuencia que

1 En este documento se utiliza, en cada oportunidad, que la estructura de las las esta dada
por la variable x y la de las columnas por la variable y .

Revista Colombiana de Estadística, Edición para autor(es)


AN ADAPTATION OF THE STATIS METHOD FOR NSCA2 3

tiene una variable cualitativa independiente o explicativa x como determinante de


una variable categórica criterio y en H ocasiones.

1.1. Objetivo del STATIS-ACNS2


2
El objetivo del STATIS-ACNS2 es permitir la comparación simultánea de los
objetos que identican las estructuras de interdistancias correspondientes a H oca-
siones de bloques cualitativos, bajo una perspectiva no simétrica.
Para esto es necesario denir la base conceptual sobre la que se fundamentará
la aplicación del STATIS en el contexto cualitativo no simétrico mediante la de-
nición de un objeto representativo de la estructura de interdistancias entre los
individuos de un bloque determinado, posteriormente se debe denir un producto
escalar adecuado entre objetos, que permita comparar los diferentes bloques en
términos de una distancia estadística obtenida a partir de dicho producto escalar.
Para nalmente establecer los aspectos fundamentales del análisis de la interes-
tructura.

1.2. Idea principal del STATIS-ACNS2


La idea principal del STATIS-CNS2 es analizar la inuencia que tiene una variable
explicativa categórica x sobre una variable categórica a explicar y, a lo largo de
H ocasiones. La conocida metodología STATIS fue inicialmente diseñada para el
tratamiento de información generada al caracterizar n individuos según p variables
continuas en H ocasiones diferentes; en este trabajo se adapta esa metodología al
caso de bloques apareados no simétricos de dos variables cualitativas, del tipo
(x, y), en H ocasiones.

2. Conguración de los datos


En esta investigación se consideran dos variables cualitativas x e y:

1. Una variable explicativa x con p modalidades A1 , · · · , Ai , · · · , Ap .


2. Una variable explicada y con q modalidades B1 , · · · , Bj , · · · , Bq .

Así mismo, se considera (xh , yh ), h = 1, · · · , H , bloques apareados no simétricos,


que contienen la medición de dos variables cualitativas sobre n individuos.
Las variables cualitativas son observadas sobre los mismos n individuos en H
3
ocasiones .
2 Las siglas CNS2 signica que se está estudiando un escenario cualitativo, no simétrico con
asociación medida a través del τ de Goodman-Kruskal y el dos signica que son analizadas sólo
dos variables: una variable criterio y como función de una variable independiente x.
3 En el caso de diseños longitudinales se utiliza el término ocasión para identicar cada uno de
los h posibles instantes de medición, en tanto que los términos situación y condición se reservan
para los casos en que h no esta vinculado al paso del tiempo sino a clasicaciones conceptuales
propias a los signicados que tengan las variables que se estén analizando. Para nes de desarrollo
teóricos utilizamos el término ocasión.

Revista Colombiana de Estadística, Edición para autor(es)


4 Jennyfer Combariza, Guillermo Ramírez & Maura Vásquez

2.1. Matrices disyuntivas


Para cada ocasión h, los valores observados de las variables x e y sobre los n
individuos pueden organizarse sobre matrices disyuntivas completas de la forma:

  
Xh = xsih 1≤s≤n,1≤i≤p Yh = ysjh
1≤s≤n,1≤j≤q

(a) Variable x, h-ésima (b) Variable y , h-ésima


ocasión. ocasión.
Figura 1: Matrices disyuntivas h-ésima ocasión

donde

si el individuo s presenta la i-ésima modalidad de la variable x en la h-ésima ocasión 4


(
1
xsih =
0 en otro caso.

1 si el individuo s presenta la j-ésima modalidad de la variable y en la h-ésima ocasión
ysjh =
0 en otro caso.

2.2. Álgebra necesaria


Las matrices se indican con letras mayúsculas en negrita (por ejemplo, mathbf Xh ).
A continuación presentamos las deniciones básicas requeridas para el entendi-
miento de la adaptación de la metodología STATIS

• Vectores de frecuencias marginales de las variables cualitativas


 t  t
x e y en la
rh = j t Xh = k1·h · · · ki·h · · · kp·h j = (1, · · · , 1)t
h-ésima ocasión 
t
t  t
ch = j Yh = k·1h · · · k·jh · · · k·qh

• Matriz diagonal de frecuencias de las variables cualitativas x e y en la h-ésima


Xt
h Xh = diag(· · · ki·h · · · ) = diag(rh ) = Dph
ocasión
Yh t Yh = diag(· · · k·jh · · · ) = diag(ch ) = Dqh

• Tabla de contingencias que cruza la variable x (en las las) con la variable y
(en las columnas) Kh = X t
h Yh

• Tabla de frecuencias relativas de la variable x (en las las) con la variable y


(en las columnas) FY X = 1 K h
h h n

4 A lo largo de esta investigación indicar que el individuo s presenta la i-ésima modalidad de la


variable x en la h-ésima ocasión es equivalente a indicar que el individuo s presenta la modalidad
Ai de la variable x en la h-ésima ocasión. Lo anterior vale también para las modalidades de la
variable y en la h-ésima ocasión, por simplicidad utilizaremos j-ésima modalidad para indicar la
modalidad Bj en la h-ésima ocasión.

Revista Colombiana de Estadística, Edición para autor(es)


AN ADAPTATION OF THE STATIS METHOD FOR NSCA2 5

FX = 1 Dph
• Matriz de frecuencias de los valores de las variables cualitativas x e y h n
FY = 1 Dqh
h n

kijh
• en la h-ésima ocasión).
 
Matriz de perles la : Rh = D
−1
K =
ph h ki·h
= P (y = j|x = i,

• Matriz de centraje P:
P = I − Pm (1)
(jj t ) t
donde Pm =
n
, siendo j el vector j = (1, · · · , 1) de dimensión n × 1.
• En el espacio generado por la información de la variable x, para el h-ésimo
instante, se dene la matriz que permite obtener las proyecciones mínimo
cuadráticas de la variable y en el espacio generado por la variable x.
PX = X(X X)
t −1
X
t
(2)

3. Propiedades algebraicas
3.1. Propiedades de las matrices PXh y Pm = n1 Jn
Para ocasión h, se tiene

1. P Xh y Pm son idempotentes.

2. El producto de las matrices PXh y Pm es conmutativo.

3. La matriz PXh − Pm es idempotente.

3.2. Matriz de estimaciones mínimo cuadráticas de la variable


y en la h-ésima ocasión
La matriz de estimaciones mínimo cuadráticas de y como función de x, denotada
por Ỹh se dene por:

Ỹh =
t
PX Yh = Xh (Xh Xh )
h
−1 t
Xh Y = Xh D
−1
K = Xh Rh
ph h
(3)

La matriz de proyecciones mínimo cuadráticas de la variable y en función de


las modalidades de las
Pn x, en la h-ésima ocasión, tiene el término genérico (i, j):
x
s=1 sjh P (yh = j|xh = i) = P (yh = j|xh = i) , para todos los individuos que
presentan la modalidad Ai de x.
Reordenando la matriz de estimaciones mínimo cuadráticas Ỹh , y utilizando la
denición de producto Kronecker de matrices, obtenemos la siguiente representa-
ción:
 jk ⊗ P (yh = 1|xh = 1) ··· jk ⊗ P (yh = j|xh = 1) ··· jk P (yh = q|xh = 1) 
1·h 1·h 1·h

 .. .. .. .. .. 

. . . . .
 
 

(4)
 
jk ⊗ P (yh = 1|xh = i) ··· jk ⊗ P (yh = j|xh = i) ··· jk ⊗ P (yh = q|xh = i)
 
Ỹh = 
i·h i·h i·h

.. .. ..
 
.. ..
 
 
. . . . .
 
 
 
jk ⊗ P (yh = 1|xh = p) ··· jk ⊗ P (yh = j|xh = p) ··· jk ⊗ P (yh = q|xh = p)
p·h p·h p·h

siendo ki·h el número de veces que el perl de frecuencia condicionado yh = j|xh =


i se repite en la matriz de estimaciones mínimo cuadráticas Ỹh . La estimación

Revista Colombiana de Estadística, Edición para autor(es)


6 Jennyfer Combariza, Guillermo Ramírez & Maura Vásquez

para un individuo que presenta la modalidad Ai de la variable x, en la h-ésima


ocasión, es el vector de frecuencias condicionadas de yh |xh = i, como se muestra
a continuación: !
ki1h kijh kiqh
Y˜h (xh = i) = ,··· , ,··· , (5)
ki·h ki·h ki·h

En el caso en que la matriz Ỹh ˜h


sea centrada (P Y = Ỹh ), se tendría que se estima
P (yh = j) mediante la relación:

p
X ki·h
P (yh = j) = P (yh = j|xh = i) (6)
i=1
n

3.3. Matriz de estimaciones mínimo cuadráticas centrada de


la variable y en la h-ésima ocasión
La matriz de estimaciones mínimo cuadráticas centrada de y como función de x,
denotada por Ỹch se dene por:

Ỹch = PX Ych = (PX − Pm )Yh = Y˜h − Pm Yh = Xh Rh − Pm Yh


h h
(7)

La matriz de proyecciones mínimo cuadráticas centrada de la variable y en función


(s, j):P (yh = j|xh =
de la variable x, en la h-ésima ocasión, tiene término genérico
i) − P (yh = j) para todos los individuos que presentan la modalidad Ai de la
variable x . Re-ordenando la matriz de estimaciones mínimo cuadráticas centrada
Ỹch , y utilizando la denición de producto Kronecker de matrices, obtenemos que
le término genérico (i, j) de la matriz Ỹch es

jki·h ⊗ (P (yh = j|xh = i) − P (yh = j)) (8)

Es decir, la estimación mínimo cuadrática centrada para un individuo que presenta


la modalidad Ai de la variable x, en la h-ésima ocasión, es el vector de frecuencias
condicionadas de yh |xh = i:
! ! !!
ki1 k·1 kij k·j kiq k·q
Ỹc (x = i) = − ,··· , − ,··· , − (9)
ki· n ki· n ki· n

4. Variabilidad en el STATIS-ACNS2
En esta sección se examinará la noción de variabilidad en el caso particular de una
única variable explicativa x, y que tanto ésta como la y sean categóricas.

4.1. Variabilidad total


Medir la variabilidad total, de la variable y en la h-ésima ocasión, en el STATIS-
CNS2 consiste en cuanticar globalmente qué tanto se parecen las las de la matriz
t
Ych a su centro de gravedad. Para ello, se calcula la traza de la matriz Ych Ych ,
que resulta ser:
q

q

t t 2 2
(10)
X X
traza(Ych Ych ) = traza(Dqh ) − traza(Yh Pm Yh ) = n − nf·jh = n 1 − f·jh 
j=1 j=1

Revista Colombiana de Estadística, Edición para autor(es)


AN ADAPTATION OF THE STATIS METHOD FOR NSCA2 7

4.2. Variabilidad explicada


Medir la variabilidad explicada, de la variable y en la h-ésima ocasión, en el
STATIS-CNS2 consiste en cuanticar globalmente qué tanto se parecen las pro-
babilidades condicionales (las de la matriz Ỹch ) a su centro de gravedad gỸch .
t
Para ello se calcula la traza de la matriz Ỹch Ỹch , que resulta ser

t
traza(Ỹch Ỹch ) =
t
traza(Yh (PX − Pm )Yh )
h
(11)
t t
= traza(Yh Px Yh ) − traza(Yh Pm Yh )
h
q p f 2 q
(12)
X X ijh X 2
= n −n f·jh .
j=1 i=1 fi·h j=1

5. Indíce de Goodman-Kruskal
En esta sección presentaremos un índice estadístico τ de Goodman-Kruskal que
nos permite obtener una medida de la intensidad de la fuerza con que la varia-
ble x explica a la y . El cociente entre la variabilidad explicada y la variabilidad
total (ambas divididas entre n), constituye un índice de asociación, similar al de
Goodman - Kruskal, que representa la proporción de variabilidad de la variable
y explicada por la variable x en la h-ésima ocasión y que denotaremos τyh ·xh . La
misma, tiene la siguiente representación:

2
fijh
Pq Pp Pq
V E(h) − f2
j=1 i=1 fi·h j=1 ·jh
= Pq = τy ·x .
V T (h) 1− f2 h h
j=1 ·jh

Para más información sobre este índice por favor consulte [1].

6. Análisis interno dentro de cada bloque con un


enfoque ACNS
El tratamiento analítico de la información, plantea efectuar un ACNS, lo que
implica analizar la variabilidad de y explicada por x, mediante la descomposición
del estadístico τy·x de Goodman-Kruskal (1954, [1]), de acuerdo con los siguientes
pasos:

• Paso 1: obtención de las estimaciones mínimo cuadrática de y.

• Paso 2: análisis de variabilidad utilizando τ de Goodman-Kruskal τyh ·xh .

• Paso 3: determinación de las direcciones principales en un ACNS, obtenidas


mediante la descomposición espectral de la matriz Ỹht Ỹh .

• Paso 4: construcción de una representación biplot de las las (probabilidades


condicionales de y|x = i para las distintas modalidades de la variable y)
y las columnas (probabilidades condicionales de y = j para las distintas
modalidades de la variable x) de la matriz Y˜h .

Revista Colombiana de Estadística, Edición para autor(es)


8 Jennyfer Combariza, Guillermo Ramírez & Maura Vásquez

7. Estrategia ICI en el STATIS-ACNS2


En el caso de esta investigación en particular se pretende comparar la variabili-
dad de la variable y en función de la variable x, entre ocasiones, en términos del
coeciente τyh ·xh de Goodman - Kruskal. Esto quiere decir que se lleva a cabo un
procedimiento de tres fases que responde a los objetivos de:

1. Interstructure : identicación los bloques de información (xh , yh ), h =


1, · · · , H , que son similares entre sí.

2. Intraestructura: descripción de las diferencias o similitudes entre los indi-


viduos , utilizando como pieza fundamental el ACNS para analizar el com-
portamiento de los individuos en cada ocasión y los bloques que de alguna
manera expliquen las razones o causas de las semejanzas y/o diferencias entre
los individuos.

3. Compromiso: construcción un marco de representación común a todos los


bloques de información (xh , yh ), h = 1, · · · , H .

8. Metodología en el STATIS-ACNS2
Seguidamente se describen los distintos elementos requeridos para la aplicación
de la fase de interestructura de la adaptación del STATIS, basado en el producto
escalar de Frobenius.

8.1. Elementos teóricos: estudio


El estudio para el h-ésimo bloque se dene como la tripleta Eh = ((Xh , Yh ), Mh , Dh ),
donde

1. Xh y Yh , son las matrices disyuntivas correspondientes a las variables cua-


litativas x e y , en la h-ésima ocasión sobre n individuos.

2. Mh = (Xth Xh )−1 es una matriz denida positiva que dene la métrica uti-
lizada para construir las distancias entre los individuos.

1
3. Dh = √ In siendo V T (h) la variabilidad total de y en el bloque h.
VT(h)

8.2. Elementos teóricos: objeto


Dado el estudio para el h-ésimo bloque Eh , se dene el objeto no simétrico como:

Wh =
t t
Xh Mh Xh Ych = Xh Mh Xh (I − Pm)Yh = (PX − Pm)Yh
h
(13)

Revista Colombiana de Estadística, Edición para autor(es)


AN ADAPTATION OF THE STATIS METHOD FOR NSCA2 9

5
El objeto Wh resulta ser una matriz de orden (n × n) × (n × q) = n × q .
Estos objetos no son matrices cuadradas como en el STATIS clásico y menos aún
simétricas.

8.3. Elementos teóricos: producto escalar


Se dene el producto escalar de tipo Frobenius entre dos matrices Wh y Wl , de
dimensión n × q , de la forma

t t
< Wh |Wl >F CN S2 = traza((Dh Wh ) Dl Wl ) = traza(Wh Dh Dl Wl ) (14)

con rango de valores sobre la recta real, tanto positivos como negativos.
El producto escalar Frobenius en el momento h tiene la siguiente expresión:

hWh |Wh iF CN S2 =
t t 2
traza((Dh Wh ) Dh Wh ) = traza(Wh Dh Wh ) (15)
1
= p
t
traza(Ỹch Ỹch ) (16)
V T (h)V T (h)
1
= V E(h) = τy ·x
h h
(17)
V T (h)

así que el producto escalar de un objeto consigo mismo, en la h-ésima ocasión,


indica una relación de variabilidad o asociación entre variables medido a través del
τyh ·xh .
El producto escalar Frobenius en los momentos h y l tiene la siguiente expresión

1
t t
hWh |Wl iF CN S2 = traza((Dh Wh ) Wl Dl ) = traza(Wh Dh Dl Wl ) = p
t
traza(Ỹch Ỹcl ) (18)
V T (h)V T (l)

Este producto queda denido como función de las covarianzas entre las estimacio-
nes de y en el bloque h y en el bloque l.

8.4. Elementos teóricos: distancia


Se dene una distancia entre objetos basada en la norma dada de forma natural
por el producto escalar de Frobenius:

2 2
dF CN S2 (Wh , Wl ) = kWh − Wl kF CN S2
1
= q hWh − Wl |Wh − Wl iF CN S2
V T (yh )V T (yl )

(19)

= τy ·x + τy ·x − 2hWh Wl iF CN S2
h h l l

donde el último término es una medida de la covarianza entre las estimaciones


de y en ambos bloques. De modo que mientras mayor sea está covariabilidad, me-
nor será la distancia entre las representaciones de los bloques. Es decir, es posible
cuanticar en una medida de distancia DF CN S2 , las diferencias existentes entre
las estructuras denidas por las estimaciones mínimo-cuadráticas del bloque de las
q variables criterio en dos ocasiones diferentes que son obtenidas en función de los
correspondientes bloques de variables explicativas.
En resumen, la medida de distancia propuesta para comparar los objetos
de interés será mayor cuanto más grandes sean los respectivos índices
5 Como puede observarse el orden de este arreglo resulta independiente de p, el número de
modalidades de la variable explicativa, más si depende del número de individuos bajo estudio y
el número de modalidades q de las variables criterio.

Revista Colombiana de Estadística, Edición para autor(es)


10 Jennyfer Combariza, Guillermo Ramírez & Maura Vásquez

de asociación de Goodman-Kruskal en las dos ocasiones consideradas y


tanto más pequeña cuanto mayor sea la medida agregada de las cova-
rianzas entre las estimaciones mínimo-cuadráticas de la variable criterio
en las ocasiones h y l.

8.5. Espacio de representación de la interestructura


Se dene a continuación un arreglo matricial que contiene los productos escalares
de Frobenius entre los objetos de los distintos bloques.
Se denotará mediante S a la matriz de orden H × H que contiene los productos
escalares de Frobenius entre los objetos dos a dos:

 hW1 |W1 iF CN S2 ··· hW1 |Wi iF CN S2 ··· hW1 |WH iF CN S2 


 .. .. .. .. .. 
. . . . .
 
 

(20)
 
 
S =  hWi |W1 iF CN S2 ··· hWi |Wi iF CN S2 ··· hWi |WH iF CN S2 
.. .. ..
 
.. ..
 
 
. . . . .
 
 
hWH |W1 iF CN S2 ··· hWH |Wi iF CN S2 ··· hWH |WH iF CN S2

Sustituyendo las expresiones que denen a Wh y Wl , el término general queda:

1
Shl = p
t
traza(Ỹch Ỹcl ) (21)
V T (h)V T (l)
1 t t
= traza(Yh (PX PX − Pm )Yl )
h l
p
V T (h)V T (l)

donde PXh es la matriz de proyección sobre el espacio generado por las moda-
lidades de la x en la h-ésima ocasión y así mismo Ỹh = (Ỹ(1,h) , · · · , Ỹ(q,h) )) e

Ỹl = (Ỹ(1,l) , · · · , Ỹ(q,l) )) son las proyecciones de las y sobre el espacio generado
por las modalidades de las x en las ocasiones h y l.
Un resultado muy importante es que sobre la diagonal principal de la matriz S se
encuentran los índices de asociación de Goodman-Kruskal correspondientes a cada
uno de los H pares de bloques:

1
Shh =
t
traza(Yh (PX − Pm )Yh )
h
(22)
V T (h)

La construcción de la matriz S se hace para obtener por un lado un gráco com-


parativo del nivel de asociación de los bloques apareados, y por otro lado ser una
herramienta que facilita la reconstrucción de las distancias entre los objetos en el
espacio euclídeo usual, con una interpretación de interés a los efectos del análisis.
El posicionamiento de un bloque apareado en ese espacio, determinado por su dis-
tancia al origen de coordenadas, deberá ser medida por una variación del índice
de asociación de Goodman-Kruskal del bloque en cuestión

2 t
(23)
 
kWh kF CN S2 = traza Wh Wh
   
t P
traza Yh Xh − Pm Yh V E(h)
= = (24)
V T (h) V T (h)
= τy ·x
h h
(25)

Se efectúa la descomposición espectral de esta matriz S con el propósito de hallar


un espacio de representación para los objetos de los distintos bloques. Se obtienen
entonces los autovalores y autovectores:

α α
SG = tα G , α = 1, 2, · · · , H (26)

Revista Colombiana de Estadística, Edición para autor(es)


AN ADAPTATION OF THE STATIS METHOD FOR NSCA2 11

encontrándose con esta factorización la posibilidad de descomponer el índice de


asociación de Goodman- Kruskal
H H
(27)
X X
traza(S) = τyα ·xα = tα
α=1 α=1

Al diagonalizar la matriz Yh t (PXh − Pm ) Yh se obtiene que la traza de la matriz


PH
S es α=1 τyα ·xα , donde cada autovalor está asociado con una dirección principal
del análisis de correspondencias no simétrico (ACNS). Por lo tanto, la α-ésima
α
dirección de este espacio, G , capta una porción igual a:

PH (28)
α=1 τyα ·xα

de la medida global en que la x explica a la y a lo largo de los bloques.


Por otra parte, es posible determinar un conjunto de H puntos A1 , · · · , Ah , · · · , AH
sobre el espacio euclídeo cuyas direcciones quedan determinadas por los vectores
columna de la matriz G (descomposición espectral de S), los cuales representan las
posiciones de los objetos W1 , · · · , Wh , · · · , WH de manera que en esta representa-
ción se conserva la estructura de interdistancias entre las matrices que identican
a esos objetos. Es decir, la distancia entre los puntos Ah y Al es la misma que la
distancia dF CN S2 entre los objetos Wh y Wl .
Se establece de esta manera, utilizando los fundamentos del ACP, que las coor-
denadas de proyección de los H objetos W1 , · · · , Wh , · · · , WH sobre el α-ésimo
eje principal de la descomposición espectral de S , quedan descritas sobre el vec-

tor tα Gα , α = 1, · · · , h, · · · H . Por consiguiente, la representación sobre todo el
espacio se puede escribir matricialmente como:
 p
··· ···

t1 0 0
.. ..
 

. .
 
 
 0 0 0 
1/2 
(29)
p 
GT = G1 ··· Gh ··· GH 0 ··· th ··· 0
 
 
.. ..
 
 
. .
 
 
 0 0 0 
p
0 ··· 0 ··· tH

(30)
 p 
t1 G 1 t2 G2 th Gh tH GH
p p
=
p
··· ···

En esta representación se tiene que para el objeto Wh su distancia cuadrado al


origen de coordenadas es aproximadamente τyh ·xh , es decir, para los objetos más
alejados del origen, la capacidad explicativa de la x es mayor.
Las coordenadas de proyección de los H objetos sobre el eje α quedan en la forma:

 tα g1α 
 .. 
.
 
 

(31)
 
α  √ 
γ =  tα ghα 
..
 
 
 
.
 
 

tα gHα

Se plantea construir el objeto compromiso como una combinación lineal de los


objetos de la forma

H
X H
X
Wcomp = α h Wh = αh Ỹch
h=1 h=1
H
(32)
X
= αh (PX − Pm )Yh
h
h=1

de manera que se maximice globalmente la covarianza con los objetos analizados


en el sentido del producto interno denido sobre los objetos
1
t
hWh |Wl iF CN S2 = traza(Wh Dh Dl Wl ) = p
t t
traza(Ỹch Ỹcl ) (33)
V T (h)V T (l)

Revista Colombiana de Estadística, Edición para autor(es)


12 Jennyfer Combariza, Guillermo Ramírez & Maura Vásquez

La función objetivo entonces, es de la forma:

H
2 t t
(34)
X
hWcomp |Wh iF CN S2 = α SS α
h=1

PH
con la restricción: h=1 α2h = 1. El problema reside en la determinación del vector
t
α = (α1 , · · · , αh , · · · , αH ) de coecientes del objeto compromiso; que resulta ser el
t
autovector normalizado de la matriz simétrica SS asociado con su mayor autovalor
2
(t1 ) , en la forma:
G1 G1
α = = . (35)
kG1 kF CN S2 (G1t G1 )1/2

Para una mejor comprensión la gura 2 resume las diferentes etapas del STATIS-
ACNS2.

Figura 2: Diferentes etapas del STATIS-ACNS2.

9. Un ejemplo
En esta sección se ilustra la técnica propuesta, aplicándola sobre un conjunto de
datos reales referidos.

9.1. Contexto
Según publica la Superintendencia Financiera de Colombia en el capítulo 2 de la
6
circular externa básica contable y nanciera 100 de 1995 el riesgo de crédito

6 https://www.supernanciera.gov.co/publicacion

Revista Colombiana de Estadística, Edición para autor(es)


AN ADAPTATION OF THE STATIS METHOD FOR NSCA2 13

(RC) es la posibilidad de que una entidad incurra en pérdidas y se disminuya el


valor de sus activos, como consecuencia de que un deudor o contraparte incumpla
sus obligaciones.
La Superintendencia indica además que las entidades vigiladas deben evaluar per-
manentemente el riesgo incorporado en sus activos crediticios, tanto en el momento
de otorgar créditos como a lo largo de la vida de los mismos, incluidos los casos
de reestructuraciones. Para tal efecto, las entidades deben diseñar y adoptar un
Sistema de Administración del Riesgo Crediticio (SARC). Los elementos básicos
que deben componer el SARC son: políticas de administración del RC, procesos
de administración del RC, modelos internos o de referencia para la estimación o
cuanticación de pérdidas esperadas, sistema de provisiones para cubrir el RC,
procesos de control interno.
Por lo anterior, las entidades nancieras deben establecer esquemas ecientes de
administración y control del riesgo de crédito al que se exponen en el desarrollo
del negocio, en resonancia a su propio perl de riesgo, segmentación de mercado,
según las características de los mercados en los que opera y de los productos que
ofrece; por lo tanto es necesario que cada entidad desarrolle su propio esquema de
trabajo, que asegure la calidad de sus activos y además permita identicar, medir,
controlar (mitigar) y monitorear la materialización de los diferentes riesgos a las
que están expuestas como bancos.

9.2. Conguración de los datos


Se va a trabajar con dos variables cualitativas x e y , medidas sobre 786 individuos
a lo largo de los 8 trimestres correspondientes a los años 2016 y 2017. Las variable
consideradas son:

1. Una variable x que corresponde a la calicación de riesgo (a nivel de cliente)


7
de cada cliente con 5 modalidades: A, B, C, D y E.

2. Una variable y que corresponde a un estado de riesgo (a nivel de cliente) que


establece la entidad con información externa. Esta variable tiene 4 modali-
dades o categorías: Estado 1, Estado 2, Estado 3 y Estado 4.

Se parte del supuesto de que la calicación interna del riesgo de cada


cliente (variable x) explica de alguna manera la calicación obtenida
con información externa (variable y).
A lo largo de este documento, se detallarán los bloques de datos explicando su
estructura lógica, explorando en las siguientes secciones los bloques (xh , yh ),
h = 1, · · · , 8, desde el punto de vista de la metodología STATIS-CNS2.

7 Variable supeditada por el capítulo 2 de la Supernanciera.

Revista Colombiana de Estadística, Edición para autor(es)


14 Jennyfer Combariza, Guillermo Ramírez & Maura Vásquez

9.3. Variables analizadas


1. Calicación del riesgo crediticio. Según la norma de la SuperFinan-
8
ciera de Colombia los contratos deben clasicarse en una de las siguientes
categorías de riesgo crediticio:

• Categoría A o riesgo normal.

• Categoría B o riesgo aceptable, superior al normal.

• Categoría C o riesgo apreciable.

• Categoría D o riesgo signicativo.

• Categoría E o riesgo de incobrabilidad.

2. Calicación del riesgo a nivel de cliente. Para obtener una calicación


de riesgo a nivel de cliente se coloca la calicación del crédito con mayor
exposición. Es decir, el análisis presentado en esta trabajo se lleva a cabo
a nivel de cliente. Para nes prácticos, a lo largo de este documento el tér-
mino calicación de riesgo a nivel de cliente hace referencia a la calicación
crediticia de mayor exposición.

3. Estado de riesgo (cliente). Segmentación que realiza la entidad nancie-


9
ra para realizar un seguimiento a todos los clientes compartidos , a partir
del comportamiento de pago que estos presenten, tanto dentro de la entidad
como en el sector nanciero (esta variable incorpora datos de la central de
10 11
riesgo ) .
Este estado es construido por la entidad de manera trimestral para todos los
clientes que tienen productos de crédito vigentes con la entidad y que presen-
tan deudas con el sector. Los estados según el comportamiento presentado
son:

• Estado 1: constituido por aquellos clientes que al ser consultados en las


centrales de riesgo en el trimestre cumplen sus obligaciones nancieras
con el sector y cumplen con la entidad.

• Estado 2: constituido por aquellos clientes que al ser consultados en las


centrales de riesgo en el trimestre incumplen sus obligaciones nancieras
con el sector y cumplen con la entidad.

8 https://www.supernanciera.gov.co/publicacion
9 Los clientes compartidos son aquellos que mantienen una operación vigente con la entidad y
que, adicionalmente, presentan al menos una obligación con otra entidad del sector nanciero.
10 La central de riesgo es una empresa privada, independiente de las instituciones nancieras,
de las comerciales y de las gubernamentales, que tiene como n concentrar y proporcionar a sus
empresas aliadas, la información referente al comportamiento que han tenido las personas en
sus créditos
11 Las entidades nancieras utilizan los servicios de las centrales de riesgo porque esta informa-
ción proporciona una innovadora herramienta de apoyo a la toma de decisiones en la evaluación,
prevención del riesgo crediticio y gestión de clientes. Estos servicios, aunque no son gratuitos,
le permiten el acceso de manera sencilla a la más actualizada y completa base de datos de
información de incumplimientos.

Revista Colombiana de Estadística, Edición para autor(es)


AN ADAPTATION OF THE STATIS METHOD FOR NSCA2 15

• Estado 3: constituido por aquellos clientes que al ser consultados en las


centrales de riesgo en el trimestre cumplen sus obligaciones nancieras
con el sector e incumplen con la entidad.

• Estado 4: constituido por aquellos clientes que al ser consultados en las


centrales de riesgo en el trimestre incumplen sus obligaciones nancieras
con el sector e incumplen con la entidad.

9.4. Descripción de la muestra analizada


La muestra analizada en este artículo forma parte de un estudio trimestral que
realiza la entidad nanciera. Se trabaja con n=786 clientes que fueron observa-
dos trimestralmente durante 24 meses (H=8). Para nes prácticos utilizaremos la
notación 2016Ti , i = 1, · · · , 4, indica el i-ésimo trimestre del año 2016, de igual
manera se utiliza la notación 2017Ti , i = 1, · · · , 4 Los n=786 clientes fueron eva-
luados en cada trimestre en cada una de las variables mencionadas (estado de
riesgo y calicación de riesgo). La muestra analizada en este capítulo forma parte
de un análisis trimestral que realiza una entidad nanciera, donde se evalúa infor-
mación del sector nanciero y permite obtener una medición global de los clientes
compartidos.

9.5. Estrategia ICI


En el caso de estos datos las fases de la estrategia ICI tienen la siguiente represen-
tación:

1. Interestructura: identicación los bloques de información (xh , yh ), h =


1, · · · , H , que son similares entre sí.
Recordemos que la matriz S denota la matriz que contiene los productos
escalares de Frobenius entre los objetos dos a dos. A partir de la matriz
S (véase la tabla (1)) se hace la reconstrucción de las distancias entre los
objetos (véase gura 3(b)), pudiendo apreciar fácilmente que el objeto W8
está más alejado de los objetos W1 ,W2 y W3 .
A partir de la matriz S (véase la tabla (1)) se hace la reconstrucción de las
distancias entre los objetos (véase gura 3(b)), pudiendo apreciar fácilmente
que el objeto W8 está más alejado de los objetos W1 ,W2 y W3 .
Se puede apreciar que la intensidad con que la variable x explica a la y, es
alta. A excepción de la ocasión 3 y 5, donde el τyh ·xh toma el valor de 77 %.

Cuadro 1: Matriz S , en amarillo se resalta la diagonal principal donde se ubica el τyh ·xh para cada ocasión.
W1 W2 W3 W4 W5 W6 W7 W8

W1 100.00 % 86.63 % 64.43 % 41.20 % 23.60 % 15.64 % 11.86 % 6.18 %


W2 86.63 % 90.91 % 65.53 % 41.42 % 23.31 % 15.39 % 11.46 % 5.82 %
W3 64.43 % 65.53 % 77.11 % 40.22 % 21.79 % 13.85 % 9.72 % 2.87 %
W4 41.20 % 41.42 % 40.22 % 89.70 % 41.60 % 26.06 % 17.73 % 5.81 %
W5 23.60 % 23.31 % 21.79 % 41.60 % 76.67 % 44.32 % 31.32 % 11.72 %
W6 15.64 % 15.39 % 13.85 % 26.06 % 44.32 % 90.58 % 62.10 % 32.45 %
W7 11.86 % 11.46 % 9.72 % 17.73 % 31.32 % 62.10 % 89.99 % 44.35 %
W8 6.18 % 5.82 % 2.87 % 5.81 % 11.72 % 32.45 % 44.35 % 79.05 %

Revista Colombiana de Estadística, Edición para autor(es)


16 Jennyfer Combariza, Guillermo Ramírez & Maura Vásquez

(a) Primer plano factorial S (b) Mapa de distancia entre objetos

(c) Evolución del τyh ·xh de Goodman-


Kruskal

Figura 3: Herramientas para el análisis

2. Intraestructura: descripción de las diferencias o similitudes entre los indi-


viduos, utilizando como pieza fundamental el ACNS para analizar el com-
portamiento de los individuos en cada ocasión y los bloques que de alguna
manera expliquen las razones o causas de las semejanzas y/o diferencias en-
tre los individuos.
El objetivo de esta sección es describir las diferencias o similitudes entre los
individuos utilizando como pieza fundamental el ACNS para analizar el com-
portamiento de los individuos y los bloques que de alguna manera expliquen
las razones o causas de las semejanzas y/o diferencias entre los individuos.
En este orden de ideas las guras biplot 4:
• Ocasión 1: la calicación de riesgo A esta principalmente asociada a estado 4. La distancia de la ca-
licación de riesgo A al origen es pequeña, motivado a que el perl la de la calicación A es muy
parecido al centro de gravedad. El resto de las calicaciones están alejadas del origen porque presentan
diferencias signicativas con respecto al centro de gravedad.
• Ocasión 2: la calicación de riesgo A esta principalmente asociada a estado 1. Mientras que, la calica-
ción B lo esta al estado 2, la calicación C al estado 3 y las calicaciones E-D al estado 4. La distancia
de la calicación de riesgo A al origen es pequeña, motivado a que el perl la por calicación A es muy
parecido al centro de gravedad. El resto de las calicaciones están alejadas del origen porque presentan
diferencias signicativas con respecto al centro de gravedad.
• Ocasión 3: la calicación de riesgo A esta principalmente asociada a estado 1. Mientras que, la cali-
cación B lo esta al estado 2, calicación C al estado 3 y la calicación E al estado 4. La distancia de
la calicación de riesgo A al origen es pequeña, motivado a que el perl la por calicación A es muy
parecido al centro de gravedad. El resto de las calicaciones están alejadas del origen porque presentan
diferencias signicativas con respecto al centro de gravedad.
• Ocasión 4: la calicación de riesgo A esta principalmente asociada a estado 1. Mientras que, la cali-
cación C al estado 3 y las calicaciones D-E al estado 4. La distancia de la calicación de riesgo A al
origen es pequeña, motivado a que el perl la por calicación A es muy parecido al centro de gravedad.
El resto de las calicaciones están alejadas del origen porque presentan diferencias signicativas con
respecto al centro de gravedad. Como comentario adicional, aun cuando la calicación A esta cerca-
na al origen, comparado con las ocasiones anteriores se comienza a véase un distanciamiento de esta
calicación con respecto al mismo.

Revista Colombiana de Estadística, Edición para autor(es)


AN ADAPTATION OF THE STATIS METHOD FOR NSCA2 17

• Ocasión 5: la calicación de riesgo A esta principalmente asociada a estado 1. Mientras que, la cali-
cación C al estado 3 y las calicaciones D-E al estado 4. La distancia de la calicación de riesgo A al
origen va aumentando, motivado a que el perl la por calicación A se esta diferenciando al centro de
gravedad. Mientras que la distancia de la calicación de riesgo E al origen va disminuyendo (en compa-
ración con las ocasiones anteriores), motivado a que el perl la por calicación E es muy parecido al
centro de gravedad.
• Ocasión 6: la calicación de riesgo A esta principalmente asociada a estado 1. Mientras que, la cali-
cación C al estado 3 y las calicaciones D-E al estado 4. La distancia de la calicación de riesgo A al
origen a aumentado, motivado a que el perl la por calicación A se esta diferenciando signicativa-
mente con respecto al centro de gravedad. Mientras que la distancia de la calicación de riesgo E al
origen va disminuyendo (en comparación con las ocasiones anteriores), motivado a que el perl la por
calicación E es muy parecido al centro de gravedad.
• Ocasión 7: la calicación de riesgo A esta principalmente asociada a estado 1. Mientras que, la cali-
cación C al estado 3 y las calicaciones D-E al estado 4. La distancia de la calicación de riesgo A al
origen a aumentado, motivado a que el perl la por calicación A se esta diferenciando signicativa-
mente con respecto al centro de gravedad. Mientras que la distancia de la calicación de riesgo E al
origen va disminuyendo (en comparación con las ocasiones anteriores), motivado a que el perl la por
calicación E es muy parecido al centro de gravedad.
• Ocasión 8: la calicación de riesgo A esta principalmente asociada a estado 1. Mientras que, la cali-
cación C al estado 3 y las calicaciones D-E al estado 4. La distancia de la calicación de riesgo A al
origen a aumentado, motivado a que el perl la por calicación A se esta diferenciando signicativa-
mente con respecto al centro de gravedad. Mientras que la distancia de la calicación de riesgo E al
origen va disminuyendo (en comparación con las ocasiones anteriores), motivado a que el perl la por
calicación E es muy parecido al centro de gravedad. En esta ocasión 5, y escenario base la población
quedo concentrada principalmente en la combinación Categoría E-Estado 4.

Biplot ocasión 1 , ( 96.57 %) Biplot ocasión 2 , ( 97.67 %) Biplot ocasión 3 , ( 92.52 %) Biplot ocasión 4 , ( 99.47 %)
3

3
2

2
Estado4 Estado4
* *
Estado4 Estado4 E +
* *
1

1
Estado1 Estado1 E
* * +
15.66%

20.38%
Estado1*
7.37%

5.28%

D +
D
E E + Estado1*
+
A+ A+ A+ Estado2 A+
0

0
B +*
Eje 2

Eje 2

D + B + *
Eje 2

Eje 2
Estado2
D +
Estado3 * BEstado2
+ *
−1

−1

−1

−1
Estado2 *
C + Estado3 * Estado3 * Estado3 *
+ C +
−2

−2

−2

−2
C
+ +
B C
−3

−3

−3

−3
−3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3

Eje 1 89.19% Eje 1 92.39% Eje 1 76.85% Eje 1 79.09%

Biplot ocasión 5 , ( 87.72 %) Biplot ocasión 6 , ( 99.69 %) Biplot ocasión 7 , ( 99.46 %) Biplot ocasión 8 , ( 98.8 %)
3

3
2

A+
Estado1
*
Estado4
* B+
1

Estado4 Estado1
Estado1 * Estado1 Estado4 *
E + * * *
17.94%

17.83%

22.25%

29.52%

E + A+
A+ A+ E +
D + E +Estado2 *
Estado2 * B+
0

Estado2 * B+ Estado4 *
D +
Eje 2

Eje 2

Eje 2

Eje 2

D+
B+ D +
Estado2 *
−1

−1

−1

−1

Estado3 * C+
Estado3 *
Estado3 * Estado3 *
C +
−2

−2

−2

−2

+ +
C C
−3

−3

−3

−3

−3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3

Eje 1 69.78% Eje 1 81.86% Eje 1 77.21% Eje 1 69.28%

Figura 4: ACNS: resultados

3. Compromiso: construcción un marco de representación común a todos los


bloques de información (xh , yh ), h = 1, · · · , H . Tener en cuenta que el ob-
jetivo de esta sección es realizar un análisis del compromiso. Mediante la
construcción de un espacio adicional (compromiso) que admite representar
los individuos diferenciándolos según su grupo.
El análisis del espacio de baja dimensión de la matriz compromiso utilizando
como base la gura 5 es el siguiente:

• En el primer cuadrante del plano compromiso se concentran el 30 % de las observaciones. Estas obser-
vaciones se caracterizan principalmente por clientes que iniciaron en combinación Categoría A-Estado
1 (90 %) y que todos terminaron en combinación Categoría E-Estado 4.
• El segundo cuadrante tiene el 34 % de las observaciones, de estas el 100 % inicia en la ocasión 1 con
la combinación Categoría A-Estado 1 y solo el 49 % de los clientes termina en la ocasión 8 con la
combinación Categoría E-Estado 4.
• El tercer cuadrante tiene el 24 % de las observaciones; de estas el 100 % inicia en la ocasión 1 con
la combinación Categoría A-Estado 1 y solo el 34 % de los clientes termina en la ocasión 8 con la
combinación Categoría E-Estado 4.
• Finalmente, en el cuarto cuadrante tiene el 12 % de las observaciones, de estas el 89 % inician en la
ocasión 1 con la combinación Categoría A-Estado 1 y el 89 % de los clientes termina en la ocasión 8 con
la combinación Categoría E-Estado 4.

Revista Colombiana de Estadística, Edición para autor(es)


18 Jennyfer Combariza, Guillermo Ramírez & Maura Vásquez

Proyección de los objetos


en el espacio compromiso (Wc) ( 88.01 %)

0.015
0.010
0.005
16.77%
I124
I129
I128
I114
I99
I55
I54
I57
I139
I142
I64
I51
I79
I200
I276
I244
I252
I215
I237
I315
I360
I390
I394

I116
I646
I304
I524
I482
I456 I112
I123
I125
I133
I68
I72
I20
I143
I38
I43
I45
I50
I27
I771
I784
I786
I175
I247
I250
I249
I192
I162
I196
I201
I203
I187
I719
I672
I240
I242
I677
I295
I592
I302
I577
I576
I554
I556
I631
I309
I503
I502
I628
I620
I527
I538
I540
I398
I346
I361
I379
I488
I461
I467
I472
I440
I439
I417 I106
I130
I122
I121
I126
I103
I117
I98
I67
I88
I141
I750
I84
I40
I148
I147
I153
I46
I7
I14
I774
I741
I262
I257
I271
I158
I176
I660
I168
I195
I651
I654
I186
I253
I721
I207 I281
21I279
I181
I239
I643
I234
I218
I689
I294
I293
I593
I596
I595
I599
I598
I300
I570
I636
I582
I316
I632
I508
I565
I552
I530
I523
I399
I355
I357
I334
I383
I613
I479
I481
I484
I483
I487
I451
I441
I429 I62

0.000
I184
I284
I105
I107I108
I59
I119
I73
I77
I66
I90
I39
I41
I145
I745
I744
I81
I47
I49
I33
I32
I778
I777
I776
I775
I740
I261
I268I269
I2
I172
I174
I727
I179
I178
I668
I197
I199
I735
I731
I722
I206
I278
I277
I644
I683
I682
I681
I699
I641
I219
I223
I608
I610
I590
I572
I603
I635
I494
I318
I583
I518
I520
I310
I501
I366
I549
I551
I341
I330
I359
I377
I403
I402
I405
I351
I380
I382
I384
I478
I460
I454
I465I466
I449
I409
I408
I420
I422
I430
I415
I513
I83
I756
I151
I34
I156
I232
I227
I301
I571
I319
I585
I560
I559
I533
I324
I356
I391
I457
I431 I111
I102
I137
I24
I140
I36
I31
I30
I759
I768
I762
I270
I167
I657
I664
I714
I185
I724
I671
I241
I706
I702
I221
I288
I575
I579
I496
I322
I525
I332
I373
I364
I344
I614
I462
I475
I458
I474
I445
I444
I436
I425
I428
I427
I418 I60
I118
I138
I75I76
II16I17
I96
I92
I91
I146
I753
I152
I8
I9
I29
I779
I258
I260
I763
I155
I3
I5
I275
I165
I164
I163
I730
I650
I653
I160
I202
I282
I663
I666
I665
I673
I182
I238
I231
I696
I698
I217
I688
I692
I691
I690
I220
I228
I611
I606
I574
I580
I587
I586
I493
I519
I498
I567
I618
I622
I625
I532
I534
I537
I331
I358
I371
I544
I376
I350
I336
I338
I385
I455
I464
I476
I443
I435
I434
I437
I414 I782
I747
I767
I769
I764
I720
I723
I222
I634
I562
I348
I135
I131
I781
I749
I755
I754
I772
I760
I738
I656
I652
I713
I718
I717
I716
I715
I725
I670
I678
I645
I684
I705
I695
I589
I296
I604
I495
I317
I630
I511
I627
I619
I621
I616
I433
I65
I93I381
I601
I23
I53
I166
I605
I311
I548
I491
I469
I448
I450
I426
I372 I144I536
I339 I110
I127
I13
I742
I259
I761
I272
I190
I734
I704
I700
I235
I305
I584
I521
I638
I314
I313
I367
I626
I531
I335
I432I393I400 I573
I74I321
I694
I541
I386I679 I210 I685
I104
I100
I56
I71
I70
I52
I19
I15
I28
I770
I743
I266
I739
I169
I194
I245
I251
I255
I254
I173
I280
I726
I649
I648
I180
I285
I669
I204
I209
I233
I710
I292
I291
I290
I289
I297
I299
I306
I633
I499
I566
I553
I312
I505
I504
I617
I333
I365
I363
I545
I396
I395
I375
I326
I340
I388
I406
I477
I442
I410
I424
I419
I697
I529 I387I446
I216 I459
I564
I134
I780
I191 I748
I766
I737
I733
I680
I707
I22
I236
I558
I412
I224 I470
I132
I87
I86
I170
I658
I667
I183
I736
I712
I214
I686
I320
I526
I370
I550
I539
I506
I343
I345
I347
I349
I354
I468 I547 I500
I528
I389
I101
I136
I89
I80
I154
I150
I765
I283
I198
I189
I732
I243
I208
I213
I212
I709
I225
I287
I298
I516
I535
I368
I329
I362
I378
I325
I615
I480 I44
I48
I6
I265
I267
I274
I193
I661
I205
I701
I594
I497
I629
I542
I561
I353
I463
I486
I485
I473
I423 I783
I113
I82I248
I752
I1 I85
I676
I687
I226
I607
I522
I546
I489
I452
I411I416
I352 I640 I773
I263
I256
I161
I655
I624
I623
I4
I729
I647
I35I492 I95
I581

Eje 2
I323 I751
I149
I563
I514
I637 I453
I188 I555
I659
I578
I557
I507
I509
I392 I447 I785
I758
I757
I159
I662
I711
I675
I642
I591
I597
I515
I308
I397
I413
I746
I600
I543
I374 I569 I37
I273
I177
I211
I674
I708
I517
I510
I342
I230 I69 I25
I728
I328
I264
I307
I512I703
I246 I58
I327

−0.005
I115 I171 I12 I693
I602 I109
I303
I42
I438
I61
I10 I97
I401
I471
I120
I421
I18 I588
I568 I11
I157
I369
I404
I26
I78
I94
I337

−0.010
I612
I609
I490

I286 I229

−0.015
I639
I407 I63

−0.05 0.00 0.05

Eje 1 71.24%

Figura 5: Análisis espacio de baja dimensión de la matriz compromiso.

10. Hallazgos, conclusiones y recomendaciones

En esta investigación se ha logrado:


Abordar el problema de investigación mediante la adaptación de la me-
todología STATIS para efectuar la comparación simultánea de los obje-
tos que identican las estructuras de interdistancias correspondientes a
H ocasiones de bloques cualitativos, bajo una perspectiva no simétrica.
Esto se logró mediante la denición de un producto escalar adecuado entre obje-
tos que permita comparar las estructuras que describen las interdistancias entre
individuos caracterizados por los diferentes conjuntos de variables cualitativas.
Adicionalmente el producto escalar permitió por un lado denir y conceptualizar
una distancia estadística entre objetos y por el otro construir un espacio de baja
dimensión, donde es posible efectuar comparaciones entre los diferentes conjuntos
de datos con relaciones no simétricas evaluados en términos del estadístico τyh ·xh
de Goodman-Kruskal.
En la sección 9 se analizó un ejemplo, donde

1. La representación de los objetos en el espacio de baja dimensión, efecti-


vamente permite apreciar grácamente el parecido y/o diferencia entre los
distintos bloques no simétricos en relación con el τyh ·xh h = 1, 2, · · · 8 de
Goodman-Kruskal.

2. La conclusión de la aplicación es que efectivamente la información de las


centrales de riesgo (medido a través de la variable estado de riesgo) presenta
una relación con la clasicación de riesgo de la entidad. Dado que el proceso
trimestral de consulta a centrales de riesgo es un proceso que representa cos-
to para el banco, se recomienda no realizar ese gasto y utilizar la convención:
Categoría A - pronostica estado 1, Categoría B - pronostica estado 2, Cate-
goría C - pronostica estado 3 y nalmente las Categorías D - E - pronostican
estado 4.

Revista Colombiana de Estadística, Edición para autor(es)


AN ADAPTATION OF THE STATIS METHOD FOR NSCA2 19

11. Acknowledgements
Agradezco a todos los profesores e investigadores de la Universidad Central de
Venezuela, que a pesar de todas las adversidades siguen defendiendo a "la casa
que vence las sombras".

Revista Colombiana de Estadística, Edición para autor(es)


20 Jennyfer Combariza, Guillermo Ramírez & Maura Vásquez

Referencias
[1] Goodman, L., & Kruskal, W. (1972). Measures of association for cross classi-
cations, IV: simplication of asymptotic variances. Journal of the american
statistical association, 415-421.

[2] Lauro, L. D. (1984). Non-symmetrical correspondence analysis. Data Analysis


and Informatics, III. Elsevier, North-Holland, Amsterdam, 433-446.

[3] Lavit, C., & Escouer, and & Traissac, P. (1994). The ACT (STATIS method).
Computational Statistics Data Analysis(23), 97-119.

Revista Colombiana de Estadística, Edición para autor(es)

You might also like