Professional Documents
Culture Documents
Articulo Combariza
Articulo Combariza
Articulo Combariza
Abstract
One of the methods proposed for the simultaneous analysis of multiple tables
of data on several occasions is the STATIS, whose purpose is to explore the
similarities between structures called objects, which summarize the informa-
tion of individuals.
The problem raised in this research focuses mainly on the search for a met-
hodology, based on the STATIS, that allows to compare and simultaneo-
usly explain the inuence of a qualitative explanatory variable x as deter-
minant of a categorical variable criterion and on H occasions. To this end,
a Frobenius-type scalar product is dened among the objects, which will
allow to conceptualize a statistical distance between objects, function of the
Goodman-Kruskal τ statistic.
It also presents an application of the proposed technique on a set of real data
consisting of 8 blocks of paired data, where each block contains the measu-
rement of two qualitative variables on 786 individuals, in order to determine
whether the risk rating Credit of the clients of a nancial institution based
on information emanating from the Colombian credit bureaus, has some re-
lation to the risk classication estimated with information from the entity.
Key words : STATIS, τ Goodman-Kruskal, non-symmetric correspondence
analysis, three-way analysis..
Resumen
a Tesista doctoral. E-mail: jennyfer.combariza@gmail.com
b Profesor titular. E-mail: guillermo.ramirez.ucv@gmail.com
c Profesor titular. E-mail: mauralvasquez@gmail.com
1
2 Jennyfer Combariza, Guillermo Ramírez & Maura Vásquez
1. Introduction
Predicción es el término usualmente utilizado para referirse a la estimación de una
variable categórica criterio y , en H ocasiones, como función de una o más varia-
bles independientes x1 , x2 · · · , xp , en un modelo lineal o no lineal, lo que implica
explicar la inuencia que las últimas ejercen como determinantes del comporta-
miento de la primera. En el caso particular de una única variable explicativa x, y
que tanto ésta como la y sean categóricas, D'Ambra y Lauro (1984, [2]) han pro-
puesto el análisis de correspondencias no simétrico (ACNS) del bloque apareado
de información (x, y). Esta técnica, basada en la descomposición del estadístico
τ de Goodman-Kruskal, plantea obtener estimaciones mínimo cuadráticas de y,
proyectando ortogonalmente sobre el espacio generado por las modalidades de x.
Lo anterior consiste esencialmente en proyectar el vector de probabilidades con-
dicionales de y, jadas cada una de las modalidades de x, sobre las direcciones
principales de la matriz de varianzas y covarianzas de las estimaciones de y dado
x.
En este trabajo se propone una adaptación del método STATIS al caso de la aplica-
ción de un ACNS en H oportunidades, a una estructura de datos correspondiente
a la caracterización de los mismos individuos mediante dos variables categóricas
1
, organizada sobre bloques apareados no simétricos (xh , yh ), en H ocasiones.
El problema central de esta investigación es principalmente la búsqueda de una
metodología que permita comparar y explicar simultáneamente la inuencia que
1 En este documento se utiliza, en cada oportunidad, que la estructura de las las esta dada
por la variable x y la de las columnas por la variable y .
Xh = xsih 1≤s≤n,1≤i≤p Yh = ysjh
1≤s≤n,1≤j≤q
donde
• Tabla de contingencias que cruza la variable x (en las las) con la variable y
(en las columnas) Kh = X t
h Yh
FX = 1 Dph
• Matriz de frecuencias de los valores de las variables cualitativas x e y h n
FY = 1 Dqh
h n
kijh
• en la h-ésima ocasión).
Matriz de perles la : Rh = D
−1
K =
ph h ki·h
= P (y = j|x = i,
• Matriz de centraje P:
P = I − Pm (1)
(jj t ) t
donde Pm =
n
, siendo j el vector j = (1, · · · , 1) de dimensión n × 1.
• En el espacio generado por la información de la variable x, para el h-ésimo
instante, se dene la matriz que permite obtener las proyecciones mínimo
cuadráticas de la variable y en el espacio generado por la variable x.
PX = X(X X)
t −1
X
t
(2)
3. Propiedades algebraicas
3.1. Propiedades de las matrices PXh y Pm = n1 Jn
Para ocasión h, se tiene
1. P Xh y Pm son idempotentes.
Ỹh =
t
PX Yh = Xh (Xh Xh )
h
−1 t
Xh Y = Xh D
−1
K = Xh Rh
ph h
(3)
(4)
jk ⊗ P (yh = 1|xh = i) ··· jk ⊗ P (yh = j|xh = i) ··· jk ⊗ P (yh = q|xh = i)
Ỹh =
i·h i·h i·h
.. .. ..
.. ..
. . . . .
jk ⊗ P (yh = 1|xh = p) ··· jk ⊗ P (yh = j|xh = p) ··· jk ⊗ P (yh = q|xh = p)
p·h p·h p·h
p
X ki·h
P (yh = j) = P (yh = j|xh = i) (6)
i=1
n
4. Variabilidad en el STATIS-ACNS2
En esta sección se examinará la noción de variabilidad en el caso particular de una
única variable explicativa x, y que tanto ésta como la y sean categóricas.
t
traza(Ỹch Ỹch ) =
t
traza(Yh (PX − Pm )Yh )
h
(11)
t t
= traza(Yh Px Yh ) − traza(Yh Pm Yh )
h
q p f 2 q
(12)
X X ijh X 2
= n −n f·jh .
j=1 i=1 fi·h j=1
5. Indíce de Goodman-Kruskal
En esta sección presentaremos un índice estadístico τ de Goodman-Kruskal que
nos permite obtener una medida de la intensidad de la fuerza con que la varia-
ble x explica a la y . El cociente entre la variabilidad explicada y la variabilidad
total (ambas divididas entre n), constituye un índice de asociación, similar al de
Goodman - Kruskal, que representa la proporción de variabilidad de la variable
y explicada por la variable x en la h-ésima ocasión y que denotaremos τyh ·xh . La
misma, tiene la siguiente representación:
2
fijh
Pq Pp Pq
V E(h) − f2
j=1 i=1 fi·h j=1 ·jh
= Pq = τy ·x .
V T (h) 1− f2 h h
j=1 ·jh
Para más información sobre este índice por favor consulte [1].
8. Metodología en el STATIS-ACNS2
Seguidamente se describen los distintos elementos requeridos para la aplicación
de la fase de interestructura de la adaptación del STATIS, basado en el producto
escalar de Frobenius.
2. Mh = (Xth Xh )−1 es una matriz denida positiva que dene la métrica uti-
lizada para construir las distancias entre los individuos.
1
3. Dh = √ In siendo V T (h) la variabilidad total de y en el bloque h.
VT(h)
Wh =
t t
Xh Mh Xh Ych = Xh Mh Xh (I − Pm)Yh = (PX − Pm)Yh
h
(13)
5
El objeto Wh resulta ser una matriz de orden (n × n) × (n × q) = n × q .
Estos objetos no son matrices cuadradas como en el STATIS clásico y menos aún
simétricas.
t t
< Wh |Wl >F CN S2 = traza((Dh Wh ) Dl Wl ) = traza(Wh Dh Dl Wl ) (14)
con rango de valores sobre la recta real, tanto positivos como negativos.
El producto escalar Frobenius en el momento h tiene la siguiente expresión:
hWh |Wh iF CN S2 =
t t 2
traza((Dh Wh ) Dh Wh ) = traza(Wh Dh Wh ) (15)
1
= p
t
traza(Ỹch Ỹch ) (16)
V T (h)V T (h)
1
= V E(h) = τy ·x
h h
(17)
V T (h)
1
t t
hWh |Wl iF CN S2 = traza((Dh Wh ) Wl Dl ) = traza(Wh Dh Dl Wl ) = p
t
traza(Ỹch Ỹcl ) (18)
V T (h)V T (l)
Este producto queda denido como función de las covarianzas entre las estimacio-
nes de y en el bloque h y en el bloque l.
2 2
dF CN S2 (Wh , Wl ) = kWh − Wl kF CN S2
1
= q hWh − Wl |Wh − Wl iF CN S2
V T (yh )V T (yl )
(19)
= τy ·x + τy ·x − 2hWh Wl iF CN S2
h h l l
(20)
S = hWi |W1 iF CN S2 ··· hWi |Wi iF CN S2 ··· hWi |WH iF CN S2
.. .. ..
.. ..
. . . . .
hWH |W1 iF CN S2 ··· hWH |Wi iF CN S2 ··· hWH |WH iF CN S2
1
Shl = p
t
traza(Ỹch Ỹcl ) (21)
V T (h)V T (l)
1 t t
= traza(Yh (PX PX − Pm )Yl )
h l
p
V T (h)V T (l)
donde PXh es la matriz de proyección sobre el espacio generado por las moda-
lidades de la x en la h-ésima ocasión y así mismo Ỹh = (Ỹ(1,h) , · · · , Ỹ(q,h) )) e
Ỹl = (Ỹ(1,l) , · · · , Ỹ(q,l) )) son las proyecciones de las y sobre el espacio generado
por las modalidades de las x en las ocasiones h y l.
Un resultado muy importante es que sobre la diagonal principal de la matriz S se
encuentran los índices de asociación de Goodman-Kruskal correspondientes a cada
uno de los H pares de bloques:
1
Shh =
t
traza(Yh (PX − Pm )Yh )
h
(22)
V T (h)
2 t
(23)
kWh kF CN S2 = traza Wh Wh
t P
traza Yh Xh − Pm Yh V E(h)
= = (24)
V T (h) V T (h)
= τy ·x
h h
(25)
α α
SG = tα G , α = 1, 2, · · · , H (26)
. .
0 0 0
1/2
(29)
p
GT = G1 ··· Gh ··· GH 0 ··· th ··· 0
.. ..
. .
0 0 0
p
0 ··· 0 ··· tH
(30)
p
t1 G 1 t2 G2 th Gh tH GH
p p
=
p
··· ···
(31)
α √
γ = tα ghα
..
.
√
tα gHα
H
X H
X
Wcomp = α h Wh = αh Ỹch
h=1 h=1
H
(32)
X
= αh (PX − Pm )Yh
h
h=1
H
2 t t
(34)
X
hWcomp |Wh iF CN S2 = α SS α
h=1
PH
con la restricción: h=1 α2h = 1. El problema reside en la determinación del vector
t
α = (α1 , · · · , αh , · · · , αH ) de coecientes del objeto compromiso; que resulta ser el
t
autovector normalizado de la matriz simétrica SS asociado con su mayor autovalor
2
(t1 ) , en la forma:
G1 G1
α = = . (35)
kG1 kF CN S2 (G1t G1 )1/2
Para una mejor comprensión la gura 2 resume las diferentes etapas del STATIS-
ACNS2.
9. Un ejemplo
En esta sección se ilustra la técnica propuesta, aplicándola sobre un conjunto de
datos reales referidos.
9.1. Contexto
Según publica la Superintendencia Financiera de Colombia en el capítulo 2 de la
6
circular externa básica contable y nanciera 100 de 1995 el riesgo de crédito
6 https://www.supernanciera.gov.co/publicacion
8 https://www.supernanciera.gov.co/publicacion
9 Los clientes compartidos son aquellos que mantienen una operación vigente con la entidad y
que, adicionalmente, presentan al menos una obligación con otra entidad del sector nanciero.
10 La central de riesgo es una empresa privada, independiente de las instituciones nancieras,
de las comerciales y de las gubernamentales, que tiene como n concentrar y proporcionar a sus
empresas aliadas, la información referente al comportamiento que han tenido las personas en
sus créditos
11 Las entidades nancieras utilizan los servicios de las centrales de riesgo porque esta informa-
ción proporciona una innovadora herramienta de apoyo a la toma de decisiones en la evaluación,
prevención del riesgo crediticio y gestión de clientes. Estos servicios, aunque no son gratuitos,
le permiten el acceso de manera sencilla a la más actualizada y completa base de datos de
información de incumplimientos.
Cuadro 1: Matriz S , en amarillo se resalta la diagonal principal donde se ubica el τyh ·xh para cada ocasión.
W1 W2 W3 W4 W5 W6 W7 W8
• Ocasión 5: la calicación de riesgo A esta principalmente asociada a estado 1. Mientras que, la cali-
cación C al estado 3 y las calicaciones D-E al estado 4. La distancia de la calicación de riesgo A al
origen va aumentando, motivado a que el perl la por calicación A se esta diferenciando al centro de
gravedad. Mientras que la distancia de la calicación de riesgo E al origen va disminuyendo (en compa-
ración con las ocasiones anteriores), motivado a que el perl la por calicación E es muy parecido al
centro de gravedad.
• Ocasión 6: la calicación de riesgo A esta principalmente asociada a estado 1. Mientras que, la cali-
cación C al estado 3 y las calicaciones D-E al estado 4. La distancia de la calicación de riesgo A al
origen a aumentado, motivado a que el perl la por calicación A se esta diferenciando signicativa-
mente con respecto al centro de gravedad. Mientras que la distancia de la calicación de riesgo E al
origen va disminuyendo (en comparación con las ocasiones anteriores), motivado a que el perl la por
calicación E es muy parecido al centro de gravedad.
• Ocasión 7: la calicación de riesgo A esta principalmente asociada a estado 1. Mientras que, la cali-
cación C al estado 3 y las calicaciones D-E al estado 4. La distancia de la calicación de riesgo A al
origen a aumentado, motivado a que el perl la por calicación A se esta diferenciando signicativa-
mente con respecto al centro de gravedad. Mientras que la distancia de la calicación de riesgo E al
origen va disminuyendo (en comparación con las ocasiones anteriores), motivado a que el perl la por
calicación E es muy parecido al centro de gravedad.
• Ocasión 8: la calicación de riesgo A esta principalmente asociada a estado 1. Mientras que, la cali-
cación C al estado 3 y las calicaciones D-E al estado 4. La distancia de la calicación de riesgo A al
origen a aumentado, motivado a que el perl la por calicación A se esta diferenciando signicativa-
mente con respecto al centro de gravedad. Mientras que la distancia de la calicación de riesgo E al
origen va disminuyendo (en comparación con las ocasiones anteriores), motivado a que el perl la por
calicación E es muy parecido al centro de gravedad. En esta ocasión 5, y escenario base la población
quedo concentrada principalmente en la combinación Categoría E-Estado 4.
Biplot ocasión 1 , ( 96.57 %) Biplot ocasión 2 , ( 97.67 %) Biplot ocasión 3 , ( 92.52 %) Biplot ocasión 4 , ( 99.47 %)
3
3
2
2
Estado4 Estado4
* *
Estado4 Estado4 E +
* *
1
1
Estado1 Estado1 E
* * +
15.66%
20.38%
Estado1*
7.37%
5.28%
D +
D
E E + Estado1*
+
A+ A+ A+ Estado2 A+
0
0
B +*
Eje 2
Eje 2
D + B + *
Eje 2
Eje 2
Estado2
D +
Estado3 * BEstado2
+ *
−1
−1
−1
−1
Estado2 *
C + Estado3 * Estado3 * Estado3 *
+ C +
−2
−2
−2
−2
C
+ +
B C
−3
−3
−3
−3
−3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3
Biplot ocasión 5 , ( 87.72 %) Biplot ocasión 6 , ( 99.69 %) Biplot ocasión 7 , ( 99.46 %) Biplot ocasión 8 , ( 98.8 %)
3
3
2
A+
Estado1
*
Estado4
* B+
1
Estado4 Estado1
Estado1 * Estado1 Estado4 *
E + * * *
17.94%
17.83%
22.25%
29.52%
E + A+
A+ A+ E +
D + E +Estado2 *
Estado2 * B+
0
Estado2 * B+ Estado4 *
D +
Eje 2
Eje 2
Eje 2
Eje 2
D+
B+ D +
Estado2 *
−1
−1
−1
−1
Estado3 * C+
Estado3 *
Estado3 * Estado3 *
C +
−2
−2
−2
−2
+ +
C C
−3
−3
−3
−3
−3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3
• En el primer cuadrante del plano compromiso se concentran el 30 % de las observaciones. Estas obser-
vaciones se caracterizan principalmente por clientes que iniciaron en combinación Categoría A-Estado
1 (90 %) y que todos terminaron en combinación Categoría E-Estado 4.
• El segundo cuadrante tiene el 34 % de las observaciones, de estas el 100 % inicia en la ocasión 1 con
la combinación Categoría A-Estado 1 y solo el 49 % de los clientes termina en la ocasión 8 con la
combinación Categoría E-Estado 4.
• El tercer cuadrante tiene el 24 % de las observaciones; de estas el 100 % inicia en la ocasión 1 con
la combinación Categoría A-Estado 1 y solo el 34 % de los clientes termina en la ocasión 8 con la
combinación Categoría E-Estado 4.
• Finalmente, en el cuarto cuadrante tiene el 12 % de las observaciones, de estas el 89 % inician en la
ocasión 1 con la combinación Categoría A-Estado 1 y el 89 % de los clientes termina en la ocasión 8 con
la combinación Categoría E-Estado 4.
0.015
0.010
0.005
16.77%
I124
I129
I128
I114
I99
I55
I54
I57
I139
I142
I64
I51
I79
I200
I276
I244
I252
I215
I237
I315
I360
I390
I394
I116
I646
I304
I524
I482
I456 I112
I123
I125
I133
I68
I72
I20
I143
I38
I43
I45
I50
I27
I771
I784
I786
I175
I247
I250
I249
I192
I162
I196
I201
I203
I187
I719
I672
I240
I242
I677
I295
I592
I302
I577
I576
I554
I556
I631
I309
I503
I502
I628
I620
I527
I538
I540
I398
I346
I361
I379
I488
I461
I467
I472
I440
I439
I417 I106
I130
I122
I121
I126
I103
I117
I98
I67
I88
I141
I750
I84
I40
I148
I147
I153
I46
I7
I14
I774
I741
I262
I257
I271
I158
I176
I660
I168
I195
I651
I654
I186
I253
I721
I207 I281
21I279
I181
I239
I643
I234
I218
I689
I294
I293
I593
I596
I595
I599
I598
I300
I570
I636
I582
I316
I632
I508
I565
I552
I530
I523
I399
I355
I357
I334
I383
I613
I479
I481
I484
I483
I487
I451
I441
I429 I62
0.000
I184
I284
I105
I107I108
I59
I119
I73
I77
I66
I90
I39
I41
I145
I745
I744
I81
I47
I49
I33
I32
I778
I777
I776
I775
I740
I261
I268I269
I2
I172
I174
I727
I179
I178
I668
I197
I199
I735
I731
I722
I206
I278
I277
I644
I683
I682
I681
I699
I641
I219
I223
I608
I610
I590
I572
I603
I635
I494
I318
I583
I518
I520
I310
I501
I366
I549
I551
I341
I330
I359
I377
I403
I402
I405
I351
I380
I382
I384
I478
I460
I454
I465I466
I449
I409
I408
I420
I422
I430
I415
I513
I83
I756
I151
I34
I156
I232
I227
I301
I571
I319
I585
I560
I559
I533
I324
I356
I391
I457
I431 I111
I102
I137
I24
I140
I36
I31
I30
I759
I768
I762
I270
I167
I657
I664
I714
I185
I724
I671
I241
I706
I702
I221
I288
I575
I579
I496
I322
I525
I332
I373
I364
I344
I614
I462
I475
I458
I474
I445
I444
I436
I425
I428
I427
I418 I60
I118
I138
I75I76
II16I17
I96
I92
I91
I146
I753
I152
I8
I9
I29
I779
I258
I260
I763
I155
I3
I5
I275
I165
I164
I163
I730
I650
I653
I160
I202
I282
I663
I666
I665
I673
I182
I238
I231
I696
I698
I217
I688
I692
I691
I690
I220
I228
I611
I606
I574
I580
I587
I586
I493
I519
I498
I567
I618
I622
I625
I532
I534
I537
I331
I358
I371
I544
I376
I350
I336
I338
I385
I455
I464
I476
I443
I435
I434
I437
I414 I782
I747
I767
I769
I764
I720
I723
I222
I634
I562
I348
I135
I131
I781
I749
I755
I754
I772
I760
I738
I656
I652
I713
I718
I717
I716
I715
I725
I670
I678
I645
I684
I705
I695
I589
I296
I604
I495
I317
I630
I511
I627
I619
I621
I616
I433
I65
I93I381
I601
I23
I53
I166
I605
I311
I548
I491
I469
I448
I450
I426
I372 I144I536
I339 I110
I127
I13
I742
I259
I761
I272
I190
I734
I704
I700
I235
I305
I584
I521
I638
I314
I313
I367
I626
I531
I335
I432I393I400 I573
I74I321
I694
I541
I386I679 I210 I685
I104
I100
I56
I71
I70
I52
I19
I15
I28
I770
I743
I266
I739
I169
I194
I245
I251
I255
I254
I173
I280
I726
I649
I648
I180
I285
I669
I204
I209
I233
I710
I292
I291
I290
I289
I297
I299
I306
I633
I499
I566
I553
I312
I505
I504
I617
I333
I365
I363
I545
I396
I395
I375
I326
I340
I388
I406
I477
I442
I410
I424
I419
I697
I529 I387I446
I216 I459
I564
I134
I780
I191 I748
I766
I737
I733
I680
I707
I22
I236
I558
I412
I224 I470
I132
I87
I86
I170
I658
I667
I183
I736
I712
I214
I686
I320
I526
I370
I550
I539
I506
I343
I345
I347
I349
I354
I468 I547 I500
I528
I389
I101
I136
I89
I80
I154
I150
I765
I283
I198
I189
I732
I243
I208
I213
I212
I709
I225
I287
I298
I516
I535
I368
I329
I362
I378
I325
I615
I480 I44
I48
I6
I265
I267
I274
I193
I661
I205
I701
I594
I497
I629
I542
I561
I353
I463
I486
I485
I473
I423 I783
I113
I82I248
I752
I1 I85
I676
I687
I226
I607
I522
I546
I489
I452
I411I416
I352 I640 I773
I263
I256
I161
I655
I624
I623
I4
I729
I647
I35I492 I95
I581
Eje 2
I323 I751
I149
I563
I514
I637 I453
I188 I555
I659
I578
I557
I507
I509
I392 I447 I785
I758
I757
I159
I662
I711
I675
I642
I591
I597
I515
I308
I397
I413
I746
I600
I543
I374 I569 I37
I273
I177
I211
I674
I708
I517
I510
I342
I230 I69 I25
I728
I328
I264
I307
I512I703
I246 I58
I327
−0.005
I115 I171 I12 I693
I602 I109
I303
I42
I438
I61
I10 I97
I401
I471
I120
I421
I18 I588
I568 I11
I157
I369
I404
I26
I78
I94
I337
−0.010
I612
I609
I490
I286 I229
−0.015
I639
I407 I63
Eje 1 71.24%
11. Acknowledgements
Agradezco a todos los profesores e investigadores de la Universidad Central de
Venezuela, que a pesar de todas las adversidades siguen defendiendo a "la casa
que vence las sombras".
Referencias
[1] Goodman, L., & Kruskal, W. (1972). Measures of association for cross classi-
cations, IV: simplication of asymptotic variances. Journal of the american
statistical association, 415-421.
[3] Lavit, C., & Escouer, and & Traissac, P. (1994). The ACT (STATIS method).
Computational Statistics Data Analysis(23), 97-119.