0026 AnirvinNarayan Math HL IA

1
O evaluare a metodelor empirice de calcul ale coeficientului

Gini
2
I. Introducere, obiective și justificare
Inegalitatea economică este o problemă persistentă și presantă, având puterea de a stârni
resentimente în rândul populației unei națiuni, de a da naștere la tulburări sociale și economice
și de a provoca argumente puternice cu privire la magnitudinea, impactul și soluțiile potențiale.
Am devenit interesat de problema inegalității globale numai după ce am fost martor la diferite
grade de sărăcie în interiorul și între zonele de reședință care mi-au dominat viața: India
(diferite zone din interior) și Singapore. Este fascinant să vedem că astfel de inegalități drastice
ar putea exista în vecinătatea mică a orașelor, așa cum se vede în figura de mai jos.
Figura 1: India: Sărăcie și bogăție pe aceeași parcelă de pământ
Am fost curios cum a fost calculată o astfel de măsură crucială care a definit diverse politici
guvernamentale, rezistând disparității veniturilor într-o regiune geografică și vastității datelor
necesare pentru un calcul precis în țări precum India. Acest lucru a condus cercetarea mea de
bază în domeniul din care am descoperit prevalența matematicii în generalizarea formulelor
pentru a reprezenta inegalitatea economică. Prin lecțiile din școală, am reușit să recunosc
principiile de bază din spatele unora dintre aceste formule care m-au cercetat în continuare
pentru a investiga. Acest lucru se datorează faptului că, o dorință suplimentară a mea a fost să
aplic studiul profund pe care l-am făcut despre analiza matematică și seriile în școală la ceva
mai tangibil și mai real.
Ca atare, pentru a înțelege procesul de a face matematica referitoare la situațiile socio-politice-

din viața reală fiabilă și demnă de încredere, am decis să mă concentrez asupra inegalității
veniturilor, comparând diferite moduri de calcul al Coeficientului Gini (un standard global), în
special cel al Indiei. Prin intermediul investigației, trebuie să identific motivele lipsei de fiabilitate
(dacă există) și să înțeleg care ar fi o măsură perfectă a inegalității economice.
II. Informații generale

3
Coeficientul Gini este cea mai renumită și utilizată măsură a inegalității și este un standard în
calculele guvernamentale. Este numit după fondatorul său, Corrado Gini, care l-a descoperit în
1912. Valoarea coeficientului Gini al unei regiuni variază între 0 și 1 și se bazează pe venitul
net al rezidenților. Aici, 0 reprezintă egalitatea perfectă cu fiecare rezident care câștigă același
venit și 1 reprezintă inegalitatea perfectă în care 1 persoană câștigă tot venitul (Bourne). Ca
atare, o valoare mai mare a coeficientului Gini ar însemna o disparitate mai mare între
veniturile celor mai bogați și cei mai săraci dintr-o anumită regiune.
Există o serie de moduri diferite de a calcula coeficientul Gini. Acestea includ metode grafice
care implică cumularea diferitelor puncte de date și frecvențe, cum ar fi curba Lorenz și cele
mai teoretice, cum ar fi funcția de distribuție a lui Pareto. Acestea sunt cele 2 metode pe care le
voi analiza și compara între ele.
Fiabilitatea se va baza pe gradul de apropiere a valorilor extrase din fiecare metodă de

valoarea publicată de guvernul indian pentru anul 2013, care a fost G = 0,510 în 2013 (Nair).
Metoda 1: Utilizarea curbei Lorenz: regula trapezului

Cel mai comun mod de vizualizare a coeficientului GINI este prin curba Lorenz generalizată.
Figura 2: Linia echității perfecte și o curbă Lorenz arbitrară

4
În ceea ce privește figura 2, această curbă prezintă procentele unei populații definite aranjate
de la cea mai săracă la cea mai bogată pe axa orizontală ( x ) și procentul cumulat al veniturilor
de care se bucură un segment al populației unei națiuni. De exemplu, chintila 3 arată procentul
cumulat al venitului câștigat sau al bogăției de chintilele 1, 2 și 3 combinate. Deoarece 0% din
populație are 0% din venit, curba trece prin punctul A (0, 0) și din moment ce 100% din
populație se bucură de toate veniturile, curba trece prin punctul B (1,1) așa cum se vede în
diagramă. Ca atare, o curbă Lorenz se întinde de la un colț al pătratului unității la colțul
diagonal opus. Aceasta servește drept referință pentru o distribuție perfect egală a venitului
indicată de curba L0(x) .
10x -
Figura 2 prezintă o curbă Lorenz arbitrară, dar posibilă: L1(x) = . Gradul de
1023
Inegalitatea veniturilor este definită de abaterea curbei Lorenz de la linia inegalității
perfecte. Această abatere (coeficientul Gini) este măsurată prin aria de sub curba Lorenz,
după cum vom observa.
Cu un grafic de curbă Lorenz precum cel de mai sus, putem măsura coeficientul Gini.
Formula generală care trebuie utilizată în investigație este reprezentată de următoarea
integrală:
∫
G = 2 0 1L 0(x)-L(x)dx
Aceasta calculează aria dintre curba inegalității perfecte și o curbă Lorenz împărțită la aria
de sub curba inegalității perfecte. În figura 1, de exemplu, coeficientul Gini de L 1 (x) este
măsurat ca aria LA (aria Lorenz) dintre curbă și L 0 (x) împărțită la aria de sub L 0 (x)
evidențiată în magenta și, respectiv, portocaliu. Deoarece în punctul B coordonatele sunt
(1,1) , aceasta formează un triunghi dreptunghic cu punctul A și (1,0) fiind celelalte două
vârfuri, care este evidențiat într-o nuanță deschisă de portocaliu.
1 1 Prin
urmare, aria de sub curba capitalului propriu este aria de sub un triunghi, care este 2×1×1
=2.
Ca atare, coeficientul Gini poate fi scris în general ca:
G = LA = 2 LA←⎯→ LA = G
1/2
2
unde LA este aria dintre cele două curbe menționate anterior și G este coeficientul Gini al
L 2(x) , cu referire la figura 2. Cu toate acestea, formula generală este dificil de utilizat în
situații reale. Acest lucru se datorează faptului că națiunile colectează date brute de la
populația lor în număr mare, ceea ce poate fi dificil de formulat ca un grafic generalizat. Eu
5
va încerca să facă acest lucru folosind regula trapezului cu un set limitat de date obținute
din datele oficiale ale recensământului din categoriile de venit ale Indiei, așa cum se vede
în tabelul următor.
Proporția Proporția
populației: veniturilor (care se
(convertind % în convertește % în
zecimale) xi zecimale yi
1 0 0
2 0,2 (prima chintilă) 0.061
3 0.153
0,4 (a doua chintilă)
4 0,6 (a treia chintilă) 0.279
5 0.468
0,8 (a patra chintilă)
6 1 (a cincea chintilă) 1.0
Tabelul 1: Tabel de frecvență cumulativă care Figura 3: Parcela de împrăștiere a proporției venitului
prezintă venitul Indiei în chintile chintilă din India
Regula trapezului se referă la o regulă de integrare numerică care estimează aria de sub o
curbă. Ca atare, este o modalitate de estimare a integralelor curbelor prin segregarea ariei
de sub curbă într-un număr de trapezuri, ale căror suprafețe sunt apoi însumate. Pentru a
găsi coeficientul Gini, punctele de date din tabelul 1 pot fi utilizate pentru a formula un
număr de trapezuri pentru a reprezenta o curbă Lorenz estimată, așa cum se vede în
6
figura de mai jos:
Figura 4: Aria de sub o curbă Lorenz estimată, formulată
cu regula trapezului
7
Aici, aria însumată a trapezurilor T1, T2, T3 și T4 și triunghiul TR1 (în roșu) scăzând cu
aria TR0 (în verde) reprezintă aria LA. Aria TR0, triunghiul de sub L0 (x) este 1/2. Prin
urmare, în conformitate cu formula enunțată mai sus, coeficientul Gini estimat folosind
regula trapezului va fi:
G=0,5-(0,01+0,02+0,04+0,07+0,15)=0,21=0,420
0.5 0.5
Această valoare este o mare subestimare a valorii declarate de guvern a coeficientului care
este G = 0,510. Acest lucru sugerează că regula Trapezium are ca rezultat prezența unei
prejudecăți negative pentru calcularea coeficientului Gini, făcându-l o măsură în mare măsură
ineficientă.
8
Metoda 2: Utilizarea curbei Lorenz: regresie polinomială
Pentru a rectifica această limitare și a formula o curbă Lorenz mai precisă, voi încerca să
formulez un graf polinomial folosind regresia polinomială. Aceasta se referă la o metodă de
ajustare a curbei cu ajutorul căreia un set de date este aproximat folosind o funcție
polinomială care ia forma f(x) = C +C x 1 + x 2 ...+ C x n unde C se referă la un set de
C +
coeficienți și nse referă la 01 2 n
la gradul funcției polinomiale. Aici, diferența dintre valoarea măsurată a lui y i și valoarea
reală a lui yi este denumită valoarea reziduală R .
Modelul general pentru regresia polinomială poate fi creat folosind metoda celor mai mici
pătrate. Această metodă încearcă să reducă varianța dintre valori pentru a se potrivi cu
precizie punctelor de date, găsind cea mai mică sumă de reziduuri. Deoarece modelele de
regresie liniară și polinomială sunt adesea nesigure, tinzând să descrie în mod
necorespunzător datele, reziduurile sunt utilizate pentru a examina acuratețea acestora. Un
punct rezidual (e) se referă la diferența dintre valoarea reală a variabilei dependente (y) și
valoarea prezisă de punctele de pe o curbă de regresie (y1) ("Găsirea reziduurilor")).
Acest lucru este prezentat grafic în figura de mai jos:
Aici, suma reziduurilor pătrate este reprezentată de:

9
≡∑⎡⎣y -(C +C x +...+Cn x i

n2
SSR i 0 1 i n
)
⎤⎦ i =1
Pentru a minimiza polinomul, luăm derivate parțiale ale acestei funcții în raport cu fiecare
dintre constante ( C ), unde echivalăm rezidualul cu 0 pentru a găsi cea mai mică valoare a
SR (suma reziduurilor). Derivatele parțiale se referă la derivatele unei funcții cu variabile
multiple, unde toate variabilele, cu excepția C , sunt considerate fixe (Weisstein).
Pentru a găsi curba Lorenz a Indiei, voi limita investigația la regresia pătratică, unde
ecuația generală este:
yi = C 2 x 2 + C 1 + C0 x
n2
unde:
SSR ≡∑⎡⎣y -(C +C x +C 2 x =1
i 0 1 i i2) ⎤⎦i
Derivatele parțiale pentru această funcție pătratică vor fi:
∂ =-2 ⎡y-(C +Cx+Cx )⎤=0

(SSR)
n 2
∂(C ) ∑ ⎣
0 ⎦ i=1 0 1 2
∂C )
( = -2∑⎡⎣y- (C 0 +C1x+C 2 x2) x= ⎤⎦
0
∂ C ) = -2 ⎡⎣y-(C 0 +C 1x+
( ∑ C 2 x 2 )⎤⎦x 2= 0
Împărțind ambele părți la 2 și luând în considerare constantele, aceasta ne conduce la

următoarele ecuații:
n nn
C 0n + C 1∑x i
i=1
+ C 2∑x i 2
i=1
= i=1
∑
y
i ecuația (a)
n n nn
C0∑x i +C 1∑x i 2+C2∑x i 3=∑x i y i

i=1 i=1 i=1 i=1
ecuația (b)
n n nn
C0∑x i 2 i=1
+C 1∑x i 3+C 2∑x i
i=1
4 i=1 i=1
=∑x i 2 y i ecuația (c)
care pot fi exprimate după cum urmează:
∑ ∑ ∑
n n n
yi
xi i=1 C0 i=1
∑
n n xn i 2
n
(1) C1
1
Crearea matricei și reprezentarea sa a celor 3 ecuații de mai sus poate fi observată 0
prin
examinarea multiplicării matricelor din partea dreaptă a (1). Pentru a multiplica două
matrice, trebuie să facem produsul dot al fiecărui rând al primei matrice și singura coloană
a celei de-a doua matrice. Aceasta calculează suma tuturor produselor membrilor potriviți,
după cum se vede mai jos:
>x
i=1 i=1
x
nn n C
∑∑ xi xi 2 o
∑∑
n n n C
∑ ∑
xi 2
xi 3
xi
xi 3
4
,
nn
=C n+C x +C x 2
0 1 i 2i
i=1 i=1
n
= ∑ i =1
yi
După cum se vede, găsirea produsului punct al primului rând al primei matrice și al celei
de-a doua matrice produce ecuația (a). Găsirea produsului punct al următoarelor două
rânduri ale primei matrice va avea ca rezultat ecuația (b) și (c). Prin urmare, matricele pot fi
utilizate pentru a reprezenta ecuațiile (a), (b) și (c).
Putem determina valoarea constantelor înmulțind ambele părți ale lui (1) cu
Prima matrice transpusă:
-1
∑∑ ∑
n n n
n
yi
C0 xi xi i=1
∑ ∑
2
n
i=1 n
i=1
C1
∑
n
∑
n
C2 x i x
i=1 x i2
i
i =1 xi i=1
∑ ∑ ∑
n 3 yi
n i=1
n
n
Pentru a calcula matricea inversă a unei Putem folosi următorul proces.

matrice de 3 × 3,
BC
Să presupunem o matrice generală sub EF , unde fiecare literă corespunde
forma: M = Hi unui
număr real. Matricea inversă va fi:

1
1
Ef
Salut
-1
1 î.Hr cure
nt
Salu Gi
t
î.Hr Ab
Ef de
unde matricea minoră arbitrară: = AD -

BC
și ceea ce este cunoscut sub numele
de determinant:
Df
IMI= -b +c = a(ei - fh)-b(di- fg)+c(dh-eg)
a Gi
O curbă poate fi apoi generată pentru o funcție pătratică prin rezolvarea coeficienților din
matrice. În cazul Indiei, avem informațiile privind proporția veniturilor obținute de fiecare
chintilă a populației prezentată în tabelul 1.
Introducând valorile x i și yi descrise în tabel în ecuația matricei 1, obținem următoarele:
⎡6 3 ⎤ ⎡ 1.961
⎤ —1
C
0 3
2.29
C1
⎥ 2.29 1.8
⎥ 1.6152
C2
⎥ ⎣⎢ 1.8
1.5664 ⎦ ⎥ ⎣⎢
⎦
Pentru a rezolva inversul matricei, trebuie mai întâi să găsim determinantul său, care poate
fi calculat prin însumarea produsului unui cofactor al primului rând și a matricei minore
respective:
2.29 1.8 3 1.8 3 2.29

-3 + 2.29
1.8 1.5664 2.29 1.8
1.5664 2.29
= 6(3.59 - 3.24)- 3(4.70 - 4.12) + 2.29(5.4 - 5.24)
= 0.60347
Reciproca acestui lucru poate fi multiplicată la următoarea matrice pentru a ne da

transpunerea matricei:
1
2
⎡
2.29 1.8 3 1.8 3 2.29
⎢ 1.8 1.5664 2.29 1.5664 2.29 1.8 ⎥⎥
1 ⎢ 3 2.29 6 2.29 63 ⎥
0.60347 1.8 1.5664 2.29 1.5664 2.29 1.8 ⎥
⎥
⎢ 3 2.29 6 2.29 63 ⎥⎥
2.29 1.8 3 1.8 3 2.29 ⎦⎥
⎣⎢ ⎥
⎡ 0.347 -0.577 0.156 ⎤

= 1
-0.577 4.154 -3.93 ⎥
0.60347 ⎥
⎣⎢ 0.156 -3.93 4.74 ⎦⎥
0.490 -0.815 0.220

-0.815 5.869 -5.553
0.220 -5.553 6.697
Putem determina valoarea coeficienților; C! 0,C 1,C înlocuind-o în

2
ecuația originală.
C0 -0.815
C1
0.490
0.220 ⎥⎡ 1.961
-5.553
-0.815 5.869
⎢⎢
C2
0.220 -5.553 ⎥⎥⎥⎣⎢
6.697
C0 -0.04139503523151611
C1
-0.04057415997524583
C2
1.0179444066877004
Acest lucru ne-ar da ecuația pătratică:

y=C2x +C1x+C 0 2
y = 1, 02 x - 0, 041x - 0, 041
2
În ecuația de mai sus, coeficienții au fost reprezentați până la 3 cifre semnificative pentru
ușurința observării. Curba Lorenz rezultată (Lq) în mijlocul punctelor de împrăștiere de
intrare poate fi văzută mai jos:
Din natura curbei, putem spune că nu trece prin punctele de date exultate în tabelul 1.
Acest lucru sugerează că predicția valorilor y pentru toate x pe baza unui set limitat de date
nu descrie cu exactitate proporția veniturilor fiecărui segment al populației pentru India. Din
abaterile punctelor de date (evidențiate prin punctele roșii din figura 6) de la curba de
potrivire cea mai bună, putem formula un tabel pentru a descrie fiecare punct rezidual:
y
x y1 e
0 0.00 -0.04 0.04
0.2 0.06 0.01 0.05
0.4 0.15 0.14 0.01
0.6 0.28 0.35 -0.07
0.8 0.47 0.64 -0.17
1.0 1.0 1.102 -0.102

Tabelul 2: Date privind graficul rezidual pentru tabelul 1
1
4
Suma reziduală a pătratelor, așa cum am explicat mai devreme, este o măsură care indică
gradul în care un model statistic este potrivit pentru un set de date. Valoarea SSR în acest
caz este SSR = 0,048404, ceea ce sugerează că, deși linia pătratică trasează o linie potrivită
pentru cea mai bună potrivire, nu reprezintă perfect datele. Mai semnificativ, nu
îndeplinește cerințele unei curbe Lorenz, și anume trecerea prin origine și prin punctul B
(1,1) . Aceasta a fost o limitare pe care am recunoscut-o numai după calcularea datelor și
desenarea curbei folosind software-ul grafic. Mi-am dat seama că utilizarea regresiei
pătratice ar putea să nu fie o metodă potrivită pentru a schița o curbă Lorenz.
Pentru a combate această problemă, am decis să folosesc regresia polinomială pentru a

defini un polinom de grad mai mare folosind punctele de date din tabelul 1.
Deoarece avem 6 puncte de date, o ecuație polinomială de gradul cinci poate fi construită
pentru a reprezenta curba Lorenz. Am ales să folosesc aici un polinom de gradul cinci cu
ecuația generală de, yi = C 5 x 5 +C 4 x 4 + C 3 x3 + C 2 x2 +C 1 +C0 , deoarece aceasta x
este ordinea maximă a unui polinom care poate fi creat folosind 6 puncte de date, probabil
rezultând cea mai precisă curbă Lorenz posibilă. Ecuația menționată anterior (1) poate fi
scrisă alternativ ca:
⎡⎤ ⎡⎤ ⎥ ⎡⎤ y
⎢ x1 x12 ⎥
⎢ 1
⎥
⎥
X! ⎢ 0 = ⎢ y
1 x 2 ⎢
⎥! ⎥ 2⎥ 2
C
1
⎢⎢!1 ⎥ ⎣ C ⎢ ⎥ ⎢
2
⎥
⎢ x
⎣
⎦
n
⎣⎢ ⎦xn2 ⎦⎥
unde n se referă la numărul de coordonate xși y . Prima matrice din ecuația de mai sus este
cunoscută sub numele de matrice Vandermonde, care este un tip de matrice care apare în
potrivirea polinomială a celor mai mici pătrate (Weisstein). În cazul unui polinom de gradul
al cincilea, folosind valorile din tabelul 1, acesta este reprezentat ca:
⎥ ⎤⎡⎢
⎡⎢
⎢ 00 0 0 ⎥⎡0⎤ ⎢0 ⎥
1 0.2 0.04 0.008

1 ⎥0.061
0.0016 0.00032
C
⎥
⎢⎢1 0.4 0.16 0.064 0.0256 0.01024 0

⎢ 0.153 ⎥ ⎥⎢ C
⎥
⎥
2
0.6 0.36 0.216 0.1296 0.0776
⎢ 0.8 0.64 0.512 0.4096 0.32768 ⎥⎢⎢ ⎢
⎥
1
⎢ C3
⎢1 1 11 1 1
⎥⎢
⎥ 0.468 ⎥ ⎥⎢ C
⎣ ⎢1 ⎥⎣ 1⎦⎥ ⎦⎢ 4 ⎢
⎣⎢ ⎥
-1 ⎡ 0 ⎤
⎤
⎡
C ⎢ ⎥ ⎡1 0 0 ⎤
⎢ ⎥
⎢C⎢C ⎥⎥ ⎢ 1 0.2 0.04 0 0.008 0 0.0016 0.00032 ⎢ 0.061

0 0
1
⎥ ⎥
⎢ ⎥⎢ 1 0.4 0.16 0.064 0.0256 0.01024

⎥ ⎢ 0.153 ⎥
⎢⎢ ⎥⎢⎢ 1 0.6 0.36 0.216 0.1296 0.0776

⎢⎢
⎢ ⎥⎢ ⎥
C 1 0.8 0.64
0.512 0.4096 0.32768
1 1 1
⎥ ⎢ 0.468
⎢ ⎦⎥ ⎣4 ⎢11 1
⎦ ⎣ ⎦ ⎢1
⎣⎢ ⎥ ⎥
1
5
Efectuând pașii menționați mai sus privind inversarea și înmulțirea matricei folosind I.T. (un
calculator), datorită mărimii matricei obținem următoarea matrice pentru constante:
0
C0 0.363692946057596
-1.30244640387085
C1 6.54629149376606
C2 -10.1476054633385
5.54006742737785
C3
C4 Din aceste valori, ecuația pentru curba Lorenz a Indiei
C5 în 2013 va fi:
5.540 x 5 - 10.148 x 4 + 6.546 x 3 - 1.302 x 2 + 0.364x
văzută ca curba Lorenz în diagrama de mai jos, cu diferitele puncte de împrăștiere care
definesc chintilele de venit ale Indiei din tabelul 1.
În comparație cu curba Lorenz derivată din regresia pătratică, se observă că utilizarea unui
polinom de gradul 5 este mai potrivită pentru a calcula curba Lorenz, deoarece trece atât
Figura 7: Curba Lorenz rezultantă din regresia polinomială

prin origine, cât și prin punctul B.
1
6
Coeficientul gini folosind formula integrală conform curbei și datelor noastre este:
∫1
x - (5.540 x5 - 10.148 x 4 + 6.546 x 3 - 1.302 x 2 + 0.364 x)dx
= 0.443
După cum se poate observa, această curbă Lorenz nu are nicio abatere de la punctele de
date, deoarece le interesează pe toate cele 6 văzute în tabelul 1. Deoarece nu există
puncte reziduale, acest lucru sugerează că este o descriere mai exactă a distribuției
veniturilor din India pe care Lq a obținut-o cu regresie polinomială.
Conform datelor oficiale, coeficientul Gini al Indiei în 2013 a fost G = 0,510, care nu este
echivalent cu coeficientul Gini calculat din curba Lorenz prezisă, L . Acest lucru ar putea fi
rezultatul unei game limitate de date utilizate, ceea ce reduce viabilitatea socio-politică a
calculelor și nu estimează cu exactitate coeficientul Gini. În acest caz, regresia polinomială
pentru a schița o curbă Lorenz ar fi mai precisă cu un set mai mare de date.
Metoda 3: Utilizarea formulei Covarianței

Calculul coeficientului Gini folosind interpretări geometrice bazate pe curba Lorenz este
doar unul dintre nenumăratele moduri în care indicele poate fi calculat. O metodă
alternativă este reprezentarea indicelui Gini în termeni de covarianță între nivelurile
veniturilor (proporția populației) și distribuția cumulativă a veniturilor. Cunoscând formula
generală a coeficientului Gini folosind curba Lorenz, o putem rescrie ca:
∫
G = 2 0 1L 0(x)-L(x)dx
=1-2 ∫ 1
L(x)dx
În acest caz, să presupunem că funcția de distribuție cumulativă F(x) dă proporția

populației care are un nivel al venitului mai mic sau egal cu x . Aceasta este o funcție non-
descrescătoare care reprezintă procentul persoanelor cu un venit sub x . Să numim
această proporție p . În plus, să presupunem că F(x) este continuu diferențiabil, astfel încât
există următoarea densitate:
′
F (x)=f(x)
unde pentru o valoare dată a lui x, proporția p poate fi definită alternativ ca:
∫
p= f(x)=F(x)
0
Folosind reprezentarea geometrică a formulei generale menționate mai sus pentru

coeficientul Gini, îl putem reprezenta în termeni de covarianță între nivelurile veniturilor și
1
7
distribuția cumulativă a veniturilor (Lubrano).
G = 1 - 2 L(p)dx
0
∫
. . 2 ... . . ...
unde C ov este covarianța = Cov(x,F(x)) între nivelurile de venit y și
Distribuția cumulativă a μ
același venit F(y) și μ este venitul mediu.
Tabelul de mai jos reprezintă veniturile gospodăriilor pentru fiecare dintre chintilele din
India, ca o extensie a tabelului 1:
Proporția veniturilor Venitul gospodăriei

Proporția populației: (convertind % în (Rs/Annum) yi
(convertind % în zecimale
zecimale)
xi
1 0,2 (prima chintilă) 0.061 19,041

2 0,4 (a doua chintilă) 0.153 29,353
3 0,6 (a treia chintilă) 0.279 41,220
4 0,8 (a patra chintilă) 0.468 65,235
5 1 (a cincea chintilă) 1.0 153,872
Tabelul 3: Tabelul nivelurilor venitului mediu corespunzător fiecărei chintile a populației din India
Folosind aceasta, distribuția cumulată a veniturilor se referă la coordonatele x , în timp ce

nivelurile veniturilor se referă la venitul personal mediu corespunzător unui segment x al
populației. Acest lucru sugerează că coeficientul Gini este proporțional cu covarianța dintre
o variabilă și rangul său. Covarianța a două variabile indică modul în care acestea se
schimbă împreună. Ca atare, oferă o măsură a gradului de corelație între seturi de variabile
aleatoare, cu o valoare pozitivă a covarianței care sugerează o relație pozitivă și o valoare
negativă, o relație inversă.
Înțelegerea ideii de covarianță a fost deosebit de dificilă pentru mine, deoarece statistica a
fost un subiect care nu a fost vizitat în niciuna dintre lecțiile mele de matematică. Ca atare,
spre deosebire de una formulă, am încercat să înțeleg grafic și să explic conceptul.
Folosind datele pereche din tabelul 3, un grafic de împrăștiere este văzut mai jos:
1
8
Figura 8: Reprezentarea grafică a covarianței

În diagramă am desenat toate dreptunghiurile posibile care ar putea exista între cele 5
puncte de date, colorându-le în roșu. Aici, covarianța este reprezentată de cantitatea netă
de roșu din grafic (reflectând covariația medie dintre variabile), care ar fi aproximativ în
jurul mijlocului datorită nuanțelor mai întunecate de roșu acolo. Matematic, acest lucru este
prezentat cu formula:
n
∑ (x i-x)(y i-y)
Cov(x,y)= i =1
n-1
unde: = variabilă independentă
x
y = variabilă dependentă
n = numărul de puncte de date
x = media variabilei independente,
x
y = media variabilei dependente,
y mai întâi x
Folosind valorile din tabelul 3, putem calcula
și y .
5
x= ∑ xi
5 i=1
= = 0.6
∑
3
55
i 308, 721
=61.744,2=μ
y=i=1 = 5
Înlocuind aceste valori în formula de covarianță menționată mai sus, obținem:

5
∑ (x i-x)(y i-y)
Cov(x,y)= i= 1
4
17081.28 + 6478.24 + 0 + 698.16 +

36851.12
=415277.2
1
9
2
Împărțind această valoare la putem calcula valoarea coeficientului Gini folosind μ
Formula covarianței:
G= 2 × 15277.2
61744.2
= 0.495
După cum se poate observa, valoarea G = 0,495 nu este echivalentă cu valoarea declarată
oficial pentru Coeficientul Gini al Indiei în 2013 de G = 0,510, calculată și publicată de
guvernul indian folosind datele complete. Cu doar 5 niveluri generalizate de venit utilizate
pentru a determina covarianța dintre nivelurile veniturilor și proporțiile populației din India,
acest lucru este inevitabil. Folosind un număr limitat de puncte de date, mi-am dat seama
că ignor diverse idiosincrazii care pot fi prezente în distribuția veniturilor fiecărui segment
individual. Acest lucru a dus la o subestimare a coeficientului Gini al Indiei.
Ca și în cazul primei metode, motivul discrepanței constă cel mai probabil în accesul limitat
pe care un civil îl are la datele privind venitul național. Acest lucru creează provocări în
observarea eficacității metodelor distincte de calculare a coeficientului Gini.
Discuții și analize
În această investigație, am încercat să prezint o analiză a trei metode formule pentru a
calcula coeficientul Gini; două bazate pe rapoartele de suprafață sub o curbă Lorenz și
cealaltă bazată pe formule de covarianță.
Metoda de integrare numerică a regulii Trapezium în comparație cu metoda 2 este extrem

de nesigură, deoarece are ca rezultat în mod inevitabil o părtinire pozitivă pentru curba
Lorenz și o părtinire negativă pentru coeficientul gini. Acest lucru se datorează faptului că
metoda creează curba cu segmente de linie dreaptă care s-ar afla deasupra liniilor
parabolice care leagă punctele de date (așa cum se vede în metoda 2). Acest lucru are ca
rezultat o zonă mai mare sub curba Lorenz pentru metoda 1 și, prin urmare, un coeficient
Gini mai mic.
Atunci când se compară metodele 2 și 3, în ciuda faptului că valorile coeficientului Gini

folosind metodele 2 și 3 au fost mai mici decât valoarea definită guvernamental de G =
0,510, metoda 2 pare a fi mai ineficientă în măsurarea exactă a valorii, deoarece valoarea
pe care a prezis-o a avut o discrepanță mai mare față de valoarea reală, decât cea prezisă
de formula covarianței. Un motiv pentru aceasta ar putea fi formularea curbei Lorenz L(x)
dintr-un set de date de dimensiunea n = 6 are ca rezultat o curbă care estimează proporțiile
veniturilor (y) pentru toate segmentele nespecificate / proporțiile populației societății
indiene (x) . În cazul investigației mele, în care punctele de date au fost limitate la datele
privind veniturile din chintile, acest lucru oferă un spațiu mare pentru incertitudini și estimări
inexacte ale disparității veniturilor în cadrul acestor chintile. Pe de altă parte, deoarece
coeficientul Gini bazat pe formula covarianței a fost derivat exclusiv din relația dintre
coordonatele 5 x și y , valoarea sa de G = 0,495 a fost mai aproape de valoarea reală.
2
0
Cu dovezi empirice din investigația mea, coeficientul Gini pare să fie calculat cel mai precis
folosind metoda bazată pe covarianță. Cu toate acestea, cu un acces mai bun la o gamă
largă de proporții de venit și puncte de date, majoritatea guvernelor optează pentru
utilizarea curbei Lorenz pentru a determina coeficientul (Metoda 2). Cea mai distinctă
diferență între metoda 2 și metoda 3 este că curba Lorenz este o modalitate extrem de
contextualizată și directă de a calcula Gini. Acest lucru se datorează faptului că a fost creat
în primul rând pentru a acționa ca un grafic al frecvențelor cumulative ale proporțiilor
veniturilor și proporțiilor populației, care, împreună cu regulile bine definite pentru curbă,
sugerează că a fost destinat exclusiv acestui scop. Pe de altă parte, formula covarianței din
metoda 3 este utilizată ca deducție la coeficientul Gini, indicând în general tipul de relații
dintre două variabile aleatoare. Acest lucru permite metodei 3, pentru a furniza măsurători
pentru diverse alte domenii de interes, cum ar fi magnitudinea corelației pozitive sau
negative dintre oricare două variabile. Această trăsătură a metodei 3 poate fi utilizată
pentru a înțelege mai bine gradul de inegalitate dintr-o țară, prin completarea lacunelor
care pot exista ca urmare a faptului că coeficientul este o considerație simplistă a
distribuției veniturilor.
În general, coeficientul Gini are limitări ca măsură a inegalității. Unul dintre cele mai
importante este că coeficientul nu este aditiv pe diferite segmente ale unei populații și nu
reușește să ignore nuanțele disparității veniturilor care pot exista în cadrul fiecărui
segment. Pentru o mai bună judecată a gradului de inegalitate al unei națiuni, coeficientul
este utilizat împreună cu alți indici ai inegalității veniturilor, cum ar fi indicele Theil, care
este aditiv pe diferite segmente de populație și măsuri. Acesta identifică ponderea
inegalității atribuibile componentelor dintre regiuni și măsoară pe baza formulelor entropiei
generale, atenuând unele dintre limitările coeficientului Gini. /cita/
Ipoteze și limitări
În cadrul anchetei, nu a fost explorată utilizarea coeficientului Gini ca instrument de
comparare a inegalităților în materie de venituri din mai multe țări. Aceasta ar fi putut fi o
posibilă extindere a anchetei, care ar fi putut oferi, de asemenea, o înțelegere mai profundă
a relevanței sale în inegalitatea economică modernă și a fiabilității sale ca atare.
În plus, domeniul de aplicare al cercetării, ca urmare a accesului limitat la datele

recensământului privind proporțiile veniturilor din India, a fost limitat. Cu toate acestea, din
motive de comparație și explorare, rezultatele au fost presupuse a fi concludente și au fost
comparate cu valoarea reală a coeficientului publicat de guvernul indian pentru a determina
fiabilitatea fiecărei metode.
Concluzie
Investigația ne-a permis să determinăm diferitele implicații și calcule ale coeficienților Gini
care pot varia numeric în funcție de nuanțele fiecărei metode. Lucrul cu coeficientul Gini și
cu atât de multe domenii ale matematicii care erau noi pentru mine mi-a permis să apreciez
ideea de inegalitate, împărțirea resurselor monetare și matematica aplicată în zilele
2
1
noastre. Am fost uimit de cât de drastică era diferența dintre chintilele cele mai mici și cele
mai înalte ale populației cu venituri din India, o perspectivă care nu ar fi fost la fel de
revelatoare fără a le deriva matematic prin curbele Lorenz. Analiza cantitativă și empirică a
problemelor sociale, cum ar fi inegalitatea veniturilor, mi-a permis să-mi lărgesc
perspectiva asupra implicațiilor și gravității acestei probleme predominante.
2
2
Bibliografie
Bourne, Murray. "Coeficientul Gini de distribuție a bogăției". Intmathcom RSS. N.p., 24
februarie 2010. Web. 07 martie 2017.
Nair, Remya. FMI avertizează cu privire la creșterea inegalității în India și China. Http://
www.livemint.com/. Livemint, 03 mai 2016. Web. 07 martie 2017.
"Găsirea reziduurilor". Interactiv: Găsirea reziduurilor. CSERD, n.d. Web. 23 martie 2017.
Weisstein, Eric W. "Matricea Vandermonde". De la MathWorld - o resursă web Wolfram.
http://mathworld.wolfram.com/VandermondeMatrix.html. 23 martie 2017.
Lubrano, Michael. "Econometria inegalității și sărăciei." (n.d.): n. pag. Http://
www.vcharite.univ-mrs.fr/PP/lubrano/cours/Lecture-4.pdf. Septembrie 2016. Web.
24 martie
2017.

0026 AnirvinNarayan Math HL IA

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

0026 AnirvinNarayan Math HL IA

Uploaded by

Copyright:

Available Formats

1

O evaluare a metodelor empirice de calcul ale coeficientului

Figura 1: India: Sărăcie și bogăție pe aceeași parcelă de pământ

Ca atare, pentru a înțelege procesul de a face matematica referitoare la situațiile socio-politice-

II. Informații generale

Fiabilitatea se va baza pe gradul de apropiere a valorilor extrase din fiecare metodă de

Metoda 1: Utilizarea curbei Lorenz: regula trapezului

Figura 2: Linia echității perfecte și o curbă Lorenz arbitrară

Ca atare, coeficientul Gini poate fi scris în general ca:

6 1 (a cincea chintilă) 1.0

coeficienți și nse referă la 01 2 n

Acest lucru este prezentat grafic în figura de mai jos:

Aici, suma reziduurilor pătrate este reprezentată de:

≡∑⎡⎣y -(C +C x +...+Cn x i

Derivatele parțiale pentru această funcție pătratică vor fi:

∂ =-2 ⎡y-(C +Cx+Cx )⎤=0

Împărțind ambele părți la 2 și luând în considerare constantele, aceasta ne conduce la

C0∑x i +C 1∑x i 2+C2∑x i 3=∑x i y i

care pot fi exprimate după cum urmează:

Pentru a calcula matricea inversă a unei Putem folosi următorul proces.

număr real. Matricea inversă va fi:

unde matricea minoră arbitrară: = AD -

Introducând valorile x i și yi descrise în tabel în ecuația matricei 1, obținem următoarele:

2.29 1.8 3 1.8 3 2.29

Reciproca acestui lucru poate fi multiplicată la următoarea matrice pentru a ne da

⎡ 0.347 -0.577 0.156 ⎤

0.490 -0.815 0.220

Putem determina valoarea coeficienților; C! 0,C 1,C înlocuind-o în

Acest lucru ne-ar da ecuația pătratică:

0 0.00 -0.04 0.04

0.2 0.06 0.01 0.05

0.4 0.15 0.14 0.01

0.6 0.28 0.35 -0.07

0.8 0.47 0.64 -0.17

1.0 1.0 1.102 -0.102

Pentru a combate această problemă, am decis să folosesc regresia polinomială pentru a

1 0.2 0.04 0.008

⎢⎢1 0.4 0.16 0.064 0.0256 0.01024 0

⎢C⎢C ⎥⎥ ⎢ 1 0.2 0.04 0 0.008 0 0.0016 0.00032 ⎢ 0.061

⎢ ⎥⎢ 1 0.4 0.16 0.064 0.0256 0.01024

⎢⎢ ⎥⎢⎢ 1 0.6 0.36 0.216 0.1296 0.0776

5.540 x 5 - 10.148 x 4 + 6.546 x 3 - 1.302 x 2 + 0.364x

Figura 7: Curba Lorenz rezultantă din regresia polinomială

Metoda 3: Utilizarea formulei Covarianței

În acest caz, să presupunem că funcția de distribuție cumulativă F(x) dă proporția

Folosind reprezentarea geometrică a formulei generale menționate mai sus pentru

Proporția veniturilor Venitul gospodăriei

1 0,2 (prima chintilă) 0.061 19,041

Folosind aceasta, distribuția cumulată a veniturilor se referă la coordonatele x , în timp ce

Figura 8: Reprezentarea grafică a covarianței

Înlocuind aceste valori în formula de covarianță menționată mai sus, obținem:

17081.28 + 6478.24 + 0 + 698.16 +

Metoda de integrare numerică a regulii Trapezium în comparație cu metoda 2 este extrem

Atunci când se compară metodele 2 și 3, în ciuda faptului că valorile coeficientului Gini

În plus, domeniul de aplicare al cercetării, ca urmare a accesului limitat la datele

You might also like