Download as ppt, pdf, or txt
Download as ppt, pdf, or txt
You are on page 1of 54

Statistikë

Nocionet kryesore dhe mostra


Ardiana Gashi

1
Përmbajtja
 Nocionet kryesore statistikore
 Llojet e variablave dhe bazave të të dhënave
 Rëndësia e raportimit të saktë të të dhënave
 Mostra
 Përcaktimi i madhësisë së mostrës dhe teknikat e
mostrimit
 Gabimet e mundshme gjatë mostrimit dhe grumbullimit të
të dhënave
 Sigurimi i cilësisë së të dhënave
 Zhvillimi i një pyetësori dhe krijimi i një databaze

2
Statistika?
“Statistika është mënyrë për të marrë informata nga të
dhënat”

Statistika

Të dhënat Informatat

Të dhënat: Faktet
numerike, të Informacioni: Njohuria e
grumbulluara me qëllim të komunikuar lidhur me një
përfitimit të informacionit fakt të caktuar.

Statistika është mjet për krijimin e njohurive të reja prej numrave

1.3
Shembull: Statistika për shqetësimin e studentëve…

Një student është i shqetësuar për kursin e statistikës, ngase ka ndëgjuar


që kursi është i vështirë. Profesori ju siguron studentëve rezultatet e
provimit të afatit paraprak. Cka mund të nxirret nga numrat në vijim?
Statistika

Të dhënat Informata
Lista e notave nga afati i
Informatë e re për lëndën
fundit.
e statistikës.
95
89
70 P.sh. Mesatarja e klasës.
65 Përqindja e studentëve me
78 notë mbi 75 pikë .
57 Nota më e shpeshtë.
:
1.4
Nëndarjet e statistikës
1. Statistika përshkruese: në formë tabelare, grafike ose
numerike
2. Statistika analitike: analizën e të dhenave për të
kontrolluar/testuar hipoteza për popullacionin=gjykime
statistikore (cfarë mund të jenë defektet në produkt,
gjasat që një parti të fitojë zgjedhjet, etj).

5
Aplikimi i analizes statistikore në biznes dhe
ekonomi
 Tani përdorim i pasur statistikor= kyq për suksesin e
bizneseve
 Në procesin e vendimarrjes informatat kyqe e që janë edhe
ndër kufizimet kryesore dhe që kushtojnë shumë
 Statistika në biznes aplikohet për përshkrimin dhe
analizën e gjendjes në biznese dhe për parashikime.
 Në ekonomi parashikimet e inflacionit, rritjes ekonomike
përfshijnë analizë të gjerë statistikore të treguesve
ekonomik.

6
Konceptet kyqe në statistikë …
Popullacioni: dukuria masive
- popullacioni është grupi i të gjitha informatave me interes
për statisticientin.
Shembull: Të dhëna për gjithë popullsinë e Kosovës.
Mostra
 Mostra është grup të dhënash të nxjerra nga popullacioni.
p.sh. Të dhëna për 1% të popullsisë së Kosovës ose për qytete të
caktuara.

1.7
Konceptet kyqe në statistikë
Parametër
Njësi përshkruese e popullacionit

Statistika (njesi statistikore)


Njësi përshkruese e mostrës.

1.8
Konceptet kyqe në statistikë
Popullacioni
Mostra

Pjesë

Statistika
Parametri
 Popullacioni ka parametra,
 Mostrat kanë statistika.

1.9
Inferenca statistikore …

Popullacioni

Mostra

Inferenca

Statistika
Parametri

Cka mund të nxjerrim për parametrat e popullacionit bazuar në statistikat e mostrës?

1.10
Inferenca statistikore …
 Ne përdorim statistikat për të nxjerrë përfundime për
parametrat.

 Andaj, ne mund të vlerësojmë, parashohim popullacionin


bazuar në të dhënat nga mostra.

 Atëherë ne mund të aplikojmë atë që dijmë për mostrën në


popullacion nga i cili është nxjerrë mostra!

1.11
Të dhënat dhe kuptimet themelore

Elementet janë njësitë për të cilat grumbullohen të dhëna


(për shtete, familje, punëtorë)
Variabla: karakteristikë e përbashkët e elementeve për të
cilat jemi të interesuar (për punëtorë: gjinia, edukimi, paga,
etj.)
Vrojtim: Bashkësia e matjeve të grumbulluara për një
element quhet vrojtim: 12 vrojtime të dhënat për 12
punëtorë.

12
Të dhënat
Të dhëna kuantitative: cmimet, të hyrat, shpenzimet, etj..

Të dhëna kualitative: gjinia, i/e punësuar, martuar, shkolluar, etj.


Llojet e të dhënave dhe informacioneve
Të dhënat janë tri varibla:

Të dhëna në intervale
Të dhëna nominale
Të dhëna rendore/ordinare
Të dhënat intervale…

• Numra real: gjatësia, pesha, cmimet, etj.


• Të referuara si kuantitative/sasiore ose numerike.
Të dhënat nominale…

Vlerat e të dhënave nominale janë kategoritë.


P.sh. Përgjigjiet në pyetjet për statusin martesor kodohen:
I/e pamartuar = 1, Martuar = 2, Ndarë = 3, I ve = 4

Të dhënat nominale quhen kualitative/cilësore ose kategorike.


Të dhënat ordinare…
Në natyrë janë kategorike por vlerat janë të renditura:

P.sh. Sistemi i renditjes së notave:


dobët = 1,
mjaftueshëm = 2,
mirë= 3,
shumë mirë= 4,
shkëlqyeshëm = 5
Llojet e bazave të të dhënave
1. Të dhëna të serive kohore (time series): janë të dhëna të
grumbulluara rregulisht në intervale të rregullta kohore: ditore,
mujore, tremujore, … vjetore.
2. Të dhëna për njësi (cross-section): një ose më shumë të
dhëna të grumbulluara në një moment të caktuar.
3. Të dhëna pooled: Te dhena per 100 familje ne 10 vite por te
familjeve te ndryshme e qe na ofrojne 1,000 familje te vrojtuara.
4. Të dhëna Panel: disa firma anketohen neper disa periudha
kohore, jane firmat e njejta. Keto te dhena na ofrojne mundesine
te analizohet dallimet ne mes te firmave por edhe ndryshimet qe
firmat pesojne me kalimin e kohes.
Të dhënat nëpër seri kohore (time series)
Paga minimale, papunësia dhe të dhena të tjera për Puerto Rico-n
Të dhënat cross section
Të dhëna për vende të ndryshme për një vit: rritja ekonomike;
konsumi qeveritar, pjesëmarrja e të rinjëve në popullsi)
Të dhënat pooled
Të dhëna për cmimin e shtëpive nëpër dy vite (shtëpi të ndryshme)
Të dhënat panel
Të dhëna për statistikat e krimit në dy vite për qytete të njejta
Rëndësia e raportimit të saktë të të
dhënave
Në vitin 1986 eksplodimi i anijes kozmike, ku 7
astronautë kanë vdekur, është shembulli më i mirë i
komunikimit të dobët të numrave. Një natë para se të
nisej u udhëzua të mos nisej anija për shkak të
temperaturave të ulta që do të dëmtonin disa pjesë të
anijes. Grafikët e pregatitur në nxitim u fokusuan në
informata selektive (ndikimi i temperaturave të ulta)
duke harruar informata të rëndësishme. NASA (The
National Aeronautics and Space Administration) nuk
u bind nga argumentet dhe anija u lëshua, dhe
eksplodoi brenda 7 sekondave.

23
Shembull: Arsyet për mosinvestim në
Kosovë
Diskutoni nëse të dhënat e paraqitura
janë analizuar sic duhet!
%

1. Të painformuar nga
institucionet e Kosovës lidhur
me kushtet për biznes 16.3
2. Politika fiskale e
pafavorshme 10
3. Korrupcioni 15
4. Burokracia 1.5
5. Arsye të tjera 12.5
9. Pa përgjigjie 44.6
100
24
Shembull: Arsyet për mosinvestim në Kosovë
% %

1. Të painformuar nga institucionet e


Kosovës lidhur me kushtet për biznes 16.3 30.50

2. Politika fiskale e pafavorshme 10 18.60

3. Korrupcioni 15 26.00

4. Burokracia 1.5 2.80

5. Arsye të tjera 12.5 22.10

9. Pa përgjigjie 44.6
100.00
100
Mostra
Popullacioni
Mostra

Pjesë

Statistika
Parametri
 Popullacioni ka parametra,
 Mostrat kanë statistika.

1.26
Arsyeshmëria për mostër

Jo praktike për të anketuar tërë popullacionin (edhe


pamundësi ngase jo të gjithë pranojnë të
anketohen/intervistohen)

Kufizimet financiare

Kufizimi në kohë

27
Përcaktimi i madhësisë së mostrës
Fazat:
1. Identifikimi i kornizës së mostrës
2. Përcaktimi i madhësisë së mostrës
3. Mostrimi/shpërndarja e mostrës

Henry (1990) propozon që për popullacionin me më pak


se 50 raste duhet të mirret i tërë popullacioni ngase
ndikimi i një rasti të vetëm në analiza ka ndikim më
të madh se sa kur mostra e madhe.

28
Mostra…
 Cili është popullacioni me interes?
 Për cilin grup doni të përgjithësoni rezultatet?
Të gjitha firmat
Nxënësit në shkollën fillore
Femrat e moshës 15-45 vjecare
Përcaktimi i madhësisë së mostrës:
Identifikimi i kornizës së mostrës
Korniza e mostrës është lista e plotë e të gjitha rasteve
në popullacion nga i cili zgjidhet mostra.

Plotësia dhe saktësia e kornizës së mostrës është me


rëndësi kritike.

Lista jo e plotë dhe e pasaktë nënkupton se disa raste


mungojnë kështuqë nuk kanë gjasa për tu përfshi në
mostër= mostra jo-reprezentative.

30
Përcaktimi i madhësisë së mostrës:
Identifikimi i kornizës së mostrës

Familjet: numrat e telefonit (vetëm ata që kanë telefon; të


dhënat mund të jenë të vjetruara).
Individët: e-mail adresat
problemet: ndërrimi i kompanive të internetit; mosha dhe
gjinia (përdoruesit e internetit të rinj dhe më shumë meshkuj
(Heëson et al., 2003))
Të gjithë punëtorët e një firme: mund të gjeneralizojmë
vetëm për punëtorët në atë firmë; nuk mund të themi se
rezultatet do të ishin të njejta në firma të llojit të njejtë.

31
Përcaktimi i madhësisë së mostrës

Sa më e madhe mostra më i vogël gabimi në gjeneralizim


për popullacion.
Mostra reprezentative është kompromis në mes të:
Saktësisë së rezultateve, dhe
Kohës dhe shpenzimeve financiare që investohen në
grumbullimin, kontrollën dhe analizën e të dhënave.

32
Përcaktimi i madhësisë së mostrës
Faktorët në përkufizimin e madhësisë së mostrës:
1. Besueshmërinë që kërkon nga të dhënat e marra – niveli
i sigurisë që karakteristikat e të dhënave të
grumbulluara të pasyrojnë karakteristikat e
popullacionit
2. Gabimi që lejohet-saktësia që kërkon për vlerësimin e
nxjerrë nga mostra
3. Popullacioni nga i cili duhet nxjerrë mostra

33
Përcaktimi i madhësisë së mostrës
95% niveli i besueshmërisë: nëse mostra caktohet 100
herë atëherë 95 nga këto mostra do të përfaqësonin
karakteristikat e popullacionit. Tregon se sa shpesh
përqindja nga popullacini do të gjindej brenda intervalit
të besimit (për 95% z=1.96, përdoret më së shpeshti).
 Intervalit i besimit: tregon precizitetin e vlerësimeve
të popullacionit: nëse 45% e mostrës janë në një
kategori atëherë vlerësimi për popullacionin në atë
këtogori do të jetë 45% plus minus gabimi (p.sh. nëse
mirret 3%), në mes të 42 dhe 48% do të përgjigjeshin në
atë kategori.

34
Jane 50,000 firma ne Kosove
Nivelin e besimit 95% r=1.96
Intervalin e besimit: 3%

35
Përcaktimi i madhësisë së mostrës:
popullacioni=10000; IB=3; NB=95% (r=1.96)
r 2 x(p x q) (p x q) = (50% x 50%)
M1 = -------------
i2

M1=>
r => Niveli i besimit
i => intervali I besimit

Mostra e popullacionit
M1
Mp= --------------------------
M1 – 1
1+ --------------------
36
popullacioni
Përcaktimi i madhësisë së mostrës në
internet
http://ëëë.surveysystem.com/sscalc.htm
 Determine Sample Size
 Confidence Level: 95% 99%
 Confidence Interval:
 Population:

Calculate

37
Llojet e mostrave
 Mostrimi i bazuar në probabilitet,: është mostrim në të
cilin cdo njësi ka gjasa për të qenë pjesë e mostrës

 Mostrimi i pabazuar në probabilitet

38
Llojet e mostrave

Bazuar në probabilitet

E thjeshtë: Përzgjedh personat bazuar në metodën e rastit


Sistematike: Përzgjedh seciln K person
Stratifikuar: Me metodë të rasiti përzgjedh personat në
grupet e përcaktuara
Cluster: Mostra cluster: popullacioni ndahet ne disa
cluster/pjese dhe pastaj disa nga keto perzhgjidhen nga të
cilat nxirret mostra
Mostra e bazuar në probabilitet ofrojnë rezultatet më të
besueshme dhe valide sepse reflektojnë karakteristikat e
popullacionit të cilin e përfaqësojnë

39 09/18/23
Llojet e mostrave

Jo bazuar në probabilitet

 Mostra qëllimore: varësisht nga qëllimi i studimit zgjedh njësitë për ti


vrojtuar
 Snowball (orteku i borës): kur nuk posedojmë kornizë të mostrës, së pari
identifikojmë një vrojtim dhe ai na shpie tek të tjerët (shembulli me
narkoman; kontrabandist)
 Vet-zgjedhje (self selection): vet i anketuari zgjedh të plotësojë një
anketë; anketuesi nuk dërgon anketë tek i anketuari (në faqe interneti
plotësojnë anketa
 Mostra kuota: popullacioni ndahet në disa kategori nga e cila përgjidhet
mostra. Megjithatë në krahasim me mostrën e stratifikuar tek mostra e
bazuar në kuota madhësia e mostrës brenda secilës pjesë nuk reflekton
popullacionin si tërësi.

40 09/18/23
Stratifikimi i mostrës: shembull

Matja e standardit jetësor të familjeve kosovare


Popullacion: 300,000 familje në Kosovë
Mostra: 1,064

Stratifikuar në bazë të: 7 regjioneve; fshat qytet


Gjinor dhe mosha: në bazë të ditëlindjes me datë më të afërt
me ditën e anketimit.
Mospërgjigjia: norma e përgjigjieve

Arsyet për mospërgjigjie:

1. Refuzimi për tu përgjigjur


2. Paaftësia për tu përgjigjur
3. Pamundësia për të gjetur të anketuarit
4. Respondentët gjinden por pamundësia për ti kontaktuar.

Nëse nuk përgjigjen atëherë duhet të gjinden të tjerë të


anketuar, gjë që kushton mjete financiare dhe duhet
pasur kujdes gjatë zëvendësimit që të ruhet përfaqësimi
i popullacionit

42
Disa statistika mbi përgjigjien në anketa:

Në vendet e zhvilluara:
Me postë përgjigjen rreth 50%
Me kontakt direkt 75%

43
Sigurimi i cilësisë së të dhënave: kontrolli sasior dhe
cilësor
Kontrolli sasior: verifikimi i përfshirjes së numrit të njësive
statistikore të dukurisë së vrojtuar dhe të të dhënave.

Kontrolli cilësor: saktësinë e të dhënave: kontrolli logjik,


aritmetik dhe fizik.
SUMMATION NOTATION
 Suppose a sample consists of five books, and the prices of these five books
are
 $175, $80, $165, $97, and $88

 The variable price of a book: x

 Price of the first book = x1 = $175


 Price of the second book = x2 = $80
 Price of the third book = x3 = $165
 Price of the fourth book = x4 = $97
 Price of the fifth book = x5 = $88

Prem Mann, Introductory Statistics, 8/E


Copyright © 2013 John Wiley & Sons. All rights reserved.
SUMMATION NOTATION

 Adding the prices of all five books gives

 x1+x2+x3+x4+x5 = 175+80+165+97+88 = 605

 Σx = x1+x2+x3+x4+x5 = 605

Prem Mann, Introductory Statistics, 8/E


Copyright © 2013 John Wiley & Sons. All rights reserved.
Example 1-1

 Annual salaries (in thousands of dollars) of four workers are 75, 90, 125, and
61, respectively. Find
(a) ∑x (b) (∑x)² (c) ∑x²

Prem Mann, Introductory Statistics, 8/E


Copyright © 2013 John Wiley & Sons. All rights reserved.
Example 1-1: Solution

(a) ∑x = x1 + x2 + x3 + x4
= 75 + 90 + 125 + 61
= 351 = $351,000

(b) Note that (∑x)² is the square of the sum of all x values.
Thus,
(∑x)² = (351)² = 123,201

Prem Mann, Introductory Statistics, 8/E


Copyright © 2013 John Wiley & Sons. All rights reserved.
Example 1-1: Solution

(c) The expression ∑x² is the sum of the squares of x values.


To calculate ∑x² , we first square each of the x values and
then sum these squared values. Thus,

∑x² = (75)² + (90)² + (125)² + (61)²


= 5,625 + 8,100 + 15,625 + 3,721
= 33,071

Prem Mann, Introductory Statistics, 8/E


Copyright © 2013 John Wiley & Sons. All rights reserved.
Example 1-2

The following table lists four pairs of m and f values:

Compute the following:


(a) Σm (b) Σf² (c) Σmf (d) Σm²f

Prem Mann, Introductory Statistics, 8/E


Copyright © 2013 John Wiley & Sons. All rights reserved.
Example 1-2: Solution

We can write
m1 = 12 m2 = 15 m3 = 20 m4 = 30
f1 = 5 f2 = 9 f3 = 10 f4 = 16

(a) (b) (c) (d)

Prem Mann, Introductory Statistics, 8/E


Copyright © 2013 John Wiley & Sons. All rights reserved.
Excel

Prem Mann, Introductory Statistics, 8/E


Copyright © 2013 John Wiley & Sons. All rights reserved.
Excel

Prem Mann, Introductory Statistics, 8/E


Copyright © 2013 John Wiley & Sons. All rights reserved.
Excel

Prem Mann, Introductory Statistics, 8/E


Copyright © 2013 John Wiley & Sons. All rights reserved.

You might also like