Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 11

Fsiqologebi8

1. კორელაციური და რეგრესიული ანალიზი

ფსიქოლოგიაში, როგორც მრავალ სხვა დარგში ხშირად საჭირო ხდება ორ ცვლადს შორის
დამოკიდებულების შესწავლა.

მრავალი პრობლემის კვლევისას, საქმე გვაქვს ისეთ მონაცემებთან, რომლებიც წარმოადგენს


ორი ( ან რამოდენიმე ) ცვლადის ერთდროულად დაკვირვებულ მნიშვნელობებს და
მკვლევარს აინტერესებს არის თუ არა კავშირი ამ ცვლადებს შორის.

კავშირი ორ ცვლადს შორის შეიძლება იყოს დეტერმინისტული (ზუსტი). მაგალითად,


თუ ჩვენ ვქირაობთ მანქანას, ქირის ფასი შეიძლება იყოს 150ლარი +0.50 ლარი ყოველ
გავლილ კილომეტრზე . მაშინ, თუ გავლილი იქნება 100კმ, გადავიხდით 150 + 100(0.5) = 200
ლარს, 1000კმ გავლისა კი გადავიხდით 650 ლარს.

ხშირად კავშირი ორ X და Y ცვლადებს შორის არსებობს, მაგრამ არ არის ზუსტი.


მაგალითად, თუ x ბავშვის ასაკია და y ბავშვის სიმაღლეა, x-ის დასახელებით ცალსახად ვერ
დავადგენთ y-ს. ვიცით, რომ ასაკთან ერთად არსებობს y-ის ზრდის ტენდენცია და
გვებადება კითხვა „ საკმარისად დასაბუთებულია, რომ ასაკი შეიძლება გამოვიყენოთ
სიმაღლის პროგნოზისთვის“, ან რამდენად ზუსტი იქნება ეს პროგნოზი”, თუ გამოვიყენებთ
ასაკს სიმაღლის წინასწარმეტყველებისთვის.

როცა სიდიდეებს შორის არ არის ზუსტი კავშირი, ფიქსირებული x-თვის მეორე ცვლადი
შემთხვევითი სიდიდეა. მაგალითად, თუ ჩვენ გვინდა გამოვიკვლიოთ რამდენ სიტყვას
ფლობს 5 წლის ბავშვი, ბავშვის შერჩევამდე ვოკალიზაციის სიდიდე Y შემთხვევითია. თუ
კონკრეტულ 5 წლის ბავშვს გამოვიკვლევთ და მივიღეთ, რომ მისი სიტყვების მარაგი 200
სიტყვაა, y = 200 იქნება Y შემთხვევითი სიდიდის დაკვირვებული მნიშვნელობა. ამავე დროს
სხვადასხვა 5 წლის ბავშვის სიტყვების დიაპაზონი ძალიან დიდია, მერყეობს რამოდენიმე
სიტყვიდან რამოდენიმე ასეულამდე.

ორ ცვლადს შორის არსებული სტატისტიკური კავშირის დადგენაში გვეხმარება გაბნევის


დიაგრამა, რომელიც წარმოადგენს დაკვირვებულ მონაცემთა მნიშვნელობების დალაგებული
წყვილების გრაფიქს.

მაგალითი 1. დაკავშირებულია თუ არა სტატისტიკაში მიღებული ქულა მათემატიკაში


მიღებულ ქულასთან?

ცდის პირი 1 2 3 4 5 6 7 8 9 10 11 12 13 14

მათემატიკაში მიღებული ქულა ( x ) 4 8 8 10 13 16 20 23 28 30 33 35 38 42

სტატისტიკაში მიღებული ქულა ( y ) 8 10 32 35 37 47 47 55 60 60 80 70 70 75

ცხრილში მოყვანილია 14 სტუდენტის დაწყვილებული მონაცემები.


მონაცემების დათვალიერებით, შევამჩნევთ, რომ რაც უფრო მაღალია მათემატიკაში
მიღებული ქულა მით უფრო მაღალია სტატისტიკის ქულა. მაგრამ ეს დამოკიდებულება არ
არის სრულყოფილი, მაგალითად მე-14 პირს აქვს ყველაზე მაღალი მათემატიკის ქულა 42 ,
მაგრამ მე-11 პირზე დაბალი სტატისტიკის ქულა.

წყვილების გრაფიკს, რომელიც გვეხმარება ორი ცვლადის შორის არსებული კავშირის


დადგენაში ეწოდება გაბნევის დიაგრამა.

გაბნევის დიაგრამა წარმოადგენს მონაცემთა მნიშვნელობების დალაგებული წყვილების


გრაფიკს, რომელიც გვეხმარება ორი ცვლადის შორის არსებული კავშირის დადგენაში.

სურათი 1

90 Chart Title

80

70

60

50

40

30

20

10

0
0 5 10 15 20 25 30 35 40 45

x და y ცვლადებს შორის შესაძლებელია არსებობდეს რამდენიმე განსხვავებული


ტიპის დამოკიდებულება:

1. დადებითი წრფივი კავშირი გვაქვს იმ შემთხვევაში, როდესაც წერტილები


გაბნევის დიაგრამაზე კონცენტრირებულია აღმავალი სწორი ხაზის ირგვლივ
(როგორც 1 სურათზე). ასეთი კავშირი გვაქვს მაშინ, როდესაც x სიდიდის
ზრდასთან ერთად იზრდება y სიდიდეც.

2. უარყოფითი წრფივი კავშირი არსებობს მაშინ, როდესაც წერტილები


თავმოყრილია დაღმავალი სწორი ხაზის ირგვლივ.
3. არაწრფივი კავშირი გვაქვს მაშინ, როდესაც წერტილები ლაგდება არაწრფივი
მრუდის ირგვლივ.

3. არ არის კავშირი გვაქვს იმ შემთხვევაში, როდესაც წერტილები უწესრიგოდაა


მიმოფანტული.

როცა ხელთ გვაქვს დაწყვილებული მონაწემები და აგებულია მათი გაბნევის დიაგრამა


ბუნებრივია ისმის კითხვა“ რა ტიპისაა ეს კავშირი და რამდენად ძლიერია ის ?“ სიტყვა
„კორელაცია“ ( ურთიერთობა, ინგლისურად Covary) ნიშნავს, რომ ცვლადებს შორის
არსებობს არა მიზეზობრივი კავშირი, არამედ სტატისტიკური წრფივი კავშირი, როცა ერთი
ცვლადის მნიშვნელობების ზრდა იწვევს მეორე ცვლადის მნიშვნელობების შეთანხმებულ
ზრდას ან კლებას.

კორელაციის კოეფიციენტი (correlation coefficient) - სტატისტიკა რომელიც ზომავს


ცვლადებს შორის წრფივი დამოკიდებულების ხარისხს და ამ კავშირის მიმართულებას.
სტატისტიკაში ცნობოლია ბევრნაირი კორელაციის კოეფიციენტი. ყველაზე ცნობილია
პირსონის კორელაციის კოეფიციენტი.

პირსონის კორელაციის კოეფიციენტი.

პირსონის კორელაციის კოეფიციენტი ზომავს რაოდენობრივი ცვლადებს შორის წრფივი


კავშირის ხარისხს და ამ კავშირის მიმართულებას. ბრიტანელმა სტატისტიკოსმა კარლ
პირსონმა ( 1857-1936) შექმნა ამ კოეფიციენტის გამოსათვლელი ფორმულა. პირსონის
კორელაციის კოეფიციენტი r -ით აღინიშნება და მოიცემა შემდეგი თანაფარდობით:

r=
∑ ( X− X̄ )(Y−Ȳ )
√∑ ( X− X̄ )2 ∑ (Y −Ȳ )2 ,
ჩამოვთვალოთ კორელაციის კოეფიციენტის თვისებები:

1 -1 ≤ r ≤ 1

2. r=1 ან r=-1 მაშინ და მხოლოდ მაშინ, როცა x და y ცვლადებს შორის არსებობს


ზუსტი წრფივი კავშირი, ანუ მოიძებნება ისეთი a და b მუდმივები, რომ y=a +bx.
წერტილები გაბნევის დიაგრამაზე ზუსტად განლაგდება რაიმე წრფეზე.
ამასთანავე, თუ a >0, მაშინ r=1 და თუ a<0, მაშინ r=-1.

3. რაც უფრო კონცენტრირებულია მონაცემები რაიმე წრფის მიდამოში, მით უფრო


დიდია კორელაციის კოეფიციენტი.

ტერმინებს „სუსტი“, „ საშულო“, „ძლიერი“, „ზუსტი“ ხმარობენ წრფივი კავშირის


ხარისხის დახასიათებლად: ითვლება, რომ

. კავშირი სუსტია თუ | r | <0.3

. კავშირი საშუალოა თუ 0.3< | r | <0.7

. კავშირი ძლიერია თუ | r | > 0,7

. კავშირი ზუსტია თუ r =1 ან r =-1

r-ის მცირე სიდიდე ყოველთვის არ ნიშნავს, რომ ცვლადებს შორის არ არის.


კავშირი. ცვლადებს შორის შეიძლება არ იყოს წრფივი კავშირი, მაგრამ, იყოს
ზუსტი არაწრფივი კავშირი.

პირსონის კოეფიციენტის გამოთვლა არ ღირს, თუ ცვლადებს შორის არ არის


მოსალოდნელი წრფივი კავშირი, ან როცა ცვლადები გაზომილი არიან
სახელდების სკალაზე ან რიგის სკალაზე.

გამოვთვალოთ კორელაციის კოეფიციენტი 1 მაგალითის მონაცემებისთვის.

ცხრილი 1

x y x− x̄ y− ȳ ( x− x̄)( y− ȳ ) 2
( x− x̄)
2
( y− ȳ )
4 8 -18 -41 738 324 1681

8 10 -14 -39 546 196 1521

8 32 -14 -17 238 196 289

10 35 -12 -14 168 144 196

13 37 -9 -12 108 81 144

16 47 -6 -2 12 36 4

20 47 -2 -2 4 4 4

23 55 1 6 6 1 36

28 60 6 11 66 36 121

30 60 8 11 88 64 121
33 80 11 31 341 121 961

35 70 13 21 273 169 441

38 70 16 21 336 256 441

42 75 20 26 520 400 676

22 49 3444 2028 6636

x̄=22 { ,̄ ȳ=49, ∑ ( x− x̄)( y−⃗y )=3444 , ∑ ( x− x̄) =2028 , ∑ ( y−⃗y ) =6636¿


2 2


r = 3444 / 2028 ⊗6636=0.939 . ცვლადებს შორის აღინიშნება ძლიერი
დადებითი კავშირი.

სპირმენინის რანგული კორელაციის კოეფიციენტი

თუ მონაცემები მიღებულია რიგის სკალაზე, ან გაზომილია ინტერვალების


სკალაზე, მაგრამ გაბნევის დიაგრამა გვიჩვენებს, რომ მათ შორის კავშირი არ არის
წრფივი, ცვლადებს შორის კავშირის დასადგენად უნდა გამოვიყენოთ რანგული
კორელაციის კოეფიციენტი.

არსებობს ძალიან ბევრი რანგული კორელაციის კოეფიციენტი. ჩვენ განვიხილავთ


სპირმენის რანგული კორელაციის კოეფიციენტს, რომელიც მოიცემა ფორმულით:

6∑ D
2
r s =1−
N ( N 2 −1) ,

არის თუ არა სტატისტიკური კავშირი ასაკსა და სტიმულზე რეაქციის დროს (წმ)


შორის?

ცხრილი 2

ცდის პირი ასაკი რეაქციის რანგი x რანგი y სხვაობა D D2


დრო

x y rx ry r x−r y
1 18 0.75 1 2 -1 1

2 20 1.0 3 5 -2 4

3 23 1.05 6 6 0 0

4 19 0.5 2 1 1 1

5 27 0.9 9 4 5 25
6 32 1.1 10 7 3 9

7 21 1.5 4 8 -4 16

8 26 0.8 8 3 5 25

9 24 1.8 7 10 -3 9

10 22 1.6 5 9 -4 16

106

სხვაობა D წარმოადგენს სხვაობას X მონაცების რანგებს და Y მონცემების რანგებს


შორის.

6 ∑ D2
r s =1−
N ( N 2 −1) ,= 1- 6×106/(1000-10)= 1- 636/990= 0.35

ასაკსა და რეაქციის დროის რანგებს შორის არის საშუალო კავშირი.

ცვლადებს შორის მიზეზობრივი კავშირის დასადგენად, სტატისტიკური კავშირის


დადგენის შემდეგ, საჭიროა დამატებითი კვლევის ჩატარება.

რეგრესია

წირს,რომელიც აღწერს კავშირს ცვლადების მნიშვნელობებს შორის მისადაგების წირი


ეწოდება. ამ წირის პოვნის საკითხებს სწავლობს სტატისტიკის ნაწილი, რომელსაც
რეგრესიული ანალიზი ეწოდება. წრფივი რეგრესია - ტექნიკა, რომელიც გვაძლებს
საშუალებას ფორმულის სახით გამოვსახოთოთ კავშირი x და y ცვლადებს შორის.
მოითხოვება, რომ ორივე ცვლადი იყოს რაოდენობრივი .

რეგრესიის წრფის განტოლება მოიცემა ფორმულით:

y=a+ bx, სადაც a, b - მუდმივი რიცხვებია.

რეგრესიის წრფის ასაგებად პირველ რიგში უნდა ავაგოთ გაბნევის დიაგრამა.

რეგრესიის წრფის აგება ღირს იმ შემთხვევაში თუ წერტილები გაბნევის დიაგრამაზე


კონცეტრირებულია რომელიმე წრფის მიდამოში.

ჩვენ შეგვიძლია ავაგოთ უამრავი ასეთი წრფე. რომელია საუკეთესო?

მაგალითი 2.

ვთქვათ შეგროვილი გვაქვს შემდეგი მონაცემები:

X 1 2 3 4
Y 1.5 3.4 3.7 5.4

განვიხილოთ სამი წრფე: A: y = 0.5 + 1.2x B: y = 1 + x და C: y = 3.5

გამოვთვალოთ რას უდრის y - ბის მნიშვნელობები, თუ ჩავსვამთ x - ბის მნიშვნელობებს ამ


სამ განტოლებაში:

X 1 2 3 4

A 1.7 2.9 4.1 5.3

B 2 3 4 5

C 3.5 3.5 3.5 3.5

გამოვთვალოთ რას უდრის სხვაობა დაკვირვებულ და გამოთვლილ Y შორის სამივე


წრფისათვის. ამ სხვაობას ეწოდება ნაშთი ან შეცდომა.

ნაშთი ( შეცდომა) შეცდომის კვადრატი

X Y A B C A B C

1 1.5 0.2 0.5 - 2.0 0.04 0.25 4.00

2 3.4 -0.5 -0.4 -0.1 0.25 0.16 0.01

3 3.7 0.4 0.3 0.2 0.16 0.09 0.04

4 5.4 -0.1 -0.4 1.9 0.04 0.16 3.61

ჯამი 0.0 0.0 0.0 0.49 0.66 7.66

საუკეთესო წრფისათვის ამ ნაშთების კვადრატების ჯამი უნდა იყოს მინიმალური.


წრფეს, რომლისთვის ნაშთების კვადრატების ჯამი მინიმალურია, უმცირეს
კვადრატთა მეთოდით დადგენილი რეგრესიის წრფე ეწოდება

ამ წრფის a და b კოეფიციენტები გამოითვლება ფორმულებით:

b=
∑ ( X− X̄ )(Y −Ȳ )
∑ ( X − X̄ )2 , a=Ȳ −b X̄ .

ავაგოთ რეგრესიის წრფე 1 მაგალითის მონაცემებზე დაყრდნობით.

b= 3444/2028=1.7 a= 49-1.7× 22=11,64

მაშინ რეგრესიის წრფის განტოლება იქნება: y=1.7x+11.64

რას გვიჩვენებს b კოეფიციენტი ?

b - გვიჩვენებს რამდენი ერთეულით შეიცვლება Y, თუ X შევცლით ერთი ერთეულით.


განვიხილოთ განტოლება y=1.7x+11.64. ვთქვათ x = 10, მაშინ y 1 = 28.64, შევცვალოთ X ერთი
ერთეულით ანუ ავიღოთ X = 10 + 1 = 11, მაშინ y 2 = 30.34. y 2 - y 1 = 30.34 – 28.64 = 1.7 = b.

რას გვიჩვენებს a კოეფიციენტი?

a გვიჩვენებს Y-ის საპროგნოზო მნიშვნელობას როცა X = 0.

სურათი 2

35 Chart Title

30

25

20

15

10

0
0 2 4 6 8 10 12

წინასწარმეტყველება

რეგრესიის წრფე შეიძლება გამოყენებულ იქნას წინასწარმეტყველებისთვის. მაგალითად,


გავაკეთოთ პროგნოზი : რას შეიძლება უდრიდეს სტატისტიკის ქულა, თუ მათემატიკაში
მიღებულია ქულა 25 .

განტოლებაში y= 1.7x+ 11,64 ჩავსვათ x=25, მივიღებთ y=54

პროგნოზის გასაკეთებლად უნდა გვახსოვდეს:

1. თუ X დაY ცვლადები კორელაციაში არ არიან, X-ის ცოდნა არ გვაძლევს ინფორმაციას


Y-ის შესახებ. Y-ის საუკეთესო პროგნოზი არის დაკვირვებული Y-ბის საშუალო.
2. პროგნოზის გაკეთება არ შეიძლება იმ მნიშვნელობისთვის, რომლებიც X შერჩევის
საზღვრებს მიღმა არის. აქ კავშირი შეიძლება იყოს შეცვლილი, მაგალითად, არაწრფივი .

საპროგნოზო წრფე ორ მიზანს ემსახურება:


'
(1) დამოუკიდებელი ცვლადის კონკრეტული x მნიშვნელობისთვის გვაძლევს

Y -ის მოსალოდნელი სიდიდის შეფასებას;


'
(2) გვაძლევს Y-ის მნიშვნელობის საპროგნოზო მნიშვნელობას, როცა x ახალი
დაკვირვებაა .

y 1, y 2 ,... y n საპროგნოზო მნიშვნელობები მიიღება x 1 ,x 2 ,... x n მნიშვნელობების Y =a+bx -ში

(რეგრესიის წრფის შეფასებაში) ჩასმით:


y 1 =a+bx 1 , y 2 =a+bx 2 , .. . , y n=a+bx n .

e 1=Y 1−Y 1 ,...,e n=Y n −Y n სიდიდიებს ეწოდება ნაშთები (residuals).

ნაშთი არის სხვაობა დაკვირვებულ და მოდელით გამოთვლილ საპროგნოზო მნიშვნელობას


შორის.

დაკვირვებული მონაცემებით რეგრესიის საუკეთესო წრფის განსასაზღვრავად გამოიყენება


უმცირეს კვადრატთა პრინციპი. იგი მდგომარეობს კოეფიციენტების ისეთ მნიშვნელობათა
განსაზღვრაში, რომლებიც უზრუნველყოფენ დაკვირვებული წერტილების წრფისგან
გადახრათა კვადრატების ჯამის მინიმალურობას.

მაგალითი 3. არის თუ არა კავშირი გაბრაზების დონისა (დამოუკიდებელი ცვლადი ) და


აგრესიის დონის ( დამოკიდებული ცვლადი ) შორის?

x 12 30 36 40 45 57 62 67 71 78 93 94 100 105

y 3.3 3.2 3.4 3.0 2.8 2.9 2.7 2.6 2.5 2.6 2.2 2.0 2/3 2.1

MINITAB პროგრამით დამუშავებული მონაცემების ამონაბეჭდი:

Predictor Coef Stdev t-ratio

Constant 3.62090 0.09949 36.39

Angry -0.01471 0.001436 -10.24

დაწერეთ რეგრესიის განტოლება: აგრესია = 3.62 – 0.01471გაბრაზება. y = 3.62 – 0.01x

მაგალითი 4. თუ გაბნევის დიაგრამა გვიჩვენებს, რომ კავშირი წრფივია, საჭიროა


რეგრესიის წრფის აგება, ბრძანება: regress fat waist.
--------------------------------------------------------------------------------------

regress fat waist


fat Coef. Std.Err. t p> |t| ( 95% Conf. Interval )

waist 2.22152 0.2728 8.14 0.000 1.648412 2.794628

cons -62.55732 10.15767 -6.16 0.000 -83.8978 -41.2168

ა. უმცირეს კვადრატთა მეთოდით მიღებულ რეგრესიის წრფის შეფასებას აქვს სახე:

სიმსუქნე = - 62.56 + 2.22 (წელის ზომა ) a = - 62.55, b = 2.22

იგულისხმება, რომ მოდელის პროგნოზით, წელის ზომის ერთი სანტიმეტრით

გაზრდა იწვევს 2.22%-ით სიმსუქნის ზრდას.

ორ ცვლადს შორის სტატისტიკური კავშირის არსებობა არ ნიშნავს, რომ ამ ცვლადებს შორის


არსებობს მიზეზობრივი კავშირი.

მიზეზობრივ კავშირს, როგორც წესი, ახასიათებს ასიმეტრია, როცა მხოლოდ ერთი ცვლადი
ახდენს გავლენას მეორე ცვლადზე.

ორ ცვლადს შორის მიზეზობრივი კავშირს სიმბოლურად აღნიშნავენ ისრის მეშვეობით:

X → Y

ამ შემთხვევაში X დამოუკიდებელი ცვლადი ( მიზეზი ) ახდენს გავლენას Y დამოკიდებელ


ცვლადზე ( შედეგზე) და არა პირიქით.

იმისათვის, რომ X და Y ცვლადებს შორის იყოს მიზეზობრივი კავშირი უნდა


სრულდებოდეს სამი პირობა:

1. სტატისტიკური კავშირი;
2. მიმდევრობა დროში;
3. სხვა ფაქტორების გავლენის არ არსებობა.
ცალცალკე გავარჩიოთ ეს სამი პირობა:

1. სტატისტიკური კავშირის დადგენა ხდება t ან F კრიტერიუმებით.

ორ ცვლადს შორის სტატისტიკური კავშირის არსებობა არ ნიშნავს, რომ ამ ცვლადებს შორის


არსებობს მიზეზობრივი კავშირი.

2. ორ ცვლადს შორის არსებობს მიმდევრობა დროში, როცა მიზეზი წინ უსწრებს შედეგს
და არა პირიქით. დროში მიმდევრობის დადგენა ხდება ცდით, მაგალითად, წამლის
მიღების შემდეგ პაციენტის განკურნება, ორი ექვივალენტური ჯგუფის ( პლაცებო,
წამალი ) შედარების გზით. განკურნება ვლინდება წამლის მიღების შედეგად და
ამიტომ დროში მიმდევრობა დაცულია.
3. მესამე პირობის დადგენა ყველაზე რთულია. მაგალითად, ბევრ კვლევაზე
დაყრდნობით ყავის დალევასა და პულსის აჩქარებას შორის სრულდებოდა პირველი
და მეორე პირობა, მაგრამ, როცა გაითვალისწინეს სხვა ფაქტორები, როგორიცა
საცხოვრებელი ადგილი, გენეტიკური მემკვიდრეობა, სტრესი, სქესი, საქმიანობა, ეს
კავშირი გაქრა. აღსანიშნავია, რომ მოწევასა და ფილტვის კიბოს შორის მიზეზობრივი
კავშირი დადგენილი იყო. მიზეზობრივი კავშირი ატარებს სტატისტიკურ ხასიათს
და არ სრულდება აბსოლუტურად ყველა შემთხვევაში, ანუ შეიძლება მოიძებნოს 90
წლის სრულიად ჯანმრთელი მწეველი.
მაგალითი 5 ცდაში მონაწილეობდნენ ბავშვები 6-დან 12 წლამდე. დადგინდა ძლიერი
X
კავშირი ( r = 0.81) 1 სიმაღლესა და Y მათემატიკაში მიღებულ ქულას შორის. როცა იყო
გაკონტროლებული ასაკი, ეს კავშირი გაქრა. ფიქსირებული ასაკის ბავშვების კორელაცია
სიმაღლესა და მათემატიკის ქულას შორის გამოვიდა თითქმის ნულის ტოლი. (არ იყო
შესრულებული მესამე პირობა ).

You might also like