Professional Documents
Culture Documents
Eggrafo 18 05 20
Eggrafo 18 05 20
ΤΜΗΜΑ ΣΤΑΤΙΣΤΙΚΗΣ
ΕΑΡΙΝΟ ΕΞΑΜΗΝΟ
ΑΝΑΛΥΣΗ ΔΕΔΟΜΕΝΩΝ
«Οικονομικά αποτελέσματα επιχειρήσεων από το Forbes για το 1986»
1
Κεφάλαιο 1
2
κών στοιχείων των επιχειρήσεων ανάλογα με τον κλάδο στον οποίο ανήκουν και
διαφορές στην ονομαστική αξία των επιχειρήσεων ανάλογα με το πόσους εργα-
ζόμενους απασχολούν. Επιπλέον, θα γίνει προσπάθεια εκτίμησης των κερδών και
των πωλήσεων με βάση τα υπόλοιπα στοιχεία των επιχειρήσεων καθώς επίσης θα
αναφερθεί ποια ήταν τα “αναμενόμενα” κέρδη και πωλήσεις μιας “μέσης” επιχει-
ρήσεις της λίστας Forbes το έτος 1986. Οι μεταβλητές που είναι διαθέσιμες για
κάθε μία από τις επιχειρήσεις είναι οι ακόλουθες(*Για την μεταβλητή “Size” θα
γίνει εκτεταμένη περιγραφή παρακάτω):
3
1.2 Περιγραφική Ανάλυση
Η ανάλυση της συγκεκριμένης εργασίας θα γίνει με την στατιστική γλώσσα προ-
γραμματισμού της R .Αρχικά, θα εισάγω τα δεδομένα μου στο πρόγραμμα και θα
“εγκαταστήσω” όποιες βιβλιοθήκες είναι απαραίτητες για την ομαλή λειτουργία
του. ΄Επειτα, η R θα μας βοηθήσει στην απεικόνιση των δεδομένων μας έτσι ώστε
να γίνουν πιο εύκολα κατανοητές δυσνόητες έννοιες και τα αποτελέσματα της έρευ-
νάς μας. Βλέποντας τον Πίνακα 1,διαπιστώνω ότι έχω πέντε(5) αριθμητικές μετα-
βλητές (assets, sales, market value, profits, employees ), με τις τέσσερις(4) πρώτες
να είναι μετρημένες σε εκατομμύρια δολάρια και την τελευταία σε χιλιάδες άτομα
ενώ υπάρχουν και τρεις(3) κατηγορικές, όπου η πρώτη (Company name ) έχει την
επωνυμία της επιχείρησης και δεν έχει μονάδες-η παραπάνω μεταβλητή δεν εξε-
τάζεται παρά χρησιμοποιείται μόνο για την αναφορά ονομάτων των επιχειρήσεων-
η δεύτερη(Sector ) είναι ο κλάδος στον οποίο ανήκει η κάθε επιχείρηση και έχει τα
εξής επίπεδα:Energy, Finance, Hi-Tech Transportation, Medical Manufacturing, Re-
tail Communication, Other και η τρίτη μεταβλητή “Size*”. Στον παρακάτω πίνακα
(Πίνακα2) έχουν καταγραφεί για κάθε μια αριθμητική μεταβλητή ξεχωριστά το 1ο
και 3ο Τεταρτημόριο, την ελάχιστη και μέγιστη τιμή, τον μέσο, την τυπική α-
πόκλιση, την διάμεσο, ασυμμετρία καθώς και την κύρτωση. Γραφικά μπορούμε να
δούμε και τα διαγράμματα πλαισίου και απολήξεων ώστε να διαπιστωθούν τυχών
ακραίες τιμές(Σχήμα2).Για τις κατηγορικές, αντίστοιχα, κατασκευάσαμε πίνακα με
την συχνότητα όπου εμφανίζεται η κάθε κατηγορία (Πίνακας 3 και 4).
Θα χρειαστεί να ελέγξουμε αν είναι κανονικοποιημένα - ή έστω αν προσεγ-
γίζουν την κανονικότητα- τα δεδομένα μας. Σε αυτή την διαδικασία θα μας βοη-
θήσει η ασυμμετρία, η κύρτωση, και οι έλεγχοι Shapiro - Wilk και KS Lilliefors . Η
ασυμμετρία μιας κατανομής εκφράζει την εκτροπή της κατανομής των δεδομένων
από την κανονική κατανομή. Η κύρτωση μιας κατανομής εκφράζει τον βαθμό συ-
γκέντρωσης των τιμών της γύρω από το μέσο της. Και στις πέντε(5) μεταβλητές
παρατηρείται θετική ασυμμετρία ( γ > 0 ) και λεπτόκυρτη κατανομή(a > 0). Εκτε-
λώντας τους ελέγχους Shapiro - Wilk και KS Lilliefors (όλα τα p − values < 5% )
και βλέποντας τα διαγράμματα του Σχήματος1 επιβεβαιώνεται η μη-κανονικότητα.
4
Πίνακας 1.2: Πίνακας Περιγραφικών Μέτρων Αριθμητικών Μταβλητών
- Assets (σε Sales (σε ε- Market Value Profits (σε Employ-
εκατομ- κατομμύρια (σε εκατομμύρια ees (σε
μύρια δολλάρια) εκατομμύρια δολλάρια) χιλιάδες)
δολάρια) δολλάρια)
223 176 53 -771.5 0.60
Min
1122 815.5 512.5 39 3.95
1Q
2788 1754 944 70.5 15.40
Me-
dian
5941 4178 3269.8 209.8 37.6
Mode
9156.784 7011.633 11303.55 796.977 64.5042
SD
5802 4563.5 1961.5 188.1 48.5
3Q
52634 50056 95697 6555 400.20
Max
3.19 4.27 7.15 6.59 3.45
Skew
11.21 22.42 54.21 48.58 14.08
Kurt.
5
Πίνακας 1.3: Πίνακας Συχνοτήτων Κατηγορικης Μεταβλητής Sector
Κατηγορία Συχνότητα
Energy 15
Finanace 17
Transportation 6
Hi-Tech 8
Manufacturing 10
Communication 2
Medical 4
Retail 10
Other 7
6
• εάν διαθέτει πάνω από 20 χιλιάδες υπαλλήλους
7
ii. Πωλήσεις ανάλογα με τον κλάδο (Sales vs Sector).
8
συσχέτιση (60.2%) παρατηρείται ανάμεσα στα περιουσιακά στοιχεία (Assets ) και
ετήσιο κέρδος( Profits).
Για τις σχέσεις μεταξύ αριθμητικών και κατηγορικών μεταβλητών, μας ενδια-
φέρει να ελέγξουμε αρχικά τις τιμές της κάθε ποσοτικής για τις εφτά (7) κα-
τηγορίες της κατηγορικής Sector . Ειδικότερα αν οι μέσοι για κάθε κατηγορία
είναι ίσοι -γνωρίζω ότι οι μέσοι είναι ακατάλληλα μέτρα θέσης,άρα εργάζομαι με
διαμέσους. Είναι άξιο αναφοράς ότι σε καμία σχέση δεν έχω κανονικοποιημένα
δεδομένα. Επιπλέον επειδή στο έκτο(6ο) επίπεδο της κατηγορικής υπάρχουν μονό
δύο(2) παρατηρήσεις, δεν μπορώ να βγάλω σίγουρο συμπέρασμα κανονικότητας,
για το έκτο(6ο) επίπεδο, σε καμία σχέση. Υποθέτω ότι συμπεριφέρονται παρόμοια
με τις υπόλοιπες κατηγορίες δηλαδή δεν είναι κανονικά. ΄Οπως προέκυψε από τον
έλεγχο shapiro.test των καταλοίπων ούτε και εκείνα είναι κανονικά. Συνεχίζοντας,
κάνοντας kruskal.test στις ανά δύο σχέσεις, συμπεραίνουμε ότι η υπάρχει διαφορά
στο μέγεθος των περιουσιακών στοιχείων ανάλογα με τον κλάδο στον οποίο α-
9
νήκει η επιχείρηση, στις ετήσιες πωλήσεις ανάλογα με τον κλάδο στον οποίο ανήκει
η επιχείρηση ,στην ονομαστική αξία ανάλογα με τον κλάδο στον οποίο ανήκει η
επιχείρηση και τέλος στα κέρδη της εταιρείας ανάλογα με τον κλάδο στον οποίο
ανήκει η επιχείρηση.
Για τις σχέσεις μεταξύ αριθμητικών και κατηγορικών μεταβλητών, μας εν-
διαφέρει να ελέγξουμε κατά δεύτερον τις τιμές της κάθε ποσοτικής για τις τρεις(3)
κατηγορίες της κατηγορικής Size . Ειδικότερα αν οι μέσοι για κάθε κατηγορία ε-
ίναι ίσοι. Γνωρίζω ότι οι μέσοι είναι ακατάλληλα μέτρα θέσης για όλες τις σχέσεις
οπότε χρησιμοποιώ διαμέσους. Είναι άξιο αναφοράς, ξανά, ότι σε καμία σχέση
δεν έχω κανονικοποιημένα δεδομένα, ούτε και κανονικά κατάλοιπα. ΄Οσον αφο-
ρά τις σχέσεις έχουμε να δηλώσουμε ότι υπάρχει διαφορά στο μέσο κέρδος για
τις εταιρείες που απασχολούν «λίγους», «κανονικά» , «πολλούς» υπαλλήλους α-
ντίστοιχα, υπάρχει διάφορα στις ετήσιες πωλήσεις των εταιρειών ανάλογα με το
αν απασχολούν «λίγους», «κανονικά» , «πολλούς» υπαλλήλους, στην ονομαστική
αξία των εταιρειών ανάλογα με το αν απασχολούν «λίγους», «κανονικά» , «πολλο-
ύς» υπαλλήλους και τέλος στα περιουσιακά στοιχεία των εταιρειών ανάλογα με το
10
αν απασχολούν «λίγους», «κανονικά» , «πολλούς» υπαλλήλους.
Κλείνοντας με τις ανά δύο σχέσεις, θα πρέπει να αναφέρουμε την σχέση της
κατηγορικής Sector (που είναι ο κλάδος που ανήκει η κάθε εταιρεία) με τα εν-
νέα(9) επίπεδα της τα οποία είναι “Energy”, “Finance”, “Hi-Tech” ,“Transportation”,
“Medical”, “Manufacturing”, “Retail”, “Communication”, “Other” με την κατηγορική
μεταβλητή Size (που είναι το μέγεθος των υπαλλήλων που απασχολεί μια εταιρεία)
με τα αντίστοιχα επίπεδα της “Λίγοι”, “Κανονικά”, “Πολλοί”. ΄Υστερα από την
διεξαγωγή ελέγχου ανεξαρτησίας x2 του Pearson (με προσομοιωμένο p − value),
συμπεραίνουμε ότι υπάρχει εξάρτηση μεταξύ τους, δηλαδή υπάρχει διάφορα στον
αριθμό των υπαλλήλων ανάλογα με τον κλάδο στον οποίο ανήκει η εταιρεία. Ακο-
λούθως, αναρτάται το Σχήμα9 το οποίο δείχνει ανάλογα με τον κλάδο, το πλήθος
των εταιρειών που απασχολούν “Λίγους”, “Κανονικούς”, “Πολλούς” υπαλλήλους.
11