Download as pdf or txt
Download as pdf or txt
You are on page 1of 12

Statistisch onderzoek

5 vwo wiskunde A

Belangrijke data!

Datum: Onderdeel:
Maandag 25 maart 2024 Start PO (maken groepjes en inlezen in de opdracht)
Maandag 08 april 2024 Groepsgesprek met E. Kaarsbaan (stand van zaken)
Maandag 15-22 april 2024 Inloop voor vragen
Maandag 13 mei 2024 Inloop voor vragen (laatste contactmoment)
Maandag 27 mei 2024 Definitief inleveren PO voor 00:00 in teams

1
Introductie
Airbnb

Airbnb is een online platform voor de verhuur en boeking van privé-accommodaties. Airbnb werd in
augustus 2008 opgericht door Brian Chesky, Joe Gebbia en Nathan Blecharczyk. De naam komt van
AirBed & Breakfast, luchtbed en ontbijt, maar tegenwoordig kan de gast vaak wel op een echt bed
slapen. De website van Airbnb omvat meer dan 3.000.000 privé-accommodaties in 192 landen en
33.000 steden. In juni 2012 werd de 10 miljoenste overnachting verhandeld via Airbnb. Zie figuur 1.

Figuur 1: Het aantal boekingen sinds de oprichting van Airbnb1.

Gegevensanalyse van de miljoenen vermeldingen in Airbnb is een cruciale factor geweest bij het
behalen van dit succes. De analyses worden gebruikt bij het nemen van zakelijke beslissingen, bij het
verwerven van inzicht in het gedrag van klanten, bij het ontwikkelen van marketinginitiatieven, de
implementatie van innovatieve aanvullende diensten en vele zaken meer.

De dataset
Via kaggle.com is een open dataset opgevraagd met informatie van Airbnb New York over het jaar
2019. Deze dataset bevat bijna 50.000 waarnemingen in 16 kolommen. In bijlage 1 vind je de
beschrijving van elke van deze kolommen met hun betekenis. Deze dataset staat centraal in de
praktische opdracht die hierna volgt. Voordat we inhoudelijk gaan kijken naar deze opdracht eerst
wat aanvullende informatie over de stad New York.

New York

New York is onderverdeeld in vijf stadsdistricten die op hun beurt weer onderverdeeld zijn in wijken.
De verschillende districten in New York zijn steden op zich. De districten Manhattan en Staten Island
zijn beide eilanden, Queens en Brooklyn bevinden zich beide op het eiland Long Island. Hierdoor is
The Bronx het enige onderdeel van de stad New York dat zich op het vasteland van Amerika bevindt.
Zie figuur 2.

1
Bron: ww.airbnb.nl
2
Figuur 2: Stadsdistricten New York2.

De vijf stadsdistricten: The Bronx, Brooklyn, Manhattan, Queens en Staten Island

The Bronx is het noordelijkste district van New York. Het is de locatie van het Yankee Stadium, de
thuisbasis van de New York Yankees. The Bronx staat bekend als de geboorteplaats van de rap en
hiphopcultuur.

Brooklyn is het district met het grootste inwonersaantal. Brooklyn is bekend om zijn culturele, sociale
en etnische diversiteit, zijn specifieke kunststromingen, zijn wijken met een eigen karakter en om zijn
unieke architecturale erfgoed.

Manhattan is het district met de hoogste bevolkingsdichtheid en is wereldberoemd door de


wolkenkrabbers en het grote Central Park.

Queens is het grootste district. Van oorsprong is Queens een verzameling dorpjes gesticht door
Nederlanders. Tegenwoordig wonen in dit district hoofdzakelijk de middenklasse Amerikanen.

Staten Island lijkt het meest op een voorstad. Staten Island is met Brooklyn verbonden door de
Verrazano-Narrows Bridge en met Manhattan door de gratis Staten Island Ferry, die tevens geldt als
een populaire toeristische attractie.

Elk van deze districten bevat tientallen of zelfs honderden wijken, vaak met een heel eigen identiteit.
Voorbeelden van wijken in Manhattan zijn Chinatown, Greenwich Village, Little Italy en SoHo.3

Praktische opdracht
De praktische opdracht die voor je ligt, bestaat uit vier delen:

1. Dataset eigen maken


2. Analyseren van de data
3. Verklarend dataonderzoek

2
Bron: commons.wikimedia.org/wiki
3
Bron: https://www.newyorkvoorbeginners.nl/

3
4. Eigen onderzoek

Je gaat in tweetallen aan de slag met deze praktische opdracht. Als eindproduct maak je een
schriftelijk verslag met de volgende onderdelen:

• Voorblad met de namen van de groepsleden, docent en klas;


• Inleiding;
• Uitwerkingen van de opdrachten inclusief tabellen en/of diagrammen;
• Nawoord waarin een reflectie is opgenomen met betrekking tot
o het belang van dataonderzoek; o inhoud en vormgeving van deze praktische opdracht:
▪ Wat vond je van de opdracht? Wat heb je geleerd? Welke tips heb je voor
een volgende jaarlaag? Welke technieken/vaardigheden heb je ingezet om
de opdracht goed uit te kunnen voeren?
o de samenwerking binnen de groep.

Deel I – Dataset eigen maken


1.1 Een bruikbare dataset

Open het Excelbestand met de titel ‘Airbnb New York City 2019’.

Opdracht 1

In de rijen van het bestand vind je de gegevens van de accommodaties in New York die via Airbnb
verhuurd worden. In de kolommen van het Excelbestand vind je de variabelen die zijn opgenomen in
dit bestand in de bovenste rij.

a) Hieronder staat een begin van een tabel waarbij de variabelen onderverdeeld worden in
kwantitatieve en kwalitatieve variabelen. Bij de kwantitatieve variabelen kan onderscheid
gemaakt worden tussen continu en discreet, bij de kwalitatieve variabelen tussen nominaal
en ordinaal. Zo is ‘ID’ een kwalitatieve variabele en nominaal. Neem onderstaande tabel
over in je verslag en vul deze in.
Kwantitatief Kwalitatief
Discreet Continu Nominaal Ordinaal
ID

We hebben net geleerd dat New York bestaat uit vijf districten, ook wel Neighourhood_groups
genoemd. Sorteer de data in de kolom Neighbourhood_group.

b) Wat valt je op aan deze gegevens? Wat is hier aan de hand?


c) Van de variabele Neighbourhood_group is onderstaand cirkeldiagram gemaakt.

4
Wat valt je op?

Eén van de problemen bij een statistisch onderzoek is dat de data fouten kunnen bevatten. Om de
data geschikt te maken voor analysedoeleinden, vindt daarom eerst een controle- en correctieproces
plaats, waarbij foute en/of ontbrekende waarden worden opgespoord. De dataset ‘Airbnb New York
City 2019’ is vanwege (menselijke) fouten behoorlijk vertroebeld. Wat te doen?

Er is een aantal opties:

1. Doorgaan zonder de dataset aan te passen waarbij je bij berekeningen en het maken van
tabellen/diagrammen rekening moet houden met de vertroebeling.
2. De dataset verantwoord opschonen: dat betekent uitleggen welke gegevens je hebt
verwijderd en waarom, daarbij moet je natuurlijk rekening houden met de grootte van
de dataset.

Wij gaan in deze opdracht gebruik maken van de tweede optie. We hebben de rijen waarbij de
gegevens van de variabele ‘District’ niet juist zijn ingevoerd, verwijderd. De records waarbij andere
waarden ontbreken of niet in de juiste kolom staan behouden wij. Daarmee wordt de dataset kleiner:
de dataset bevatte 49080 records, in ons ‘opgeschoonde’ bestand zijn er nog 48735, er is dus 0,7%
van de gegevens verwijderd. Onderzoek of het klopt dat er 48735 zijn overgebleven, zo niet, hoeveel
procent is verwijderd?

Voor het analyseren van de dataset kun gebruik maken van het programma JASP of Excel.
Introductie data analyse met JASP:
Open het excelbestand ‘Airbnb NYC 2019’. En sla het op als een csv bestand. In het JASP bestand zijn
een aantal variabelen vanuit het Excelbestand hernoemd om het geheel leesbaarder te maken:
Neighbourhood_group is hernoemd tot District, Neighbourhood tot Wijk, Latitude tot Breedtegraad
en Longitude tot Lengtegraad. De variabelen Breedtegraad en Lengtegraad zijn zo aangepast vanuit
het Excelbestand dat zij in JASP allemaal weergegeven worden als decimale graden met zes
decimalen.

5
1.2 Steekproef of gehele populatie?

Het bestand is zeer groot. Dat zou kunnen betekenen dat dit alle accommodaties bevat die via Airbnb
in New York City gehuurd kunnen worden.

Anders geformuleerd: het bestand bevat de complete populatie van Airbnb accommodaties in New
York City. Mocht dat niet zo zijn, dan gaan we ervan uit dat deze dataset in ieder geval een
representatieve steekproef is van alle Airbnb accommodaties in New York City.

Opdracht 2

a) Bereken hoeveel procent van de Airbnb accommodaties zich in Queens bevindt.


b) Neem een steekproef van 5000 en bereken hoeveel procent van de Airbnb’s vanuit deze
steekproef zich in Queens bevindt.
c) Neem een steekproef van 10000 en bereken hoeveel procent van de Airbnb’s vanuit deze
steekproef zich in Queens bevindt.
d) Vergelijk de percentages uit a), b) en c) met elkaar. Wat valt je op? Geef een verklaring.
e) In het algemeen is het nemen van een goede steekproef nog niet zo eenvoudig. Noem twee
aspecten waar je op moet letten bij het nemen van een goede steekproef.

1.3 Data in beeld krijgen met JASP

Opdracht 3

a) Welk van de districten heeft de meeste Airbnb accommodaties?


Ondersteun je antwoord met een tabel.
b) Hoeveel procent van de totale Airbnb accommodaties bevindt zich in Manhattan?
Ondersteun je antwoord met een tabel.
c) Welk type accommodatie wordt het meest aangeboden in het district Queens? Onderbouw
je antwoord met een grafiek.
d) Hoeveel procent van de Airbnb’s is meer dan de helft van de dagen van het jaar beschikbaar?
Ondersteun je antwoord met een tabel, grafiek of berekening.
e) De prijs per nacht kan worden ingedeeld in drie klassen: goedkoop – normaal – duur. De
klasse goedkoop bevat de 30% goedkoopste Airbnb’s. De 20% duurste Airbnb’s vormen de
klasse duur. De overige 50% die daartussen ligt, vormt de klasse normaal. Bij welke prijzen
liggen de grenzen van deze klassen? Leg je antwoord uit.
f) Airbnb werkt met beoordelingen: zowel de gastheer/vrouw als de persoon die de Airbnb
heeft gehuurd, geven beoordelingen. In de dataset is het aantal beoordelingen van de
huurders opgenomen. Laat een kruistabel maken van het aantal beoordelingen per
accommodatietype en bereken met behulp van deze kruistabel het gemiddeld aantal reviews
per accommodatietype. Welke type accommodatie krijgt de meeste beoordelingen?

6
Deel II – Analyseren van data
Nu je hebt kennisgemaakt met de dataset en de mogelijkheden, kunnen we overgaan tot het
analyseren van de data.

2.1 Normaal verdeeld of niet?


Opdracht 4

a) Maak een staafdiagram met klassenbreedte 0,1 van de variabele breedtegraad van de
gehele dataset.
b) Maak nog twee staafdiagrammen, één met breedte 0,05 en tot slot één met breedte 0,03.
c) De variabele breedtegraad lijkt normaal verdeeld te zijn. Geef op basis van het staafdiagram
met klassenbreedte 0,03 een argument voor én een argument tegen de normale verdeling.

d) Ga met een berekening na of de tweede vuistregel klopt. Vraag daarvoor eerst de kentallen
op van de variabele Breedtegraad. Tip: Je kan gebruik maken van een zogenaamd
selectiefilter.

Bij de volgende twee opgaven gaan we de districten Brooklyn en Manhattan, de districten waar zich
verreweg de meeste Airbnb’s bevinden, beter onderzoeken. Zowel in Brooklyn als in Manhattan
worden private rooms, shared rooms en entire homes/apartments aangeboden. Filter deze twee
districten uit de gehele dataset en verwijder de niet geselecteerde records. Op deze manier houd je
alleen de gegevens van Brooklyn en Manhattan over.

2.2 Boxplots vergelijken en effectgrootte bepalen


Opdracht 5

a) Bereken de gemiddelde prijs per nacht van Brooklyn en ook die van Manhattan.
b) Onze aanname is dat shared rooms het goedkoopst zijn, vervolgens private rooms en tot slot
entire homes/apartments.
Gebruik de dataset om te onderzoeken of deze aanname klopt voor de districten Manhattan
en Brooklyn. Leg je antwoord uit.
c) Maak een boxplot van de prijs per nacht in Manhattan en ook van de prijs per nacht in
Brooklyn.

De boxplots zijn eigenlijk niet goed af te lezen. Dat komt door het grote aantal uitschieters bij de
variabele prijs, zowel bij Manhattan als bij het district Brooklyn. Uitschieters noemen we de waarden
die meer dan 1,5 keer de kwartielafstand onder Q1 of boven Q3 liggen. Verwijder zowel bij
Manhattan als bij Brooklyn alle uitschieters bij de variabele prijs. Vraag daartoe eerst de kentallen
van de huidige prijs bij beide districten op.

d) Maak nu zonder uitschieters opnieuw tweemaal een boxplot: van de prijs per nacht in
Manhattan en van de prijs per nacht in Brooklyn en vraag bijbehorende kentallen op.

7
Bij het vergelijken van boxplots worden onderstaande afspraken gebruikt:

e) Vergelijk de boxplots zonder uitschieters met elkaar. Hoe groot is het verschil in prijs tussen
deze twee districten op basis van deze boxplots?

Wat we nu doen is niet helemaal eerlijk, want we nemen hierbij alle accommodaties mee. En dat
terwijl we net gezien hebben dat er een duidelijk verschil is in de gemiddelde prijs per nacht voor de
shared rooms, private rooms en de entire homes/apartments. Laten we dus wat beter kijken en
onderscheid maken tussen het type accommodaties. We zouden opnieuw boxplots kunnen maken
om de prijs per nacht voor elk accommodatietype in de districten te vergelijken, maar we kunnen ook
kiezen voor een andere aanpak.

We gaan een uitspraak doen over het verschil in prijs tussen de twee districten door de effectgrootte
te berekenen. De effectgrootte is een maat voor het verschil tussen twee groepen aan de hand van
de gemiddeldes en de standaarddeviaties van de twee groepen.

Opdracht 6

a) De effectgrootte zegt iets over de mate van verschil tussen twee verdelingen. Je zou ook juist
kunnen kijken naar de mate van overlap tussen twee verdelingen: hoe meer overlap, hoe
minder verschil.
Als een standaarddeviatie groter wordt, wordt de verdeling dan smaller of breder? En wat
verandert er aan de effectgrootte als één van de standaarddeviaties groter wordt?
Komen deze antwoorden overeen? Leg je antwoord uit.
b) Bereken de effectgrootte voor het verschil van de variabele prijs van elk type accommodatie
in Manhattan ten opzichte van Brooklyn. Benoem telkens de grootte van het effect.
c) Bij welk type accommodatie is het verschil in prijs, op basis van de effectgrootte, het grootst?

8
Opdracht 7

Ms. Lisel Jones verhuurt zes private rooms in het district Brooklyn, in de wijk Park Slope in hetzelfde
gebouw. Het gaat om de private rooms met ID 8024, 8025, 8110, 167222, 222054 en 801626. Ze
overweegt een verbouwing waardoor ze twee van deze zes kamers samen kan voegen tot één
appartement. Het gaat om de kamers met ID 8025 en 8110. De kosten voor deze verbouwing zijn
$8500,-.

We gaan ervan uit dat het nieuwe appartement voor de gemiddelde prijs van een entire
home/apartment uit de wijk Park Slope verhuurd zal worden. Hoeveel nachten moet ms. Jones het
appartement dan minimaal verhuren om de kosten van de verbouwing terug te verdienen?

Deel III Verklarend dataonderzoek


Vanuit de dataset is ons vermoeden dat maar een klein percentage van alle Airbnb’s bestaat uit
zogenaamde shared rooms. Ook in Nederland worden via Airbnb verschillende accommodaties
aangeboden. De stad Utrecht heeft in 2019 onderzoek laten doen naar de ontwikkeling van Airbnb in
de stad Utrecht. Uit dat onderzoek blijkt in Utrecht 1,5% van de Airbnb’s uit shared rooms te
bestaan4. We verwachten dat ook in New York de meeste gasten een private room of een entire
home/apartment willen huren.

3.1 Hypothese toetsen


Opdracht 8

In deze opgave gaan we onderzoeken of het percentage shared rooms in New York City in het district
Staten Island significant afwijkt van 1,5%.
Voer hiervoor een hypothesetoets uit en neem als significantieniveau 10%.
Ga terug naar het originele bestand met geheel New York City en selecteer nu alleen het district
Staten Island.

Google Maps geeft als coördinaten voor New York City het volgende: (40,712778; -74,005833). Dit is
de plek waar de New York City Hall (het stadhuis) is gevestigd.

Rondom het centrum van de stad bevinden zich de meeste toeristische trekpleisters. Zou het ook zo
zijn dat accommodaties dichtbij het centrum van New York, daarmee bedoelen we dan dichtbij de
New York City Hall, duurder zijn?

4
Bron: file:///C:/Users/100444/Downloads/20191002_Airbnb_Utrecht_vanderZee_EDITIE_04.pdf
9
Deel IV Eigen onderzoek
Opdracht 9

Geef telkens aan of onderstaande vraag op basis van de geleverde dataset wel of niet te onderzoeken
is. Geef indien het onderzoek niet mogelijk is aan welke informatie ontbreekt. Geef indien het
onderzoek wel mogelijk is aan hoe je dit zou kunnen onderzoeken.

a) In welk district is de verwachte opbrengst per private room per jaar het grootst?
b) Is het ID-nummer gekoppeld aan een district?
c) Liggen alle accommodaties met het woord “Beach” in de naam in één wijk?

Ms. Foster, schoenenverkoopster uit New York, heeft een grote erfenis gekregen. Ze wil met de
erfenis een pand kopen in New York om dat vervolgens te verhuren via Airbnb. Ze hoopt met de
verhuur zoveel geld te verdienen dat ze haar baan kan opzeggen. Maar gaat dat lukken? In welk deel
van New York levert de verhuur het meeste geld op? En kan ze beter privé-kamers verhuren of
brengt de verhuur van een compleet appartement meer op?

Opdracht 10

Ms. Foster heeft op basis van haar eigen vooronderzoek een aantal zaken besloten:

• Ze wil een Airbnb starten in het district Queens, omdat in Queens beide grote luchthavens
zijn gevestigd.
• Ze gaat óf twee private rooms verhuren óf één entire home/apartment.
• Ze wil zich vestigen in een populair gebied waar minimaal 200 en maximaal 400
accommodaties worden aangeboden via Airbnb.

Geef ms. Foster advies en zorg daarbij dat je in je advies (beargumenteerd op basis van gegevens in
de dataset) aandacht hebt voor de volgende aspecten:

• de wijk van Queens waar ze haar Airbnb zou moeten starten;


• de keuze voor één óf twee private rooms óf één entire room/apartment;
• de prijs per nacht die ze volgens jou zou moeten vragen.
Wat betreft dat laatste aspect nog het volgende: Ms. Foster wil veel boekingen in haar nieuwe
Airbnb. Omdat potentiële gasten hun besluit om wel of niet te huren in het algemeen baseren op
reviews wil ze natuurlijk graag veel reviews. Ze denkt dat er een verband is tussen de prijs en het
aantal reviews per maand, waarbij de prijs het aantal reviews per maand zou beïnvloeden.
Onderzoek dit verband en geef op basis van jouw onderzoek aan of ze haar prijs naar beneden of
naar boven bij moet stellen.
Geef tot slot aan hoe betrouwbaar de uitslagen van jouw onderzoek zijn.

10
Bijlage 1: Beschrijving variabelen
Naam variabele Betekenis Mogelijke waarde
ID Identificatiecode van de B&B Unieke code bestaande uit maximaal 8 cijfers.
Name Naam van de B&B
Host_ID Identificatiecode gastvrouw/gastheer Unieke code bestaande uit maximaal 10 cijfers.
Host_name Naam van de gastvrouw/gastheer
Neighbourhood_group District van New York Keuze uit 5 districten: Bronx, Brooklyn, Manhattan,
In VUstat hernoemd tot: District Queens en Staten Island
Latitude Breedtegraad Weergegeven in zogenaamde decimale graden.
In VUstat hernoemd tot: Breedtegraad
Longitude Lengtegraad Weergegeven in zogenaamde decimale graden.
In VUstat hernoemd tot: Lengtegraad
Room_type Type accommodatie Keuze uit private room, entire home
/apt of shared room
Price Prijs per nacht in dollar
Minimum_nights Minimum aantal te boeken nachten
Number_of_reviews Aantal beoordelingen
Last_review Datum laatste beoordeling
Reviews_per_month Aantal beoordelingen per maand
Calculated_host_listings_count Aantal vermeldingen per gastvrouw/-heer
Availibility_365 Aantal dagen per jaar waarop de B&B geboekt kan
worden
Neighbourhood Wijk in district van New York
In VUstat hernoemd tot:Wijk

You might also like