Download as pdf or txt
Download as pdf or txt
You are on page 1of 9

1. Načítajte údaje z space_titanic.csv.

Preskúmajte údaje v datasete a zistite, ktoré


premenné neobsahujú chýbajúce údaje. Ako výsledok zapíšte premenné oddelené s
čiarkami v poradí v akom sa nachádzajú v dátovom súbore. Napr. HomePlanet, Cabin,
Age

# import library

import pandas as pd

# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv

df=pd.read_csv('https://priscilla.fitped.eu/data/pandas/space_titanic.csv')

# explore the dataset

premenne = df.columns[df.notna().all()].tolist()

vysledok = ', '.join(premenne)

print(vysledok)

2. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite, koľko


percent chýbajúcich údajov obsahujú jednotlivé premenné. Vypočítajte najprv koľko
percent chýbajúcich hodnôt obsahuje každá premenná a potom budete vedieť stanoviť
približný výsledok za všetky premenné. Výsledok zaokrúhlite na celé čísla.

# import library

import pandas as pd

# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv

df=pd.read_csv('https://priscilla.fitped.eu/data/pandas/space_titanic.csv', sep=',')

# explore the dataset

percent_missing = (df.isnull().sum() / len(df)) * 100

percent_missing = percent_missing.round(0)

print(percent_missing)

3. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite, aký je


priemerný vek pasažierov na lodi. Výsledok zaokrúhlite na dve desatinné miesta.

# import library

import pandas as pd

# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv


df=pd.read_csv('https://priscilla.fitped.eu/data/pandas/space_titanic.csv', sep=',')

# explore the dataset

avg_age = round(df['Age'].mean(), 2)

print(avg_age)

4. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite, koľko


rôznych skupín pasažierov je evidovaných na lodi.

# import library

import pandas as pd

# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv

df=pd.read_csv('https://priscilla.fitped.eu/data/pandas/space_titanic.csv', sep=',')

# explore the dataset

pocet_skupin = df['PassengerId'].str[-2:].nunique()

print(pocet_skupin)

5. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite, koľko


percent pasažierov cestuje z Marsu? Výsledok zaokrúhlite na celé čísla.

# import library

import pandas as pd

# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv

df=pd.read_csv('https://priscilla.fitped.eu/data/pandas/space_titanic.csv')

# explore the dataset

pocet_mars_passazieri = df[df['HomePlanet'] == 'Mars']['PassengerId'].count()

pocet_passazieri = len(df)

percento_mars_passazieri = (pocet_mars_passazieri / pocet_passazieri) * 100

percento_mars_passazieri = round(percento_mars_passazieri)

print(percento_mars_passazieri)

6. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite, koľko


percent pasažierov cestuje v cryo-spánku? Výsledok zaokrúhlite na celé čísla.
# import library

import pandas as pd

# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv

df=pd.read_csv('https://priscilla.fitped.eu/data/pandas/space_titanic.csv')

# explore the dataset

pocet_cryo_passazieri = df[df['CryoSleep'] == True]['PassengerId'].count()

pocet_passazieri = len(df)

percento_cryo_passazieri = (pocet_cryo_passazieri / pocet_passazieri) * 100

percento_cryo_passazieri = round(percento_cryo_passazieri)

print(percento_cryo_passazieri)

7. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite, koľko


percent pasažierov si priplatilo za VIP služby na lodi? Výsledok zaokrúhlite na celé čísla.

# import library

import pandas as pd

# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv

df=pd.read_csv('https://priscilla.fitped.eu/data/pandas/space_titanic.csv', sep=',')

# explore the dataset

print(round(len(df[df['VIP'] == True])/len(df)*100))

8. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite, ktorý graf


zodpovedá správnej vizualizácií rozdelenia veku pasažierov na lodi.

# import library

import pandas as pd

import matplotlib.pyplot as plt

# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv

df=pd.read_csv('https://priscilla.fitped.eu/data/pandas/space_titanic.csv', sep=',')

# explore the dataset

plt.hist(df['Age'], bins=10)
plt.ylabel('Frequency')

plt.show()

9. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite, na ktorej


palube sa nachádzalo najviac pasažierov. Vypíšte aj počet pasažierov ubytovaných na
danej palube.

# import library

import pandas as pd

# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv

df=pd.read_csv('https://priscilla.fitped.eu/data/pandas/space_titanic.csv', sep=',')

# explore the dataset

pocet = df['Cabin'].str[0].value_counts()

paluba = pocet.idxmax()

maxi = pocet.max()

print(f"{paluba}: {maxi}")

10. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite, koľko


percent pasažierov bolo po stretnutí s anomáliou presunutých do inej dimenzie?
Výsledok zaokrúhlite na celé čísla.

# import library

import pandas as pd

# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv

df=pd.read_csv('https://priscilla.fitped.eu/data/pandas/space_titanic.csv', sep=',')

# explore the dataset

print(round(len(df[df['Transported'] == True])/len(df)*100))

11. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite, aké bolo
percentuálne rozloženie planéty pôvodu presunutých pasažierov. Inými slovami chceme
vedieť, koľko percent pasažierov bolo presunutých do inej dimenzie na základe ich
domovskej planéty (pozor, súčet týchto percent nemusí byť 100). Výsledok zaokrúhlite
na celé čísla a vypíšte v nasledovnom tvare: Earth: 40, Mars: 70, Europa: 20

# import library
import pandas as pd

# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv

df=pd.read_csv('https://priscilla.fitped.eu/data/pandas/space_titanic.csv')

# explore the dataset

pocetpres = df[df['Transported']]['HomePlanet'].value_counts()

pocetpas = df['HomePlanet'].value_counts()

percent = (pocetpres / pocetpas) * 100

percent = percent.round().astype(int)

percent = percent.reindex(['Earth', 'Mars', 'Europa'])

vysledok = ', '.join([f"{planeta}: {percento}" for planeta, percento in percent.items()])

print(vysledok)

12. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite, čo sa stalo s


pasažiermi v cryo-spánku po havárií s anomáliou.

# import library

import pandas as pd

# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv

df=pd.read_csv('https://priscilla.fitped.eu/data/pandas/space_titanic.csv')

# explore the dataset

df['CryoSleep'].fillna(False, inplace=True)

df['Transported'].fillna(False, inplace=True)

pocetcryo = df[df['CryoSleep']]['PassengerId'].count()

pocetpres = df[df['Transported']]['PassengerId'].count()

pocetct = df[(df['CryoSleep']) & (df['Transported'])]['PassengerId'].count()

pocetall = len(df)

print('cryo:',pocetcryo)
print('transport:',pocetpres)

print('cryo-transport:',pocetct)

print('all:',pocetall)

13. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite, z ktorej


paluby bolo po havárií presunutých najviac pasažierov do inej dimenzie. Vypíšte spolu s
názvom paluby, aj počet presunutých pasažierov.

# import library

import pandas as pd

# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv

df=pd.read_csv('https://priscilla.fitped.eu/data/pandas/space_titanic.csv')

# explore the dataset

transported = df[df['Transported'] == True]

pocetpalub = transported['Cabin'].str[0].value_counts()

maxpalub = pocetpalub.idxmax()

pocetpasazierov = pocetpalub.max()

print(f"{maxpalub}: {pocetpasazierov}")

14. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite, z ktorej


strany paluby bolo po havárií presunutých najviac pasažierov do inej dimenzie. Vypíšte
spolu s názvom strany (Portside alebo Starboard), aj počet presunutých pasažierov.

# import library

import pandas as pd

# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv

df=pd.read_csv('https://priscilla.fitped.eu/data/pandas/space_titanic.csv')

# explore the dataset

trans = df[df['Transported']]

strana = trans['Cabin'].str[6]

maxtrans = strana.value_counts().idxmax()

pocet = strana.value_counts().max()
print(f"{maxtrans}: {pocet}")

15. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite, aký bol
rozdiel v utrácaní pasažierov v luxusných službách lode. Porovnajte priemernú spotrebu
pasažierov, ktorí boli presunutý do inej dimenzie a tými, ktorí neboli. Výslednú spotrebu
zaokrúhlite na dve desatinné miesta a vypíšte v nasledovnom formáte: Transported:
153.52 Saved: 133.41

Nezabudnite doplniť chýbajúce hodnoty v skúmaných premenných!

# import library

import pandas as pd

# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv

df=pd.read_csv('https://priscilla.fitped.eu/data/pandas/space_titanic.csv')

# explore the dataset

df['RoomService'].fillna(0, inplace=True)

df['FoodCourt'].fillna(0, inplace=True)

df['ShoppingMall'].fillna(0, inplace=True)

df['Spa'].fillna(0, inplace=True)

df['VRDeck'].fillna(0, inplace=True)

priemertrans = df[df['Transported']]['RoomService'].mean() +
df[df['Transported']]['FoodCourt'].mean() + df[df['Transported']]['ShoppingMall'].mean() +
df[df['Transported']]['Spa'].mean() + df[df['Transported']]['VRDeck'].mean()

priemersaved = df[~df['Transported']]['RoomService'].mean() +
df[~df['Transported']]['FoodCourt'].mean() +
df[~df['Transported']]['ShoppingMall'].mean() + df[~df['Transported']]['Spa'].mean() +
df[~df['Transported']]['VRDeck'].mean()

priemertrans = round(priemertrans, 2)

priemersaved = round(priemersaved, 2)

vysledok = f"Transported: {priemertrans} Saved: {priemersaved}"

print(vysledok)

16. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite, vekovú


skupinu pasažierov, ktorých bolo najviac presunutých do inej dimenzie. Vekové skupiny
vytvorte na intervale 10 rokov. Výsledok vypíšte v nasledovnom formáte, pričom uveďte
aj počet presunutých pasažierov: 60-69: 785

# import library
import pandas as pd

# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv

df=pd.read_csv('https://priscilla.fitped.eu/data/pandas/space_titanic.csv')

# explore the dataset

df['AgeGroup'] = pd.cut(df['Age'], bins=range(0, 101, 10), right=False)

pocet = df.loc[df['Transported'] == True, 'AgeGroup'].value_counts()

agegroup = pocet.idxmax()

maxpocet = pocet[agegroup]

print(f"{agegroup}: {maxpocet}")

17. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite vekovú


skupinu pasažierov, ktorá mala najväčšiu pravdepodobnosť presunu do inej dimenzie.
Vekové skupiny vytvorte na intervale 10 rokov. Výsledok vypíšte v nasledovnom
formáte, pričom uveďte aj percento presunutých pasažierov zaokrúhlené na dve
desatinné miesta: 60-69: 55.55

# import library

import pandas as pd

# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv

df=pd.read_csv('https://priscilla.fitped.eu/data/pandas/space_titanic.csv')

# explore the dataset

df['AgeGroup'] = pd.cut(df['Age'], bins=range(0, 101, 10),right=False)

percent = df.groupby('AgeGroup')['Transported'].mean() * 100

agegroup = percent.idxmax()

maxpercent= round(percent[agegroup], 2)

print(f"{agegroup}: {maxpercent}")

18. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite koľko


pasažierov, ktorí cestovali v skupinách, bolo presunutých do inej dimenzie (v skupine
boli aspoň dvaja). Informácia o skupine sa nachádza v premennej PassengerID

# import library
import pandas as pd

# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv

df=pd.read_csv('https://priscilla.fitped.eu/data/pandas/space_titanic.csv')

# explore the dataset

df['Group'] = df['PassengerId'].astype(str).str[-2:]

pocet = df[df.duplicated('Group', keep=False) & (df['Transported'] == True)].shape[0]

print(pocet)

You might also like