Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 8

1. Načítajte údaje z space_titanic.csv.

Preskúmajte údaje v datasete a zistite, ktoré


premenné neobsahujú chýbajúce údaje. Ako výsledok zapíšte premenné oddelené s čiarkami v
poradí v akom sa nachádzajú v dátovom súbore. Napr. HomePlanet, Cabin, Age

# import library

import pandas as pd

# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv

df=pd.read_csv('https://priscilla.fitped.eu/data/pandas/space_titanic.csv')

# explore the dataset

premenne = df.columns[df.notna().all()].tolist()

vysledok = ', '.join(premenne)


print(vysledok)

2. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite, koľko percent


chýbajúcich údajov obsahujú jednotlivé premenné. Vypočítajte najprv koľko percent
chýbajúcich hodnôt obsahuje každá premenná a potom budete vedieť stanoviť približný
výsledok za všetky premenné. Výsledok zaokrúhlite na celé čísla.

# import library

import pandas as pd

# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv

df=pd.read_csv('https://priscilla.fitped.eu/data/pandas/space_titanic.csv', sep=',')

# explore the dataset

percent_missing = (df.isnull().sum() / len(df)) * 100

percent_missing = percent_missing.round(0)
print(percent_missing)

3. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite, aký je priemerný vek
pasažierov na lodi. Výsledok zaokrúhlite na dve desatinné miesta.

# import library

import pandas as pd

# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv

df=pd.read_csv('https://priscilla.fitped.eu/data/pandas/space_titanic.csv', sep=',')

# explore the dataset


avg_age = round(df['Age'].mean(), 2)
print(avg_age)

4. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite, koľko rôznych skupín
pasažierov je evidovaných na lodi.

# import library

import pandas as pd

# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv

df=pd.read_csv('https://priscilla.fitped.eu/data/pandas/space_titanic.csv', sep=',')

# explore the dataset

pocet_skupin = df['PassengerId'].str[-2:].nunique()
print(pocet_skupin)

5. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite, koľko percent


pasažierov cestuje z Marsu? Výsledok zaokrúhlite na celé čísla.

# import library

import pandas as pd

# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv

df=pd.read_csv('https://priscilla.fitped.eu/data/pandas/space_titanic.csv')

# explore the dataset

pocet_mars_passazieri = df[df['HomePlanet'] == 'Mars']['PassengerId'].count()

pocet_passazieri = len(df)

percento_mars_passazieri = (pocet_mars_passazieri / pocet_passazieri) * 100

percento_mars_passazieri = round(percento_mars_passazieri)
print(percento_mars_passazieri)

6. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite, koľko percent


pasažierov cestuje v cryo-spánku? Výsledok zaokrúhlite na celé čísla.

# import library

import pandas as pd

# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv

df=pd.read_csv('https://priscilla.fitped.eu/data/pandas/space_titanic.csv')
# explore the dataset

pocet_cryo_passazieri = df[df['CryoSleep'] == True]['PassengerId'].count()

pocet_passazieri = len(df)

percento_cryo_passazieri = (pocet_cryo_passazieri / pocet_passazieri) * 100

percento_cryo_passazieri = round(percento_cryo_passazieri)
print(percento_cryo_passazieri)

7. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite, koľko percent


pasažierov si priplatilo za VIP služby na lodi? Výsledok zaokrúhlite na celé čísla.

# import library

import pandas as pd

# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv

df=pd.read_csv('https://priscilla.fitped.eu/data/pandas/space_titanic.csv', sep=',')

# explore the dataset


print(round(len(df[df['VIP'] == True])/len(df)*100))

8. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite, ktorý graf zodpovedá
správnej vizualizácií rozdelenia veku pasažierov na lodi.

# import library

import pandas as pd

import matplotlib.pyplot as plt

# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv

df=pd.read_csv('https://priscilla.fitped.eu/data/pandas/space_titanic.csv', sep=',')

# explore the dataset

plt.hist(df['Age'], bins=10)

plt.ylabel('Frequency')
plt.show()

9. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite, na ktorej palube sa


nachádzalo najviac pasažierov. Vypíšte aj počet pasažierov ubytovaných na danej palube.

# import library

import pandas as pd
# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv

df=pd.read_csv('https://priscilla.fitped.eu/data/pandas/space_titanic.csv', sep=',')

# explore the dataset

pocet = df['Cabin'].str[0].value_counts()

paluba = pocet.idxmax()

maxi = pocet.max()
print(f"{paluba}: {maxi}")

10. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite, koľko percent
pasažierov bolo po stretnutí s anomáliou presunutých do inej dimenzie? Výsledok zaokrúhlite na
celé čísla.

# import library

import pandas as pd

# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv

df=pd.read_csv('https://priscilla.fitped.eu/data/pandas/space_titanic.csv', sep=',')

# explore the dataset


print(round(len(df[df['Transported'] == True])/len(df)*100))

11. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite, aké bolo percentuálne
rozloženie planéty pôvodu presunutých pasažierov. Inými slovami chceme vedieť, koľko percent
pasažierov bolo presunutých do inej dimenzie na základe ich domovskej planéty (pozor, súčet
týchto percent nemusí byť 100). Výsledok zaokrúhlite na celé čísla a vypíšte v nasledovnom
tvare: Earth: 40, Mars: 70, Europa: 20

# import library

import pandas as pd

# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv

df=pd.read_csv('https://priscilla.fitped.eu/data/pandas/space_titanic.csv')

# explore the dataset

pocetpres = df[df['Transported']]['HomePlanet'].value_counts()

pocetpas = df['HomePlanet'].value_counts()

percent = (pocetpres / pocetpas) * 100


percent = percent.round().astype(int)

percent = percent.reindex(['Earth', 'Mars', 'Europa'])

vysledok = ', '.join([f"{planeta}: {percento}" for planeta, percento in percent.items()])


print(vysledok)

12. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite, čo sa stalo s


pasažiermi v cryo-spánku po havárií s anomáliou.

# import library

import pandas as pd

# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv

df=pd.read_csv('https://priscilla.fitped.eu/data/pandas/space_titanic.csv')

# explore the dataset

df['CryoSleep'].fillna(False, inplace=True)

df['Transported'].fillna(False, inplace=True)

pocetcryo = df[df['CryoSleep']]['PassengerId'].count()

pocetpres = df[df['Transported']]['PassengerId'].count()

pocetct = df[(df['CryoSleep']) & (df['Transported'])]['PassengerId'].count()

pocetall = len(df)

print('cryo:',pocetcryo)

print('transport:',pocetpres)

print('cryo-transport:',pocetct)
print('all:',pocetall)

13. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite, z ktorej paluby bolo
po havárií presunutých najviac pasažierov do inej dimenzie. Vypíšte spolu s názvom paluby, aj
počet presunutých pasažierov.

# import library

import pandas as pd

# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv

df=pd.read_csv('https://priscilla.fitped.eu/data/pandas/space_titanic.csv')

# explore the dataset


transported = df[df['Transported'] == True]

pocetpalub = transported['Cabin'].str[0].value_counts()

maxpalub = pocetpalub.idxmax()

pocetpasazierov = pocetpalub.max()
print(f"{maxpalub}: {pocetpasazierov}")

14. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite, z ktorej strany paluby
bolo po havárií presunutých najviac pasažierov do inej dimenzie. Vypíšte spolu s názvom strany
(Portside alebo Starboard), aj počet presunutých pasažierov.

# import library

import pandas as pd

# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv

df=pd.read_csv('https://priscilla.fitped.eu/data/pandas/space_titanic.csv')

# explore the dataset

trans = df[df['Transported']]

strana = trans['Cabin'].str[6]

maxtrans = strana.value_counts().idxmax()

pocet = strana.value_counts().max()
print(f"{maxtrans}: {pocet}")

15. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite, aký bol rozdiel v
utrácaní pasažierov v luxusných službách lode. Porovnajte priemernú spotrebu pasažierov, ktorí
boli presunutý do inej dimenzie a tými, ktorí neboli. Výslednú spotrebu zaokrúhlite na dve
desatinné miesta a vypíšte v nasledovnom formáte: Transported: 153.52 Saved: 133.41

Nezabudnite doplniť chýbajúce hodnoty v skúmaných premenných!

# import library

import pandas as pd

# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv

df=pd.read_csv('https://priscilla.fitped.eu/data/pandas/space_titanic.csv')

# explore the dataset

df['RoomService'].fillna(0, inplace=True)

df['FoodCourt'].fillna(0, inplace=True)
df['ShoppingMall'].fillna(0, inplace=True)

df['Spa'].fillna(0, inplace=True)

df['VRDeck'].fillna(0, inplace=True)

priemertrans = df[df['Transported']]['RoomService'].mean() + df[df['Transported']]


['FoodCourt'].mean() + df[df['Transported']]['ShoppingMall'].mean() + df[df['Transported']]
['Spa'].mean() + df[df['Transported']]['VRDeck'].mean()

priemersaved = df[~df['Transported']]['RoomService'].mean() + df[~df['Transported']]


['FoodCourt'].mean() + df[~df['Transported']]['ShoppingMall'].mean() + df[~df['Transported']]
['Spa'].mean() + df[~df['Transported']]['VRDeck'].mean()

priemertrans = round(priemertrans, 2)

priemersaved = round(priemersaved, 2)

vysledok = f"Transported: {priemertrans} Saved: {priemersaved}"


print(vysledok)

16. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite, vekovú skupinu
pasažierov, ktorých bolo najviac presunutých do inej dimenzie. Vekové skupiny vytvorte na
intervale 10 rokov. Výsledok vypíšte v nasledovnom formáte, pričom uveďte aj počet
presunutých pasažierov: 60-69: 785

# import library

import pandas as pd

# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv

df=pd.read_csv('https://priscilla.fitped.eu/data/pandas/space_titanic.csv')

# explore the dataset

df['AgeGroup'] = pd.cut(df['Age'], bins=range(0, 101, 10), right=False)

pocet = df.loc[df['Transported'] == True, 'AgeGroup'].value_counts()

agegroup = pocet.idxmax()

maxpocet = pocet[agegroup]

print(f"{agegroup}: {maxpocet}")

17. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite vekovú skupinu
pasažierov, ktorá mala najväčšiu pravdepodobnosť presunu do inej dimenzie. Vekové skupiny
vytvorte na intervale 10 rokov. Výsledok vypíšte v nasledovnom formáte, pričom uveďte aj
percento presunutých pasažierov zaokrúhlené na dve desatinné miesta: 60-69: 55.55

# import library
import pandas as pd

# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv

df=pd.read_csv('https://priscilla.fitped.eu/data/pandas/space_titanic.csv')

# explore the dataset

df['AgeGroup'] = pd.cut(df['Age'], bins=range(0, 101, 10),right=False)

percent = df.groupby('AgeGroup')['Transported'].mean() * 100

agegroup = percent.idxmax()

maxpercent= round(percent[agegroup], 2)

print(f"{agegroup}: {maxpercent}")

18. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite koľko pasažierov, ktorí
cestovali v skupinách, bolo presunutých do inej dimenzie (v skupine boli aspoň dvaja).
Informácia o skupine sa nachádza v premennej PassengerID

# import library

import pandas as pd

# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv

df=pd.read_csv('https://priscilla.fitped.eu/data/pandas/space_titanic.csv')

# explore the dataset

df['Group'] = df['PassengerId'].astype(str).str[-2:]

pocet = df[df.duplicated('Group', keep=False) & (df['Transported'] == True)].shape[0]


print(pocet)

You might also like