SUP - Projekt

1. Načítajte údaje z space_titanic.csv.
Preskúmajte údaje v datasete a zistite, ktoré

premenné neobsahujú chýbajúce údaje. Ako výsledok zapíšte premenné oddelené s
čiarkami v poradí v akom sa nachádzajú v dátovom súbore. Napr. HomePlanet, Cabin,
Age
# import library
import pandas as pd
# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv
df=pd.read_csv('https://priscilla.fitped.eu/data/pandas/space_titanic.csv')
# explore the dataset
premenne = df.columns[df.notna().all()].tolist()
vysledok = ', '.join(premenne)
print(vysledok)
2. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite, koľko

percent chýbajúcich údajov obsahujú jednotlivé premenné. Vypočítajte najprv koľko
percent chýbajúcich hodnôt obsahuje každá premenná a potom budete vedieť stanoviť
približný výsledok za všetky premenné. Výsledok zaokrúhlite na celé čísla.
# import library
import pandas as pd
df=pd.read_csv('https://priscilla.fitped.eu/data/pandas/space_titanic.csv', sep=',')
percent_missing = (df.isnull().sum() / len(df)) * 100
percent_missing = percent_missing.round(0)
print(percent_missing)
3. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite, aký je

priemerný vek pasažierov na lodi. Výsledok zaokrúhlite na dve desatinné miesta.
# import library
import pandas as pd

avg_age = round(df['Age'].mean(), 2)
print(avg_age)

rôznych skupín pasažierov je evidovaných na lodi.
# import library
import pandas as pd
pocet_skupin = df['PassengerId'].str[-2:].nunique()
print(pocet_skupin)

percent pasažierov cestuje z Marsu? Výsledok zaokrúhlite na celé čísla.
# import library
import pandas as pd
pocet_mars_passazieri = df[df['HomePlanet'] == 'Mars']['PassengerId'].count()
pocet_passazieri = len(df)
percento_mars_passazieri = (pocet_mars_passazieri / pocet_passazieri) * 100
percento_mars_passazieri = round(percento_mars_passazieri)
print(percento_mars_passazieri)

percent pasažierov cestuje v cryo-spánku? Výsledok zaokrúhlite na celé čísla.
# import library
import pandas as pd
pocet_cryo_passazieri = df[df['CryoSleep'] == True]['PassengerId'].count()
pocet_passazieri = len(df)
percento_cryo_passazieri = (pocet_cryo_passazieri / pocet_passazieri) * 100
percento_cryo_passazieri = round(percento_cryo_passazieri)
print(percento_cryo_passazieri)

percent pasažierov si priplatilo za VIP služby na lodi? Výsledok zaokrúhlite na celé čísla.
# import library
import pandas as pd
print(round(len(df[df['VIP'] == True])/len(df)*100))
8. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite, ktorý graf

zodpovedá správnej vizualizácií rozdelenia veku pasažierov na lodi.
# import library
import pandas as pd
import matplotlib.pyplot as plt
plt.hist(df['Age'], bins=10)
plt.ylabel('Frequency')
plt.show()
9. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite, na ktorej

palube sa nachádzalo najviac pasažierov. Vypíšte aj počet pasažierov ubytovaných na
danej palube.
# import library
import pandas as pd
pocet = df['Cabin'].str[0].value_counts()
paluba = pocet.idxmax()
maxi = pocet.max()
print(f"{paluba}: {maxi}")

percent pasažierov bolo po stretnutí s anomáliou presunutých do inej dimenzie?
Výsledok zaokrúhlite na celé čísla.
# import library
import pandas as pd
print(round(len(df[df['Transported'] == True])/len(df)*100))
11. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite, aké bolo
percentuálne rozloženie planéty pôvodu presunutých pasažierov. Inými slovami chceme
vedieť, koľko percent pasažierov bolo presunutých do inej dimenzie na základe ich
domovskej planéty (pozor, súčet týchto percent nemusí byť 100). Výsledok zaokrúhlite
na celé čísla a vypíšte v nasledovnom tvare: Earth: 40, Mars: 70, Europa: 20
# import library
import pandas as pd
pocetpres = df[df['Transported']]['HomePlanet'].value_counts()
pocetpas = df['HomePlanet'].value_counts()
percent = (pocetpres / pocetpas) * 100
percent = percent.round().astype(int)
percent = percent.reindex(['Earth', 'Mars', 'Europa'])
vysledok = ', '.join([f"{planeta}: {percento}" for planeta, percento in percent.items()])
print(vysledok)
12. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite, čo sa stalo s

pasažiermi v cryo-spánku po havárií s anomáliou.
# import library
import pandas as pd
df['CryoSleep'].fillna(False, inplace=True)
df['Transported'].fillna(False, inplace=True)
pocetcryo = df[df['CryoSleep']]['PassengerId'].count()
pocetpres = df[df['Transported']]['PassengerId'].count()
pocetct = df[(df['CryoSleep']) & (df['Transported'])]['PassengerId'].count()
pocetall = len(df)
print('cryo:',pocetcryo)
print('transport:',pocetpres)
print('cryo-transport:',pocetct)
print('all:',pocetall)
13. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite, z ktorej

paluby bolo po havárií presunutých najviac pasažierov do inej dimenzie. Vypíšte spolu s
názvom paluby, aj počet presunutých pasažierov.
# import library
import pandas as pd
transported = df[df['Transported'] == True]
pocetpalub = transported['Cabin'].str[0].value_counts()
maxpalub = pocetpalub.idxmax()
pocetpasazierov = pocetpalub.max()
print(f"{maxpalub}: {pocetpasazierov}")
14. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite, z ktorej

strany paluby bolo po havárií presunutých najviac pasažierov do inej dimenzie. Vypíšte
spolu s názvom strany (Portside alebo Starboard), aj počet presunutých pasažierov.
# import library
import pandas as pd
trans = df[df['Transported']]
strana = trans['Cabin'].str[6]
maxtrans = strana.value_counts().idxmax()
pocet = strana.value_counts().max()
print(f"{maxtrans}: {pocet}")
15. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite, aký bol
rozdiel v utrácaní pasažierov v luxusných službách lode. Porovnajte priemernú spotrebu
pasažierov, ktorí boli presunutý do inej dimenzie a tými, ktorí neboli. Výslednú spotrebu
zaokrúhlite na dve desatinné miesta a vypíšte v nasledovnom formáte: Transported:
153.52 Saved: 133.41
Nezabudnite doplniť chýbajúce hodnoty v skúmaných premenných!
# import library
import pandas as pd
df['RoomService'].fillna(0, inplace=True)
df['FoodCourt'].fillna(0, inplace=True)
df['ShoppingMall'].fillna(0, inplace=True)
df['Spa'].fillna(0, inplace=True)
df['VRDeck'].fillna(0, inplace=True)
priemertrans = df[df['Transported']]['RoomService'].mean() +
df[df['Transported']]['FoodCourt'].mean() + df[df['Transported']]['ShoppingMall'].mean() +
df[df['Transported']]['Spa'].mean() + df[df['Transported']]['VRDeck'].mean()
priemersaved = df[~df['Transported']]['RoomService'].mean() +
df[~df['Transported']]['FoodCourt'].mean() +
df[~df['Transported']]['ShoppingMall'].mean() + df[~df['Transported']]['Spa'].mean() +
df[~df['Transported']]['VRDeck'].mean()
priemertrans = round(priemertrans, 2)
priemersaved = round(priemersaved, 2)
vysledok = f"Transported: {priemertrans} Saved: {priemersaved}"
print(vysledok)
16. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite, vekovú

skupinu pasažierov, ktorých bolo najviac presunutých do inej dimenzie. Vekové skupiny
vytvorte na intervale 10 rokov. Výsledok vypíšte v nasledovnom formáte, pričom uveďte
aj počet presunutých pasažierov: 60-69: 785
# import library
import pandas as pd
df['AgeGroup'] = pd.cut(df['Age'], bins=range(0, 101, 10), right=False)
pocet = df.loc[df['Transported'] == True, 'AgeGroup'].value_counts()
agegroup = pocet.idxmax()
maxpocet = pocet[agegroup]
print(f"{agegroup}: {maxpocet}")
17. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite vekovú

skupinu pasažierov, ktorá mala najväčšiu pravdepodobnosť presunu do inej dimenzie.
Vekové skupiny vytvorte na intervale 10 rokov. Výsledok vypíšte v nasledovnom
formáte, pričom uveďte aj percento presunutých pasažierov zaokrúhlené na dve
desatinné miesta: 60-69: 55.55
# import library
import pandas as pd
df['AgeGroup'] = pd.cut(df['Age'], bins=range(0, 101, 10),right=False)
percent = df.groupby('AgeGroup')['Transported'].mean() * 100
agegroup = percent.idxmax()
maxpercent= round(percent[agegroup], 2)
print(f"{agegroup}: {maxpercent}")
18. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite koľko

pasažierov, ktorí cestovali v skupinách, bolo presunutých do inej dimenzie (v skupine
boli aspoň dvaja). Informácia o skupine sa nachádza v premennej PassengerID
# import library
import pandas as pd
df['Group'] = df['PassengerId'].astype(str).str[-2:]
pocet = df[df.duplicated('Group', keep=False) & (df['Transported'] == True)].shape[0]
print(pocet)

SUP - Projekt

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

SUP - Projekt

Uploaded by

Copyright:

Available Formats

1. Načítajte údaje z space_titanic.csv.

Preskúmajte údaje v datasete a zistite, ktoré

# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv

# explore the dataset

vysledok = ', '.join(premenne)

2. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite, koľko

# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv

# explore the dataset

percent_missing = (df.isnull().sum() / len(df)) * 100

3. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite, aký je

# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv

# explore the dataset

4. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite, koľko

# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv

# explore the dataset

5. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite, koľko

# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv

# explore the dataset

pocet_mars_passazieri = df[df['HomePlanet'] == 'Mars']['PassengerId'].count()

percento_mars_passazieri = (pocet_mars_passazieri / pocet_passazieri) * 100

6. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite, koľko

# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv

# explore the dataset

pocet_cryo_passazieri = df[df['CryoSleep'] == True]['PassengerId'].count()

percento_cryo_passazieri = (pocet_cryo_passazieri / pocet_passazieri) * 100

7. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite, koľko

# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv

# explore the dataset

8. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite, ktorý graf

import matplotlib.pyplot as plt

# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv

# explore the dataset

9. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite, na ktorej

# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv

# explore the dataset

10. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite, koľko

# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv

# explore the dataset

# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv

# explore the dataset

percent = (pocetpres / pocetpas) * 100

percent = percent.reindex(['Earth', 'Mars', 'Europa'])

vysledok = ', '.join([f"{planeta}: {percento}" for planeta, percento in percent.items()])

12. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite, čo sa stalo s

# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv

# explore the dataset

pocetct = df[(df['CryoSleep']) & (df['Transported'])]['PassengerId'].count()

13. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite, z ktorej

# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv

# explore the dataset

transported = df[df['Transported'] == True]

14. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite, z ktorej

# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv

# explore the dataset

Nezabudnite doplniť chýbajúce hodnoty v skúmaných premenných!

# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv

# explore the dataset

vysledok = f"Transported: {priemertrans} Saved: {priemersaved}"

16. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite, vekovú

# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv

# explore the dataset

df['AgeGroup'] = pd.cut(df['Age'], bins=range(0, 101, 10), right=False)

pocet = df.loc[df['Transported'] == True, 'AgeGroup'].value_counts()

17. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite vekovú