SUP - Projekt

1. Načítajte údaje z space_titanic.csv.
Preskúmajte údaje v datasete a zistite, ktoré

premenné neobsahujú chýbajúce údaje. Ako výsledok zapíšte premenné oddelené s čiarkami v
poradí v akom sa nachádzajú v dátovom súbore. Napr. HomePlanet, Cabin, Age
# import library
import pandas as pd
# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv
df=pd.read_csv('https://priscilla.fitped.eu/data/pandas/space_titanic.csv')
# explore the dataset
premenne = df.columns[df.notna().all()].tolist()
vysledok = ', '.join(premenne)

print(vysledok)
2. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite, koľko percent

chýbajúcich údajov obsahujú jednotlivé premenné. Vypočítajte najprv koľko percent
chýbajúcich hodnôt obsahuje každá premenná a potom budete vedieť stanoviť približný
výsledok za všetky premenné. Výsledok zaokrúhlite na celé čísla.
# import library
import pandas as pd
df=pd.read_csv('https://priscilla.fitped.eu/data/pandas/space_titanic.csv', sep=',')
percent_missing = (df.isnull().sum() / len(df)) * 100
percent_missing = percent_missing.round(0)
print(percent_missing)
3. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite, aký je priemerný vek
pasažierov na lodi. Výsledok zaokrúhlite na dve desatinné miesta.
# import library
import pandas as pd

avg_age = round(df['Age'].mean(), 2)
print(avg_age)
4. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite, koľko rôznych skupín
pasažierov je evidovaných na lodi.
# import library
import pandas as pd
pocet_skupin = df['PassengerId'].str[-2:].nunique()
print(pocet_skupin)

pasažierov cestuje z Marsu? Výsledok zaokrúhlite na celé čísla.
# import library
import pandas as pd
pocet_mars_passazieri = df[df['HomePlanet'] == 'Mars']['PassengerId'].count()
pocet_passazieri = len(df)
percento_mars_passazieri = (pocet_mars_passazieri / pocet_passazieri) * 100
percento_mars_passazieri = round(percento_mars_passazieri)
print(percento_mars_passazieri)

pasažierov cestuje v cryo-spánku? Výsledok zaokrúhlite na celé čísla.
# import library
import pandas as pd
pocet_cryo_passazieri = df[df['CryoSleep'] == True]['PassengerId'].count()
pocet_passazieri = len(df)
percento_cryo_passazieri = (pocet_cryo_passazieri / pocet_passazieri) * 100
percento_cryo_passazieri = round(percento_cryo_passazieri)
print(percento_cryo_passazieri)

pasažierov si priplatilo za VIP služby na lodi? Výsledok zaokrúhlite na celé čísla.
# import library
import pandas as pd

print(round(len(df[df['VIP'] == True])/len(df)*100))
8. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite, ktorý graf zodpovedá
správnej vizualizácií rozdelenia veku pasažierov na lodi.
# import library
import pandas as pd
import matplotlib.pyplot as plt
plt.hist(df['Age'], bins=10)
plt.ylabel('Frequency')
plt.show()
9. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite, na ktorej palube sa

nachádzalo najviac pasažierov. Vypíšte aj počet pasažierov ubytovaných na danej palube.
# import library
import pandas as pd
pocet = df['Cabin'].str[0].value_counts()
paluba = pocet.idxmax()
maxi = pocet.max()
print(f"{paluba}: {maxi}")
pasažierov bolo po stretnutí s anomáliou presunutých do inej dimenzie? Výsledok zaokrúhlite na
celé čísla.
# import library
import pandas as pd

print(round(len(df[df['Transported'] == True])/len(df)*100))
11. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite, aké bolo percentuálne
rozloženie planéty pôvodu presunutých pasažierov. Inými slovami chceme vedieť, koľko percent
pasažierov bolo presunutých do inej dimenzie na základe ich domovskej planéty (pozor, súčet
týchto percent nemusí byť 100). Výsledok zaokrúhlite na celé čísla a vypíšte v nasledovnom
tvare: Earth: 40, Mars: 70, Europa: 20
# import library
import pandas as pd
pocetpres = df[df['Transported']]['HomePlanet'].value_counts()
pocetpas = df['HomePlanet'].value_counts()
percent = (pocetpres / pocetpas) * 100

percent = percent.round().astype(int)
percent = percent.reindex(['Earth', 'Mars', 'Europa'])
vysledok = ', '.join([f"{planeta}: {percento}" for planeta, percento in percent.items()])

print(vysledok)
12. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite, čo sa stalo s

pasažiermi v cryo-spánku po havárií s anomáliou.
# import library
import pandas as pd
df['CryoSleep'].fillna(False, inplace=True)
df['Transported'].fillna(False, inplace=True)
pocetcryo = df[df['CryoSleep']]['PassengerId'].count()
pocetpres = df[df['Transported']]['PassengerId'].count()
pocetct = df[(df['CryoSleep']) & (df['Transported'])]['PassengerId'].count()
pocetall = len(df)
print('cryo:',pocetcryo)
print('transport:',pocetpres)
print('cryo-transport:',pocetct)
print('all:',pocetall)
13. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite, z ktorej paluby bolo
po havárií presunutých najviac pasažierov do inej dimenzie. Vypíšte spolu s názvom paluby, aj
počet presunutých pasažierov.
# import library
import pandas as pd

transported = df[df['Transported'] == True]
pocetpalub = transported['Cabin'].str[0].value_counts()
maxpalub = pocetpalub.idxmax()
pocetpasazierov = pocetpalub.max()
print(f"{maxpalub}: {pocetpasazierov}")
14. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite, z ktorej strany paluby
bolo po havárií presunutých najviac pasažierov do inej dimenzie. Vypíšte spolu s názvom strany
(Portside alebo Starboard), aj počet presunutých pasažierov.
# import library
import pandas as pd
trans = df[df['Transported']]
strana = trans['Cabin'].str[6]
maxtrans = strana.value_counts().idxmax()
pocet = strana.value_counts().max()
print(f"{maxtrans}: {pocet}")
15. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite, aký bol rozdiel v
utrácaní pasažierov v luxusných službách lode. Porovnajte priemernú spotrebu pasažierov, ktorí
boli presunutý do inej dimenzie a tými, ktorí neboli. Výslednú spotrebu zaokrúhlite na dve
desatinné miesta a vypíšte v nasledovnom formáte: Transported: 153.52 Saved: 133.41
Nezabudnite doplniť chýbajúce hodnoty v skúmaných premenných!
# import library
import pandas as pd
df['RoomService'].fillna(0, inplace=True)
df['FoodCourt'].fillna(0, inplace=True)
df['ShoppingMall'].fillna(0, inplace=True)
df['Spa'].fillna(0, inplace=True)
df['VRDeck'].fillna(0, inplace=True)
priemertrans = df[df['Transported']]['RoomService'].mean() + df[df['Transported']]

['FoodCourt'].mean() + df[df['Transported']]['ShoppingMall'].mean() + df[df['Transported']]
['Spa'].mean() + df[df['Transported']]['VRDeck'].mean()
priemersaved = df[~df['Transported']]['RoomService'].mean() + df[~df['Transported']]

['FoodCourt'].mean() + df[~df['Transported']]['ShoppingMall'].mean() + df[~df['Transported']]
['Spa'].mean() + df[~df['Transported']]['VRDeck'].mean()
priemertrans = round(priemertrans, 2)
priemersaved = round(priemersaved, 2)
vysledok = f"Transported: {priemertrans} Saved: {priemersaved}"

print(vysledok)
16. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite, vekovú skupinu
pasažierov, ktorých bolo najviac presunutých do inej dimenzie. Vekové skupiny vytvorte na
intervale 10 rokov. Výsledok vypíšte v nasledovnom formáte, pričom uveďte aj počet
presunutých pasažierov: 60-69: 785
# import library
import pandas as pd
df['AgeGroup'] = pd.cut(df['Age'], bins=range(0, 101, 10), right=False)
pocet = df.loc[df['Transported'] == True, 'AgeGroup'].value_counts()
agegroup = pocet.idxmax()
maxpocet = pocet[agegroup]
print(f"{agegroup}: {maxpocet}")
17. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite vekovú skupinu
pasažierov, ktorá mala najväčšiu pravdepodobnosť presunu do inej dimenzie. Vekové skupiny
vytvorte na intervale 10 rokov. Výsledok vypíšte v nasledovnom formáte, pričom uveďte aj
percento presunutých pasažierov zaokrúhlené na dve desatinné miesta: 60-69: 55.55
# import library
import pandas as pd
df['AgeGroup'] = pd.cut(df['Age'], bins=range(0, 101, 10),right=False)
percent = df.groupby('AgeGroup')['Transported'].mean() * 100
agegroup = percent.idxmax()
maxpercent= round(percent[agegroup], 2)
print(f"{agegroup}: {maxpercent}")
18. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite koľko pasažierov, ktorí
cestovali v skupinách, bolo presunutých do inej dimenzie (v skupine boli aspoň dvaja).
Informácia o skupine sa nachádza v premennej PassengerID
# import library
import pandas as pd
df['Group'] = df['PassengerId'].astype(str).str[-2:]
pocet = df[df.duplicated('Group', keep=False) & (df['Transported'] == True)].shape[0]

print(pocet)

SUP - Projekt

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

SUP - Projekt

Uploaded by

Copyright:

Available Formats

1. Načítajte údaje z space_titanic.csv.

Preskúmajte údaje v datasete a zistite, ktoré

# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv

# explore the dataset

vysledok = ', '.join(premenne)

2. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite, koľko percent

# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv

# explore the dataset

percent_missing = (df.isnull().sum() / len(df)) * 100

# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv

# explore the dataset

# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv

# explore the dataset

5. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite, koľko percent

# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv

# explore the dataset

pocet_mars_passazieri = df[df['HomePlanet'] == 'Mars']['PassengerId'].count()

percento_mars_passazieri = (pocet_mars_passazieri / pocet_passazieri) * 100

6. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite, koľko percent

# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv

pocet_cryo_passazieri = df[df['CryoSleep'] == True]['PassengerId'].count()

percento_cryo_passazieri = (pocet_cryo_passazieri / pocet_passazieri) * 100

7. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite, koľko percent

# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv

# explore the dataset

import matplotlib.pyplot as plt

# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv

# explore the dataset

9. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite, na ktorej palube sa

# explore the dataset

# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv

# explore the dataset

# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv

# explore the dataset

percent = (pocetpres / pocetpas) * 100

percent = percent.reindex(['Earth', 'Mars', 'Europa'])

vysledok = ', '.join([f"{planeta}: {percento}" for planeta, percento in percent.items()])

12. Načítajte údaje z space_titanic.csv. Preskúmajte údaje v datasete a zistite, čo sa stalo s

# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv

# explore the dataset

pocetct = df[(df['CryoSleep']) & (df['Transported'])]['PassengerId'].count()

# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv

# explore the dataset

# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv

# explore the dataset

Nezabudnite doplniť chýbajúce hodnoty v skúmaných premenných!

# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv

# explore the dataset

priemertrans = df[df['Transported']]['RoomService'].mean() + df[df['Transported']]

priemersaved = df[~df['Transported']]['RoomService'].mean() + df[~df['Transported']]

vysledok = f"Transported: {priemertrans} Saved: {priemersaved}"

# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv

# explore the dataset

df['AgeGroup'] = pd.cut(df['Age'], bins=range(0, 101, 10), right=False)

pocet = df.loc[df['Transported'] == True, 'AgeGroup'].value_counts()

# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv

# explore the dataset

df['AgeGroup'] = pd.cut(df['Age'], bins=range(0, 101, 10),right=False)

percent = df.groupby('AgeGroup')['Transported'].mean() * 100

# read csv from https://priscilla.fitped.eu/data/pandas/space_titanic.csv

# explore the dataset

pocet = df[df.duplicated('Group', keep=False) & (df['Transported'] == True)].shape[0]

You might also like