Download as pdf or txt
Download as pdf or txt
You are on page 1of 11

Data Sciences Lap3

Mustafa Raad Sabri


import pandas as pd
‫استدعاء المكتبه‬ import matplotlib.pylab as plt
import seaborn as sns
‫حذف القيم الفارغه في عمود محدد‬
df = df.dropna(subset=['Year'])
df = df.dropna(subset=['Gender'])

‫عرض جميع االعمده في الجدول‬


df.columns
‫حذف اكثر من عمود‬
• df = df.drop(['Case Number','Time','Date'], axis=1)

‫تغيير نوع البيانات لقيم عمود معين‬


df['Year'] = df['Year'].astype(int)
‫تغيير اسم االعمده في الجدول‬
df.rename(columns={'Gender ':'Gender','Fatal (Y/N)':'Fatal'}, inplace=True)

‫عرض جميع قيم العمود بدون تكرار‬

df['Year'].unique()
‫حذف قيم محدد من العمود وإبقاء قيم اخرى‬
‫لنفرض ان لدينا هذه القيم في عمود‪array(['N', 'Y', nan, 'M', '2017', 'UNKNOWN', ' N’]):‬‬

‫و نريد نتخلص من جميع القيم و نبقي فقط على ]’‪[‘N’ , ‘Y‬‬

‫])]’‪filtered_records = df[~df['Fatal'].isin(['N', 'Y‬‬

‫)‪df.drop(filtered_records.index, inplace=True‬‬
Bar chart
range ‫هذا النوع يحتاج صفوف ذات قيم محدده و ليس‬
years=df['Year'].value_counts().sort_index()
filtered_years = years.loc[(years.index >= 1990) & (years.index <= 2018)]

filtered_years.plot(kind='bar',figsize=(10,5))
plt.title('Attacks per year')
plt.xlabel('Year')
plt.ylabel('Attacks')
plt.show()
Histogram

‫يستخدم هذا النوع لتمثيل عدد تكرار القيم في الجدول‬

plt.hist(df['Age'], bins=10, edgecolor='black', color='blue’)


plt.title('Age distribution')
plt.xlabel('Age')
plt.ylabel('Attacks')
Scatterplot
‫يستخدم هذا النوع للمقارنه التأثير بين مجموعتين او بين عمودين‬

ax = sns.scatterplot(x='Year', y='Age', hue='Gender', data=df)

ax.set_title('Year vs. Age')

ax.grid(True)

ax.figure.set_size_inches(10, 6)
Correlation Matrix

‫ بين االعمده‬correlation ‫يستخدم هذا النوع تمثيل بياني لجميع قيم‬

df_corr = df[['Year','Age',]].dropna().corr()
sns.heatmap(df_corr, annot=True)
Thank you

You might also like