Download as pdf or txt
Download as pdf or txt
You are on page 1of 10

Data Sciences Lap2

Mustafa Raad Sabri


‫حذف االعمده غير الضرورية‬
df.drop(columns = "Not_Useful_Column",inplace=True)

df.drop_duplicates() ‫حذف الصفوف المتكرره‬


‫التعامل مع القيم الفارغه‬

‫)(‪df.dropna‬‬ ‫حذف الصفوف التي تحتوي قيم فارغه‬

‫)’‪df.fillna(‘your data‬‬ ‫ملئ القيم الفارغة بقيمه معينه انت تختارها‬

‫)(‪df.isnull().sum‬‬ ‫معرفة عدد القيم الفارغة في كل عمود‬


‫تحويل نوع بيانات لالعمده‬
• df['Column1'] = df['Column1'].astype(anytype)

pd.to_datetime(df['signup_date']) datatime ‫تحويل نوع العمود الى نوع‬


‫تصفية القيم داخل االعمده‬
df["Last_Name"] = df["Last_Name"].str.strip("._/")

‫) اذا وجدتها في العمود‬._/( ‫حذف الرموز‬

df[["Street_Address", "State", "Zip_Code"]] = df["Address"].str.split(',',2, expand=True)

‫كون اعمده جديده من ثالث قيم مفصوله‬


Address ‫) من عمود‬,(‫ب‬
‫تصفية القيم داخل االعمده‬
df['language'] = df['language'].str.capitalize()

‫ وتحول الوقت في الساعات والدقائق الى دقائق فقط‬string ‫دالة تاخذ قيم نوع‬

2 hr >> 120 min


df['time'] = df['time'].apply(convert_to_minutes)

datatime ‫ الى‬string ‫ يحتوي على تاريخ وتحول من‬string ‫دالة تاخذ قيم نوع‬
m/d/y ‫في حال كان الفورمات‬
pd.to_datetime(date_str, format='%m/%d/%Y')
‫تصفية القيم داخل االعمده‬
df["Do_Not_Contact"] = df["Do_Not_Contact"].str.replace('Yes','Y')

‫استبدال او تغيير قيم العمود عن طريق دالة‬


str.replace
for x in df.index:
if df.loc[x, "Do_Not_Contact"] == 'Y':
df.drop(x, inplace=True)

‫حذف الصفوف عن طريق شرط معين‬


outliers ‫التعامل مع القيم‬
Q1 = df['age'].quantile(0.25)
Q3 = df['age'].quantile(0.75)
IQR = Q3 - Q1
dataset ‫ على‬IQR ‫تطبيق المعادلة‬
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

for i in df.index:
if ‫حذف كل الصفوف التي تكون‬
(df.loc[i,'age']<lower_bound)|(df.loc[i,'age']>
upper_bound):
outliers ‫خارج نطاق‬
df.drop(i,inplace=True)
df
outliers ‫التعامل مع القيم‬
‫على‬Z-Scores ‫تطبيق المعادلة‬
df['z_scores']=zscore(df['purchase_amount’]) ‫العمود المطلوب عبر مكتبه جاهزه‬
from scipy.stats import zscore

for i in df.index:
if (df.loc[i,'z_scores']<-3) |
((df.loc[i,'z_scores']>3)): ‫حذف كل الصفوف التي تكون‬
df.drop(i,inplace=True) outliers ‫خارج نطاق‬
df
Thank you

You might also like