Download as pdf or txt
Download as pdf or txt
You are on page 1of 22

‫‪Week 1‬‬

‫‪DATA INTEGRITY‬‬
‫سالمة البيانات هي الدقة واالكتمال ‪،‬االتساق ‪ ،‬والجدارة بثقة البيانات طوال دورة حياتها‪.‬‬

‫‪DATA REPLICATION‬‬
‫تكرار البيانات هي عملية تخزين البيانات في مواقع متعددة‪.‬‬

‫‪DATA TRANSFER‬‬
‫نقل البيانات ‪،‬هي عملية نسخ البيانات من جهاز التخزين في الذاكرة ‪ ،‬أو من كمبيوتر إلى آخر‪.‬‬

‫‪DATA MANIPULATION‬‬
‫تتضمن عملية معالجة البيانات التغيير البيانات وجعلها أكثر تنظيما وأسهل في القراءة‪.‬‬
‫قيد البيانات‬ ‫تعريف‬ ‫أمثلة‬

‫يجب أن تكون القيم من نوع‬


‫نوع البيانات‬ ‫إذا كان نوع البيانات عبارة عن تاريخ‪ ،‬فسيفشل رقم واحد مثل ‪ 30‬في القيد‬
‫معين‪ :‬التاريخ‪ ،‬العدد‪ ،‬النسبة‬
‫‪Data type‬‬ ‫ويكون غير صالح‬
‫‪.‬المئوية‪ ،‬القيمة المنطقية‪ ،‬إلخ‬
‫يجب أن تقع القيم بين الحد‬
‫نطاق البيانات‬ ‫إذا كان نطاق البيانات هو ‪ ،20-10‬فإن القيمة ‪ 30‬ستفشل في القيد وتكون‬
‫األقصى والحد األدنى المحددين‬
‫‪Data range‬‬ ‫غير صالحة‬
‫مسبقًا‬
‫إلزامي‬ ‫ال يمكن ترك القيم فارغة أو‬
‫إذا كان العمر إلزاميًا‪ ،‬فيجب ملء هذه القيمة‬
‫‪Mandatory‬‬ ‫فارغة‬
‫فريد‬
‫ال يمكن أن يكون للقيم تكرار‬ ‫ال يمكن أن يمتلك شخصان نفس رقم الهاتف المحمول في نفس منطقة الخدمة‬
‫‪Unique‬‬
‫أنماط التعبير العادي‬
‫)‪(regex‬‬ ‫يجب أن تتطابق القيم مع النمط‬ ‫يجب أن يتطابق رقم الهاتف مع ‪( #### - ### - ###‬غير مسموح بأحرف‬
‫‪Regular expression‬‬ ‫المحدد‬ ‫أخرى)‬
‫‪(regex) patterns‬‬
‫التحقق عبر الحقول‬ ‫يجب استيفاء شروط معينة‬ ‫القيم هي النسب المئوية والقيم من الحقول المتعددة يجب أن يصل مجموعها‬
‫‪Cross-field‬‬
‫لحقول متعددة‬ ‫إلى ‪٪100‬‬
‫‪validation‬‬

‫ال يمكن أن يحتوي جدول قاعدة البيانات على صفين بنفس قيمة المفتاح‬
‫المفتاح األساسي‬ ‫(قواعد البيانات فقط) يجب أن‬ ‫المفتاح األساسي هو معرف في قاعدة بيانات يشير إلى عمود ‪.‬األساسي‬
‫‪Primary-key‬‬ ‫تكون قيمة فريدة لكل عمود‬ ‫يتم توفير مزيد من المعلومات حول المفاتيح ‪.‬تكون فيه كل قيمة فريدة‬
‫‪.‬األساسية والخارجية الحقًا في البرنامج‬

‫(قواعد البيانات فقط) يجب أن‬


‫تعيين العضوية‬
‫تأتي قيم العمود من مجموعة‬ ‫"يجب تعيين قيمة العمود إلى "نعم" أو "ال" أو "غير قابل للتطبيق‬
‫‪Set-membership‬‬
‫من القيم المنفصلة‬
‫(قواعد البيانات فقط) يجب أن‬
‫في قاعدة بيانات دافعي الضرائب في الواليات المتحدة‪ ،‬يجب أن يكون عمود‬
‫مفتاح جانبي‬ ‫تكون قيم العمود عبارة عن قيم‬
‫الوالية والية أو إقليم صال ًحا مع مجموعة من القيم المقبولة المحددة في جدول‬
‫‪Foreign-key‬‬ ‫فريدة قادمة من عمود في‬
‫منفصل للواليات‬
‫جدول آخر‬
‫الدرجة التي تتوافق بها البيانات‬
‫دقه‬ ‫إذا تم التحقق من صحة قيم الرموز البريدية من خالل موقع الشارع‪ ،‬فإن دقة‬
‫مع الكيان الفعلي الذي يتم قياسه‬
‫‪Accuracy‬‬ ‫‪.‬البيانات ترتفع‬
‫أو وصفه‬

‫الدرجة التي تحتوي بها البيانات‬


‫االكتمال‬ ‫إذا كانت البيانات الخاصة بالملفات الشخصية تتطلب لون الشعر والعين‪ ،‬وتم‬
‫على جميع المكونات أو‬
‫‪Completeness‬‬ ‫‪.‬جمع كالهما‪ ،‬تكون البيانات كاملة‬
‫القياسات المطلوبة‬
‫الدرجة التي يتم بها تكرار‬
‫التناسق‬ ‫إذا كان للعميل نفس العنوان في قواعد بيانات المبيعات واإلصالح‪ ،‬تكون‬
‫البيانات من نقاط دخول أو‬
‫‪Consistency‬‬ ‫‪.‬البيانات متسقة‬
‫تجميع مختلفة‬
‫لمعرفة ما إذا كانت بياناتك تتوافق مع هدف عملك‪.‬‬
‫• عندما تكون هناك بيانات نظيفة ومحاذاة جيدة‪ ،‬يمكنك الحصول على رؤى دقيقة والتوصل إلى استنتاجات تدعمها‬
‫البيانات‪.‬‬

‫• إذا كان هناك محاذاة جيدة ولكن البيانات بحاجة للتنظيف‪ ،‬فقم بتنظيف البيانات قبل إجراء التحليل‪.‬‬

‫• إذا كانت البيانات تتماشى جزئيًا مع هدف ما‪ ،‬ففكر في كيفية تعديل الهدف‪ ،‬أو استخدم قيود البيانات للتأكد من أن‬
‫المجموعة الفرعية من البيانات تتوافق بشكل أفضل مع هدف العمل‪.‬‬

‫عندما تجد مشكلة في بياناتك‬

‫عندما تستعد لتحليل البيانات ‪ ،‬قد تدرك أنه ليس لديك البيانات التي تحتاجها أو ليس لديك ما يكفي منها ‪.‬في بعض الحاالت‬
‫‪ ،‬يمكنك استخدام ما يعرف ببيانات الوكيل بدالً من البيانات الحقيقية ‪.‬فكر في األمر مثل استبدال الزبدة بالزيت في الوصفة‬
‫عندما ال يكون لديك زبدة ‪.‬في حاالت أخرى ‪ ،‬ال يوجد بديل معقول وخيارك الوحيد هو جمع المزيد من البيانات‪.‬‬
‫ضع في اعتبارك مشكالت البيانات التالية واالقتراحات حول كيفية التغلب عليها‪.‬‬

‫مشكلة البيانات ‪ :1‬ال توجد بيانات‬

‫الحلول الممكنة‬ ‫أمثلة على الحلول في الحياة الواقعية‬

‫اجمع البيانات على نطاق صغير إلجراء تحليل أولي‬ ‫إذا كنت تقوم باستطالع آراء الموظفين حول ما يفكرون به بشأن األداء‬
‫ثم اطلب وقتًا إضافيًا إلكمال التحليل بعد أن تكون قد‬ ‫الجديد وخطة المكافآت‪ ،‬فاستخدم عينة لتحليل أولي ‪.‬بعد ذلك‪ ،‬اطلب ‪3‬‬
‫جمعت المزيد من البيانات‪.‬‬ ‫أسابيع أخرى لجمع البيانات من جميع الموظفين‪.‬‬

‫إذا لم يكن هناك وقت لجمع البيانات‪ ،‬فقم بإجراء‬ ‫إذا كنت تقوم بتحليل أوقات الذروة للسفر للركاب ولكن ليس لديك‬
‫التحليل باستخدام بيانات الوكيل من مجموعات البيانات‬ ‫بيانات لمدينة معينة‪ ،‬فاستخدم البيانات من مدينة أخرى بنفس الحجم‬
‫األخرى ‪.‬هذا هو الحل األكثر شيوعا‪.‬‬ ‫والديموغرافية‪.‬‬
‫مشكلة البيانات ‪ :2‬بيانات قليلة جدا‬

‫الحلول الممكنة‬ ‫أمثلة على الحلول في الحياة الواقعية‬


‫قم بإجراء التحليل باستخدام‬
‫إذا كنت تقوم بتحليل االتجاهات لمالكي المستردات الذهبية‪ ،‬فاجعل مجموعة البيانات‬
‫بيانات الوكيل جنبًا إلى جنب‬
‫الخاصة بك أكبر من خالل تضمين البيانات من مالكي الالبرادور ‪.‬‬
‫مع البيانات الفعلية‪.‬‬

‫اضبط تحليلك ليتماشى مع‬ ‫إذا كنت تفتقد البيانات الخاصة باألشخاص الذين تتراوح أعمارهم بين ‪ 18‬و‪ 24‬عا ًما‪،‬‬
‫فقم بإجراء التحليل ولكن الحظ القيود التالية في تقريرك ‪:‬ينطبق هذا االستنتاج على‬
‫البيانات التي لديك بالفعل‪.‬‬
‫البالغين ‪ 25‬عاما فما فوق فقط‪.‬‬

‫مشكلة البيانات ‪ :3‬بيانات خاطئة‪ ،‬بما في ذلك البيانات التي بها أخطاء*‬

‫الحلول الممكنة‬ ‫أمثلة على الحلول في الحياة الواقعية‬


‫إذا كنت بحاجة إلى البيانات الخاصة بالناخبات‬
‫إذا كانت لديك بيانات خاطئة بسبب سوء فهم المتطلبات‪ ،‬فأبلغ‬
‫وتلقيت البيانات الخاصة بالناخبين الذكور‪ ،‬فأعد‬
‫المتطلبات مرة أخرى‪.‬‬
‫تحديد احتياجاتك‪.‬‬
‫إذا كانت بياناتك موجودة في جدول بيانات وكان‬
‫تحديد األخطاء في البيانات‪ ،‬وإذا أمكن ‪ ،‬قم بتصحيحها في‬ ‫هناك عبارة شرطية أو منطقية تسبب في أن‬
‫المصدر من خالل البحث عن نمط في األخطاء‪.‬‬ ‫تكون الحسابات خاطئة‪ ،‬فقم بتغيير العبارة‬
‫الشرطية بدالً من مجرد إصالح القيم المحسوبة‪.‬‬
‫إذا لم تتمكن من تصحيح أخطاء البيانات بنفسك‪ ،‬فيمكنك تجاهل‬ ‫إذا تمت ترجمة مجموعة البيانات الخاصة بك‬
‫ملف بيانات خاطئة والمضي قد ًما في التحليل إذا كان حجم عينتك‬ ‫من لغة مختلفة وكانت بعض الترجمات غير‬
‫كبيرا بدرجة كافية ولن يتسبب تجاهل البيانات في تحيز‬
‫ال يزال ً‬ ‫منطقية‪ ،‬فتجاهل البيانات التي تحتوي على‬
‫منهجي‪.‬‬ ‫ترجمة سيئة وتابع تحليل البيانات األخرى‪.‬‬

‫*مالحظة مهمة‪ :‬في بعض األحيان ‪ ،‬يمكن أن تكون البيانات التي بها أخطاء عالمة تحذير على‬
‫عدم موثوقية البيانات ‪.‬استخدم أفضل حكم لديك‪.‬‬
‫استخدم شجرة القرار التالية كتذكير لكيفية التعامل مع أخطاء البيانات أو عدم وجود بيانات كافية‪:‬‬
‫حساب حجم العينة‬

‫المصطلح‬ ‫تعريفات‬

‫على سبيل المثال‪ ،‬إذا كنت تقوم باستطالع آراء األشخاص في شركتك‪ ،‬فسيكون ‪.‬المجموعة الكاملة التي تهتم بها لدراستك‬
‫تعداد سكاني‬
‫‪.‬السكان جميع الموظفين في شركتك‬

‫لذلك إذا كانت شركتك كبيرة جدًا ‪.‬تما ًما مثل عينة الطعام‪ ،‬يطلق عليها عينة ألنها مجرد طعم ‪.‬مجموعة فرعية من سكانك‬
‫عينة‬
‫‪.‬بحيث ال يمكنها إجراء مسح لكل فرد‪ ،‬فيمكنك إجراء مسح لعينة تمثيلية من مجتمعك‬

‫نظرا الستخدام العينة لتمثيل السكان‪ ،‬فمن المتوقع أن تختلف نتائج العينة عما كانت ستكون عليه إذا كنت قد أجريت مس ًحا‬
‫ً‬
‫هامش الخطأ‬ ‫كلما كان هامش الخطأ أصغر‪ ،‬كلما كانت نتائج العينة أقرب إلى النتيجة ‪.‬يسمى هذا االختالف بهامش الخطأ ‪.‬للسكان بأكمله‬
‫‪.‬التي كانت ستحصل عليها إذا قمت بمسح المجتمع بأكمله‬

‫على سبيل المثال‪ ،‬يعني مستوى الثقة ‪ ٪95‬أنك إذا أجريت نفس االستطالع ‪ 100‬مرة‪. ،‬ما مدى ثقتك في نتائج االستطالع‬
‫مستوى الثقة‬ ‫يتم استهداف مستوى الثقة قبل أن تبدأ دراستك ألنه سيؤثر على حجم ‪.‬فستحصل على نتائج مماثلة ‪ 95‬مرة من تلك المائة مرة‬
‫‪.‬هامش الخطأ في نهاية دراستك‬

‫فاصل الثقة‬ ‫‪.‬هذا النطاق هو نتيجة العينة ‪ -/+‬هامش الخطأ ‪.‬نطاق القيم المحتملة التي ستكون نتيجة المجتمع على مستوى ثقة الدراسة‬

‫داللة إحصائية‬ ‫‪.‬كلما ازدادت األهمية‪ ،‬قلّت المصادفة ‪.‬تحديد ما إذا كانت نتيجتك ناتجة عن فرصة عشوائية أم ال‬
‫عند تحديد حجم العينة‪ ،‬إليك أشياء يجب وضعها في االعتبار‪:‬‬

‫ال تستخدم حجم عينة أقل من ‪ .30‬لقد ثبت إحصائيًا أن ‪ 30‬هو أصغر حجم للعينة حيث يبدأ متوسط نتيجة‬ ‫•‬
‫العينة في تمثيل متوسط نتيجة مجتمع ما‪.‬‬
‫عا هو ‪ ،٪95‬لكن ‪ ٪90‬يمكن أن يعمل في بعض الحاالت ‪.‬‬ ‫مستوى الثقة األكثر شيو ً‬ ‫•‬

‫قم بزيادة حجم العينة لتلبية االحتياجات المحددة لمشروعك‪:‬‬


‫للحصول على مستوى ثقة أعلى‪ ،‬استخدم حجم عينة أكبر‬ ‫•‬
‫لتقليل هامش الخطأ‪ ،‬استخدم حجم عينة أكبر‬ ‫•‬
‫للحصول على داللة إحصائية أكبر‪ ،‬استخدم حجم عينة أكبر‬ ‫•‬

‫لماذا ال تقل العينة عن ‪30‬؟‬


‫تستند هذه التوصية إلى نظرية الحدود المركزية )‪ Central Limit Theorem (CLT) (CLT‬في مجال‬
‫االحتماالت واإلحصاءات ‪.‬كلما زاد حجم العينة‪ ،‬كانت النتائج أقرب إلى التوزيع الطبيعي (على شكل جرس) من عدد‬
‫كبير من العينات ‪.‬عينة من ‪ 30‬هي أصغر حجم عينة ال يزال ‪ CLT‬صال ًحا لها ‪.‬الباحثون الذين يعتمدون على تحليل‬
‫ضا عينة ال تقل‬
‫االنحدار ‪-‬األساليب اإلحصائية لتحديد العالقات بين المتغيرات الخاضعة للرقابة والتابعة ‪ -‬يفضلون أي ً‬
‫عن ‪.30‬‬

‫تختلف أحجام العينات حسب مشكلة العمل‬


‫سيختلف حجم العينة بنا ًء على نوع مشكلة العمل التي تحاول حلها ‪.‬‬

‫على سبيل المثال‪ ،‬إذا كنت تعيش في مدينة يبلغ عدد سكانها ‪ 200000‬نسمة وسيقوم ‪ 180.000‬شخص بالرد على أحد‬
‫االستطالعات‪ ،‬فهذا حجم عينة كبير ‪.‬ولكن بدون القيام بذلك في الواقع‪ ،‬كيف سيبدو حجم عينة أصغر مقبول؟‬

‫هل سيكون ‪ 200‬على ما يرام إذا كان األشخاص الذين شملهم االستطالع يمثلون كل منطقة في المدينة؟‬

‫الجواب‪ :‬هذا يعتمد على الرهانات ‪.‬‬


‫كبيرا بما يكفي إذا كانت مشكلة عملك هي معرفة شعور السكان تجاه المكتبة الجديدة‬
‫قد يكون حجم العينة ‪ً 200‬‬ ‫•‬
‫كبيرا بما يكفي إذا كانت مشكلة عملك هي تحديد كيفية تصويت السكان لتمويل‬
‫قد ال يكون حجم العينة البالغ ‪ً 200‬‬ ‫•‬
‫المكتبة‬

‫ربما يمكنك قبول هامش أكبر من الخطأ في مسح شعور السكان تجاه المكتبة الجديدة مقابل استطالع آراء السكان‬
‫حول كيفية تصويتهم لتمويلها ‪.‬لهذا السبب‪ ،‬من المرجح أن تستخدم حجم عينة أكبر الستطالع الناخبين‪.‬‬

‫أحجام العينات األكبر تكلفة أعلى‬

‫ضا أن تزن التكلفة مقابل فوائد النتائج األكثر دقة مع حجم عينة أكبر ‪.‬الشخص الذي يحاول فهم تفضيالت‬ ‫عليك أي ً‬
‫المستهلك لخط جديد من المنتجات لن يحتاج إلى حجم عينة كبير مثل شخص يحاول فهم تأثيرات دواء جديد ‪.‬‬
‫بالنسبة لسالمة األدوية‪ ،‬تفوق الفوائد تكلفة استخدام حجم عينة أكبر ‪.‬ولكن بالنسبة لتفضيالت المستهلك‪ ،‬يمكن أن‬
‫يوفر حجم عينة أصغر بتكلفة أقل نتائج جيدة بما فيه الكفاية ‪.‬‬
‫إذا كنت تعلم أن بياناتك دقيقة ومتسقة وكاملة‪ ،‬فيمكنك أن تثق في أن نتائجك ستكون صحيحة‪ .‬سيكون أصحاب المصلحة سعداء‬
‫إذا قمت بربط البيانات بأهداف العمل‪ .‬وستسمح لك معرفة وقت التوقف عن جمع البيانات بإنهاء مهامك في الوقت المناسب‬
‫دون التضحية بسالمة البيانات‪.‬‬
‫افترض أنك لم تحدد تكامل البيانات‪ .‬قد تجد أنك تعمل ببيانات غير دقيقة أو مفقودة‪ ،‬مما قد يؤدي إلى نتائج مضللة في تحليلك‪.‬‬
‫أخيرا‪ ،‬قد يؤدي عدم فهم وقت التوقف عن جمع‬
‫ً‬ ‫إذا لم تربط األهداف بالبيانات‪ ،‬فقد ال يكون تحليلك ذا صلة بأصحاب المصلحة‪.‬‬
‫البيانات إلى تأخيرات غير ضرورية في إكمال المهام‪ .‬من خالل إكمال أنشطة التنظيف المسبق‪ ،‬تتجنب هذه المشكالت‪.‬‬

‫القوة اإلحصائية هي احتمال الحصول على نتائج ذات مغزى من االختبار‪.‬‬

‫اختبار الفرضية هو سيلة لمعرفة ما إذا كان المسح أو التجربة لها نتائج ذات مغزى‪.‬‬
‫"يمكن حساب القوة اإلحصائية واإلبالغ عنها للتجربة المكتملة للتعليق على الثقة التي قد تكون لدى المرء في‬
‫االستنتاجات المستخلصة من نتائج الدراسة‪ .‬ويمكن أيضا استخدامها كأداة لتقدير عدد المالحظات أو حجم‬
‫العينة المطلوب في من أجل الكشف عن تأثير في تجربة "‪.‬‬
‫ماذا تفعل في حالة عدم وجود بيانات‬

‫في وقت سابق‪ ،‬تعلمت كيف ال يزال بإمكانك إجراء تحليل باستخدام بيانات الوكيل إذا لم يكن لديك بيانات ‪.‬قد يكون‬
‫لديك بعض األسئلة حول بيانات الوكيل‪ ،‬لذلك ستمنحك هذه القراءة بعض األمثلة اإلضافية ألنواع مجموعات البيانات‬
‫التي يمكن أن تعمل كمصادر بيانات بديلة‪.‬‬

‫أمثلة على بيانات الوكيل‬

‫في بعض األحيان‪ ،‬ال تكون البيانات الالزمة لدعم هدف العمل متاحة بسهولة ‪.‬هذا عندما تكون بيانات الوكيل مفيدة ‪.‬‬
‫ألق نظرة على السيناريوهات التالية وحيث تأتي بيانات الوكيل لكل مثال‪:‬‬

‫سيناريو العمل‬ ‫كيف يمكن استخدام بيانات الوكيل‬

‫تم إطالق طراز سيارة جديد قبل أيام قليلة وال يمكن لوكيل‬
‫يقيس المحلل عدد النقرات على مواصفات السيارة على موقع الوكالة‬
‫السيارات االنتظار حتى نهاية الشهر حتى تأتي بيانات‬
‫‪.‬كتقدير للمبيعات المحتملة في الوكالة‬
‫‪.‬المبيعات‪ .‬إنهم يريدون توقعات المبيعات اآلن‬

‫مؤخرا في‬
‫ً‬ ‫لم يتم تخزين منتج لحوم نباتي جديد تما ًما إال‬
‫يقوم المحلل بعمل وكيل لبيانات المبيعات لبديل الديك الرومي‬
‫متاجر البقالة ويحتاج المورد إلى تقدير الطلب على مدى‬
‫‪.‬المصنوع من التوفو الموجود في السوق منذ عدة سنوات‬
‫‪.‬السنوات األربع القادمة‬

‫تريد غرفة التجارة معرفة كيف ستؤثر حملة السياحة على‬ ‫يقوم المحلل بعمل وكيل للبيانات التاريخية لحجوزات شركات الطيران‬
‫السفر إلى مدينتهم ‪ ،‬لكن نتائج الحملة ليست متاحة للجمهور‬ ‫إلى المدينة بعد شهر إلى ثالثة أشهر من تشغيل حملة مماثلة قبل ستة‬
‫‪.‬بعد‬ ‫‪.‬أشهر‬
‫‪CONFIDENCE LEVEL‬مستوى الثقة ‪ :‬هو احتمال أن تعكس عينتك بدقة أكبر عدد من السكان‪.‬‬

‫‪ MARGIN OF ERROR‬هامش الخطأ ‪:‬هو الحد األقصى للمبلغ الذي من المتوقع أن تختلف نتائج العينة عن تلك‬
‫الخاصة بالمجتمع الفعلي ‪.‬بشكل أكثر تقنيًا‪ ،‬يحدد هامش الخطأ نطاقًا من القيم أدنى وأعلى من متوسط النتيجة للعينة ‪.‬‬
‫من المتوقع أن يكون متوسط النتيجة لكافة السكان ضمن هذا النطاق ‪.‬يمكننا فهم هامش الخطأ بشكل أفضل باستخدام‬
‫بعض األمثلة أدناه‪.‬‬
‫البيانات القذرة ‪:‬هي بيانات غير كاملة أو غير صحيحة أو غير ذي صلة بالمشكلة التي تحاول حلها‪.‬‬

‫ما هي البيانات القذرة؟‬


‫ناقشنا سابقًا أن البيانات القذرة هي بيانات غير كاملة أو غير صحيحة أو غير ذات صلة بالمشكلة التي تحاول حلها ‪.‬‬
‫تلخص هذه القراءة‪:‬‬

‫أنواع البيانات القذرة التي قد تواجهها‬ ‫•‬


‫ما قد يكون تسبب في اتساخ البيانات‬ ‫•‬
‫كيف البيانات القذرة ضارة للشركات‬ ‫•‬
‫أنواع البيانات القذرة‬
‫بيانات مكررة‬

‫وصف‬ ‫األسباب المحتملة‬ ‫ضرر محتمل لألعمال‬


‫أي سجل بيانات‬ ‫إدخال البيانات يدويًا أو‬ ‫المقاييس أو التحليالت المنحرفة‪ ،‬التعدادات‬
‫يظهر أكثر من‬ ‫استيراد البيانات المجمعة أو‬ ‫أو التوقعات المتضخمة أو غير الدقيقة‪ ،‬أو‬
‫مرة‬ ‫ترحيل البيانات‬ ‫االرتباك أثناء استرجاع البيانات‬

‫بيانات قديمة‬

‫وصف‬ ‫األسباب المحتملة‬ ‫ضرر محتمل لألعمال‬


‫أي بيانات قديمة يجب‬ ‫األشخاص الذين يغيرون األدوار أو‬
‫رؤى غير دقيقة واتخاذ‬
‫استبدالها بمعلومات أحدث‬ ‫الشركات‪ ،‬أو تصبح البرامج‬
‫القرارات والتحليالت‬
‫وأكثر دقة‬ ‫واألنظمة قديمة‬

‫بيانات غير مكتملة‬

‫وصف‬ ‫األسباب المحتملة‬ ‫ضرر محتمل لألعمال‬


‫جمع البيانات بشكل غير‬ ‫انخفاض اإلنتاجية أو الرؤى غير الدقيقة‬
‫أي بيانات تفتقد‬
‫صحيح أو إدخال بيانات غير‬ ‫أو عدم القدرة على إكمال الخدمات‬
‫إلى حقول مهمة‬
‫صحيح‬ ‫األساسية‬

‫بيانات غير صحيحة ‪ /‬غير دقيقة‬

‫وصف‬ ‫األسباب المحتملة‬ ‫ضرر محتمل لألعمال‬


‫أي بيانات‬ ‫تم إدخال خطأ بشري أثناء إدخال‬ ‫رؤى أو اتخاذ قرارات غير دقيقة‬
‫كاملة ولكن‬ ‫البيانات أو المعلومات المزيفة أو‬ ‫بنا ًء على معلومات سيئة تؤدي إلى‬
‫غير دقيقة‬ ‫البيانات الوهمية‬ ‫خسارة اإليرادات‬

‫بيانات غير متسقة‬

‫وصف‬ ‫األسباب المحتملة‬ ‫ضرر محتمل لألعمال‬


‫أي بيانات تستخدم‬ ‫تم تخزين البيانات بشكل غير‬ ‫نقاط البيانات المتناقضة تؤدي إلى‬
‫تنسيقات مختلفة لتمثيل‬ ‫صحيح أو إدخال أخطاء أثناء‬ ‫االرتباك أو عدم القدرة على تصنيف‬
‫الشيء نفسه‬ ‫نقل البيانات‬ ‫العمالء أو تقسيمهم‬
‫دمج البيانات ‪ DATA MERGING‬هو عملية جمع مجموعتين أو أكثر من مجموعات البيانات في‬
‫مجموعة بيانات واحدة‪.‬‬

‫يصف التوافق ‪ COMPATIBILITY‬مدى نجاح مجموعتين أو أكثر من مجموعات البيانات في‬


‫العمل م ًعا‪.‬‬

‫المزالق الشائعة لتنظيف البيانات‬


‫أهمية تنظيف البيانات وكيفية تحديد األخطاء الشائعة ‪.‬قد تتضمن بعض األخطاء التي قد تواجهها أثناء تنظيف بياناتك‬
‫ما يلي‪:‬‬

‫يجب تجنب الأخطاء الشائعة‬


‫عدم التحقق من األخطاء اإلمالئية‪ :‬يمكن أن تكون األخطاء اإلمالئية بسيطة مثل أخطاء الكتابة أو اإلدخال ‪.‬في‬ ‫•‬
‫معظم األوقات‪ ،‬يمكن اكتشاف األخطاء اإلمالئية أو النحوية الشائعة‪ ،‬ولكنها تزداد صعوبة مع أشياء مثل األسماء‬
‫أو العناوين ‪.‬على سبيل المثال‪ ،‬إذا كنت تعمل باستخدام جدول بيانات العميل‪ ،‬فقد تصادف عميالً يُدعى "جون" تم‬
‫إدخال اسمه بشكل غير صحيح باسم "جون" في بعض األماكن ‪.‬من المحتمل أال يقوم المدقق اإلمالئي لجدول‬
‫البيانات بوضع عالمة على هذا‪ ،‬لذلك إذا لم تقم بالتحقق من األخطاء اإلمالئية واكتشفت ذلك‪ ،‬فسيكون هناك‬
‫أخطاء في تحليلك ‪.‬‬

‫كبيرا‪ ،‬حيث يساعدك على تجنب هذه األخطاء في‬‫نسيان أخطاء التوثيق‪ :‬يمكن أن يوفر توثيق أخطائك وقتًا ً‬ ‫•‬
‫المستقبل من خالل إظهار كيفية حلها لك ‪.‬على سبيل المثال‪ ،‬قد تجد خطأ في صيغة في جدول البيانات الخاص‬
‫بك ‪.‬تكتشف أن بعض التواريخ في أحد األعمدة لم يتم تنسيقها بشكل صحيح ‪.‬إذا قمت بتدوين هذا اإلصالح‪،‬‬
‫فيمكنك الرجوع إليه في المرة التالية التي يتم فيها كسر الصيغة‪ ،‬والحصول على السبق في استكشاف األخطاء‬
‫ضا على تتبع التغييرات في عملك‪ ،‬بحيث يمكنك التراجع إذا لم ينجح‬
‫وإصالحها ‪.‬يساعدك توثيق أخطائك أي ً‬
‫اإلصالح ‪.‬‬

‫عدم التحقق من القيم غير المحمية‪ :‬تحدث القيمة غير المحمية عندما يتم إدخال القيم في الحقل الخطأ ‪.‬قد يتم‬ ‫•‬
‫صا ‪.‬على سبيل المثال‪ ،‬قد‬
‫تنسيق هذه القيم بشكل صحيح‪ ،‬مما يجعل من الصعب التعرف عليها إذا لم تكن حري ً‬
‫يكون لديك مجموعة بيانات بها أعمدة للمدن والبلدان ‪.‬هذه هي نفس نوع البيانات‪ ،‬لذلك من السهل خلطها ‪.‬ولكن‬
‫إذا كنت تحاول العثور على جميع مثيالت إسبانيا في عمود البلد‪ ،‬وتم إدخال إسبانيا عن طريق الخطأ في عمود‬
‫المدينة‪ ،‬فستفقد نقاط البيانات الرئيسية ‪.‬التأكد من إدخال بياناتك بشكل صحيح هو مفتاح التحليل الدقيق والكامل ‪.‬‬

‫التغاضي عن القيم المفقودة‪ :‬يمكن أن تؤدي القيم المفقودة في مجموعة البيانات الخاصة بك إلى حدوث أخطاء‬ ‫•‬
‫وتعطيك استنتاجات غير دقيقة ‪.‬على سبيل المثال‪ ،‬إذا كنت تحاول الحصول على العدد اإلجمالي للمبيعات من‬
‫عا من المعامالت كان مفقودًا‪ ،‬فإن حساباتك ستكون غير دقيقة ‪.‬كأفضل‬‫األشهر الثالثة الماضية‪ ،‬لكن أسبو ً‬
‫ممارسة‪ ،‬حاول الحفاظ على نظافة بياناتك قدر اإلمكان من خالل الحفاظ على االكتمال واالتساق‪.‬‬

‫النظر فقط إلى مجموعة فرعية من البيانات‪ :‬من المهم التفكير في جميع البيانات ذات الصلة عند التنظيف ‪.‬يساعد‬ ‫•‬
‫هذا في التأكد من فهمك للقصة الكاملة التي تخبرها البيانات‪ ،‬وأنك تولي اهتما ًما لجميع األخطاء المحتملة ‪.‬على‬
‫سبيل المثال‪ ،‬إذا كنت تعمل مع بيانات حول أنماط هجرة الطيور من مصادر مختلفة‪ ،‬ولكنك تقوم بتنظيف مصدر‬
‫واحد فقط‪ ،‬فقد ال تدرك أن بعض البيانات تتكرر ‪.‬سيؤدي هذا إلى مشاكل في تحليلك الحقًا ‪.‬إذا كنت ترغب في‬
‫تجنب األخطاء الشائعة مثل التكرارات‪ ،‬فإن كل حقل من بياناتك يتطلب اهتما ًما متساويًا‪.‬‬

‫فقدان مسار أهداف العمل‪ :‬عندما تقوم بتنظيف البيانات‪ ،‬قد تقوم باكتشافات جديدة ومثيرة لالهتمام حول مجموعة‬ ‫•‬
‫البيانات الخاصة بك ‪ -‬لكنك ال تريد أن تشتت انتباهك هذه االكتشافات عن المهمة التي تقوم بها ‪.‬على سبيل المثال‪،‬‬
‫إذا كنت تستخدم بيانات الطقس للعثور على متوسط عدد األيام الممطرة في مدينتك‪ ،‬فقد تالحظ بعض األنماط‬
‫ضا ‪.‬هذا مثير لالهتمام حقًا‪ ،‬لكنه ال يتعلق بالسؤال الذي تحاول اإلجابة عليه‬
‫المثيرة لالهتمام حول تساقط الثلوج أي ً‬
‫اآلن ‪.‬أن تكون فضوليًا أمر رائع !لكن حاول أال تدعه يصرفك عن المهمة التي بين يديك ‪.‬‬
‫عدم إصالح مصدر الخطأ ‪:‬إصالح الخطأ نفسه مهم ‪.‬ولكن إذا كان هذا الخطأ في الواقع جز ًءا من مشكلة أكبر ‪،‬‬ ‫•‬
‫فأنت بحاجة إلى العثور على مصدر المشكلة ‪.‬خالف ذلك ‪ ،‬سيكون عليك االستمرار في إصالح نفس الخطأ مرا ًرا‬
‫وتكرارا ‪.‬على سبيل المثال ‪ ،‬تخيل أن لديك جدول بيانات فريق يتتبع تقدم الجميع ‪.‬يستمر الجدول في االنهيار ألن‬
‫ً‬
‫صا مختلفين يقومون بإدخال قيم مختلفة ‪.‬يمكنك االستمرار في إصالح كل هذه المشكالت واحدة تلو األخرى‬ ‫أشخا ً‬
‫‪ ،‬أو يمكنك إعداد الجدول الخاص بك لتبسيط إدخال البيانات بحيث يكون الجميع في نفس الصفحة ‪.‬ستوفر لك‬
‫معالجة مصدر األخطاء في بياناتك الكثير من الوقت على المدى الطويل ‪.‬‬

‫عدم تحليل النظام قبل تنظيف البيانات ‪:‬إذا أردنا تنظيف بياناتنا وتجنب األخطاء المستقبلية ‪ ،‬فنحن بحاجة إلى فهم‬ ‫•‬
‫السبب الجذري لبياناتك القذرة ‪.‬تخيل أنك ميكانيكي سيارات ‪.‬سوف تجد سبب المشكلة قبل أن تبدأ في إصالح‬
‫السيارة ‪ ،‬أليس كذلك؟ الشيء نفسه ينطبق على البيانات ‪.‬أوالً ‪ ،‬عليك معرفة مصدر األخطاء ‪.‬ربما يكون ذلك من‬
‫خطأ في إدخال البيانات ‪ ،‬وليس من إعداد التدقيق اإلمالئي ‪ ،‬أو نقص التنسيقات ‪ ،‬أو من التكرارات ‪.‬بعد ذلك ‪،‬‬
‫بمجرد أن تفهم مصدر البيانات السيئة ‪ ،‬يمكنك التحكم فيها والحفاظ على نظافة بياناتك‪.‬‬

‫عدم إجراء نسخ احتياطي لبياناتك قبل تنظيف البيانات ‪:‬من الجيد دائ ًما أن تكون استباقيًا وأن تنشئ نسخة‬ ‫•‬
‫احتياطية لبياناتك قبل البدء في تنظيف البيانات ‪.‬إذا تعطل برنامجك ‪ ،‬أو إذا تسببت التغييرات التي أجريتها في‬
‫حدوث مشكلة في مجموعة البيانات الخاصة بك ‪ ،‬فيمكنك دائ ًما الرجوع إلى اإلصدار المحفوظ واستعادته ‪.‬يمكن‬
‫أن يوفر لك اإلجراء البسيط المتمثل في االحتفاظ بنسخة احتياطية من بياناتك ساعات من العمل ‪ -‬واألهم من ذلك‬
‫‪ ،‬حدوث صداع ‪.‬‬

‫عدم احتساب تنظيف البيانات في المواعيد النهائية ‪ /‬العملية الخاصة بك ‪:‬كل األشياء الجيدة تستغرق وقتًا ‪،‬‬ ‫•‬
‫ويشمل ذلك تنظيف البيانات ‪.‬من المهم أن تضع ذلك في االعتبار عند متابعة عمليتك والنظر في مواعيدك‬
‫النهائية ‪.‬عندما تخصص وقتًا لتنظيف البيانات ‪ ،‬فهذا يساعدك في الحصول على تقدير أكثر دقة لـ ‪ETAs‬‬
‫ألصحاب المصلحة ‪ ،‬ويمكن أن يساعدك في معرفة وقت طلب ‪ ETA‬المعدل ‪.‬‬

‫التنسيق الشرطي ‪ CONDITIONAL FORMATTING‬هو أداة جداول بيانات هذا يغير كيف الخاليا تظهر عندما‬
‫تلبي القيم شرو ً‬
‫طا معينة‪.‬‬

‫تعيين البيانات ‪DATA MAPPING‬هو عملية الحقول من قاعدة بيانات إلى أخرى‪.‬‬
‫الحصول على البيانات من جدول باستخدام عبارات ‪SELECT.‬‬ ‫•‬

‫إلغاء نسخ البيانات باستخدام أوامر مثل ‪DISTINCT‬و‪COUNT + WHERE.‬‬ ‫•‬

‫معالجة بيانات السلسلة باستخدام )( ‪TRIM‬و‪SUBSTR.‬‬ ‫•‬

‫إنشاء ‪ /‬إسقاط الجداول باستخدام ‪CREATE TABLE‬و‪DROP TABLE.‬‬ ‫•‬

‫تغيير أنواع البيانات باستخدام ‪CAST.‬‬ ‫•‬


‫‪WEEK 4‬‬
‫سجل التغيير‪ CHANGELOG‬هو ملف يحتوي على قائمة مرتبة ترتيبًا زمنيًا من التعديالت التي تم إجراؤها على‬
‫عا بقائمة مضافة‪ ،‬الميزات المحسنة والمزالة‪.‬‬‫المشروع‪ .‬عادة ما يتم تنظيمها حسب اإلصدار ويتضمن التاريخ متبو ً‬

‫التحقق من تنظيف البيانات‬

‫تصحيح المشاكل األكثر شيوعا‬

‫عا وتصحيحها‪ ،‬بما في ذلك‪:‬‬


‫تأكد من تحديد المشاكل األكثر شيو ً‬
‫مصادر األخطاء‪ :‬هل استخدمت األدوات والوظائف الصحيحة للعثور على مصدر األخطاء في مجموعة البيانات‬ ‫•‬
‫الخاصة بك؟‬
‫البيانات الفارغة‪ :‬هل قمت بالبحث عن القيم الخالية باستخدام التنسيق الشرطي وعوامل التصفية؟‬ ‫•‬
‫الكلمات التي بها أخطاء إمالئية‪ :‬هل حددت كل األخطاء اإلمالئية؟‬ ‫•‬
‫األرقام التي أخطأت في كتابتها‪ :‬هل تحققت جيدًا من إدخال بياناتك الرقمية بشكل صحيح؟‬ ‫•‬
‫المسافات واألحرف الزائدة‪ :‬هل قمت بإزالة أي مسافات أو أحرف إضافية باستخدام وظيفة ‪TRIM‬؟‬ ‫•‬
‫التكرارات‪ :‬هل أزلت التكرارات في جداول البيانات باستخدام وظيفة إزالة التكرارات أو ‪DISTINCT‬في‬ ‫•‬
‫‪SQL‬؟‬
‫أنواع البيانات غير المتطابقة‪ :‬هل تحققت من أن البيانات الرقمية والتاريخية والسلسلة تمت كتابتها بشكل‬ ‫•‬
‫صحيح؟‬
‫السالسل الفوضوية (غير المتسقة)‪ :‬هل تأكدت من أن جميع خيوطك متسقة وذات مغزى؟‬ ‫•‬
‫تنسيقات التاريخ الفوضوية (غير المتسقة)‪ :‬هل قمت بتنسيق التواريخ بشكل متسق في مجموعة البيانات‬ ‫•‬
‫الخاصة بك؟‬
‫عناوين المتغيرات المضللة (األعمدة)‪ :‬هل قمت بتسمية األعمدة بشكل هادف؟‬ ‫•‬
‫البيانات المبتورة ‪:‬هل قمت بالتحقق من البيانات المبتورة أو المفقودة التي تحتاج إلى تصحيح؟‬ ‫•‬
‫منطق األعمال‪ :‬هل تحققت من أن البيانات منطقية بالنظر إلى معرفتك بالعمل؟‬ ‫•‬
‫راجع الهدف من مشروعك‬
‫بمجرد االنتهاء من مهام تنظيف البيانات هذه‪ ،‬من األفضل مراجعة الهدف من مشروعك والتأكد من أن بياناتك ال‬
‫تزال متوافقة مع هذا الهدف ‪.‬هذه عملية مستمرة ستفعلها طوال مشروعك ‪ -‬ولكن فيما يلي ثالث خطوات يمكنك‬
‫وضعها في االعتبار أثناء التفكير في هذا ‪:‬‬

‫قم بتأكيد مشكلة العمل‬ ‫•‬


‫أكد هدف المشروع‬ ‫•‬
‫تحقق من أن البيانات يمكن أن تحل المشكلة وأنها متوافقة مع الهدف‬ ‫•‬
‫أفضل الممارسات لسجالت التغيير‬

‫قد يتخذ التغيير في مشروع شخصي أي شكل مرغوب فيه ‪.‬ومع ذلك ‪ ،‬في بيئة احترافية وأثناء التعاون مع اآلخرين ‪،‬‬
‫أمرا مه ًما ‪.‬تساعد هذه المبادئ التوجيهية في جعل التغيير في متناول اآلخرين ‪:‬‬
‫تعد سهولة القراءة ً‬

‫سجالت التغيير مخصصة للبشر ‪ ،‬وليست لآلالت ‪ ،‬لذا اكتب بشكل مقروء‪.‬‬ ‫•‬

‫يجب أن يكون لكل إصدار إدخاله الخاص‪.‬‬ ‫•‬

‫يجب أن يكون لكل تغيير خط خاص به‪.‬‬ ‫•‬

‫قم بتجميع نفس أنواع التغييرات ‪.‬‬ ‫•‬

‫يجب طلب اإلصدارات ترتيبًا زمنيًا بد ًءا من األحدث‪.‬‬ ‫•‬

‫يجب مالحظة تاريخ إصدار كل إصدار‪.‬‬ ‫•‬

‫يجب تجميع جميع التغييرات لكل فئة م ًعا ‪.‬تندرج أنواع التغييرات عادة ً في إحدى الفئات التالية‪:‬‬

‫تمت اإلضافة‪ :‬تم تقديم ميزات جديدة‬ ‫•‬

‫تم التغيير‪ :‬تغييرات في الوظائف الحالية‬ ‫•‬

‫مهملة‪ :‬ميزات على وشك إزالتها‬ ‫•‬

‫تمت اإلزالة‪ :‬الميزات التي تمت إزالتها‬ ‫•‬

‫ثابت‪ :‬إصالحات الشوائب‬ ‫•‬

‫األمان‪ :‬تقليل نقاط الضعف‬ ‫•‬

You might also like