Professional Documents
Culture Documents
Course 4 All
Course 4 All
DATA INTEGRITY
سالمة البيانات هي الدقة واالكتمال ،االتساق ،والجدارة بثقة البيانات طوال دورة حياتها.
DATA REPLICATION
تكرار البيانات هي عملية تخزين البيانات في مواقع متعددة.
DATA TRANSFER
نقل البيانات ،هي عملية نسخ البيانات من جهاز التخزين في الذاكرة ،أو من كمبيوتر إلى آخر.
DATA MANIPULATION
تتضمن عملية معالجة البيانات التغيير البيانات وجعلها أكثر تنظيما وأسهل في القراءة.
قيد البيانات تعريف أمثلة
ال يمكن أن يحتوي جدول قاعدة البيانات على صفين بنفس قيمة المفتاح
المفتاح األساسي (قواعد البيانات فقط) يجب أن المفتاح األساسي هو معرف في قاعدة بيانات يشير إلى عمود .األساسي
Primary-key تكون قيمة فريدة لكل عمود يتم توفير مزيد من المعلومات حول المفاتيح .تكون فيه كل قيمة فريدة
.األساسية والخارجية الحقًا في البرنامج
• إذا كان هناك محاذاة جيدة ولكن البيانات بحاجة للتنظيف ،فقم بتنظيف البيانات قبل إجراء التحليل.
• إذا كانت البيانات تتماشى جزئيًا مع هدف ما ،ففكر في كيفية تعديل الهدف ،أو استخدم قيود البيانات للتأكد من أن
المجموعة الفرعية من البيانات تتوافق بشكل أفضل مع هدف العمل.
عندما تستعد لتحليل البيانات ،قد تدرك أنه ليس لديك البيانات التي تحتاجها أو ليس لديك ما يكفي منها .في بعض الحاالت
،يمكنك استخدام ما يعرف ببيانات الوكيل بدالً من البيانات الحقيقية .فكر في األمر مثل استبدال الزبدة بالزيت في الوصفة
عندما ال يكون لديك زبدة .في حاالت أخرى ،ال يوجد بديل معقول وخيارك الوحيد هو جمع المزيد من البيانات.
ضع في اعتبارك مشكالت البيانات التالية واالقتراحات حول كيفية التغلب عليها.
اجمع البيانات على نطاق صغير إلجراء تحليل أولي إذا كنت تقوم باستطالع آراء الموظفين حول ما يفكرون به بشأن األداء
ثم اطلب وقتًا إضافيًا إلكمال التحليل بعد أن تكون قد الجديد وخطة المكافآت ،فاستخدم عينة لتحليل أولي .بعد ذلك ،اطلب 3
جمعت المزيد من البيانات. أسابيع أخرى لجمع البيانات من جميع الموظفين.
إذا لم يكن هناك وقت لجمع البيانات ،فقم بإجراء إذا كنت تقوم بتحليل أوقات الذروة للسفر للركاب ولكن ليس لديك
التحليل باستخدام بيانات الوكيل من مجموعات البيانات بيانات لمدينة معينة ،فاستخدم البيانات من مدينة أخرى بنفس الحجم
األخرى .هذا هو الحل األكثر شيوعا. والديموغرافية.
مشكلة البيانات :2بيانات قليلة جدا
اضبط تحليلك ليتماشى مع إذا كنت تفتقد البيانات الخاصة باألشخاص الذين تتراوح أعمارهم بين 18و 24عا ًما،
فقم بإجراء التحليل ولكن الحظ القيود التالية في تقريرك :ينطبق هذا االستنتاج على
البيانات التي لديك بالفعل.
البالغين 25عاما فما فوق فقط.
مشكلة البيانات :3بيانات خاطئة ،بما في ذلك البيانات التي بها أخطاء*
*مالحظة مهمة :في بعض األحيان ،يمكن أن تكون البيانات التي بها أخطاء عالمة تحذير على
عدم موثوقية البيانات .استخدم أفضل حكم لديك.
استخدم شجرة القرار التالية كتذكير لكيفية التعامل مع أخطاء البيانات أو عدم وجود بيانات كافية:
حساب حجم العينة
المصطلح تعريفات
على سبيل المثال ،إذا كنت تقوم باستطالع آراء األشخاص في شركتك ،فسيكون .المجموعة الكاملة التي تهتم بها لدراستك
تعداد سكاني
.السكان جميع الموظفين في شركتك
لذلك إذا كانت شركتك كبيرة جدًا .تما ًما مثل عينة الطعام ،يطلق عليها عينة ألنها مجرد طعم .مجموعة فرعية من سكانك
عينة
.بحيث ال يمكنها إجراء مسح لكل فرد ،فيمكنك إجراء مسح لعينة تمثيلية من مجتمعك
نظرا الستخدام العينة لتمثيل السكان ،فمن المتوقع أن تختلف نتائج العينة عما كانت ستكون عليه إذا كنت قد أجريت مس ًحا
ً
هامش الخطأ كلما كان هامش الخطأ أصغر ،كلما كانت نتائج العينة أقرب إلى النتيجة .يسمى هذا االختالف بهامش الخطأ .للسكان بأكمله
.التي كانت ستحصل عليها إذا قمت بمسح المجتمع بأكمله
على سبيل المثال ،يعني مستوى الثقة ٪95أنك إذا أجريت نفس االستطالع 100مرة. ،ما مدى ثقتك في نتائج االستطالع
مستوى الثقة يتم استهداف مستوى الثقة قبل أن تبدأ دراستك ألنه سيؤثر على حجم .فستحصل على نتائج مماثلة 95مرة من تلك المائة مرة
.هامش الخطأ في نهاية دراستك
فاصل الثقة .هذا النطاق هو نتيجة العينة -/+هامش الخطأ .نطاق القيم المحتملة التي ستكون نتيجة المجتمع على مستوى ثقة الدراسة
داللة إحصائية .كلما ازدادت األهمية ،قلّت المصادفة .تحديد ما إذا كانت نتيجتك ناتجة عن فرصة عشوائية أم ال
عند تحديد حجم العينة ،إليك أشياء يجب وضعها في االعتبار:
ال تستخدم حجم عينة أقل من .30لقد ثبت إحصائيًا أن 30هو أصغر حجم للعينة حيث يبدأ متوسط نتيجة •
العينة في تمثيل متوسط نتيجة مجتمع ما.
عا هو ،٪95لكن ٪90يمكن أن يعمل في بعض الحاالت . مستوى الثقة األكثر شيو ً •
على سبيل المثال ،إذا كنت تعيش في مدينة يبلغ عدد سكانها 200000نسمة وسيقوم 180.000شخص بالرد على أحد
االستطالعات ،فهذا حجم عينة كبير .ولكن بدون القيام بذلك في الواقع ،كيف سيبدو حجم عينة أصغر مقبول؟
هل سيكون 200على ما يرام إذا كان األشخاص الذين شملهم االستطالع يمثلون كل منطقة في المدينة؟
ربما يمكنك قبول هامش أكبر من الخطأ في مسح شعور السكان تجاه المكتبة الجديدة مقابل استطالع آراء السكان
حول كيفية تصويتهم لتمويلها .لهذا السبب ،من المرجح أن تستخدم حجم عينة أكبر الستطالع الناخبين.
ضا أن تزن التكلفة مقابل فوائد النتائج األكثر دقة مع حجم عينة أكبر .الشخص الذي يحاول فهم تفضيالت عليك أي ً
المستهلك لخط جديد من المنتجات لن يحتاج إلى حجم عينة كبير مثل شخص يحاول فهم تأثيرات دواء جديد .
بالنسبة لسالمة األدوية ،تفوق الفوائد تكلفة استخدام حجم عينة أكبر .ولكن بالنسبة لتفضيالت المستهلك ،يمكن أن
يوفر حجم عينة أصغر بتكلفة أقل نتائج جيدة بما فيه الكفاية .
إذا كنت تعلم أن بياناتك دقيقة ومتسقة وكاملة ،فيمكنك أن تثق في أن نتائجك ستكون صحيحة .سيكون أصحاب المصلحة سعداء
إذا قمت بربط البيانات بأهداف العمل .وستسمح لك معرفة وقت التوقف عن جمع البيانات بإنهاء مهامك في الوقت المناسب
دون التضحية بسالمة البيانات.
افترض أنك لم تحدد تكامل البيانات .قد تجد أنك تعمل ببيانات غير دقيقة أو مفقودة ،مما قد يؤدي إلى نتائج مضللة في تحليلك.
أخيرا ،قد يؤدي عدم فهم وقت التوقف عن جمع
ً إذا لم تربط األهداف بالبيانات ،فقد ال يكون تحليلك ذا صلة بأصحاب المصلحة.
البيانات إلى تأخيرات غير ضرورية في إكمال المهام .من خالل إكمال أنشطة التنظيف المسبق ،تتجنب هذه المشكالت.
اختبار الفرضية هو سيلة لمعرفة ما إذا كان المسح أو التجربة لها نتائج ذات مغزى.
"يمكن حساب القوة اإلحصائية واإلبالغ عنها للتجربة المكتملة للتعليق على الثقة التي قد تكون لدى المرء في
االستنتاجات المستخلصة من نتائج الدراسة .ويمكن أيضا استخدامها كأداة لتقدير عدد المالحظات أو حجم
العينة المطلوب في من أجل الكشف عن تأثير في تجربة ".
ماذا تفعل في حالة عدم وجود بيانات
في وقت سابق ،تعلمت كيف ال يزال بإمكانك إجراء تحليل باستخدام بيانات الوكيل إذا لم يكن لديك بيانات .قد يكون
لديك بعض األسئلة حول بيانات الوكيل ،لذلك ستمنحك هذه القراءة بعض األمثلة اإلضافية ألنواع مجموعات البيانات
التي يمكن أن تعمل كمصادر بيانات بديلة.
في بعض األحيان ،ال تكون البيانات الالزمة لدعم هدف العمل متاحة بسهولة .هذا عندما تكون بيانات الوكيل مفيدة .
ألق نظرة على السيناريوهات التالية وحيث تأتي بيانات الوكيل لكل مثال:
تم إطالق طراز سيارة جديد قبل أيام قليلة وال يمكن لوكيل
يقيس المحلل عدد النقرات على مواصفات السيارة على موقع الوكالة
السيارات االنتظار حتى نهاية الشهر حتى تأتي بيانات
.كتقدير للمبيعات المحتملة في الوكالة
.المبيعات .إنهم يريدون توقعات المبيعات اآلن
مؤخرا في
ً لم يتم تخزين منتج لحوم نباتي جديد تما ًما إال
يقوم المحلل بعمل وكيل لبيانات المبيعات لبديل الديك الرومي
متاجر البقالة ويحتاج المورد إلى تقدير الطلب على مدى
.المصنوع من التوفو الموجود في السوق منذ عدة سنوات
.السنوات األربع القادمة
تريد غرفة التجارة معرفة كيف ستؤثر حملة السياحة على يقوم المحلل بعمل وكيل للبيانات التاريخية لحجوزات شركات الطيران
السفر إلى مدينتهم ،لكن نتائج الحملة ليست متاحة للجمهور إلى المدينة بعد شهر إلى ثالثة أشهر من تشغيل حملة مماثلة قبل ستة
.بعد .أشهر
CONFIDENCE LEVELمستوى الثقة :هو احتمال أن تعكس عينتك بدقة أكبر عدد من السكان.
MARGIN OF ERRORهامش الخطأ :هو الحد األقصى للمبلغ الذي من المتوقع أن تختلف نتائج العينة عن تلك
الخاصة بالمجتمع الفعلي .بشكل أكثر تقنيًا ،يحدد هامش الخطأ نطاقًا من القيم أدنى وأعلى من متوسط النتيجة للعينة .
من المتوقع أن يكون متوسط النتيجة لكافة السكان ضمن هذا النطاق .يمكننا فهم هامش الخطأ بشكل أفضل باستخدام
بعض األمثلة أدناه.
البيانات القذرة :هي بيانات غير كاملة أو غير صحيحة أو غير ذي صلة بالمشكلة التي تحاول حلها.
بيانات قديمة
كبيرا ،حيث يساعدك على تجنب هذه األخطاء فينسيان أخطاء التوثيق :يمكن أن يوفر توثيق أخطائك وقتًا ً •
المستقبل من خالل إظهار كيفية حلها لك .على سبيل المثال ،قد تجد خطأ في صيغة في جدول البيانات الخاص
بك .تكتشف أن بعض التواريخ في أحد األعمدة لم يتم تنسيقها بشكل صحيح .إذا قمت بتدوين هذا اإلصالح،
فيمكنك الرجوع إليه في المرة التالية التي يتم فيها كسر الصيغة ،والحصول على السبق في استكشاف األخطاء
ضا على تتبع التغييرات في عملك ،بحيث يمكنك التراجع إذا لم ينجح
وإصالحها .يساعدك توثيق أخطائك أي ً
اإلصالح .
عدم التحقق من القيم غير المحمية :تحدث القيمة غير المحمية عندما يتم إدخال القيم في الحقل الخطأ .قد يتم •
صا .على سبيل المثال ،قد
تنسيق هذه القيم بشكل صحيح ،مما يجعل من الصعب التعرف عليها إذا لم تكن حري ً
يكون لديك مجموعة بيانات بها أعمدة للمدن والبلدان .هذه هي نفس نوع البيانات ،لذلك من السهل خلطها .ولكن
إذا كنت تحاول العثور على جميع مثيالت إسبانيا في عمود البلد ،وتم إدخال إسبانيا عن طريق الخطأ في عمود
المدينة ،فستفقد نقاط البيانات الرئيسية .التأكد من إدخال بياناتك بشكل صحيح هو مفتاح التحليل الدقيق والكامل .
التغاضي عن القيم المفقودة :يمكن أن تؤدي القيم المفقودة في مجموعة البيانات الخاصة بك إلى حدوث أخطاء •
وتعطيك استنتاجات غير دقيقة .على سبيل المثال ،إذا كنت تحاول الحصول على العدد اإلجمالي للمبيعات من
عا من المعامالت كان مفقودًا ،فإن حساباتك ستكون غير دقيقة .كأفضلاألشهر الثالثة الماضية ،لكن أسبو ً
ممارسة ،حاول الحفاظ على نظافة بياناتك قدر اإلمكان من خالل الحفاظ على االكتمال واالتساق.
النظر فقط إلى مجموعة فرعية من البيانات :من المهم التفكير في جميع البيانات ذات الصلة عند التنظيف .يساعد •
هذا في التأكد من فهمك للقصة الكاملة التي تخبرها البيانات ،وأنك تولي اهتما ًما لجميع األخطاء المحتملة .على
سبيل المثال ،إذا كنت تعمل مع بيانات حول أنماط هجرة الطيور من مصادر مختلفة ،ولكنك تقوم بتنظيف مصدر
واحد فقط ،فقد ال تدرك أن بعض البيانات تتكرر .سيؤدي هذا إلى مشاكل في تحليلك الحقًا .إذا كنت ترغب في
تجنب األخطاء الشائعة مثل التكرارات ،فإن كل حقل من بياناتك يتطلب اهتما ًما متساويًا.
فقدان مسار أهداف العمل :عندما تقوم بتنظيف البيانات ،قد تقوم باكتشافات جديدة ومثيرة لالهتمام حول مجموعة •
البيانات الخاصة بك -لكنك ال تريد أن تشتت انتباهك هذه االكتشافات عن المهمة التي تقوم بها .على سبيل المثال،
إذا كنت تستخدم بيانات الطقس للعثور على متوسط عدد األيام الممطرة في مدينتك ،فقد تالحظ بعض األنماط
ضا .هذا مثير لالهتمام حقًا ،لكنه ال يتعلق بالسؤال الذي تحاول اإلجابة عليه
المثيرة لالهتمام حول تساقط الثلوج أي ً
اآلن .أن تكون فضوليًا أمر رائع !لكن حاول أال تدعه يصرفك عن المهمة التي بين يديك .
عدم إصالح مصدر الخطأ :إصالح الخطأ نفسه مهم .ولكن إذا كان هذا الخطأ في الواقع جز ًءا من مشكلة أكبر ، •
فأنت بحاجة إلى العثور على مصدر المشكلة .خالف ذلك ،سيكون عليك االستمرار في إصالح نفس الخطأ مرا ًرا
وتكرارا .على سبيل المثال ،تخيل أن لديك جدول بيانات فريق يتتبع تقدم الجميع .يستمر الجدول في االنهيار ألن
ً
صا مختلفين يقومون بإدخال قيم مختلفة .يمكنك االستمرار في إصالح كل هذه المشكالت واحدة تلو األخرى أشخا ً
،أو يمكنك إعداد الجدول الخاص بك لتبسيط إدخال البيانات بحيث يكون الجميع في نفس الصفحة .ستوفر لك
معالجة مصدر األخطاء في بياناتك الكثير من الوقت على المدى الطويل .
عدم تحليل النظام قبل تنظيف البيانات :إذا أردنا تنظيف بياناتنا وتجنب األخطاء المستقبلية ،فنحن بحاجة إلى فهم •
السبب الجذري لبياناتك القذرة .تخيل أنك ميكانيكي سيارات .سوف تجد سبب المشكلة قبل أن تبدأ في إصالح
السيارة ،أليس كذلك؟ الشيء نفسه ينطبق على البيانات .أوالً ،عليك معرفة مصدر األخطاء .ربما يكون ذلك من
خطأ في إدخال البيانات ،وليس من إعداد التدقيق اإلمالئي ،أو نقص التنسيقات ،أو من التكرارات .بعد ذلك ،
بمجرد أن تفهم مصدر البيانات السيئة ،يمكنك التحكم فيها والحفاظ على نظافة بياناتك.
عدم إجراء نسخ احتياطي لبياناتك قبل تنظيف البيانات :من الجيد دائ ًما أن تكون استباقيًا وأن تنشئ نسخة •
احتياطية لبياناتك قبل البدء في تنظيف البيانات .إذا تعطل برنامجك ،أو إذا تسببت التغييرات التي أجريتها في
حدوث مشكلة في مجموعة البيانات الخاصة بك ،فيمكنك دائ ًما الرجوع إلى اإلصدار المحفوظ واستعادته .يمكن
أن يوفر لك اإلجراء البسيط المتمثل في االحتفاظ بنسخة احتياطية من بياناتك ساعات من العمل -واألهم من ذلك
،حدوث صداع .
عدم احتساب تنظيف البيانات في المواعيد النهائية /العملية الخاصة بك :كل األشياء الجيدة تستغرق وقتًا ، •
ويشمل ذلك تنظيف البيانات .من المهم أن تضع ذلك في االعتبار عند متابعة عمليتك والنظر في مواعيدك
النهائية .عندما تخصص وقتًا لتنظيف البيانات ،فهذا يساعدك في الحصول على تقدير أكثر دقة لـ ETAs
ألصحاب المصلحة ،ويمكن أن يساعدك في معرفة وقت طلب ETAالمعدل .
التنسيق الشرطي CONDITIONAL FORMATTINGهو أداة جداول بيانات هذا يغير كيف الخاليا تظهر عندما
تلبي القيم شرو ً
طا معينة.
تعيين البيانات DATA MAPPINGهو عملية الحقول من قاعدة بيانات إلى أخرى.
الحصول على البيانات من جدول باستخدام عبارات SELECT. •
قد يتخذ التغيير في مشروع شخصي أي شكل مرغوب فيه .ومع ذلك ،في بيئة احترافية وأثناء التعاون مع اآلخرين ،
أمرا مه ًما .تساعد هذه المبادئ التوجيهية في جعل التغيير في متناول اآلخرين :
تعد سهولة القراءة ً
سجالت التغيير مخصصة للبشر ،وليست لآلالت ،لذا اكتب بشكل مقروء. •
يجب تجميع جميع التغييرات لكل فئة م ًعا .تندرج أنواع التغييرات عادة ً في إحدى الفئات التالية: