Professional Documents
Culture Documents
Course 5 All
Course 5 All
الهدف من التحليل هو تحديد االتجاهات والعالقات داخل البيانات حتى تتمكن من ذلك أجب بدقة على
السؤال الذي تطرحه.
أمرا مه ًما حقًا لمحللي البيانات .سيتم تنظيم معظم مجموعات البيانات التي ستستخدمها
يعد تنظيم مجموعات البيانات ً
كجداول .الجداول مفيدة ألنها تتيح لك معالجة بياناتك وتصنيفها .يتيح لك وجود فئات وتصنيفات مميزة التركيز على بياناتك
والتمييز بينها بسرعة وسهولة.
ضا إلى تنسيق البيانات وضبطها عند إجراء تحليل .الفرز والتصفية هما طريقتان يمكنك من خاللهما يحتاج محللو البيانات أي ً
الحفاظ على تنظيم األشياء عند تنسيق البيانات وضبطها للعمل معها .على سبيل المثال ،يمكن أن يساعدك عامل التصفية
في العثور على األخطاء أو القيم المتطرفة حتى تتمكن من إصالحها أو اإلبالغ عنها قبل تحليلك .القيم المتطرفة هي نقاط
بيانات مختلفة تما ًما عن البيانات التي تم جمعها بالمثل وقد ال تكون قي ًما موثوقة .تكمن فائدة تصفية البيانات في أنه بعد
إصالح األخطاء أو تحديد القيم المتطرفة ،يمكنك إزالة عامل التصفية وإعادة البيانات إلى مؤسستها األصلية.
الفرز هو عندما تقوم بترتيب البيانات بترتيب ذي مغزى لتسهيل فهمها وتحليلها وتصورها .إنه يصنف بياناتك
بنا ًء على مقياس معين تختاره .يمكنك فرز البيانات في جداول البيانات وقواعد بيانات ( SQLعندما تكون
مجموعة البيانات كبيرة جدًا بالنسبة لجداول البيانات) والجداول في المستندات .
على سبيل المثال ،إذا كنت بحاجة إلى ترتيب األشياء أو إنشاء قوائم ترتيب زمني ،فيمكنك الفرز بترتيب
تصاعدي أو تنازلي .إذا كنت مهت ًما باكتشاف األفالم المفضلة لمجموعة ما ،فيمكنك الفرز حسب عنوان الفيلم
ضا على لمعرفة ذلك .سيعمل الفرز على ترتيب البيانات بطريقة هادفة ويمنحك رؤى فورية .يساعدك الفرز أي ً
تجميع البيانات المتشابهة م ًعا حسب التصنيف .بالنسبة لألفالم ،يمكنك الترتيب حسب النوع -مثل الحركة أو
الدراما أو الخيال العلمي أو الرومانسية .
يتم استخدام التصفية عندما تكون مهت ًما فقط برؤية البيانات التي تفي بمعايير محددة وإخفاء الباقي .التصفية
مفيدة حقًا عندما يكون لديك الكثير من البيانات .يمكنك توفير الوقت من خالل التركيز على البيانات المهمة حقاً
أو البيانات التي تحتوي على أخطاء أو أخطاء .تسمح لك معظم جداول البيانات وقواعد بيانات SQLبتصفية
بياناتك بعدة طرق .يمنحك التصفية القدرة على العثور على ما تبحث عنه دون بذل الكثير من الجهد.
على سبيل المثال ،إذا كنت مهت ًما فقط بمعرفة من شاهد األفالم في أكتوبر ،فيمكنك استخدام مرشح للتواريخ
بحيث يتم عرض سجالت األفالم التي شاهدتها في أكتوبر فقط .بعد ذلك ،يمكنك التحقق من أسماء األشخاص
لمعرفة من شاهد األفالم في أكتوبر .
للتلخيص ،أسهل طريقة لتذكر الفرق بين الفرز والتصفية هي أنه يمكنك استخدام الفرز لطلب البيانات بسرعة
،والتصفية لعرض البيانات التي تلبي المعايير التي اخترتها فقط .استخدم التصفية عندما تحتاج إلى تقليل كمية
البيانات المعروضة.
WEEK 2
تحويل البيانات فيSQL
يحتاج محللو البيانات عادة ً إلى تحويل البيانات من تنسيق إلى آخر إلكمال التحليل .ولكن ماذا لو كنت تستخدم
SQLبدالً من جدول البيانات؟ تما ًما مثل جداول البيانات ،يستخدم SQLقواعد قياسية لتحويل نوع واحد من
البيانات إلى نوع آخر .إذا كنت تتساءل عن سبب كون تحويل البيانات مهارة مهمة يجب أن تكون لديك كمحلل
بيانات ،ففكر في األمر على أنه سائق قادر على تغيير إطار مثقوب .تؤدي القدرة على تحويل البيانات إلى
التنسيق الصحيح إلى تسريع تحليلك .ال يتعين عليك االنتظار حتى يقوم شخص آخر بتحويل البيانات نيابة عنك .
صا مثل COERCIONللعمل مع األرقام الكبيرة ،و ضا وظائف أكثر تخص ً CAST .هناك أي ً
UNIX_DATEللعمل مع التواريخ .ت ُرجع UNIX_DATEعدد األيام التي مرت منذ 1يناير 1970
وتستخدم للمقارنة والعمل مع التواريخ عبر مناطق زمنية متعددة .من المحتمل أن تستخدم CASTفي أغلب
األحيان .
Common conversions
Starting
CAST function can convert to:
with
Numeric - Integer - Numeric (number) - Big number - Floating
(number) integer - String
- Boolean - Integer - Numeric (number) - Big number -
String Floating integer - String - Bytes - Date - Date time - Time -
Timestamp
Date - String - Date - Date time - Timestamp
Using the CAST function in a query that fails returns an error in BigQuery.
To avoid errors in the event of a failed query, use the SAFE_CAST function
instead. The SAFE_CAST function returns a value of Null instead of an
error when a query fails.
The syntax for SAFE_CAST is the same as for CAST. Simply substitute
the function directly in your queries. The following SAFE_CAST statement
returns a string from a date.
تعد معرفة كيفية تحويل بياناتك ومعالجتها إلجراء تحليل دقيق جز ًءا مه ًما من وظيفة محلل البيانات .في هذه القراءة
،ستتعرف على وظائف SQLالمختلفة واستخدامها ،خاصة فيما يتعلق بمجموعات السالسل .
السلسلة عبارة عن مجموعة من األحرف التي تساعد في إعالن النصوص في لغات البرمجة مثل SQL.تُستخدم
داالت سلسلة SQLللحصول على معلومات مختلفة حول األحرف ،أو في هذه الحالة ،التالعب بها .يشيع استخدام
إحدى هذه الوظائف ،وهي CONCAT .راجع الجدول أدناه لمعرفة المزيد حول دالة CONCATوأشكالها
المختلفة.
مفاهيم VLOOKUPاألساسية
يمكن استخدام الوظائف للعثور بسرعة على المعلومات وإجراء العمليات الحسابية باستخدام قيم محددة .في هذه القراءة ،
ستتعرف على أهمية إحدى هذه الوظائف ،أو ،VLOOKUPأو ، Vertical Lookupوالتي تبحث عن قيمة معينة
في عمود جدول بيانات وتعيد جز ًءا من المعلومات المقابلة من الصف الذي توجد فيه القيمة التي تم البحث عنها.
متى تحتاج إلى استخدام VLOOKUP؟
search_key
القيمة للبحث عن. •
على سبيل المثال " ، 42 ،قطط" ،أوI24. •
نطاق
النطاق الذي يجب مراعاته في البحث. •
يتم البحث في العمود األول في النطاق لتحديد موقع البيانات المطابقة للقيمة المحددة بواسطة •
search_key.
فهرس
فهرس العمود للقيمة المراد إرجاعها ،حيث يتم ترقيم العمود األول في النطاق .1 •
إذا لم يكن الفهرس بين 1وعدد األعمدة في النطاق ،فسيكون ! #VALUEيتم إرجاع. •
مفرز
يشير إلى ما إذا كان العمود الذي سيتم البحث فيه (العمود األول من النطاق المحدد) مرتبًا أم ال . TRUE •
افتراضيًا.
يوصى بضبط is_sortedعلى FALSE.إذا تم التعيين على ، FALSEيتم إرجاع مطابقة تامة .في •
حالة وجود قيم مطابقة متعددة ،يتم إرجاع محتوى الخلية المقابلة للقيمة األولى التي تم العثور عليها ،ويتم
إرجاع # N / Aإذا لم يتم العثور على مثل هذه القيمة.
إذا كانت قيمة is_sortedهي TRUEأو تم حذفها ،فسيتم إرجاع أقرب تطابق (أقل من أو يساوي مفتاح •
البحث) .إذا كانت جميع القيم في عمود البحث أكبر من مفتاح البحث ،فسيتم إرجاع# N / A.
الغرض :التحقق من أن البيانات تقع ضمن نطاق مقبول من القيم المحددة للحقل. •
مثال :يجب أن تكون قيم بيانات الدرجات المدرسية بين 1و .12 •
الغرض :التحقق من استيفاء البيانات لشروط أو معايير معينة للحقل .يتضمن هذا نوع البيانات التي •
تم إدخالها باإلضافة إلى السمات األخرى للحقل ،مثل عدد األحرف.
مثال :قيد المحتوى :يجب أن تكون قيم البيانات للصفوف المدرسية من 1إلى 12أرقا ًما صحيحة. •
القيود :قيمة البيانات 13هي رقم صحيح وستجتاز التحقق من صحة قيد المحتوى .ولكن ،سيكون •
ضا إلى
هذا غير مقبول ألن 13درجة ليست معترف بها في المدرسة .لهذه الحالة ،هناك حاجة أي ً
التحقق من صحة نطاق البيانات.
الغرض :التحقق من أن البيانات منطقية في سياق البيانات األخرى ذات الصلة. •
مثال :ال يمكن أن تكون قيم البيانات لتواريخ شحن المنتج أقدم من تواريخ إنتاج المنتج. •
القيود :قد تكون البيانات متسقة ولكنها ال تزال غير صحيحة أو غير دقيقة .قد يكون تاريخ الشحن •
متأخرا عن تاريخ اإلنتاج وال يزال غير صحيح.
ً
• الغرض :التحقق من أن البيانات تتبع أو تتوافق مع هيكل محدد.
ً
هيكال محددًا ليتم عرضها بشكل صحيح. • مثال :يجب أن تتبع صفحات الويب
• القيود :قد تكون بنية البيانات صحيحة مع بقاء البيانات غير صحيحة أو غير دقيقة .يمكن عرض
المحتوى الموجود على صفحة الويب بشكل صحيح وال يزال يحتوي على معلومات خاطئة.
الغرض :تحقق من أن كود التطبيق يقوم بشكل منهجي بأي من عمليات التحقق المذكورة •
سابقًا أثناء إدخال بيانات المستخدم.
مثال :المشاكل الشائعة التي تم اكتشافها أثناء التحقق من صحة التعليمات البرمجية تشمل: •
أكثر من نوع بيانات واحد مسموح به ،أو لم يتم فحص نطاق البيانات ،أو لم يتم تعريف نهاية
السالسل النصية بشكل جيد.
القيود :قد ال يتحقق التحقق من صحة الرمز من صحة جميع االختالفات الممكنة مع إدخال •
البيانات.
العمل مع الجداول المؤقتة
الجداول المؤقتة هي بالضبط ما تبدو عليه -جداول مؤقتة في قاعدة بيانات SQLال يتم تخزينها بشكل دائم .في
ضا بعض أفضل الممارسات هذه القراءة ،ستتعلم طرق إنشاء جداول مؤقتة باستخدام أوامر SQL.ستتعلم أي ً
التي يجب اتباعها عند العمل باستخدام الجداول المؤقتة .
يتم حذفها تلقائيًا من قاعدة البيانات عند إنهاء جلسة SQLالخاصة بك. •
يمكن استخدامها كمنطقة تخزين لتخزين القيم إذا كنت تجري سلسلة من العمليات الحسابية .يشار إلى هذا أحيانًا •
بالمعالجة المسبقة للبيانات.
يمكنهم جمع نتائج استعالمات متعددة ومنفصلة .يُشار إلى هذا أحيانًا باسم التدريج المرحلي للبيانات .يعد •
التدريج مفيدًا إذا كنت بحاجة إلى إجراء استعالم على البيانات المجمعة أو دمج البيانات المجمعة.
يمكنهم تخزين مجموعة فرعية تمت تصفيتها من قاعدة البيانات .لست بحاجة إلى تحديد البيانات وتصفيتها في •
كل مرة تعمل فيها .باإلضافة إلى ذلك ،يساعد استخدام عدد أقل من أوامر SQLفي الحفاظ على نظافة بياناتك.
من المهم اإلشارة إلى أن كل قاعدة بيانات لها مجموعة أوامر فريدة خاصة بها إلنشاء الجداول المؤقتة
وإدارتها .لقد عملنا مع ، BigQueryلذلك سنركز على األوامر التي تعمل بشكل جيد في تلك البيئة .ستتناول
بقية هذه القراءة طرق إنشاء جداول مؤقتة ،في BigQueryبشكل أساسي.
يمكن إنشاء الجداول المؤقتة باستخدام عبارات مختلفة .في ، BigQueryيمكن استخدام عبارة WITH
إلنشاء جدول مؤقت .الصيغة العامة لهذه الطريقة هي كما يلي:
الطريقة التالية غير مدعومة في ، BigQueryلكن معظم اإلصدارات األخرى من قواعد بيانات SQLتدعمها ،
بما في ذلك SQL Serverو mySQL.باستخدام SELECTو ،INTOيمكنك إنشاء جدول مؤقت بنا ًء على
الشروط المحددة بواسطة عبارة WHEREلتحديد موقع المعلومات التي تحتاجها للجدول المؤقت .الصيغة العامة
لهذه الطريقة هي كما يلي:
حتى اآلن ،اكتشفنا طرقًا إلنشاء جداول مؤقتة تكون قاعدة البيانات مسؤولة عن إدارتها .ولكن ،يمكنك أي ً
ضا
إنشاء جداول مؤقتة يمكنك إدارتها كمستخدم .كمحلل ،قد تقرر إنشاء جدول مؤقت لتحليلك يمكنك إدارته بنفسك .
يمكنك استخدام عبارة CREATE TABLEإلنشاء هذا النوع من الجدول المؤقت .بعد االنتهاء من العمل مع
الجدول ،يمكنك حذفه أو إفالته من قاعدة البيانات في نهاية الجلسة.
مالحظة :يستخدم BigQuery CREATE TEMP TABLEبدالً من ،CREATE TABLEلكن
الصيغة العامة هي نفسها.
إنشاء جدول الجدول اسم ( نوع بيانات العمود ، 1نوع بيانات العمود ، 2نوع بيانات العمود ، 3
) ....
بعد االنتهاء من العمل مع الجدول المؤقت ،يمكنك إزالة الجدول من قاعدة البيانات باستخدام عبارة
DROP TABLE .الصيغة العامة هي كما يلي:
أفضل الممارسات عند العمل مع الجداول المؤقتة
الجداول العالمية في مقابل الجداول المؤقتة المحلية :يتم توفير الجداول المؤقتة العامة •
لجميع مستخدمي قاعدة البيانات ويتم حذفها عند إغالق كافة االتصاالت التي تستخدمها .
يتم توفير الجداول المؤقتة المحلية فقط للمستخدم الذي أنشأ استعالمه أو اتصاله الجدول
المؤقت .من المرجح أن تعمل مع الجداول المؤقتة المحلية .إذا قمت بإنشاء جدول مؤقت
محلي وكنت الشخص الوحيد الذي يستخدمه ،فيمكنك إسقاط الجدول المؤقت بعد االنتهاء
من استخدامه.
إسقاط الجداول المؤقتة بعد االستخدام :إن إسقاط طاولة مؤقتة يختلف قليالً عن حذف •
الجدول المؤقت .ال يؤدي حذف جدول مؤقت إلى إزالة المعلومات الموجودة في صفوف
ضا إلى إزالة تعريفات متغيرات الجدول (األعمدة) نفسها .
الجدول فحسب ،بل يؤدي أي ً
يؤدي حذف جدول مؤقت إلى إزالة صفوف الجدول ولكنه يترك تعريف الجدول واألعمدة
جاهزة لالستخدام مرة أخرى .على الرغم من إسقاط الجداول المؤقتة المحلية بعد إنهاء
جلسة SQLالخاصة بك ،فقد ال يحدث ذلك على الفور .في حالة حدوث الكثير من
المعالجة في قاعدة البيانات ،فإن إسقاط الجداول المؤقتة بعد استخدامها يعد ممارسة جيدة
للحفاظ على عمل قاعدة البيانات بسالسة .