Professional Documents
Culture Documents
Search en
Search en
البحث عن كيف تتم كل هذه المراحل برمجيا ألن هذ هو لب الموضوع وكل الموضوع,
أهم الخطوات المتبعة لمعالجة البيانات فهي تتضمن عدد من المراحل تبدأ من جمع البيانات من قبل الخام الى
مرحلة الحصول على المعرفة الجديدة ،وفيما يأتي عرض لهذه المراحل :
.1تنقية البيانات :Data Cleaning
وهي مرحلة عزل البيانات التي تحتوي على تشويش او شوائب Noiseمن مجموعة البيانات
كإلغاء المعلومات المتكررة ،التصحيح الشكلي ،معالجة البيانات الناقصة.
.2توحيد البيانات Data Integration
هذه المرحلة غالبا ما تكون مصادر معالجة البيانات متغيرة العناصر
وربما تكون مجتمعة في مصدر شائع .
.3اختيار البيانات :Data Selection
في هذه المرحلة ،يتم تحديد واسترجاع البيانات المالئمة من مجموعة البيانات .
.4نقل البيانات : Data Transformation
وهي عملية نقل البيانات التي تم اختيارها إلى شكل مالئم إلجراءات البحث واالسترجاع.
.5التصنيف :Classification
إيجاد مجموعات من المعلومات بناًء على خصائص مشتركة كتصنيف المناطق بناء على اإلنتاج الزراعي أو
تصنيف السيارات بناء على الوقود المستعمل ،
تستعمل في هذه الحالة الطرق المستخدمة في الرياضيات اإلحصائية أو الذكاء االصطناعي
مثل شجرة القرار ،أو الشبكات العصبية ،أو القواعد البايزية.
.6الربط و التسلسل Association & Sequencing
استخراج العالقة السببية بين البيانات ،أو العالقة التسلسلية مع إمكانية إعطاء نسبة مئوية لالحتماالت بناء على
البيانات المتراكمة في المخازن .
.7تقييم النموذج :Pattern Evaluation
بعد استخراج النماذج المهمة والتي تمثل المعرفة يتم تقييمها استنادا إلى مقاييس محددة .
-تمثيل المعرفة :Knowledge Representation
-استخراج البيانات :Data Mining
في هذه المرحلة سيتم تطبيق أسلوب ذكي الستخراج نماذج مفيدة قدر اإلمكان .
بعد قدوم الوثيقة من إلـ crawlerفأنة يأتي دور تحليل الوثيقة وتخزينها في مخزن البيانات ولكون الجزء األكبر
من البيانات القادمة هي بيانات نصية وغير مهيكلة ومن أجل تأمين الوصول لهذه البيانات فأننا نستخدم تقنية IR
- -Information Retrievalفي تخزين واسترجاع المعلومات وفكرة هذه التقنية هي تخزين واسترجاع
الوثائق باستعمال معيار منطقي بسيط يتمثل في التالي:
-تواجد وعدم تواجد الكلمات الدليلية.
-تصنيف الوثائق اعتمادا على صلتهم باالستفسار.
-إيجاد بيانات ذات عالقة باستخدام بيانات غير ذات عالقة.
أما كيفية صناعة مخازن البيانات فتتم عبر :
-توحيد البيانات الواردة من مصادر متنوعة وغير متشابهة.
-توزيع البيانات بحسب المواضيع واالهتمام .
-االهتمام بالبعد الزمني(التاريخ) .
-حفظ كامل البيانات من األقدم حتى األحدث.
1
استخراج البياناتData Mining :
في هذه المرحلة تتم عملية الإستحصال على المعرفة المهمة والجديدة والمفيدة،
من خالل كميات كبيرة من البيانات حسب نماذج حسابية أو إحصائية أو منطقية،
فاستخراج البيانات منهجية جديدة تجمع بين نتائج األبحاث في الذكاء االصطناعي ،
الفهم اآللي ،التعرف على األشكال ،قواعد المعلومات ،الرياضيات اإلحصائية،
واجهات االستعمال واللغة.
يمكننا الفصل بين نوعين من استخراج المعلومات فتسمية Knowledge discovery in databases
) (KDDوهي عملية اكتشاف المعرفة في قواعد البيانات تستعمل عند الباحثين في الذكاء االصطناعي والفهم
اآللي،وتسمية Data Miningتستعمل عند الباحثين في الرياضيات اإلحصائية أو خبراء المعلومات .
تستعمل تقنيات استخراج البيانات قواعد المعرفة كما في األنظمة الخبيرة
إال أن تغذية بنوك المعرفة تتم من خالل المعرفة المستخرجة مباشرة وآليًا من مخازن البيانات .
سنستعمل ( Data Miningتعدين البيانات) الستخراج المعلومات من قواعد أو مخازن المعلومات ،
حيث أن المعلومات في هذه الحالة منتظمة ضمن جداول وملفات ، Structured Data
ألنها تفيد لهذا الغرض .
عرض النتائج :
أما في عرض نتائج البحث فتستخدم طريقتين لتحليل البيانات -:
-1الطريقة الحسابية تستعمل تحليل البيانات Analyze dataمن أجل إظهار النتيجة بطريقة حسابية إحصائية .
-2استخراج البيانات Data Miningوإظهار البيانات بشكل Diagramتحوي كل واحدة منها معلومات في
مجال محدد.
تستعمل في تحديد نطاق البحث واستعمال أنظمة التحليل على هذه المخازن
التخاذ القرار في نطاق محدود .
-3استخراج البيانات باستعالمات اصطناعية(.)machine learning
وهي المرحلة األخيرة من مراحل اكتشاف المعرفة في قواعد البيانات
وهي المرحلة التي يراها المستفيد ،هذه المرحلة األساسية تستخدم األسلوب المرئي
لمساعدة المستفيد في فهم و وتفسير نتائج استخراج البيانات .
الطريقة األولى
هذه الطريقة من التخزين نستخدمها عندما يكون محتوى الصفحة غير نصي(بيانات على هيئة صور مثال)،
عندها نستخدم طريفة التخزين اعتمادا على هيكلية لغة ، HTMLحيث يعتمد على الكلمات الدليلية القادمة
مع الوثيقة والمضمنة في وسوم الـ ،metaوهذه الوسوم تزود بالكثير من المعلومات التي تكون مفيده جدا
في عملية البحث عن الكلمات الدليلية،حيث نستخدم ما يلي:
-1الـ Metatagsوهي البيانات الموجودة في جزء الـ(< )>headتحت وسوم العنوان titleووسم الـ
metaوالتي تزود بالكثير من المعلومات عن الصفحة.
-2معدالت الخطوط والعناوين الذان يستعمالن لفصل أو تأكيد جزء النص مثال على سبيل المثال:
<.>p>.... <strong>…. </strong>,<p>،</h2>...<h2/
-2الروابط التي تشير إلى هذه الصفحة تشرح بعض محتوى الصفحة باختصار.
حيث أنه اعتمادا على هذه البيانات يمكننا استخالص الكلمات الدليلية ثم تخزينها في مخزن البيانات مع بقية
بيانات الصفحة من عنوان URLووصف وما الى ذلك الذي سنتحدث عنة عند بناء محزن البيانات.
2
الطريقة الثانية
التخزين اعتمادا على كامل البيانات المحتواة في الوثيقة:
لتمثيل الوثيقة(النصية) في مخازن البيانات يتم تحليل الوثيقة لتجاري الكلمات الدليلية التي في وسوم الـmeta
ولكي نحلل الوثيقة فأننا نجري عليها العمليات التالية:
-1نقرأ نص الوثيقة كامال دون الوسوم الخاصة بـ HTMLوالكلمات المحجوزة الخاصة بلغات الـ .scripts
-2نقوم بإزالة كل عالمات الترقيم .
-3نفرز سالسل الحروف التي بدون فراغات ونعتبرها .token
- 4نزيل األدوات اللغوية وكل حروف الجر والكلمات الشائعة األخرى والتي تظهر كثيرا في نص الوثائق والتي
ال تحمل معنى يميز الوثيقة.
- 5نقوم بعمليات االستئصال للكلمات أي إعادة الكلمات إلى أصلها وذلك للقدرة على تمييز الكلمات المتغايرة.
-6نحول كل الحروف المتبقية في الوثيقة وكذا كل الحروف في االستفسارات إلى حالة واحدة(Upper case or
.)Lower case
-7كل كلمة بمفردها بعد التجريد تصبح كلمة مفتاحيه keywordsنطلق عليها االسم .term
- 8اآلن كل الكلمات المتبقية في الوثيقة تختلف عن الوثيقة األصل ويكون هذا هو التمثيل الرسمي للوثيقة،
ولتأكيد هذا االختالف يمكننا أن نطلق على مجموعة الكلمات التي تمثل نوعا مغايرا االسم classوهو يمثل
صنف من أصناف البيانات التي تجلب في الوثائق اعتمادا على عدة معايير من بينها أنواع المتغيرات التي تدل
على نوع البيانات.
-9مجموعة الكلمات في كل الوثائق نطلق عليها .text corpus
قبل تخزين بيانات الوثيقة في مخزن البيانات فأنها تمر ببرامج Classification Middlewareوهي برامج
تصنيف ونمذجة وسيطة(تحتوي على نماذج أصناف وربط) يتم إنشاءها بمعايير خاصة وبتحويل البيانات الى
بيانات بولينية 0,1قابلة للبرمجة بخوارزميات الشبكات العصبية،يتم في هذا النموذج تحزين األصناف الجديدة
والتي تستخدم كنماذج مستقبلية في جدول ،ثم حين قدوم بيانات الوثيقة يقوم بتحدد نوع الـ classالذي تنتمي له
هذه الوثيقة ،وإذا لم تكن هذه الوثيقة أو باألخص هذا الـ classيرتبط بأي classأخر مخزن في النموذج فإنه
يتم إضافته كصنف جديد وذلك بإضافة سجل جديد إلى الجدول الخاص بالنموذج وعليه يتم إضافة عمود جديد في
مخزن البيانات .
ومخرجات هذا النموذج هو قيمه IDالخاصة بهذا الـ classويتم تخزين الوثيقة في مخزن البيانات بإضافة
سجل جديد يحتوي على حقل يمثل عنوان URLالخاص بهذه الوثيقة وكذلك على حقل يمثل وصف مقابل يبين
محتوى الوثيقة(يمكن أن نضع عنوان -title-الوثيقة كوصف لهذه الوثيقة) ليظهر على الوصلة التي نظهرها
للمستعلم في مرحلة إخراج البيانات ،وكذلك على حقول أخرى بعدد الــ classesالمصنفة والتي يزداد عددها
تباعا بتزايد األصناف اعتمادا على النتائج التي نحصل عليها من الـ ، Classification Middlewareويتم
وضع القيمة or 1 0في الحقول الخاصة بالـ classفي نقس السجل على النحو التالي :
1في الحقول التي تمثل الـ classالذي تنتمي اليه هذه الوثيقة.
0في بقية الحقول.
وفي حال إضافة سجل يمثل بيانات وثيقة جديدة مع عمود يمثل صنف جديد أنشئ بقدوم هذه الوثيقة فانه يتم
وضع القيمة 1في الحقل المقابل للوثيقة فقط ويصفر باقي العمود.
3
بعد انتهاء مراحل جلب البيانات ،وفهرستها ،وتصنيفها ،وإيجاد عالقات الترابط فيما بينها ،فإننا نكون قد حصلنا
على نماذج دخل الستخدامها في المستقبل ،وكذا حصلنا على بيانات منمذجة ومصنفه في مخزن البيانات ،يمكن
إجراءعمليات االسترجاع لهذه البيانات بسهوله ويسر وفي أي وقت كان.
وهذا مثال يوضح شكل جدول نموذج التصنيف Middleware Classificationبعد قدوم 6وثائق مختلفة فأن
البرنامج Classification Middlewareسيقوم بتكوين نماذج تدريب بناء على البيانات القادمة على النحو
التالي:
شكل الجدول الخاص ببرنامج الــ Middlewareبعد تخزين خمسة نماذج الصناف مختلفة:
بعد هذه المراحل فإن البيانات مهيئه ألي عملية استرجاع من قبل برنامج محرك البحث وحسب طلب المستعلم ،
ولم يتبقى إال معالجة االستفسار.
4
معالجة االستفسارQuery Processing
هذه المرحلة تتم من قبل الــ Clintوالذي يترتب عليه القيام بعدة مهام لكي يحصل على البيانات من مخازن
البيانات وهذه المهام هي:
-1تحديد االحتياج من المعلومات.
-2تحديد أدوات البحث.
-3بناء جملة االستعالم.
-4إدخال االستعالم في أداة البحث.
-5تفحص وتحليل النتائج التي يعيدها له الخادم server.
-6االكتفاء بالنتائج أو إعادة صياغة االستفسار أو تغيير أداة البحث.
في حين يتلقى الـ serverاالستعالم فأنه يعمل على معالجة الطلب كاألتي:
- 1يقوم في البداية بتحويل حالة األحرف لكل كلمات االستعالم إلى الحالة التي تم االعتماد عليها في مخزن
البيانات).data warehousing (Upper case or Lower case
-2يقوم بتحليل االستعالم إلى مجموعة من الـ termsليتم دخولها إلى البرنامج الوسيط للتصنيف
، Classification Middlewareولكنة هنا البرنامج الوسيط الخاص بعملية اإلخراج ،وهذا البرنامج يحتوي
على جدول لخزن نتائج االستعالم الستخدامها في الردود المستقبلية ،.ويتكون هذا الجدول من الحقول التالية:
الحقول الثالثة األولى بنفس التسميات في جدول النموذج الخاص بنمذجة الوثائق ،وذلك لضمان سير عمليات
النمذجة ،والحقل dateليحتفظ بتأريخ إجراء االستعالم .
- 3يحدد البرنامج نوع البيانات القادمة في االستعالم بنفس الطريقة التي تم بها تحديد أنواع بيانات الوثائق.
- 4اآلن في المرحلة األولى عندما يكون فيه جدول نماذج االستعالم ال يحتوي على أي نموذج سابق ليجلب
البيانات على أساسة فإنه يقوم بجلب البيانات من الــ data warehousingمباشرة وذلك بعمل حصر رأسي
للبيانات على حسب العمود المحدد بالــ Class IDالناتج من تحليل االستعالم ثم استرجاع الــ URLوكذا الـ
Descriptionمن السجالت الخاصة بالوثائق التي يقابلها القيمه 1في عمود الحصر ،ثم يقوم بخزن بيئة
االستعالم في الجدول الخاص بمناج االستعالمات لالستخدام في االستعالمات المستقبلية ،وهذه البيئة التي يخزنها
هي مجموعة الـ termsوالـ typeوالـ dateالخاص باالستعالم.
-5في المرحلة التي يكون فيها جدول نماذج االستعالم يحتوي على نماذج لعمليات سابقة فانه يتم مقارنة الـ
Class IDالناتج من تحليل االستعالم مع كل الــ Class IDالمتواجدة في جدول نماذج االستعالم وعند وجود
صنف في الجدول يماثل الصنف الناتج من تحليل االستعالم فإنة يذهب لمرحلة أخرى وهي تحديد ماإذا كان
مخزن البيانات تم تعديله بعد تأريخ طلب االستعالم المخزن أم ال ،فإذا ما كان مخزن البيانات تم تعديله بإضافة
وثائق جديدة أو بتغيير محتوى هذه الوثائق فإنه يتم إرجاع النتائج من مخزن البيانات مباشره بنفس طريقة
التصنيف السابقة وإعادة تحديث البيانات المتواجدة في جدول نماذج االستعالم ،وبذا نكون تمكنا من إرجاع بيانات
دقيقة وحديثة ،ووفرنا الكثير من التكاليف المترتبة على البحث في كل سجالت مخزن البيانات التي قد تصل إلى
باليين السجالت.
أما إذا لم تتم عملية التحديث على مخزن البيانات منذ تاريخ االستعالم المماثل المخزن في جدول نماذج االستعالم
فانه يتم إرجاع البيانات المخزنة عن هذا االستعالم دون الحاجة إلى البحث في مخزن البيانات نهائيا،وبهذا فان
العملية تتم بشكل أسرع من سابقتها.
5