Download as doc, pdf, or txt
Download as doc, pdf, or txt
You are on page 1of 5

‫رمضان كــــــــــــــــــــريم‬

‫البحث عن كيف تتم كل هذه المراحل برمجيا ألن هذ هو لب الموضوع وكل الموضوع‪,‬‬

‫مراحل بــــناء محركات البحث‬


‫‪ ‬مراحل معالجة البيانات‬

‫أهم الخطوات المتبعة لمعالجة البيانات فهي تتضمن عدد من المراحل تبدأ من جمع البيانات من قبل الخام الى‬
‫مرحلة الحصول على المعرفة الجديدة ‪ ،‬وفيما يأتي عرض لهذه المراحل ‪:‬‬
‫‪ .1‬تنقية البيانات ‪:Data Cleaning‬‬
‫وهي مرحلة عزل البيانات التي تحتوي على تشويش او شوائب ‪ Noise‬من مجموعة البيانات‬
‫كإلغاء المعلومات المتكررة‪ ،‬التصحيح الشكلي‪ ،‬معالجة البيانات الناقصة‪.‬‬
‫‪ .2‬توحيد البيانات ‪Data Integration‬‬
‫هذه المرحلة غالبا ما تكون مصادر معالجة البيانات متغيرة العناصر‬
‫وربما تكون مجتمعة في مصدر شائع ‪.‬‬
‫‪ .3‬اختيار البيانات ‪:Data Selection‬‬
‫في هذه المرحلة ‪ ،‬يتم تحديد واسترجاع البيانات المالئمة من مجموعة البيانات ‪.‬‬
‫‪ .4‬نقل البيانات ‪: Data Transformation‬‬
‫وهي عملية نقل البيانات التي تم اختيارها إلى شكل مالئم إلجراءات البحث واالسترجاع‪.‬‬
‫‪ .5‬التصنيف ‪:Classification‬‬
‫إيجاد مجموعات من المعلومات بناًء على خصائص مشتركة كتصنيف المناطق بناء على اإلنتاج الزراعي أو‬
‫تصنيف السيارات بناء على الوقود المستعمل ‪،‬‬
‫تستعمل في هذه الحالة الطرق المستخدمة في الرياضيات اإلحصائية أو الذكاء االصطناعي‬
‫مثل شجرة القرار‪ ،‬أو الشبكات العصبية ‪،‬أو القواعد البايزية‪.‬‬
‫‪ .6‬الربط و التسلسل ‪Association & Sequencing‬‬
‫استخراج العالقة السببية بين البيانات ‪،‬أو العالقة التسلسلية مع إمكانية إعطاء نسبة مئوية لالحتماالت بناء على‬
‫البيانات المتراكمة في المخازن ‪.‬‬
‫‪ .7‬تقييم النموذج ‪:Pattern Evaluation‬‬
‫بعد استخراج النماذج المهمة والتي تمثل المعرفة يتم تقييمها استنادا إلى مقاييس محددة ‪.‬‬
‫‪ -‬تمثيل المعرفة ‪:Knowledge Representation‬‬
‫‪ -‬استخراج البيانات ‪:Data Mining‬‬
‫في هذه المرحلة سيتم تطبيق أسلوب ذكي الستخراج نماذج مفيدة قدر اإلمكان ‪.‬‬

‫‪ ‬صناعة مخازن البيانات ‪:making the data warehousing‬‬

‫بعد قدوم الوثيقة من إلـ ‪ crawler‬فأنة يأتي دور تحليل الوثيقة وتخزينها في مخزن البيانات ولكون الجزء األكبر‬
‫من البيانات القادمة هي بيانات نصية وغير مهيكلة ومن أجل تأمين الوصول لهذه البيانات فأننا نستخدم تقنية ‪IR‬‬
‫‪ - -Information Retrieval‬في تخزين واسترجاع المعلومات وفكرة هذه التقنية هي تخزين واسترجاع‬
‫الوثائق باستعمال معيار منطقي بسيط يتمثل في التالي‪:‬‬
‫‪ -‬تواجد وعدم تواجد الكلمات الدليلية‪.‬‬
‫‪ -‬تصنيف الوثائق اعتمادا على صلتهم باالستفسار‪.‬‬
‫‪ -‬إيجاد بيانات ذات عالقة باستخدام بيانات غير ذات عالقة‪.‬‬
‫أما كيفية صناعة مخازن البيانات فتتم عبر ‪:‬‬
‫‪ -‬توحيد البيانات الواردة من مصادر متنوعة وغير متشابهة‪.‬‬
‫‪ -‬توزيع البيانات بحسب المواضيع واالهتمام ‪.‬‬
‫‪ -‬االهتمام بالبعد الزمني(التاريخ) ‪.‬‬
‫‪ -‬حفظ كامل البيانات من األقدم حتى األحدث‪.‬‬

‫‪1‬‬
‫‪ ‬استخراج البيانات‪Data Mining :‬‬
‫في هذه المرحلة تتم عملية الإستحصال على المعرفة المهمة والجديدة والمفيدة‪،‬‬
‫من خالل كميات كبيرة من البيانات حسب نماذج حسابية أو إحصائية أو منطقية‪،‬‬
‫فاستخراج البيانات منهجية جديدة تجمع بين نتائج األبحاث في الذكاء االصطناعي ‪،‬‬
‫الفهم اآللي‪ ،‬التعرف على األشكال‪ ،‬قواعد المعلومات‪ ،‬الرياضيات اإلحصائية‪،‬‬
‫واجهات االستعمال واللغة‪.‬‬
‫يمكننا الفصل بين نوعين من استخراج المعلومات فتسمية ‪Knowledge discovery in databases‬‬
‫)‪ (KDD‬وهي عملية اكتشاف المعرفة في قواعد البيانات تستعمل عند الباحثين في الذكاء االصطناعي والفهم‬
‫اآللي‪،‬وتسمية ‪ Data Mining‬تستعمل عند الباحثين في الرياضيات اإلحصائية أو خبراء المعلومات ‪.‬‬
‫تستعمل تقنيات استخراج البيانات قواعد المعرفة كما في األنظمة الخبيرة‬
‫إال أن تغذية بنوك المعرفة تتم من خالل المعرفة المستخرجة مباشرة وآليًا من مخازن البيانات ‪.‬‬
‫سنستعمل ‪( Data Mining‬تعدين البيانات) الستخراج المعلومات من قواعد أو مخازن المعلومات ‪،‬‬
‫حيث أن المعلومات في هذه الحالة منتظمة ضمن جداول وملفات ‪، Structured Data‬‬
‫ألنها تفيد لهذا الغرض ‪.‬‬
‫عرض النتائج ‪:‬‬
‫أما في عرض نتائج البحث فتستخدم طريقتين لتحليل البيانات ‪-:‬‬
‫‪ -1‬الطريقة الحسابية تستعمل تحليل البيانات ‪ Analyze data‬من أجل إظهار النتيجة بطريقة حسابية إحصائية ‪.‬‬
‫‪ -2‬استخراج البيانات ‪ Data Mining‬وإظهار البيانات بشكل ‪ Diagram‬تحوي كل واحدة منها معلومات في‬
‫مجال محدد‪.‬‬
‫تستعمل في تحديد نطاق البحث واستعمال أنظمة التحليل على هذه المخازن‬
‫التخاذ القرار في نطاق محدود ‪.‬‬
‫‪ -3‬استخراج البيانات باستعالمات اصطناعية(‪.)machine learning‬‬
‫وهي المرحلة األخيرة من مراحل اكتشاف المعرفة في قواعد البيانات‬
‫وهي المرحلة التي يراها المستفيد‪ ،‬هذه المرحلة األساسية تستخدم األسلوب المرئي‬
‫لمساعدة المستفيد في فهم و وتفسير نتائج استخراج البيانات ‪.‬‬

‫‪ ‬كيفية تمثيل الوثيقة في مخزن البيانات‬


‫أوال تحديد المحتوى الذي سيخزن‬
‫هناك طريقتان لتحديد المحتوى الذي سيخزن في مخزن البيانات ‪-:‬‬
‫‪-1‬التخزين اعتمادا على هيكلية لغة ‪. html‬‬
‫‪ -2‬التخزين اعتمادا على كامل البيانات المحتواة في الوثيقة‪.‬‬

‫الطريقة األولى‬

‫هذه الطريقة من التخزين نستخدمها عندما يكون محتوى الصفحة غير نصي(بيانات على هيئة صور مثال)‪،‬‬
‫عندها نستخدم طريفة التخزين اعتمادا على هيكلية لغة ‪ ، HTML‬حيث يعتمد على الكلمات الدليلية القادمة‬
‫مع الوثيقة والمضمنة في وسوم الـ ‪ ،meta‬وهذه الوسوم تزود بالكثير من المعلومات التي تكون مفيده جدا‬
‫في عملية البحث عن الكلمات الدليلية‪،‬حيث نستخدم ما يلي‪:‬‬
‫‪ -1‬الـ ‪ Metatags‬وهي البيانات الموجودة في جزء الـ(<‪ )>head‬تحت وسوم العنوان‪ title‬ووسم الـ‬
‫‪ meta‬والتي تزود بالكثير من المعلومات عن الصفحة‪.‬‬
‫‪ -2‬معدالت الخطوط والعناوين الذان يستعمالن لفصل أو تأكيد جزء النص مثال على سبيل المثال‪:‬‬
‫<‪.>p>.... <strong>…. </strong>,<p>،</h2>...<h2/‬‬
‫‪ -2‬الروابط التي تشير إلى هذه الصفحة تشرح بعض محتوى الصفحة باختصار‪.‬‬
‫حيث أنه اعتمادا على هذه البيانات يمكننا استخالص الكلمات الدليلية ثم تخزينها في مخزن البيانات مع بقية‬
‫بيانات الصفحة من عنوان ‪ URL‬ووصف وما الى ذلك الذي سنتحدث عنة عند بناء محزن البيانات‪.‬‬

‫‪2‬‬
‫الطريقة الثانية‬
‫التخزين اعتمادا على كامل البيانات المحتواة في الوثيقة‪:‬‬
‫لتمثيل الوثيقة(النصية) في مخازن البيانات يتم تحليل الوثيقة لتجاري الكلمات الدليلية التي في وسوم الـ‪meta‬‬
‫ولكي نحلل الوثيقة فأننا نجري عليها العمليات التالية‪:‬‬
‫‪ -1‬نقرأ نص الوثيقة كامال دون الوسوم الخاصة بـ ‪ HTML‬والكلمات المحجوزة الخاصة بلغات الـ ‪.scripts‬‬
‫‪ -2‬نقوم بإزالة كل عالمات الترقيم ‪.‬‬
‫‪ -3‬نفرز سالسل الحروف التي بدون فراغات ونعتبرها ‪.token‬‬
‫‪ - 4‬نزيل األدوات اللغوية وكل حروف الجر والكلمات الشائعة األخرى والتي تظهر كثيرا في نص الوثائق والتي‬
‫ال تحمل معنى يميز الوثيقة‪.‬‬
‫‪ - 5‬نقوم بعمليات االستئصال للكلمات أي إعادة الكلمات إلى أصلها وذلك للقدرة على تمييز الكلمات المتغايرة‪.‬‬
‫‪ -6‬نحول كل الحروف المتبقية في الوثيقة وكذا كل الحروف في االستفسارات إلى حالة واحدة(‪Upper case or‬‬
‫‪.)Lower case‬‬
‫‪ -7‬كل كلمة بمفردها بعد التجريد تصبح كلمة مفتاحيه ‪ keywords‬نطلق عليها االسم ‪.term‬‬
‫‪ - 8‬اآلن كل الكلمات المتبقية في الوثيقة تختلف عن الوثيقة األصل ويكون هذا هو التمثيل الرسمي للوثيقة‪،‬‬
‫ولتأكيد هذا االختالف يمكننا أن نطلق على مجموعة الكلمات التي تمثل نوعا مغايرا االسم ‪ class‬وهو يمثل‬
‫صنف من أصناف البيانات التي تجلب في الوثائق اعتمادا على عدة معايير من بينها أنواع المتغيرات التي تدل‬
‫على نوع البيانات‪.‬‬
‫‪ -9‬مجموعة الكلمات في كل الوثائق نطلق عليها ‪.text corpus‬‬
‫قبل تخزين بيانات الوثيقة في مخزن البيانات فأنها تمر ببرامج ‪ Classification Middleware‬وهي برامج‬
‫تصنيف ونمذجة وسيطة(تحتوي على نماذج أصناف وربط) يتم إنشاءها بمعايير خاصة وبتحويل البيانات الى‬
‫بيانات بولينية ‪ 0,1‬قابلة للبرمجة بخوارزميات الشبكات العصبية‪،‬يتم في هذا النموذج تحزين األصناف الجديدة‬
‫والتي تستخدم كنماذج مستقبلية في جدول ‪ ،‬ثم حين قدوم بيانات الوثيقة يقوم بتحدد نوع الـ ‪ class‬الذي تنتمي له‬
‫هذه الوثيقة‪ ،‬وإذا لم تكن هذه الوثيقة أو باألخص هذا الـ ‪ class‬يرتبط بأي ‪ class‬أخر مخزن في النموذج فإنه‬
‫يتم إضافته كصنف جديد وذلك بإضافة سجل جديد إلى الجدول الخاص بالنموذج وعليه يتم إضافة عمود جديد في‬
‫مخزن البيانات ‪.‬‬

‫‪Class ID‬‬ ‫‪terms‬‬ ‫‪Type‬‬


‫النوع‬ ‫النوع‬ ‫النوع‬
‫الحجم‬ ‫الحجم‬ ‫الحجم‬
‫المدى‬ ‫المدى‬ ‫المدى‬

‫ومخرجات هذا النموذج هو قيمه ‪ ID‬الخاصة بهذا الـ ‪ class‬ويتم تخزين الوثيقة في مخزن البيانات بإضافة‬
‫سجل جديد يحتوي على حقل يمثل عنوان ‪ URL‬الخاص بهذه الوثيقة وكذلك على حقل يمثل وصف مقابل يبين‬
‫محتوى الوثيقة(يمكن أن نضع عنوان‪ -title-‬الوثيقة كوصف لهذه الوثيقة) ليظهر على الوصلة التي نظهرها‬
‫للمستعلم في مرحلة إخراج البيانات‪ ،‬وكذلك على حقول أخرى بعدد الــ ‪ classes‬المصنفة والتي يزداد عددها‬
‫تباعا بتزايد األصناف اعتمادا على النتائج التي نحصل عليها من الـ ‪ ، Classification Middleware‬ويتم‬
‫وضع القيمة ‪ or 1 0‬في الحقول الخاصة بالـ ‪ class‬في نقس السجل على النحو التالي ‪:‬‬
‫‪ 1‬في الحقول التي تمثل الـ ‪ class‬الذي تنتمي اليه هذه الوثيقة‪.‬‬
‫‪ 0‬في بقية الحقول‪.‬‬
‫وفي حال إضافة سجل يمثل بيانات وثيقة جديدة مع عمود يمثل صنف جديد أنشئ بقدوم هذه الوثيقة فانه يتم‬
‫وضع القيمة ‪ 1‬في الحقل المقابل للوثيقة فقط ويصفر باقي العمود‪.‬‬

‫‪ ‬نتائج مرحلتي جلب و تخزين البيانات‬

‫‪3‬‬
‫بعد انتهاء مراحل جلب البيانات‪ ،‬وفهرستها‪ ،‬وتصنيفها‪ ،‬وإيجاد عالقات الترابط فيما بينها‪ ،‬فإننا نكون قد حصلنا‬
‫على نماذج دخل الستخدامها في المستقبل‪ ،‬وكذا حصلنا على بيانات منمذجة ومصنفه في مخزن البيانات‪ ،‬يمكن‬
‫إجراءعمليات االسترجاع لهذه البيانات بسهوله ويسر وفي أي وقت كان‪.‬‬

‫وهذا مثال يوضح شكل جدول نموذج التصنيف ‪ Middleware Classification‬بعد قدوم ‪ 6‬وثائق مختلفة فأن‬
‫البرنامج ‪ Classification Middleware‬سيقوم بتكوين نماذج تدريب بناء على البيانات القادمة على النحو‬
‫التالي‪:‬‬

‫شكل الجدول الخاص ببرنامج الــ ‪Middleware‬بعد تخزين خمسة نماذج الصناف مختلفة‪:‬‬

‫شكل مخزن البيانات بعد تخزين ‪ 6‬وثائق تنتمي ألصناف معينة‪:‬‬

‫‪Ducoment ID‬‬ ‫‪URL‬‬ ‫‪Description‬‬ ‫‪Cl‬‬ ‫‪C2‬‬ ‫‪C3‬‬ ‫…‬ ‫‪Cn‬‬


‫…‬
‫…‪.‬‬
‫النوع‬ ‫النوع‬ ‫النوع‬ ‫النوع النوع‬ ‫النوع‬ ‫النوع‬
‫الحجم‬ ‫الحجم‬ ‫الحجم‬ ‫الحجم الحجم‬ ‫الحجم‬ ‫الحجم‬
‫المدى‬ ‫المدى‬ ‫المدى‬ ‫المدى المدى‬ ‫المدى‬ ‫المدى‬

‫بعد هذه المراحل فإن البيانات مهيئه ألي عملية استرجاع من قبل برنامج محرك البحث وحسب طلب المستعلم ‪،‬‬
‫ولم يتبقى إال معالجة االستفسار‪.‬‬

‫‪4‬‬
‫‪ ‬معالجة االستفسار‪Query Processing‬‬
‫هذه المرحلة تتم من قبل الــ ‪ Clint‬والذي يترتب عليه القيام بعدة مهام لكي يحصل على البيانات من مخازن‬
‫البيانات وهذه المهام هي‪:‬‬
‫‪ -1‬تحديد االحتياج من المعلومات‪.‬‬
‫‪ -2‬تحديد أدوات البحث‪.‬‬
‫‪ -3‬بناء جملة االستعالم‪.‬‬
‫‪ -4‬إدخال االستعالم في أداة البحث‪.‬‬
‫‪ -5‬تفحص وتحليل النتائج التي يعيدها له الخادم ‪server.‬‬
‫‪ -6‬االكتفاء بالنتائج أو إعادة صياغة االستفسار أو تغيير أداة البحث‪.‬‬
‫في حين يتلقى الـ ‪ server‬االستعالم فأنه يعمل على معالجة الطلب كاألتي‪:‬‬

‫‪ - 1‬يقوم في البداية بتحويل حالة األحرف لكل كلمات االستعالم إلى الحالة التي تم االعتماد عليها في مخزن‬
‫البيانات)‪.data warehousing (Upper case or Lower case‬‬
‫‪ -2‬يقوم بتحليل االستعالم إلى مجموعة من الـ ‪ terms‬ليتم دخولها إلى البرنامج الوسيط للتصنيف‬
‫‪ ، Classification Middleware‬ولكنة هنا البرنامج الوسيط الخاص بعملية اإلخراج‪ ،‬وهذا البرنامج يحتوي‬
‫على جدول لخزن نتائج االستعالم الستخدامها في الردود المستقبلية‪ ،.‬ويتكون هذا الجدول من الحقول التالية‪:‬‬

‫‪Class ID‬‬ ‫‪terms‬‬ ‫‪Type‬‬ ‫‪URLs‬‬ ‫‪date‬‬


‫النوع‬ ‫النوع‬ ‫النوع‬ ‫النوع‬ ‫النوع‬
‫الحجم‬ ‫الحجم‬ ‫الحجم‬ ‫الحجم‬ ‫الحجم‬
‫المدى‬ ‫المدى‬ ‫المدى‬ ‫المدى‬ ‫المدى‬

‫الحقول الثالثة األولى بنفس التسميات في جدول النموذج الخاص بنمذجة الوثائق‪ ،‬وذلك لضمان سير عمليات‬
‫النمذجة ‪ ،‬والحقل ‪ date‬ليحتفظ بتأريخ إجراء االستعالم ‪.‬‬
‫‪ - 3‬يحدد البرنامج نوع البيانات القادمة في االستعالم بنفس الطريقة التي تم بها تحديد أنواع بيانات الوثائق‪.‬‬
‫‪ - 4‬اآلن في المرحلة األولى عندما يكون فيه جدول نماذج االستعالم ال يحتوي على أي نموذج سابق ليجلب‬
‫البيانات على أساسة فإنه يقوم بجلب البيانات من الــ‪ data warehousing‬مباشرة وذلك بعمل حصر رأسي‬
‫للبيانات على حسب العمود المحدد بالــ‪ Class ID‬الناتج من تحليل االستعالم ثم استرجاع الــ‪ URL‬وكذا الـ‬
‫‪ Description‬من السجالت الخاصة بالوثائق التي يقابلها القيمه ‪ 1‬في عمود الحصر‪ ،‬ثم يقوم بخزن بيئة‬
‫االستعالم في الجدول الخاص بمناج االستعالمات لالستخدام في االستعالمات المستقبلية‪ ،‬وهذه البيئة التي يخزنها‬
‫هي مجموعة الـ‪ terms‬والـ‪ type‬والـ‪ date‬الخاص باالستعالم‪.‬‬
‫‪ -5‬في المرحلة التي يكون فيها جدول نماذج االستعالم يحتوي على نماذج لعمليات سابقة فانه يتم مقارنة الـ‬
‫‪ Class ID‬الناتج من تحليل االستعالم مع كل الــ‪ Class ID‬المتواجدة في جدول نماذج االستعالم وعند وجود‬
‫صنف في الجدول يماثل الصنف الناتج من تحليل االستعالم فإنة يذهب لمرحلة أخرى وهي تحديد ماإذا كان‬
‫مخزن البيانات تم تعديله بعد تأريخ طلب االستعالم المخزن أم ال‪ ،‬فإذا ما كان مخزن البيانات تم تعديله بإضافة‬
‫وثائق جديدة أو بتغيير محتوى هذه الوثائق فإنه يتم إرجاع النتائج من مخزن البيانات مباشره بنفس طريقة‬
‫التصنيف السابقة وإعادة تحديث البيانات المتواجدة في جدول نماذج االستعالم‪ ،‬وبذا نكون تمكنا من إرجاع بيانات‬
‫دقيقة وحديثة ‪،‬ووفرنا الكثير من التكاليف المترتبة على البحث في كل سجالت مخزن البيانات التي قد تصل إلى‬
‫باليين السجالت‪.‬‬
‫أما إذا لم تتم عملية التحديث على مخزن البيانات منذ تاريخ االستعالم المماثل المخزن في جدول نماذج االستعالم‬
‫فانه يتم إرجاع البيانات المخزنة عن هذا االستعالم دون الحاجة إلى البحث في مخزن البيانات نهائيا‪،‬وبهذا فان‬
‫العملية تتم بشكل أسرع من سابقتها‪.‬‬

‫‪5‬‬

You might also like