Search en

‫رمضان كــــــــــــــــــــريم‬
‫البحث عن كيف تتم كل هذه المراحل برمجيا ألن هذ هو لب الموضوع وكل الموضوع‪,‬‬
‫مراحل بــــناء محركات البحث‬

‫‪ ‬مراحل معالجة البيانات‬
‫أهم الخطوات المتبعة لمعالجة البيانات فهي تتضمن عدد من المراحل تبدأ من جمع البيانات من قبل الخام الى‬
‫مرحلة الحصول على المعرفة الجديدة ‪ ،‬وفيما يأتي عرض لهذه المراحل ‪:‬‬
‫‪ .1‬تنقية البيانات ‪:Data Cleaning‬‬
‫وهي مرحلة عزل البيانات التي تحتوي على تشويش او شوائب ‪ Noise‬من مجموعة البيانات‬
‫كإلغاء المعلومات المتكررة‪ ،‬التصحيح الشكلي‪ ،‬معالجة البيانات الناقصة‪.‬‬
‫‪ .2‬توحيد البيانات ‪Data Integration‬‬
‫هذه المرحلة غالبا ما تكون مصادر معالجة البيانات متغيرة العناصر‬
‫وربما تكون مجتمعة في مصدر شائع ‪.‬‬
‫‪ .3‬اختيار البيانات ‪:Data Selection‬‬
‫في هذه المرحلة ‪ ،‬يتم تحديد واسترجاع البيانات المالئمة من مجموعة البيانات ‪.‬‬
‫‪ .4‬نقل البيانات ‪: Data Transformation‬‬
‫وهي عملية نقل البيانات التي تم اختيارها إلى شكل مالئم إلجراءات البحث واالسترجاع‪.‬‬
‫‪ .5‬التصنيف ‪:Classification‬‬
‫إيجاد مجموعات من المعلومات بناًء على خصائص مشتركة كتصنيف المناطق بناء على اإلنتاج الزراعي أو‬
‫تصنيف السيارات بناء على الوقود المستعمل ‪،‬‬
‫تستعمل في هذه الحالة الطرق المستخدمة في الرياضيات اإلحصائية أو الذكاء االصطناعي‬
‫مثل شجرة القرار‪ ،‬أو الشبكات العصبية ‪،‬أو القواعد البايزية‪.‬‬
‫‪ .6‬الربط و التسلسل ‪Association & Sequencing‬‬
‫استخراج العالقة السببية بين البيانات ‪،‬أو العالقة التسلسلية مع إمكانية إعطاء نسبة مئوية لالحتماالت بناء على‬
‫البيانات المتراكمة في المخازن ‪.‬‬
‫‪ .7‬تقييم النموذج ‪:Pattern Evaluation‬‬
‫بعد استخراج النماذج المهمة والتي تمثل المعرفة يتم تقييمها استنادا إلى مقاييس محددة ‪.‬‬
‫‪ -‬تمثيل المعرفة ‪:Knowledge Representation‬‬
‫‪ -‬استخراج البيانات ‪:Data Mining‬‬
‫في هذه المرحلة سيتم تطبيق أسلوب ذكي الستخراج نماذج مفيدة قدر اإلمكان ‪.‬‬
‫‪ ‬صناعة مخازن البيانات ‪:making the data warehousing‬‬
‫بعد قدوم الوثيقة من إلـ ‪ crawler‬فأنة يأتي دور تحليل الوثيقة وتخزينها في مخزن البيانات ولكون الجزء األكبر‬
‫من البيانات القادمة هي بيانات نصية وغير مهيكلة ومن أجل تأمين الوصول لهذه البيانات فأننا نستخدم تقنية ‪IR‬‬
‫‪ - -Information Retrieval‬في تخزين واسترجاع المعلومات وفكرة هذه التقنية هي تخزين واسترجاع‬
‫الوثائق باستعمال معيار منطقي بسيط يتمثل في التالي‪:‬‬
‫‪ -‬تواجد وعدم تواجد الكلمات الدليلية‪.‬‬
‫‪ -‬تصنيف الوثائق اعتمادا على صلتهم باالستفسار‪.‬‬
‫‪ -‬إيجاد بيانات ذات عالقة باستخدام بيانات غير ذات عالقة‪.‬‬
‫أما كيفية صناعة مخازن البيانات فتتم عبر ‪:‬‬
‫‪ -‬توحيد البيانات الواردة من مصادر متنوعة وغير متشابهة‪.‬‬
‫‪ -‬توزيع البيانات بحسب المواضيع واالهتمام ‪.‬‬
‫‪ -‬االهتمام بالبعد الزمني(التاريخ) ‪.‬‬
‫‪ -‬حفظ كامل البيانات من األقدم حتى األحدث‪.‬‬
‫‪1‬‬
‫‪ ‬استخراج البيانات‪Data Mining :‬‬
‫في هذه المرحلة تتم عملية الإستحصال على المعرفة المهمة والجديدة والمفيدة‪،‬‬
‫من خالل كميات كبيرة من البيانات حسب نماذج حسابية أو إحصائية أو منطقية‪،‬‬
‫فاستخراج البيانات منهجية جديدة تجمع بين نتائج األبحاث في الذكاء االصطناعي ‪،‬‬
‫الفهم اآللي‪ ،‬التعرف على األشكال‪ ،‬قواعد المعلومات‪ ،‬الرياضيات اإلحصائية‪،‬‬
‫واجهات االستعمال واللغة‪.‬‬
‫يمكننا الفصل بين نوعين من استخراج المعلومات فتسمية ‪Knowledge discovery in databases‬‬
‫)‪ (KDD‬وهي عملية اكتشاف المعرفة في قواعد البيانات تستعمل عند الباحثين في الذكاء االصطناعي والفهم‬
‫اآللي‪،‬وتسمية ‪ Data Mining‬تستعمل عند الباحثين في الرياضيات اإلحصائية أو خبراء المعلومات ‪.‬‬
‫تستعمل تقنيات استخراج البيانات قواعد المعرفة كما في األنظمة الخبيرة‬
‫إال أن تغذية بنوك المعرفة تتم من خالل المعرفة المستخرجة مباشرة وآليًا من مخازن البيانات ‪.‬‬
‫سنستعمل ‪( Data Mining‬تعدين البيانات) الستخراج المعلومات من قواعد أو مخازن المعلومات ‪،‬‬
‫حيث أن المعلومات في هذه الحالة منتظمة ضمن جداول وملفات ‪، Structured Data‬‬
‫ألنها تفيد لهذا الغرض ‪.‬‬
‫عرض النتائج ‪:‬‬
‫أما في عرض نتائج البحث فتستخدم طريقتين لتحليل البيانات ‪-:‬‬
‫‪ -1‬الطريقة الحسابية تستعمل تحليل البيانات ‪ Analyze data‬من أجل إظهار النتيجة بطريقة حسابية إحصائية ‪.‬‬
‫‪ -2‬استخراج البيانات ‪ Data Mining‬وإظهار البيانات بشكل ‪ Diagram‬تحوي كل واحدة منها معلومات في‬
‫مجال محدد‪.‬‬
‫تستعمل في تحديد نطاق البحث واستعمال أنظمة التحليل على هذه المخازن‬
‫التخاذ القرار في نطاق محدود ‪.‬‬
‫‪ -3‬استخراج البيانات باستعالمات اصطناعية(‪.)machine learning‬‬
‫وهي المرحلة األخيرة من مراحل اكتشاف المعرفة في قواعد البيانات‬
‫وهي المرحلة التي يراها المستفيد‪ ،‬هذه المرحلة األساسية تستخدم األسلوب المرئي‬
‫لمساعدة المستفيد في فهم و وتفسير نتائج استخراج البيانات ‪.‬‬
‫‪ ‬كيفية تمثيل الوثيقة في مخزن البيانات‬

‫أوال تحديد المحتوى الذي سيخزن‬
‫هناك طريقتان لتحديد المحتوى الذي سيخزن في مخزن البيانات ‪-:‬‬
‫‪-1‬التخزين اعتمادا على هيكلية لغة ‪. html‬‬
‫‪ -2‬التخزين اعتمادا على كامل البيانات المحتواة في الوثيقة‪.‬‬
‫الطريقة األولى‬
‫هذه الطريقة من التخزين نستخدمها عندما يكون محتوى الصفحة غير نصي(بيانات على هيئة صور مثال)‪،‬‬
‫عندها نستخدم طريفة التخزين اعتمادا على هيكلية لغة ‪ ، HTML‬حيث يعتمد على الكلمات الدليلية القادمة‬
‫مع الوثيقة والمضمنة في وسوم الـ ‪ ،meta‬وهذه الوسوم تزود بالكثير من المعلومات التي تكون مفيده جدا‬
‫في عملية البحث عن الكلمات الدليلية‪،‬حيث نستخدم ما يلي‪:‬‬
‫‪ -1‬الـ ‪ Metatags‬وهي البيانات الموجودة في جزء الـ(<‪ )>head‬تحت وسوم العنوان‪ title‬ووسم الـ‬
‫‪ meta‬والتي تزود بالكثير من المعلومات عن الصفحة‪.‬‬
‫‪ -2‬معدالت الخطوط والعناوين الذان يستعمالن لفصل أو تأكيد جزء النص مثال على سبيل المثال‪:‬‬
‫<‪.>p>.... <strong>…. </strong>,<p>،</h2>...<h2/‬‬
‫‪ -2‬الروابط التي تشير إلى هذه الصفحة تشرح بعض محتوى الصفحة باختصار‪.‬‬
‫حيث أنه اعتمادا على هذه البيانات يمكننا استخالص الكلمات الدليلية ثم تخزينها في مخزن البيانات مع بقية‬
‫بيانات الصفحة من عنوان ‪ URL‬ووصف وما الى ذلك الذي سنتحدث عنة عند بناء محزن البيانات‪.‬‬
‫‪2‬‬
‫الطريقة الثانية‬
‫التخزين اعتمادا على كامل البيانات المحتواة في الوثيقة‪:‬‬
‫لتمثيل الوثيقة(النصية) في مخازن البيانات يتم تحليل الوثيقة لتجاري الكلمات الدليلية التي في وسوم الـ‪meta‬‬
‫ولكي نحلل الوثيقة فأننا نجري عليها العمليات التالية‪:‬‬
‫‪ -1‬نقرأ نص الوثيقة كامال دون الوسوم الخاصة بـ ‪ HTML‬والكلمات المحجوزة الخاصة بلغات الـ ‪.scripts‬‬
‫‪ -2‬نقوم بإزالة كل عالمات الترقيم ‪.‬‬
‫‪ -3‬نفرز سالسل الحروف التي بدون فراغات ونعتبرها ‪.token‬‬
‫‪ - 4‬نزيل األدوات اللغوية وكل حروف الجر والكلمات الشائعة األخرى والتي تظهر كثيرا في نص الوثائق والتي‬
‫ال تحمل معنى يميز الوثيقة‪.‬‬
‫‪ - 5‬نقوم بعمليات االستئصال للكلمات أي إعادة الكلمات إلى أصلها وذلك للقدرة على تمييز الكلمات المتغايرة‪.‬‬
‫‪ -6‬نحول كل الحروف المتبقية في الوثيقة وكذا كل الحروف في االستفسارات إلى حالة واحدة(‪Upper case or‬‬
‫‪.)Lower case‬‬
‫‪ -7‬كل كلمة بمفردها بعد التجريد تصبح كلمة مفتاحيه ‪ keywords‬نطلق عليها االسم ‪.term‬‬
‫‪ - 8‬اآلن كل الكلمات المتبقية في الوثيقة تختلف عن الوثيقة األصل ويكون هذا هو التمثيل الرسمي للوثيقة‪،‬‬
‫ولتأكيد هذا االختالف يمكننا أن نطلق على مجموعة الكلمات التي تمثل نوعا مغايرا االسم ‪ class‬وهو يمثل‬
‫صنف من أصناف البيانات التي تجلب في الوثائق اعتمادا على عدة معايير من بينها أنواع المتغيرات التي تدل‬
‫على نوع البيانات‪.‬‬
‫‪ -9‬مجموعة الكلمات في كل الوثائق نطلق عليها ‪.text corpus‬‬
‫قبل تخزين بيانات الوثيقة في مخزن البيانات فأنها تمر ببرامج ‪ Classification Middleware‬وهي برامج‬
‫تصنيف ونمذجة وسيطة(تحتوي على نماذج أصناف وربط) يتم إنشاءها بمعايير خاصة وبتحويل البيانات الى‬
‫بيانات بولينية ‪ 0,1‬قابلة للبرمجة بخوارزميات الشبكات العصبية‪،‬يتم في هذا النموذج تحزين األصناف الجديدة‬
‫والتي تستخدم كنماذج مستقبلية في جدول ‪ ،‬ثم حين قدوم بيانات الوثيقة يقوم بتحدد نوع الـ ‪ class‬الذي تنتمي له‬
‫هذه الوثيقة‪ ،‬وإذا لم تكن هذه الوثيقة أو باألخص هذا الـ ‪ class‬يرتبط بأي ‪ class‬أخر مخزن في النموذج فإنه‬
‫يتم إضافته كصنف جديد وذلك بإضافة سجل جديد إلى الجدول الخاص بالنموذج وعليه يتم إضافة عمود جديد في‬
‫مخزن البيانات ‪.‬‬
‫‪Class ID‬‬ ‫‪terms‬‬ ‫‪Type‬‬

‫النوع‬ ‫النوع‬ ‫النوع‬
‫الحجم‬ ‫الحجم‬ ‫الحجم‬
‫المدى‬ ‫المدى‬ ‫المدى‬
‫ومخرجات هذا النموذج هو قيمه ‪ ID‬الخاصة بهذا الـ ‪ class‬ويتم تخزين الوثيقة في مخزن البيانات بإضافة‬
‫سجل جديد يحتوي على حقل يمثل عنوان ‪ URL‬الخاص بهذه الوثيقة وكذلك على حقل يمثل وصف مقابل يبين‬
‫محتوى الوثيقة(يمكن أن نضع عنوان‪ -title-‬الوثيقة كوصف لهذه الوثيقة) ليظهر على الوصلة التي نظهرها‬
‫للمستعلم في مرحلة إخراج البيانات‪ ،‬وكذلك على حقول أخرى بعدد الــ ‪ classes‬المصنفة والتي يزداد عددها‬
‫تباعا بتزايد األصناف اعتمادا على النتائج التي نحصل عليها من الـ ‪ ، Classification Middleware‬ويتم‬
‫وضع القيمة ‪ or 1 0‬في الحقول الخاصة بالـ ‪ class‬في نقس السجل على النحو التالي ‪:‬‬
‫‪ 1‬في الحقول التي تمثل الـ ‪ class‬الذي تنتمي اليه هذه الوثيقة‪.‬‬
‫‪ 0‬في بقية الحقول‪.‬‬
‫وفي حال إضافة سجل يمثل بيانات وثيقة جديدة مع عمود يمثل صنف جديد أنشئ بقدوم هذه الوثيقة فانه يتم‬
‫وضع القيمة ‪ 1‬في الحقل المقابل للوثيقة فقط ويصفر باقي العمود‪.‬‬
‫‪ ‬نتائج مرحلتي جلب و تخزين البيانات‬
‫‪3‬‬
‫بعد انتهاء مراحل جلب البيانات‪ ،‬وفهرستها‪ ،‬وتصنيفها‪ ،‬وإيجاد عالقات الترابط فيما بينها‪ ،‬فإننا نكون قد حصلنا‬
‫على نماذج دخل الستخدامها في المستقبل‪ ،‬وكذا حصلنا على بيانات منمذجة ومصنفه في مخزن البيانات‪ ،‬يمكن‬
‫إجراءعمليات االسترجاع لهذه البيانات بسهوله ويسر وفي أي وقت كان‪.‬‬
‫وهذا مثال يوضح شكل جدول نموذج التصنيف ‪ Middleware Classification‬بعد قدوم ‪ 6‬وثائق مختلفة فأن‬
‫البرنامج ‪ Classification Middleware‬سيقوم بتكوين نماذج تدريب بناء على البيانات القادمة على النحو‬
‫التالي‪:‬‬
‫شكل الجدول الخاص ببرنامج الــ ‪Middleware‬بعد تخزين خمسة نماذج الصناف مختلفة‪:‬‬
‫شكل مخزن البيانات بعد تخزين ‪ 6‬وثائق تنتمي ألصناف معينة‪:‬‬
‫‪Ducoment ID‬‬ ‫‪URL‬‬ ‫‪Description‬‬ ‫‪Cl‬‬ ‫‪C2‬‬ ‫‪C3‬‬ ‫…‬ ‫‪Cn‬‬

‫…‬
‫…‪.‬‬
‫النوع‬ ‫النوع‬ ‫النوع‬ ‫النوع النوع‬ ‫النوع‬ ‫النوع‬
‫الحجم‬ ‫الحجم‬ ‫الحجم‬ ‫الحجم الحجم‬ ‫الحجم‬ ‫الحجم‬
‫المدى‬ ‫المدى‬ ‫المدى‬ ‫المدى المدى‬ ‫المدى‬ ‫المدى‬
‫بعد هذه المراحل فإن البيانات مهيئه ألي عملية استرجاع من قبل برنامج محرك البحث وحسب طلب المستعلم ‪،‬‬
‫ولم يتبقى إال معالجة االستفسار‪.‬‬
‫‪4‬‬
‫‪ ‬معالجة االستفسار‪Query Processing‬‬
‫هذه المرحلة تتم من قبل الــ ‪ Clint‬والذي يترتب عليه القيام بعدة مهام لكي يحصل على البيانات من مخازن‬
‫البيانات وهذه المهام هي‪:‬‬
‫‪ -1‬تحديد االحتياج من المعلومات‪.‬‬
‫‪ -2‬تحديد أدوات البحث‪.‬‬
‫‪ -3‬بناء جملة االستعالم‪.‬‬
‫‪ -4‬إدخال االستعالم في أداة البحث‪.‬‬
‫‪ -5‬تفحص وتحليل النتائج التي يعيدها له الخادم ‪server.‬‬
‫‪ -6‬االكتفاء بالنتائج أو إعادة صياغة االستفسار أو تغيير أداة البحث‪.‬‬
‫في حين يتلقى الـ ‪ server‬االستعالم فأنه يعمل على معالجة الطلب كاألتي‪:‬‬
‫‪ - 1‬يقوم في البداية بتحويل حالة األحرف لكل كلمات االستعالم إلى الحالة التي تم االعتماد عليها في مخزن‬
‫البيانات)‪.data warehousing (Upper case or Lower case‬‬
‫‪ -2‬يقوم بتحليل االستعالم إلى مجموعة من الـ ‪ terms‬ليتم دخولها إلى البرنامج الوسيط للتصنيف‬
‫‪ ، Classification Middleware‬ولكنة هنا البرنامج الوسيط الخاص بعملية اإلخراج‪ ،‬وهذا البرنامج يحتوي‬
‫على جدول لخزن نتائج االستعالم الستخدامها في الردود المستقبلية‪ ،.‬ويتكون هذا الجدول من الحقول التالية‪:‬‬
‫‪Class ID‬‬ ‫‪terms‬‬ ‫‪Type‬‬ ‫‪URLs‬‬ ‫‪date‬‬

‫النوع‬ ‫النوع‬ ‫النوع‬ ‫النوع‬ ‫النوع‬
‫الحجم‬ ‫الحجم‬ ‫الحجم‬ ‫الحجم‬ ‫الحجم‬
‫المدى‬ ‫المدى‬ ‫المدى‬ ‫المدى‬ ‫المدى‬
‫الحقول الثالثة األولى بنفس التسميات في جدول النموذج الخاص بنمذجة الوثائق‪ ،‬وذلك لضمان سير عمليات‬
‫النمذجة ‪ ،‬والحقل ‪ date‬ليحتفظ بتأريخ إجراء االستعالم ‪.‬‬
‫‪ - 3‬يحدد البرنامج نوع البيانات القادمة في االستعالم بنفس الطريقة التي تم بها تحديد أنواع بيانات الوثائق‪.‬‬
‫‪ - 4‬اآلن في المرحلة األولى عندما يكون فيه جدول نماذج االستعالم ال يحتوي على أي نموذج سابق ليجلب‬
‫البيانات على أساسة فإنه يقوم بجلب البيانات من الــ‪ data warehousing‬مباشرة وذلك بعمل حصر رأسي‬
‫للبيانات على حسب العمود المحدد بالــ‪ Class ID‬الناتج من تحليل االستعالم ثم استرجاع الــ‪ URL‬وكذا الـ‬
‫‪ Description‬من السجالت الخاصة بالوثائق التي يقابلها القيمه ‪ 1‬في عمود الحصر‪ ،‬ثم يقوم بخزن بيئة‬
‫االستعالم في الجدول الخاص بمناج االستعالمات لالستخدام في االستعالمات المستقبلية‪ ،‬وهذه البيئة التي يخزنها‬
‫هي مجموعة الـ‪ terms‬والـ‪ type‬والـ‪ date‬الخاص باالستعالم‪.‬‬
‫‪ -5‬في المرحلة التي يكون فيها جدول نماذج االستعالم يحتوي على نماذج لعمليات سابقة فانه يتم مقارنة الـ‬
‫‪ Class ID‬الناتج من تحليل االستعالم مع كل الــ‪ Class ID‬المتواجدة في جدول نماذج االستعالم وعند وجود‬
‫صنف في الجدول يماثل الصنف الناتج من تحليل االستعالم فإنة يذهب لمرحلة أخرى وهي تحديد ماإذا كان‬
‫مخزن البيانات تم تعديله بعد تأريخ طلب االستعالم المخزن أم ال‪ ،‬فإذا ما كان مخزن البيانات تم تعديله بإضافة‬
‫وثائق جديدة أو بتغيير محتوى هذه الوثائق فإنه يتم إرجاع النتائج من مخزن البيانات مباشره بنفس طريقة‬
‫التصنيف السابقة وإعادة تحديث البيانات المتواجدة في جدول نماذج االستعالم‪ ،‬وبذا نكون تمكنا من إرجاع بيانات‬
‫دقيقة وحديثة ‪،‬ووفرنا الكثير من التكاليف المترتبة على البحث في كل سجالت مخزن البيانات التي قد تصل إلى‬
‫باليين السجالت‪.‬‬
‫أما إذا لم تتم عملية التحديث على مخزن البيانات منذ تاريخ االستعالم المماثل المخزن في جدول نماذج االستعالم‬
‫فانه يتم إرجاع البيانات المخزنة عن هذا االستعالم دون الحاجة إلى البحث في مخزن البيانات نهائيا‪،‬وبهذا فان‬
‫العملية تتم بشكل أسرع من سابقتها‪.‬‬
‫‪5‬‬

Search en

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Search en

Uploaded by

Copyright:

Available Formats

‫رمضان كــــــــــــــــــــريم‬

‫مراحل بــــناء محركات البحث‬

‫‪ ‬صناعة مخازن البيانات ‪:making the data warehousing‬‬

‫‪ ‬كيفية تمثيل الوثيقة في مخزن البيانات‬

‫‪Class ID‬‬ ‫‪terms‬‬ ‫‪Type‬‬

‫‪ ‬نتائج مرحلتي جلب و تخزين البيانات‬

‫شكل مخزن البيانات بعد تخزين ‪ 6‬وثائق تنتمي ألصناف معينة‪:‬‬

‫‪Ducoment ID‬‬ ‫‪URL‬‬ ‫‪Description‬‬ ‫‪Cl‬‬ ‫‪C2‬‬ ‫‪C3‬‬ ‫…‬ ‫‪Cn‬‬

‫‪Class ID‬‬ ‫‪terms‬‬ ‫‪Type‬‬ ‫‪URLs‬‬ ‫‪date‬‬

You might also like