Data Mining

‫تنقية البيانات‪ :‬الماضي والحاضر والمستقبل‬
‫ملخص‬
‫أصبح التنقيب عن البيانات تطبيق راسخ في مجال الذكاء االصطناعي (‪ )AI‬وهندسة المعرفة (‪ .)KE‬وله جذوره في‬
‫التعلم اآللي واإلحصائيات‪ ،‬ولكن يشمل مجاالت أخرى من علم الحاسوب‪ .‬وقد لقي الكثير من االهتمام على مدى العقد‬
‫الماضي‪ ،‬حيث وفر التقدم في أجهزة الكمبيوتر وقوة المعالجة السبل لتنقية البيانات على نطاق واسع‪ .‬خالفا لغيرها من‬
‫االبتكارات في الذكاء االصطناعي وهندسة المعرفة‪ ،‬يمكن القول ان تنقية البيانات تطبيق بدال من تقنية‪ ،‬وبالتالي يمكن‬
‫توقع أن تبقى موضعية في المستقبل المنظور‪ .‬وتعرض هذه الورقة استعراض موجز لتاريخ التنقيب عن البيانات‪ ،‬وصوال‬
‫إلى يومنا هذا‪ ،‬وبعض األفكار في التوجهات المستقبلية‪.‬‬
‫‪ 1‬مقدمة‬
‫أصبح التنقيب عن البيانات تطبيق راسخ ضمن نطاق علوم الكمبيوتر‪ .‬يمكن تتبع أصول تنقية البيانات إلى أواخر‬
‫الثمانينيات عندما بدأ هذا المصطلح يستخدم‪ ،‬على األقل داخل مجتمع البحث‪ .‬في األيام األولى‪ ،‬كان هناك القليل من‬
‫االتفاق على ما يشمل مصطلح تنقية البيانات‪ ،‬ويمكن القول ان هذا الشعور ال يزال موجودا على نطاق واسع الي هذا‬
‫اليوم‪ ،‬ويمكن تعريف تنقية البيانات كمجموعة من اآلليات والتقنيات البرمجية‪ ،‬الستخراج المعلومات المخفية من البيانات‪.‬‬
‫كلمة مخفية في هذا التعريف هو أمر هام‪ ،‬فأسلوب االستعالم ‪ ،SQL‬رغم انه متطور‪ ،‬ولكنه لليس التنقيب عن البيانات‪.‬‬
‫وباإلضافة إلى ذلك‪ ،‬ينبغي أن يفسر مصطلح المعلومات في أوسع معانيه‪ .‬وبحلول أوائل ‪ ،1990‬تم االعتراف بتقنية‬
‫البيانات علي انه عملية فرعية داخل عملية أكبر تسمى اكتشاف المعرفة في قواعد البيانات أو ‪( KDD‬وإن كان في سياق‬
‫الحديث اكتشاف المعرفة بتنقية البيانات سيكون أكثر مالئمة‪ ،‬كما أننا لم نعد نحصل علي البيانات من قواعد البيانات فقط)‪.‬‬
‫التعريف األكثر شيوعا ل ‪ KDD‬هو ما ينسب للباحث ‪ Fayyad‬وآخرون‪" :‬إنه عملية غير بسيطة لتحديد بيانات صالحة‪،‬‬
‫وذات معني‪ ،‬يمكن أن تكون مفيدة وذات أنماط مفهومة (‪ Fayyad‬وآخرون‪ .)1996 ،‬كما ينبغي أن ينظر تنقية البيانات‬
‫علي انه عملية فرعية في إطار عملية ال ‪ KDD‬عموما‪ ،‬المعنية باكتشاف 'المعلومات المخفية'‪ .‬العمليات الفرعية االخري‬
‫التي تشكل جزءا من عملية ‪ KDD‬هي إعداد البيانات (التخزين‪ ،‬وتنظيف البيانات‪ ،‬قبل المعالجة‪ ،‬الخ) وتحليل و تصور‬
‫النتائج‪ .‬ألغراض عملية ينظر ‪ KDD‬وتنقية البيانات كمرادفين‪ ،‬ولكن من الناحية الفنية فان تنقية البيانات عملية فرعية‬
‫من ‪.KDD‬‬
‫كانت تقنيات تنقية البيانات موجهة أصال البيانات التي في جداول‪ ،‬ونظرا ضعف قوة المعالجة المتاحة في ذلك الوقت‪،‬‬
‫والكفاءة الحسابية (وبخاصة عدد قواعد البيانات) مصدر قلق كبير‪ .‬كما كمية تجهيز الطاقة المتاحة عموما زيادة‪ ،‬وتجهيز‬
‫الوقت (وإن كانت ال تزال قضية) أصبح اقل مدعاة للقلق وتم استبداله مع الرغبة للتأكد من دقتها ورغبة في إزالة األلغام‬
‫مجموعات البيانات أكبر من أي وقت مضى‪ .‬اليوم‪ ،‬في سياق جداول البيانات‪ ،‬لدينا مجموعة راسخة من تقنيات التنقيب‬
‫عن البيانات المتاحة‪ .‬فمن المعروف جيدا في قدرات العديد من المؤسسات والباحثين التجارية إلزالة األلغام جداول‬
‫البيانات‪ ،‬وذلك باستخدام البرمجيات مثل ‪ SPSS‬كليمنتين أو يكا‪ ،‬على أجهزة سطح المكتب القياسية‪ .‬ومع ذلك‪ ،‬فإن‬
‫كمية البيانات اإللكترونية التي تم جمعها من قبل جميع أنواع المؤسسات والشركات التجارية‪ ،‬وعلى أساس سنوي‪ ،‬ال‬
‫تزال تنمو‪ ،‬وبالتالي ال تزال هناك حاجة إلى آليات فعالة إلزالة األلغام مجموعات البيانات أكبر من أي وقت مضى‪.‬‬
‫التركيز في الوقت الراهن الثاني من المجتمع استخراج البيانات هو تطبيق استخراج البيانات لمجموعات البيانات غير‬
‫القياسية (أي مجموعات البيانات غير مجدول)‪ .‬ومن األمثلة على ذلك‪ :‬مجموعات الصور‪ ،‬ومجموعات الوثائق‪ ،‬والفيديو‪،‬‬
‫والبيانات الوسائط المتعددة بجميع أنواعها ورسم بياني وبيانات الشبكة‪.‬‬
‫زادت شعبية من استخراج البيانات بشكل ملحوظ في ‪ ،1990s‬وخاصة مع إنشاء عدد من المؤتمرات مخصصة؛ مؤتمر‬
‫‪ ACM SIGKDD‬السنوية في عام ‪ ،1995‬و‪ PKDD‬األوروبي والمؤتمرات ‪ PAKDD‬المحيط الهادي ‪ /‬آسيا في‬
‫عام ‪( 1997‬وكان المؤتمر ‪ IEEE ICDM‬ال قدم حتى ‪ 2001‬حيث كان المؤتمر األول ‪ SIAM‬على استخراج‬
‫البيانات)‪ .‬ويمكن أن يعزى هذا االرتفاع في شعبية التقدم في التكنولوجيا‪ ،‬وتجهيز القوة الكمبيوتر وقدرات تخزين البيانات‬
‫المتاحة يعني أن معالجة كميات كبيرة من البيانات باستخدام أعلى آالت مكتب هو احتمال واقعي‪ .‬أصبح مكان مشترك‬
‫للمؤسسات التجارية للحفاظ على البيانات في شكل مقروء الكمبيوتر‪ ،‬في معظم الحاالت كان هذا في المقام األول لدعم‬
‫األنشطة التجارية‪ ،‬جاءت فكرة أن هذه البيانات يمكن في كثير من األحيان الملغومة الثانية‪ .‬ورأى في ‪ 1990s‬أيضا‬
‫إدخال بطاقات والء العمالء (وخاصة فيما يتعلق سالسل محالت السوبر ماركت الكبيرة) التي سمحت الشركات لتسجيل‬
‫مشتريات العمالء‪ ،‬ويمكن بعد ذلك الملغومة البيانات الناتجة لتحديد أنماط الشراء للعمالء‪ .‬واصلت شعبية استخراج‬
‫البيانات أن ينمو على مدى العقد الماضي مع التركيز بصفة خاصة على البيانات الحالية التعدين غير القياسية (أي بيانات‬
‫غير مجدول)‪.‬‬
‫‪ 2‬آلية استخراج البيانات وتقنيات‬
‫يمكن وصف آليات وتقنيات تدخل في اختصاص استخراج البيانات وخليط من نهج التعلم اآللي واإلحصاءات؛ من هذا‬
‫المنظور‪ ،‬واستخراج البيانات ويمكن ان يقال انها 'نمت' للخروج من التخصصات من التعلم اآللي واإلحصاءات‪ .‬في‬
‫الواقع تهيمن على المجتمع استخراج البيانات من خالل مزيج من علماء الكمبيوتر واإلحصائيين‪ .‬جاء المؤتمر االوروبي‬
‫على التعلم اآللي‪ ،‬والمؤتمر األوروبي بشأن المبادئ والممارسة من اكتشاف المعرفة في قواعد البيانات (‪ )PKDD‬معا‬
‫في عام ‪ ، 2001‬وبقوا معا منذ ذلك الحين‪ .‬هناك‪ ،‬ومع ذلك‪ ،‬فإن التمييز بين استخراج البيانات والتعلم اآللي‪ .‬ويتركز‬
‫استخراج البيانات على البيانات (في جميع األشكال الخاصة به) وعلى هذا النحو يمكن أن ينظر إليها على أنها مجال‬
‫التطبيق‪ ،‬في حين تعلم اآللة‪ ،‬وتركز على األقل في شكله التقليدي على آليات تنص أجهزة الكمبيوتر يمكن أن تتعلم (مثل‬
‫التركيز واحدة من العمل في وقت مبكر يوم كان التعلم اآللي برامج الكمبيوتر التي يمكن أن تتعلم للعب الشطرنج)‪ .‬ويمكن‬
‫بالتالي أن ينظر إلى التعلم اآللي وتقنية‪ ،‬في حين التنقيب عن البيانات‪ ،‬وبواسطة ‪ KDD‬التمديد‪ ،‬كتطبيق‪.‬‬
‫تقليديا‪ ،‬يمكن على نطاق واسع جدا أن تصنف تقنيات استخراج البيانات كما أنها موجهة إما‪:‬‬
‫(ط) نمط استخراج ‪ /‬تحديد الهوية‪( ،‬الثاني) تجميع البيانات أو (الثالث) تصنيف ‪ /‬التصنيف‪ .‬يعتبر كل فترة وجيزة بمزيد‬
‫من التفصيل في األقسام الفرعية التالية‪ .‬في األدب الحالي التنقيب عن البيانات‪ ،‬يمكن أن نجد أيضا إشارة إلى العديد من‬
‫التقنيات األخرى التي تم اعتمادها من المجاالت مثل اإلحصاء والرياضيات‪ ،‬على سبيل المثال‪ ،‬االنحدار الخطي وتحليل‬
‫المكون الرئيسي‪.‬‬
‫‪ 2.1‬استخراج نمط‬
‫طوال تاريخها‪ ،‬وقد كان استخراج البيانات التركيز كبيرا على إيجاد أنماط في البيانات‪ .‬هذه األنماط يمكن أن تتخذ أشكاال‬
‫عديدة‪ ،‬ذكرنا سابقا أنماط الشراء للعمالء‪ ،‬وقد تكون أنماط بديلة االتجاهات في البيانات الزمانية أو طولية‪ ،‬وكثيرا ما‬
‫تحدث الرسوم البيانية الفرعي في بيانات الرسم البياني وهلم جرا‪ .‬وثمة نمط أي مزيج التي تحدث في كثير من األحيان‬
‫من الكيانات‪ ،‬واألحداث‪ ،‬واألشياء‪ ،‬وما إلى ذلك نموذج نمط تقنية التعدين جمعية سيادة التعدين (‪ )ARM‬كأول اقترحه‬
‫أغراوال وآخرون‪ .‬في سياق السوبر تحليل سلة السوق (أغراوال وآخرون‪ .)1993 ،‬وكان الهدف هنا للتعرف على أنماط‬
‫متكررة تحدث في البيانات ومن ثم‪ ،‬من هذه األنماط‪ ،‬واستخراج القواعد جمعية (‪ .)ARS‬و‪ AR‬هو قاعدة االحتمالية التي‬
‫تنص على أنه إذا كانت بعض مجموعة من الصفات البيانات تحدث معا ثم بعض الدول األخرى (منفصلة) مجموعة من‬
‫الصفات ومن المرجح أيضا أن تحدث‪ .‬التحدي األساسي من ‪ ARM‬هو أن تعطى مجموعة بيانات مع سمات ‪( N‬أزواج‬
‫قيمة الحقل)‪ ،‬وهناك أنماط مرشح ‪ .2N21‬وقد اجتذب ‪ ARM‬باهتمام كبير من قبل المجتمع استخراج البيانات على مر‬
‫السنين‪ .‬لقد تم اقتراح العديد من االمتدادات مثل ‪ ARM‬الموزون وفائدة‪ ARM ،‬المكانية والزمانية‪ ARM ،‬اإلضافية‪،‬‬
‫‪ ARM‬غامض‪ ،‬الخ يبقى التعدين نمط متكرر منطقة مشتركة للتحقيق في مجال التنقيب عن البيانات‪ .‬تستاء تعمل على‬
‫التعدين نمط متكرر قد وجهت في نظم المزكي (الناس الذين اشتروا اشتروا أيضا ‪ .)X-Y‬األكثر شعبية الحالي متكررة‬
‫خوارزمية التعدين النمط نمو نمط متكرر يمكن القول (هان وآخرون‪.)2000 ،‬‬
‫‪ 2.2‬تقسيم‬
‫وتشعر المجموعات مع تجميع البيانات في فئات‪ .‬هذا أمر مرغوب فيه وال سيما في سياق بيانات العمالء حيث أنه من‬
‫المفيد لتجميع الزبائن المتشابهة معا لغرض (ويقول) إعالنات مستهدفة‪ .‬بالنسبة لكثير من المخاوف المجموعات هو‬
‫النشاط االستكشافي‪ .‬عادة‪ ،‬نود أن البيانات العنقودية إما إلى عدد محدد من العناقيد‪ ،‬كما في حالة من المعروف ‪-K‬الوسائل‬
‫خوارزمية (‪ ،)MacQueen، 1967‬أو وفقا لبعض عتبة القرب‪ ،‬كما في حالة راسخة خوارزمية ‪( KNN‬هاستي و‬
‫‪ .)Tibshirani، 1996‬وثمة نهج بديل هو اعتماد بعض شكل من المجموعات الهرمية حيث يتم تقسيم البيانات تكرارا‬
‫لتشكيل مجموعة من المجموعات‪ .‬وشوهد في معظم األحيان خوارزمية المجموعات الهرمية يمكن القول البتوال (تشانغ‬
‫وآخرون‪ .) 1996 ،‬و'الخير' من تكوين كتلة وعادة ما تقاس من حيث التماسك داخل الكتلة والفصل بين الكتلة‪ .‬القضايا مع‬
‫خوارزميات التجميع المتبعة‪ ،‬مثل ‪-K‬الوسائل و‪ ،KNN‬هي أن مجموعات توليد يتم تمثيل كما فرط المجاالت عند هذا قد‬
‫ال يكون الشكل المثالي‪ .‬قضايا أخرى هي‪ :‬األبعاد عالية اجه كثيرا من إدخال البيانات ومعالجة الضوضاء (القيم‬
‫المتطرفة) والمعطيات الفئوية‪.‬‬
‫التجميع هو استخراج البيانات راسخة (وقبل أن تعلم اآللة) تقنية‪ .‬ومن المثير لالهتمام‪ ،‬ليس هناك "أفضل" خوارزمية‬
‫التجميع تنطبق على جميع البيانات‪ ،‬بدال من ذلك‪ ،‬وذلك ألسباب ليست واضحة تماما‪ ،‬وبعض خوارزميات تعمل على نحو‬
‫أفضل على بعض مجموعات البيانات من غيرها‪.‬‬
‫‪ 2.3‬التصنيف‬
‫وتشعر تصنيف مع بناء 'المصنفين "التي يمكن تطبيقها على البيانات' الغيب 'وذلك لتصنيف تلك البيانات إلى مجموعات‬
‫(فئات)‪ .‬على هذا النحو تصنيف له ما يناظره مع المجموعات‪ .‬التمييز‪ ،‬ومع ذلك‪ ،‬هو أن تصنيف البيانات يتطلب التدريب‬
‫قبل صفت من المصنفات التي يمكن أن يبنى‪ .‬كما يشار مثل تصنيف أحيانا باسم أشرف التعلم في حين يعتبر تجميع لتمثيل‬
‫التعلم غير خاضعة للرقابة‪ .‬المصنفات المطلوب‪ ،‬يمكن أن تتخذ أشكاال عديدة‪ :‬أشجار القرار‪ ،‬ودعم آالت النواقل (‬
‫‪ )SVMs‬كأول اقترحه )‪ ،Vapnik (1995‬والقواعد‪ ،‬الخ أشجار القرار هي أبسط‪ .‬شجرة القرار األكثر تأثيرا جيل‬
‫الخوارزمية فيما يتعلق استخراج البيانات هو ‪ C4.5‬الخوارزمية كوينالن (كوينالن‪ .)1993 ،‬االستفادة من المصنفات‬
‫على أساس القاعدة هو أنها توفر تفسيرا جاهزا للمستخدمين النهائيين‪ .‬في سياق المصنفات قائم على قواعد ويمكن أن‬
‫تكون قواعد التصنيف‬
‫تعتبر شكال خاصا من أشكال ‪ AR‬وعلى هذا النحو تقنيات ‪( ARM‬انظر أعاله) يمكن استخدامها لتوليد مثل هذه القواعد‪.‬‬
‫المشار إليه في معظم األحيان تصنيف خوارزمية ‪ ARM‬يمكن القول إن خوارزمية ‪( CBA‬ليو وآخرون‪.)1998 ،‬‬
‫وتشمل التقنيات األخرى البارزة تصنيف االنحدار‪ ،‬على سبيل المثال‪ ،‬خوارزمية السلة (بريمان وآخرون‪)1984 ،‬‬
‫وساذج بايز (اليد ويو‪ .)2001 ،‬يمكن أن تكون إما المصنفات (ط) المصنفات ثنائي (اختيار بين بديلين)‪( ،‬الثاني)‬
‫المصنفات متعدد الطبقات (اختيار بين أكثر من اثنين من البدائل)‪ ،‬أو (الثالث) متعدد المسمى (تعيين البيانات الغيب إلى‬
‫واحد أو أكثر من فئات)‪ .‬المصنفات الثنائية هي أبسط لتوليد‪ .‬وعادة ما تقاس جودة من المصنف الناتجة من حيث الدقة‬
‫والحساسية والخصوصية‪ .‬إلى حد ما ويمكن استخالص أوجه الشبه بين التصنيف واالستدالل المبني على الحالة‪ ،‬على حد‬
‫سواء يعمل باستخدام الحاالت السابقة أو المعرفة‪.‬‬
‫تصنيف مستمر في تلقي اهتمام من المجتمع التنقيب عن البيانات‪ .‬واحد التمديد هو مفهوم المصنفات ترتيبي حيث تنظم‬
‫الطبقات ممكن في بعض الطريق‪ .‬هناك أيضا مصلحة كبيرة في تصنيف حيوية‪ ،‬على سبيل المثال‪ ،‬تصنيف تسلسل‬
‫الفيديو‪.‬‬
‫‪ 3‬تطبيقات‬
‫مما سبق‪ ،‬كان التركيز األصلي للتعدين البيانات جداول البيانات‪ ،‬وقد تم إنشاء مجموعة فعالة للغاية من التقنيات الموجهة‬
‫إلى التعدين من جداول البيانات‪ ،‬ولكن عمال المناجم البيانات التعدين البيانات‪ :‬الماضي والحاضر والمستقبل ترغب في‬
‫إزالة األلغام كل شيء! هذا القسم يستعرض بإيجاز بعض التطبيقات الحالية لهذه التكنولوجيا يتجاوز التعدين جدولي بسيط‪.‬‬
‫هناك‪ ،‬بطبيعة الحال‪ ،‬كثير أكثر‪.‬‬
‫نص التعدين ‪3.1‬‬
‫كان الخطوة التالية الطبيعية من تعدين البيانات جدولي التقليدية التعدين النص‪ .‬تطبيق نموذجي هو بناء المصنفات لتصنيف‬
‫أو مجموعة ومجموعات كبيرة الوثيقة (المقاالت اإلخبارية هي مثال شعبية‪ ،‬وآخر هو صفحات الويب)‪ .‬تطبيق آخر هو‬
‫رأي أو التعدين االستبيان حيث كان الهدف هو الحصول على معلومات مفيدة‪ ،‬وهذا هو‪' ،‬آراء'‪ ،‬من عنصر النص الحر‬
‫للبيانات أسلوب االستبيان‪ .‬تطبيق آخر هو تلخيص النص‪ ،‬وهو التطبيق الذي يبدأ في 'طمس' في مجال استرجاع‬
‫المعلومات‪ .‬في سياق تصنيف النص‪ SVMs ،‬تعمل بشكل جيد (ولكن تقديم أي تفسير من التصنيفات الناتجة)‪ .‬عموما‪،‬‬
‫هذه المسألة مع التعدين النص هو أفضل طريقة لتمثيل البيانات النصية‪ ،‬وذلك للسماح للتطبيق تقنيات التنقيب عن البيانات‪.‬‬
‫تمثيل األكثر شيوعا هو تمثيل كيس من الكلمات حيث الوثائق‬
‫ممثلة من حيث مجموعة من الكلمات الرئيسية‪ .‬والسؤال إذن هو ما هي الكلمات الرئيسية لتشمل؟ ويمكن تعريف هذه من‬
‫قبل خبراء‪ ،‬أو استخراج باستخدام تقنيات استخراج البيانات األخرى أو معالجة اللغة الطبيعية (‪ )NLP‬تقنيات‪ .‬بديال‬
‫لتمثيل كيس من الكلمات هو تمثيل كيس من عبارات‪ .‬ومع ذلك‪ ،‬في كلتا الحالتين‪ ،‬يتم فقدان ترتيب الكلمات ‪ /‬العبارات‪.‬‬
‫تقنيات بديلة محاولة للحفاظ على هذه المعرفة‪ ،‬ولكن هذا ينطوي على كبير‬
‫زيادة في التعقيد الحسابي‪ .‬التعدين النص بجميع أشكاله‪ ،‬ال يزال‪ ،‬ليكون نشاط التعدين البيانات الشعبية‪.‬‬
‫‪ 3.2‬التعدين صورة‬
‫هناك العديد من مجموعات كبيرة من الصور الرقمية التي تم إنشاؤها مع االحترام للعديد من التطبيقات‪ .‬كما في حالة‬
‫التعدين النص‪ ،‬تشعر التعدين الصورة مع تمثيل للصور (كل من ‪ 2D‬و ‪ )3D‬بحيث يمكن تطبيق تقنيات التعدين‪ .‬لهذا‬
‫الغرض‪ ،‬والصور يمكن أن تكون ممثلة في العديد من الطرق المختلفة‪ ،‬وتشمل تقنيات شعبية في جيل من رسوم بيانية أو‬
‫األشجار ‪ /‬الرسوم البيانية (واحد لكل صورة)‪ .‬بدال من ذلك‪ ،‬يمكننا محاولة لتمثيل الصور من حيث مجموعات من‬
‫الكائنات التي تم تحديدها باستخدام تجزئة وتقنيات التسجيل‪ .‬تقنيات تجزئة صورة لها نجاح محدود‪ ،‬وهذا يتوقف على‬
‫طبيعة هذه الصور‪ ،‬وتخضع للمواصلة البحث داخل المجتمع تحليل الصور‪ .‬يبقى تحليل الصور موضوع البحث التحدي‬
‫(ونحن ال تزال غير قادرة على الحصول على آلة للتمييز بين القطة والكلب بأي درجة من الموثوقية درجة)‪ .‬في مجاالت‬
‫معينة‪ ،‬مثل التعدين الصور الطبية‪ ،‬حيث يمكن أن تكون المشكلة بالقوالب بطريقة معينة‪ ،‬تمت زيارتها التعدين صورة‬
‫بعض النجاحات‪ .‬ومن األمثلة على ذلك تصنيف البيانات صورة شبكية العين وفحص بالرنين المغناطيسي بيانات التصوير‬
‫لتحديد االضطرابات‪ .‬آخر منطقة شعبية من التطبيق التعدين صورة األقمار الصناعية‪ .‬ال تزال األبحاث الحالية في مجال‬
‫التعدين الصورة ألن تركز على أفضل طريقة لتمثيل الصور بحيث يمكن تطبيقها أن تقنيات استخراج البيانات‪ .‬وفي هذا‬
‫الصدد‪ ،‬يجدر بالمالحظة أن لتطبيق تقنيات التنقيب عن البيانات‪ ،‬ونحن ال تحتاج أن يكون لها تمثيل وهذا هو تفسير من‬
‫قبل البشر‪ ،‬طالما أن أعمال التنقيب في البيانات (على سبيل المثال ال نحتاج بالضرورة تقنيات تجزئة دقيقة)‪.‬‬
‫‪ 3.3‬التعدين الرسم البياني‬
‫التعدين الرسم البياني (وشجرة) هي في جوهرها امتدادا لنمط متكرر التعدين (انظر أعاله)‪ ،‬ما نحن مهتمون في كثيرا ما‬
‫تحدث الرسوم البيانية الفرعية‪ .‬يجادل الممارسين التعدين الرسم البياني أن كل شيء يمكن أن تكون ممثلة مثل رسم بياني‪.‬‬
‫بل هو على التوالي إلى األمام لنرى كيف الكيانات مثل المستندات ورسائل البريد اإللكتروني والصور يمكن أن تكون‬
‫ممثلة في هذا النموذج‪ .‬وهناك مجال تطبيق شيوعا هو تحليل مركب كيميائي‪ .‬على مستوى عال‪ ،‬يمكننا تحديد شكلين من‬
‫هذه المشكلة‪:‬‬
‫(ط) كثرة الرسوم البيانية الفرعية التي تحدث عبر مجموعة من الرسوم البيانية و(‪ )II‬كثرة الرسوم البيانية الفرعية التي‬
‫تحدث في واحد رسم بياني كبير جدا‪ .‬يمكننا أيضا التمييز بين التعدين الرسم البياني والتعدين شجرة؛ التعدين شجرة هو‬
‫أكثر لين العريكة كما يمكن االستفادة من الميزات الكامنة في شجرة (أي دورات‪ ،‬الخ)‪ .‬التعدين الرسم البياني (وشجرة)‬
‫تتطلب شكال الكنسي التي لتمثيل الرسوم البيانية‪ ،‬وقد تركز الكثير من العمل في وقت مبكر في هذا الشأن‪ .‬القضايا‬
‫الرئيسية الراهنة مع التعدين الرسم البياني هي المرشح توليد الرسم البياني الفرعي واختبار التماثل الرسم البياني الفرعي‪.‬‬
‫األكثر نفوذا متكررة خوارزمية التعدين الرسم البياني الفرعي يمكن القول ‪( gSpan‬يان وهان‪ .)2002 ،‬ملحق شعبية‬
‫للتعدين الرسم البياني التعدين الشبكة االجتماعية‪ .‬الدافع هنا هو شعبية مواقع الشبكات االجتماعية مثل الفيسبوك‪ ،‬ويترتب‬
‫على ذلك من الرغبة في التعرف على تجمعات (مجتمعات) داخل هذه الشبكات‪ .‬ومع ذلك‪ ،‬هناك العديد من الشبكات‬
‫االجتماعية أشكال أخرى‪ ،‬مثل شبكات التأليف المشترك (الببليوجرافية) النقل و‪ ،‬التي تقنيات التعدين شبكة اجتماعية يمكن‬
‫تطبيقها‪.‬‬
‫‪ 4‬االستنتاجات‬
‫لقد حان استخراج البيانات على الساحة على مدى العقدين الماضيين كتخصص في حد ذاتها‬
‫الذي يقدم فوائد فيما يتعلق العديد من المجاالت‪ ،‬سواء التجارية واألكاديمية‪ .‬على نطاق واسع‪ ،‬ويمكن االطالع التعدين‬
‫البيانات في مجال التطبيق‪ ،‬في مقابل التكنولوجيا‪ .‬زيادة القدرة للمؤسسات على جمع البيانات اإللكترونية‪ ،‬سهلت معالجة‬
‫الكمبيوتر المتقدمة‪ ،‬يعني أن الرغبة في البيانات 'األلغام' من المرجح أن تنفق‪ .‬المجتمع استخراج البيانات يحتوي على‬
‫مجموعة راسخة من التقنيات المتاحة‪ ،‬والتي نسعى إلى تطبيقها على مجموعة متنوعة وأكبر من أي وقت مضى من‬
‫البيانات‪ .‬وبصفة عامة‪ ،‬فإن عمليات التنقيب عن البيانات الفعلية‪ ،‬في كثير من الحاالت‪ ،‬متوفرة بسهولة‪ .‬القضايا الراهنة‬
‫هي أكثر قلقا مع معالجة البيانات بحيث يمكن تطبيقها أن تقنيات استخراج البيانات‪ ،‬ومرحلة ما بعد المعالجة (مثل‬
،‫ على الرغم من أننا جيدة جدا في استخراج البيانات الفعلية‬،‫ وهكذا‬.‫ الخ) من النتيجة النهائية‬،‫ الجيل تفسير‬،‫التصور‬
‫ سائق آخر للبحوث في استخراج البيانات‬.‫وعملية "نهاية إلى نهاية" للتعدين البيانات ال يزال يتطلب إدخال البحثية الهامة‬
‫ ولذلك نحن مهتمون أيضا في تقنيات إلزالة األلغام مجموعات‬.‫هو حجم متزايد من البيانات التي ترغب في العمل معها‬
.)‫البيانات أكبر من أي وقت مضى (ومجموعة متنوعة وأكبر من أي وقت مضى من البيانات‬
References
Agrawal, R., Imielinski, T. & Swami, A. 1993. Mining association rules between sets of items in large
databases. In Proceedings of the ACM SIGMOD International Conference on Management of Data
(SIGMOD’93), ACM Press, 207–216.
Breiman, L., Friedman, Y., Olshen, R. & Stone, C. 1984. Classification and Regression Trees. Wadsworth.
Fayyad, U., Piatetsky-Shapiro, H. & Smyth, P. 1996. The KDD process for extracting useful knowledge from
volumes of data. Communications of the ACM 39(11), 27–34.
Han, J., Pei, J. & Yin, Y. 2000. Mining frequent patterns without candidate generation. In Proceedings of the
ACM SIGMOD Conference on Management of Data (SIGMOD ’00), ACM Press, 1–12.
Hand, D. J. & Yu, K. 2001. Idiot’s Bayes: not so stupid after all? International Statistical Review 69, 385–398.
Hastie, T. & Tibshirani, R. 1996. Discriminant adaptive nearest neighbor classification. IEEE Transaction on
Pattern Analysis and Machibe Intelligence 18(6), 607–616.
Liu, B., Hsu, W. & Ma, Y. M. 1998. Integrating classification and association rule mining. In Proceedings
of the Knowledge Discovery and Data Mining-98, ACM Press, 80–86.
MacQueen, J. B. 1967. Some methods for classification and analysis of multivariate observations. In Proceedings
of the 5th Berkeley Symposium Mathematical Statistics and Probability. University of California
Press, Berkeley, CA, USA, 281–297.
Quinlan, J. R. 1993. C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers Inc.
Vapnik, V. N. 1995. The Nature of Statistical Learning Theory. Springer-Verlag.
Yan, X. & Han, J. 2002. gSpan: graph-based substructure pattern mining. In Proceedings of the IEEE
International Conference on Data Mining (ICDM ’02), IEEE, 721–724.
Zhang, T., Ramakrishnan, R. & Livny, M. 1996. BIRCH: an efficient data clustering method for very large
databases. In Proceedings of the ACM SIGMOD International Conference on Management of Data, ACM
.Press, 103–114

Data Mining

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Data Mining

Uploaded by

Copyright:

Available Formats

‫تنقية البيانات‪ :‬الماضي والحاضر والمستقبل‬

You might also like