Professional Documents
Culture Documents
Data Mining
Data Mining
ملخص
أصبح التنقيب عن البيانات تطبيق راسخ في مجال الذكاء االصطناعي ( )AIوهندسة المعرفة ( .)KEوله جذوره في
التعلم اآللي واإلحصائيات ،ولكن يشمل مجاالت أخرى من علم الحاسوب .وقد لقي الكثير من االهتمام على مدى العقد
الماضي ،حيث وفر التقدم في أجهزة الكمبيوتر وقوة المعالجة السبل لتنقية البيانات على نطاق واسع .خالفا لغيرها من
االبتكارات في الذكاء االصطناعي وهندسة المعرفة ،يمكن القول ان تنقية البيانات تطبيق بدال من تقنية ،وبالتالي يمكن
توقع أن تبقى موضعية في المستقبل المنظور .وتعرض هذه الورقة استعراض موجز لتاريخ التنقيب عن البيانات ،وصوال
إلى يومنا هذا ،وبعض األفكار في التوجهات المستقبلية.
1مقدمة
أصبح التنقيب عن البيانات تطبيق راسخ ضمن نطاق علوم الكمبيوتر .يمكن تتبع أصول تنقية البيانات إلى أواخر
الثمانينيات عندما بدأ هذا المصطلح يستخدم ،على األقل داخل مجتمع البحث .في األيام األولى ،كان هناك القليل من
االتفاق على ما يشمل مصطلح تنقية البيانات ،ويمكن القول ان هذا الشعور ال يزال موجودا على نطاق واسع الي هذا
اليوم ،ويمكن تعريف تنقية البيانات كمجموعة من اآلليات والتقنيات البرمجية ،الستخراج المعلومات المخفية من البيانات.
كلمة مخفية في هذا التعريف هو أمر هام ،فأسلوب االستعالم ،SQLرغم انه متطور ،ولكنه لليس التنقيب عن البيانات.
وباإلضافة إلى ذلك ،ينبغي أن يفسر مصطلح المعلومات في أوسع معانيه .وبحلول أوائل ،1990تم االعتراف بتقنية
البيانات علي انه عملية فرعية داخل عملية أكبر تسمى اكتشاف المعرفة في قواعد البيانات أو ( KDDوإن كان في سياق
الحديث اكتشاف المعرفة بتنقية البيانات سيكون أكثر مالئمة ،كما أننا لم نعد نحصل علي البيانات من قواعد البيانات فقط).
التعريف األكثر شيوعا ل KDDهو ما ينسب للباحث Fayyadوآخرون" :إنه عملية غير بسيطة لتحديد بيانات صالحة،
وذات معني ،يمكن أن تكون مفيدة وذات أنماط مفهومة ( Fayyadوآخرون .)1996 ،كما ينبغي أن ينظر تنقية البيانات
علي انه عملية فرعية في إطار عملية ال KDDعموما ،المعنية باكتشاف 'المعلومات المخفية' .العمليات الفرعية االخري
التي تشكل جزءا من عملية KDDهي إعداد البيانات (التخزين ،وتنظيف البيانات ،قبل المعالجة ،الخ) وتحليل و تصور
النتائج .ألغراض عملية ينظر KDDوتنقية البيانات كمرادفين ،ولكن من الناحية الفنية فان تنقية البيانات عملية فرعية
من .KDD
كانت تقنيات تنقية البيانات موجهة أصال البيانات التي في جداول ،ونظرا ضعف قوة المعالجة المتاحة في ذلك الوقت،
والكفاءة الحسابية (وبخاصة عدد قواعد البيانات) مصدر قلق كبير .كما كمية تجهيز الطاقة المتاحة عموما زيادة ،وتجهيز
الوقت (وإن كانت ال تزال قضية) أصبح اقل مدعاة للقلق وتم استبداله مع الرغبة للتأكد من دقتها ورغبة في إزالة األلغام
مجموعات البيانات أكبر من أي وقت مضى .اليوم ،في سياق جداول البيانات ،لدينا مجموعة راسخة من تقنيات التنقيب
عن البيانات المتاحة .فمن المعروف جيدا في قدرات العديد من المؤسسات والباحثين التجارية إلزالة األلغام جداول
البيانات ،وذلك باستخدام البرمجيات مثل SPSSكليمنتين أو يكا ،على أجهزة سطح المكتب القياسية .ومع ذلك ،فإن
كمية البيانات اإللكترونية التي تم جمعها من قبل جميع أنواع المؤسسات والشركات التجارية ،وعلى أساس سنوي ،ال
تزال تنمو ،وبالتالي ال تزال هناك حاجة إلى آليات فعالة إلزالة األلغام مجموعات البيانات أكبر من أي وقت مضى.
التركيز في الوقت الراهن الثاني من المجتمع استخراج البيانات هو تطبيق استخراج البيانات لمجموعات البيانات غير
القياسية (أي مجموعات البيانات غير مجدول) .ومن األمثلة على ذلك :مجموعات الصور ،ومجموعات الوثائق ،والفيديو،
والبيانات الوسائط المتعددة بجميع أنواعها ورسم بياني وبيانات الشبكة.
زادت شعبية من استخراج البيانات بشكل ملحوظ في ،1990sوخاصة مع إنشاء عدد من المؤتمرات مخصصة؛ مؤتمر
ACM SIGKDDالسنوية في عام ،1995و PKDDاألوروبي والمؤتمرات PAKDDالمحيط الهادي /آسيا في
عام ( 1997وكان المؤتمر IEEE ICDMال قدم حتى 2001حيث كان المؤتمر األول SIAMعلى استخراج
البيانات) .ويمكن أن يعزى هذا االرتفاع في شعبية التقدم في التكنولوجيا ،وتجهيز القوة الكمبيوتر وقدرات تخزين البيانات
المتاحة يعني أن معالجة كميات كبيرة من البيانات باستخدام أعلى آالت مكتب هو احتمال واقعي .أصبح مكان مشترك
للمؤسسات التجارية للحفاظ على البيانات في شكل مقروء الكمبيوتر ،في معظم الحاالت كان هذا في المقام األول لدعم
األنشطة التجارية ،جاءت فكرة أن هذه البيانات يمكن في كثير من األحيان الملغومة الثانية .ورأى في 1990sأيضا
إدخال بطاقات والء العمالء (وخاصة فيما يتعلق سالسل محالت السوبر ماركت الكبيرة) التي سمحت الشركات لتسجيل
مشتريات العمالء ،ويمكن بعد ذلك الملغومة البيانات الناتجة لتحديد أنماط الشراء للعمالء .واصلت شعبية استخراج
البيانات أن ينمو على مدى العقد الماضي مع التركيز بصفة خاصة على البيانات الحالية التعدين غير القياسية (أي بيانات
غير مجدول).
2آلية استخراج البيانات وتقنيات
يمكن وصف آليات وتقنيات تدخل في اختصاص استخراج البيانات وخليط من نهج التعلم اآللي واإلحصاءات؛ من هذا
المنظور ،واستخراج البيانات ويمكن ان يقال انها 'نمت' للخروج من التخصصات من التعلم اآللي واإلحصاءات .في
الواقع تهيمن على المجتمع استخراج البيانات من خالل مزيج من علماء الكمبيوتر واإلحصائيين .جاء المؤتمر االوروبي
على التعلم اآللي ،والمؤتمر األوروبي بشأن المبادئ والممارسة من اكتشاف المعرفة في قواعد البيانات ( )PKDDمعا
في عام ، 2001وبقوا معا منذ ذلك الحين .هناك ،ومع ذلك ،فإن التمييز بين استخراج البيانات والتعلم اآللي .ويتركز
استخراج البيانات على البيانات (في جميع األشكال الخاصة به) وعلى هذا النحو يمكن أن ينظر إليها على أنها مجال
التطبيق ،في حين تعلم اآللة ،وتركز على األقل في شكله التقليدي على آليات تنص أجهزة الكمبيوتر يمكن أن تتعلم (مثل
التركيز واحدة من العمل في وقت مبكر يوم كان التعلم اآللي برامج الكمبيوتر التي يمكن أن تتعلم للعب الشطرنج) .ويمكن
بالتالي أن ينظر إلى التعلم اآللي وتقنية ،في حين التنقيب عن البيانات ،وبواسطة KDDالتمديد ،كتطبيق.
تقليديا ،يمكن على نطاق واسع جدا أن تصنف تقنيات استخراج البيانات كما أنها موجهة إما:
(ط) نمط استخراج /تحديد الهوية( ،الثاني) تجميع البيانات أو (الثالث) تصنيف /التصنيف .يعتبر كل فترة وجيزة بمزيد
من التفصيل في األقسام الفرعية التالية .في األدب الحالي التنقيب عن البيانات ،يمكن أن نجد أيضا إشارة إلى العديد من
التقنيات األخرى التي تم اعتمادها من المجاالت مثل اإلحصاء والرياضيات ،على سبيل المثال ،االنحدار الخطي وتحليل
المكون الرئيسي.
2.1استخراج نمط
طوال تاريخها ،وقد كان استخراج البيانات التركيز كبيرا على إيجاد أنماط في البيانات .هذه األنماط يمكن أن تتخذ أشكاال
عديدة ،ذكرنا سابقا أنماط الشراء للعمالء ،وقد تكون أنماط بديلة االتجاهات في البيانات الزمانية أو طولية ،وكثيرا ما
تحدث الرسوم البيانية الفرعي في بيانات الرسم البياني وهلم جرا .وثمة نمط أي مزيج التي تحدث في كثير من األحيان
من الكيانات ،واألحداث ،واألشياء ،وما إلى ذلك نموذج نمط تقنية التعدين جمعية سيادة التعدين ( )ARMكأول اقترحه
أغراوال وآخرون .في سياق السوبر تحليل سلة السوق (أغراوال وآخرون .)1993 ،وكان الهدف هنا للتعرف على أنماط
متكررة تحدث في البيانات ومن ثم ،من هذه األنماط ،واستخراج القواعد جمعية ( .)ARSو ARهو قاعدة االحتمالية التي
تنص على أنه إذا كانت بعض مجموعة من الصفات البيانات تحدث معا ثم بعض الدول األخرى (منفصلة) مجموعة من
الصفات ومن المرجح أيضا أن تحدث .التحدي األساسي من ARMهو أن تعطى مجموعة بيانات مع سمات ( Nأزواج
قيمة الحقل) ،وهناك أنماط مرشح .2N21وقد اجتذب ARMباهتمام كبير من قبل المجتمع استخراج البيانات على مر
السنين .لقد تم اقتراح العديد من االمتدادات مثل ARMالموزون وفائدة ARM ،المكانية والزمانية ARM ،اإلضافية،
ARMغامض ،الخ يبقى التعدين نمط متكرر منطقة مشتركة للتحقيق في مجال التنقيب عن البيانات .تستاء تعمل على
التعدين نمط متكرر قد وجهت في نظم المزكي (الناس الذين اشتروا اشتروا أيضا .)X-Yاألكثر شعبية الحالي متكررة
خوارزمية التعدين النمط نمو نمط متكرر يمكن القول (هان وآخرون.)2000 ،
2.2تقسيم
وتشعر المجموعات مع تجميع البيانات في فئات .هذا أمر مرغوب فيه وال سيما في سياق بيانات العمالء حيث أنه من
المفيد لتجميع الزبائن المتشابهة معا لغرض (ويقول) إعالنات مستهدفة .بالنسبة لكثير من المخاوف المجموعات هو
النشاط االستكشافي .عادة ،نود أن البيانات العنقودية إما إلى عدد محدد من العناقيد ،كما في حالة من المعروف -Kالوسائل
خوارزمية ( ،)MacQueen، 1967أو وفقا لبعض عتبة القرب ،كما في حالة راسخة خوارزمية ( KNNهاستي و
.)Tibshirani، 1996وثمة نهج بديل هو اعتماد بعض شكل من المجموعات الهرمية حيث يتم تقسيم البيانات تكرارا
لتشكيل مجموعة من المجموعات .وشوهد في معظم األحيان خوارزمية المجموعات الهرمية يمكن القول البتوال (تشانغ
وآخرون .) 1996 ،و'الخير' من تكوين كتلة وعادة ما تقاس من حيث التماسك داخل الكتلة والفصل بين الكتلة .القضايا مع
خوارزميات التجميع المتبعة ،مثل -Kالوسائل و ،KNNهي أن مجموعات توليد يتم تمثيل كما فرط المجاالت عند هذا قد
ال يكون الشكل المثالي .قضايا أخرى هي :األبعاد عالية اجه كثيرا من إدخال البيانات ومعالجة الضوضاء (القيم
المتطرفة) والمعطيات الفئوية.
التجميع هو استخراج البيانات راسخة (وقبل أن تعلم اآللة) تقنية .ومن المثير لالهتمام ،ليس هناك "أفضل" خوارزمية
التجميع تنطبق على جميع البيانات ،بدال من ذلك ،وذلك ألسباب ليست واضحة تماما ،وبعض خوارزميات تعمل على نحو
أفضل على بعض مجموعات البيانات من غيرها.
2.3التصنيف
وتشعر تصنيف مع بناء 'المصنفين "التي يمكن تطبيقها على البيانات' الغيب 'وذلك لتصنيف تلك البيانات إلى مجموعات
(فئات) .على هذا النحو تصنيف له ما يناظره مع المجموعات .التمييز ،ومع ذلك ،هو أن تصنيف البيانات يتطلب التدريب
قبل صفت من المصنفات التي يمكن أن يبنى .كما يشار مثل تصنيف أحيانا باسم أشرف التعلم في حين يعتبر تجميع لتمثيل
التعلم غير خاضعة للرقابة .المصنفات المطلوب ،يمكن أن تتخذ أشكاال عديدة :أشجار القرار ،ودعم آالت النواقل (
)SVMsكأول اقترحه ) ،Vapnik (1995والقواعد ،الخ أشجار القرار هي أبسط .شجرة القرار األكثر تأثيرا جيل
الخوارزمية فيما يتعلق استخراج البيانات هو C4.5الخوارزمية كوينالن (كوينالن .)1993 ،االستفادة من المصنفات
على أساس القاعدة هو أنها توفر تفسيرا جاهزا للمستخدمين النهائيين .في سياق المصنفات قائم على قواعد ويمكن أن
تكون قواعد التصنيف
تعتبر شكال خاصا من أشكال ARوعلى هذا النحو تقنيات ( ARMانظر أعاله) يمكن استخدامها لتوليد مثل هذه القواعد.
المشار إليه في معظم األحيان تصنيف خوارزمية ARMيمكن القول إن خوارزمية ( CBAليو وآخرون.)1998 ،
وتشمل التقنيات األخرى البارزة تصنيف االنحدار ،على سبيل المثال ،خوارزمية السلة (بريمان وآخرون)1984 ،
وساذج بايز (اليد ويو .)2001 ،يمكن أن تكون إما المصنفات (ط) المصنفات ثنائي (اختيار بين بديلين)( ،الثاني)
المصنفات متعدد الطبقات (اختيار بين أكثر من اثنين من البدائل) ،أو (الثالث) متعدد المسمى (تعيين البيانات الغيب إلى
واحد أو أكثر من فئات) .المصنفات الثنائية هي أبسط لتوليد .وعادة ما تقاس جودة من المصنف الناتجة من حيث الدقة
والحساسية والخصوصية .إلى حد ما ويمكن استخالص أوجه الشبه بين التصنيف واالستدالل المبني على الحالة ،على حد
سواء يعمل باستخدام الحاالت السابقة أو المعرفة.
تصنيف مستمر في تلقي اهتمام من المجتمع التنقيب عن البيانات .واحد التمديد هو مفهوم المصنفات ترتيبي حيث تنظم
الطبقات ممكن في بعض الطريق .هناك أيضا مصلحة كبيرة في تصنيف حيوية ،على سبيل المثال ،تصنيف تسلسل
الفيديو.
3تطبيقات
مما سبق ،كان التركيز األصلي للتعدين البيانات جداول البيانات ،وقد تم إنشاء مجموعة فعالة للغاية من التقنيات الموجهة
إلى التعدين من جداول البيانات ،ولكن عمال المناجم البيانات التعدين البيانات :الماضي والحاضر والمستقبل ترغب في
إزالة األلغام كل شيء! هذا القسم يستعرض بإيجاز بعض التطبيقات الحالية لهذه التكنولوجيا يتجاوز التعدين جدولي بسيط.
هناك ،بطبيعة الحال ،كثير أكثر.
نص التعدين 3.1
كان الخطوة التالية الطبيعية من تعدين البيانات جدولي التقليدية التعدين النص .تطبيق نموذجي هو بناء المصنفات لتصنيف
أو مجموعة ومجموعات كبيرة الوثيقة (المقاالت اإلخبارية هي مثال شعبية ،وآخر هو صفحات الويب) .تطبيق آخر هو
رأي أو التعدين االستبيان حيث كان الهدف هو الحصول على معلومات مفيدة ،وهذا هو' ،آراء' ،من عنصر النص الحر
للبيانات أسلوب االستبيان .تطبيق آخر هو تلخيص النص ،وهو التطبيق الذي يبدأ في 'طمس' في مجال استرجاع
المعلومات .في سياق تصنيف النص SVMs ،تعمل بشكل جيد (ولكن تقديم أي تفسير من التصنيفات الناتجة) .عموما،
هذه المسألة مع التعدين النص هو أفضل طريقة لتمثيل البيانات النصية ،وذلك للسماح للتطبيق تقنيات التنقيب عن البيانات.
تمثيل األكثر شيوعا هو تمثيل كيس من الكلمات حيث الوثائق
ممثلة من حيث مجموعة من الكلمات الرئيسية .والسؤال إذن هو ما هي الكلمات الرئيسية لتشمل؟ ويمكن تعريف هذه من
قبل خبراء ،أو استخراج باستخدام تقنيات استخراج البيانات األخرى أو معالجة اللغة الطبيعية ( )NLPتقنيات .بديال
لتمثيل كيس من الكلمات هو تمثيل كيس من عبارات .ومع ذلك ،في كلتا الحالتين ،يتم فقدان ترتيب الكلمات /العبارات.
تقنيات بديلة محاولة للحفاظ على هذه المعرفة ،ولكن هذا ينطوي على كبير
زيادة في التعقيد الحسابي .التعدين النص بجميع أشكاله ،ال يزال ،ليكون نشاط التعدين البيانات الشعبية.
3.2التعدين صورة
هناك العديد من مجموعات كبيرة من الصور الرقمية التي تم إنشاؤها مع االحترام للعديد من التطبيقات .كما في حالة
التعدين النص ،تشعر التعدين الصورة مع تمثيل للصور (كل من 2Dو )3Dبحيث يمكن تطبيق تقنيات التعدين .لهذا
الغرض ،والصور يمكن أن تكون ممثلة في العديد من الطرق المختلفة ،وتشمل تقنيات شعبية في جيل من رسوم بيانية أو
األشجار /الرسوم البيانية (واحد لكل صورة) .بدال من ذلك ،يمكننا محاولة لتمثيل الصور من حيث مجموعات من
الكائنات التي تم تحديدها باستخدام تجزئة وتقنيات التسجيل .تقنيات تجزئة صورة لها نجاح محدود ،وهذا يتوقف على
طبيعة هذه الصور ،وتخضع للمواصلة البحث داخل المجتمع تحليل الصور .يبقى تحليل الصور موضوع البحث التحدي
(ونحن ال تزال غير قادرة على الحصول على آلة للتمييز بين القطة والكلب بأي درجة من الموثوقية درجة) .في مجاالت
معينة ،مثل التعدين الصور الطبية ،حيث يمكن أن تكون المشكلة بالقوالب بطريقة معينة ،تمت زيارتها التعدين صورة
بعض النجاحات .ومن األمثلة على ذلك تصنيف البيانات صورة شبكية العين وفحص بالرنين المغناطيسي بيانات التصوير
لتحديد االضطرابات .آخر منطقة شعبية من التطبيق التعدين صورة األقمار الصناعية .ال تزال األبحاث الحالية في مجال
التعدين الصورة ألن تركز على أفضل طريقة لتمثيل الصور بحيث يمكن تطبيقها أن تقنيات استخراج البيانات .وفي هذا
الصدد ،يجدر بالمالحظة أن لتطبيق تقنيات التنقيب عن البيانات ،ونحن ال تحتاج أن يكون لها تمثيل وهذا هو تفسير من
قبل البشر ،طالما أن أعمال التنقيب في البيانات (على سبيل المثال ال نحتاج بالضرورة تقنيات تجزئة دقيقة).
3.3التعدين الرسم البياني
التعدين الرسم البياني (وشجرة) هي في جوهرها امتدادا لنمط متكرر التعدين (انظر أعاله) ،ما نحن مهتمون في كثيرا ما
تحدث الرسوم البيانية الفرعية .يجادل الممارسين التعدين الرسم البياني أن كل شيء يمكن أن تكون ممثلة مثل رسم بياني.
بل هو على التوالي إلى األمام لنرى كيف الكيانات مثل المستندات ورسائل البريد اإللكتروني والصور يمكن أن تكون
ممثلة في هذا النموذج .وهناك مجال تطبيق شيوعا هو تحليل مركب كيميائي .على مستوى عال ،يمكننا تحديد شكلين من
هذه المشكلة:
(ط) كثرة الرسوم البيانية الفرعية التي تحدث عبر مجموعة من الرسوم البيانية و( )IIكثرة الرسوم البيانية الفرعية التي
تحدث في واحد رسم بياني كبير جدا .يمكننا أيضا التمييز بين التعدين الرسم البياني والتعدين شجرة؛ التعدين شجرة هو
أكثر لين العريكة كما يمكن االستفادة من الميزات الكامنة في شجرة (أي دورات ،الخ) .التعدين الرسم البياني (وشجرة)
تتطلب شكال الكنسي التي لتمثيل الرسوم البيانية ،وقد تركز الكثير من العمل في وقت مبكر في هذا الشأن .القضايا
الرئيسية الراهنة مع التعدين الرسم البياني هي المرشح توليد الرسم البياني الفرعي واختبار التماثل الرسم البياني الفرعي.
األكثر نفوذا متكررة خوارزمية التعدين الرسم البياني الفرعي يمكن القول ( gSpanيان وهان .)2002 ،ملحق شعبية
للتعدين الرسم البياني التعدين الشبكة االجتماعية .الدافع هنا هو شعبية مواقع الشبكات االجتماعية مثل الفيسبوك ،ويترتب
على ذلك من الرغبة في التعرف على تجمعات (مجتمعات) داخل هذه الشبكات .ومع ذلك ،هناك العديد من الشبكات
االجتماعية أشكال أخرى ،مثل شبكات التأليف المشترك (الببليوجرافية) النقل و ،التي تقنيات التعدين شبكة اجتماعية يمكن
تطبيقها.
4االستنتاجات
لقد حان استخراج البيانات على الساحة على مدى العقدين الماضيين كتخصص في حد ذاتها
الذي يقدم فوائد فيما يتعلق العديد من المجاالت ،سواء التجارية واألكاديمية .على نطاق واسع ،ويمكن االطالع التعدين
البيانات في مجال التطبيق ،في مقابل التكنولوجيا .زيادة القدرة للمؤسسات على جمع البيانات اإللكترونية ،سهلت معالجة
الكمبيوتر المتقدمة ،يعني أن الرغبة في البيانات 'األلغام' من المرجح أن تنفق .المجتمع استخراج البيانات يحتوي على
مجموعة راسخة من التقنيات المتاحة ،والتي نسعى إلى تطبيقها على مجموعة متنوعة وأكبر من أي وقت مضى من
البيانات .وبصفة عامة ،فإن عمليات التنقيب عن البيانات الفعلية ،في كثير من الحاالت ،متوفرة بسهولة .القضايا الراهنة
هي أكثر قلقا مع معالجة البيانات بحيث يمكن تطبيقها أن تقنيات استخراج البيانات ،ومرحلة ما بعد المعالجة (مثل
، على الرغم من أننا جيدة جدا في استخراج البيانات الفعلية، وهكذا. الخ) من النتيجة النهائية، الجيل تفسير،التصور
سائق آخر للبحوث في استخراج البيانات.وعملية "نهاية إلى نهاية" للتعدين البيانات ال يزال يتطلب إدخال البحثية الهامة
ولذلك نحن مهتمون أيضا في تقنيات إلزالة األلغام مجموعات.هو حجم متزايد من البيانات التي ترغب في العمل معها
.)البيانات أكبر من أي وقت مضى (ومجموعة متنوعة وأكبر من أي وقت مضى من البيانات
References
Agrawal, R., Imielinski, T. & Swami, A. 1993. Mining association rules between sets of items in large
databases. In Proceedings of the ACM SIGMOD International Conference on Management of Data
(SIGMOD’93), ACM Press, 207–216.
Breiman, L., Friedman, Y., Olshen, R. & Stone, C. 1984. Classification and Regression Trees. Wadsworth.
Fayyad, U., Piatetsky-Shapiro, H. & Smyth, P. 1996. The KDD process for extracting useful knowledge from
volumes of data. Communications of the ACM 39(11), 27–34.
Han, J., Pei, J. & Yin, Y. 2000. Mining frequent patterns without candidate generation. In Proceedings of the
ACM SIGMOD Conference on Management of Data (SIGMOD ’00), ACM Press, 1–12.
Hand, D. J. & Yu, K. 2001. Idiot’s Bayes: not so stupid after all? International Statistical Review 69, 385–398.
Hastie, T. & Tibshirani, R. 1996. Discriminant adaptive nearest neighbor classification. IEEE Transaction on
Pattern Analysis and Machibe Intelligence 18(6), 607–616.
Liu, B., Hsu, W. & Ma, Y. M. 1998. Integrating classification and association rule mining. In Proceedings
of the Knowledge Discovery and Data Mining-98, ACM Press, 80–86.
MacQueen, J. B. 1967. Some methods for classification and analysis of multivariate observations. In Proceedings
of the 5th Berkeley Symposium Mathematical Statistics and Probability. University of California
Press, Berkeley, CA, USA, 281–297.
Quinlan, J. R. 1993. C4.5: Programs for Machine Learning. Morgan Kaufmann Publishers Inc.
Vapnik, V. N. 1995. The Nature of Statistical Learning Theory. Springer-Verlag.
Yan, X. & Han, J. 2002. gSpan: graph-based substructure pattern mining. In Proceedings of the IEEE
International Conference on Data Mining (ICDM ’02), IEEE, 721–724.
Zhang, T., Ramakrishnan, R. & Livny, M. 1996. BIRCH: an efficient data clustering method for very large
databases. In Proceedings of the ACM SIGMOD International Conference on Management of Data, ACM
.Press, 103–114