Professional Documents
Culture Documents
Datamining Lect1
Datamining Lect1
Datamining Lect1
1
مقدمة
ما هو استخراج البيانات؟
بعد سنوات من التنقيب في البيانات ،ال توجد حتى اآلن إجابة فريدة لهذا •
.السؤال
:تعريف مبدئي •
استخراج البيانات هو استخدام تقنيات فعالة لتحليل مجموعات كبيرة جًد ا من
.البيانات واستخراج أنماط مفيدة وربما غير متوقعة في البيانات
لماذا نحتاج إلى استخراج البيانات؟
!حقا ،حقا كميات هائلة من البيانات الخام •
في العصر الرقمي ،يتم إنشاء تيرابايت من البيانات في الثانية •
.األجهزة المحمولة والصور الرقمية ومستندات الويب •
تحديثات الفيسبوك والتغريدات والمدونات والمحتوى الذي ينشئه •
المستخدم
المعامالت ،بيانات االستشعار ،بيانات المراقبة •
االستعالمات والنقرات والتصفح •
لقد جعل التخزين الرخيص من الممكن الحفاظ على هذه البيانات •
تحتاج إلى تحليل البيانات األولية الستخراج المعرفة •
لماذا نحتاج إلى استخراج البيانات؟
" البيانات هي الكمبيوتر " •
يمكن أن تكون الكميات الكبيرة من البيانات أقوى من الخوارزميات والنماذج •
المعقدة
بحل العديد من مشكالت معالجة اللغات الطبيعية ،وذلك ببساطة من خالل Googleلقد قامت •
النظر إلى البيانات
على سبيل المثال :األخطاء اإلمالئية والمرادفات •
!البيانات هي القوة •
اليوم ،تعد البيانات التي تم جمعها واحدة من أكبر األصول لشركة عبر اإلنترنت •
• سجالت االستعالم من جوجل
• الصداقة وتحديثات الفيسبوك
• تغريدات ومتابعات تويتر
• معامالت أمازون
نحن بحاجة إلى وسيلة لتسخير الذكاء الجماعي •
البيانات أيًض ا معقدة جًدا
أنواع متعددة من البيانات :الجداول ،السالسل الزمنية ،الصور ،الرسوم •
البيانية ،إلخ
أمازون بجمع كافة العناصر التي قمت بتصفحها ،ووضعها في سلتك ،وقراءة التقييمات عنها• ،
.وشرائها
بتسجيل جميع أنشطة التصفح الخاصة بك عبر المكونات اإلضافية لشريط Bingو Googleيقوم •
األدوات .كما يقومون أيًض ا بتسجيل االستعالمات التي طلبتها والصفحات التي شاهدتها والنقرات
.التي قمت بها
صف nحيث يوجد n-by-d ،يمكن تمثيل مجموعة البيانات هذه بمصفوفة بيانات •
عمود واحد لكل سمة dواحد لكل كائن ،و
timeout
season
coach
game
score
team
ball
lost
pla
wi
n
y
Document 1 3 0 5 0 2 6 0 2 0 2
Document 2 0 7 0 2 1 0 0 3 0 0
Document 3 0 1 0 0 1 2 2 0 3 0
بيانات المعامالت
.كل سجل (معاملة) عبارة عن مجموعة من العناصر •
TID Items
1 Bread, Coke, Milk
2 Beer, Bread
3 Beer, Coke, Diaper, Milk
4 Beer, Bread, Diaper, Milk
5 Coke, Diaper, Milk
GGTTCCGCCTTCAGCCCCGCGCC
CGCAGGGCCCGCCCCGCGCCGTC
GAGAAGGGCCCGCCTGGCGGGCG
GGGGGAGGCGGGGCCGCCCGAGC
CCAACCGAGTCCGACCAGGTGCC
CCCTCTGCTCGGCCTAGACCTGA
GCTCATTAGGCGGCAGCGGACAG
GCCAAGTAGAACACGCGAAGCGC
TGGGCTGCCTGCTGCGACCAGGG
TID Items
وضع المنتج
1 Bread, Coke, Milk
2 Beer, Bread
3 Beer, Coke, Diaper, Milk إنشاء الكتالوج
4 Beer, Bread, Diaper, Milk
ماذا لو كان هذا متجًر ا عبر اإلنترنت؟ •
5 Coke, Diaper, Milk التوصيات
ماذا يمكنك أن تفعل مع البيانات ؟
لنفترض أنك محرك بحث ولديك سجل شريط أدوات يتكون من •
،الصفحات التي تم تصفحها •
،استفسارات •
،الصفحات التي تم النقر عليها •
توقع النقر على اإلعالن
تم النقر على اإلعالنات •
إعادة صياغة االستعالم
معرف مستخدم وطابع زمني .ما هي المعلومات التي ترغب في لكل منها
الحصول عليها من البيانات؟
ماذا يمكنك أن تفعل بالبيانات؟
لنفترض أنك عالم أحياء ولديك بيانات تعبير ميكروأري :آالف الجينات •
وقيم تعبيرها عبر آالف اإلعدادات المختلفة (مثل األنسجة) .ما هي
المعلومات التي ترغب في الحصول عليها من بياناتك؟
تجميع األسهم
المكتشفة
العناصرالمكتشفة
مجموعاتالعناصر
::مجموعات
TID Items كوال{ { }}حليب،
حليب،كوال
1 Bread, Coke, Milk حليب{ { }}حفاضات
حفاضات, ,حليب
2 Beer, Bread
3 Beer, Coke, Diaper, Milk المكتشفة
:القواعدالمكتشفة
:القواعد
4 Beer, Bread, Diaper, Milk }حليب{
>{--حليب{
}كوال{>--
}كوال}
5 Coke, Diaper, Milk حليب{ { >{--حفاضات
}حفاضات،،حليب }بيرة{>--
}بيرة}
تان ،م .شتاينباخ وفي .كومار ،مقدمة في استخراج البيانات
مجموعات العناصر المتكررة :التطبيقات
استخراج النص :العثور على العبارات المرتبطة في النص •
هناك الكثير من المستندات التي تحتوي على عبارات "قواعد االرتباط" و •
" "استخراج البيانات" و "الخوارزمية الفعالة
:التوصيات •
المستخدمون الذين يشترون هذا العنصر غالًبا ما يشترون هذا العنصر أيًض ا •
.المستخدمون الذين شاهدوا أفالم جيمس بوند ،شاهدوا أيًض ا أفالم جيسون بورن •
المجموعات
بينالمجموعات
المسافاتبين
المسافات البينية
المسافاتالبينية
المسافات
تصغيرها
يتمتصغيرها
يتم تعظيمها
يتمتعظيمها
يتم
1
Applied-Matl-DOW N,Bay-Net work-Down,3-COM-DOWN,
Cabletron-Sys-DOWN,CISCO-DOWN,HP-DOWN,
DSC-Co mm-DOW N,INTEL-DOWN,LSI-Logic-DOWN,
Micron-Tech-DOWN,Texas-Inst-Down,Tellabs-Inc-Down,
Technology1-DOWN
Natl-Semiconduct-DOWN,Oracl-DOWN,SGI-DOW N,
Sun-DOW N
2
Apple-Co mp-DOW N,Autodesk-DOWN,DEC-DOWN,
ADV-M icro-Device-DOWN,Andrew-Corp-DOWN,
Co mputer-Assoc-DOWN,Circuit-City-DOWN,
Technology2-DOWN
Co mpaq-DOWN, EM C-Corp-DOWN, Gen-Inst-DOWN,
Motorola-DOW N,Microsoft-DOWN,Scientific-Atl-DOWN
3
Fannie-Mae-DOWN,Fed-Ho me-Loan-DOW N,
MBNA-Corp -DOWN,Morgan-Stanley-DOWN Financial-DOWN
4
Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,
Louisiana-Land-UP,Phillips-Petro-UP,Unocal-UP, Oil-UP
Schlu mberger-UP
:طلب •
.قم بإنشاء كتالوج إلرساله يحتوي على عنصر واحد على األقل يهم كل عميل •
التصنيف :التعريف
نظرا لمجموعة من السجالت ( مجموعة التدريب ) •
.يحتوي كل سجل على مجموعة من السمات ،إحدى هذه السمات هي الفئة •
.ابحث عن نموذج لسمة الفئة كدالة لقيم السمات األخرى •
الهدف :يجب تعيين فئة للسجالت غير المرئية مسبًقا بأكبر قدر •
.ممكن من الدقة
مجموعة اختبار لتحديد دقة النموذج .عادة ،يتم تقسيم مجموعة البيانات •
المحددة إلى مجموعات تدريب واختبار ،مع مجموعة تدريب تستخدم لبناء
.النموذج ومجموعة اختبار تستخدم للتحقق من صحته
مثال التصنيف
طع
قا
طع
قا
ممس ت
ر ف
ل ص
Tid Refund Marital Taxable Refund Marital Taxable
Status Income Cheat Status Income Cheat
تعيين
7 Yes Divorced 220K No
8 No Single 85K Yes
9 No Married 75K No
تمرين
يتعلم
10
10 No Single 90K Yes
تعيين مصنف نموذج
فهو يساعدنا على فهم العالم ،ويمكن أن يؤدي إلى نماذج للظواهر التي •
.نالحظها
التحليل االستكشافي :الويب
ما هو هيكل وخصائص الويب؟ •
التحليل االستكشافي :الويب
ما هو توزيع الروابط الواردة؟ •
اتصاالت استخراج البيانات مع المجاالت األخرى
يستمد األفكار من التعلم اآللي/الذكاء االصطناعي والتعرف على األنماط •
واإلحصاءات وأنظمة قواعد البيانات
التقنيات التقليدية •
غير مناسبة بسبب
ضخامة البيانات • اإلحصائيات/ /التعلم االلي
الذكاء التعرف على األنماط
أبعاد عالية • االصطناعي
للبيانات
طبيعة • بيانات التعدين
الثقافات
قواعد البيانات :التركيز على البيانات واسعة النطاق (غير الذاكرة •
.الرئيسية)
الذكاء االصطناعي (التعلم اآللي) :التركيز على األساليب المعقدة •
.والبيانات الصغيرة
في عالم اليوم ،تعد البيانات أكثر أهمية من الخوارزميات •
.اإلحصائيات :التركيز على النماذج •
استخراج البيانات على شبكة اإلنترنت :أناند راجارامان ،جيف أولمان CS345A
49
استخراج البيانات على شبكة اإلنترنت :أناند راجارامان ،جيف أولمان CS345A
50
استخراج البيانات على شبكة اإلنترنت :أناند راجارامان ،جيف أولمان CS345A
استخراج البيانات :التقاء التخصصات المتعددة
قاعدة البيانات
تكنولوجيا إحصائيات
آلة التصور
بيانات التعدين
تعُّلم
نمط
تعُّر ف آخر
خوارزمية التخصصات
استخراج البيانات :التقاء التخصصات المتعددة
قاعدة البيانات
تكنولوجيا إحصائيات
آلة التصور
بيانات التعدين
تعُّلم
نمط
تعُّر ف آخر
خوارزمية التخصصات
استخراج البيانات :التقاء التخصصات المتعددة
قاعدة البيانات
تكنولوجيا إحصائيات
آلة التصور
بيانات التعدين
تعُّلم
نمط
تعُّر ف وزعت
خوارزمية الحوسبة
بنية العقدة الواحدة
ذاكرة
القرص
مجموعات السلع
يمكن أن تكون مجموعات بيانات الويب كبيرة جًد ا •
عشرات إلى مئات تيرابايت •
ال يمكن األلغام على خادم واحد •
:القياسية الناشئة •
األساسية وشبكة جيجابت إيثرنت ربط Linuxعقد •
؛ كوسميكس كي إف إس HDFSجوجل جي إف إس؛ هادوب •
نمط االستخدام النموذجي •
ملفات ضخمة ( 100جيجا بايت إلى تيرابايت) •
نادرا ما يتم تحديث البيانات في مكانها •
القراءات واإلضافات شائعة •
كيفية تنظيم الحسابات على هذه البنية؟ •
خريطة الحد من النموذج •
العمارة العنقودية
جيجابت في الثانية بين الرفوف 2-10
جيجابت في الثانية بين 1 ُيحّو ل
أي زوج من العقد
في الرف
ُيحّو ل ُيحّو ل
وحدة المعالجة المركزية وحدة المعالجة المركزيةوحدة المعالجة المركزية وحدة المعالجة المركزية
المعالجة المسبقة :البيانات الحقيقية صاخبة وغير كاملة وغير متسقة .تنظيف البيانات •
مطلوب لفهم البيانات
.التقنيات :أخذ العينات ،تقليل األبعاد ،اختيار الميزة •
.عمل قذر ،لكنه غالبا ما يكون أهم خطوة للتحليل •
مرحلة ما بعد المعالجة :اجعل البيانات قابلة للتنفيذ ومفيدة للمستخدم •
التحليل اإلحصائي لألهمية •
.التصور •
تعتبر العينة تمثيلية إذا كانت تحتوي تقريًبا على نفس الخاصية (المهّم ة) مثل •
مجموعة البيانات األصلية
أنواع أخذ العينات
عينة عشوائية بسيطة •
هناك احتمال متساو الختيار أي عنصر معين •
معنى اإلجابات
استخراج البيانات على شبكة اإلنترنت :أناند راجارامان ،جيف أولمان CS345A
67
استخراج البيانات على شبكة اإلنترنت :أناند راجارامان ،جيف أولمان CS345A
68
استخراج البيانات على شبكة اإلنترنت :أناند راجارامان ،جيف أولمان CS345A
69
استخراج البيانات على شبكة اإلنترنت :أناند راجارامان ،جيف أولمان CS345A