Datamining Lect1

You might also like

Download as pptx, pdf, or txt
Download as pptx, pdf, or txt
You are on page 1of 69

‫التنقيب في البيانات‬

‫‪1‬‬
‫مقدمة‬
‫ما هو استخراج البيانات؟‬
‫بعد سنوات من التنقيب في البيانات‪ ،‬ال توجد حتى اآلن إجابة فريدة لهذا •‬
‫‪.‬السؤال‬

‫‪:‬تعريف مبدئي •‬

‫استخراج البيانات هو استخدام تقنيات فعالة لتحليل مجموعات كبيرة جًد ا من‬
‫‪ .‬البيانات واستخراج أنماط مفيدة وربما غير متوقعة في البيانات‬
‫لماذا نحتاج إلى استخراج البيانات؟‬
‫!حقا‪ ،‬حقا كميات هائلة من البيانات الخام •‬
‫في العصر الرقمي‪ ،‬يتم إنشاء تيرابايت من البيانات في الثانية •‬
‫‪.‬األجهزة المحمولة والصور الرقمية ومستندات الويب •‬
‫تحديثات الفيسبوك والتغريدات والمدونات والمحتوى الذي ينشئه •‬
‫المستخدم‬
‫المعامالت‪ ،‬بيانات االستشعار‪ ،‬بيانات المراقبة •‬
‫االستعالمات والنقرات والتصفح •‬
‫لقد جعل التخزين الرخيص من الممكن الحفاظ على هذه البيانات •‬
‫تحتاج إلى تحليل البيانات األولية الستخراج المعرفة •‬
‫لماذا نحتاج إلى استخراج البيانات؟‬
‫" البيانات هي الكمبيوتر " •‬
‫يمكن أن تكون الكميات الكبيرة من البيانات أقوى من الخوارزميات والنماذج •‬
‫المعقدة‬
‫بحل العديد من مشكالت معالجة اللغات الطبيعية‪ ،‬وذلك ببساطة من خالل ‪ Google‬لقد قامت •‬
‫النظر إلى البيانات‬
‫على سبيل المثال‪ :‬األخطاء اإلمالئية والمرادفات •‬
‫!البيانات هي القوة •‬
‫اليوم‪ ،‬تعد البيانات التي تم جمعها واحدة من أكبر األصول لشركة عبر اإلنترنت •‬
‫•‬ ‫سجالت االستعالم من جوجل‬
‫•‬ ‫الصداقة وتحديثات الفيسبوك‬
‫•‬ ‫تغريدات ومتابعات تويتر‬
‫•‬ ‫معامالت أمازون‬
‫نحن بحاجة إلى وسيلة لتسخير الذكاء الجماعي •‬
‫البيانات أيًض ا معقدة جًدا‬
‫أنواع متعددة من البيانات‪ :‬الجداول‪ ،‬السالسل الزمنية‪ ،‬الصور‪ ،‬الرسوم •‬
‫البيانية‪ ،‬إلخ‬

‫_ الجوانب المكانية والزمانية •‬

‫‪:‬المترابطة من أنواع مختلفة •‬


‫من الهاتف المحمول يمكننا جمع موقع المستخدم ومعلومات الصداقة وتسجيل •‬
‫الوصول إلى األماكن واآلراء عبر تويتر والصور من خالل الكاميرات‬
‫واالستعالمات لمحركات البحث‬
‫مثال‪ :‬بيانات المعامالت‬
‫‪:‬مليارات العمالء الحقيقيين •‬
‫وول مارت‪ 20 :‬مليوًنا المعامالت يوميا •‬
‫مليون مكالمات يومًيا ‪• AT&T 300‬‬
‫‪.‬شركات بطاقات االئتمان‪ :‬مليارات المعامالت يومًيا •‬

‫تسمح بطاقات النقاط للشركات بجمع معلومات حول مستخدمين محددين •‬


‫مثال‪ :‬بيانات الوثيقة‬
‫الويب كمستودع للمستندات‪ :‬ما يقدر بنحو ‪ 50‬مليار صفحة ويب •‬

‫ويكيبيديا‪ 4 :‬ماليين مقالة (والعد في ازدياد) •‬

‫بوابات األخبار عبر اإلنترنت‪ :‬تدفق مستمر لمئات المقاالت الجديدة كل •‬


‫يوم‬

‫تويتر‪ :‬حوالي ‪ 300‬مليون تغريدة يومًيا •‬


‫مثال‪ :‬بيانات الشبكة‬
‫الويب‪ 50 :‬مليار صفحة مرتبطة عبر االرتباطات التشعبية •‬

‫الفيسبوك‪ 500 :‬مليون مستخدم •‬

‫تويتر‪ 300 :‬مليون مستخدم •‬

‫المراسلة الفورية‪ 1~ :‬مليار مستخدم •‬

‫المدونات‪ :‬هناك ‪ 250‬مليون مدونة في جميع أنحاء العالم‪ ،‬يديرها •‬


‫المرشحون الرئاسيون‬
‫مثال‪ :‬التسلسل الجينومي‬
‫‪• http://www.1000genomes.org/page.php‬‬

‫تسلسل كامل لـ ‪ 1000‬فرد •‬

‫‪  3*10‬نيوكليوتيدات للشخص الواحد ‪• 3*10 9‬‬ ‫‪12‬‬


‫نيوكليوتيدات‬

‫في الواقع‪ ،‬هناك الكثير من البيانات‪ :‬التاريخ الطبي لألشخاص‪ ،‬وبيانات •‬


‫التعبير الجيني‬
‫مثال‪ :‬البيانات البيئية‬
‫بيانات المناخ (مجرد مثال) •‬
‫‪http://www.ncdc.gov/oa/climate/ghcn-monthly/index.php‬‬

‫قاعدة بيانات لسجالت درجات الحرارة وهطول األمطار والضغط" •‬


‫يديرها المركز الوطني للبيانات المناخية وجامعة والية أريزونا ومركز‬
‫"تحليل معلومات ثاني أكسيد الكربون‬

‫”محطة حرارة‪ 7500 ،‬محطة هطول‪ 2000 ،‬محطة ضغط ‪• “6000‬‬


‫البيانات الزمانية المكانية •‬
‫البيانات السلوكية‬
‫تسجل الهواتف المحمولة اليوم كمية كبيرة من المعلومات حول سلوك المستخدم •‬
‫‪ GPS‬موقف سجالت •‬
‫الكاميرا تنتج الصور •‬
‫التواصل عبر الهاتف والرسائل النصية القصيرة •‬
‫إرسال رسالة نصية عبر تحديثات الفيسبوك •‬
‫االرتباط مع الكيانات عبر تسجيالت الوصول •‬

‫أمازون بجمع كافة العناصر التي قمت بتصفحها‪ ،‬ووضعها في سلتك‪ ،‬وقراءة التقييمات عنها‪• ،‬‬
‫‪.‬وشرائها‬

‫بتسجيل جميع أنشطة التصفح الخاصة بك عبر المكونات اإلضافية لشريط ‪Bing‬و ‪ Google‬يقوم •‬
‫األدوات‪ .‬كما يقومون أيًض ا بتسجيل االستعالمات التي طلبتها والصفحات التي شاهدتها والنقرات‬
‫‪ .‬التي قمت بها‬

‫البيانات التي يتم جمعها لماليين المستخدمين بشكل يومي •‬


‫صفات‬
‫إًذا‪ ،‬ما هي البيانات؟‬
‫‪Tid Refund Marital‬‬ ‫‪Taxable‬‬
‫جمع كائنات البيانات وسماتها •‬ ‫‪Status‬‬ ‫‪Income Cheat‬‬

‫‪1‬‬ ‫‪Yes‬‬ ‫‪Single‬‬ ‫‪125K‬‬ ‫‪No‬‬


‫السمة هي خاصية أو خاصية لكائن ما •‬ ‫‪2‬‬ ‫‪No‬‬ ‫‪Married‬‬ ‫‪100K‬‬ ‫‪No‬‬
‫أمثلة‪ :‬لون عين الشخص‪ ،‬ودرجة الحرارة‪ ،‬وما •‬ ‫‪3‬‬ ‫‪No‬‬ ‫‪Single‬‬ ‫‪70K‬‬ ‫‪No‬‬
‫‪.‬إلى ذلك‬ ‫‪4‬‬ ‫‪Yes‬‬ ‫‪Married‬‬ ‫‪120K‬‬ ‫‪No‬‬
‫ُتعرف السمة أيًضا باسم المتغير أو الحقل أو •‬ ‫‪5‬‬ ‫‪No‬‬ ‫‪Divorced 95K‬‬ ‫‪Yes‬‬
‫الخاصية أو الميزة‬ ‫أشياء‬
‫‪6‬‬ ‫‪No‬‬ ‫‪Married‬‬ ‫‪60K‬‬ ‫‪No‬‬
‫مجموعة من السمات تصف كائًنا ما •‬ ‫‪7‬‬ ‫‪Yes‬‬ ‫‪Divorced 220K‬‬ ‫‪No‬‬
‫ُيعرف الكائن أيًضا باسم السجل أو النقطة أو •‬ ‫‪8‬‬ ‫‪No‬‬ ‫‪Single‬‬ ‫‪85K‬‬ ‫‪Yes‬‬
‫الحالة أو العينة أو الكيان أو المثيل‬ ‫‪9‬‬ ‫‪No‬‬ ‫‪Married‬‬ ‫‪75K‬‬ ‫‪No‬‬
‫‪10‬‬ ‫‪No‬‬ ‫‪Single‬‬ ‫‪90K‬‬ ‫‪Yes‬‬
‫‪10‬‬

‫الحجم‪ :‬عدد الكائنات‬


‫األبعاد ‪ :‬عدد السمات‬
‫عدد السكان ‪Sparsity :‬‬
‫أزواج سمة الكائن‬
‫أنواع الصفات‬
‫هناك أنواع مختلفة من السمات •‬
‫قاطع •‬
‫•‬ ‫أمثلة‪ :‬لون العين ‪ ،‬والرموز البريدية‪ ،‬والكلمات ‪ ،‬والتصنيفات ( على سبيل المثال ‪،‬‬
‫جيد‪ ،‬مقبول‪ ،‬سيئ)‪ ،‬االرتفاع {طويل‪ ،‬متوسط‪ ،‬قصير}‬
‫•‬ ‫( بدون ترتيب أو مقارنة) مقابل ترتيبي (ترتيب ولكن غير قابل‬ ‫االسمية‬
‫للمقارنة)‬
‫رقمي •‬
‫‪.‬أمثلة‪ :‬التواريخ ‪ ،‬درجة الحرارة‪ ،‬الوقت‪ ،‬الطول‪ ،‬القيمة‪ ،‬العدد •‬
‫(التهم) مقابل مستمر (درجة الحرارة) •‬ ‫منفصلة‬
‫حالة خاصة‪ :‬السمات الثنائية (نعم‪/‬ال‪ ،‬موجود‪/‬غير موجود) •‬
‫بيانات السجل الرقمي‬
‫إذا كانت كائنات البيانات لها نفس المجموعة الثابتة من السمات الرقمية ‪ ،‬فيمكن •‬
‫اعتبار كائنات البيانات بمثابة نقاط في مساحة متعددة األبعاد‪ ،‬حيث يمثل كل بعد سمة‬
‫مميزة‬

‫صف ‪ n‬حيث يوجد ‪ n-by-d ،‬يمكن تمثيل مجموعة البيانات هذه بمصفوفة بيانات •‬
‫عمود واحد لكل سمة ‪ d‬واحد لكل كائن‪ ،‬و‬

‫‪Projection‬‬ ‫‪Projection‬‬ ‫‪Distance‬‬ ‫‪Load‬‬ ‫‪Thickness‬‬


‫‪of x Load‬‬ ‫‪of y load‬‬

‫‪10.23‬‬ ‫‪5.27‬‬ ‫‪15.22‬‬ ‫‪2.7‬‬ ‫‪1.2‬‬


‫‪12.65‬‬ ‫‪6.25‬‬ ‫‪16.22‬‬ ‫‪2.2‬‬ ‫‪1.1‬‬
‫بيانات تسلسلية‬
• ‫ يتكون كل منها من‬،‫البيانات التي تتكون من مجموعة من السجالت‬
‫مجموعة ثابتة من السمات الفئوية‬
Tid Refund Marital Taxable
Status Income Cheat

1 Yes Single High No


2 No Married Medium No
3 No Single Low No
4 Yes Married High No
5 No Divorced Medium Yes
6 No Married Low No
7 Yes Divorced High No
8 No Single Medium Yes
9 No Married Medium No
10 No Single Medium Yes
10
‫بيانات الوثيقة‬
‫‪"،‬تصبح كل وثيقة متجهة "مصطلح •‬
‫‪،‬كل مصطلح هو أحد مكونات (سمة) المتجه •‬
‫‪.‬قيمة كل مكون هي عدد مرات ظهور المصطلح المقابل في المستند •‬
‫حقيبة الكلمات ‪ -‬بدون طلب •‬

‫‪timeout‬‬

‫‪season‬‬
‫‪coach‬‬

‫‪game‬‬
‫‪score‬‬
‫‪team‬‬

‫‪ball‬‬

‫‪lost‬‬
‫‪pla‬‬

‫‪wi‬‬
‫‪n‬‬
‫‪y‬‬

‫‪Document 1‬‬ ‫‪3‬‬ ‫‪0‬‬ ‫‪5‬‬ ‫‪0‬‬ ‫‪2‬‬ ‫‪6‬‬ ‫‪0‬‬ ‫‪2‬‬ ‫‪0‬‬ ‫‪2‬‬

‫‪Document 2‬‬ ‫‪0‬‬ ‫‪7‬‬ ‫‪0‬‬ ‫‪2‬‬ ‫‪1‬‬ ‫‪0‬‬ ‫‪0‬‬ ‫‪3‬‬ ‫‪0‬‬ ‫‪0‬‬

‫‪Document 3‬‬ ‫‪0‬‬ ‫‪1‬‬ ‫‪0‬‬ ‫‪0‬‬ ‫‪1‬‬ ‫‪2‬‬ ‫‪2‬‬ ‫‪0‬‬ ‫‪3‬‬ ‫‪0‬‬
‫بيانات المعامالت‬
‫‪ .‬كل سجل (معاملة) عبارة عن مجموعة من العناصر •‬
‫‪TID‬‬ ‫‪Items‬‬
‫‪1‬‬ ‫‪Bread, Coke, Milk‬‬
‫‪2‬‬ ‫‪Beer, Bread‬‬
‫‪3‬‬ ‫‪Beer, Coke, Diaper, Milk‬‬
‫‪4‬‬ ‫‪Beer, Bread, Diaper, Milk‬‬
‫‪5‬‬ ‫‪Coke, Diaper, Milk‬‬

‫يمكن أيًض ا تمثيل مجموعة من العناصر كمتجه ثنائي ‪ ،‬حيث تكون كل •‬


‫‪.‬سمة عنصًر ا‬
‫يمكن أيًض ا تمثيل المستند كمجموعة من الكلمات (بدون أعداد) •‬
‫متوسط عدد المنتجات التي يشتريها العميل ‪Sparsity :‬‬
‫البيانات المطلوبة‬
• ‫التسلسل الجينومي بيانات‬

GGTTCCGCCTTCAGCCCCGCGCC
CGCAGGGCCCGCCCCGCGCCGTC
GAGAAGGGCCCGCCTGGCGGGCG
GGGGGAGGCGGGGCCGCCCGAGC
CCAACCGAGTCCGACCAGGTGCC
CCCTCTGCTCGGCCTAGACCTGA
GCTCATTAGGCGGCAGCGGACAG
GCCAAGTAGAACACGCGAAGCGC
TGGGCTGCCTGCTGCGACCAGGG

• ‫سلسلة مرتبة طويلة‬


‫البيانات المطلوبة‬
‫السالسل الزمنية •‬
‫‪.‬تسلسل القيم الرقمية المطلوبة (خالل "الوقت") •‬
‫بيانات الرسم البياني‬
• ‫ الرسم البياني للويب وروابط‬:‫ أمثلة‬HTML
<a href="papers/papers.html#bbbb">
Data Mining </a>
<li>
2 <a href="papers/papers.html#aaaa">
Graph Partitioning </a>
<li>
5 1 <a href="papers/papers.html#aaaa">
Parallel Solution of Sparse Linear System of Equations </a>
<li>
2 <a href="papers/papers.html#ffff">
N-Body Computation and Dense Linear System Solvers
5
‫أنواع البيانات‬
‫البيانات الرقمية ‪ :‬كل كائن هو نقطة في فضاء متعدد األبعاد •‬
‫البيانات الفئوية ‪ :‬كل كائن هو ناقل للقيم الفئوية •‬
‫تعيين البيانات ‪ :‬كل كائن عبارة عن مجموعة من القيم (مع أو بدون •‬
‫أعداد)‬
‫يمكن أيًض ا تمثيل المجموعات كمتجهات ثنائية أو متجهات لألعداد •‬
‫‪.‬التسلسالت المرتبة ‪ :‬كل كائن عبارة عن سلسلة مرتبة من القيم •‬
‫بيانات الرسم البياني •‬
‫ماذا يمكنك أن تفعل بالبيانات؟‬
‫لنفترض أنك مالك سوبر ماركت وقمت بجمع مليارات من بيانات سلة •‬
‫السوق ‪ .‬ما هي المعلومات التي ستستخرجها منها وكيف ستستخدمها؟‬

‫‪TID‬‬ ‫‪Items‬‬
‫وضع المنتج‬
‫‪1‬‬ ‫‪Bread, Coke, Milk‬‬
‫‪2‬‬ ‫‪Beer, Bread‬‬
‫‪3‬‬ ‫‪Beer, Coke, Diaper, Milk‬‬ ‫إنشاء الكتالوج‬
‫‪4‬‬ ‫‪Beer, Bread, Diaper, Milk‬‬
‫ماذا لو كان هذا متجًر ا عبر اإلنترنت؟ •‬
‫‪5‬‬ ‫‪Coke, Diaper, Milk‬‬ ‫التوصيات‬
‫ماذا يمكنك أن تفعل مع البيانات ؟‬
‫لنفترض أنك محرك بحث ولديك سجل شريط أدوات يتكون من •‬
‫‪،‬الصفحات التي تم تصفحها •‬
‫‪،‬استفسارات •‬
‫‪،‬الصفحات التي تم النقر عليها •‬
‫توقع النقر على اإلعالن‬
‫تم النقر على اإلعالنات •‬
‫إعادة صياغة االستعالم‬
‫معرف مستخدم وطابع زمني ‪ .‬ما هي المعلومات التي ترغب في‬ ‫لكل منها‬
‫الحصول عليها من البيانات؟‬
‫ماذا يمكنك أن تفعل بالبيانات؟‬
‫لنفترض أنك عالم أحياء ولديك بيانات تعبير ميكروأري ‪ :‬آالف الجينات •‬
‫وقيم تعبيرها عبر آالف اإلعدادات المختلفة (مثل األنسجة)‪ .‬ما هي‬
‫المعلومات التي ترغب في الحصول عليها من بياناتك؟‬

‫مجموعات من الجينات واألنسجة‬


‫ماذا يمكنك أن تفعل بالبيانات؟‬
‫لنفترض أنك وسيط أسهم وتالحظ تقلبات األسهم المتعددة مع مرور •‬
‫الوقت‪ .‬ما هي المعلومات التي ترغب في الحصول عليها من بياناتك؟‬

‫تجميع األسهم‬

‫االرتباط بين األسهم‬

‫التنبؤ بقيمة األسهم‬


‫ماذا يمكنك أن تفعل بالبيانات؟‬
‫أنت مالك شبكة اجتماعية‪ ،‬ولديك حق الوصول الكامل إلى الرسم البياني •‬
‫االجتماعي‪ ،‬ما نوع المعلومات التي تريد الحصول عليها من الرسم‬
‫البياني الخاص بك؟‬

‫•‬ ‫من هي العقدة األكثر أهمية في الرسم البياني؟‬


‫•‬ ‫ما هو أقصر طريق بين عقدتين؟‬
‫•‬ ‫كم عدد األصدقاء المشتركين بين العقدتين؟‬
‫•‬ ‫كيف تنتشر المعلومات على الشبكة؟‬
‫لماذا استخراج البيانات؟‬
‫وجهة نظر تجارية •‬
‫أصبحت البيانات الميزة التنافسية الرئيسية للشركات •‬
‫أمثلة‪ :‬فيسبوك‪ ،‬جوجل‪ ،‬أمازون •‬
‫‪.‬تعد القدرة على استخالص معلومات مفيدة من البيانات أمًرا أساسًيا الستغاللها تجارًيا •‬
‫وجهة نظر علمية •‬
‫العلماء في وضع غير مسبوق حيث يمكنهم جمع قدر كبير من المعلومات •‬
‫أمثلة‪ :‬بيانات االستشعار‪ ،‬وبيانات علم الفلك‪ ،‬وبيانات الشبكات االجتماعية‪ ،‬وبيانات الجينات •‬
‫نحن بحاجة إلى األدوات الالزمة لتحليل مثل هذه البيانات للحصول على فهم أفضل للعالم •‬
‫والتقدم العلمي‬
‫النطاق (في حجم البيانات وأبعاد الميزة ) •‬
‫لماذا ال نستخدم طرق التحليل التقليدية؟ •‬
‫ضخامة البيانات‪ ،‬لعنة األبعاد •‬
‫‪.‬ال تسمح كمية البيانات وتعقيدها بالمعالجة اليدوية للبيانات‪ .‬نحن بحاجة إلى تقنيات آلية •‬
‫ما هو التنقيب عن البيانات مرة أخرى؟‬
‫التنقيب في البيانات هو تحليل مجموعات بيانات الرصد (الكبيرة في" •‬
‫كثير من األحيان) للعثور على ما هو غير متوقع العالقات وتلخيص‬
‫البيانات بطرق جديدة تكون مفهومة ومفيدة لمحلل البيانات "(هاند‪ ،‬مانيال‬
‫‪ ،‬سميث)‬

‫التنقيب في البيانات هو اكتشاف نماذج للبيانات" ( راجارامان ‪ ،‬أولمان)" •‬


‫يمكننا الحصول على األنواع التالية من النماذج •‬
‫النماذج التي تشرح البيانات (على سبيل المثال‪ ،‬دالة واحدة) •‬
‫‪.‬النماذج التي تتنبأ بمثيالت البيانات المستقبلية •‬
‫النماذج التي تلخص البيانات •‬
‫‪.‬تقوم النماذج باستخراج أبرز سمات البيانات •‬
‫ماذا يمكننا أن نفعل مع استخراج البيانات؟‬
‫‪:‬بعض األمثلة •‬
‫مجموعات العناصر المتكررة واستخراج قواعد االرتباط •‬
‫تغطية •‬
‫تجمع •‬
‫تصنيف •‬
‫تصنيف •‬
‫التحليل االستكشافي •‬
‫مجموعات العناصر المتكررة وقواعد االرتباط‬
‫إعطاء مجموعة من السجالت يحتوي كل منها على عدد معين من العناصر من •‬
‫مجموعة معينة؛‬
‫تحديد مجموعات العناصر ( مجموعات العناصر ) التي تحدث مًع ا بشكل متكرر •‬
‫‪.‬إنتاج قواعد التبعية التي تتنبأ بحدوث عنصر ما بناًء على حدوث عناصر أخرى •‬

‫المكتشفة‬
‫العناصرالمكتشفة‬
‫مجموعاتالعناصر‬
‫‪::‬مجموعات‬
‫‪TID‬‬ ‫‪Items‬‬ ‫كوال{ {‬ ‫}}حليب‪،‬‬
‫حليب‪،‬كوال‬
‫‪1‬‬ ‫‪Bread, Coke, Milk‬‬ ‫حليب{ {‬ ‫}}حفاضات‬
‫حفاضات‪, ,‬حليب‬
‫‪2‬‬ ‫‪Beer, Bread‬‬
‫‪3‬‬ ‫‪Beer, Coke, Diaper, Milk‬‬ ‫المكتشفة‬
‫‪:‬القواعدالمكتشفة‬
‫‪:‬القواعد‬
‫‪4‬‬ ‫‪Beer, Bread, Diaper, Milk‬‬ ‫}حليب{‬
‫>‪{--‬حليب{‬
‫}كوال{‪>--‬‬
‫}كوال}‬
‫‪5‬‬ ‫‪Coke, Diaper, Milk‬‬ ‫حليب{ {‬ ‫>‪{--‬حفاضات‬
‫}حفاضات‪،،‬حليب‬ ‫}بيرة{‪>--‬‬
‫}بيرة}‬
‫تان‪ ،‬م‪ .‬شتاينباخ وفي‪ .‬كومار‪ ،‬مقدمة في استخراج البيانات‬
‫مجموعات العناصر المتكررة ‪ :‬التطبيقات‬
‫استخراج النص‪ :‬العثور على العبارات المرتبطة في النص •‬
‫هناك الكثير من المستندات التي تحتوي على عبارات "قواعد االرتباط" و •‬
‫" "استخراج البيانات" و "الخوارزمية الفعالة‬

‫‪:‬التوصيات •‬
‫المستخدمون الذين يشترون هذا العنصر غالًبا ما يشترون هذا العنصر أيًض ا •‬
‫‪.‬المستخدمون الذين شاهدوا أفالم جيمس بوند‪ ،‬شاهدوا أيًض ا أفالم جيسون بورن •‬

‫تستفيد التوصيات من تشابه العنصر والمستخدم •‬


‫اكتشاف قاعدة االرتباط‪ :‬التطبيق‬
‫‪ .‬إدارة رفوف السوبر ماركت •‬
‫‪.‬الهدف‪ :‬تحديد العناصر التي تم شراؤها مًع ا بواسطة عدد كاٍف من العمالء •‬
‫النهج‪ :‬معالجة بيانات نقطة البيع المجمعة باستخدام ماسحات الباركود للعثور •‬
‫‪.‬على التبعيات بين العناصر‬
‫‪ --‬قاعدة كالسيكية •‬
‫‪.‬إذا اشترى العميل الحفاضات والحليب‪ ،‬فمن المرجح أن يشتري البيرة •‬
‫!لذا‪ ،‬ال تتفاجأ إذا وجدت ست عبوات مكدسة بجانب الحفاضات •‬

‫تان‪ ،‬م‪ .‬شتاينباخ وفي‪ .‬كومار‪ ،‬مقدمة في استخراج البيانات‬


‫تعريف التجميع‬
‫بالنظر إلى مجموعة من نقاط البيانات‪ ،‬تحتوي كل منها على مجموعة •‬
‫من السمات ومقياس التشابه فيما بينها‪ ،‬ابحث عن مجموعات بحيث‬
‫‪.‬تكون نقاط البيانات في مجموعة واحدة أكثر تشابهًا مع بعضها البعض •‬
‫‪.‬نقاط البيانات الموجودة في مجموعات منفصلة أقل تشابًها مع بعضها البعض •‬
‫التشابه ؟ •‬
‫‪.‬المسافة اإلقليدية إذا كانت السمات مستمرة •‬
‫‪.‬مقاييس مشكلة محددة أخرى •‬

‫تان‪ ،‬م‪ .‬شتاينباخ وفي‪ .‬كومار‪ ،‬مقدمة في استخراج البيانات‬


‫توضيح التجميع‬
‫‪.‬التجمعات اإلقليدية القائمة على المسافة في الفضاء ثالثي األبعاد‬

‫المجموعات‬
‫بينالمجموعات‬
‫المسافاتبين‬
‫المسافات‬ ‫البينية‬
‫المسافاتالبينية‬
‫المسافات‬
‫تصغيرها‬
‫يتمتصغيرها‬
‫يتم‬ ‫تعظيمها‬
‫يتمتعظيمها‬
‫يتم‬

‫تان‪ ،‬م‪ .‬شتاينباخ وفي‪ .‬كومار‪ ،‬مقدمة في استخراج البيانات‬


‫التجميع‪ :‬التطبيق ‪1‬‬
‫‪:‬تطبيقات المعلوماتية الحيوية •‬
‫الهدف‪ :‬تجميع الجينات واألنسجة مًعا بحيث تتعايش الجينات في نفس األنسجة •‬
‫التجميع‪ :‬التطبيق ‪2‬‬
‫‪:‬تجميع المستندات •‬
‫الهدف‪ :‬العثور على مجموعات من المستندات المتشابهة مع بعضها البعض •‬
‫‪.‬بناًء على المصطلحات المهمة التي تظهر فيها‬
‫المنهج‪ :‬تحديد المصطلحات التي تتكرر في كل وثيقة‪ .‬قم بتكوين مقياس تشابه •‬
‫‪.‬بناًء على تكرارات المصطلحات المختلفة‪ .‬استخدامه للكتلة‬
‫المكسب‪ :‬يمكن أن يستخدم استرجاع المعلومات المجموعات لربط مستند جديد •‬
‫‪.‬أو مصطلح بحث بالمستندات المجمعة‬

‫تان‪ ،‬م‪ .‬شتاينباخ وفي‪ .‬كومار‪ ،‬مقدمة في استخراج البيانات‬


‫ تجميع بيانات أسهم مؤشر‬S&P 500

• ‫مراقبة تحركات األسهم كل يوم‬.


• ‫ األسهم العنقودية إذا تغيرت بالمثل مع مرور الوقت‬.

Discovered Clusters Industry Group

1
Applied-Matl-DOW N,Bay-Net work-Down,3-COM-DOWN,
Cabletron-Sys-DOWN,CISCO-DOWN,HP-DOWN,
DSC-Co mm-DOW N,INTEL-DOWN,LSI-Logic-DOWN,
Micron-Tech-DOWN,Texas-Inst-Down,Tellabs-Inc-Down,
Technology1-DOWN
Natl-Semiconduct-DOWN,Oracl-DOWN,SGI-DOW N,
Sun-DOW N

2
Apple-Co mp-DOW N,Autodesk-DOWN,DEC-DOWN,
ADV-M icro-Device-DOWN,Andrew-Corp-DOWN,
Co mputer-Assoc-DOWN,Circuit-City-DOWN,
Technology2-DOWN
Co mpaq-DOWN, EM C-Corp-DOWN, Gen-Inst-DOWN,
Motorola-DOW N,Microsoft-DOWN,Scientific-Atl-DOWN

3
Fannie-Mae-DOWN,Fed-Ho me-Loan-DOW N,
MBNA-Corp -DOWN,Morgan-Stanley-DOWN Financial-DOWN

4
Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP,
Louisiana-Land-UP,Phillips-Petro-UP,Unocal-UP, Oil-UP
Schlu mberger-UP

‫ مقدمة في استخراج البيانات‬،‫ كومار‬.‫ شتاينباخ وفي‬.‫ م‬،‫تان‬


‫تغطية‬
‫بالنظر إلى مجموعة من العمالء والعناصر وعالقة المعامالت بينهما‪• ،‬‬
‫‪.‬حدد مجموعة صغيرة من العناصر التي " تغطي " جميع المستخدمين‬
‫‪.‬يوجد لكل مستخدم عنصر واحد على األقل في المجموعة اشتراه المستخدم •‬

‫‪:‬طلب •‬
‫‪.‬قم بإنشاء كتالوج إلرساله يحتوي على عنصر واحد على األقل يهم كل عميل •‬
‫التصنيف‪ :‬التعريف‬
‫نظرا لمجموعة من السجالت ( مجموعة التدريب ) •‬
‫‪ .‬يحتوي كل سجل على مجموعة من السمات ‪ ،‬إحدى هذه السمات هي الفئة •‬
‫‪.‬ابحث عن نموذج لسمة الفئة كدالة لقيم السمات األخرى •‬

‫الهدف ‪ :‬يجب تعيين فئة للسجالت غير المرئية مسبًقا بأكبر قدر •‬
‫‪.‬ممكن من الدقة‬
‫مجموعة اختبار لتحديد دقة النموذج‪ .‬عادة‪ ،‬يتم تقسيم مجموعة البيانات •‬
‫المحددة إلى مجموعات تدريب واختبار‪ ،‬مع مجموعة تدريب تستخدم لبناء‬
‫‪.‬النموذج ومجموعة اختبار تستخدم للتحقق من صحته‬
‫مثال التصنيف‬
‫طع‬
‫قا‬
‫طع‬
‫قا‬
‫م‬‫مس ت‬
‫ر‬ ‫ف‬
‫ل‬ ‫ص‬
Tid Refund Marital Taxable Refund Marital Taxable
Status Income Cheat Status Income Cheat

1 Yes Single 125K No No Single 75K ?


2 No Married 100K No Yes Married 50K ?
3 No Single 70K No No Married 150K ?
4 Yes Married 120K No Yes Divorced 90K ?
5 No Divorced 95K Yes No Single 40K ?
6 No Married 60K No No Married 80K ? ‫امتحان‬
10

‫تعيين‬
7 Yes Divorced 220K No
8 No Single 85K Yes
9 No Married 75K No
‫تمرين‬
‫يتعلم‬
10
10 No Single 90K Yes
‫تعيين‬ ‫مصنف‬ ‫نموذج‬

‫ مقدمة في استخراج البيانات‬،‫ كومار‬.‫ شتاينباخ وفي‬.‫ م‬،‫تان‬


‫التصنيف‪ :‬التطبيق ‪1‬‬
‫توقع النقر على اإلعالن •‬
‫الهدف‪ :‬توقع ما إذا كان المستخدم الذي يزور صفحة ويب سينقر على إعالن •‬
‫‪.‬معروض ‪ .‬استخدمه الستهداف المستخدمين ذوي احتمالية النقر العالية‬
‫‪:‬يقترب •‬
‫جمع البيانات للمستخدمين على مدى فترة من الزمن وتسجيل من ينقر ومن ال يفعل‪• .‬‬
‫‪ .‬سمة الفئة }‪ { click، no click‬تشكل معلومات‬
‫استخدم سجل المستخدم (صفحات الويب التي تم تصفحها‪ ،‬واالستعالمات الصادرة) •‬
‫‪.‬كميزات‬
‫‪.‬تعلم نموذج المصنف واختباره على المستخدمين الجدد •‬
‫التصنيف‪ :‬التطبيق ‪2‬‬
‫الكشف عن الغش •‬
‫‪.‬الهدف‪ :‬التنبؤ بحاالت االحتيال في معامالت بطاقات االئتمان •‬
‫‪:‬يقترب •‬
‫‪.‬استخدم معامالت بطاقة االئتمان والمعلومات المتعلقة بصاحب الحساب كسمات •‬
‫متى يشتري العميل‪ ،‬ماذا يشتري‪ ،‬كم مرة يدفع في الوقت المحدد‪ ،‬وما إلى ذلك •‬
‫‪.‬قم بتسمية المعامالت السابقة على أنها احتيال أو معامالت عادلة‪ .‬هذا يشكل سمة الفئة •‬
‫‪.‬التعرف على نموذج لفئة المعامالت •‬
‫استخدم هذا النموذج الكتشاف االحتيال من خالل مراقبة معامالت بطاقة االئتمان على •‬
‫‪.‬الحساب‬

‫تان‪ ،‬م‪ .‬شتاينباخ وفي‪ .‬كومار‪ ،‬مقدمة في استخراج البيانات‬


‫تصنيف تحليل االرتباط‬
‫بالنظر إلى مجموعة من صفحات الويب المرتبطة ببعضها البعض‪ ،‬قم •‬
‫بترتيب الصفحات حسب األهمية ( الموثوقية ) في الرسم البياني‬
‫‪.‬الحدس‪ :‬تكتسب الصفحة السلطة إذا تم ربطها بصفحة أخرى •‬

‫التطبيق‪ :‬عند استرجاع الصفحات‪ ،‬يتم أخذ المصداقية في االعتبار عند •‬


‫‪.‬الترتيب‬
‫التحليل االستكشافي‬
‫محاولة فهم البيانات باعتبارها مادية الظاهرة ووصفها بمقاييس بسيطة •‬
‫كيف يبدو الرسم البياني للويب؟ •‬
‫كم مرة يكرر األشخاص نفس االستعالم؟ •‬
‫هل األصدقاء في الفيسبوك أيًض ا أصدقاء في تويتر؟ •‬

‫الشيء المهم هو العثور على المقاييس الصحيحة وطرح األسئلة •‬


‫الصحيحة‬

‫فهو يساعدنا على فهم العالم‪ ،‬ويمكن أن يؤدي إلى نماذج للظواهر التي •‬
‫‪.‬نالحظها‬
‫التحليل االستكشافي‪ :‬الويب‬
‫ما هو هيكل وخصائص الويب؟ •‬
‫التحليل االستكشافي‪ :‬الويب‬
‫ما هو توزيع الروابط الواردة؟ •‬
‫اتصاالت استخراج البيانات مع المجاالت األخرى‬
‫يستمد األفكار من التعلم اآللي‪/‬الذكاء االصطناعي والتعرف على األنماط •‬
‫واإلحصاءات وأنظمة قواعد البيانات‬
‫التقنيات التقليدية •‬
‫غير مناسبة بسبب‬
‫ضخامة البيانات •‬ ‫اإلحصائيات‪/‬‬ ‫‪/‬التعلم االلي‬
‫الذكاء‬ ‫التعرف على األنماط‬
‫أبعاد عالية •‬ ‫االصطناعي‬
‫للبيانات‬
‫طبيعة •‬ ‫بيانات التعدين‬

‫البيانات الموزعة وغير المتجانسة‬


‫أنظمة قواعد‬
‫التركيز على استخدام البيانات •‬ ‫البيانات‬

‫تان‪ ،‬م‪ .‬شتاينباخ وفي‪ .‬كومار‪ ،‬مقدمة في استخراج البيانات‬


‫‪48‬‬

‫الثقافات‬
‫قواعد البيانات ‪ :‬التركيز على البيانات واسعة النطاق (غير الذاكرة •‬
‫‪.‬الرئيسية)‬
‫الذكاء االصطناعي (التعلم اآللي)‪ :‬التركيز على األساليب المعقدة •‬
‫‪ .‬والبيانات الصغيرة‬
‫في عالم اليوم‪ ،‬تعد البيانات أكثر أهمية من الخوارزميات •‬
‫‪.‬اإلحصائيات ‪ :‬التركيز على النماذج •‬

‫استخراج البيانات على شبكة اإلنترنت‪ :‬أناند راجارامان ‪ ،‬جيف أولمان ‪CS345A‬‬
‫‪49‬‬

‫النماذج مقابل المعالجة التحليلية‬

‫بالنسبة لشخص قاعدة البيانات‪ ،‬يعد التنقيب عن البيانات شكًال •‬


‫متطرًفا من المعالجة التحليلية ‪ -‬االستعالمات التي تفحص كميات‬
‫‪.‬كبيرة من البيانات‬
‫‪.‬والنتيجة هي إجابة االستعالم •‬
‫‪.‬بالنسبة لإلحصائي‪ ،‬التنقيب عن البيانات هو استنتاج النماذج •‬
‫‪.‬والنتيجة هي معلمات النموذج •‬

‫استخراج البيانات على شبكة اإلنترنت‪ :‬أناند راجارامان ‪ ،‬جيف أولمان ‪CS345A‬‬
‫‪50‬‬

‫مثال )طريقة بسيطة للغاية(‬


‫بالنظر إلى مليار رقم‪ ،‬سيحسب شخص قاعدة البيانات متوسطها •‬
‫‪.‬وانحرافها المعياري‬
‫قد يقوم اإلحصائي بمطابقة المليار نقطة مع أفضل توزيع غاوسي •‬
‫‪ .‬واإلبالغ عن المتوسط واالنحراف المعياري لذلك التوزيع‬

‫استخراج البيانات على شبكة اإلنترنت‪ :‬أناند راجارامان ‪ ،‬جيف أولمان ‪CS345A‬‬
‫استخراج البيانات‪ :‬التقاء التخصصات المتعددة‬

‫قاعدة البيانات‬
‫تكنولوجيا‬ ‫إحصائيات‬

‫آلة‬ ‫التصور‬
‫بيانات التعدين‬
‫تعُّلم‬

‫نمط‬
‫تعُّر ف‬ ‫آخر‬
‫خوارزمية‬ ‫التخصصات‬
‫استخراج البيانات‪ :‬التقاء التخصصات المتعددة‬

‫قاعدة البيانات‬
‫تكنولوجيا‬ ‫إحصائيات‬

‫آلة‬ ‫التصور‬
‫بيانات التعدين‬
‫تعُّلم‬

‫نمط‬
‫تعُّر ف‬ ‫آخر‬
‫خوارزمية‬ ‫التخصصات‬
‫استخراج البيانات‪ :‬التقاء التخصصات المتعددة‬

‫قاعدة البيانات‬
‫تكنولوجيا‬ ‫إحصائيات‬

‫آلة‬ ‫التصور‬
‫بيانات التعدين‬
‫تعُّلم‬

‫نمط‬
‫تعُّر ف‬ ‫وزعت‬
‫خوارزمية‬ ‫الحوسبة‬
‫بنية العقدة الواحدة‬

‫وحدة المعالجة المركزية‬


‫التعلم اآللي واإلحصاء‬

‫ذاكرة‬

‫‪".‬تعدين البيانات "الكالسيكي‬

‫القرص‬
‫مجموعات السلع‬
‫يمكن أن تكون مجموعات بيانات الويب كبيرة جًد ا •‬
‫عشرات إلى مئات تيرابايت •‬
‫ال يمكن األلغام على خادم واحد •‬
‫‪:‬القياسية الناشئة •‬
‫األساسية وشبكة جيجابت إيثرنت ربط ‪ Linux‬عقد •‬
‫؛ كوسميكس كي إف إس‪ HDFS‬جوجل جي إف إس؛ هادوب •‬
‫نمط االستخدام النموذجي •‬
‫ملفات ضخمة ( ‪ 100‬جيجا بايت إلى تيرابايت) •‬
‫نادرا ما يتم تحديث البيانات في مكانها •‬
‫القراءات واإلضافات شائعة •‬
‫كيفية تنظيم الحسابات على هذه البنية؟ •‬
‫خريطة الحد من النموذج •‬
‫العمارة العنقودية‬
‫جيجابت في الثانية بين الرفوف ‪2-10‬‬
‫جيجابت في الثانية بين ‪1‬‬ ‫ُيحّو ل‬
‫أي زوج من العقد‬
‫في الرف‬
‫ُيحّو ل‬ ‫ُيحّو ل‬

‫وحدة المعالجة المركزية‬ ‫وحدة المعالجة المركزيةوحدة المعالجة المركزية‬ ‫وحدة المعالجة المركزية‬

‫م‬ ‫…‬ ‫م‬ ‫م‬ ‫…‬ ‫م‬

‫القرص‬ ‫القرص‬ ‫القرص‬ ‫القرص‬

‫يحتوي كل رف على ‪ 64-16‬عقدة‬


‫خريطة الحد من النموذج‬
‫قم بتعيين البيانات إلى أزواج قيمة المفتاح •‬
‫على سبيل المثال‪ ،‬قم بتعيين مستند إلى أزواج عدد الكلمات •‬
‫المجموعة حسب المفتاح •‬
‫قم بتجميع كل األزواج من نفس الكلمة‪ ،‬مع قوائم األعداد •‬
‫تقليل عن طريق التجميع •‬
‫‪.‬على سبيل المثال‪ ،‬جمع كافة التهم إلنتاج العدد اإلجمالي •‬
‫خط أنابيب تحليل البيانات‬
‫التعدين ليس الخطوة الوحيدة في عملية التحليل •‬

‫المعالجة المسبقة‬ ‫نتيجة‬


‫بيانات التعدين‬
‫للبيانات‬ ‫المعالجة البعدية‬

‫المعالجة المسبقة ‪ :‬البيانات الحقيقية صاخبة وغير كاملة وغير متسقة‪ .‬تنظيف البيانات •‬
‫مطلوب لفهم البيانات‬
‫‪.‬التقنيات‪ :‬أخذ العينات‪ ،‬تقليل األبعاد‪ ،‬اختيار الميزة •‬
‫‪.‬عمل قذر‪ ،‬لكنه غالبا ما يكون أهم خطوة للتحليل •‬
‫مرحلة ما بعد المعالجة ‪ :‬اجعل البيانات قابلة للتنفيذ ومفيدة للمستخدم •‬
‫التحليل اإلحصائي لألهمية •‬
‫‪.‬التصور •‬

‫غالًب ا ما تكون المعالجة المسبقة والالحقة من مهام استخراج البيانات أيًض ا •‬


‫جودة البيانات‬
‫‪:‬أمثلة على مشاكل جودة البيانات •‬
‫الضوضاء والقيم المتطرفة •‬
‫قيم مفقودة •‬
‫بيانات مكررة •‬
‫أخذ العينات‬
‫‪.‬أخذ العينات هو األسلوب الرئيسي المستخدم الختيار البيانات •‬
‫وغالًب ا م‪%‬ا يتم اس‪%‬تخدامه لك‪%‬ل من التحقي‪%‬ق األولي للبيان‪%‬ات وتحلي‪%‬ل البيان‪%‬ات •‬
‫‪.‬النهائية‬

‫يأخ‪%‬ذ اإلحص‪%‬ائيون عين‪%‬ات ألن الحص‪%‬ول على المجموع‪%‬ة الكامل‪%‬ة من •‬


‫‪.‬البيانات محل االهتمام أمر مكلف للغاية أو يستغرق وقًت ا طويًال‬

‫يتم اس‪%%‬تخدام أخ‪%%‬ذ العين‪%%‬ات في اس‪%%‬تخراج البيان‪%%‬ات ألن معالج‪%%‬ة •‬


‫المجموع‪%%‬ة الكامل‪%%‬ة من البيان‪%%‬ات مح‪%%‬ل االهتم‪%‬ام مكلف‪%%‬ة للغاي‪%%‬ة أو‬
‫‪.‬تستغرق وقًت ا طويًال‬
‫… أخذ العينات‬
‫‪:‬المبدأ األساسي ألخذ العينات الفعالة هو ما يلي •‬
‫إن استخدام العينة سيعمل تقريًبا وكذلك استخدام مجموعات البيانات بأكملها‪ ،‬إذا •‬
‫كانت العينة ممثلة‬

‫تعتبر العينة تمثيلية إذا كانت تحتوي تقريًبا على نفس الخاصية (المهّم ة) مثل •‬
‫مجموعة البيانات األصلية‬
‫أنواع أخذ العينات‬
‫عينة عشوائية بسيطة •‬
‫هناك احتمال متساو الختيار أي عنصر معين •‬

‫أخذ العينات بدون استبدال •‬


‫عند تحديد كل عنصر‪ ،‬تتم إزالته من المجتمع •‬

‫أخذ العينات مع االستبدال •‬


‫‪.‬ال تتم إزالة الكائنات من المجتمع عند تحديدها للعينة •‬
‫في أخذ العينات مع االستبدال‪ ،‬يمكن التقاط نفس الكائن أكثر من مرة •‬

‫اخذ العينات الطبقية •‬


‫تقسيم البيانات إلى عدة أقسام؛ ثم ارسم عينات عشوائية من كل قسم •‬
‫حجم العينة‬

‫نقطة ‪ 2000‬نقطة ‪ 500‬نقطة ‪8000‬‬


‫حجم العينة‬
‫ما حجم العين;ة الض;روري للحص;ول على ك;ائن واح;د على األق;ل من ك;ل •‬
‫‪.‬مجموعة من المجموعات العشر‬
‫التحدي التنقيب عن البيانات‬
‫أنت تقرأ دفًقا من األعداد الصحيحة‪ ،‬وتريد أخذ عينة من عدد صحيح •‬
‫مسبًقا‪ .‬يمكنك فقط )‪ (N‬واحد بشكل عشوائي ولكنك ال تعرف حجم الدفق‬
‫االحتفاظ بكمية ثابتة من األعداد الصحيحة في الذاكرة‬

‫كيف يمكنك أخذ عينة؟ •‬


‫‪.‬ليتم تحديده ‪/N‬تلميح‪ :‬يجب أن يكون للعدد الصحيح األخير في الدفق احتمالية ‪• 1‬‬

‫‪:‬أخذ عينات من الخزان •‬


‫سؤال المقابلة القياسية •‬
‫‪66‬‬

‫معنى اإلجابات‬

‫أحد المخاطر الكبيرة في مجال التنقيب عن البيانات هو أنك سوف •‬


‫‪".‬تكتشف" أنماًطا ال معنى لها‬
‫يطلق عليه اإلحصائيون مبدأ بونفيروني ‪( :‬تقريًبا) إذا بحثت في •‬
‫أماكن أكثر عن أنماط مثيرة لالهتمام أكثر مما تدعمه كمية البيانات‬
‫‪.‬لديك‪ ،‬فال بد أن تجد حماقة‬
‫مفارقة الراين ‪ :‬مثال عظيم لكيفية عدم إجراء البحث العلمي •‬

‫استخراج البيانات على شبكة اإلنترنت‪ :‬أناند راجارامان ‪ ،‬جيف أولمان ‪CS345A‬‬
‫‪67‬‬

‫مفارقة الراين – (‪)1‬‬

‫كان جوزيف راين عالًم ا في علم التخاطر في الخمسينيات من القرن •‬


‫‪.‬العشرين‪ ،‬وافترض أن بعض األشخاص لديهم إدراك خارج الحواس‬
‫لقد ابتكر (شيء من هذا القبيل) تجربة حيث ُطلب من األشخاص تخمين •‬
‫‪ 10 .‬بطاقات مخفية ‪ -‬حمراء أو زرقاء‬
‫وكانوا ‪ ESP -‬اكتشف أن ما يقرب من ‪ 1‬من كل ‪ 1000‬شخص لديه •‬
‫!قادرين على الحصول على كل ‪ 10‬بشكل صحيح‬

‫استخراج البيانات على شبكة اإلنترنت‪ :‬أناند راجارامان ‪ ،‬جيف أولمان ‪CS345A‬‬
‫‪68‬‬

‫مفارقة الراين – (‪)2‬‬


‫ودعاهم إلجراء اختبار ‪ ESP‬أخبر هؤالء األشخاص أن لديهم برنامج •‬
‫‪.‬آخر من نفس النوع‬
‫‪.‬الخاص بهم ‪ ESP‬لألسف‪ ،‬اكتشف أن جميعهم تقريًبا فقدوا نظام •‬
‫ماذا استنتج؟ •‬
‫‪.‬اإلجابة على الشريحة التالية •‬

‫استخراج البيانات على شبكة اإلنترنت‪ :‬أناند راجارامان ‪ ،‬جيف أولمان ‪CS345A‬‬
‫‪69‬‬

‫مفارقة الراين – (‪)3‬‬


‫؛ ويجعلهم‪ ESP‬وخلص إلى أنه ال ينبغي عليك إخبار الناس أن لديهم •‬
‫‪.‬يفقدونها‬

‫استخراج البيانات على شبكة اإلنترنت‪ :‬أناند راجارامان ‪ ،‬جيف أولمان ‪CS345A‬‬

You might also like