Professional Documents
Culture Documents
אתיקה וביד דאטה
אתיקה וביד דאטה
אתיקה וביד דאטה
רונה פפר
סמסטר א תשפ"ג
אתיקה של טכנולוגיה
אתיקה- תחום ידע תאורטי ו/או מעשי שנוגע ליחסים שבין טכנולוגיה ואתיקה נורמטיבית .כולל
התחום שעוסק במה טוב ומה רע, למשל:
ובחובות המוסריות שלנו. • אתיקה של רובוטים
(מה הדבר הנכון לעשות)
• אתיקה של רשתות חברתיות
• אתיקה של בינה מלאכותית ועוד.
העוסקים בתחומים אלה מחויבים לעבוד צריך אתיקה מכיוון שהמחשוב יצר מהפכה בחיינו ואנחנו
תחת כללים אתיים ברורים ,ועולה השאלה צריכים להבין מהי ההשפעה של הדבר.
האם גם מהנדסים צריכים לפעול בדרך
זאת?
-Accuracyדיוק
• מי אחראי לאותנטיות ,נאמנות ודיוק המידע?
• מי אחראי לטעויות וכיצד יש לרפא את הנפגע?
לפעמים קשה לאתר את הטעויות או להשתכנע ולהבין שהמחשב עשה טעות.
-Propertyרכוש
• למי יש מידע? מהם המחירים הצודקים וההוגנים להחלפתו?
• מי הבעלים של הערוצים שדרכם מועבר מידע?
כמו במקרה של התכנה Dall-Eשממירה טקסט לתמונה מצוירת -שהאמנים דרשו שיסירו את היצירות שלהם ממאגר הנתונים
שעליו מתבססת התוכנה בטענה שהיא מרוויחה כסף מהיצירות שלהם.
-Accessibilityנגישות
• איזה מידע יש לאדם או לארגון זכות או פריבילגיה לקבל ,באילו תנאים ובאילו אמצעי הגנה?
גם היום יש גישה נרחבת יותר לאינטרנט אך עדיין יש קשישים או אזורים פחות נגישים למידע או אפילו סתם אנשים שלא יכולים
באמת לגשת למאגרי המידע.
.1גישת הזכויות
" ההנאה מפעולתו של אדם כלפי אדם אחר מותרת רק אם האוטונומיה והכבוד של אותו אדם עצמו אינם
נפגעים בתהליך ,ואם האדם שאליו מתייחסים כאמצעי יסכים לטיפול כזה כחלק ממטרותיו האוטונומיות
שנבחרו".
הנושאים האתיים המודגשים בשיטה זו כוללים:
• אוטונומיה -המידה שבה אנשים יכולים לבחור בעצמם בחופשיות.
• כבוד -המידה שבה אנשים מוערכים בעצמם ,לא כחפצים עם מחיר.
• שקיפות -תנאים כנים ,פתוחים ומושכלים של טיפול/הפצה חברתית.
בני אדם הם יצורים אנושיים שהאנושות העניקה להם את הזכות והחופש לקבל החלטות ולכן חשוב שהחברה תתנהג באופן
שיכבד את הפרטים ,תשמור על ביטחונם הפיזי ופרטיותם (כלומר יש להם זכות מוסרית בסיסית שיכבדו את הבחירות שלהם).
מצד שני ,בתחומים טכנולוגיים רבים זה אולי טוב שכן מגבילים קצת את הפרטיות אם האוטונומיה של המשתמש מהווה סיכונים
מוסריים בלתי מקובלים -כמו למשל ההחלטה שמגבילה אותנו לבחור סיסמאות שעומדות בסטנדרט מסוים ושמידי פעם אף
מכריחים אותנו להחליף את הסיסמא.
צדק חלוקתי :חלוקה מתאימה של הטבות ומעמסות תוך התחשבות בהבחנות רלוונטיות בהבחנות בין אנשים.
צדק גמול" :עין תחת עין".
צדק מפצה :המאמצים לפצות נפגעים או להשיב רכוש אבוד לבעליו החוקיים.
צדק והגינות דורשים הימנעות מניגוד עניינים ולכן קבלת ההחלטות צריכה להיעשות מאחורי מסך "הבורות" -החלטה שתהיה
עיוורת להבדלים בין בני האדם.
נטלי נחמיאס אתיקה וביג דאטה
רונה פפר
סמסטר א תשפ"ג
במערכת הטכנולוגית ,שלא כמו שני האדם ,באמת לא מתבצעת (כביכול) אפליה כי היא לא רואה את החזות החיצונית והיא לא
אמורה להיות מושפעת מגורמים אחרים מעבר לנתונים שהיא מכילה .מצד שני ,אנחנו יכולים לראות בימנו הרבה מערכות AI
שמקבלות החלטות עם הטיות מסוימות.
• עניין נוסף ,כיצד אפליקציית פרסום דיגיטלית המאפשרת לאנשים להציב מודעות דיור מותאמות אישית או דרושים
המכוונות רק לאנשים מתחת לגיל ,40או רק לאנשים במיקוד ספציפי ,משפיעה על הגינות וצדק?
.3גישת התועלתנות
פעולות אתיות הן אלו המספקות את האיזון הגדול ביותר של טוב על רע .יש לשקול את האושר או הרווחה הכוללים שהפעולה
שלנו עשויה להביא ,עבור כל המושפעים ולאורך הטווח הארוך (האושר נמדד במונחים של הנאה מצטברת והיעדר כאב).
שיטה זו אומרת למעשה שהדרך פחות חשובה ,אלא יש יותר להתמקד בתוצאה הסופית .לדוגמה כמו בתקופת הקורונה-
מעקב וניטור אחר בני אדם אולי נשמעים קצת נורא אבל אם זה לצורך בלימת מגפת הקורונה אז אולי הדרך הזאת לא כל כך
נוראית כי היא מובילה לתוצאה חשובה.
• האתיקה התועלתנית לא משתווה לצורות השונות של ניתוח עלות-תועלת בעסק (שמתייחסות בעיקר ליתרונות
הפיסיים הכלכליים ,ולרוב בטווח הקצר או בטווח הצר של בעלי העניין) .ההשלכות המוסריות שלה לא מתייחסות
רק לרווחה הפיזית ,אלא גם רווחה פסיכולוגית רגשית ,קוגניטיבית ,מוסרית ,מוסדית ,סביבתית ורווחה פוליטית
או פגיעה או השפלה.
• הנושאים המודגשים בגישה זו :אושר ,איזון בין האינטרסים של בעלי העניין ,חיזוי השלכות.
בעיית הקרונית נעשתה רלוונטית מחדש גם בעידן הדיגיטלי -המכוניות האוטונומיות נכנסו
לחיינו ואנחנו צריכים לבדוק האם האלגוריתם שלהן יכול לקבל החלטות בהתאם למה שבני
האדם היו מחליטים (כלומר מהי הפעולה הכי נכונה).
מהי פרטיות?
מקורות הזכות לפרטיות -ברנדייס היה בחתונה וגילה שעיתונאים רושמים את שמות
האורחים שנכחו באירוע – זאת עדות ראשונה לסוג של פגיעה בפרטיות שנראתה.
בריידס מאוחר יותר הוא גם דווקא זה שאמר שאין פתרון יותר טוב מחשיפה לשמש ,כלומר
לחשוף את כל המידע שיש לך על האדם.
נטלי נחמיאס אתיקה וביג דאטה
רונה פפר
סמסטר א תשפ"ג
מדוע הזכות לפרטיות חשובה? (ע"פ המאמר "הגנה על הפרטיות בעיר הדיגיטלית" מיכאל בירנהק)
החשיבות של הפרטיות לפרט " :זכותו של האדם להחליט בעצמו החלטות שונות היא נגזרת של התפיסה של האוטונומיה של
האדם ושל כבוד האדם במובן הסגולי ...זכותו של אדם לנסות ולשלוט בדימויו בעיני אחרים ...והצורך הפסיכולוגי-אנושי שלנו
במרחב פרטי שבו לא יטרידו אותנו ,שבו נוכל להיעזב במנוחה ,שבו נוכל לנסות ,לתהות ולטעות ,ללא צורך לתת דין וחשבון".
מדינה -חשיבות הפרטיות כערך חברתי ופוליטי בדמוקרטיה :ביחסים שבין השלטון לאזרח המדינה צריכה לתפקד למען
האזרחים אבל אין לה שום אינטרסים מעבר לכך (כל פעולה שהיא עושה צריכה להיות בהתאם לערכים שהמדינה מקדמת עבור
האזרחים) .הפרטיות (בנוסף לזכויות אדם אחרות כמו הזכות לחופש הביטוי ,חופש ההפגנה וכו') היא אמצעי לשמר את מערך
הכוחות הדמוקרטי (שלטון לא דמוקרטי מאופיין בהיעדר פרטיות).
הפרטיות בארה"ב-
• לא מנויה במפורש בחוקה ,אך ניתן למצוא הגנה על החלטות אישיות של האדם (כמו באשר השימוש באמצעי מניעה או
החלטת אישה לבצע הפלה).
ע"פ הגישה האמריקאית הוגדרו סוגי מידע מסוימים לפי תוכנם כרגישים במיוחד ,ובהתאם לכך הם זכו להסדרה ייחודית .כך,
ניתן למצוא חקיקה פדרלית בנוגע למידע גנטי ,בנוגע למידע רפואי ובנוגע למידע פיננסי ,אך גם בנוגע לסוגי מידע נקודתיים
יותר כגון מידע הנוגע לתוכני הצפייה של מנוי טלוויזיה בכבלים או למשל חוק העוסק בהשכרת תוכני וידאו (וכאשר בכל מדינה
בתוך ארה"ב יש חקיקה נוספת ,והתוצאה -מעשה טלאים חקיקתי ,ומידע שאינו בא בגדר אחד החוקים האלה אינו מוגן בדין
הפדרלי).
מישורי הפעולה:
.1המישור החוקתי -חל על במישורין על
המדינה ועל הרשויות השונות .אסור לרשות
מקומית לפגוע בפרטיות האזרחים אם הדבר
אסור על פי חוק של הכנסת (כאשר חוקי עזר
עירוניים לא מספיקים לצורך כך).
.2מישור הגנת המידע האישי -חל על הרשויות
אבל גם על גורמים פרטיים .הרשות תצטרך
לעמוד בתנאים שיש בהסדר מאגרי המידע
שבחוק הגנת הפרטיות .גם תאגיד יכול
לאסוף מידע על האזרחים (הצרכנים) ,כאשר
תאגיד פרטי אינו כפוך לחוק היסוד במישורין,
ואינו זקוק להסמכה בחקיקה או לפעולה
מידתית ,אך ההסדר של מאגרי מידע מביא
לתוצאה דומה.
.3המישור שבין אדם לחברו -ההסדר החוקי
שעוסק במצבי פרטיות קלאסיים :כאשר
אדם חושף את סודו של אדם אחר ללא
רשות ,מפרסם מידע אישי על אודותיו
ופעולות דומות ,הרי זו פגיעה בפרטיות.
איסוף המידע צריך להיות למען מטרה ראויה ,ובהסכמה מדעת של מושא המידע ותוך הגבלות שונות של צורת האיסוף .בחוק
הגנת הפרטיות הישראלי אין דרישה מפורשת שמטרת האיסוף תהיה ראויה; אולם ככל שהגורם שאוסף את המידע הוא רשות
ציבורית ,דרישה זו נובעת מן המשפט החוקתי.
במהלך עיבוד המידע מוטלת על הגוף האוסף חובות נוספות כמו חובת סודיות באשר המידע (מניעת זליגתו בכוונת או ברשלנות)
ואף מחויבים באבטחת מידע ,ובנוסף ,למושא המידע יש זכות לגשת למידע אודותיו ולדרוש את תיקונו במידת הצורך .ע"פ הדין,
הפרת החובות הללו בידי מחזיק המידע יכולה להגיע לתביעות בבית משפט ואף עבירה פלילית (ובנוסף יש גם גורם אכיפה
שלטוני -הרשות להגנת הפרטיות אשר פועלת בכפוף למשרד המשפטים).
מעבר להסכמה מדעת ,הסכמה אקטיבית ,ה GDRPמאפשר כיום למושא המידע לחזור בו מהסכמתו ,או הזכות להישכח
שמאפשרת למושא המידע לדרוש מחיקה של מידע על אודותיו בתנאים מסוימים ,ומטילה חובה חדשה על מנהלי המאגרים
לדווח לרשות המתאימה או לציבור ,לפי העניין ,על דליפת מידע.
נטלי נחמיאס אתיקה וביג דאטה
רונה פפר
סמסטר א תשפ"ג
הזכות להישכח
בשנת 1998נקלע עורך הדין מריו קוסטחה לחובות ובגינן
פורסמה בעיתון המקומי בספרד הודעה על מכירה פומבית של
נכסיו 12 .שנים אח"כ ,למרות שכבר כיסה את כל חובותיו,
המשיך כישלון העבר לרדוף אותו והקשה על יכולתו להתפרנס
(המודעה על המכירה הפומבית לצורך כיסוי החובות הופיעה
במנוע החיפוש של גוגל בעקבות כל שאילתה שכללה את שמו).
על רקע מצוקתו פנה ערך הדין לבית הדין האירופי לזכויות אדם
וביקש שבדומה לזיכרון האדם ,שגם הרשת תשכח את מעידתו
החד פעמית שקרתה לפני שנים .בפסק דין שניתן בשנת 2014
עוגן לראשונה באמצעות פרשנות מרחיבה לזכות המחיקה,
שלנושא המידע יש את הזכות להישכח ,כלומר שיש לבקש מהחברה שמפעילה את מנוע החיפוש למחוק את התוצאות
המתקבלות מחיפוש שמו ,אם המידע שמתקבל אינו ראוי ,אינו רלוונטי או אינו רלוונטי עוד ,או מוגזם ,בהתחשב במטרות עיבוד
המידע ומזמן שחלף מאז הפרסום.
מזהים עקיפים :לא ייחודיים לאדם ספציפי אחד (הרבה אנשים •
יכולים לחלוק את הפרטים הללו) ,וככל שהמאגר מכיל יותר פרטים
כאלה על אדם מסוים זה יכול להצטבר לתמונה שתזהה אותו .אם
נסיר את המזהים העקיפים אז התועלת ממאגר הנתונים עלולה
להיות קטנה יותר בלעדיהם (לדוגמה -תאריך לידה ,גיל ,מגדרzip ,
.)code
סוויני קיוותה להצליח לאתר את המושל מתוך מאגר הנתונים הזה כדי
להוכיח שניתן לעקוף כאן את האנונימיות ולפגוע בפרטיות .באמצעות
השלישיה הקריטית ( )zip code, birth date, sexהיא הצליחה לאתר
את הרשומה של המושל ובכך עקפה את הפרטיות שהבטיחו.
סוויני מצאה את הרשומה של המושל בזכות ההצלבה שביצעה ,בזכות
השילוב הייחודי של הפרטים שלו (המושל היה הרשומה היחידה
שכללה את כל הפרטים הללו).
ומה מסתבר? ל 87%מהאוכלוסייה בארה"ב יהיו ( uniqueייחודיים)
בשילוב של .zip code, birth date, sex
נתוני חיפוש
AOLפרסמו עבור כל אדם איזה חיפושים הוא ביצע (ללא כל פרט מזהה).
ועדיין ,הצליחו למצוא אנשים באופן ספציפי ,כמו האישה בתמונה (מצאו
אותה כי היא חיפשה הרבה את שם המשפחה שלה ועדו כל מיני
חיפושים).
• במאגר שכזה לא ניתן לבצע K-Anonymityכי אנשים מחפשים
דברים שונים ולא ניתן לאתר אנשים שחיפשו בדיוק את אותו הדבר.
נתוני צפייה
נטפליקס שפרסמו את דירוגי המנויים שלהם ,כאשר כל המידע המזהה
של הלקוחות הוסר ,והשאירו רק את הדירוג והתאריכים.
מה הייתה הבעיה? חוקרים הראו כי בעזרת הצלבה עם הדירוגים
הפומביים מאתר IMDBהצליחו לזהות את הלקוחות ברשימת הדירוגים
של נטפליקס (ע"י הצלבה של שמות הסרטים והתאריכים).
• אם נמחק את הסרטים שכולם רואים ,אז הרגלי הצפייה שלנו יהפכו
לייחודיים ,וכך למעשה ניתן לעקוף את הפרטיות ולזהות אנשים
למרות שזה מתיימר להיות אנונימי.
נטלי נחמיאס אתיקה וביג דאטה
רונה פפר
סמסטר א תשפ"ג
נתוני מיקום
חוקרים ביצעו מחקר אקדמי על נתונים של רשת סלולארית שמתארים 15
חודשי שימוש של משתמשי סלולר על בסיס מיקום של אנטנה סלולארית
מידי שעה (מידע פחות מדויק מ.)GPS
החוקרים טענו כי אחרי שמאמנים מספיק את המודל הזה ,אז מספיק לתת
לו 4נקודות מיקום במהלך היום והוא יוכל לזהות את האדם בנתונים
בהסתברות של .95%
מסגרת האנונימיזציה בעת שיתוף נתוניםPrivacy vs. data utility (accuracy) : a tradeoff -
נצטרך ליצור מסגרת כללית שבה אנחנו רוצים לשתף מידע אך לא להפר את
הפרטיות באופן מוחלט .כלומר -צריך לחפש את האיזון בין כל פרט לפרט ובאופן
שידאג למידת הרגישות של הנתונים.
כלומר ע"פ הגישה הזו ,אנונימיזציה היא תהליך תלוי הקשר שדורש התייחסות לנתונים
וסביבתם כמערכת כוללת.
אנונימיזציה פונקציונלית :ניתן לקבוע כי נתונים אנונימיים או לא ביחס לסביבתם בלבד.
דרגות זיהוי
מידע המכיל מזהים ישירים ועקיפים.
• אישי באופן מפורש (מזהים ישירים) -שם ,כתובת ,מספר טלפון ,SSN ,תעודה מזהה רשמית.
• ניתן לזיהוי פוטנציאלי (מזהים עקיפים) -מזהה מכשיר ייחודי ,לוחית רישוי ,מספר תיק רפואי ,קובץ ,Cookieכתובת .IP
• לא ניתן לזיהוי בקלות -זהה לזיהוי פוטנציאלי למעט נתונים מוגנים גם על ידי אמצעי הגנה ובקרה.
הרגולטורים יכולים לנצל את דרגות הזיהוי הללו כדי להטיל מגבלות שימוש מגוונות יותר מדומה למסגרות של רגולציה עצמית
בארה"ב .לדוגמה ,קוד ההתנהגות של NAIמחיל חובות להודעה ,בחירה ,ביטול הסכמה ואי אלפיה על מערכי נתונים
המוגדרים כלא אישיים (אנונימיים או בלתי ניתנים לזיהוי בעליל) .בנוסף ,עקרונות הרגולציה העצמית של ה DAA -קובעים גם
הגנות על מזהים בדויים .
נתונים פסאודונימים
מידע שמזהים ישירים בוטלו או עברו טרנספורמציה ,אך מזהים
כדי לקבוע אם אדם ניתן לזיהוי ,יש לקחת בחשבון את כל עקיפים נותרו ללא פגע.
האמצעים הסבירים שייעשה בהם שימוש או על ידי הבקר או • מפתח מקודד -נתונים מקודדים הם מידע אישי המאפשר
על ידי כל אדם אחר. זיהוי שהוסר ממנו מזהים ישירים ,אשר הוחלפו במפתח כדי
אם הרגולטורים יתייחסו לכל הנתונים המקודדים ככאלה למנוע זיהוי מחדש לא רצוי או לא מכוון .מדובר במערכי נתונים
הניתנים לזיהוי בקלות ולא יתייחסו לבקרות ואמצעי ההגנה קליניים או מחקריים שבהם רק האוצר שומר על המפתח כדי
על אותם נתונים מקודדים אז החוקרים יאלצו להקריב נתונים לשמור על היכולת לקשר נתוני מחקר בחזרה לחולים
שימושיים כדי לעמוד בסטנדרטים של ביטול הזיהוי. ספציפיים כדי שיוכלו לטפל בהם בהתאם לבעיה.
פסאודונימי מוגן -זהה לפסאודונימי ,אלא שהנתונים מוגנים גם על ידי אמצעי הגנה ובקרות .לדוגמה -מבחן 2החלקים •
של ה FTC -שבו בודקים האם ניתן לנקות מזהה או שהוקצה מחדש; האם קיים מסד נתונים נגיש בקלות; או האם הנתונים
נגזרים ישירות מה.PII-
נתונים אנונימיים
מזהים ישירים ועקיפים הוסרו או טופלו יחד עם ערבויות מתמטיות וטכניות כדי למנוע זיהוי מחדש.
• אנונימי -לדוגמה ,רעש מכויל לקבוצת נתונים כדי להסתיר אם אדם נוכח או לא (פרטיות דיפרנציאלית).
• אנונימי מצטבר -נתונים מצטברים מאוד עד כדי כך שאמצעי הגנה או בקרה נוספים אינם רלוונטיים עוד (לדוגמה ,נתונים
סטטיסטיים ,נתוני מפקד אוכלוסין או נתוני אוכלוסייה ש 52.6%-מתושבי וושינגטון DCהן נשים).
נטלי נחמיאס אתיקה וביג דאטה
רונה פפר
סמסטר א תשפ"ג
פרטיות דיפרנציאלית
פרטיות דיפרנציאלית היא כאשר נרצה לאפשר את ניתוח הנתונים מבלי לתת את
הנתונים עצמם .מסתכלים על התהליך שייצר את התוצאה שאנחנו מפרסמים ,ולא
האם הפרסום עצמו הוא זה שפוגע בפרטיות או לא .כלומר הפרטיות הדיפרנציאלית
מוודאת שההסתברות ששאילתה סטטיסטית תייצר תוצאה נתונה תהיה זהה בין
אם היא מבוססת על מסד נתונים שמכיל את האינפורמציה שלנו ובין אם היא
"או שזה לא נתונים או שזה לא מזוהה" תתבסס על מסד נתונים שלא מכיל את האינפורמציה האישית עלינו.
האתגרים:
• בעיית ההרכבה ( -)compositionאנחנו שואלים שאלות שאולי לא קשורות ,אחת לשנייה אבל אם נרכיב את השאלות
ביחד אז נוכל לזהות את האדם ולשבור את הפרטיות.
• הצלבת מידע ( -)linkageכשמפרסמים מאגר נתונים שאני קיימת בו יוכלו אולי להצליב את המידע עם מקורות אחרים
וכך לזהות אותי.
שיטה זו מאפשרת להתמודד עם בעיית ההצלבה וההרכבה ,כלומר לשאול שאלות מבלי שהרכבתן ביחד תביא לפגיעה בפרטיות.
טכניקות אפשריות:
• להסוות את התגובות של חריגים -כמו הכנסה של מיליארדר,
• להיות פחות מדויק ,למשל ,על ידי דיווח על גילאים בטווחים של 5שנים במקום שנה בודדת,
• החלפת מידע עם משיב בעל מאפיינים דומים רבים המתגורר בבלוק אחר.
הנדסת פרטיות
7עקרונות השיטה:
.1פרואקטיבי ולא תגובתי; מונע ולא מתקן -כלומר לתכנן מראש את המערכת
באופן שימנע את הפגיעה בפרטיות.
.2פרטיות כברירית מחדל -המשתמש יחליט מאופן יזום אם לשתף את המידע.
.3פרטיות מוטמעת בעיצוב
.4פונקציונליות מלאה -סכום חיובי ,לא אפס ,כלומר שהמערכת תהיה יעילה
החברה הזו פיתחה כלי מאפשר לשמור תמונות
וסרטוני ווידאו באופן שמשמר פרטיות (המערכת
ושימושית ולא תיפגע בגלל שצריך לשמור על הפרטיות (זה הדבר שהכי קשה
משנה את התמונות של הפנים כל שלא יוכלו ליישם).
לשהות את הפנים בעזרת מערכת לזיהוי פנים). .5אבטחה מקצה לקצה
.6נראות ושקיפות -הסברים קצרים וברורים.
.7יש לשמור ולכבד את פרטיות המשתמש.
חומרת ההפרה היא המפתח להבנה האם יריבים קרובים ייפגעו או יעזרו מהמזל הרע
של המתחרים שלהם.
• -Spillover effectאות פריצה קטנה יותר לכך שגם אחרים בתעשייה עלולים
להיות חשופים לפריצה .כלומר מניחים שאם היה אירוע של פריצת מידע בחברה
מסוימת אז חברות דומות יכולות להינזק גם הן מהאירוע בטענה שאם זה קרה
בחברה Xזה יכול לקרות גם בחברה .Y
• -Competitive effectפרצת נתונים גדולה יוצרת את הרושם שהחברה שנפרצה היא כמות ייחודית של צרות .כלומר אם
יש אירוע יוצא דופן (פריצה מאסיבית או כשל חמור) אז המתחרים דווקא ירוויחו מהמצב הזה (בטענה שאם אצלם זה לא
קרה אז הם יותר טובים).
הממצאים -התברר שציונים טובים במדדים הללו עשויים להגן על החברה מאפקט
ה .spillover -זה תמריץ נוסף שגורם לארגונים להבין ששמירה כנה ואמיתית על
הפרטיות עשויה לסייע להם כי למשתמשים אכפת והם כן מעריכים חברה שמראה
שההתנהלות שלה יותר שקופה ובטוחה.
נטלי נחמיאס אתיקה וביג דאטה
רונה פפר
סמסטר א תשפ"ג
קאת'י אוניל( "The era of blind faith in big data must end" -הרצאת TEDקצרה)
מאמנים אלגוריתם בעזרת נתונים שנאספו בעבר ומגדירים מהי הצלחה ,כאשר הדעה של האלגוריתם מקודדת בקוד (לעומת
בני אדם שמחליטים בעצמם מהי הדעה שלהם) .כשאנחנו מאמינים באמונה עיוורת על מאגרי הנתונים זה יכול להיות בעייתי,
כמו למשל מורה שקיבלה ציון טוב מהמנהל שלה ומהורי התלמידים אולם פוטרה בכל זאת בכלל האלגוריתם.
בחברת FOX NEWSהציעו להחליף את מערכת גיוס העובדים באלגוריתם שאמור להתבסס על נתוני העבר ובעזרת המידע
הזה האלגוריתם מחפש מהי ההגדרה של הצלחה .מכיוון שבהינתן המידע הזה לא היו
"האלגוריתמים מחביאים מידע הרבה נשים שקודמו בחברה יצא מצב שנשים הוצאו מחוץ לאפשרות הקידום והגיוס.
בקופסה שחורה ואז עוד קוראים
לתהליך אובייקטיבי". • כלומר יוצא מצב שהאלגוריתם הסתמך על נתוני העבר וכך למעשה שיחזר אותו.
אנחנו אמנם יכולים לטעות שאנחנו בראשית עידן הטכנולוגיה הזו ושהיא
יכולה להשתפר אבל מכיוון שהמערכות הללו כבר בשימוש הדבר בעייתי כל
עוד הן מוטות.
לדוגמה -פלסטיני נעצר בארץ כי מערכת אוטומטית שסורקת פוסטים
בפייסבוק תרגמה פוסט שכתב בו "בוקר טוב" ל" -תקפו אותם" .אמנם
שיחררו אותו בסוף ,אבל הדוגמה הזו רק ממחישה שהמערכות הללו מוטות
ועושות טעויות ואנשים לא מודעים לכך ,שהן לא בהכרח בשלות עדיין ולכן
אולי צריך להסתכל עליהן בזהירות יתרה.
כלומר חשוב לעקוב אחרי מידת הדיוק בפועל בשימוש במערכת ולא להאמין באמונה עיוורת באחוזי הדיוק שהמתכנתים
מתיימרים לספר עליהם.
נטלי נחמיאס אתיקה וביג דאטה
רונה פפר
סמסטר א תשפ"ג
איך נלמד את המערכת לא להפלות? מה מכניסים למערכת שנועדה לזהות עד כמה החולה חולה? יש לנו היסטוריה של אירועים
בריאותיים שנצברו אבל איך המערכת יודעת לאבחן את מצב החולה ,הרי היא לא רופא.
• הפתרון הוא לתת למערכת מידע רפואי מתויג -נניח לקחת רשימה של בדיקות שנבדקו ע"י גורם אנושים שנתן עליהן ציון.
• הבעיה היא שאין לנו דירוג כזה בנתוני העבר ,וגם אם נושיב רופא מומחה הוא לא יוכל להצליח לשבת ולתייג מיליוני מקרים
כדי שלדאטה יהיה על מה להסתמך.
יכול להיות אולי שבמקרה הזה זה נעשה ממניעים עסקיים -המערכת לא פותחה ע"י רופאים אלא ע"י חברות הביטוח שיש לה
נתונים אודות העלויות שנבעו לה בשל הטיפולים ההיסטוריים של האדם .יכול להיות שחברת הביטוח בכלל רוצה לזהות את
החולים שגורמים לעלויות גבוהות כדי לטפל בהם ולשמור על בריאותם וכך למנוע מהחברה עלויות כבדות עוד יותר בעתיד .מה
שכן ,היא לא לקחה בחשבון חולים שלא נמצאים אצלה במאגר כמו אוכלוסיית השחורים שגם ככה לא באים לקבל טיפול או
שמראש אין להם ביטוח (כלומר בגלל שאוכלוסיית השחורים מייצרת פחות עלויות אז המשתנה הזה של עלויות בגין טיפולים
דווקא דפק אותם) .ניסו לתקן הוסיפו הסתברות לאירועים בריאותיים בשנה הקרובה.
דאטה שלא מתויג היטב הוא דבר נפוץ מאוד .היינו חושבים שיעבוד כאן "חוק המספרים הגדולים" -על פני מספרים גדולים של
נתונים הטעויות יתקזזו ,אבל זה לא המקרה -העובדה שיש הרבה דאטה לא פותרת בעיות.
לדוגמה:
במערכות של תורים -המערכות נבנות במטרה שהרופא לא יהיה בטל מעבודה כי הרופא הוא המשאב היקר ביותר ולא רוצים
שהרופא יחכה ,ולכן התורים דחוסים -הרווחים בין התורים לא תואמים את משך התור האמיתי ,כי המערכת יודעת שחלק
מהאנשים לא יגיעו .עדיף שאנחנו נחכה בתור מאשר שהמומחה יחכה לנו מבחינת המערכת.
אפשר ממש לדעת מי האנשים שלא מגיעים לתור -אנשים שמאחרים או לא מגיעים "נקנסים" – נדחקים לתורים יותר רחוקים,
שעות לא נוחות ועמוסות .יש טענות שזה מפלה אוכלוסיות קשות יום :למשל אנשים עובדים שתלויים בתחבורה ציבורית
ועלולים להתעכב.
נטלי נחמיאס אתיקה וביג דאטה
רונה פפר
סמסטר א תשפ"ג
בנוסף ,לפעמים מפתחים מערכת במדינה אחת על אוכלוסייה מסוימת אבל בפועל
משתמשים בה במדינות אחרות עם אוכלוסיות שונות -דבר שיכול להשפיע באופן
שונה ולהוביל לתוצאות שונות.
במקרה הזה עשו בדיקה על אנשים רגילים ולא על מומחים ובדקו האם הם ישנו את
הדעה שלהם בעקבות הדעה של המחשב? המחשב קבע שעץ ( Aהשמאלי) הוא
הכי גבוה ,כך שממצב שבו רוב האנשים אמרו שעץ ( Bהאמצעי) הכי גבוה ,לאחר
החשיפה לדעת המחשב ,רק 14%מהאנשים כעת טענו שעץ Bהוא הכי כבוה.
אולם אצל מומחים הדבר שונה ,הם פחות נוטים לקבל את הדעה של המערכת
(מכיוון שיש עלות ללכת ולעשות בדיקות לאדם בריא) .אם כך ,מדוע עדיין מכניסים
את המערכות הללו? כי הן לא אמורות להחליף את הרופא ,אלא שהמטרה שלהן היא לזהות דברים שיכולים להיות בעייתיים.
המפתחים טוענים :יש לנו שוויון במידת החיזוי באוכלוסיות שונות -כי הצליחו לזהות שניים מתוך שישה שאנשים שחזרו
ופשעו ,הצליחו לזהות ארבעה מתוך שישה שחזרו ופשעו .כלומר אנחנו מצליחים במידה שווה :שני שלישים ושני שלישים.
אבל ה false positive -הוא פי ,2ובתחומים כאלה אנחנו צריכים להיזהר מה false positive -כי אנחנו לא רוצים שאנשים
יעצרו לשווא.
• באוכלוסייה עם הפשיעה הגבוהה יותר 2 :מתוך ,4כלומר חצי סווגו כסיכון גבוה על אף שלא היו.
• באוכלוסייה עם פשיעה נמוכה יותר 1 :מתוך ,3כלומר שליש סווג כסיכון גבוה על אף שלא היו.
מתמטית אין לסיטואציה הזו פתרון :אי אפשר להגיע למצב של
שוויון במידת החיזוי וגם להשוות בין ה , false positive -כלומר צריך
להחליט מה עדיף במקרה זה.
הגדלת הסף יכולה להביא לחוסר דיוק של המערכת -דבר שממנו
החברות מנסות להימנע .כדי להעלות את ה false positive -ניתן
להרים את הסף של אוכלוסיית השחורים אבל אז זה יכול לגרום
לפספוס בגלל הסף -כלומר זה יגרום למערכת להיות פחות מדויקת.
הגינות קבוצתית
מי שמסומן באדום הוא ה.false positive -
אם נביט רק בגברים מול נשים נראה שיש שוויון -בכל מגדר יש 3מתוך 16שזוהו
בטעות.
אולם אם נביט בתוך הקבוצות נראה שה false positive -מתרכז באוכלוסיות
ספציפיות ויכול להיות שיהיה אי שוויון שיהיה קשה לזהות באוכלוסייה ספציפית
מסוימת.
יש מחקרים על תחומים שנהפכו להיות מנוהלים בעיקר ,אם לא רק ,ע"י אלגוריתמים .דוגמה לכך היא מערכות שעוזרות לחברות
לסנן עובדים פוטנציאלים לעבודה (בעיקר בחברות גדולות).
• המניע הראשוני הינו להקל על המערכת.
• המניע השני -לוודא שהמערכת לא תהיה מוטה.
איך אפשר לוודא שהמערכת הזו עושה עבודה טובה? ניקח את הנתונים על העובדים שכבר קיבלנו לעבודה ונראה מי מהעובדים
שהתקבלו נחשבים לעובד מוצלח .אולם זה סובייקטיבי כי זה תלוי איך מגדירים הצלחה ,וזה עלול גם לגרום להטיה אם לא
קיבלנו בעבר מספיק נשים לעבודה -כך שהמערכת תהיה מוטה עקב דאטה חסר ולא תחשיב נשים כבעלות פוטנציאל להצליח.
נטלי נחמיאס אתיקה וביג דאטה
רונה פפר
סמסטר א תשפ"ג
המקרה של אמזון:
המערכת שאמזון פיתחה לעצמה התבססה על מידע מ10
השנים האחרונות ומכיוון שבאותה התקופה לא היו הרבה נשים
שאמזון קיבלה לעבודה אז זה יצר הטיה במערכת .ממה יכולה
לנבוע הטיה?
• ייצוג חסר של האוכלוסייה בנתונים
• אפליה לגבי האוכלוסייה
החסרונות:
• מתבסס על נתוני עבר
• יכול להיות מוטה נגד אוכלוסיות שלא היו מיוצגות מספיק ב dataהקיים.
• אחת הבעיות שעלתה בסרטון היא שברגע שהכלים נכנסים לשימוש זה קורה הרבה חברות ומי שלא עובר את הראיונות
האלה יכול לא לעבור את הרעיונות במספר חברות שמשתמשות באותה מערכת שדחתה אותם (לעומת אנשים שיכולים
לנסות את מזלם מול מראיין אנושי ובסופו של דבר כן להתקבל לעבודה).
• טענה נוספת בכלי -העדר השקיפות .היינו רוצים לדעת שאנחנו יודעים מהן הכישורים הנדרשים מאיתנו כדי להתקבל
לעבודה -כלומר שהתהליך יהיה שקוף.
• גם כשהכלים נבדקים טוב במהלך הפיתוח עדיין יכול להיות מצב שכאשר המערכת מוטמעת לא תמיד בודקים את
ההחלטות שלה ולראות אילו טעויות נעשו כדי ללמוד מהן.
בהחלט יתכן שמנהל כלל לא יטרח לצפות בסרטון של עובד שקיבל מהמערכת ציון נמוך ,והמנהלים מודאגים שהכלים הללו
מוטים ,לא שקופים ולא מדויקים.
הרבה חברות משתמשות בטכנולוגיה הזו בארה"ב והבעיה שיכולה להיווצר היא שמי שלא התקבל לעבודה בחברה מסוימת
עלול גם לא להתקבל לעבודה בחברות אחרות (במיוחד אם נעשה שימוש באותה המערכת).
בנוסף ,הציגו חברה שמנתחת את הרשתות החברתיות של המועמדים -מערכת שמייצרת פרופיל לפי המידע שברשתות
החברתיות ונותנת ציון .מה הבעיה בכך? מי שפחות משתתף ברשתות החברתיות יכול להיפגע מכך .ובנוסף ,ברשתות
החברתיות יש הרבה מידע שלא אמור להיות רלוונטי לצורך הקבלה לעבודה ,וזה דווקא מעלה את המסך שאמור להיות לפי
שיטת ההוגנות בקבלת החלטות עיוורת.
נטלי נחמיאס אתיקה וביג דאטה
רונה פפר
סמסטר א תשפ"ג
?objective or bias
הנבדקת חזרה כמה פעמים על הראיון באותה
הצורה ,ובהמשך שינו את הופעתה כשלבשה צעיף
או משקפיים וראו שהתקבלו תוצאות שונות.
גם בניסוי הזה אין שקיפות כי יש כל כך הרבה
גורמים שאנחנו לא יכולים לדעת שמשפיעים על
קבלתנו לעבודה (למשל איכות הוידאו).
מה הפתרון שאנחנו צריכים להציע? שהמערכת תתקן את עצמה ,כמו להוסיף עוד ( dataכמו למשל אותו אדם ששם על עצמו
צעיף או שיער אסוף כך שהמערכת תדע לזהות את מאפייני האישיות מעבר לנראות).
בארגונים ציבוריים אחרי זמן נותנים לחוקרים לבדוק את ביצועי המערכת ואז מגלים שהביצועים שלה בפועל רחוקים •
להיות ממה שהצהירו לגביה.
בניו יורק יש חוק שאם משתמשים במערכת AIלצורך גיוס עובדים אז החברה צריכה לוודא שקיפות ,איך התהליך •
מתנהל ,מה נדרש ויכול להשפיע על המועמדים וכו'.
אם אנחנו בנק היינו רוצים לדעת האם אדם הוא כזה שמחזיר
הלוואות .אבל בפועל אנחנו לא יודעים אם הוא אדם כזה ,אלא רק
יודעים אם הוא החזיר בעבר.
זה יכול להשפיע עלינו כי זה יכול ליצור הטיה ,המדגם פחות טוב
ואולי לא מייצב מספיק ,ואולי עצם זה שאנשים לא קיבלו הלוואה
(חוסר במידע אודות אותם אנשים) יכול לפגוע בקבלת החלטה
נכונה.
כלומר אנחנו רוצים מדגם יותר מדויק שמייצג את כל מה שרלוונטי
אולם בפועל לא ניתן לאסוף את המדגם הכי טוב ומלא.
:Machine learningברגע שאספנו יותר נתונים אז הכלים הפכו ללמידת מכונה -מלמדים מכונה באמצעות מאגרי מידע
קודמים.
Neural networkרשתות נוירונים .הן יכולות להיות:
• -Supervisedאנחנו קובעים מה אנחנו מנסים לחזות ,לסווג (מהו משתנה המטרה).
• -Un-supervisedנותנים למערכת למצוא משהו מבלי להדריך אותה ולתת לה מטרה לזיהוי (פחות שכיח).
ד"ר ליפשיץ אמרה לגבי התזמורת :ניגנו יצירה שלא כתב בן אדם ,ההלחנה הייתה של ( AIבקליפ שראינו הזמרת עצמאית יצרה
את הקליפ ,הזמרת כתבה את המילים ו AI-הלחין אותן).
נדגיש ,זו אוגמנטציה :הכלי הוא תומך החלטה בלבד ,הרופא הוא מקבל ההחלטה בפועל ,אבל הרופאים לא מרגישים
שההחלטות שלהם משתפרות בשימוש ב.AI-
.3מה נכון לעשות מבחינת ה"אטימות" של ה ?AI-האם נכון וראוי שבתי חולים ישתמשו ב AI-שהוא קופסה שחורה? או
שנדרשת רגולציה בנושא? אפשר לשנות את המערכת?
.4בקורונה -כלי AIרבים נכנסו לבתי חולים ,כלים שממליצים על פרוטוקול טיפולי.
• ספק גדול אם הכלים האלו מועילים כפי שלמדנו בהרצאה .הקורונה היא מחלה חדשה -רופאים ביקשו כלי שיסייע
להם להחליט ,אבל חסר דאטה.
.5בעתיד :לאנשי מקצוע לא בהכרח תהיה בחירה ,ה AI-יהיה מסביבנו.
נטלי נחמיאס אתיקה וביג דאטה
רונה פפר
סמסטר א תשפ"ג
במחקר של LinkedInפרסמו את התוצאות לאחד 5שנים בכתב עת ,והעלו ביקורת על כך שהניסוי לא קיבל את אישור •
וועדת האתיקה לניסויים באקדמיה.
נטלי נחמיאס אתיקה וביג דאטה
רונה פפר
סמסטר א תשפ"ג
כדי שהניסוי יהיה מבוקר היטב צריך ליידע את הנסיינים ,לקבל את אישורם והסכמתם ,לשמור על הפרטיות שלהם וכו'.
במקרה של הניסוי של פייסבוק ההסכמה של המשתתפים ניתנה בעת רישומם לרשת החברתית (שהם מאשרים להשתתף
בניסויים עתידיים) ,אך זה לא אומר שהם נתנו הסכמה מודעת.
בנוסף גם לא הייתה כאן בקרה על הנסיינים כמו בניסויים אחרים ,ויש כאן פעולה אקטיבית של פייסבוק ולא אלגוריתם שמותאם
באופן אקראי.
מה היינו חושבים על זה? כאן הציגו ממש מצג שווא ,לא סתם הסתירו מאיתנו מידע (זה הרבה יותר קריפי וחמור מפייסבוק).
• האתר היה הראשון שהצהיר כי הוא מבצע "ניסויים" באנשים ,לא כי הם יודעים כל כך הרבה ,אלא שבעזרת ניסויים
הם יכולים לבחון את הדברים האלה ובמטרה לשפר את האלגוריתם שלהם.
.1כבוד למשתתפים:
• צריכה להיות לאנשים את זכות הבחירה האם להשתתף
בניסוי.
• הסכמה מדעת
• אפשרות פרישה
• פרטיות -שאם מבטיחים ששומרים על פרטיות המשתמשים
אז ניתן לבצע את המחקר ללא קבלת ההסכמה המפורשת
שלהם.
יש הבדלים כשמדובר בניסויים דיגיטליים ,האנשים פחות יכולים להבין מה מבקשים מהם ומה ההשלכות של הניסוי (כי זה
פחות מבוקר ויש קשר חלש יותר עם הנסיינים).
מסגרת :B
הטענה שלא מדובר כאן על ניסוי בבני אדם ,אנחנו פתאום מאוד נחרדים
מה"-סכנות" שיכולות להיגרם למשתמשי הניסוי כשמחלקים לקבוצות
(קבוצה א ,לעומת קבוצה ב) תוך התעלמות משאר המשתמשים של
הפלטפורמה ,כמו במקרה של פייסבוק ולינקדאין.
• כלומר אומרים שלא צריך להיות נחרדים ולראות כאן ממש כניסוי
שדורש הסכמה ,אבל שזה כן יהיה תהליך שקוף.
כדי לבחון זאת עשו ניסוי ולקחו קבוצות אנשים בעלי אותם הקישורים
למשרה ממקומות שונים ,כשבכל חברה יש הבדל לטובת גברים או
נשים (דומינוס -יותר עובדים גברים ,בחברה השנייה עובדות יותר
נשים) ,והריצו את המודעה בפייסבוק ובלינקדאין.
• גילו שבפייסבוק יש הרבה יותר הבדל בפנייה למגדר של
האנשים לפי מה שיש בחברה (כלומר האלגוריתם של
פייסבוק בעצמו ייצר את ההטעיה לפי המידע שראה על
החברה -שיותר גברים רוצים לעבוד בדומינוס ,ולכן יותר
גברים גם עובדים שם).
• לעומתם ,בלינקדאין היה הבדל הרבה יותר קטן ,שלא היה
מובהק.
גם אם אנחנו יכולים להסביר למה התופעה הזאת קוראת אנחנו רואים שברגע שנותנים לאלגוריתם קצת עצמאות הוא יכול
לגרום להטיה מסוימת (כמו העובדה שאם אנחנו נחפש " "teacherו "doctor" -אז זה יתרגם מורה נקבה ורופא זכר כי זה מה
שרוב האנשים חיפשו וזה היה הבסיס של האלגוריתם).