אתיקה וביד דאטה

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 29

‫נטלי נחמיאס‬ ‫אתיקה וביג דאטה‬

‫רונה פפר‬
‫סמסטר א תשפ"ג‬

‫אתיקה וביג דאטה‬


‫הצד החיובי של עידן הביג דאטה‪:‬‬
‫• מאפשר מתן שירותים‬
‫• תפעול ולוגיסטיקה‬
‫• בריאות ורפואה‬
‫• תחבורה‬
‫• חקלאות‬
‫• שיווק‬

‫אתיקה של טכנולוגיה‪ -‬החששות‪:‬‬


‫• פחות שקיפות ויותר עמימות (לא תמיד יודעים מה נעשה עם המידע שנאסף)‬
‫• פגיעה באבטחה ובפרטיות של הנתונים‪.‬‬
‫• הטיות וחוסר צדק אלגוריתמיים (האלגוריתמים לא תמיד מקבלים החלטות הוגנות)‪.‬‬
‫• מניפולציות והשפעה פסיכולוגית באמצעים טכנולוגיים‪.‬‬
‫• חברה של מעקב‪.‬‬
‫• התגברות האוטונומיה של המכונות וירידה בבקרה ובאחריות האנושיות‪.‬‬

‫אתיקה של טכנולוגיה‬
‫אתיקה‪-‬‬ ‫תחום ידע תאורטי ו‪/‬או מעשי שנוגע ליחסים שבין טכנולוגיה ואתיקה נורמטיבית‪ .‬כולל‬
‫התחום שעוסק במה טוב ומה רע‪,‬‬ ‫למשל‪:‬‬
‫ובחובות המוסריות שלנו‪.‬‬ ‫• אתיקה של רובוטים‬
‫(מה הדבר הנכון לעשות)‬
‫• אתיקה של רשתות חברתיות‬
‫• אתיקה של בינה מלאכותית ועוד‪.‬‬

‫מהי אתיקה בתחום המחשוב?‬


‫ניתוח האופי וההשפעה החברתית של טכנולוגיית המחשב וגיבוש מדיניות לשימוש‬
‫אתי בטכנולוגיה כזו‪.‬‬

‫העוסקים בתחומים אלה מחויבים לעבוד‬ ‫צריך אתיקה מכיוון שהמחשוב יצר מהפכה בחיינו ואנחנו‬
‫תחת כללים אתיים ברורים ‪ ,‬ועולה השאלה‬ ‫צריכים להבין מהי ההשפעה של הדבר‪.‬‬
‫האם גם מהנדסים צריכים לפעול בדרך‬
‫זאת?‬

‫הדברים שמורים על המחשב ופחות שקופים‪.‬‬


‫נטלי נחמיאס‬ ‫אתיקה וביג דאטה‬
‫רונה פפר‬
‫סמסטר א תשפ"ג‬

‫ארבעת הסוגיות האתיות של עידן המידע‪:‬‬


‫‪ -Privacy‬פרטיות‬
‫• איזה מידע חייב אדם לגלות לאחרים‪ ,‬באילו תנאים ובאילו אמצעי הגנה?‬
‫• אילו דברים אנשים יכולים לשמור לעצמם?‬
‫הפרטיות בסכנה במיוחד כאשר יוכלו לשלב מאגרי מידע‪.‬‬

‫‪ -Accuracy‬דיוק‬
‫• מי אחראי לאותנטיות‪ ,‬נאמנות ודיוק המידע?‬
‫• מי אחראי לטעויות וכיצד יש לרפא את הנפגע?‬
‫לפעמים קשה לאתר את הטעויות או להשתכנע ולהבין שהמחשב עשה טעות‪.‬‬

‫‪ -Property‬רכוש‬
‫• למי יש מידע? מהם המחירים הצודקים וההוגנים להחלפתו?‬
‫• מי הבעלים של הערוצים שדרכם מועבר מידע?‬
‫כמו במקרה של התכנה ‪ Dall-E‬שממירה טקסט לתמונה מצוירת‪ -‬שהאמנים דרשו שיסירו את היצירות שלהם ממאגר הנתונים‬
‫שעליו מתבססת התוכנה בטענה שהיא מרוויחה כסף מהיצירות שלהם‪.‬‬

‫‪ -Accessibility‬נגישות‬
‫• איזה מידע יש לאדם או לארגון זכות או פריבילגיה לקבל‪ ,‬באילו תנאים ובאילו אמצעי הגנה?‬
‫גם היום יש גישה נרחבת יותר לאינטרנט אך עדיין יש קשישים או אזורים פחות נגישים למידע או אפילו סתם אנשים שלא יכולים‬
‫באמת לגשת למאגרי המידע‪.‬‬

‫‪ 5‬הגישות פילוסופיות לאתיקה‪:‬‬

‫‪ .1‬גישת הזכויות‬
‫" ההנאה מפעולתו של אדם כלפי אדם אחר מותרת רק אם האוטונומיה והכבוד של אותו אדם עצמו אינם‬
‫נפגעים בתהליך‪ ,‬ואם האדם שאליו מתייחסים כאמצעי יסכים לטיפול כזה כחלק ממטרותיו האוטונומיות‬
‫שנבחרו‪".‬‬
‫הנושאים האתיים המודגשים בשיטה זו כוללים‪:‬‬
‫• אוטונומיה‪ -‬המידה שבה אנשים יכולים לבחור בעצמם בחופשיות‪.‬‬
‫• כבוד‪ -‬המידה שבה אנשים מוערכים בעצמם‪ ,‬לא כחפצים עם מחיר‪.‬‬
‫• שקיפות‪ -‬תנאים כנים‪ ,‬פתוחים ומושכלים של טיפול‪/‬הפצה חברתית‪.‬‬

‫בני אדם הם יצורים אנושיים שהאנושות העניקה להם את הזכות והחופש לקבל החלטות ולכן חשוב שהחברה תתנהג באופן‬
‫שיכבד את הפרטים‪ ,‬תשמור על ביטחונם הפיזי ופרטיותם (כלומר יש להם זכות מוסרית בסיסית שיכבדו את הבחירות שלהם)‪.‬‬
‫מצד שני‪ ,‬בתחומים טכנולוגיים רבים זה אולי טוב שכן מגבילים קצת את הפרטיות אם האוטונומיה של המשתמש מהווה סיכונים‬
‫מוסריים בלתי מקובלים‪ -‬כמו למשל ההחלטה שמגבילה אותנו לבחור סיסמאות שעומדות בסטנדרט מסוים ושמידי פעם אף‬
‫מכריחים אותנו להחליף את הסיסמא‪.‬‬

‫‪ .2‬גישת הצדק וההוגנות‬


‫יש להתייחס לכולם באופן שווה‪ .‬הפעולה האתית היא זו שמקדמת‪:‬‬
‫• שוויון‪ ,‬שוויון והגינות‬
‫• גיוון והכלה‬
‫• בשל התהליך‬
‫• כוח והזדמנות‬

‫צדק חלוקתי‪ :‬חלוקה מתאימה של הטבות ומעמסות תוך התחשבות בהבחנות רלוונטיות בהבחנות בין אנשים‪.‬‬
‫צדק גמול‪" :‬עין תחת עין"‪.‬‬
‫צדק מפצה‪ :‬המאמצים לפצות נפגעים או להשיב רכוש אבוד לבעליו החוקיים‪.‬‬
‫צדק והגינות דורשים הימנעות מניגוד עניינים ולכן קבלת ההחלטות צריכה להיעשות מאחורי מסך "הבורות"‪ -‬החלטה שתהיה‬
‫עיוורת להבדלים בין בני האדם‪.‬‬
‫נטלי נחמיאס‬ ‫אתיקה וביג דאטה‬
‫רונה פפר‬
‫סמסטר א תשפ"ג‬

‫במערכת הטכנולוגית‪ ,‬שלא כמו שני האדם‪ ,‬באמת לא מתבצעת (כביכול) אפליה כי היא לא רואה את החזות החיצונית והיא לא‬
‫אמורה להיות מושפעת מגורמים אחרים מעבר לנתונים שהיא מכילה‪ .‬מצד שני‪ ,‬אנחנו יכולים לראות בימנו הרבה מערכות ‪AI‬‬
‫שמקבלות החלטות עם הטיות מסוימות‪.‬‬
‫• עניין נוסף‪ ,‬כיצד אפליקציית פרסום דיגיטלית המאפשרת לאנשים להציב מודעות דיור מותאמות אישית או דרושים‬
‫המכוונות רק לאנשים מתחת לגיל ‪ ,40‬או רק לאנשים במיקוד ספציפי‪ ,‬משפיעה על הגינות וצדק?‬

‫‪ .3‬גישת התועלתנות‬
‫פעולות אתיות הן אלו המספקות את האיזון הגדול ביותר של טוב על רע‪ .‬יש לשקול את האושר או הרווחה הכוללים שהפעולה‬
‫שלנו עשויה להביא‪ ,‬עבור כל המושפעים ולאורך הטווח הארוך (האושר נמדד במונחים של הנאה מצטברת והיעדר כאב)‪.‬‬
‫שיטה זו אומרת למעשה שהדרך פחות חשובה‪ ,‬אלא יש יותר להתמקד בתוצאה הסופית‪ .‬לדוגמה כמו בתקופת הקורונה‪-‬‬
‫מעקב וניטור אחר בני אדם אולי נשמעים קצת נורא אבל אם זה לצורך בלימת מגפת הקורונה אז אולי הדרך הזאת לא כל כך‬
‫נוראית כי היא מובילה לתוצאה חשובה‪.‬‬
‫• האתיקה התועלתנית לא משתווה לצורות השונות של ניתוח עלות‪-‬תועלת בעסק (שמתייחסות בעיקר ליתרונות‬
‫הפיסיים הכלכליים‪ ,‬ולרוב בטווח הקצר או בטווח הצר של בעלי העניין)‪ .‬ההשלכות המוסריות שלה לא מתייחסות‬
‫רק לרווחה הפיזית‪ ,‬אלא גם רווחה פסיכולוגית רגשית‪ ,‬קוגניטיבית‪ ,‬מוסרית‪ ,‬מוסדית‪ ,‬סביבתית ורווחה פוליטית‬
‫או פגיעה או השפלה‪.‬‬
‫• הנושאים המודגשים בגישה זו‪ :‬אושר‪ ,‬איזון בין האינטרסים של בעלי העניין‪ ,‬חיזוי השלכות‪.‬‬

‫בעיה מפורסמת מגישה הזאת היא "בעיית הטרולי" (בעיית הקרונית)‪:‬‬


‫• נניח שיש ‪ 5‬עובדים שעובדים לאורך מסילת פסי רכבת‪ .‬אני יודעת שהרכבת מגיעה ואם לא אעשה כלום הם ימותו‪ .‬אני‬
‫יכולה להטות את הרכבת למסלול הנגדי שנמצא בו עובד אחד בלבד‪.‬‬
‫• בהמשך ביצעו שוב את הניסוי רק שבמקום להטות את הרכבת צריך להפיל מהגשר שמעליה איש שמן שאמור לחסום את‬
‫הרכבת בעזרת גופו‪.‬‬
‫התועלתנים יגידו שמקרה הזה שזה לא משנה כי בכל אחד מהמקרים אנשים נהרגים אבל נציל מישהו אחר (יותר אנשים)‪.‬‬

‫בעיית הקרונית נעשתה רלוונטית מחדש גם בעידן הדיגיטלי‪ -‬המכוניות האוטונומיות נכנסו‬
‫לחיינו ואנחנו צריכים לבדוק האם האלגוריתם שלהן יכול לקבל החלטות בהתאם למה שבני‬
‫האדם היו מחליטים (כלומר מהי הפעולה הכי נכונה)‪.‬‬

‫‪Moral Machines experiment‬‬


‫פיתחו ‪ 3‬עקרונות‪:‬‬
‫‪ .1‬להציל בני אדם על פני חיות‬
‫‪ .2‬להציל קבוצה גדולה מאשר אדם אחד‬
‫‪ .3‬להציל ילדים‬
‫רצו לבדוק כיצד תרבויות שונות מעריכות חיי אדם‪ ,‬וגילו הרבה תוצאות מגוונות ושונות בכל מדינה‪ ,‬כלומר שלא ניתן לדעת‬
‫ולקבוע מה הדבר הכי נכון‪ ,‬כי זה תלוי בתרבות ובסביבה (הצרפתים למשל העדיפו להציל יותר נשים מאשר גברים‪ ,‬והיו מקומות‬
‫שבהם העדיפו להציל אדם ממעמד סוציו אקונומי גבוה מאשר קבצן)‪.‬‬

‫‪ .4‬גישת הטובה המשותפת (טובת הכלל)‬


‫טובת הפרט קשורה לטובת הקהילה (אנחנו הרבה פעמים נרצה לקבל החלטות שמטיבות עם הכלל)‪.‬‬
‫גישה זו מפנה את תשומת הלב לתנאים המשותפים החשובים לרווחת כולם (כמו שירותי בריאות במחיר סביר‪ ,‬ביטחון ציבורי‬
‫יעיל‪ ,‬שלום בין מדינות‪ ,‬מערכת משפטית צודקת וסביבה לא מזוהמת)‪.‬‬

‫‪ .5‬גישת האתיקה של סגולות‬


‫האדם שמקבל את ההחלטות רוצה להרגיש טוב עם עצמו‪.‬‬
‫מידות טובות הן גישות או תכונות אופי המאפשרות לנו להיות ולפעול בדרכים המפתחות את הפוטנציאל הגבוה ביותר שלנו‪.‬‬
‫אנחנו צריכים לזהות את תכונות האופי או הנטיות היציבות‪ ,‬ולקדם את הרגלי הפעולה שמייצרים או מחזקים את אותן‬
‫המעלות‪ .‬למשל‪ -‬אם כנות היא סגולה אצל מעצבים ומהנדסים (ונטייה לזייף נתונים או להגזים בתוצאות היא חסר)‪ ,‬אז עלינו‬
‫לחשוב אילו הרגלי עיצוב נוטים לקדם כנות‪ ,‬ולעודד אותם‪.‬‬
‫דוגמאות למעלות‪ :‬יושר‪ ,‬אומץ‪ ,‬חמלה‪ ,‬נדיבות‪ ,‬נאמנות‪ ,‬יושרה‪ ,‬הגינות‪ ,‬שליטה עצמית‪.‬‬
‫באמצעות גישה זו אנו עשויים לשאול איזה סוג של אדם עלי להיות? האם הפעולה הזו עולה בקנה אחד עם המשחק שלי‬
‫במיטבי?‬
‫נטלי נחמיאס‬ ‫אתיקה וביג דאטה‬
‫רונה פפר‬
‫סמסטר א תשפ"ג‬

‫דילמות מוסריות בעולם הביג דאטה‬


‫בעידן הביג דאטה דורש איסוף נתונים מאסיבי אשר מאיים על הפרטיות‪ .‬מה ההשלכות של איסוף הנתונים המקיף? זה יכול‬
‫להיות הרבה יותר משמעותי ממה שאנחנו חושבים ולהשפיע על כולנו (למשל‪ -‬אם אישה שגרה במדינה שאוסרת על הפלות‬
‫חיפשה על כך מידע באינטרנט‪ -‬יכולים להציע לה מודעות נגד הפלות או אפילו יותר גרוע‪ -‬להעביר את המידע עליה לרשויות‬
‫האכיפה)‪.‬‬

‫שכבות של איסוף נתונים אישיים‪:‬‬

‫איסוף המידע עלינו‬

‫העברת המידע לגורמים אחרים‪ -‬צד ג'‬


‫(לפעמים מסירים גורמים מזהים ממאגר הנתונים)‬

‫מיזוג מערכי נתונים כדי לחשוף נתונים שלא שיתפנו‬

‫ניתוח נתונים כדי לחשוף נתונים אישיים שאיננו‬


‫מודעים אליהם‬

‫מיזוג מערכי נתונים כדי לחשוף נתונים שלא שיתפנו‬


‫נטפליקס פרסמה חלק מהדירוגים של הגולשים שלה (בצורה אנונימית‬
‫לטענתה) במטרה שחוקרים ינסו לאמן את האלגוריתם שלה להמליץ על‬
‫תכנים אחרים‪ .‬אולם היו חוקרים שהצליחו לפצח את האנונימיזציה ולהבין‬
‫אילו מנויים צפו בתכנים מסוימים שלא בהכרח היו רוצים שידעו עליהם‪.‬‬
‫מה הפתרון? למחוק את שמות הסרטים ולמספר אותם (מעין התממת‬
‫פרטים)‪.‬‬

‫ניתוח נתונים כדי לחשוף או להסיק נתונים אישיים‬


‫"‪-"Private traits and attributes are predictable from digital records of human behavior‬‬
‫ע"פ המאמר‪ ,‬על סמך מספר הלייקים יכולים לזהות הרבה מאפיינים של האדם בטווח ביטחון של מעל ‪.90%‬‬

‫האם הפרטיות מתה?‬


‫"אם יש לך משהו שאתה לא רוצה שאף אחד‬ ‫כן‪ -‬יש לנו אפס פרטיות בעידן הדיגיטלי ואין שום סיכוי שנוכל להגן עליה‪ ,‬אז כדאי‬
‫ידע‪ ,‬אולי אתה לא צריך לעשות את זה‬ ‫שנתרגל לעולם החדש ונתגבר עליו‪.‬‬
‫מלכתחילה"‬
‫אריק שמידט‬
‫לא‪ -‬הפרטיות שלנו חשובה מאי פעם ואנחנו יכולים ועלינו לנסות להגן עליה‪.‬‬

‫מהי פרטיות?‬
‫מקורות הזכות לפרטיות‪ -‬ברנדייס היה בחתונה וגילה שעיתונאים רושמים את שמות‬
‫האורחים שנכחו באירוע – זאת עדות ראשונה לסוג של פגיעה בפרטיות שנראתה‪.‬‬
‫בריידס מאוחר יותר הוא גם דווקא זה שאמר שאין פתרון יותר טוב מחשיפה לשמש‪ ,‬כלומר‬
‫לחשוף את כל המידע שיש לך על האדם‪.‬‬
‫נטלי נחמיאס‬ ‫אתיקה וביג דאטה‬
‫רונה פפר‬
‫סמסטר א תשפ"ג‬

‫מדוע הזכות לפרטיות חשובה? (ע"פ המאמר "הגנה על הפרטיות בעיר הדיגיטלית" מיכאל בירנהק)‬
‫החשיבות של הפרטיות לפרט‪ " :‬זכותו של האדם להחליט בעצמו החלטות שונות היא נגזרת של התפיסה של האוטונומיה של‬
‫האדם ושל כבוד האדם במובן הסגולי‪ ...‬זכותו של אדם לנסות ולשלוט בדימויו בעיני אחרים‪ ...‬והצורך הפסיכולוגי‪-‬אנושי שלנו‬
‫במרחב פרטי שבו לא יטרידו אותנו‪ ,‬שבו נוכל להיעזב במנוחה ‪,‬שבו נוכל לנסות‪ ,‬לתהות ולטעות‪ ,‬ללא צורך לתת דין וחשבון"‪.‬‬

‫יחסים בין אישיים ומקצועיים‪ :‬הצדקות אחרות מדגישות את‬


‫חשיבות הפרטיות לקיומם של יחסים בין־ אישיים תקינים כמו‬
‫אינטימיות בין בני‪-‬זוג או יחסים מקצועיים כמו בין רופאה‬
‫למטופל‪.‬‬

‫קהילה‪ -‬הפן הציבורי של הפרטיות‪ :‬הפרטיות חשובה לא רק‬


‫בשל תרומתה לפיתוח הזהות והאישיות של הפרט והתנהלותו‬
‫היומיומית‪ ,‬אלא גם לקהילה עצמה‪ -‬היא יוצרת ערך של כבוד‬
‫הדדי בין חברי הקהילה ומאפשרת להם לחיות יחד‪ ,‬דווקא למרות‬
‫ההבדלים ביניהם‪.‬‬

‫מדינה‪ -‬חשיבות הפרטיות כערך חברתי ופוליטי בדמוקרטיה‪ :‬ביחסים שבין השלטון לאזרח המדינה צריכה לתפקד למען‬
‫האזרחים אבל אין לה שום אינטרסים מעבר לכך (כל פעולה שהיא עושה צריכה להיות בהתאם לערכים שהמדינה מקדמת עבור‬
‫האזרחים)‪ .‬הפרטיות (בנוסף לזכויות אדם אחרות כמו הזכות לחופש הביטוי‪ ,‬חופש ההפגנה וכו') היא אמצעי לשמר את מערך‬
‫הכוחות הדמוקרטי (שלטון לא דמוקרטי מאופיין בהיעדר פרטיות)‪.‬‬

‫הפרטיות בדין האירופאי‬


‫• פרטיות בחיים האישיים ‪,‬בהקשר המשפחתי‪ ,‬בבית ובתקשורת‪.‬‬
‫• פרטיות במידע האישי זוכה להגנה חוקתית נפרדת מהזכות לפרטיות (באופן כללי)‪:‬‬
‫‪ .1‬לכל אחד ואחת יש זכות להגנה על מידע אישי על אודותיו‪/‬ה‪.‬‬
‫‪ .2‬עיבוד של מידע כאמור צריך להיעשות באופן הוגן‪ ,‬למטרות מוגדרות‪ ,‬על בסיס הסכמה של האדם מושא המידע או לפי‬
‫בסיס לגיטימי אחר שנקבע בחוק‪ .‬לכל אדם יש זכות לגישה למידע שנאסף על אודותיו‪/‬ה‪ ,‬ולתיקון המידע‪.‬‬
‫‪ .3‬ציות לכללים אלה כפוף לפיקוח של רשות עצמאית‪.‬‬
‫ע"פ הגישה האירופאית להגדרת "מידע אישי"‪ -‬כל מידע על אדם מזוהה או על אדם שניתן לזהותו מתוך המידע נחשב למידע‬
‫אישי‪ ,‬והרגולציה חלה עליו‪ .‬המשמעות היא כי גם פריטי מידע טריוויאליים מוגנים‪ ,‬אם הם מזהים את האדם‪.‬‬

‫הפרטיות בארה"ב‪-‬‬
‫• לא מנויה במפורש בחוקה‪ ,‬אך ניתן למצוא הגנה על החלטות אישיות של האדם (כמו באשר השימוש באמצעי מניעה או‬
‫החלטת אישה לבצע הפלה)‪.‬‬
‫ע"פ הגישה האמריקאית הוגדרו סוגי מידע מסוימים לפי תוכנם כרגישים במיוחד‪ ,‬ובהתאם לכך הם זכו להסדרה ייחודית‪ .‬כך‪,‬‬
‫ניתן למצוא חקיקה פדרלית בנוגע למידע גנטי‪ ,‬בנוגע למידע רפואי ובנוגע למידע פיננסי‪ ,‬אך גם בנוגע לסוגי מידע נקודתיים‬
‫יותר כגון מידע הנוגע לתוכני הצפייה של מנוי טלוויזיה בכבלים או למשל חוק העוסק בהשכרת תוכני וידאו (וכאשר בכל מדינה‬
‫בתוך ארה"ב יש חקיקה נוספת‪ ,‬והתוצאה‪ -‬מעשה טלאים חקיקתי‪ ,‬ומידע שאינו בא בגדר אחד החוקים האלה אינו מוגן בדין‬
‫הפדרלי)‪.‬‬

‫הזכות לפרטיות בישראל‬


‫מעוגנת בחוק היסוד "כבוד האדם וחירותו" בחוק ספציפי ‪,‬ופותחה בפסיקת בתי המשפט ‪,‬המפרשים את הדינים הקיימים‬
‫ומשלימים פערים שיש בהם‪.‬‬
‫פרטיות וצנעת הפרט‬
‫א‪ .‬כל אדם זכאי לפרטיות ולצנעת חייו‬
‫ב‪ .‬אין נכנסים לרשות היחיד של אדם שלא בהסכמתו‬
‫ג‪ .‬אין עורכים חיפוש ברשות היחיד של אדם‪ ,‬על גופו‪ ,‬בגופו או בכליו‬
‫ד‪ .‬אין פוגעים בסוד שיחו של אדם‪ ,‬בכתביו או ברשומותיו‪.‬‬
‫השמירה על הזכות לפרטיות בישראל לא מעוגנת תחת הזכות לפרטיות אלא במישורין תחת הגנת כבוד האדם שבחוק היסוד‪.‬‬
‫ואולם‪ ,‬ההגנה החוקתית על זכות זו אינה מוחלטת ‪ ,‬והפגיעה בזכות לפרטיות בהתאם לחוק יסוד זה אם יש חקיקה מפורשת‬
‫בנושא (חקיקה או תקנות) והפגיעה צריכה להיות מוצדקת ומידתית‪.‬‬
‫נטלי נחמיאס‬ ‫אתיקה וביג דאטה‬
‫רונה פפר‬
‫סמסטר א תשפ"ג‬

‫חוק הגנת הפרטיות‪-‬‬


‫• מפרט את הזכות לפרטיות בהקשר של "יחסים בין אדם לחברו ובכלל זה בין תאגיד לאדם‪ ,‬ועניינו הוא "מצבי פרטיות‬
‫קלאסיים"‪ .‬למשל‪ :‬בילוש או התחקות אחר אדם‪ ,‬האזנת סתר‪ ,‬צילום ברשות היחיד‪ ,‬פתיחת מכתב ‪,‬הפרת חובת סודיות‪,‬‬
‫שימוש במידע שלא למטרה שלשמה נאסף (עיקרון צמידות המטרה) ‪.‬‬
‫• ההקשר השני של הגנת הפרטיות בדין הישראלי עוסק במידע אישי‪ ,‬והוא מקביל לדין האירופי בקשר להגנת מידע אישי‪.‬‬

‫מישורי הפעולה‪:‬‬
‫‪ .1‬המישור החוקתי‪ -‬חל על במישורין על‬
‫המדינה ועל הרשויות השונות‪ .‬אסור לרשות‬
‫מקומית לפגוע בפרטיות האזרחים אם הדבר‬
‫אסור על פי חוק של הכנסת (כאשר חוקי עזר‬
‫עירוניים לא מספיקים לצורך כך)‪.‬‬
‫‪ .2‬מישור הגנת המידע האישי‪ -‬חל על הרשויות‬
‫אבל גם על גורמים פרטיים‪ .‬הרשות תצטרך‬
‫לעמוד בתנאים שיש בהסדר מאגרי המידע‬
‫שבחוק הגנת הפרטיות‪ .‬גם תאגיד יכול‬
‫לאסוף מידע על האזרחים (הצרכנים)‪ ,‬כאשר‬
‫תאגיד פרטי אינו כפוך לחוק היסוד במישורין‪,‬‬
‫ואינו זקוק להסמכה בחקיקה או לפעולה‬
‫מידתית‪ ,‬אך ההסדר של מאגרי מידע מביא‬
‫לתוצאה דומה‪.‬‬
‫‪ .3‬המישור שבין אדם לחברו‪ -‬ההסדר החוקי‬
‫שעוסק במצבי פרטיות קלאסיים‪ :‬כאשר‬
‫אדם חושף את סודו של אדם אחר ללא‬
‫רשות‪ ,‬מפרסם מידע אישי על אודותיו‬
‫ופעולות דומות‪ ,‬הרי זו פגיעה בפרטיות‪.‬‬

‫‪ -FIPs‬עקרונות המידע האישי שהחלו להופיע‬


‫בשיטות משפט שונות בעולם בתחילת שנות השבעים של המאה הקודמת‪ .‬בהתאם לעקרונות אלה "עיבוד של מידע [אישי]‬
‫צריך להיעשות באופן הוגן‪ ,‬למטרות מוגדרות‪ ,‬על בסיס הסכמה של האדם מושא המידע או ע"פ בסיס לגיטימי אחר שנקבע‬
‫בחוק‪ .‬לכל אדם יש זכות גישה למידע שנאסף על אודותיו‪/‬ה‪ ,‬ולתיקון המידע"‪.‬‬

‫איסוף המידע צריך להיות למען מטרה ראויה‪ ,‬ובהסכמה מדעת של מושא המידע ותוך הגבלות שונות של צורת האיסוף‪ .‬בחוק‬
‫הגנת הפרטיות הישראלי אין דרישה מפורשת שמטרת האיסוף תהיה ראויה; אולם ככל שהגורם שאוסף את המידע הוא רשות‬
‫ציבורית‪ ,‬דרישה זו נובעת מן המשפט החוקתי‪.‬‬
‫במהלך עיבוד המידע מוטלת על הגוף האוסף חובות נוספות כמו חובת סודיות באשר המידע (מניעת זליגתו בכוונת או ברשלנות)‬
‫ואף מחויבים באבטחת מידע‪ ,‬ובנוסף‪ ,‬למושא המידע יש זכות לגשת למידע אודותיו ולדרוש את תיקונו במידת הצורך‪ .‬ע"פ הדין‪,‬‬
‫הפרת החובות הללו בידי מחזיק המידע יכולה להגיע לתביעות בבית משפט ואף עבירה פלילית (ובנוסף יש גם גורם אכיפה‬
‫שלטוני‪ -‬הרשות להגנת הפרטיות אשר פועלת בכפוף למשרד המשפטים)‪.‬‬
‫מעבר להסכמה מדעת‪ ,‬הסכמה אקטיבית‪ ,‬ה ‪ GDRP‬מאפשר כיום למושא המידע לחזור בו מהסכמתו‪ ,‬או הזכות להישכח‬
‫שמאפשרת למושא המידע לדרוש מחיקה של מידע על אודותיו בתנאים מסוימים‪ ,‬ומטילה חובה חדשה על מנהלי המאגרים‬
‫לדווח לרשות המתאימה או לציבור‪ ,‬לפי העניין‪ ,‬על דליפת מידע‪.‬‬
‫נטלי נחמיאס‬ ‫אתיקה וביג דאטה‬
‫רונה פפר‬
‫סמסטר א תשפ"ג‬

‫הזכות להישכח‬
‫בשנת ‪ 1998‬נקלע עורך הדין מריו קוסטחה לחובות ובגינן‬
‫פורסמה בעיתון המקומי בספרד הודעה על מכירה פומבית של‬
‫נכסיו‪ 12 .‬שנים אח"כ‪ ,‬למרות שכבר כיסה את כל חובותיו‪,‬‬
‫המשיך כישלון העבר לרדוף אותו והקשה על יכולתו להתפרנס‬
‫(המודעה על המכירה הפומבית לצורך כיסוי החובות הופיעה‬
‫במנוע החיפוש של גוגל בעקבות כל שאילתה שכללה את שמו)‪.‬‬
‫על רקע מצוקתו פנה ערך הדין לבית הדין האירופי לזכויות אדם‬
‫וביקש שבדומה לזיכרון האדם‪ ,‬שגם הרשת תשכח את מעידתו‬
‫החד פעמית שקרתה לפני שנים‪ .‬בפסק דין שניתן בשנת ‪2014‬‬
‫עוגן לראשונה באמצעות פרשנות מרחיבה לזכות המחיקה‪,‬‬
‫שלנושא המידע יש את הזכות להישכח‪ ,‬כלומר שיש לבקש מהחברה שמפעילה את מנוע החיפוש למחוק את התוצאות‬
‫המתקבלות מחיפוש שמו‪ ,‬אם המידע שמתקבל אינו ראוי‪ ,‬אינו רלוונטי או אינו רלוונטי עוד‪ ,‬או מוגזם‪ ,‬בהתחשב במטרות עיבוד‬
‫המידע ומזמן שחלף מאז הפרסום‪.‬‬

‫כלומר עולה הטענה שאם לא מדובר בנתונים היסטוריים חשובים‬


‫עם ערך תרבותי ואם לא מדובר בזכות הציבור לדעת‪ ,‬אולי צריך‬
‫לאפשר מחיקה שלו המידע‪.‬‬
‫אולם בכתבת תגובה זו אומר בכיר בגוגל כי הם לא רוצים להיות‬
‫אלה שמכריעים ומחליטים היכן נמצא האיזון בין זכות הציבור‬
‫לדעת וחופש המידע לבין הזכות להישכח‪.‬‬
‫אמנם בית המשפט קבע כי יש להסיר מידע שאינו מדויק או‬
‫רלוונטי‪ ,‬אבל זה מאוד סובייקטיבי ובית המשפט לא קבע מנגנון‬
‫ברור ואנחנו נאלצים לבדוק על מקרה ומקרה‪.‬‬

‫סיכוני הפגיעה בפרטיות‬


‫פרצות נתונים‪ :‬גישה בלתי מוגבלת של אחרים לסיסמאות‪ ,‬מאפיינים ומיקומו של אדם יכולה לשמש כדי לפגוע בנושאי‬ ‫•‬
‫הנתונים במגוון דרכים‪.‬‬
‫פגיעה באוטונומיה מוסרית‪ :‬חוסר פרטיות עלול לחשוף אנשים לכוחות חיצוניים המשפיעים על בחירותיהם‪ .‬החברה נהנית‬ ‫•‬
‫מפרטיות‪ ,‬מכיוון שאנשים יצירתיים‪ ,‬חדשניים ופרודוקטיביים יותר‪.‬‬
‫אי צדק מידע ואפליה‪ :‬מידע אישי המסופק בתחום או בהקשר אחד (לדוגמה‪ ,‬שירותי בריאות) עשוי לשנות את משמעותו‬ ‫•‬
‫כאשר נעשה בו שימוש בתחום או בהקשר אחר (כגון עסקאות מסחריות) ועלול להוביל לאפליה ולחסרונות עבור הפרט‪.‬‬

‫ניהול עצמי של נתונים‬


‫• יוצר חסרונות מידע ואסימטריה‪.‬‬
‫• קשה לממש העדפות (הבחירה היא לא באמת בחירה חופשית)‪.‬‬
‫• גורם להפסדים בטווח הארוך‪.‬‬
‫• הטיות שגורמות לנו להאמין שהכל יהיה בסדר (‪.)optimism bias‬‬

‫כלים משמרי פרטיות בנתונים‬


‫שימוש בכלים ובטכניקות לשימור פרטיות בעת השימוש במידע האישי‪:‬‬
‫• איסוף ואחסון‬
‫אבטחה‪ -‬היא לא הכלי היחיד שמגן על הפרטיות‬ ‫• שימוש וניתוח‬
‫רגולציה‪ -‬גם בהקשר של שיתוף מידע‬ ‫• שיתוף‬
‫• עיצוב מוצרים חדשים‬
‫נטלי נחמיאס‬ ‫אתיקה וביג דאטה‬
‫רונה פפר‬
‫סמסטר א תשפ"ג‬

‫זיהוי מחדש של הנתונים הרפואיים של מושל מסצ'וסטס‬


‫בתוך ערכת נתוני ביטוח משנת ‪1997‬‬
‫בשנת ‪ 1997‬מושל מסצ'וסטס איש לפרסם מידע רפואי‬
‫מפורט אודות עובדי המדינה במטרה לאפשר לנתח אותו‬
‫(למטרות שיתוף חיוביות)‪ .‬כמובן שהמאגר הותמם‪ ,‬כלומר‬
‫הסירו ממנו את כל הפרטים המזהים אודות האנשים והובטח‬
‫שזה לא יפר פרטיות ושיש במהלך הזה תועלת לציבור‪.‬‬
‫כשהמאגר פורסם השאירו את ה‪ zip-code‬וסטודנטית בשם לטניה סוויני שילמה ‪ 20‬דולר כדי לבחור את פנקס הבוחרים במדינה‬
‫שלה‪.‬‬
‫• מזהים ישירים‪ :‬פרטי מידע שמאפשרים זיהו ישיר של האדם (לדוגמה‪ -‬שם‪ ,‬מספר זהות‪ ,‬כתובת ‪ ,IP‬כתובת מייל)‪.‬‬

‫מזהים עקיפים‪ :‬לא ייחודיים לאדם ספציפי אחד (הרבה אנשים‬ ‫•‬
‫יכולים לחלוק את הפרטים הללו)‪ ,‬וככל שהמאגר מכיל יותר פרטים‬
‫כאלה על אדם מסוים זה יכול להצטבר לתמונה שתזהה אותו‪ .‬אם‬
‫נסיר את המזהים העקיפים אז התועלת ממאגר הנתונים עלולה‬
‫להיות קטנה יותר בלעדיהם (לדוגמה‪ -‬תאריך לידה‪ ,‬גיל‪ ,‬מגדר‪zip ,‬‬
‫‪.)code‬‬

‫סוויני קיוותה להצליח לאתר את המושל מתוך מאגר הנתונים הזה כדי‬
‫להוכיח שניתן לעקוף כאן את האנונימיות ולפגוע בפרטיות‪ .‬באמצעות‬
‫השלישיה הקריטית (‪ )zip code, birth date, sex‬היא הצליחה לאתר‬
‫את הרשומה של המושל ובכך עקפה את הפרטיות שהבטיחו‪.‬‬
‫סוויני מצאה את הרשומה של המושל בזכות ההצלבה שביצעה‪ ,‬בזכות‬
‫השילוב הייחודי של הפרטים שלו (המושל היה הרשומה היחידה‬
‫שכללה את כל הפרטים הללו)‪.‬‬
‫ומה מסתבר? ל‪ 87%‬מהאוכלוסייה בארה"ב יהיו ‪( unique‬ייחודיים)‬
‫בשילוב של ‪.zip code, birth date, sex‬‬

‫‪ -Linkage‬הצלבה‪ -‬משווים בין שני מאגרי מידע שונים על סמך‬


‫התכונות הדומות שניתן למצוא ברשומות השונות ובכך להגיע למצב‬
‫של זיהוי גם אם אחת הרשומות אמורה להיות אנונימית והותממה‪.‬‬

‫מה הפתרון? ‪K-Anonymity‬‬


‫סוויני הציעה שיטה שיכולה להצניע את המידע (אולם כיום‬
‫השיטה הזו פחות טובה)‪ -K .‬סימון מידת האנונימיות‬
‫שאנחנו רוצים לקבל‪ .‬קובעים את מידת האנונימיות הרצויה‬
‫‪( K‬כלומר מספר האנשים שאנחנו רוצים לקבל שיהיו דומים)‬
‫מבלי לקלקל את הנתונים‪.‬‬
‫כלומר המשמעות היא שאם קיבלנו רשומה מסוימת אז‬
‫נרצה שיהיו עוד ‪ K‬רשומות דומות‪.‬‬
‫בדוגמה הזאת לא מתקיימת אנונימיות כי היא היחידה‬
‫שמופיעה ברשימת הדאטה הרפואי עם תאריך לידה זה‪.‬‬

‫איך ניתן לבצע ‪?K-Anonymity‬‬


‫‪ .1‬הכללה‪ -‬נסתפק בפרטים פחות ספציפיים כמו למשל שנת לידה בלבד‪ ,‬או הגדלת טווח בכתובת ברחוב ספציפי לאזור‬
‫בשכונה ועוד‪.‬‬
‫‪ .2‬הסתרה‪ -‬מוותרים על רשומות יוצאות דופן (ערכים קיצוניים) כדי שלא נצטרך להכליל את כולם‪.‬‬
‫נטלי נחמיאס‬ ‫אתיקה וביג דאטה‬
‫רונה פפר‬
‫סמסטר א תשפ"ג‬

‫לדוגמה‪ -‬הטבלה העליונה היא הטבלה המקורית‪,‬‬


‫ומתחתיה טבלאות שבהן ביצעו הכללה והסירו מידע לא‬
‫רלוונטי‪.‬‬
‫המשפרים שמתחת לכל טבלה מציינים את כמות הגורמים‬
‫שאיבדנו בעקבות השינוי בנתונים‪.‬‬
‫בטבלה הימנית היו מעוניינים רק לדעת אם האדם היה‬
‫נשוי מתישהו במהלך חייו ולא משנה להם הסטטוס‬
‫העכשווי (אם עדיין נשוי‪ ,‬גרוש או אלמן)‪.‬‬
‫בטבלה השמאלית‪ ,‬היו מעוניינים לדעת רק מה שנת‬
‫הלידה‪ ,‬כך שישנה פחות ייחודיות כי הסירו ‪ 2‬גורמים‪-‬‬
‫חודש ויום וכן זה יותר כללי‪.‬‬

‫בריאות דיגיטלית ושיתוף נתונים רפואיים‬

‫דוגמאות למקרים שבהם כלל לא היו מזהים אישיים בנתונים‬

‫נתוני חיפוש‬
‫‪ AOL‬פרסמו עבור כל אדם איזה חיפושים הוא ביצע (ללא כל פרט מזהה)‪.‬‬
‫ועדיין‪ ,‬הצליחו למצוא אנשים באופן ספציפי‪ ,‬כמו האישה בתמונה (מצאו‬
‫אותה כי היא חיפשה הרבה את שם המשפחה שלה ועדו כל מיני‬
‫חיפושים)‪.‬‬
‫• במאגר שכזה לא ניתן לבצע ‪ K-Anonymity‬כי אנשים מחפשים‬
‫דברים שונים ולא ניתן לאתר אנשים שחיפשו בדיוק את אותו הדבר‪.‬‬

‫נתוני צפייה‬
‫נטפליקס שפרסמו את דירוגי המנויים שלהם‪ ,‬כאשר כל המידע המזהה‬
‫של הלקוחות הוסר‪ ,‬והשאירו רק את הדירוג והתאריכים‪.‬‬
‫מה הייתה הבעיה? חוקרים הראו כי בעזרת הצלבה עם הדירוגים‬
‫הפומביים מאתר ‪ IMDB‬הצליחו לזהות את הלקוחות ברשימת הדירוגים‬
‫של נטפליקס (ע"י הצלבה של שמות הסרטים והתאריכים)‪.‬‬
‫• אם נמחק את הסרטים שכולם רואים‪ ,‬אז הרגלי הצפייה שלנו יהפכו‬
‫לייחודיים‪ ,‬וכך למעשה ניתן לעקוף את הפרטיות ולזהות אנשים‬
‫למרות שזה מתיימר להיות אנונימי‪.‬‬
‫נטלי נחמיאס‬ ‫אתיקה וביג דאטה‬
‫רונה פפר‬
‫סמסטר א תשפ"ג‬

‫נתוני מיקום‬
‫חוקרים ביצעו מחקר אקדמי על נתונים של רשת סלולארית שמתארים ‪15‬‬
‫חודשי שימוש של משתמשי סלולר על בסיס מיקום של אנטנה סלולארית‬
‫מידי שעה (מידע פחות מדויק מ‪.)GPS‬‬
‫החוקרים טענו כי אחרי שמאמנים מספיק את המודל הזה‪ ,‬אז מספיק לתת‬
‫לו ‪ 4‬נקודות מיקום במהלך היום והוא יוכל לזהות את האדם בנתונים‬
‫בהסתברות של ‪.95%‬‬

‫במחקר נוסף שנעשה על ה‪ META DATA-‬על ציוצים של אנשים (נתונים‬


‫אודות הציוצים)‪ ,‬הצליחו לאמן אלגוריתם כך שבהינתן ציוץ חדש הוא יוכל‬
‫לזהות מי האדם שפרסם אותו‪.‬‬

‫איסוף הנתונים של נסיעות מוניות ברחבי ארה"ב יכול לעזור ל‪-‬‬


‫• אנשים שרוצים לדעת איך לתכנן את הנסיעות בניו יורק‪.‬‬
‫• מתחרים חדשים שרוצים להיכנס לתחום ירצו לדעת מהם התנאים‪.‬‬
‫• בנסיעות שיתופיות זה טוב למפעילים כי זה יכול לעזור להם לדעת‬
‫מאיפה ולאן להגיע כדי לאסוף נוסעים‪ .‬מצד שני‪ ,‬זה יכול להוות‬
‫פגיעה בפרטיות המשתמשים (כי יש נאסף מידע על המקום שאליו‬
‫הם נוסעים‪ .‬ולכן אולי כדאי לפרסם את המידע באיחור (למשל‬
‫פרסום המידע בהפרש של ‪ 24‬שעות לפחות) או לפרסם נתונים‬
‫אגרגטיביים (כמו מספר האנשים בזמן מסוים) למרות ששימוש‬
‫בנתונים כאלה עדיין לא חף מבעיות‪.‬‬

‫מסגרת האנונימיזציה בעת שיתוף נתונים‪Privacy vs. data utility (accuracy) : a tradeoff -‬‬

‫נצטרך ליצור מסגרת כללית שבה אנחנו רוצים לשתף מידע אך לא להפר את‬
‫הפרטיות באופן מוחלט‪ .‬כלומר‪ -‬צריך לחפש את האיזון בין כל פרט לפרט ובאופן‬
‫שידאג למידת הרגישות של הנתונים‪.‬‬

‫מסגרת קבלת החלטות האנונימיזציה (‪)ADF‬‬


‫• אנחנו לא יכולים להחליט בעצמנו אם הנתונים בטוחים לשיתוף או לא רק ע"י בחינת ה‪ data‬עצמו אלא יש לבחון את‬
‫העניין דרך מידע נוסף‪.‬‬
‫• אנחנו עדיין צריכים לבחון את הנתונים‪.‬‬
‫• ההתממה היא תהליך לייצור נתונים בטוחים (רק אם אנחנו מייצרים נתונים שימושיים בטוחים) וזאת תוך ידיעה‬
‫שההתממה עלולה לפגוע באיכות הנתונים‪.‬‬
‫• יש צורך בניהול סיכונים‪ -‬כי לא ניתן להגיע לאפס סיכון לפגיעה בנתונים‪.‬‬
‫• מידת ההשקעה שלנו תלויה במידת הסיכון של הנתונים‪ -‬כלומר אם הנתונים פחות מסוכנים כך כן יהיה יותר קל להסכים‬
‫שיהיו מספר אנשים שכן יאבדו את הפרטיות שלהם‪.‬‬
‫נטלי נחמיאס‬ ‫אתיקה וביג דאטה‬
‫רונה פפר‬
‫סמסטר א תשפ"ג‬

‫גישת מצב הנתונים‪:‬‬


‫• מהו המידע‬
‫• מיהם האנשים שמשתמשים בו ומה הם יכולים לעשות עם המידע‪.‬‬

‫כלומר ע"פ הגישה הזו‪ ,‬אנונימיזציה היא תהליך תלוי הקשר שדורש התייחסות לנתונים‬
‫וסביבתם כמערכת כוללת‪.‬‬
‫אנונימיזציה פונקציונלית‪ :‬ניתן לקבוע כי נתונים אנונימיים או לא ביחס לסביבתם בלבד‪.‬‬

‫ביטול זיהוי נתונים מעשי (‪)Practical data de-identification‬‬


‫כדי להבין את הדרכים שבהן ניתן לשרטט מחדש את ספקטרום ביטוי הזיהוי חשוב תחילה להבין את ההבדלים בין מזהים ישירים‬
‫לעקיפים וכיצד מפורסמים בדרך כלל מאגרי נתונים שלא מזוהים‪.‬‬
‫מזהים ישירים‪" :‬נתונים שניתן להשתמש בהם כדי לזהות אדם ללא מידע נוסף או עם קישור צולב באמצעות מידע אחר שנמצא‬
‫ברשות הציבור"‪ .‬הם כוללים שמות‪ ,‬מספרי ת"ז או מידע בסיסי ליצירת קשר ברור ושהסרתם או שינויים במקצת יהפוך את‬
‫הנתונים ל א‪-‬אישיים (ניתן לטפל בהם ע"י הסרתם או החלפתם בסמלים‪ ,‬שמות גנריים או ערכים אקראיים)‪.‬‬
‫מזהים עקיפים‪ :‬עוזרים לזהות אדם בעקיפין ע"י חיבור פיסות מידע שונות עד שניתן להבחין באדם מסוים‪ .‬המזהים העקיפים‬
‫הנפוצים ביותר כוללים תאריך לידה‪ ,‬גיל‪ ,‬מין‪ ,‬מיקוד ומידע דמוגרפי בסיסי אחר‪ .‬לא ניתן לזהות אדם על סמך מאפיין עקיף בלבד‬
‫אבל ככל שנוסיף עוד מזהים עקיפים מורכבים נוכל ליצור ולאתר את הזהות‪ .‬הסרתם של המזהים העקיפים עלולה לפגוע‬
‫בתועלת של מערך הנתונים כי הם מעבירים מידע כלשהו שעשוי להיות חשוב לניתוח בשלב מאוחר יותר‪ .‬ביטול של מזהים‬
‫עקיפים יכול להיות בין היתר‪ :‬דיכוי‪ ,‬הסרה‪ ,‬הכללת ערכים כסטים או טווחים‪ ,‬החלפת נתונים בין רשומות בודדות‪ ,‬לבלגן או‬
‫להוסיף רעש לנתונים הקיימים‪.‬‬

‫הבקרות ואמצעי ההגנה על השימוש בנתונים‬


‫• "מודל שחרר ושכח"‪ -‬הנתונים מפורסמים בפומבי או זמינים באינטרנט‪.‬‬
‫• "מודל הסכמי השימוש בנתונים"‪ -‬הנתונים מסופקים במסגרת חוזים מחייבים מבחינה משפטית אשר מפרטים כיצד‬
‫ניתן ואסור להשתמש בנתונים‪.‬‬
‫• "מודל המובלעת"‪ -‬הנתונים נשמרים בסוד של מובלעת נפרדת שמקבלת שאילתות מחוקרים מוסמכים‪ ,‬מפעילה את‬
‫השאילתות על הנתונים שלא זוהו ומגיבה עם התוצאות‪.‬‬

‫אמצעי ההגנה ובקרות לא טכניים‪:‬‬


‫‪ .1‬בקרות פנימיות‪ -‬מדיניות אבטחה‪ ,‬מגבלות גישה‪ ,‬הדרכת עובדים‪ ,‬הנחיות הפרדת נתונים ונהלי מחיקת נתונים‬
‫שמטרתם למנוע ניצול או דליפה של מידע סודי לציבור‪.‬‬
‫‪ .2‬הגנות חוזיות ומשפטיות חיצוניות‪ -‬תנאים חוזיים שמגבילים את האופן שבו שותפים משתמשים ומשתפים מידע ואת‬
‫הסעדים וזכויות הביקורת המתאימות כדי להבטיח תאימות‪.‬‬
‫ע"י אמצעי ההכנה המנהליים הארגונים מספקים הגנות פרטיות חשובות ללא תלות בביטול זיהוי טכני‪.‬‬

‫המדריך החזותי לביטול זיהוי נתונים מעשי‬


‫למה מתכוונים מדענים‪ ,‬רגולטורים ועורכי דין‬
‫כשהם מדברים על ביטול זיהוי? במה שונים‬
‫נתונים אנונימיים ממידע בדוי או לא מזוהה? זיהוי‬
‫הנתונים אינו בינארי‪ .‬הנתונים נמצאים על‬
‫ספקטרום עם מספר גוונים של זיהוי‪.‬‬
‫נטלי נחמיאס‬ ‫אתיקה וביג דאטה‬
‫רונה פפר‬
‫סמסטר א תשפ"ג‬

‫דרגות זיהוי‬
‫מידע המכיל מזהים ישירים ועקיפים‪.‬‬
‫• אישי באופן מפורש (מזהים ישירים)‪ -‬שם‪ ,‬כתובת‪ ,‬מספר טלפון‪ ,SSN ,‬תעודה מזהה רשמית‪.‬‬
‫• ניתן לזיהוי פוטנציאלי (מזהים עקיפים) ‪ -‬מזהה מכשיר ייחודי‪ ,‬לוחית רישוי‪ ,‬מספר תיק רפואי‪ ,‬קובץ ‪ ,Cookie‬כתובת ‪.IP‬‬
‫• לא ניתן לזיהוי בקלות‪ -‬זהה לזיהוי פוטנציאלי למעט נתונים מוגנים גם על ידי אמצעי הגנה ובקרה‪.‬‬

‫הרגולטורים יכולים לנצל את דרגות הזיהוי הללו כדי להטיל מגבלות שימוש מגוונות יותר מדומה למסגרות של רגולציה עצמית‬
‫בארה"ב‪ .‬לדוגמה‪ ,‬קוד ההתנהגות של ‪ NAI‬מחיל חובות להודעה‪ ,‬בחירה‪ ,‬ביטול הסכמה ואי אלפיה על מערכי נתונים‬
‫המוגדרים כלא אישיים (אנונימיים או בלתי ניתנים לזיהוי בעליל)‪ .‬בנוסף‪ ,‬עקרונות הרגולציה העצמית של ה‪ DAA -‬קובעים גם‬
‫הגנות על מזהים בדויים ‪.‬‬

‫נתונים פסאודונימים‬
‫מידע שמזהים ישירים בוטלו או עברו טרנספורמציה‪ ,‬אך מזהים‬
‫כדי לקבוע אם אדם ניתן לזיהוי‪ ,‬יש לקחת בחשבון את כל‬ ‫עקיפים נותרו ללא פגע‪.‬‬
‫האמצעים הסבירים שייעשה בהם שימוש או על ידי הבקר או‬ ‫• מפתח מקודד‪ -‬נתונים מקודדים הם מידע אישי המאפשר‬
‫על ידי כל אדם אחר‪.‬‬ ‫זיהוי שהוסר ממנו מזהים ישירים‪ ,‬אשר הוחלפו במפתח כדי‬
‫אם הרגולטורים יתייחסו לכל הנתונים המקודדים ככאלה‬ ‫למנוע זיהוי מחדש לא רצוי או לא מכוון‪ .‬מדובר במערכי נתונים‬
‫הניתנים לזיהוי בקלות ולא יתייחסו לבקרות ואמצעי ההגנה‬ ‫קליניים או מחקריים שבהם רק האוצר שומר על המפתח כדי‬
‫על אותם נתונים מקודדים אז החוקרים יאלצו להקריב נתונים‬ ‫לשמור על היכולת לקשר נתוני מחקר בחזרה לחולים‬
‫שימושיים כדי לעמוד בסטנדרטים של ביטול הזיהוי‪.‬‬ ‫ספציפיים כדי שיוכלו לטפל בהם בהתאם לבעיה‪.‬‬

‫פסאודונימי‪ -‬שמות בדוי מלאכותיים ייחודיים מחליפים‬ ‫•‬


‫מזהים ישירים (מזהים ישירים בוטלו או עברו‬
‫ע"פ ה‪ GDRP -‬פסאודונימיזציה מוגדר כ"עיבוד של נתונים‬
‫טרנספורמציה‪ ,‬אך מזהים עקיפים נשארים ללא פגעי הגנה‬
‫אישיים באופן שלא ניתן עוד לייחס את הנתונים לנושא מידע‬
‫או בקרה על שחרורם)‪ .‬ניתן להבחין בין נתונים בדויים‬
‫ספציפי ללא שימוש במידע נוסף‪ ,‬כל עוד מידע נוסף כזה‬
‫לנתונים הניתנים לזיהוי פוטנציאלי או לא ניתנים לזיהוי‬
‫נשמר בנפרד ובכפוף לאמצעים טכניים וארגוניים כדי‬
‫בכך שהנתונים הבדויים ניתנים לקישור אך ורק למזהה אד‪-‬‬
‫להבטיח אי ייחוס לאדם מזוהה או מזוהה"‪.‬‬
‫הוק שאין לו חיים מחוץ להקשר הספציפי שבו נעשה בו‬
‫שימוש‪ .‬כלומר נתונים בדויים אינם מכילים כל מזהה ישיר‬
‫שניתן להשתמש בו כדי לקשר נתונים בין הקשרים‪.‬‬

‫פסאודונימי מוגן‪ -‬זהה לפסאודונימי‪ ,‬אלא שהנתונים מוגנים גם על ידי אמצעי הגנה ובקרות‪ .‬לדוגמה‪ -‬מבחן ‪ 2‬החלקים‬ ‫•‬
‫של ה‪ FTC -‬שבו בודקים האם ניתן לנקות מזהה או שהוקצה מחדש; האם קיים מסד נתונים נגיש בקלות; או האם הנתונים‬
‫נגזרים ישירות מה‪.PII-‬‬

‫נתונים ללא זיהוי‬


‫מזהים ישירים וידועים עקיפים הוסרו או טופלו באופן שמפר את הקשר בין המידע לנושא הנתונים כדי לשבור את הקישור‬
‫לזהויות בעולם האמיתי‪ .‬שככל שהאמצעים והבקרות מחמירים יותר‪ ,‬הנתונים חייבים להיות פחות מופרעים כדי להשיג סיכון‬
‫נמוך מספיק לזיהוי מחדש; כאשר הנתונים מופרעים יותר‪ ,‬יש צורך בפחות פקדים‪.‬‬
‫• ללא זיהוי‪ -‬הנתונים מדוכאים‪ ,‬מוכללים‪ ,‬מופרעים‪ ,‬מוחלפים‪.‬‬
‫• מוגן ללא זיהוי‪ -‬זהה ל‪ -‬ללא זיהוי‪ ,‬אלא שהנתונים מוגנים גם על ידי אמצעי הגנה ובקרות‪.‬‬

‫נתונים אנונימיים‬
‫מזהים ישירים ועקיפים הוסרו או טופלו יחד עם ערבויות מתמטיות וטכניות כדי למנוע זיהוי מחדש‪.‬‬
‫• אנונימי‪ -‬לדוגמה‪ ,‬רעש מכויל לקבוצת נתונים כדי להסתיר אם אדם נוכח או לא (פרטיות דיפרנציאלית)‪.‬‬
‫• אנונימי מצטבר‪ -‬נתונים מצטברים מאוד עד כדי כך שאמצעי הגנה או בקרה נוספים אינם רלוונטיים עוד (לדוגמה‪ ,‬נתונים‬
‫סטטיסטיים‪ ,‬נתוני מפקד אוכלוסין או נתוני אוכלוסייה ש‪ 52.6%-‬מתושבי וושינגטון ‪ DC‬הן נשים)‪.‬‬
‫נטלי נחמיאס‬ ‫אתיקה וביג דאטה‬
‫רונה פפר‬
‫סמסטר א תשפ"ג‬

‫פרטיות דיפרנציאלית‬
‫פרטיות דיפרנציאלית היא כאשר נרצה לאפשר את ניתוח הנתונים מבלי לתת את‬
‫הנתונים עצמם‪ .‬מסתכלים על התהליך שייצר את התוצאה שאנחנו מפרסמים‪ ,‬ולא‬
‫האם הפרסום עצמו הוא זה שפוגע בפרטיות או לא‪ .‬כלומר הפרטיות הדיפרנציאלית‬
‫מוודאת שההסתברות ששאילתה סטטיסטית תייצר תוצאה נתונה תהיה זהה בין‬
‫אם היא מבוססת על מסד נתונים שמכיל את האינפורמציה שלנו ובין אם היא‬
‫"או שזה לא נתונים או שזה לא מזוהה"‬ ‫תתבסס על מסד נתונים שלא מכיל את האינפורמציה האישית עלינו‪.‬‬
‫האתגרים‪:‬‬
‫• בעיית ההרכבה (‪ -)composition‬אנחנו שואלים שאלות שאולי לא קשורות‪ ,‬אחת לשנייה אבל אם נרכיב את השאלות‬
‫ביחד אז נוכל לזהות את האדם ולשבור את הפרטיות‪.‬‬
‫• הצלבת מידע (‪ -)linkage‬כשמפרסמים מאגר נתונים שאני קיימת בו יוכלו אולי להצליב את המידע עם מקורות אחרים‬
‫וכך לזהות אותי‪.‬‬
‫שיטה זו מאפשרת להתמודד עם בעיית ההצלבה וההרכבה‪ ,‬כלומר לשאול שאלות מבלי שהרכבתן ביחד תביא לפגיעה בפרטיות‪.‬‬
‫טכניקות אפשריות‪:‬‬
‫• להסוות את התגובות של חריגים ‪ -‬כמו הכנסה של מיליארדר‪,‬‬
‫• להיות פחות מדויק‪ ,‬למשל‪ ,‬על ידי דיווח על גילאים בטווחים של ‪ 5‬שנים במקום שנה בודדת‪,‬‬
‫• החלפת מידע עם משיב בעל מאפיינים דומים רבים המתגורר בבלוק אחר‪.‬‬

‫הנדסת פרטיות‬
‫‪ 7‬עקרונות השיטה‪:‬‬
‫‪ .1‬פרואקטיבי ולא תגובתי; מונע ולא מתקן‪ -‬כלומר לתכנן מראש את המערכת‬
‫באופן שימנע את הפגיעה בפרטיות‪.‬‬
‫‪ .2‬פרטיות כברירית מחדל‪ -‬המשתמש יחליט מאופן יזום אם לשתף את המידע‪.‬‬
‫‪ .3‬פרטיות מוטמעת בעיצוב‬
‫‪ .4‬פונקציונליות מלאה‪ -‬סכום חיובי‪ ,‬לא אפס‪ ,‬כלומר שהמערכת תהיה יעילה‬
‫החברה הזו פיתחה כלי מאפשר לשמור תמונות‬
‫וסרטוני ווידאו באופן שמשמר פרטיות (המערכת‬
‫ושימושית ולא תיפגע בגלל שצריך לשמור על הפרטיות (זה הדבר שהכי קשה‬
‫משנה את התמונות של הפנים כל שלא יוכלו‬ ‫ליישם)‪.‬‬
‫לשהות את הפנים בעזרת מערכת לזיהוי פנים)‪.‬‬ ‫‪ .5‬אבטחה מקצה לקצה‬
‫‪ .6‬נראות ושקיפות‪ -‬הסברים קצרים וברורים‪.‬‬
‫‪ .7‬יש לשמור ולכבד את פרטיות המשתמש‪.‬‬

‫חומרת ההפרה היא המפתח להבנה האם יריבים קרובים ייפגעו או יעזרו מהמזל הרע‬
‫של המתחרים שלהם‪.‬‬
‫• ‪ -Spillover effect‬אות פריצה קטנה יותר לכך שגם אחרים בתעשייה עלולים‬
‫להיות חשופים לפריצה‪ .‬כלומר מניחים שאם היה אירוע של פריצת מידע בחברה‬
‫מסוימת אז חברות דומות יכולות להינזק גם הן מהאירוע בטענה שאם זה קרה‬
‫בחברה ‪ X‬זה יכול לקרות גם בחברה ‪.Y‬‬
‫• ‪ -Competitive effect‬פרצת נתונים גדולה יוצרת את הרושם שהחברה שנפרצה היא כמות ייחודית של צרות‪ .‬כלומר אם‬
‫יש אירוע יוצא דופן (פריצה מאסיבית או כשל חמור) אז המתחרים דווקא ירוויחו מהמצב הזה (בטענה שאם אצלם זה לא‬
‫קרה אז הם יותר טובים)‪.‬‬

‫מה אפשר לעשות במקרה הזה?‬


‫• שקיפות‪ -‬להסביר ללקוחות איזה מידע החברה מחזיקה אודותם ואיך היא‬
‫משתמשת ומשתפת את המידע עליהם‪.‬‬
‫• שליטה‪ -‬נותנים ללקוח שליטה על השימוש ושיתוף המידע אודותיו‪ .‬שיטה זו‬
‫מאפשרת ללקוח לחזור ולבטל את הסכמתו לנהלי הנתונים של החברה‪.‬‬

‫הממצאים‪ -‬התברר שציונים טובים במדדים הללו עשויים להגן על החברה מאפקט‬
‫ה‪ .spillover -‬זה תמריץ נוסף שגורם לארגונים להבין ששמירה כנה ואמיתית על‬
‫הפרטיות עשויה לסייע להם כי למשתמשים אכפת והם כן מעריכים חברה שמראה‬
‫שההתנהלות שלה יותר שקופה ובטוחה‪.‬‬
‫נטלי נחמיאס‬ ‫אתיקה וביג דאטה‬
‫רונה פפר‬
‫סמסטר א תשפ"ג‬

‫קאת'י אוניל‪( "The era of blind faith in big data must end" -‬הרצאת ‪ TED‬קצרה)‬
‫מאמנים אלגוריתם בעזרת נתונים שנאספו בעבר ומגדירים מהי הצלחה‪ ,‬כאשר הדעה של האלגוריתם מקודדת בקוד (לעומת‬
‫בני אדם שמחליטים בעצמם מהי הדעה שלהם)‪ .‬כשאנחנו מאמינים באמונה עיוורת על מאגרי הנתונים זה יכול להיות בעייתי‪,‬‬
‫כמו למשל מורה שקיבלה ציון טוב מהמנהל שלה ומהורי התלמידים אולם פוטרה בכל זאת בכלל האלגוריתם‪.‬‬
‫בחברת ‪ FOX NEWS‬הציעו להחליף את מערכת גיוס העובדים באלגוריתם שאמור להתבסס על נתוני העבר ובעזרת המידע‬
‫הזה האלגוריתם מחפש מהי ההגדרה של הצלחה‪ .‬מכיוון שבהינתן המידע הזה לא היו‬
‫"האלגוריתמים מחביאים מידע‬ ‫הרבה נשים שקודמו בחברה יצא מצב שנשים הוצאו מחוץ לאפשרות הקידום והגיוס‪.‬‬
‫בקופסה שחורה ואז עוד קוראים‬
‫לתהליך אובייקטיבי"‪.‬‬ ‫• כלומר יוצא מצב שהאלגוריתם הסתמך על נתוני העבר וכך למעשה שיחזר אותו‪.‬‬

‫הטיות בקבלת החלטות אלגוריתמית‬


‫מערכות האלגוריתמים והבינה‬ ‫המוטיבציה‪ :‬בהתאם להרצאה של קאת'י אוניל ‪ ,‬האלגוריתמים נמצאים בכל מקום‪ ,‬ועוזרים‬
‫המלאכותית‪-‬‬ ‫לנו לקבל החלטות‪ ,‬כאשר לעיתים קרובות מדובר ב"קופסה שחורה" (יש הטוענים שתהליך‬
‫קבלת ההחלטות מורכב ושלא ניתן להסביר אותו‪ ,‬ושיש חברות שלעיתים כלל לא רוצות‬
‫פיתוח המודלים וכוח המחשוב‬
‫שעובד על הכלים האלגוריתמיים‬ ‫לחשוף את האלגוריתם)‪ .‬בנוסף‪ ,‬אנחנו יודעים שהאלגוריתמים יכולים להיות מוטים‬
‫ועלולים לגרום נזק משמעותי לאנשים‪.‬‬
‫מזהם מאוד ופוגע בסביבה!‬
‫• בהרצאה נוספת של קאת'י אוניל היא נותנת דוגמה לאדם שעשה מבחן אישיות כדי‬
‫להתקבל לעבודה ברשת מרכולים אך לא התקבל‪ .‬הוא גילה שהסיבה שלא התקבל‬
‫רק בזכות שלחברו שעובד בחברה הייתה גישה למבחנים וגילה כי לא התקבל לעבודה בגלל שענה בחיוב על שאלה‬
‫שקשורה לבריאות נפשית‪ .‬זאת דוגמה לכך שהחברה לא רוצה לחשוף את האלגוריתם‪ ,‬את הסיבות לקבלה או אי קבלה‬
‫לעבודה‪ ,‬שבמקרה זה התגלו עקב קשרים אישיים שאין לכל מועמד‪ .‬בנוסף בהקשר לעניין זה‪ ,‬החברה למעשה עושה סוג‬
‫של אפליה כלפי אנשים שאולי התמודדו או נתקלו בקשיי נפש ובאמצעות השאלה החברה ידעה ובחרה שלא לקבל אותם‬
‫לעבודה‪ ,‬למרות שמבחינת החוק בארה"ב אסור להם בכלל לכלול שאלות בגנון הזה בעת קבלה לעבודה (כי שאלות מסוג‬
‫זה לא אמורות להטות את הכף בענייני הקבלה לעבודה)‪.‬‬

‫לדוגמה‪ -‬גוגל תרגום‬


‫בטקט שתורגם משפה שאינה מגדרית ניתן לראות הטיה מגדרית‬
‫בתרגום‪ -‬שהמורה היא אישה והרופא הוא גבר‪.‬‬
‫המערכת כנראה ניזונה מטקסטים זמינים שנאספו‪ ,‬והתרגום הוא ככל‬
‫הנראה ע"פ ההסתברות הגבוהה בהסתמך על המידע שעליו מתבסס‬
‫האלגוריתם‪.‬‬

‫דוגמה נוספת‪ -‬זיהוי תמונות‬


‫גוגל תייגה פרצופים של אנשים כהי עור כגורילות‪ ,‬ופייסבוק הציעה‬
‫למשתמשים שלה לראות עוד סרטונים על קופים (אנשים כהי עור)‪.‬‬
‫מובן שיש כאן טעות‪ ,‬כי מערכות זיהוי עצמים ופנים מבוססות בעיקר על‬
‫מאגרי מידע של גברים מערביים לבנים דבר שגורם להן להיות מוטות‬
‫(הטיה בכלל הדאטה)‪.‬‬
‫• באופן כללי נוטים יותר לטעות בזיהוי של אנשים כהי עור‪ ,‬נשים‪,‬‬
‫מלוכסנים (כל אלה שמופיעים פחות במאגרי המידע ולכן לאלגוריתם‬
‫יש פחות מידע שהוא יכול להתבסס עליו כדי לשהות אותם)‪.‬‬

‫אנחנו אמנם יכולים לטעות שאנחנו בראשית עידן הטכנולוגיה הזו ושהיא‬
‫יכולה להשתפר אבל מכיוון שהמערכות הללו כבר בשימוש הדבר בעייתי כל‬
‫עוד הן מוטות‪.‬‬
‫לדוגמה‪ -‬פלסטיני נעצר בארץ כי מערכת אוטומטית שסורקת פוסטים‬
‫בפייסבוק תרגמה פוסט שכתב בו "בוקר טוב" ל‪" -‬תקפו אותם"‪ .‬אמנם‬
‫שיחררו אותו בסוף‪ ,‬אבל הדוגמה הזו רק ממחישה שהמערכות הללו מוטות‬
‫ועושות טעויות ואנשים לא מודעים לכך‪ ,‬שהן לא בהכרח בשלות עדיין ולכן‬
‫אולי צריך להסתכל עליהן בזהירות יתרה‪.‬‬
‫כלומר חשוב לעקוב אחרי מידת הדיוק בפועל בשימוש במערכת ולא להאמין באמונה עיוורת באחוזי הדיוק שהמתכנתים‬
‫מתיימרים לספר עליהם‪.‬‬
‫נטלי נחמיאס‬ ‫אתיקה וביג דאטה‬
‫רונה פפר‬
‫סמסטר א תשפ"ג‬

‫גישת הצדק וההוגנות בהקשר זה‪ -‬אנחנו לא רוצים שההחלטות יהיו‬


‫מפלות בין אוכלוסיות‪ ,‬אלא שיתנהגו לכולם באותה הצורה‪ -‬כלומר‬
‫לבנות אתה מערכת מאחורי "מסך של בורות"‪ .‬אנחנו לא יודעים מי‬
‫יהיה מאחורי המערכת וצריך שהיא תתייחס לכולם באופן שווה‪.‬‬
‫מערכת אוטומטית נשמעת פתרון קלאסי‪ -‬אם מגיע אדם שמשתייך‬
‫למיעוט‪ ,‬האלגוריתם יכול להתעלם מכל מה שנגדיר לו וכך לקבל‬
‫החלטה שלא מתייחסת למידע לא רלוונטי (אבל כמו שגם ראינו‪ ,‬גם‬
‫המערכת האוטומטית יכולה להיות מוטה אם חסר לה מידע או שהיא‬
‫מבוססת על מידע ספציפי ולא מספיק מגוון)‪.‬‬

‫עולה השאלה‪ -‬מה צודק‪ /‬הוגן?‬


‫האם נרצה לתת עדיפות לאוכלוסיות שבאופן טבעי נוטות יותר‬
‫"להידפק" במציאות? האם בכלל כדאי לאפשר אפליה מתקנת?‬
‫(‪ )Equity‬או שיש להתייחס לכולם באופן שווה לחלוטין?‬
‫(‪)Equality‬‬

‫דוגמה שלישית‪Fairness through blindness -‬‬


‫כדי להתקבל לתזמורת באירופה בעבר ניתן היה לגשת‬
‫לאודישנים רק דרך מורי נגינה מסוימים‪ .‬כאשר החליטו‬
‫על אודישנים פתוחים שבהם כל אחד יכול להגיע‬
‫ולהיבחן לתזמורת ראו ששיעור הנשים שהתקבלו היה‬
‫נמוך יותר לאחר פתיחת האודישנים לקהל הרחב‪.‬‬
‫ולכן‪ ,‬החליטו להיות עיוורים למשתנה המגדר וערכו‬
‫אודישנים עיוורים‪ -‬הנגנים נבחנו מאחורי מסך‪ ,‬ואכן‬
‫שיעור הנשים שהתקבלו לתזמורת עלה‪.‬‬
‫אולם עלתה בעיה‪ ,‬אמנם יש מסך שמסתיר את זהות‬
‫הנגנים שנבחנים‪ ,‬אבל נשים רבות עלו לבמה עם נעלי‬
‫עקב שעשו רעש בעת כניסתן לבמה‪ .‬כאשר ביקשו‬
‫מהנשים לעלות יחפות לבמה‪ -‬גם אז עלה שיעור הנשים שהתקבלו‪.‬‬
‫מה זה אומר? גם אם אנחנו מנסים להיות עיוורים לכל מיני משתנים זה לא אומר שהם לא יכולים לחדור למערכת ההחלטה‬
‫שלנו בדרכים עקיפות‪.‬‬

‫דוגמה רביעית‪Apple Card -‬‬


‫לאחר השקת כרטיס האשראי של אפל‪ ,‬הופיעו באינטרנט‬
‫תלונות של נשים שטענו כי קיבלו מסגרת אשראי נמוכה מידי‪.‬‬
‫בביקורת מסוימת ראו כי היה זוג שחולק את כל רכושם‪,‬‬
‫ממלאים דוחות מס ביחד ובעלי חשבון משותף‪ ,‬והגבר עדיין‬
‫קיבל אשראי גדול פי ‪ 20‬מזוגתו‪.‬‬
‫בהתחלה לא ידעו להגדיר ב‪ Apple‬כלום וטענו שזה‬
‫האלגוריתם‪ ,‬ושלא תיתכן אפליה כי הוא נבדק ע"י מומחים‬
‫רבים (הם לא ידעו להסביר למה זאת המסגרת שניתנה באופן‬
‫אוטומטי ע"י המערכת)‪.‬‬
‫נטלי נחמיאס‬ ‫אתיקה וביג דאטה‬
‫רונה פפר‬
‫סמסטר א תשפ"ג‬

‫בהודעה של אפל שיצאה בהמשך הם טוענים כי‪" :‬אנחנו לא‬


‫יודעים מה מינו של האדם או הסטטוס המשפחתי שלו בעת‬
‫הנפקת האשראי‪ ...‬אנחנו בוודאות לא מפלים כי אנחנו מראש‬
‫לא יודעים את המין"‪.‬‬
‫אולם‪ ,‬הסתבר בסופו של דבר שהייתה קבוצה של נשים שהיו‬
‫חסרים להן נתוני אשראי היסטוריים כי האשראי היה על שם‬
‫הגבר‪ ,‬דבר שגרם למערכת לקבוע להן דירוג אשראי נמוך – עקב‬
‫מחסור בנתונים פיננסיים אודותיהן‪.‬‬
‫בדומה לרעשי העקבים או היסטורית הקניות‪ ,‬העובדה שיש מסך לא אומרת שנתון מסוים לא יכול להיכנס ולהשפיע בצורה‬
‫עקיפה‪ .‬ולכן דווקא כדי לבדוק אם קיימת הטיה או שלא‪ ,‬דווקא כן צריך את הפרטים האלה (כמו מוצא‪ ,‬מין וכו') כדי לבדוק‬
‫שהמערכת לא מוטה‪.‬‬

‫דוגמה חמישית‪ -‬מערכת הבריאות‬


‫המערכת נועדה לזהות חולים כרוניים עם מצבים בריאותיים מורכבים‬
‫על מנת לאפשר להם קדימות בתורים‪ ,‬לוודא שיראו רופא בתדירות‬
‫גבוהה‪ ,‬לתת הסברים על תוצאות הבדיקות ולוודא שהם מקבלים את‬
‫התרופות שלהם כדי שמצבם לא ידרדר‪.‬‬
‫המערכת הייתה אמורה להיות תומכת החלטה‪ -‬כלומר לתת דירוג‬
‫ולקבוע מי נמצא בסיכון יותר גבוה‪.‬‬
‫החוקרים קיבלו נתונים מבית החולים וביקשו לבדוק אותם והתברר‬
‫שחולים שחורים מופלים לרעה‪ -‬למרות שהם חולים במידה רבה יותר‬
‫מהחולים הלבנים הם הוצאו מהדירוג (ולכן אנשים שחורים שהיו‬
‫אמורים לקבל טיפול אקסטרה לא מקבלים אותו)‪.‬‬

‫איך נלמד את המערכת לא להפלות? מה מכניסים למערכת שנועדה לזהות עד כמה החולה חולה? יש לנו היסטוריה של אירועים‬
‫בריאותיים שנצברו אבל איך המערכת יודעת לאבחן את מצב החולה‪ ,‬הרי היא לא רופא‪.‬‬
‫• הפתרון הוא לתת למערכת מידע רפואי מתויג‪ -‬נניח לקחת רשימה של בדיקות שנבדקו ע"י גורם אנושים שנתן עליהן ציון‪.‬‬
‫• הבעיה היא שאין לנו דירוג כזה בנתוני העבר‪ ,‬וגם אם נושיב רופא מומחה הוא לא יוכל להצליח לשבת ולתייג מיליוני מקרים‬
‫כדי שלדאטה יהיה על מה להסתמך‪.‬‬
‫יכול להיות אולי שבמקרה הזה זה נעשה ממניעים עסקיים‪ -‬המערכת לא פותחה ע"י רופאים אלא ע"י חברות הביטוח שיש לה‬
‫נתונים אודות העלויות שנבעו לה בשל הטיפולים ההיסטוריים של האדם‪ .‬יכול להיות שחברת הביטוח בכלל רוצה לזהות את‬
‫החולים שגורמים לעלויות גבוהות כדי לטפל בהם ולשמור על בריאותם וכך למנוע מהחברה עלויות כבדות עוד יותר בעתיד‪ .‬מה‬
‫שכן‪ ,‬היא לא לקחה בחשבון חולים שלא נמצאים אצלה במאגר כמו אוכלוסיית השחורים שגם ככה לא באים לקבל טיפול או‬
‫שמראש אין להם ביטוח (כלומר בגלל שאוכלוסיית השחורים מייצרת פחות עלויות אז המשתנה הזה של עלויות בגין טיפולים‬
‫דווקא דפק אותם)‪ .‬ניסו לתקן הוסיפו הסתברות לאירועים בריאותיים בשנה הקרובה‪.‬‬

‫דאטה שלא מתויג היטב הוא דבר נפוץ מאוד‪ .‬היינו חושבים שיעבוד כאן "חוק המספרים הגדולים"‪ -‬על פני מספרים גדולים של‬
‫נתונים הטעויות יתקזזו‪ ,‬אבל זה לא המקרה‪ -‬העובדה שיש הרבה דאטה לא פותרת בעיות‪.‬‬
‫לדוגמה‪:‬‬
‫במערכות של תורים‪ -‬המערכות נבנות במטרה שהרופא לא יהיה בטל מעבודה כי הרופא הוא המשאב היקר ביותר ולא רוצים‬
‫שהרופא יחכה‪ ,‬ולכן התורים דחוסים ‪ -‬הרווחים בין התורים לא תואמים את משך התור האמיתי‪ ,‬כי המערכת יודעת שחלק‬
‫מהאנשים לא יגיעו‪ .‬עדיף שאנחנו נחכה בתור מאשר שהמומחה יחכה לנו מבחינת המערכת‪.‬‬
‫אפשר ממש לדעת מי האנשים שלא מגיעים לתור ‪ -‬אנשים שמאחרים או לא מגיעים "נקנסים" – נדחקים לתורים יותר רחוקים‪,‬‬
‫שעות לא נוחות ועמוסות‪ .‬יש טענות שזה מפלה אוכלוסיות קשות יום‪ :‬למשל אנשים עובדים שתלויים בתחבורה ציבורית‬
‫ועלולים להתעכב‪.‬‬
‫נטלי נחמיאס‬ ‫אתיקה וביג דאטה‬
‫רונה פפר‬
‫סמסטר א תשפ"ג‬

‫דוגמה שישית‪ -‬מערכת ‪COMPAS‬‬


‫המערכת יודעת מה הרקע הפלילי של העצור (משפט‪ ,‬סוג עבירות‪,‬‬
‫מעצרים‪ )...‬וגם מתבססת על שאלון אישיותי שהעצורים מקבלים‬
‫(הבית שבו גדלו‪ ,‬החינוך שקיבלו‪ ,‬נטייה להתעצבן בקלות‪ )...‬השאלון‬
‫שואל שאלות שבית המשפט לא יכול לשאול‪ :‬למשל אם אחד ההורים‬
‫נעצר בעבר‪.‬‬
‫המערכת נותנת דירוג סיכון ‪ -‬סיכון נמוך עד סיכון גבוה‪ ,‬והמטרה‬
‫שלה היא טובה כי יש תלונות רבות בארה"ב על גזענות של שופטים‪,‬‬
‫וגם יש עומס גדול בבתי המשפט‪.‬‬
‫המערכת תומכת החלטה‪ ,‬היא עיוורת לדברים שלא נרצה להתבסס‬
‫עליהם‪ ,‬ולא תקבע אם אדם יישאר במעצר אבל כן תשמש תוספת לשופט‪.‬‬
‫בדקו לאורך שנים מתאם בין דירוג המערכת לבין פשעים שביצעו בשנים שלאחר משפטם‪ ,‬והתברר שהמערכת הייתה מוטה‬
‫באופן ברור נגד שחורים (עולות טענות שגם אם לא נשאל "האם אתה שחור?"‪ ,‬אפשר לזהות זאת על פי שכונות מגורים למשל)‪.‬‬

‫בנוסף‪ ,‬לפעמים מפתחים מערכת במדינה אחת על אוכלוסייה מסוימת אבל בפועל‬
‫משתמשים בה במדינות אחרות עם אוכלוסיות שונות‪ -‬דבר שיכול להשפיע באופן‬
‫שונה ולהוביל לתוצאות שונות‪.‬‬
‫במקרה הזה עשו בדיקה על אנשים רגילים ולא על מומחים ובדקו האם הם ישנו את‬
‫הדעה שלהם בעקבות הדעה של המחשב? המחשב קבע שעץ ‪( A‬השמאלי) הוא‬
‫הכי גבוה‪ ,‬כך שממצב שבו רוב האנשים אמרו שעץ ‪( B‬האמצעי) הכי גבוה‪ ,‬לאחר‬
‫החשיפה לדעת המחשב‪ ,‬רק ‪ 14%‬מהאנשים כעת טענו שעץ ‪ B‬הוא הכי כבוה‪.‬‬

‫אולם אצל מומחים הדבר שונה‪ ,‬הם פחות נוטים לקבל את הדעה של המערכת‬
‫(מכיוון שיש עלות ללכת ולעשות בדיקות לאדם בריא)‪ .‬אם כך‪ ,‬מדוע עדיין מכניסים‬
‫את המערכות הללו? כי הן לא אמורות להחליף את הרופא‪ ,‬אלא שהמטרה שלהן היא לזהות דברים שיכולים להיות בעייתיים‪.‬‬

‫מערכות תומכות החלטה במערכת הרווחה בארה"ב‪-‬‬


‫המערכת נותנת דירוג לפי מידת הסיכון לילד ולפיה מחליטים האם‬
‫להוציא את הילד מהבית בשנתיים הקרובות (על סמך דאטה‬
‫היסטורי) או האם יהיו פניות חוזרות‪.‬‬
‫היו תלונות על כך שהמערכת הזו גזענית‪ -‬נתנו הרבה יותר דירוגים‬
‫גבוהים בקרב משפחות מאוכלוסיות שחורות‪.‬‬
‫ונראה כי כאשר מקבלי החלטות אנושיים עוברים על התוצאות של‬
‫האלגוריתם ומחליטים האם לשנות את ההחלטה אז הפער‬
‫מצטמצם (כנראה בין היתר גם בעקבות העובדה שגורמי המקצוע‬
‫מודעים לכך שכנראה שהמערכת עצמה מוטה)‪.‬‬

‫איך נמדוד הוגנות?‬


‫מפתחי המערכות טוענים שהאלגוריתם יודע לחזות בצורה שווה‪.‬‬
‫נשאלת השאלה מהי הפליה? מה אנחנו רוצים לדאוג שייראה שווה‬
‫בין האוכלוסיות השונות בעיניי המערכת?‬
‫המצב קיים בארה"ב‪ :‬שתי אוכלוסיות עם רמות פשיעה שהן בפועל‬
‫שונות‪ .‬בקרב שחורים יש פשיעה רבה יותר מאשר בקרב לבנים‪.‬‬

‫הסבר השקופית‪ :‬נניח באוכלוסייה אחת זיהנו שלושה עצורים‬


‫כסיכון גבוה‪ ,‬ובאוכלוסייה השנייה זיהנו שישה עצורים כסיכון גבוה‪-‬‬
‫זה בסדר כי באמת יש באוכלוסייה השנייה יותר פשיעה‪.‬‬
‫נטלי נחמיאס‬ ‫אתיקה וביג דאטה‬
‫רונה פפר‬
‫סמסטר א תשפ"ג‬

‫המפתחים טוענים‪ :‬יש לנו שוויון במידת החיזוי באוכלוסיות שונות‪ -‬כי הצליחו לזהות שניים מתוך שישה שאנשים שחזרו‬
‫ופשעו‪ ,‬הצליחו לזהות ארבעה מתוך שישה שחזרו ופשעו‪ .‬כלומר אנחנו מצליחים במידה שווה‪ :‬שני שלישים ושני שלישים‪.‬‬
‫אבל ה‪ false positive -‬הוא פי ‪ ,2‬ובתחומים כאלה אנחנו צריכים להיזהר מה‪ false positive -‬כי אנחנו לא רוצים שאנשים‬
‫יעצרו לשווא‪.‬‬
‫• באוכלוסייה עם הפשיעה הגבוהה יותר‪ 2 :‬מתוך ‪ ,4‬כלומר חצי סווגו כסיכון גבוה על אף שלא היו‪.‬‬
‫• באוכלוסייה עם פשיעה נמוכה יותר‪ 1 :‬מתוך ‪ ,3‬כלומר שליש סווג כסיכון גבוה על אף שלא היו‪.‬‬

‫מתמטית אין לסיטואציה הזו פתרון‪ :‬אי אפשר להגיע למצב של‬
‫שוויון במידת החיזוי וגם להשוות בין ה‪ , false positive -‬כלומר צריך‬
‫להחליט מה עדיף במקרה זה‪.‬‬
‫הגדלת הסף יכולה להביא לחוסר דיוק של המערכת‪ -‬דבר שממנו‬
‫החברות מנסות להימנע‪ .‬כדי להעלות את ה‪ false positive -‬ניתן‬
‫להרים את הסף של אוכלוסיית השחורים אבל אז זה יכול לגרום‬
‫לפספוס בגלל הסף‪ -‬כלומר זה יגרום למערכת להיות פחות מדויקת‪.‬‬

‫הגינות קבוצתית‬
‫מי שמסומן באדום הוא ה‪.false positive -‬‬
‫אם נביט רק בגברים מול נשים נראה שיש שוויון‪ -‬בכל מגדר יש ‪ 3‬מתוך ‪ 16‬שזוהו‬
‫בטעות‪.‬‬
‫אולם אם נביט בתוך הקבוצות נראה שה‪ false positive -‬מתרכז באוכלוסיות‬
‫ספציפיות ויכול להיות שיהיה אי שוויון שיהיה קשה לזהות באוכלוסייה ספציפית‬
‫מסוימת‪.‬‬

‫דוגמה שביעית‪ -‬מערכת לזיהוי פנים‬


‫ההטיות מקבלות חשיבות רבה כשמדובר שנושא של זיהוי‬
‫פנים שימוש בשדות תעופה‪ ,‬מעקבים אחר אנשים וכו')‪.‬‬
‫המחקר של ‪ Gender Shades‬על זיהוי מגדר‪ :‬היה ייצוג‬
‫חסר בנתונים שהחברות מאמנות את אלגוריתמים עליהם‬
‫כך שהמערכות עובדות בצורה טובה יותר על אנשים‬
‫בהירי עור‪ .‬המערכת לא זיהתה שיש בכלל מולה פנים‬
‫כשמדובר בפנים שחורות ואף כשהנבדקת עטתה מסיכה‬
‫לבנה פשוטה המערכת זיהתה שיש מולה פנים‪.‬‬
‫מערכות אחרות שכן זיהו שיש מולן פנים‪ ,‬לא זיהו שמדובר‬
‫באישה‪.‬‬
‫מאיסוף הנתונים במחקר עלה כי המערכת מזהה בצורה‬
‫המערכת מזהה פחות טוב אנשים שחורים כי‬ ‫טובה יותר גברים‪ ,‬ומזהה בצורה טובה יותר אנשים לבנים‬
‫הדאטה עליו היא אומנה חסר נתונים‪.‬‬ ‫(כלומר נשים שחורות הן אלה שנפגעות הכי הרבה בקבוצה)‪.‬‬

‫יש מחקרים על תחומים שנהפכו להיות מנוהלים בעיקר‪ ,‬אם לא רק‪ ,‬ע"י אלגוריתמים‪ .‬דוגמה לכך היא מערכות שעוזרות לחברות‬
‫לסנן עובדים פוטנציאלים לעבודה (בעיקר בחברות גדולות)‪.‬‬
‫• המניע הראשוני הינו להקל על המערכת‪.‬‬
‫• המניע השני‪ -‬לוודא שהמערכת לא תהיה מוטה‪.‬‬
‫איך אפשר לוודא שהמערכת הזו עושה עבודה טובה? ניקח את הנתונים על העובדים שכבר קיבלנו לעבודה ונראה מי מהעובדים‬
‫שהתקבלו נחשבים לעובד מוצלח‪ .‬אולם זה סובייקטיבי כי זה תלוי איך מגדירים הצלחה‪ ,‬וזה עלול גם לגרום להטיה אם לא‬
‫קיבלנו בעבר מספיק נשים לעבודה‪ -‬כך שהמערכת תהיה מוטה עקב דאטה חסר ולא תחשיב נשים כבעלות פוטנציאל להצליח‪.‬‬
‫נטלי נחמיאס‬ ‫אתיקה וביג דאטה‬
‫רונה פפר‬
‫סמסטר א תשפ"ג‬

‫המקרה של אמזון‪:‬‬
‫המערכת שאמזון פיתחה לעצמה התבססה על מידע מ‪10‬‬
‫השנים האחרונות ומכיוון שבאותה התקופה לא היו הרבה נשים‬
‫שאמזון קיבלה לעבודה אז זה יצר הטיה במערכת‪ .‬ממה יכולה‬
‫לנבוע הטיה?‬
‫• ייצוג חסר של האוכלוסייה בנתונים‬
‫• אפליה לגבי האוכלוסייה‬

‫יש כלים שמנסים לנכות את הבעייתיות ולמנוע הטיה מהנתונים‬


‫אבל זה בעייתי כי גם אם מסירים את השם ו‪/‬או המין עדיין ניתן‬
‫יהיה לאתר בעזרת גורמים אחרים (כמו למשל קולג' או מסגרות‬
‫אחרות שמזוהות עם נשים)‪.‬‬

‫חברת ‪ Hirevue‬היא חברה מסחרית שמפתחת תוכנות‬


‫לגיוס עובדים‪ .‬החברה מנסה לעשות את זה בצורה חכמה‬
‫ע"י שאלונים‪ ,‬משחקים מרחוק‪ ,‬שיחות וידאו וכו'‪ .‬ובין‬
‫היתר היא גם פיתחה כלי שמנתח ראיונו וידאו ומנסה‬
‫לזהות על סמך תווי הפנים מי יהיה עובד טוב ומי לא (על‬
‫שמך השוואה של הנתונים וציונם לעובדים אמיתיים‬
‫בחברה שנחשבים לעובדים טובים)‪.‬‬
‫היתרונות‪:‬‬
‫• מהיר‬
‫• מאפשר גישה מרחוק‬
‫• חסכון במשאבי אנוש‬
‫• טוענים שזה אובייקטיבי‬

‫החסרונות‪:‬‬
‫• מתבסס על נתוני עבר‬
‫• יכול להיות מוטה נגד אוכלוסיות שלא היו מיוצגות מספיק ב‪ data‬הקיים‪.‬‬
‫• אחת הבעיות שעלתה בסרטון היא שברגע שהכלים נכנסים לשימוש זה קורה הרבה חברות ומי שלא עובר את הראיונות‬
‫האלה יכול לא לעבור את הרעיונות במספר חברות שמשתמשות באותה מערכת שדחתה אותם (לעומת אנשים שיכולים‬
‫לנסות את מזלם מול מראיין אנושי ובסופו של דבר כן להתקבל לעבודה)‪.‬‬
‫• טענה נוספת בכלי‪ -‬העדר השקיפות‪ .‬היינו רוצים לדעת שאנחנו יודעים מהן הכישורים הנדרשים מאיתנו כדי להתקבל‬
‫לעבודה‪ -‬כלומר שהתהליך יהיה שקוף‪.‬‬
‫• גם כשהכלים נבדקים טוב במהלך הפיתוח עדיין יכול להיות מצב שכאשר המערכת מוטמעת לא תמיד בודקים את‬
‫ההחלטות שלה ולראות אילו טעויות נעשו כדי ללמוד מהן‪.‬‬

‫בהחלט יתכן שמנהל כלל לא יטרח לצפות בסרטון של עובד שקיבל מהמערכת ציון נמוך‪ ,‬והמנהלים מודאגים שהכלים הללו‬
‫מוטים‪ ,‬לא שקופים ולא מדויקים‪.‬‬
‫הרבה חברות משתמשות בטכנולוגיה הזו בארה"ב והבעיה שיכולה להיווצר היא שמי שלא התקבל לעבודה בחברה מסוימת‬
‫עלול גם לא להתקבל לעבודה בחברות אחרות (במיוחד אם נעשה שימוש באותה המערכת)‪.‬‬

‫בנוסף‪ ,‬הציגו חברה שמנתחת את הרשתות החברתיות של המועמדים‪ -‬מערכת שמייצרת פרופיל לפי המידע שברשתות‬
‫החברתיות ונותנת ציון‪ .‬מה הבעיה בכך? מי שפחות משתתף ברשתות החברתיות יכול להיפגע מכך‪ .‬ובנוסף‪ ,‬ברשתות‬
‫החברתיות יש הרבה מידע שלא אמור להיות רלוונטי לצורך הקבלה לעבודה‪ ,‬וזה דווקא מעלה את המסך שאמור להיות לפי‬
‫שיטת ההוגנות בקבלת החלטות עיוורת‪.‬‬
‫נטלי נחמיאס‬ ‫אתיקה וביג דאטה‬
‫רונה פפר‬
‫סמסטר א תשפ"ג‬

‫?‪objective or bias‬‬
‫הנבדקת חזרה כמה פעמים על הראיון באותה‬
‫הצורה‪ ,‬ובהמשך שינו את הופעתה כשלבשה צעיף‬
‫או משקפיים וראו שהתקבלו תוצאות שונות‪.‬‬
‫גם בניסוי הזה אין שקיפות כי יש כל כך הרבה‬
‫גורמים שאנחנו לא יכולים לדעת שמשפיעים על‬
‫קבלתנו לעבודה (למשל איכות הוידאו)‪.‬‬

‫מה הפתרון שאנחנו צריכים להציע? שהמערכת תתקן את עצמה‪ ,‬כמו להוסיף עוד ‪( data‬כמו למשל אותו אדם ששם על עצמו‬
‫צעיף או שיער אסוף כך שהמערכת תדע לזהות את מאפייני האישיות מעבר לנראות)‪.‬‬

‫בארגונים ציבוריים אחרי זמן נותנים לחוקרים לבדוק את ביצועי המערכת ואז מגלים שהביצועים שלה בפועל רחוקים‬ ‫•‬
‫להיות ממה שהצהירו לגביה‪.‬‬
‫בניו יורק יש חוק שאם משתמשים במערכת ‪ AI‬לצורך גיוס עובדים אז החברה צריכה לוודא שקיפות‪ ,‬איך התהליך‬ ‫•‬
‫מתנהל‪ ,‬מה נדרש ויכול להשפיע על המועמדים וכו'‪.‬‬

‫גם למשטרה יש כלים שמנסים לחזות התנהגות או אירועים של‬


‫אנשים‪.‬‬
‫בדוגמה זו‪ :‬מערכות שעוזרת לזהות אזורים של פשיעה חמורה‪,‬‬
‫והמשטרה משתמשת בכוחות הללו כדי לדעת איך לפרוס את‬
‫הכוחות שלה‪.‬‬
‫התלונות על כך‪:‬‬
‫• שולח את השוטרים לשכונות מיעוטים‪.‬‬
‫• המערכת לא עוזרת למשל לזהות עסקאות סמים באזורים‬
‫עמידים יותר‪.‬‬
‫• הטענה העיקרית שהמערכות הללו לאו דווקא מתבססות‬
‫על פשיעה (זה ‪ data‬על מעצרים ואולי בכלל מישהו נעצר סתם)‪.‬‬
‫• זה יוצר סוג של לופ‪ ,‬לולאה‪ ,‬כי שולחים יותר שוטרים למקומות של פשיעה‪ ,‬ואז אם יש יותר שוטרים יש יותר סיכוי‬
‫להיתפס דבר שמגביר את תיעוד הפשיעה באותו האזור‪.‬‬

‫בארץ המשטרה משתמשת במערכת שיכולה להקפיץ כל אחד שחוזר‬


‫מחו"ל כמי שחשוד בסחר בסמים (על בסיס מידע עבר)‪ .‬המערכת‬
‫בניגוד השוטרים לא יכולה להסביר מהן הסיבות שבגינן השוטר היה‬
‫חושב שיש לעצור את אותו האדם‪ .‬בנוסף‪ ,‬מערכת המשפט חוששת‬
‫שאותם אנשים חשודים שעלו במערכת עלולים להישאר שם ובכך‬
‫לפגוע בהם‪.‬‬

‫החברה בנתה כלי שמספקים למערכות בריאות‪ -‬הכלי נותן‬


‫רמת דירוג לסיכוי שאדם יכול לפתח התמכרות למשככי‬
‫כאבים‪.‬‬
‫אולם לא ברור איך ההחלטה מתקבלת על סמך המידע (חוסר‬
‫שקיפות)‪ -‬שהמערכת תיתן ציון נמוך ואז הרופא לא יאשר את‬
‫המרשם למרות שהוא כלל לא יודע את הסיבה‪.‬‬
‫נטלי נחמיאס‬ ‫אתיקה וביג דאטה‬
‫רונה פפר‬
‫סמסטר א תשפ"ג‬

‫הגורמים להטיות ודרכי התמודדות‬


‫הבעיות‪:‬‬
‫בעיות השקיפות הן הבעיות המרכזיות בקבלת‬ ‫• הטיות‬
‫החלטות בצורה זו (איך הכלי עובד‪ ,‬איך הכלי למד‬ ‫• שקיפות‬
‫לקבל החלטות)‪.‬‬ ‫• טעויות‬

‫אם אנחנו בנק היינו רוצים לדעת האם אדם הוא כזה שמחזיר‬
‫הלוואות‪ .‬אבל בפועל אנחנו לא יודעים אם הוא אדם כזה‪ ,‬אלא רק‬
‫יודעים אם הוא החזיר בעבר‪.‬‬
‫זה יכול להשפיע עלינו כי זה יכול ליצור הטיה‪ ,‬המדגם פחות טוב‬
‫ואולי לא מייצב מספיק‪ ,‬ואולי עצם זה שאנשים לא קיבלו הלוואה‬
‫(חוסר במידע אודות אותם אנשים) יכול לפגוע בקבלת החלטה‬
‫נכונה‪.‬‬
‫כלומר אנחנו רוצים מדגם יותר מדויק שמייצג את כל מה שרלוונטי‬
‫אולם בפועל לא ניתן לאסוף את המדגם הכי טוב ומלא‪.‬‬

‫איך נראה התהליך של למידת מכונה?‬


‫מהי בינה מלאכותית? כל כלי‪ /‬שיטה שמנסה לדמות את‬
‫אופן קבלת ההחלטות של האדם (איך הוא חושב או מרגיש)‪.‬‬

‫‪ :Ruled-based‬יש לזכור שזה לא תמיד היה מבוסס ‪,data‬‬


‫אלא כל מיני שיטות וחוקים אחרים שמנסים לדמות איך בן‬
‫אדם חושב ומחליט‪.‬‬
‫• לדוגמה‪ :‬משחק החיים של ‪ .Conway‬המשחק‬
‫מתנהל על רשת משבצות‪ ,‬וכל משבצת היא באחד‬
‫משני המצבים "חי" או "מת"‪ .‬הקביעה האם תא הוא‬
‫חי או מת מתבססת על פי כללים מוגדרים מראש‪.‬‬

‫‪ :Machine learning‬ברגע שאספנו יותר נתונים אז הכלים הפכו ללמידת מכונה‪ -‬מלמדים מכונה באמצעות מאגרי מידע‬
‫קודמים‪.‬‬
‫‪  Neural network‬רשתות נוירונים‪ .‬הן יכולות להיות‪:‬‬
‫• ‪ -Supervised‬אנחנו קובעים מה אנחנו מנסים לחזות‪ ,‬לסווג (מהו משתנה המטרה)‪.‬‬
‫• ‪ -Un-supervised‬נותנים למערכת למצוא משהו מבלי להדריך אותה ולתת לה מטרה לזיהוי (פחות שכיח)‪.‬‬

‫בגדול כל מה שמופיע בסגול זה החלטות של אנשים‪.‬‬


‫האפור‪ -‬זה החלטות שהמכונה קבעה (בהנחה שהמכונה‬
‫אובייקטיבית ולא בשליטתנו)‪.‬‬
‫האנשים הם אלו שמביאים את ה‪( data‬והרי אמרנו שה‪ data‬יכול‬
‫להיות בעייתי‪ -‬מוטה‪ ,‬בעל הטיות‪ ,‬בעל הפליה)‪.‬‬
‫עושים חלוקה של הנתונים ואז ב‪ data‬שאנחנו נותנים למערכת‬
‫ללמוד עליו אנחנו מראים לה מה הקלט ורואים מהו הפלט שלה‪.‬‬
‫זה לא תמיד אובייקטיבי‪ ,‬כי הקלט שלפיו המערכת עושה את‬
‫הבדיקות הוא לא בהכרח הנכון (כמו האם גם הפלט יכול להיות לא‬
‫טוב מכיוון שיכול להיות שהכנסנו משתנים מסבירים לא טובים או‬
‫משתנים מוגנים שלא אמורים לשנות את ההחלטה‪ .‬מצד שני‪ ,‬אולי אם נכניס את אותם המשתנים המוגנים זה יעזור דווקא‬
‫להסיר את ההטיות שמידע‪.‬‬

‫איך אנחנו מחליטים להעניש על טעויות שונות?‬


‫האם אנחנו רוצים את הטעות האופטימלית או שנעדיף לשלם ולהגדיל קצת את הטעות אבל למנוע אפליה של אוכלוסיות‪.‬‬
‫נטלי נחמיאס‬ ‫אתיקה וביג דאטה‬
‫רונה פפר‬
‫סמסטר א תשפ"ג‬

‫השלבים המרכזיים בהטיית ‪:AI‬‬


‫‪ .1‬מסגור הבעיה‪ -‬הקושי להחליט מה רוצים שהאלגוריתם ישיג‪.‬‬
‫‪ .2‬איסוף הנתונים‪ -‬נתונים שלא מייצגים את המציאות או נתונים שמשקפים דעות קדומות קיימות‪.‬‬
‫‪ .3‬הכנת הנתונים‪ -‬בחירת התכונות שאנחנו רוצים שהאלגוריתם ישקול‪.‬‬

‫האתגרים בתיקון הטיית ‪AI‬‬


‫‪ .1‬אלמוניים לא ידועים‪ -‬ברגע שההטיה צצה קשה לזהות רטרואקטיבית מאיפה היא באה ואז להבין כיצד לטפל בה‪.‬‬
‫‪ .2‬תהליכים לא מושלמים‪ -‬מחלקים את הדאטה לקבוצת אימון וקבוצת אימות‪ ,‬אבל בפועל מאמנים את האלגוריתם על‬
‫מידע שמכיל את אותן ההטיות כמו המידע שעליו הוא אומן‪.‬‬
‫‪ .3‬חוסר הקשר חברתי‪ -‬מאמנים אלגוריתם בסביבה ‪ X‬ובמצעים אותו על סביבה שונה לגמרי ‪.Y‬‬
‫‪ .4‬ההגדרות של הגינות‪ -‬יש הרבה הגדרות מתמטיות להוגנות שסותרות זו את זו‪.‬‬

‫הרצאת אורח‪ -‬הילה ליפשיץ‬


‫‪ -AI‬הקדמה‬
‫צפינו בסרטון של תזמורת מנגנת ולאחר מכן צפינו בסרטון של זמרת שרה‪ .‬נשאלנו מה ההבדלים‪ ,‬אלו הנקודות שעלו בדיון‬
‫בכיתה‪:‬‬
‫• הזמרת שרה באופן "מכונתי" יותר (עם קטיעות ו"גליצ'ים")‬
‫• הבעת הפנים שלה בקליפ הייתה מקובעת‪ ,‬עיניים קצת רובוטיות‬
‫• מאמץ בהפקה‪ :‬הפקה ממוחשבת שיתכן שנוצרה בידי אדם אחד‪ ,‬לעומת תזמורת שלמה שמנגנת‬

‫ד"ר ליפשיץ אמרה לגבי התזמורת‪ :‬ניגנו יצירה שלא כתב בן אדם‪ ,‬ההלחנה הייתה של ‪( AI‬בקליפ שראינו הזמרת עצמאית יצרה‬
‫את הקליפ‪ ,‬הזמרת כתבה את המילים ו‪ AI-‬הלחין אותן)‪.‬‬

‫מה כלי ה‪ AI-‬עשו למוזיקאים?‬


‫הוויכוח בספרות הוא של אוטומציה מול אוגמנטציה ‪-‬‬
‫• אוטומציה )‪ -(Automation‬מחליף את בני האדם‪ ,‬כמו בדוגמת התזמורת‪Human .‬‬
‫• אוגמנטציה )‪ -(Augmentation‬אני כבן אנוש "קטן" יותר מבן אנוש ‪ +‬מכונה (אני יכול יותר כשאני נעזר בכלי ה‪,)AI-‬‬
‫כמו דוגמת הזמרת‪Human < Human + AI .‬‬

‫דיון בכיתה ‪ -‬מקצועות שונים וכלי ה‪:AI-‬‬


‫• נהגים ‪ -‬אם העולם מתקדם לכיוון מכוניות אוטונומיות‪ ,‬נהיגה יהפוך להיות משהו שלא נעסוק בו‪.‬‬
‫אולי נעסוק בנהיגה רק כתחביב בעתיד‪ .‬בנהיגה המטרה היא רק להגיע מנקודה ‪ A‬לנקודה ‪ B‬בבטיחות ‪ -‬לא מקצוע‬
‫מדיד כמו הוראה‪.‬‬
‫• מורים ‪ -‬היינו מעדיפים ללמוד מבן אנוש? קשה למדוד את איכות הלמידה‪ .‬אין פה ‪ - right or wrong‬אולי זה נכון‬
‫להשתמש בכלי ‪ AI‬למקצועות כמו מתמטיקה או סטטיסטיקה אבל פחות מתאים למקצועות כמו פילוסופיה? כל תלמיד‬
‫שונה ‪ -‬כלים ממוחשבים יכולים לסייע לכל תלמיד להתקדם בקצב מותאם אליו‪ ,‬יהיה חינוך מותאם אישית‪ .‬מובן‬
‫שמורה אנושי לא יכול לבנות ל‪ 50-‬תלמידים במקביל תוכנית לימודים‪.‬‬
‫• בנקאות ‪ -‬ייתכן שיהיה ניתן להחליף תפקידים פיננסיים אנושיים רבים בכלי ‪.AI‬‬

‫‪:Opacity and black boxed AI‬‬


‫שלושה סוגים של ‪:AI‬‬
‫• קופסה שחורה ‪ -‬אין יכולת בכלל להבין מה הקוד‪ .‬אי אפשר להבין מה גרם לקוד לתת תחזית מסוימת‪ .‬רוב ה‪ AI-‬היום‬
‫בנוי בקופסה שחורה‪ .‬יש דיון רחב בעולם אם יש לנו זכות ל‪ AI-‬פחות "אטום"‪ .‬המערכת שלמדנו עליה‪ ,‬בארה"ב‪,‬‬
‫שקובעת מסוכנות של פושעים היא קופסה שחורה למשל‪.‬‬
‫• יש היום ‪ - explainable AI‬עם שכבה נוספת שאפשר לשאול עליה שאלות‪ .‬שכבה שאפשר לתקשר איתה ‪ -‬נניח‬
‫באלגוריתם לגיוס עובדים‪ ,‬נוכל לשאול את המערכת למה לא לגייס את עובד מסוים? ונוכל לקבל תשובה‪ :‬כי ‪.X Y Z‬‬
‫• יש גם ‪ AI - interpretable AI‬שניתן לפרשנות‪.‬‬
‫נטלי נחמיאס‬ ‫אתיקה וביג דאטה‬
‫רונה פפר‬
‫סמסטר א תשפ"ג‬

‫המחקר של ד"ר ליפשיץ‪ :‬איך מתמודדים עם קופסה שחורה בהחלטות קריטיות?‬


‫מחקר שטח‪ -‬עוזרי מחקר ישבו מאחורי רופאים באחד מבתי החולים הטובים בארה"ב‪ ,‬ותיעדו את קבלת ההחלטות של‬
‫הרופאים אם לשלוח מטופל לביופסיה או לא‪.‬‬
‫היתרון במחקר שדה‪ :‬נכנסים‬ ‫• בחנו מעל ‪ 1,000‬מקרים בשנה‪.‬‬
‫לעומק של הדברים ‪ -‬מקבלי‬
‫החלטות אמיתיים‪.‬‬ ‫התהליך‪:‬‬
‫רופא מסתכל על צילום ומקבל החלטה‪.‬‬ ‫•‬
‫‪ AI‬בוחן את הצילום‪ ,‬מסמן אזורים בעייתיים בצילום ומקבל החלטה‪.‬‬ ‫•‬
‫בודקים אם ההחלטות של הרופא ושל ה‪ AI-‬זהות‪.‬‬ ‫•‬
‫הרופא בסוף מחליט כיצד להמשיך לפעול‪.‬‬ ‫•‬

‫ממצאים ‪ -‬סרטן השד‪:‬‬


‫• ברוב המקרים (מעל ‪ )60%‬היה חוסר הסכמה בין הרופא ל‪.AI-‬‬
‫• רופא בוחן את המקרה‪ ,‬ולאחר דקה בממוצע מקבל החלטה‪.‬‬
‫• במקרים הפשוטים ‪ -‬כשיש הסכמה‪ ,‬הרופאים העידו שלא עוזר להם השימוש ב‪ ,AI-‬וזה סתם עוד צעד מיותר‬
‫ו"מעצבן" מבחינתם‪.‬‬
‫• במקרים שאין הסכמה בין ה‪ AI-‬לרופא‪ :‬כשהרופא חשב שזה סרטן‪ ,‬וה‪ AI-‬חשב שזה לא סרטן ‪ -‬הרופאים העידו שזו‬
‫אחריותם לשלוח להמשך טיפול‪.‬‬
‫• כשהרופא אומר שמדובר בסרטן וה‪ AI-‬אמר שלא מדובר בסרטן ‪ -‬הרופאים במרבית המקרים התעלמו מההחלטה‬
‫של ה‪ .AI-‬והדגישו שהם כועסים שהתוכנה מסמנת חלקים בצילום מבלי להסביר למה הם בעייתיים‪.‬‬

‫נדגיש‪ ,‬זו אוגמנטציה‪ :‬הכלי הוא תומך החלטה בלבד‪ ,‬הרופא הוא מקבל ההחלטה בפועל‪ ,‬אבל הרופאים לא מרגישים‬
‫שההחלטות שלהם משתפרות בשימוש ב‪.AI-‬‬

‫ממצאים ‪ -‬סרטן ריאות‪:‬‬


‫• כל מקרה נבחן על‪-‬ידי רופא במשך ‪ 2-3‬דקות (יותר ממקרה של סרטן שד)‪.‬‬
‫• הרופאים שוב כעסו במקרים של אי‪-‬הסכמה בינם לבין התוכנה‪ :‬הרופאים ביקשו לחקור את ה‪ ,AI-‬ניסו לחזור‬
‫לצילומים‪" ,‬לשחק" עם הגוונים על המסך‪ ...‬הרופאים היו ‪ ,engaged‬וביקשו להבין למה התוכנה הצביעה על קיומו‬
‫של סרטן‪.‬‬
‫יש פה אינטראקציה‪ :‬הרופא מנסה להבין את התוכנה‪ ,‬ומשקיע יותר מזמנו‪.‬‬
‫אנחנו מבינים שהרופאים עשויים לשנות את ההחלטות שלהם באמצעות ה‪.AI-‬‬
‫• למה הרופאים ניסו לחקור את התוכנה במקרה של סרטן ריאות ולא במקרה של סרטן שד?‬
‫‪ o‬הרופאים פקפקו בעצמם‬
‫‪ o‬ביופסיה היא יותר מסוכנת במקרה של סרטן ריאות ‪ -‬יותר פולשנית‬
‫‪ o‬אולי מדובר ב"אווירה" במחלקות השונות‬

‫מה אפשר לקחת מכאן לארגונים בעתיד?‬


‫‪ .1‬אוגמנטציה‪ :‬למי המערכת עשתה טוב? לרופא? אין לו פידבק הרי מהמערכת‪ .‬לא ברור אם באמת עושה אוגמנטציה‪.‬‬
‫ההנחה שאוגמנטציה היא חיובית היא שקרית‪ ,‬צריך לדבר על אינטראקציה בין בן אדם למכונה ולא להניח ישירות שמדובר‬
‫בכלים שישפרו את חיינו‪.‬‬
‫• צריך כלים יותר טובים‪ ,‬אבל הם כרגע נבנים בצורה שטחית ובעלי מקצוע רבים לא יכולים להפיק שימוש טוב בהם‪.‬‬
‫‪ - Engaged or unengaged .2‬מעורבות של אנשי המקצוע במערכות‪ .‬להציף כשלים בהן‪ ,‬לנסות לחקור את הקוד‪...‬‬

‫‪ .3‬מה נכון לעשות מבחינת ה"אטימות" של ה‪ ?AI-‬האם נכון וראוי שבתי חולים ישתמשו ב‪ AI-‬שהוא קופסה שחורה? או‬
‫שנדרשת רגולציה בנושא? אפשר לשנות את המערכת?‬
‫‪ .4‬בקורונה ‪ -‬כלי ‪ AI‬רבים נכנסו לבתי חולים‪ ,‬כלים שממליצים על פרוטוקול טיפולי‪.‬‬
‫• ספק גדול אם הכלים האלו מועילים כפי שלמדנו בהרצאה‪ .‬הקורונה היא מחלה חדשה ‪ -‬רופאים ביקשו כלי שיסייע‬
‫להם להחליט‪ ,‬אבל חסר דאטה‪.‬‬
‫‪ .5‬בעתיד‪ :‬לאנשי מקצוע לא בהכרח תהיה בחירה‪ ,‬ה‪ AI-‬יהיה מסביבנו‪.‬‬
‫נטלי נחמיאס‬ ‫אתיקה וביג דאטה‬
‫רונה פפר‬
‫סמסטר א תשפ"ג‬

‫הערות של רונה אחרי ההרצאה‪:‬‬


‫מודעות וחינוך ‪ -‬בקורסים‪ ,‬בהכשרות‪ ,‬באקדמיה ובחברות‪...‬‬ ‫•‬
‫צריך להשתדל להביא דוגמאות כמו שלמדנו לידיעה רחבה‪ .‬אסור‬
‫לקבל את הדברים בצורה מתלהבת ועיוורת‪.‬‬
‫גיוון ‪ -‬גיוון של כוח אדם‪ .‬מועסקים אנשי פילוסופיה רבים‬ ‫•‬
‫בחברות ‪ -‬התחרות גורמת לחברות לרצות שלא יאשימו את‬
‫המוצר שלהן בהפליה או חוסר דיוק‪ .‬יש משמעות להיבטי‬
‫הפרטיות ‪ -‬חברות ששומרות על מדיניות פרטיות טובה‬
‫ואפקטיבית נשכרות מכך (צריך שמהנדסים יבינו רגולציה של‬
‫משפטנים ושמשפטנים יוכלו לתרגם רגולציה למהנדסים)‪.‬‬
‫בקרה ‪ -‬כל מיני כלים טכניים לבדוק את איכות המערכת‪.‬‬ ‫•‬
‫אפשר לרדת אפילו לרמה של לראיין את האנשים שפיתחו‬
‫את המודל ולהבין אם הם יודעים מה הם עשו‪.‬‬

‫ניטור ‪ -‬גם כלי טכני‪ .‬בודקים את הדאטה ב"לייב"‪.‬‬ ‫•‬

‫רגולציה ‪ -‬יש בישראל טיוטה ראשונית של רגולציה‬ ‫•‬


‫בתחום הבינה המלאכותית‪ ,‬והיא עוד "פתוחה"‬
‫וגמישה‪ .‬חשוב שהיא "פתוחה" כי לא נרצה להגביל‬
‫חדשנות וטכנולוגיה בצורה שיהיה קשה לתקן בעתיד‪.‬‬
‫מאוד חוששים לפגוע בארגונים ובקדמה‪.‬‬
‫הרגולציה דורשת מעקב רציף על המערכת‪ ,‬ולערוך‬
‫עליה ביקורות שוטפות תוך כדי העבודה עליה‪.‬‬

‫אנחנו לא רוצים שההחלטות יהיו מוטות‪ ,‬לא‬ ‫‪o‬‬


‫ישפיעו לרעה על אנשים‪.‬‬
‫אנחנו רוצים שהמערכות הציבוריות שלנו יהיו‬ ‫‪o‬‬
‫יעילות‪ :‬שמערכת המשפט לא תעבוד בסחבת‪,‬‬
‫החלטות מהירות‪...‬‬
‫אנחנו רוצים להגביר את אמון הציבור בשימוש‬ ‫‪o‬‬
‫במערכות האלו‪.‬‬
‫נטלי נחמיאס‬ ‫אתיקה וביג דאטה‬
‫רונה פפר‬
‫סמסטר א תשפ"ג‬

‫יש כל מיני גישות שאומרות שנחלק את הרגולציה לפי רמות‬


‫סיכון (בהחלטות קריטיות ‪ -‬כמו המחקר על הרופאים‪ ,‬נדרוש‬
‫מערכות שקופות יותר)‪ .‬הרגולציה באירופה מתבססת על‬
‫גישה זו‪.‬‬

‫בניו‪-‬יורק יש למשל חוק שמחייב גילוי למועמד שמערכת‬


‫אוטומטית תחליט על גיוסו לעבודה‪ ,‬וגם לספק רשימת‬
‫קריטריונים למועמד‪.‬‬

‫ניתן לזהות ‪ 3‬מגמות מרכזיות ברגולציה האירופאית‪:‬‬


‫‪ .1‬תזכיר ההשפעה האלגוריתמית (‪)IA for AI‬‬
‫דרישה לעריכת תסקיר הערכת סיכוני ה‪ AI-‬ובו ‪ 2‬חלקים‪:‬‬
‫‪ o‬תיאור ברור של הסיכונים שמייצרת כל מערכת ‪.AI‬‬
‫‪ o‬תיאור ברור של האופן שבו מטופל כל סיכון‪.‬‬

‫‪ .2‬אחריות ואי תלות (כלומר מי שבודק את המערכת לא יהיה מי שפיתח אותה)‬


‫‪ o‬דרישה לאי תלות בין המפתחים והגורמים שמעריכים את הסיכונים במערכת‪.‬‬
‫‪ o‬מרכיב מרכזי כמעט בכל המסגרות של הרגולציה על ה‪.AI -‬‬
‫‪ o‬בעיקר במקרים של סיכון גבוה‪ -‬מומלץ לארגונים להעסיק מומחים חיצוניים לעריכת התסקירים‪.‬‬

‫‪ .3‬בדיקה שוטפת של מערכות ה‪AI -‬‬


‫הסיכונים בבינה המלאכותית גדלים ומשתנים לאורך זמן‪ ,‬ולא ניתן לסיים את הטיפול בהם בנקודת זמן אחת‪ ,‬ולכן‬
‫הרגולטורים מדגישים שניהול הסיכונים הינו תהליך מתמשך‪.‬‬

‫היבטים אתיים של ניסויים דיגיטליים ושל פרסום דיגיטלי‬

‫בקורס אנחנו מתייחסים בעיקר לניסויים הדיגיטליים שאנחנו כלל לא מודעים‬


‫שאנחנו לוקחים בהם חלק‪.‬‬
‫אם נסתכל על כך כניסויים בבני אדם האם צריך להתייחס אליהם ולנתר אותם?‬

‫הניסוי שעשו בפייסבוק‪:‬‬


‫לקחו קבוצה גדולה של משתמשים והסירו לחלקם פוסטים חיוביים‪,‬‬
‫ולחלקם שליליים ובחנו את הפוסטים שאותם אנשים פרסמו אח"כ‪.‬‬
‫הצליחו להראות ש"הרגשות" מדבקים גם מרחוק‪ ,‬כלומר לא רק‬
‫במפגש פיזי עם אנשים‪.‬‬
‫כנראה שפייסבוק רצתה להתייחס לטענה שאנשים סובלים כשהם‬
‫רואים אנשים אחרים נהנים ע"י כך שהם דווקא כן נעשים שמחים‬
‫יותר כשהם נחשפים לפוסטים חיוביים‪.‬‬
‫בניגוד לכל המחקרים‪ ,‬התוצאות של המחקר של פייסבוק פורסמו‬
‫(ואם הם לא היו מפורסמים כנראה שלא היינו יודעים על כך)‪.‬‬

‫במחקר של ‪ LinkedIn‬פרסמו את התוצאות לאחד ‪ 5‬שנים בכתב עת‪ ,‬והעלו ביקורת על כך שהניסוי לא קיבל את אישור‬ ‫•‬
‫וועדת האתיקה לניסויים באקדמיה‪.‬‬
‫נטלי נחמיאס‬ ‫אתיקה וביג דאטה‬
‫רונה פפר‬
‫סמסטר א תשפ"ג‬

‫כדי שהניסוי יהיה מבוקר היטב צריך ליידע את הנסיינים‪ ,‬לקבל את אישורם והסכמתם‪ ,‬לשמור על הפרטיות שלהם וכו'‪.‬‬
‫במקרה של הניסוי של פייסבוק ההסכמה של המשתתפים ניתנה בעת רישומם לרשת החברתית (שהם מאשרים להשתתף‬
‫בניסויים עתידיים)‪ ,‬אך זה לא אומר שהם נתנו הסכמה מודעת‪.‬‬
‫בנוסף גם לא הייתה כאן בקרה על הנסיינים כמו בניסויים אחרים‪ ,‬ויש כאן פעולה אקטיבית של פייסבוק ולא אלגוריתם שמותאם‬
‫באופן אקראי‪.‬‬

‫הניסוי של אוקיי קיופיד‪:‬‬


‫בניסוי הזה רצו לבחון האם "כוח ההצעה"‪ -‬העובדה‬
‫שאומרים לנו שאנחנו מתאימים למישהו אחר זה מה‬
‫שהכי חשוב ביצירת הקשר או שהאלגוריתם יודע לבצע‬
‫את ההתאמה האמיתית עבור המשתתפים (כלומר רצו‬
‫לבחון האם התחברת למישהו כי מצאנו שאתם באמת‬
‫מתאימים או רק כי ראיתם אחוזי התאמה גבוהים בניכם‬
‫ללא בדיקה מאשרת)‪.‬‬
‫האחוזים בטבלה‪ -‬מה הסיכוי שמי שקיבל את ההתאמה‬
‫שכל אחד מהמשבצות עוברים לשיחה‪.‬‬
‫מה ניתן לראות מהנתונים על האלגוריתם לעומת "כוח‬
‫ההצעה"? ניתן לראות שלא משנה מהי ההתאמה האמיתית שלכם‪ ,‬ככל שנתנו לכם התאמה יותר גבוהה האחוזים יגדלו‪.‬‬

‫מה היינו חושבים על זה? כאן הציגו ממש מצג שווא‪ ,‬לא סתם הסתירו מאיתנו מידע (זה הרבה יותר קריפי וחמור מפייסבוק)‪.‬‬
‫• האתר היה הראשון שהצהיר כי הוא מבצע "ניסויים" באנשים‪ ,‬לא כי הם יודעים כל כך הרבה‪ ,‬אלא שבעזרת ניסויים‬
‫הם יכולים לבחון את הדברים האלה ובמטרה לשפר את האלגוריתם שלהם‪.‬‬

‫‪ :LinkedIn‬מסתבר שהיה ניסוי במשך הרבה שנים (כי היה קשה‬


‫לנתח אותו) במטרה לבחון את העוצמה של קשרים חלשים‪ ,‬כלומר‬
‫טוענים שלאנשים יש סיכוי גבוה יותר להשיג תעסוקה והזדמנויות‬
‫אחרות דרך מכרים רחוקים יותר מאשר דרך חברים קרובים‪.‬‬
‫כלומר בדקו אם ככל שאתה מתחבר עם אנשי קשר רחוקים יותר‪,‬‬
‫במעגל רחב יותר‪ ,‬מייצרים אצלנו יותר תנועה ולהיפתח לקשרים‬
‫חדשים יותר שיקדמו את הקריירה שלנו ויחשפו אותנו להזדמנויות‬
‫חדשות ורבות יותר‪.‬‬

‫הדרכים להתייחס לניסויים דיגיטליים‪:‬‬


‫‪ .1‬מסגרת ‪ -A‬מדובר בניסויים עם משתתפים אנושיים‬
‫‪ .2‬מסגרת ‪ -B‬מדובר בחדשנות אחראים‬

‫מסגרת ‪ :A‬נגיד כי מדובר בניסויים בבני אדם (משתתפים‬


‫אנושיים)‪ ,‬שצריכה להיות אמנה ברורה לגבי איך זה אמור‬
‫להתבצע‪.‬‬

‫‪ -Commonrule‬כל מוסד שמקבל סבסוד מהמדינה בארה"ב‬


‫חייב לעמוד בתנאי ביקורת של ניסויים‪.‬‬
‫• בחברות פרטיות אין הגבלה כזאת לאופן הביצוע של‬
‫הניסויים שהן עורכות על אנשים‪.‬‬

‫מוסדות מחקר ממשלתיים צריכים לשמור על‪:‬‬


‫• כבוד למשתמשים‬
‫• הערכת סיכון‪ /‬תועלת‬
‫נטלי נחמיאס‬ ‫אתיקה וביג דאטה‬
‫רונה פפר‬
‫סמסטר א תשפ"ג‬

‫‪ .1‬כבוד למשתתפים‪:‬‬
‫• צריכה להיות לאנשים את זכות הבחירה האם להשתתף‬
‫בניסוי‪.‬‬
‫• הסכמה מדעת‬
‫• אפשרות פרישה‬
‫• פרטיות‪ -‬שאם מבטיחים ששומרים על פרטיות המשתמשים‬
‫אז ניתן לבצע את המחקר ללא קבלת ההסכמה המפורשת‬
‫שלהם‪.‬‬
‫יש הבדלים כשמדובר בניסויים דיגיטליים‪ ,‬האנשים פחות יכולים להבין מה מבקשים מהם ומה ההשלכות של הניסוי (כי זה‬
‫פחות מבוקר ויש קשר חלש יותר עם הנסיינים)‪.‬‬

‫בניסוי החיסונים של הקורונה‪ -‬הניסוי הוא המחקר על הנתונים של‬


‫המחוסנים הישראלים‪ .‬המדינה הודיעה על כך למחוסנים שהיא מתכוונת‬
‫להעביר את הנתונים שלהם לחברה‪ ,‬אולם לא קיבלו את האישור של וועדת‬
‫הלסינקי בארץ דבר שייצר תגובות רבות (למרות שהמדינה הבטיחה שהיא‬
‫מעבירה את המידע באופן מותמם)‪.‬‬

‫הערכת סיכון‪ /‬תועלת‪:‬‬


‫• החברות שמבצעות את הניסויים צריכות להבטיח שהתועלת מהניסוי‬
‫עולה על הסיכון למשתתפים (במחקרים רפואיים למשל‪ ,‬הסיכון‬
‫הבריאותי על הנסיינים ביחס לתועלת שזה יכול להביא)‪.‬‬
‫• ושיהיה ניתן להבטיח שמי שמשתתף בניסוי יוכל גם להנות מפירותיו‬
‫ולא רק לסבול בשביל לעזור לאחרים‪.‬‬

‫מסגרת ‪:B‬‬
‫הטענה שלא מדובר כאן על ניסוי בבני אדם‪ ,‬אנחנו פתאום מאוד נחרדים‬
‫מה‪"-‬סכנות" שיכולות להיגרם למשתמשי הניסוי כשמחלקים לקבוצות‬
‫(קבוצה א‪ ,‬לעומת קבוצה ב) תוך התעלמות משאר המשתמשים של‬
‫הפלטפורמה‪ ,‬כמו במקרה של פייסבוק ולינקדאין‪.‬‬
‫• כלומר אומרים שלא צריך להיות נחרדים ולראות כאן ממש כניסוי‬
‫שדורש הסכמה‪ ,‬אבל שזה כן יהיה תהליך שקוף‪.‬‬

‫ההטעיות בפרסום דיגיטלי‬


‫מאז ומעולם המפרסמים רוצים לטרגט את המידע לקהל היעד שלהם (פרסום‬
‫לילדים בתכניות ילדים)‪.‬‬
‫המעבר לעולם הדיגיטלי גרם לאפשרויות להשתכלל מאוד‪.‬‬

‫כאן מראים שבפייסבוק אפשר לטרגט עד כדי‬


‫מאפיינים שהם יכולים להיות בהקשרים מפלים‪.‬‬
‫נטלי נחמיאס‬ ‫אתיקה וביג דאטה‬
‫רונה פפר‬
‫סמסטר א תשפ"ג‬

‫במקרה הזה של פרסום לפי הגיל של המשתמש זה יכול להיות אפליה‬


‫לפי גיל כי בניגוד לעיתון שבו פונים לאוכלוסייה בגיל ספציפי שעדיין‬
‫כולם חשופים למודעה‪ ,‬בפייסבוק‪ ,‬רק מי שבגיל הרלוונטי יכול לראות‬
‫את זה דבר שיכול ליצור אפליה לפי גיל‪.‬‬

‫פייסבוק הבינה שהיא לא יכולה לתת למפרסם לטרגט על דעת עצמו‬


‫והבינה שהבחירה לא צריכה להיות בידי המפרסם‪ ,‬אלא שזה יעשה‬
‫על ידי אלגוריתם‪.‬‬
‫אבל גם האלגוריתם עצמו יכול להיות מפלה‪ ,‬למשל שהאלגוריתם‬
‫יפרסם את הצעת המשרות באופן מפלה‪ .‬ואיך נדע למשל‬
‫שהאלגוריתם עם הטעיה או שבאמת אותם אנשים שהתקבלו הם‬
‫בעלי הכישורים המתאימים למשרה?‬

‫כדי לבחון זאת עשו ניסוי ולקחו קבוצות אנשים בעלי אותם הקישורים‬
‫למשרה ממקומות שונים‪ ,‬כשבכל חברה יש הבדל לטובת גברים או‬
‫נשים (דומינוס‪ -‬יותר עובדים גברים‪ ,‬בחברה השנייה עובדות יותר‬
‫נשים)‪ ,‬והריצו את המודעה בפייסבוק ובלינקדאין‪.‬‬
‫• גילו שבפייסבוק יש הרבה יותר הבדל בפנייה למגדר של‬
‫האנשים לפי מה שיש בחברה (כלומר האלגוריתם של‬
‫פייסבוק בעצמו ייצר את ההטעיה לפי המידע שראה על‬
‫החברה‪ -‬שיותר גברים רוצים לעבוד בדומינוס‪ ,‬ולכן יותר‬
‫גברים גם עובדים שם)‪.‬‬
‫• לעומתם‪ ,‬בלינקדאין היה הבדל הרבה יותר קטן‪ ,‬שלא היה‬
‫מובהק‪.‬‬

‫הטעיה בפרסום משרות בהתאם לתמונות‪:‬‬


‫עבור אותו תיאור המשרה‪ -‬התמונה שמופיעה במודעת המשרה‬
‫משפיעה גם על התפוצה‪ ,‬כלומר מי ייחשף להצעת העבודה‪.‬‬
‫• למשל ראו כי כאשר יש תמונות של ילדות צעירות הן לרוב‬
‫ישלחו לגברים בגילאי ה‪.55‬‬
‫נטלי נחמיאס‬ ‫אתיקה וביג דאטה‬
‫רונה פפר‬
‫סמסטר א תשפ"ג‬

‫המשך ניסויים דיגיטליים‪:‬‬


‫במאמר הזה החוקרת הראתה שכאשר מחפשים אדם מסוים‬
‫אז המודעות הממומנות שרואים במהלך החיפוש בגוגל מפנות‬
‫אותנו לאתרים שבהם ניתן ללמוד על אותו האדם (למשל האם‬
‫אותו אדם נעצר או שיש לו רישומים פליליים)‪.‬‬

‫היא רצתה בעיקר לבחון האם יש הבדל בהופעה של הפרסומים‬


‫האלה כאשר מחפשים אנשים "שחורים" מאשר "לבנים"?‬

‫היה הבדל משמעותי ומובהק במספר ההופעות של‬ ‫•‬


‫פרסומים כאלה של רישומים פליליים בעיקר בהקשרים‬
‫שליליים מאשר ניטרליים כאשר מדובר באנשים שחורים‪.‬‬
‫דוגמה נוספת‪ -‬כאשר חיפשו את השם "ג'יל שניידר" המודעה על הרישומים הפליליים שלה הופיעה רק במקום השלישי‪,‬‬ ‫•‬
‫כשלפני זה הופיע הלינק "גי'ל שניידר אומנות" למרות שבפועל היו לה הרבה רישומים פליליים‪.‬‬

‫גם אם אנחנו יכולים להסביר למה התופעה הזאת קוראת אנחנו רואים שברגע שנותנים לאלגוריתם קצת עצמאות הוא יכול‬
‫לגרום להטיה מסוימת (כמו העובדה שאם אנחנו נחפש "‪ "teacher‬ו‪ "doctor" -‬אז זה יתרגם מורה נקבה ורופא זכר כי זה מה‬
‫שרוב האנשים חיפשו וזה היה הבסיס של האלגוריתם)‪.‬‬

You might also like