אתיקה וביד דאטה

‫נטלי נחמיאס‬ ‫אתיקה וביג דאטה‬
‫רונה פפר‬
‫סמסטר א תשפ"ג‬
‫אתיקה וביג דאטה‬

‫הצד החיובי של עידן הביג דאטה‪:‬‬
‫• מאפשר מתן שירותים‬
‫• תפעול ולוגיסטיקה‬
‫• בריאות ורפואה‬
‫• תחבורה‬
‫• חקלאות‬
‫• שיווק‬
‫אתיקה של טכנולוגיה‪ -‬החששות‪:‬‬

‫• פחות שקיפות ויותר עמימות (לא תמיד יודעים מה נעשה עם המידע שנאסף)‬
‫• פגיעה באבטחה ובפרטיות של הנתונים‪.‬‬
‫• הטיות וחוסר צדק אלגוריתמיים (האלגוריתמים לא תמיד מקבלים החלטות הוגנות)‪.‬‬
‫• מניפולציות והשפעה פסיכולוגית באמצעים טכנולוגיים‪.‬‬
‫• חברה של מעקב‪.‬‬
‫• התגברות האוטונומיה של המכונות וירידה בבקרה ובאחריות האנושיות‪.‬‬
‫אתיקה של טכנולוגיה‬
‫אתיקה‪-‬‬ ‫תחום ידע תאורטי ו‪/‬או מעשי שנוגע ליחסים שבין טכנולוגיה ואתיקה נורמטיבית‪ .‬כולל‬
‫התחום שעוסק במה טוב ומה רע‪,‬‬ ‫למשל‪:‬‬
‫ובחובות המוסריות שלנו‪.‬‬ ‫• אתיקה של רובוטים‬
‫(מה הדבר הנכון לעשות)‬
‫• אתיקה של רשתות חברתיות‬
‫• אתיקה של בינה מלאכותית ועוד‪.‬‬
‫מהי אתיקה בתחום המחשוב?‬

‫ניתוח האופי וההשפעה החברתית של טכנולוגיית המחשב וגיבוש מדיניות לשימוש‬
‫אתי בטכנולוגיה כזו‪.‬‬
‫העוסקים בתחומים אלה מחויבים לעבוד‬ ‫צריך אתיקה מכיוון שהמחשוב יצר מהפכה בחיינו ואנחנו‬
‫תחת כללים אתיים ברורים ‪ ,‬ועולה השאלה‬ ‫צריכים להבין מהי ההשפעה של הדבר‪.‬‬
‫האם גם מהנדסים צריכים לפעול בדרך‬
‫זאת?‬
‫הדברים שמורים על המחשב ופחות שקופים‪.‬‬

‫ארבעת הסוגיות האתיות של עידן המידע‪:‬‬

‫‪ -Privacy‬פרטיות‬
‫• איזה מידע חייב אדם לגלות לאחרים‪ ,‬באילו תנאים ובאילו אמצעי הגנה?‬
‫• אילו דברים אנשים יכולים לשמור לעצמם?‬
‫הפרטיות בסכנה במיוחד כאשר יוכלו לשלב מאגרי מידע‪.‬‬
‫‪ -Accuracy‬דיוק‬
‫• מי אחראי לאותנטיות‪ ,‬נאמנות ודיוק המידע?‬
‫• מי אחראי לטעויות וכיצד יש לרפא את הנפגע?‬
‫לפעמים קשה לאתר את הטעויות או להשתכנע ולהבין שהמחשב עשה טעות‪.‬‬
‫‪ -Property‬רכוש‬
‫• למי יש מידע? מהם המחירים הצודקים וההוגנים להחלפתו?‬
‫• מי הבעלים של הערוצים שדרכם מועבר מידע?‬
‫כמו במקרה של התכנה ‪ Dall-E‬שממירה טקסט לתמונה מצוירת‪ -‬שהאמנים דרשו שיסירו את היצירות שלהם ממאגר הנתונים‬
‫שעליו מתבססת התוכנה בטענה שהיא מרוויחה כסף מהיצירות שלהם‪.‬‬
‫‪ -Accessibility‬נגישות‬
‫• איזה מידע יש לאדם או לארגון זכות או פריבילגיה לקבל‪ ,‬באילו תנאים ובאילו אמצעי הגנה?‬
‫גם היום יש גישה נרחבת יותר לאינטרנט אך עדיין יש קשישים או אזורים פחות נגישים למידע או אפילו סתם אנשים שלא יכולים‬
‫באמת לגשת למאגרי המידע‪.‬‬
‫‪ 5‬הגישות פילוסופיות לאתיקה‪:‬‬
‫‪ .1‬גישת הזכויות‬
‫" ההנאה מפעולתו של אדם כלפי אדם אחר מותרת רק אם האוטונומיה והכבוד של אותו אדם עצמו אינם‬
‫נפגעים בתהליך‪ ,‬ואם האדם שאליו מתייחסים כאמצעי יסכים לטיפול כזה כחלק ממטרותיו האוטונומיות‬
‫שנבחרו‪".‬‬
‫הנושאים האתיים המודגשים בשיטה זו כוללים‪:‬‬
‫• אוטונומיה‪ -‬המידה שבה אנשים יכולים לבחור בעצמם בחופשיות‪.‬‬
‫• כבוד‪ -‬המידה שבה אנשים מוערכים בעצמם‪ ,‬לא כחפצים עם מחיר‪.‬‬
‫• שקיפות‪ -‬תנאים כנים‪ ,‬פתוחים ומושכלים של טיפול‪/‬הפצה חברתית‪.‬‬
‫בני אדם הם יצורים אנושיים שהאנושות העניקה להם את הזכות והחופש לקבל החלטות ולכן חשוב שהחברה תתנהג באופן‬
‫שיכבד את הפרטים‪ ,‬תשמור על ביטחונם הפיזי ופרטיותם (כלומר יש להם זכות מוסרית בסיסית שיכבדו את הבחירות שלהם)‪.‬‬
‫מצד שני‪ ,‬בתחומים טכנולוגיים רבים זה אולי טוב שכן מגבילים קצת את הפרטיות אם האוטונומיה של המשתמש מהווה סיכונים‬
‫מוסריים בלתי מקובלים‪ -‬כמו למשל ההחלטה שמגבילה אותנו לבחור סיסמאות שעומדות בסטנדרט מסוים ושמידי פעם אף‬
‫מכריחים אותנו להחליף את הסיסמא‪.‬‬
‫‪ .2‬גישת הצדק וההוגנות‬

‫יש להתייחס לכולם באופן שווה‪ .‬הפעולה האתית היא זו שמקדמת‪:‬‬
‫• שוויון‪ ,‬שוויון והגינות‬
‫• גיוון והכלה‬
‫• בשל התהליך‬
‫• כוח והזדמנות‬
‫צדק חלוקתי‪ :‬חלוקה מתאימה של הטבות ומעמסות תוך התחשבות בהבחנות רלוונטיות בהבחנות בין אנשים‪.‬‬
‫צדק גמול‪" :‬עין תחת עין"‪.‬‬
‫צדק מפצה‪ :‬המאמצים לפצות נפגעים או להשיב רכוש אבוד לבעליו החוקיים‪.‬‬
‫צדק והגינות דורשים הימנעות מניגוד עניינים ולכן קבלת ההחלטות צריכה להיעשות מאחורי מסך "הבורות"‪ -‬החלטה שתהיה‬
‫עיוורת להבדלים בין בני האדם‪.‬‬
‫במערכת הטכנולוגית‪ ,‬שלא כמו שני האדם‪ ,‬באמת לא מתבצעת (כביכול) אפליה כי היא לא רואה את החזות החיצונית והיא לא‬
‫אמורה להיות מושפעת מגורמים אחרים מעבר לנתונים שהיא מכילה‪ .‬מצד שני‪ ,‬אנחנו יכולים לראות בימנו הרבה מערכות ‪AI‬‬
‫שמקבלות החלטות עם הטיות מסוימות‪.‬‬
‫• עניין נוסף‪ ,‬כיצד אפליקציית פרסום דיגיטלית המאפשרת לאנשים להציב מודעות דיור מותאמות אישית או דרושים‬
‫המכוונות רק לאנשים מתחת לגיל ‪ ,40‬או רק לאנשים במיקוד ספציפי‪ ,‬משפיעה על הגינות וצדק?‬
‫‪ .3‬גישת התועלתנות‬
‫פעולות אתיות הן אלו המספקות את האיזון הגדול ביותר של טוב על רע‪ .‬יש לשקול את האושר או הרווחה הכוללים שהפעולה‬
‫שלנו עשויה להביא‪ ,‬עבור כל המושפעים ולאורך הטווח הארוך (האושר נמדד במונחים של הנאה מצטברת והיעדר כאב)‪.‬‬
‫שיטה זו אומרת למעשה שהדרך פחות חשובה‪ ,‬אלא יש יותר להתמקד בתוצאה הסופית‪ .‬לדוגמה כמו בתקופת הקורונה‪-‬‬
‫מעקב וניטור אחר בני אדם אולי נשמעים קצת נורא אבל אם זה לצורך בלימת מגפת הקורונה אז אולי הדרך הזאת לא כל כך‬
‫נוראית כי היא מובילה לתוצאה חשובה‪.‬‬
‫• האתיקה התועלתנית לא משתווה לצורות השונות של ניתוח עלות‪-‬תועלת בעסק (שמתייחסות בעיקר ליתרונות‬
‫הפיסיים הכלכליים‪ ,‬ולרוב בטווח הקצר או בטווח הצר של בעלי העניין)‪ .‬ההשלכות המוסריות שלה לא מתייחסות‬
‫רק לרווחה הפיזית‪ ,‬אלא גם רווחה פסיכולוגית רגשית‪ ,‬קוגניטיבית‪ ,‬מוסרית‪ ,‬מוסדית‪ ,‬סביבתית ורווחה פוליטית‬
‫או פגיעה או השפלה‪.‬‬
‫• הנושאים המודגשים בגישה זו‪ :‬אושר‪ ,‬איזון בין האינטרסים של בעלי העניין‪ ,‬חיזוי השלכות‪.‬‬
‫בעיה מפורסמת מגישה הזאת היא "בעיית הטרולי" (בעיית הקרונית)‪:‬‬

‫• נניח שיש ‪ 5‬עובדים שעובדים לאורך מסילת פסי רכבת‪ .‬אני יודעת שהרכבת מגיעה ואם לא אעשה כלום הם ימותו‪ .‬אני‬
‫יכולה להטות את הרכבת למסלול הנגדי שנמצא בו עובד אחד בלבד‪.‬‬
‫• בהמשך ביצעו שוב את הניסוי רק שבמקום להטות את הרכבת צריך להפיל מהגשר שמעליה איש שמן שאמור לחסום את‬
‫הרכבת בעזרת גופו‪.‬‬
‫התועלתנים יגידו שמקרה הזה שזה לא משנה כי בכל אחד מהמקרים אנשים נהרגים אבל נציל מישהו אחר (יותר אנשים)‪.‬‬
‫בעיית הקרונית נעשתה רלוונטית מחדש גם בעידן הדיגיטלי‪ -‬המכוניות האוטונומיות נכנסו‬
‫לחיינו ואנחנו צריכים לבדוק האם האלגוריתם שלהן יכול לקבל החלטות בהתאם למה שבני‬
‫האדם היו מחליטים (כלומר מהי הפעולה הכי נכונה)‪.‬‬
‫‪Moral Machines experiment‬‬

‫פיתחו ‪ 3‬עקרונות‪:‬‬
‫‪ .1‬להציל בני אדם על פני חיות‬
‫‪ .2‬להציל קבוצה גדולה מאשר אדם אחד‬
‫‪ .3‬להציל ילדים‬
‫רצו לבדוק כיצד תרבויות שונות מעריכות חיי אדם‪ ,‬וגילו הרבה תוצאות מגוונות ושונות בכל מדינה‪ ,‬כלומר שלא ניתן לדעת‬
‫ולקבוע מה הדבר הכי נכון‪ ,‬כי זה תלוי בתרבות ובסביבה (הצרפתים למשל העדיפו להציל יותר נשים מאשר גברים‪ ,‬והיו מקומות‬
‫שבהם העדיפו להציל אדם ממעמד סוציו אקונומי גבוה מאשר קבצן)‪.‬‬
‫‪ .4‬גישת הטובה המשותפת (טובת הכלל)‬

‫טובת הפרט קשורה לטובת הקהילה (אנחנו הרבה פעמים נרצה לקבל החלטות שמטיבות עם הכלל)‪.‬‬
‫גישה זו מפנה את תשומת הלב לתנאים המשותפים החשובים לרווחת כולם (כמו שירותי בריאות במחיר סביר‪ ,‬ביטחון ציבורי‬
‫יעיל‪ ,‬שלום בין מדינות‪ ,‬מערכת משפטית צודקת וסביבה לא מזוהמת)‪.‬‬
‫‪ .5‬גישת האתיקה של סגולות‬

‫האדם שמקבל את ההחלטות רוצה להרגיש טוב עם עצמו‪.‬‬
‫מידות טובות הן גישות או תכונות אופי המאפשרות לנו להיות ולפעול בדרכים המפתחות את הפוטנציאל הגבוה ביותר שלנו‪.‬‬
‫אנחנו צריכים לזהות את תכונות האופי או הנטיות היציבות‪ ,‬ולקדם את הרגלי הפעולה שמייצרים או מחזקים את אותן‬
‫המעלות‪ .‬למשל‪ -‬אם כנות היא סגולה אצל מעצבים ומהנדסים (ונטייה לזייף נתונים או להגזים בתוצאות היא חסר)‪ ,‬אז עלינו‬
‫לחשוב אילו הרגלי עיצוב נוטים לקדם כנות‪ ,‬ולעודד אותם‪.‬‬
‫דוגמאות למעלות‪ :‬יושר‪ ,‬אומץ‪ ,‬חמלה‪ ,‬נדיבות‪ ,‬נאמנות‪ ,‬יושרה‪ ,‬הגינות‪ ,‬שליטה עצמית‪.‬‬
‫באמצעות גישה זו אנו עשויים לשאול איזה סוג של אדם עלי להיות? האם הפעולה הזו עולה בקנה אחד עם המשחק שלי‬
‫במיטבי?‬
‫דילמות מוסריות בעולם הביג דאטה‬

‫בעידן הביג דאטה דורש איסוף נתונים מאסיבי אשר מאיים על הפרטיות‪ .‬מה ההשלכות של איסוף הנתונים המקיף? זה יכול‬
‫להיות הרבה יותר משמעותי ממה שאנחנו חושבים ולהשפיע על כולנו (למשל‪ -‬אם אישה שגרה במדינה שאוסרת על הפלות‬
‫חיפשה על כך מידע באינטרנט‪ -‬יכולים להציע לה מודעות נגד הפלות או אפילו יותר גרוע‪ -‬להעביר את המידע עליה לרשויות‬
‫האכיפה)‪.‬‬
‫שכבות של איסוף נתונים אישיים‪:‬‬
‫איסוף המידע עלינו‬
‫העברת המידע לגורמים אחרים‪ -‬צד ג'‬

‫(לפעמים מסירים גורמים מזהים ממאגר הנתונים)‬
‫מיזוג מערכי נתונים כדי לחשוף נתונים שלא שיתפנו‬
‫ניתוח נתונים כדי לחשוף נתונים אישיים שאיננו‬

‫מודעים אליהם‬
‫מיזוג מערכי נתונים כדי לחשוף נתונים שלא שיתפנו‬

‫נטפליקס פרסמה חלק מהדירוגים של הגולשים שלה (בצורה אנונימית‬
‫לטענתה) במטרה שחוקרים ינסו לאמן את האלגוריתם שלה להמליץ על‬
‫תכנים אחרים‪ .‬אולם היו חוקרים שהצליחו לפצח את האנונימיזציה ולהבין‬
‫אילו מנויים צפו בתכנים מסוימים שלא בהכרח היו רוצים שידעו עליהם‪.‬‬
‫מה הפתרון? למחוק את שמות הסרטים ולמספר אותם (מעין התממת‬
‫פרטים)‪.‬‬
‫ניתוח נתונים כדי לחשוף או להסיק נתונים אישיים‬

‫"‪-"Private traits and attributes are predictable from digital records of human behavior‬‬
‫ע"פ המאמר‪ ,‬על סמך מספר הלייקים יכולים לזהות הרבה מאפיינים של האדם בטווח ביטחון של מעל ‪.90%‬‬
‫האם הפרטיות מתה?‬

‫"אם יש לך משהו שאתה לא רוצה שאף אחד‬ ‫כן‪ -‬יש לנו אפס פרטיות בעידן הדיגיטלי ואין שום סיכוי שנוכל להגן עליה‪ ,‬אז כדאי‬
‫ידע‪ ,‬אולי אתה לא צריך לעשות את זה‬ ‫שנתרגל לעולם החדש ונתגבר עליו‪.‬‬
‫מלכתחילה"‬
‫אריק שמידט‬
‫לא‪ -‬הפרטיות שלנו חשובה מאי פעם ואנחנו יכולים ועלינו לנסות להגן עליה‪.‬‬
‫מהי פרטיות?‬
‫מקורות הזכות לפרטיות‪ -‬ברנדייס היה בחתונה וגילה שעיתונאים רושמים את שמות‬
‫האורחים שנכחו באירוע – זאת עדות ראשונה לסוג של פגיעה בפרטיות שנראתה‪.‬‬
‫בריידס מאוחר יותר הוא גם דווקא זה שאמר שאין פתרון יותר טוב מחשיפה לשמש‪ ,‬כלומר‬
‫לחשוף את כל המידע שיש לך על האדם‪.‬‬
‫מדוע הזכות לפרטיות חשובה? (ע"פ המאמר "הגנה על הפרטיות בעיר הדיגיטלית" מיכאל בירנהק)‬
‫החשיבות של הפרטיות לפרט‪ " :‬זכותו של האדם להחליט בעצמו החלטות שונות היא נגזרת של התפיסה של האוטונומיה של‬
‫האדם ושל כבוד האדם במובן הסגולי‪ ...‬זכותו של אדם לנסות ולשלוט בדימויו בעיני אחרים‪ ...‬והצורך הפסיכולוגי‪-‬אנושי שלנו‬
‫במרחב פרטי שבו לא יטרידו אותנו‪ ,‬שבו נוכל להיעזב במנוחה ‪,‬שבו נוכל לנסות‪ ,‬לתהות ולטעות‪ ,‬ללא צורך לתת דין וחשבון"‪.‬‬
‫יחסים בין אישיים ומקצועיים‪ :‬הצדקות אחרות מדגישות את‬

‫חשיבות הפרטיות לקיומם של יחסים בין־ אישיים תקינים כמו‬
‫אינטימיות בין בני‪-‬זוג או יחסים מקצועיים כמו בין רופאה‬
‫למטופל‪.‬‬
‫קהילה‪ -‬הפן הציבורי של הפרטיות‪ :‬הפרטיות חשובה לא רק‬

‫בשל תרומתה לפיתוח הזהות והאישיות של הפרט והתנהלותו‬
‫היומיומית‪ ,‬אלא גם לקהילה עצמה‪ -‬היא יוצרת ערך של כבוד‬
‫הדדי בין חברי הקהילה ומאפשרת להם לחיות יחד‪ ,‬דווקא למרות‬
‫ההבדלים ביניהם‪.‬‬
‫מדינה‪ -‬חשיבות הפרטיות כערך חברתי ופוליטי בדמוקרטיה‪ :‬ביחסים שבין השלטון לאזרח המדינה צריכה לתפקד למען‬
‫האזרחים אבל אין לה שום אינטרסים מעבר לכך (כל פעולה שהיא עושה צריכה להיות בהתאם לערכים שהמדינה מקדמת עבור‬
‫האזרחים)‪ .‬הפרטיות (בנוסף לזכויות אדם אחרות כמו הזכות לחופש הביטוי‪ ,‬חופש ההפגנה וכו') היא אמצעי לשמר את מערך‬
‫הכוחות הדמוקרטי (שלטון לא דמוקרטי מאופיין בהיעדר פרטיות)‪.‬‬
‫הפרטיות בדין האירופאי‬

‫• פרטיות בחיים האישיים ‪,‬בהקשר המשפחתי‪ ,‬בבית ובתקשורת‪.‬‬
‫• פרטיות במידע האישי זוכה להגנה חוקתית נפרדת מהזכות לפרטיות (באופן כללי)‪:‬‬
‫‪ .1‬לכל אחד ואחת יש זכות להגנה על מידע אישי על אודותיו‪/‬ה‪.‬‬
‫‪ .2‬עיבוד של מידע כאמור צריך להיעשות באופן הוגן‪ ,‬למטרות מוגדרות‪ ,‬על בסיס הסכמה של האדם מושא המידע או לפי‬
‫בסיס לגיטימי אחר שנקבע בחוק‪ .‬לכל אדם יש זכות לגישה למידע שנאסף על אודותיו‪/‬ה‪ ,‬ולתיקון המידע‪.‬‬
‫‪ .3‬ציות לכללים אלה כפוף לפיקוח של רשות עצמאית‪.‬‬
‫ע"פ הגישה האירופאית להגדרת "מידע אישי"‪ -‬כל מידע על אדם מזוהה או על אדם שניתן לזהותו מתוך המידע נחשב למידע‬
‫אישי‪ ,‬והרגולציה חלה עליו‪ .‬המשמעות היא כי גם פריטי מידע טריוויאליים מוגנים‪ ,‬אם הם מזהים את האדם‪.‬‬
‫הפרטיות בארה"ב‪-‬‬
‫• לא מנויה במפורש בחוקה‪ ,‬אך ניתן למצוא הגנה על החלטות אישיות של האדם (כמו באשר השימוש באמצעי מניעה או‬
‫החלטת אישה לבצע הפלה)‪.‬‬
‫ע"פ הגישה האמריקאית הוגדרו סוגי מידע מסוימים לפי תוכנם כרגישים במיוחד‪ ,‬ובהתאם לכך הם זכו להסדרה ייחודית‪ .‬כך‪,‬‬
‫ניתן למצוא חקיקה פדרלית בנוגע למידע גנטי‪ ,‬בנוגע למידע רפואי ובנוגע למידע פיננסי‪ ,‬אך גם בנוגע לסוגי מידע נקודתיים‬
‫יותר כגון מידע הנוגע לתוכני הצפייה של מנוי טלוויזיה בכבלים או למשל חוק העוסק בהשכרת תוכני וידאו (וכאשר בכל מדינה‬
‫בתוך ארה"ב יש חקיקה נוספת‪ ,‬והתוצאה‪ -‬מעשה טלאים חקיקתי‪ ,‬ומידע שאינו בא בגדר אחד החוקים האלה אינו מוגן בדין‬
‫הפדרלי)‪.‬‬
‫הזכות לפרטיות בישראל‬

‫מעוגנת בחוק היסוד "כבוד האדם וחירותו" בחוק ספציפי ‪,‬ופותחה בפסיקת בתי המשפט ‪,‬המפרשים את הדינים הקיימים‬
‫ומשלימים פערים שיש בהם‪.‬‬
‫פרטיות וצנעת הפרט‬
‫א‪ .‬כל אדם זכאי לפרטיות ולצנעת חייו‬
‫ב‪ .‬אין נכנסים לרשות היחיד של אדם שלא בהסכמתו‬
‫ג‪ .‬אין עורכים חיפוש ברשות היחיד של אדם‪ ,‬על גופו‪ ,‬בגופו או בכליו‬
‫ד‪ .‬אין פוגעים בסוד שיחו של אדם‪ ,‬בכתביו או ברשומותיו‪.‬‬
‫השמירה על הזכות לפרטיות בישראל לא מעוגנת תחת הזכות לפרטיות אלא במישורין תחת הגנת כבוד האדם שבחוק היסוד‪.‬‬
‫ואולם‪ ,‬ההגנה החוקתית על זכות זו אינה מוחלטת ‪ ,‬והפגיעה בזכות לפרטיות בהתאם לחוק יסוד זה אם יש חקיקה מפורשת‬
‫בנושא (חקיקה או תקנות) והפגיעה צריכה להיות מוצדקת ומידתית‪.‬‬
‫חוק הגנת הפרטיות‪-‬‬

‫• מפרט את הזכות לפרטיות בהקשר של "יחסים בין אדם לחברו ובכלל זה בין תאגיד לאדם‪ ,‬ועניינו הוא "מצבי פרטיות‬
‫קלאסיים"‪ .‬למשל‪ :‬בילוש או התחקות אחר אדם‪ ,‬האזנת סתר‪ ,‬צילום ברשות היחיד‪ ,‬פתיחת מכתב ‪,‬הפרת חובת סודיות‪,‬‬
‫שימוש במידע שלא למטרה שלשמה נאסף (עיקרון צמידות המטרה) ‪.‬‬
‫• ההקשר השני של הגנת הפרטיות בדין הישראלי עוסק במידע אישי‪ ,‬והוא מקביל לדין האירופי בקשר להגנת מידע אישי‪.‬‬
‫מישורי הפעולה‪:‬‬
‫‪ .1‬המישור החוקתי‪ -‬חל על במישורין על‬
‫המדינה ועל הרשויות השונות‪ .‬אסור לרשות‬
‫מקומית לפגוע בפרטיות האזרחים אם הדבר‬
‫אסור על פי חוק של הכנסת (כאשר חוקי עזר‬
‫עירוניים לא מספיקים לצורך כך)‪.‬‬
‫‪ .2‬מישור הגנת המידע האישי‪ -‬חל על הרשויות‬
‫אבל גם על גורמים פרטיים‪ .‬הרשות תצטרך‬
‫לעמוד בתנאים שיש בהסדר מאגרי המידע‬
‫שבחוק הגנת הפרטיות‪ .‬גם תאגיד יכול‬
‫לאסוף מידע על האזרחים (הצרכנים)‪ ,‬כאשר‬
‫תאגיד פרטי אינו כפוך לחוק היסוד במישורין‪,‬‬
‫ואינו זקוק להסמכה בחקיקה או לפעולה‬
‫מידתית‪ ,‬אך ההסדר של מאגרי מידע מביא‬
‫לתוצאה דומה‪.‬‬
‫‪ .3‬המישור שבין אדם לחברו‪ -‬ההסדר החוקי‬
‫שעוסק במצבי פרטיות קלאסיים‪ :‬כאשר‬
‫אדם חושף את סודו של אדם אחר ללא‬
‫רשות‪ ,‬מפרסם מידע אישי על אודותיו‬
‫ופעולות דומות‪ ,‬הרי זו פגיעה בפרטיות‪.‬‬
‫‪ -FIPs‬עקרונות המידע האישי שהחלו להופיע‬

‫בשיטות משפט שונות בעולם בתחילת שנות השבעים של המאה הקודמת‪ .‬בהתאם לעקרונות אלה "עיבוד של מידע [אישי]‬
‫צריך להיעשות באופן הוגן‪ ,‬למטרות מוגדרות‪ ,‬על בסיס הסכמה של האדם מושא המידע או ע"פ בסיס לגיטימי אחר שנקבע‬
‫בחוק‪ .‬לכל אדם יש זכות גישה למידע שנאסף על אודותיו‪/‬ה‪ ,‬ולתיקון המידע"‪.‬‬
‫איסוף המידע צריך להיות למען מטרה ראויה‪ ,‬ובהסכמה מדעת של מושא המידע ותוך הגבלות שונות של צורת האיסוף‪ .‬בחוק‬
‫הגנת הפרטיות הישראלי אין דרישה מפורשת שמטרת האיסוף תהיה ראויה; אולם ככל שהגורם שאוסף את המידע הוא רשות‬
‫ציבורית‪ ,‬דרישה זו נובעת מן המשפט החוקתי‪.‬‬
‫במהלך עיבוד המידע מוטלת על הגוף האוסף חובות נוספות כמו חובת סודיות באשר המידע (מניעת זליגתו בכוונת או ברשלנות)‬
‫ואף מחויבים באבטחת מידע‪ ,‬ובנוסף‪ ,‬למושא המידע יש זכות לגשת למידע אודותיו ולדרוש את תיקונו במידת הצורך‪ .‬ע"פ הדין‪,‬‬
‫הפרת החובות הללו בידי מחזיק המידע יכולה להגיע לתביעות בבית משפט ואף עבירה פלילית (ובנוסף יש גם גורם אכיפה‬
‫שלטוני‪ -‬הרשות להגנת הפרטיות אשר פועלת בכפוף למשרד המשפטים)‪.‬‬
‫מעבר להסכמה מדעת‪ ,‬הסכמה אקטיבית‪ ,‬ה ‪ GDRP‬מאפשר כיום למושא המידע לחזור בו מהסכמתו‪ ,‬או הזכות להישכח‬
‫שמאפשרת למושא המידע לדרוש מחיקה של מידע על אודותיו בתנאים מסוימים‪ ,‬ומטילה חובה חדשה על מנהלי המאגרים‬
‫לדווח לרשות המתאימה או לציבור‪ ,‬לפי העניין‪ ,‬על דליפת מידע‪.‬‬
‫הזכות להישכח‬
‫בשנת ‪ 1998‬נקלע עורך הדין מריו קוסטחה לחובות ובגינן‬
‫פורסמה בעיתון המקומי בספרד הודעה על מכירה פומבית של‬
‫נכסיו‪ 12 .‬שנים אח"כ‪ ,‬למרות שכבר כיסה את כל חובותיו‪,‬‬
‫המשיך כישלון העבר לרדוף אותו והקשה על יכולתו להתפרנס‬
‫(המודעה על המכירה הפומבית לצורך כיסוי החובות הופיעה‬
‫במנוע החיפוש של גוגל בעקבות כל שאילתה שכללה את שמו)‪.‬‬
‫על רקע מצוקתו פנה ערך הדין לבית הדין האירופי לזכויות אדם‬
‫וביקש שבדומה לזיכרון האדם‪ ,‬שגם הרשת תשכח את מעידתו‬
‫החד פעמית שקרתה לפני שנים‪ .‬בפסק דין שניתן בשנת ‪2014‬‬
‫עוגן לראשונה באמצעות פרשנות מרחיבה לזכות המחיקה‪,‬‬
‫שלנושא המידע יש את הזכות להישכח‪ ,‬כלומר שיש לבקש מהחברה שמפעילה את מנוע החיפוש למחוק את התוצאות‬
‫המתקבלות מחיפוש שמו‪ ,‬אם המידע שמתקבל אינו ראוי‪ ,‬אינו רלוונטי או אינו רלוונטי עוד‪ ,‬או מוגזם‪ ,‬בהתחשב במטרות עיבוד‬
‫המידע ומזמן שחלף מאז הפרסום‪.‬‬
‫כלומר עולה הטענה שאם לא מדובר בנתונים היסטוריים חשובים‬

‫עם ערך תרבותי ואם לא מדובר בזכות הציבור לדעת‪ ,‬אולי צריך‬
‫לאפשר מחיקה שלו המידע‪.‬‬
‫אולם בכתבת תגובה זו אומר בכיר בגוגל כי הם לא רוצים להיות‬
‫אלה שמכריעים ומחליטים היכן נמצא האיזון בין זכות הציבור‬
‫לדעת וחופש המידע לבין הזכות להישכח‪.‬‬
‫אמנם בית המשפט קבע כי יש להסיר מידע שאינו מדויק או‬
‫רלוונטי‪ ,‬אבל זה מאוד סובייקטיבי ובית המשפט לא קבע מנגנון‬
‫ברור ואנחנו נאלצים לבדוק על מקרה ומקרה‪.‬‬
‫סיכוני הפגיעה בפרטיות‬

‫פרצות נתונים‪ :‬גישה בלתי מוגבלת של אחרים לסיסמאות‪ ,‬מאפיינים ומיקומו של אדם יכולה לשמש כדי לפגוע בנושאי‬ ‫•‬
‫הנתונים במגוון דרכים‪.‬‬
‫פגיעה באוטונומיה מוסרית‪ :‬חוסר פרטיות עלול לחשוף אנשים לכוחות חיצוניים המשפיעים על בחירותיהם‪ .‬החברה נהנית‬ ‫•‬
‫מפרטיות‪ ,‬מכיוון שאנשים יצירתיים‪ ,‬חדשניים ופרודוקטיביים יותר‪.‬‬
‫אי צדק מידע ואפליה‪ :‬מידע אישי המסופק בתחום או בהקשר אחד (לדוגמה‪ ,‬שירותי בריאות) עשוי לשנות את משמעותו‬ ‫•‬
‫כאשר נעשה בו שימוש בתחום או בהקשר אחר (כגון עסקאות מסחריות) ועלול להוביל לאפליה ולחסרונות עבור הפרט‪.‬‬
‫ניהול עצמי של נתונים‬

‫• יוצר חסרונות מידע ואסימטריה‪.‬‬
‫• קשה לממש העדפות (הבחירה היא לא באמת בחירה חופשית)‪.‬‬
‫• גורם להפסדים בטווח הארוך‪.‬‬
‫• הטיות שגורמות לנו להאמין שהכל יהיה בסדר (‪.)optimism bias‬‬
‫כלים משמרי פרטיות בנתונים‬

‫שימוש בכלים ובטכניקות לשימור פרטיות בעת השימוש במידע האישי‪:‬‬
‫• איסוף ואחסון‬
‫אבטחה‪ -‬היא לא הכלי היחיד שמגן על הפרטיות‬ ‫• שימוש וניתוח‬
‫רגולציה‪ -‬גם בהקשר של שיתוף מידע‬ ‫• שיתוף‬
‫• עיצוב מוצרים חדשים‬
‫זיהוי מחדש של הנתונים הרפואיים של מושל מסצ'וסטס‬

‫בתוך ערכת נתוני ביטוח משנת ‪1997‬‬
‫בשנת ‪ 1997‬מושל מסצ'וסטס איש לפרסם מידע רפואי‬
‫מפורט אודות עובדי המדינה במטרה לאפשר לנתח אותו‬
‫(למטרות שיתוף חיוביות)‪ .‬כמובן שהמאגר הותמם‪ ,‬כלומר‬
‫הסירו ממנו את כל הפרטים המזהים אודות האנשים והובטח‬
‫שזה לא יפר פרטיות ושיש במהלך הזה תועלת לציבור‪.‬‬
‫כשהמאגר פורסם השאירו את ה‪ zip-code‬וסטודנטית בשם לטניה סוויני שילמה ‪ 20‬דולר כדי לבחור את פנקס הבוחרים במדינה‬
‫שלה‪.‬‬
‫• מזהים ישירים‪ :‬פרטי מידע שמאפשרים זיהו ישיר של האדם (לדוגמה‪ -‬שם‪ ,‬מספר זהות‪ ,‬כתובת ‪ ,IP‬כתובת מייל)‪.‬‬
‫מזהים עקיפים‪ :‬לא ייחודיים לאדם ספציפי אחד (הרבה אנשים‬ ‫•‬
‫יכולים לחלוק את הפרטים הללו)‪ ,‬וככל שהמאגר מכיל יותר פרטים‬
‫כאלה על אדם מסוים זה יכול להצטבר לתמונה שתזהה אותו‪ .‬אם‬
‫נסיר את המזהים העקיפים אז התועלת ממאגר הנתונים עלולה‬
‫להיות קטנה יותר בלעדיהם (לדוגמה‪ -‬תאריך לידה‪ ,‬גיל‪ ,‬מגדר‪zip ,‬‬
‫‪.)code‬‬
‫סוויני קיוותה להצליח לאתר את המושל מתוך מאגר הנתונים הזה כדי‬
‫להוכיח שניתן לעקוף כאן את האנונימיות ולפגוע בפרטיות‪ .‬באמצעות‬
‫השלישיה הקריטית (‪ )zip code, birth date, sex‬היא הצליחה לאתר‬
‫את הרשומה של המושל ובכך עקפה את הפרטיות שהבטיחו‪.‬‬
‫סוויני מצאה את הרשומה של המושל בזכות ההצלבה שביצעה‪ ,‬בזכות‬
‫השילוב הייחודי של הפרטים שלו (המושל היה הרשומה היחידה‬
‫שכללה את כל הפרטים הללו)‪.‬‬
‫ומה מסתבר? ל‪ 87%‬מהאוכלוסייה בארה"ב יהיו ‪( unique‬ייחודיים)‬
‫בשילוב של ‪.zip code, birth date, sex‬‬
‫‪ -Linkage‬הצלבה‪ -‬משווים בין שני מאגרי מידע שונים על סמך‬

‫התכונות הדומות שניתן למצוא ברשומות השונות ובכך להגיע למצב‬
‫של זיהוי גם אם אחת הרשומות אמורה להיות אנונימית והותממה‪.‬‬
‫מה הפתרון? ‪K-Anonymity‬‬

‫סוויני הציעה שיטה שיכולה להצניע את המידע (אולם כיום‬
‫השיטה הזו פחות טובה)‪ -K .‬סימון מידת האנונימיות‬
‫שאנחנו רוצים לקבל‪ .‬קובעים את מידת האנונימיות הרצויה‬
‫‪( K‬כלומר מספר האנשים שאנחנו רוצים לקבל שיהיו דומים)‬
‫מבלי לקלקל את הנתונים‪.‬‬
‫כלומר המשמעות היא שאם קיבלנו רשומה מסוימת אז‬
‫נרצה שיהיו עוד ‪ K‬רשומות דומות‪.‬‬
‫בדוגמה הזאת לא מתקיימת אנונימיות כי היא היחידה‬
‫שמופיעה ברשימת הדאטה הרפואי עם תאריך לידה זה‪.‬‬
‫איך ניתן לבצע ‪?K-Anonymity‬‬

‫‪ .1‬הכללה‪ -‬נסתפק בפרטים פחות ספציפיים כמו למשל שנת לידה בלבד‪ ,‬או הגדלת טווח בכתובת ברחוב ספציפי לאזור‬
‫בשכונה ועוד‪.‬‬
‫‪ .2‬הסתרה‪ -‬מוותרים על רשומות יוצאות דופן (ערכים קיצוניים) כדי שלא נצטרך להכליל את כולם‪.‬‬
‫לדוגמה‪ -‬הטבלה העליונה היא הטבלה המקורית‪,‬‬

‫ומתחתיה טבלאות שבהן ביצעו הכללה והסירו מידע לא‬
‫רלוונטי‪.‬‬
‫המשפרים שמתחת לכל טבלה מציינים את כמות הגורמים‬
‫שאיבדנו בעקבות השינוי בנתונים‪.‬‬
‫בטבלה הימנית היו מעוניינים רק לדעת אם האדם היה‬
‫נשוי מתישהו במהלך חייו ולא משנה להם הסטטוס‬
‫העכשווי (אם עדיין נשוי‪ ,‬גרוש או אלמן)‪.‬‬
‫בטבלה השמאלית‪ ,‬היו מעוניינים לדעת רק מה שנת‬
‫הלידה‪ ,‬כך שישנה פחות ייחודיות כי הסירו ‪ 2‬גורמים‪-‬‬
‫חודש ויום וכן זה יותר כללי‪.‬‬
‫בריאות דיגיטלית ושיתוף נתונים רפואיים‬
‫דוגמאות למקרים שבהם כלל לא היו מזהים אישיים בנתונים‬
‫נתוני חיפוש‬
‫‪ AOL‬פרסמו עבור כל אדם איזה חיפושים הוא ביצע (ללא כל פרט מזהה)‪.‬‬
‫ועדיין‪ ,‬הצליחו למצוא אנשים באופן ספציפי‪ ,‬כמו האישה בתמונה (מצאו‬
‫אותה כי היא חיפשה הרבה את שם המשפחה שלה ועדו כל מיני‬
‫חיפושים)‪.‬‬
‫• במאגר שכזה לא ניתן לבצע ‪ K-Anonymity‬כי אנשים מחפשים‬
‫דברים שונים ולא ניתן לאתר אנשים שחיפשו בדיוק את אותו הדבר‪.‬‬
‫נתוני צפייה‬
‫נטפליקס שפרסמו את דירוגי המנויים שלהם‪ ,‬כאשר כל המידע המזהה‬
‫של הלקוחות הוסר‪ ,‬והשאירו רק את הדירוג והתאריכים‪.‬‬
‫מה הייתה הבעיה? חוקרים הראו כי בעזרת הצלבה עם הדירוגים‬
‫הפומביים מאתר ‪ IMDB‬הצליחו לזהות את הלקוחות ברשימת הדירוגים‬
‫של נטפליקס (ע"י הצלבה של שמות הסרטים והתאריכים)‪.‬‬
‫• אם נמחק את הסרטים שכולם רואים‪ ,‬אז הרגלי הצפייה שלנו יהפכו‬
‫לייחודיים‪ ,‬וכך למעשה ניתן לעקוף את הפרטיות ולזהות אנשים‬
‫למרות שזה מתיימר להיות אנונימי‪.‬‬
‫נתוני מיקום‬
‫חוקרים ביצעו מחקר אקדמי על נתונים של רשת סלולארית שמתארים ‪15‬‬
‫חודשי שימוש של משתמשי סלולר על בסיס מיקום של אנטנה סלולארית‬
‫מידי שעה (מידע פחות מדויק מ‪.)GPS‬‬
‫החוקרים טענו כי אחרי שמאמנים מספיק את המודל הזה‪ ,‬אז מספיק לתת‬
‫לו ‪ 4‬נקודות מיקום במהלך היום והוא יוכל לזהות את האדם בנתונים‬
‫בהסתברות של ‪.95%‬‬
‫במחקר נוסף שנעשה על ה‪ META DATA-‬על ציוצים של אנשים (נתונים‬

‫אודות הציוצים)‪ ,‬הצליחו לאמן אלגוריתם כך שבהינתן ציוץ חדש הוא יוכל‬
‫לזהות מי האדם שפרסם אותו‪.‬‬
‫איסוף הנתונים של נסיעות מוניות ברחבי ארה"ב יכול לעזור ל‪-‬‬

‫• אנשים שרוצים לדעת איך לתכנן את הנסיעות בניו יורק‪.‬‬
‫• מתחרים חדשים שרוצים להיכנס לתחום ירצו לדעת מהם התנאים‪.‬‬
‫• בנסיעות שיתופיות זה טוב למפעילים כי זה יכול לעזור להם לדעת‬
‫מאיפה ולאן להגיע כדי לאסוף נוסעים‪ .‬מצד שני‪ ,‬זה יכול להוות‬
‫פגיעה בפרטיות המשתמשים (כי יש נאסף מידע על המקום שאליו‬
‫הם נוסעים‪ .‬ולכן אולי כדאי לפרסם את המידע באיחור (למשל‬
‫פרסום המידע בהפרש של ‪ 24‬שעות לפחות) או לפרסם נתונים‬
‫אגרגטיביים (כמו מספר האנשים בזמן מסוים) למרות ששימוש‬
‫בנתונים כאלה עדיין לא חף מבעיות‪.‬‬
‫מסגרת האנונימיזציה בעת שיתוף נתונים‪Privacy vs. data utility (accuracy) : a tradeoff -‬‬
‫נצטרך ליצור מסגרת כללית שבה אנחנו רוצים לשתף מידע אך לא להפר את‬
‫הפרטיות באופן מוחלט‪ .‬כלומר‪ -‬צריך לחפש את האיזון בין כל פרט לפרט ובאופן‬
‫שידאג למידת הרגישות של הנתונים‪.‬‬
‫מסגרת קבלת החלטות האנונימיזציה (‪)ADF‬‬

‫• אנחנו לא יכולים להחליט בעצמנו אם הנתונים בטוחים לשיתוף או לא רק ע"י בחינת ה‪ data‬עצמו אלא יש לבחון את‬
‫העניין דרך מידע נוסף‪.‬‬
‫• אנחנו עדיין צריכים לבחון את הנתונים‪.‬‬
‫• ההתממה היא תהליך לייצור נתונים בטוחים (רק אם אנחנו מייצרים נתונים שימושיים בטוחים) וזאת תוך ידיעה‬
‫שההתממה עלולה לפגוע באיכות הנתונים‪.‬‬
‫• יש צורך בניהול סיכונים‪ -‬כי לא ניתן להגיע לאפס סיכון לפגיעה בנתונים‪.‬‬
‫• מידת ההשקעה שלנו תלויה במידת הסיכון של הנתונים‪ -‬כלומר אם הנתונים פחות מסוכנים כך כן יהיה יותר קל להסכים‬
‫שיהיו מספר אנשים שכן יאבדו את הפרטיות שלהם‪.‬‬
‫גישת מצב הנתונים‪:‬‬

‫• מהו המידע‬
‫• מיהם האנשים שמשתמשים בו ומה הם יכולים לעשות עם המידע‪.‬‬
‫כלומר ע"פ הגישה הזו‪ ,‬אנונימיזציה היא תהליך תלוי הקשר שדורש התייחסות לנתונים‬
‫וסביבתם כמערכת כוללת‪.‬‬
‫אנונימיזציה פונקציונלית‪ :‬ניתן לקבוע כי נתונים אנונימיים או לא ביחס לסביבתם בלבד‪.‬‬
‫ביטול זיהוי נתונים מעשי (‪)Practical data de-identification‬‬

‫כדי להבין את הדרכים שבהן ניתן לשרטט מחדש את ספקטרום ביטוי הזיהוי חשוב תחילה להבין את ההבדלים בין מזהים ישירים‬
‫לעקיפים וכיצד מפורסמים בדרך כלל מאגרי נתונים שלא מזוהים‪.‬‬
‫מזהים ישירים‪" :‬נתונים שניתן להשתמש בהם כדי לזהות אדם ללא מידע נוסף או עם קישור צולב באמצעות מידע אחר שנמצא‬
‫ברשות הציבור"‪ .‬הם כוללים שמות‪ ,‬מספרי ת"ז או מידע בסיסי ליצירת קשר ברור ושהסרתם או שינויים במקצת יהפוך את‬
‫הנתונים ל א‪-‬אישיים (ניתן לטפל בהם ע"י הסרתם או החלפתם בסמלים‪ ,‬שמות גנריים או ערכים אקראיים)‪.‬‬
‫מזהים עקיפים‪ :‬עוזרים לזהות אדם בעקיפין ע"י חיבור פיסות מידע שונות עד שניתן להבחין באדם מסוים‪ .‬המזהים העקיפים‬
‫הנפוצים ביותר כוללים תאריך לידה‪ ,‬גיל‪ ,‬מין‪ ,‬מיקוד ומידע דמוגרפי בסיסי אחר‪ .‬לא ניתן לזהות אדם על סמך מאפיין עקיף בלבד‬
‫אבל ככל שנוסיף עוד מזהים עקיפים מורכבים נוכל ליצור ולאתר את הזהות‪ .‬הסרתם של המזהים העקיפים עלולה לפגוע‬
‫בתועלת של מערך הנתונים כי הם מעבירים מידע כלשהו שעשוי להיות חשוב לניתוח בשלב מאוחר יותר‪ .‬ביטול של מזהים‬
‫עקיפים יכול להיות בין היתר‪ :‬דיכוי‪ ,‬הסרה‪ ,‬הכללת ערכים כסטים או טווחים‪ ,‬החלפת נתונים בין רשומות בודדות‪ ,‬לבלגן או‬
‫להוסיף רעש לנתונים הקיימים‪.‬‬
‫הבקרות ואמצעי ההגנה על השימוש בנתונים‬

‫• "מודל שחרר ושכח"‪ -‬הנתונים מפורסמים בפומבי או זמינים באינטרנט‪.‬‬
‫• "מודל הסכמי השימוש בנתונים"‪ -‬הנתונים מסופקים במסגרת חוזים מחייבים מבחינה משפטית אשר מפרטים כיצד‬
‫ניתן ואסור להשתמש בנתונים‪.‬‬
‫• "מודל המובלעת"‪ -‬הנתונים נשמרים בסוד של מובלעת נפרדת שמקבלת שאילתות מחוקרים מוסמכים‪ ,‬מפעילה את‬
‫השאילתות על הנתונים שלא זוהו ומגיבה עם התוצאות‪.‬‬
‫אמצעי ההגנה ובקרות לא טכניים‪:‬‬

‫‪ .1‬בקרות פנימיות‪ -‬מדיניות אבטחה‪ ,‬מגבלות גישה‪ ,‬הדרכת עובדים‪ ,‬הנחיות הפרדת נתונים ונהלי מחיקת נתונים‬
‫שמטרתם למנוע ניצול או דליפה של מידע סודי לציבור‪.‬‬
‫‪ .2‬הגנות חוזיות ומשפטיות חיצוניות‪ -‬תנאים חוזיים שמגבילים את האופן שבו שותפים משתמשים ומשתפים מידע ואת‬
‫הסעדים וזכויות הביקורת המתאימות כדי להבטיח תאימות‪.‬‬
‫ע"י אמצעי ההכנה המנהליים הארגונים מספקים הגנות פרטיות חשובות ללא תלות בביטול זיהוי טכני‪.‬‬
‫המדריך החזותי לביטול זיהוי נתונים מעשי‬

‫למה מתכוונים מדענים‪ ,‬רגולטורים ועורכי דין‬
‫כשהם מדברים על ביטול זיהוי? במה שונים‬
‫נתונים אנונימיים ממידע בדוי או לא מזוהה? זיהוי‬
‫הנתונים אינו בינארי‪ .‬הנתונים נמצאים על‬
‫ספקטרום עם מספר גוונים של זיהוי‪.‬‬
‫דרגות זיהוי‬
‫מידע המכיל מזהים ישירים ועקיפים‪.‬‬
‫• אישי באופן מפורש (מזהים ישירים)‪ -‬שם‪ ,‬כתובת‪ ,‬מספר טלפון‪ ,SSN ,‬תעודה מזהה רשמית‪.‬‬
‫• ניתן לזיהוי פוטנציאלי (מזהים עקיפים) ‪ -‬מזהה מכשיר ייחודי‪ ,‬לוחית רישוי‪ ,‬מספר תיק רפואי‪ ,‬קובץ ‪ ,Cookie‬כתובת ‪.IP‬‬
‫• לא ניתן לזיהוי בקלות‪ -‬זהה לזיהוי פוטנציאלי למעט נתונים מוגנים גם על ידי אמצעי הגנה ובקרה‪.‬‬
‫הרגולטורים יכולים לנצל את דרגות הזיהוי הללו כדי להטיל מגבלות שימוש מגוונות יותר מדומה למסגרות של רגולציה עצמית‬
‫בארה"ב‪ .‬לדוגמה‪ ,‬קוד ההתנהגות של ‪ NAI‬מחיל חובות להודעה‪ ,‬בחירה‪ ,‬ביטול הסכמה ואי אלפיה על מערכי נתונים‬
‫המוגדרים כלא אישיים (אנונימיים או בלתי ניתנים לזיהוי בעליל)‪ .‬בנוסף‪ ,‬עקרונות הרגולציה העצמית של ה‪ DAA -‬קובעים גם‬
‫הגנות על מזהים בדויים ‪.‬‬
‫נתונים פסאודונימים‬
‫מידע שמזהים ישירים בוטלו או עברו טרנספורמציה‪ ,‬אך מזהים‬
‫כדי לקבוע אם אדם ניתן לזיהוי‪ ,‬יש לקחת בחשבון את כל‬ ‫עקיפים נותרו ללא פגע‪.‬‬
‫האמצעים הסבירים שייעשה בהם שימוש או על ידי הבקר או‬ ‫• מפתח מקודד‪ -‬נתונים מקודדים הם מידע אישי המאפשר‬
‫על ידי כל אדם אחר‪.‬‬ ‫זיהוי שהוסר ממנו מזהים ישירים‪ ,‬אשר הוחלפו במפתח כדי‬
‫אם הרגולטורים יתייחסו לכל הנתונים המקודדים ככאלה‬ ‫למנוע זיהוי מחדש לא רצוי או לא מכוון‪ .‬מדובר במערכי נתונים‬
‫הניתנים לזיהוי בקלות ולא יתייחסו לבקרות ואמצעי ההגנה‬ ‫קליניים או מחקריים שבהם רק האוצר שומר על המפתח כדי‬
‫על אותם נתונים מקודדים אז החוקרים יאלצו להקריב נתונים‬ ‫לשמור על היכולת לקשר נתוני מחקר בחזרה לחולים‬
‫שימושיים כדי לעמוד בסטנדרטים של ביטול הזיהוי‪.‬‬ ‫ספציפיים כדי שיוכלו לטפל בהם בהתאם לבעיה‪.‬‬
‫פסאודונימי‪ -‬שמות בדוי מלאכותיים ייחודיים מחליפים‬ ‫•‬

‫מזהים ישירים (מזהים ישירים בוטלו או עברו‬
‫ע"פ ה‪ GDRP -‬פסאודונימיזציה מוגדר כ"עיבוד של נתונים‬
‫טרנספורמציה‪ ,‬אך מזהים עקיפים נשארים ללא פגעי הגנה‬
‫אישיים באופן שלא ניתן עוד לייחס את הנתונים לנושא מידע‬
‫או בקרה על שחרורם)‪ .‬ניתן להבחין בין נתונים בדויים‬
‫ספציפי ללא שימוש במידע נוסף‪ ,‬כל עוד מידע נוסף כזה‬
‫לנתונים הניתנים לזיהוי פוטנציאלי או לא ניתנים לזיהוי‬
‫נשמר בנפרד ובכפוף לאמצעים טכניים וארגוניים כדי‬
‫בכך שהנתונים הבדויים ניתנים לקישור אך ורק למזהה אד‪-‬‬
‫להבטיח אי ייחוס לאדם מזוהה או מזוהה"‪.‬‬
‫הוק שאין לו חיים מחוץ להקשר הספציפי שבו נעשה בו‬
‫שימוש‪ .‬כלומר נתונים בדויים אינם מכילים כל מזהה ישיר‬
‫שניתן להשתמש בו כדי לקשר נתונים בין הקשרים‪.‬‬
‫פסאודונימי מוגן‪ -‬זהה לפסאודונימי‪ ,‬אלא שהנתונים מוגנים גם על ידי אמצעי הגנה ובקרות‪ .‬לדוגמה‪ -‬מבחן ‪ 2‬החלקים‬ ‫•‬
‫של ה‪ FTC -‬שבו בודקים האם ניתן לנקות מזהה או שהוקצה מחדש; האם קיים מסד נתונים נגיש בקלות; או האם הנתונים‬
‫נגזרים ישירות מה‪.PII-‬‬
‫נתונים ללא זיהוי‬

‫מזהים ישירים וידועים עקיפים הוסרו או טופלו באופן שמפר את הקשר בין המידע לנושא הנתונים כדי לשבור את הקישור‬
‫לזהויות בעולם האמיתי‪ .‬שככל שהאמצעים והבקרות מחמירים יותר‪ ,‬הנתונים חייבים להיות פחות מופרעים כדי להשיג סיכון‬
‫נמוך מספיק לזיהוי מחדש; כאשר הנתונים מופרעים יותר‪ ,‬יש צורך בפחות פקדים‪.‬‬
‫• ללא זיהוי‪ -‬הנתונים מדוכאים‪ ,‬מוכללים‪ ,‬מופרעים‪ ,‬מוחלפים‪.‬‬
‫• מוגן ללא זיהוי‪ -‬זהה ל‪ -‬ללא זיהוי‪ ,‬אלא שהנתונים מוגנים גם על ידי אמצעי הגנה ובקרות‪.‬‬
‫נתונים אנונימיים‬
‫מזהים ישירים ועקיפים הוסרו או טופלו יחד עם ערבויות מתמטיות וטכניות כדי למנוע זיהוי מחדש‪.‬‬
‫• אנונימי‪ -‬לדוגמה‪ ,‬רעש מכויל לקבוצת נתונים כדי להסתיר אם אדם נוכח או לא (פרטיות דיפרנציאלית)‪.‬‬
‫• אנונימי מצטבר‪ -‬נתונים מצטברים מאוד עד כדי כך שאמצעי הגנה או בקרה נוספים אינם רלוונטיים עוד (לדוגמה‪ ,‬נתונים‬
‫סטטיסטיים‪ ,‬נתוני מפקד אוכלוסין או נתוני אוכלוסייה ש‪ 52.6%-‬מתושבי וושינגטון ‪ DC‬הן נשים)‪.‬‬
‫פרטיות דיפרנציאלית‬
‫פרטיות דיפרנציאלית היא כאשר נרצה לאפשר את ניתוח הנתונים מבלי לתת את‬
‫הנתונים עצמם‪ .‬מסתכלים על התהליך שייצר את התוצאה שאנחנו מפרסמים‪ ,‬ולא‬
‫האם הפרסום עצמו הוא זה שפוגע בפרטיות או לא‪ .‬כלומר הפרטיות הדיפרנציאלית‬
‫מוודאת שההסתברות ששאילתה סטטיסטית תייצר תוצאה נתונה תהיה זהה בין‬
‫אם היא מבוססת על מסד נתונים שמכיל את האינפורמציה שלנו ובין אם היא‬
‫"או שזה לא נתונים או שזה לא מזוהה"‬ ‫תתבסס על מסד נתונים שלא מכיל את האינפורמציה האישית עלינו‪.‬‬
‫האתגרים‪:‬‬
‫• בעיית ההרכבה (‪ -)composition‬אנחנו שואלים שאלות שאולי לא קשורות‪ ,‬אחת לשנייה אבל אם נרכיב את השאלות‬
‫ביחד אז נוכל לזהות את האדם ולשבור את הפרטיות‪.‬‬
‫• הצלבת מידע (‪ -)linkage‬כשמפרסמים מאגר נתונים שאני קיימת בו יוכלו אולי להצליב את המידע עם מקורות אחרים‬
‫וכך לזהות אותי‪.‬‬
‫שיטה זו מאפשרת להתמודד עם בעיית ההצלבה וההרכבה‪ ,‬כלומר לשאול שאלות מבלי שהרכבתן ביחד תביא לפגיעה בפרטיות‪.‬‬
‫טכניקות אפשריות‪:‬‬
‫• להסוות את התגובות של חריגים ‪ -‬כמו הכנסה של מיליארדר‪,‬‬
‫• להיות פחות מדויק‪ ,‬למשל‪ ,‬על ידי דיווח על גילאים בטווחים של ‪ 5‬שנים במקום שנה בודדת‪,‬‬
‫• החלפת מידע עם משיב בעל מאפיינים דומים רבים המתגורר בבלוק אחר‪.‬‬
‫הנדסת פרטיות‬
‫‪ 7‬עקרונות השיטה‪:‬‬
‫‪ .1‬פרואקטיבי ולא תגובתי; מונע ולא מתקן‪ -‬כלומר לתכנן מראש את המערכת‬
‫באופן שימנע את הפגיעה בפרטיות‪.‬‬
‫‪ .2‬פרטיות כברירית מחדל‪ -‬המשתמש יחליט מאופן יזום אם לשתף את המידע‪.‬‬
‫‪ .3‬פרטיות מוטמעת בעיצוב‬
‫‪ .4‬פונקציונליות מלאה‪ -‬סכום חיובי‪ ,‬לא אפס‪ ,‬כלומר שהמערכת תהיה יעילה‬
‫החברה הזו פיתחה כלי מאפשר לשמור תמונות‬
‫וסרטוני ווידאו באופן שמשמר פרטיות (המערכת‬
‫ושימושית ולא תיפגע בגלל שצריך לשמור על הפרטיות (זה הדבר שהכי קשה‬
‫משנה את התמונות של הפנים כל שלא יוכלו‬ ‫ליישם)‪.‬‬
‫לשהות את הפנים בעזרת מערכת לזיהוי פנים)‪.‬‬ ‫‪ .5‬אבטחה מקצה לקצה‬
‫‪ .6‬נראות ושקיפות‪ -‬הסברים קצרים וברורים‪.‬‬
‫‪ .7‬יש לשמור ולכבד את פרטיות המשתמש‪.‬‬
‫חומרת ההפרה היא המפתח להבנה האם יריבים קרובים ייפגעו או יעזרו מהמזל הרע‬
‫של המתחרים שלהם‪.‬‬
‫• ‪ -Spillover effect‬אות פריצה קטנה יותר לכך שגם אחרים בתעשייה עלולים‬
‫להיות חשופים לפריצה‪ .‬כלומר מניחים שאם היה אירוע של פריצת מידע בחברה‬
‫מסוימת אז חברות דומות יכולות להינזק גם הן מהאירוע בטענה שאם זה קרה‬
‫בחברה ‪ X‬זה יכול לקרות גם בחברה ‪.Y‬‬
‫• ‪ -Competitive effect‬פרצת נתונים גדולה יוצרת את הרושם שהחברה שנפרצה היא כמות ייחודית של צרות‪ .‬כלומר אם‬
‫יש אירוע יוצא דופן (פריצה מאסיבית או כשל חמור) אז המתחרים דווקא ירוויחו מהמצב הזה (בטענה שאם אצלם זה לא‬
‫קרה אז הם יותר טובים)‪.‬‬
‫מה אפשר לעשות במקרה הזה?‬

‫• שקיפות‪ -‬להסביר ללקוחות איזה מידע החברה מחזיקה אודותם ואיך היא‬
‫משתמשת ומשתפת את המידע עליהם‪.‬‬
‫• שליטה‪ -‬נותנים ללקוח שליטה על השימוש ושיתוף המידע אודותיו‪ .‬שיטה זו‬
‫מאפשרת ללקוח לחזור ולבטל את הסכמתו לנהלי הנתונים של החברה‪.‬‬
‫הממצאים‪ -‬התברר שציונים טובים במדדים הללו עשויים להגן על החברה מאפקט‬
‫ה‪ .spillover -‬זה תמריץ נוסף שגורם לארגונים להבין ששמירה כנה ואמיתית על‬
‫הפרטיות עשויה לסייע להם כי למשתמשים אכפת והם כן מעריכים חברה שמראה‬
‫שההתנהלות שלה יותר שקופה ובטוחה‪.‬‬
‫קאת'י אוניל‪( "The era of blind faith in big data must end" -‬הרצאת ‪ TED‬קצרה)‬
‫מאמנים אלגוריתם בעזרת נתונים שנאספו בעבר ומגדירים מהי הצלחה‪ ,‬כאשר הדעה של האלגוריתם מקודדת בקוד (לעומת‬
‫בני אדם שמחליטים בעצמם מהי הדעה שלהם)‪ .‬כשאנחנו מאמינים באמונה עיוורת על מאגרי הנתונים זה יכול להיות בעייתי‪,‬‬
‫כמו למשל מורה שקיבלה ציון טוב מהמנהל שלה ומהורי התלמידים אולם פוטרה בכל זאת בכלל האלגוריתם‪.‬‬
‫בחברת ‪ FOX NEWS‬הציעו להחליף את מערכת גיוס העובדים באלגוריתם שאמור להתבסס על נתוני העבר ובעזרת המידע‬
‫הזה האלגוריתם מחפש מהי ההגדרה של הצלחה‪ .‬מכיוון שבהינתן המידע הזה לא היו‬
‫"האלגוריתמים מחביאים מידע‬ ‫הרבה נשים שקודמו בחברה יצא מצב שנשים הוצאו מחוץ לאפשרות הקידום והגיוס‪.‬‬
‫בקופסה שחורה ואז עוד קוראים‬
‫לתהליך אובייקטיבי"‪.‬‬ ‫• כלומר יוצא מצב שהאלגוריתם הסתמך על נתוני העבר וכך למעשה שיחזר אותו‪.‬‬
‫הטיות בקבלת החלטות אלגוריתמית‬

‫מערכות האלגוריתמים והבינה‬ ‫המוטיבציה‪ :‬בהתאם להרצאה של קאת'י אוניל ‪ ,‬האלגוריתמים נמצאים בכל מקום‪ ,‬ועוזרים‬
‫המלאכותית‪-‬‬ ‫לנו לקבל החלטות‪ ,‬כאשר לעיתים קרובות מדובר ב"קופסה שחורה" (יש הטוענים שתהליך‬
‫קבלת ההחלטות מורכב ושלא ניתן להסביר אותו‪ ,‬ושיש חברות שלעיתים כלל לא רוצות‬
‫פיתוח המודלים וכוח המחשוב‬
‫שעובד על הכלים האלגוריתמיים‬ ‫לחשוף את האלגוריתם)‪ .‬בנוסף‪ ,‬אנחנו יודעים שהאלגוריתמים יכולים להיות מוטים‬
‫ועלולים לגרום נזק משמעותי לאנשים‪.‬‬
‫מזהם מאוד ופוגע בסביבה!‬
‫• בהרצאה נוספת של קאת'י אוניל היא נותנת דוגמה לאדם שעשה מבחן אישיות כדי‬
‫להתקבל לעבודה ברשת מרכולים אך לא התקבל‪ .‬הוא גילה שהסיבה שלא התקבל‬
‫רק בזכות שלחברו שעובד בחברה הייתה גישה למבחנים וגילה כי לא התקבל לעבודה בגלל שענה בחיוב על שאלה‬
‫שקשורה לבריאות נפשית‪ .‬זאת דוגמה לכך שהחברה לא רוצה לחשוף את האלגוריתם‪ ,‬את הסיבות לקבלה או אי קבלה‬
‫לעבודה‪ ,‬שבמקרה זה התגלו עקב קשרים אישיים שאין לכל מועמד‪ .‬בנוסף בהקשר לעניין זה‪ ,‬החברה למעשה עושה סוג‬
‫של אפליה כלפי אנשים שאולי התמודדו או נתקלו בקשיי נפש ובאמצעות השאלה החברה ידעה ובחרה שלא לקבל אותם‬
‫לעבודה‪ ,‬למרות שמבחינת החוק בארה"ב אסור להם בכלל לכלול שאלות בגנון הזה בעת קבלה לעבודה (כי שאלות מסוג‬
‫זה לא אמורות להטות את הכף בענייני הקבלה לעבודה)‪.‬‬
‫לדוגמה‪ -‬גוגל תרגום‬

‫בטקט שתורגם משפה שאינה מגדרית ניתן לראות הטיה מגדרית‬
‫בתרגום‪ -‬שהמורה היא אישה והרופא הוא גבר‪.‬‬
‫המערכת כנראה ניזונה מטקסטים זמינים שנאספו‪ ,‬והתרגום הוא ככל‬
‫הנראה ע"פ ההסתברות הגבוהה בהסתמך על המידע שעליו מתבסס‬
‫האלגוריתם‪.‬‬
‫דוגמה נוספת‪ -‬זיהוי תמונות‬

‫גוגל תייגה פרצופים של אנשים כהי עור כגורילות‪ ,‬ופייסבוק הציעה‬
‫למשתמשים שלה לראות עוד סרטונים על קופים (אנשים כהי עור)‪.‬‬
‫מובן שיש כאן טעות‪ ,‬כי מערכות זיהוי עצמים ופנים מבוססות בעיקר על‬
‫מאגרי מידע של גברים מערביים לבנים דבר שגורם להן להיות מוטות‬
‫(הטיה בכלל הדאטה)‪.‬‬
‫• באופן כללי נוטים יותר לטעות בזיהוי של אנשים כהי עור‪ ,‬נשים‪,‬‬
‫מלוכסנים (כל אלה שמופיעים פחות במאגרי המידע ולכן לאלגוריתם‬
‫יש פחות מידע שהוא יכול להתבסס עליו כדי לשהות אותם)‪.‬‬
‫אנחנו אמנם יכולים לטעות שאנחנו בראשית עידן הטכנולוגיה הזו ושהיא‬
‫יכולה להשתפר אבל מכיוון שהמערכות הללו כבר בשימוש הדבר בעייתי כל‬
‫עוד הן מוטות‪.‬‬
‫לדוגמה‪ -‬פלסטיני נעצר בארץ כי מערכת אוטומטית שסורקת פוסטים‬
‫בפייסבוק תרגמה פוסט שכתב בו "בוקר טוב" ל‪" -‬תקפו אותם"‪ .‬אמנם‬
‫שיחררו אותו בסוף‪ ,‬אבל הדוגמה הזו רק ממחישה שהמערכות הללו מוטות‬
‫ועושות טעויות ואנשים לא מודעים לכך‪ ,‬שהן לא בהכרח בשלות עדיין ולכן‬
‫אולי צריך להסתכל עליהן בזהירות יתרה‪.‬‬
‫כלומר חשוב לעקוב אחרי מידת הדיוק בפועל בשימוש במערכת ולא להאמין באמונה עיוורת באחוזי הדיוק שהמתכנתים‬
‫מתיימרים לספר עליהם‪.‬‬
‫גישת הצדק וההוגנות בהקשר זה‪ -‬אנחנו לא רוצים שההחלטות יהיו‬

‫מפלות בין אוכלוסיות‪ ,‬אלא שיתנהגו לכולם באותה הצורה‪ -‬כלומר‬
‫לבנות אתה מערכת מאחורי "מסך של בורות"‪ .‬אנחנו לא יודעים מי‬
‫יהיה מאחורי המערכת וצריך שהיא תתייחס לכולם באופן שווה‪.‬‬
‫מערכת אוטומטית נשמעת פתרון קלאסי‪ -‬אם מגיע אדם שמשתייך‬
‫למיעוט‪ ,‬האלגוריתם יכול להתעלם מכל מה שנגדיר לו וכך לקבל‬
‫החלטה שלא מתייחסת למידע לא רלוונטי (אבל כמו שגם ראינו‪ ,‬גם‬
‫המערכת האוטומטית יכולה להיות מוטה אם חסר לה מידע או שהיא‬
‫מבוססת על מידע ספציפי ולא מספיק מגוון)‪.‬‬
‫עולה השאלה‪ -‬מה צודק‪ /‬הוגן?‬

‫האם נרצה לתת עדיפות לאוכלוסיות שבאופן טבעי נוטות יותר‬
‫"להידפק" במציאות? האם בכלל כדאי לאפשר אפליה מתקנת?‬
‫(‪ )Equity‬או שיש להתייחס לכולם באופן שווה לחלוטין?‬
‫(‪)Equality‬‬
‫דוגמה שלישית‪Fairness through blindness -‬‬

‫כדי להתקבל לתזמורת באירופה בעבר ניתן היה לגשת‬
‫לאודישנים רק דרך מורי נגינה מסוימים‪ .‬כאשר החליטו‬
‫על אודישנים פתוחים שבהם כל אחד יכול להגיע‬
‫ולהיבחן לתזמורת ראו ששיעור הנשים שהתקבלו היה‬
‫נמוך יותר לאחר פתיחת האודישנים לקהל הרחב‪.‬‬
‫ולכן‪ ,‬החליטו להיות עיוורים למשתנה המגדר וערכו‬
‫אודישנים עיוורים‪ -‬הנגנים נבחנו מאחורי מסך‪ ,‬ואכן‬
‫שיעור הנשים שהתקבלו לתזמורת עלה‪.‬‬
‫אולם עלתה בעיה‪ ,‬אמנם יש מסך שמסתיר את זהות‬
‫הנגנים שנבחנים‪ ,‬אבל נשים רבות עלו לבמה עם נעלי‬
‫עקב שעשו רעש בעת כניסתן לבמה‪ .‬כאשר ביקשו‬
‫מהנשים לעלות יחפות לבמה‪ -‬גם אז עלה שיעור הנשים שהתקבלו‪.‬‬
‫מה זה אומר? גם אם אנחנו מנסים להיות עיוורים לכל מיני משתנים זה לא אומר שהם לא יכולים לחדור למערכת ההחלטה‬
‫שלנו בדרכים עקיפות‪.‬‬
‫דוגמה רביעית‪Apple Card -‬‬

‫לאחר השקת כרטיס האשראי של אפל‪ ,‬הופיעו באינטרנט‬
‫תלונות של נשים שטענו כי קיבלו מסגרת אשראי נמוכה מידי‪.‬‬
‫בביקורת מסוימת ראו כי היה זוג שחולק את כל רכושם‪,‬‬
‫ממלאים דוחות מס ביחד ובעלי חשבון משותף‪ ,‬והגבר עדיין‬
‫קיבל אשראי גדול פי ‪ 20‬מזוגתו‪.‬‬
‫בהתחלה לא ידעו להגדיר ב‪ Apple‬כלום וטענו שזה‬
‫האלגוריתם‪ ,‬ושלא תיתכן אפליה כי הוא נבדק ע"י מומחים‬
‫רבים (הם לא ידעו להסביר למה זאת המסגרת שניתנה באופן‬
‫אוטומטי ע"י המערכת)‪.‬‬
‫בהודעה של אפל שיצאה בהמשך הם טוענים כי‪" :‬אנחנו לא‬

‫יודעים מה מינו של האדם או הסטטוס המשפחתי שלו בעת‬
‫הנפקת האשראי‪ ...‬אנחנו בוודאות לא מפלים כי אנחנו מראש‬
‫לא יודעים את המין"‪.‬‬
‫אולם‪ ,‬הסתבר בסופו של דבר שהייתה קבוצה של נשים שהיו‬
‫חסרים להן נתוני אשראי היסטוריים כי האשראי היה על שם‬
‫הגבר‪ ,‬דבר שגרם למערכת לקבוע להן דירוג אשראי נמוך – עקב‬
‫מחסור בנתונים פיננסיים אודותיהן‪.‬‬
‫בדומה לרעשי העקבים או היסטורית הקניות‪ ,‬העובדה שיש מסך לא אומרת שנתון מסוים לא יכול להיכנס ולהשפיע בצורה‬
‫עקיפה‪ .‬ולכן דווקא כדי לבדוק אם קיימת הטיה או שלא‪ ,‬דווקא כן צריך את הפרטים האלה (כמו מוצא‪ ,‬מין וכו') כדי לבדוק‬
‫שהמערכת לא מוטה‪.‬‬
‫דוגמה חמישית‪ -‬מערכת הבריאות‬

‫המערכת נועדה לזהות חולים כרוניים עם מצבים בריאותיים מורכבים‬
‫על מנת לאפשר להם קדימות בתורים‪ ,‬לוודא שיראו רופא בתדירות‬
‫גבוהה‪ ,‬לתת הסברים על תוצאות הבדיקות ולוודא שהם מקבלים את‬
‫התרופות שלהם כדי שמצבם לא ידרדר‪.‬‬
‫המערכת הייתה אמורה להיות תומכת החלטה‪ -‬כלומר לתת דירוג‬
‫ולקבוע מי נמצא בסיכון יותר גבוה‪.‬‬
‫החוקרים קיבלו נתונים מבית החולים וביקשו לבדוק אותם והתברר‬
‫שחולים שחורים מופלים לרעה‪ -‬למרות שהם חולים במידה רבה יותר‬
‫מהחולים הלבנים הם הוצאו מהדירוג (ולכן אנשים שחורים שהיו‬
‫אמורים לקבל טיפול אקסטרה לא מקבלים אותו)‪.‬‬
‫איך נלמד את המערכת לא להפלות? מה מכניסים למערכת שנועדה לזהות עד כמה החולה חולה? יש לנו היסטוריה של אירועים‬
‫בריאותיים שנצברו אבל איך המערכת יודעת לאבחן את מצב החולה‪ ,‬הרי היא לא רופא‪.‬‬
‫• הפתרון הוא לתת למערכת מידע רפואי מתויג‪ -‬נניח לקחת רשימה של בדיקות שנבדקו ע"י גורם אנושים שנתן עליהן ציון‪.‬‬
‫• הבעיה היא שאין לנו דירוג כזה בנתוני העבר‪ ,‬וגם אם נושיב רופא מומחה הוא לא יוכל להצליח לשבת ולתייג מיליוני מקרים‬
‫כדי שלדאטה יהיה על מה להסתמך‪.‬‬
‫יכול להיות אולי שבמקרה הזה זה נעשה ממניעים עסקיים‪ -‬המערכת לא פותחה ע"י רופאים אלא ע"י חברות הביטוח שיש לה‬
‫נתונים אודות העלויות שנבעו לה בשל הטיפולים ההיסטוריים של האדם‪ .‬יכול להיות שחברת הביטוח בכלל רוצה לזהות את‬
‫החולים שגורמים לעלויות גבוהות כדי לטפל בהם ולשמור על בריאותם וכך למנוע מהחברה עלויות כבדות עוד יותר בעתיד‪ .‬מה‬
‫שכן‪ ,‬היא לא לקחה בחשבון חולים שלא נמצאים אצלה במאגר כמו אוכלוסיית השחורים שגם ככה לא באים לקבל טיפול או‬
‫שמראש אין להם ביטוח (כלומר בגלל שאוכלוסיית השחורים מייצרת פחות עלויות אז המשתנה הזה של עלויות בגין טיפולים‬
‫דווקא דפק אותם)‪ .‬ניסו לתקן הוסיפו הסתברות לאירועים בריאותיים בשנה הקרובה‪.‬‬
‫דאטה שלא מתויג היטב הוא דבר נפוץ מאוד‪ .‬היינו חושבים שיעבוד כאן "חוק המספרים הגדולים"‪ -‬על פני מספרים גדולים של‬
‫נתונים הטעויות יתקזזו‪ ,‬אבל זה לא המקרה‪ -‬העובדה שיש הרבה דאטה לא פותרת בעיות‪.‬‬
‫לדוגמה‪:‬‬
‫במערכות של תורים‪ -‬המערכות נבנות במטרה שהרופא לא יהיה בטל מעבודה כי הרופא הוא המשאב היקר ביותר ולא רוצים‬
‫שהרופא יחכה‪ ,‬ולכן התורים דחוסים ‪ -‬הרווחים בין התורים לא תואמים את משך התור האמיתי‪ ,‬כי המערכת יודעת שחלק‬
‫מהאנשים לא יגיעו‪ .‬עדיף שאנחנו נחכה בתור מאשר שהמומחה יחכה לנו מבחינת המערכת‪.‬‬
‫אפשר ממש לדעת מי האנשים שלא מגיעים לתור ‪ -‬אנשים שמאחרים או לא מגיעים "נקנסים" – נדחקים לתורים יותר רחוקים‪,‬‬
‫שעות לא נוחות ועמוסות‪ .‬יש טענות שזה מפלה אוכלוסיות קשות יום‪ :‬למשל אנשים עובדים שתלויים בתחבורה ציבורית‬
‫ועלולים להתעכב‪.‬‬
‫דוגמה שישית‪ -‬מערכת ‪COMPAS‬‬

‫המערכת יודעת מה הרקע הפלילי של העצור (משפט‪ ,‬סוג עבירות‪,‬‬
‫מעצרים‪ )...‬וגם מתבססת על שאלון אישיותי שהעצורים מקבלים‬
‫(הבית שבו גדלו‪ ,‬החינוך שקיבלו‪ ,‬נטייה להתעצבן בקלות‪ )...‬השאלון‬
‫שואל שאלות שבית המשפט לא יכול לשאול‪ :‬למשל אם אחד ההורים‬
‫נעצר בעבר‪.‬‬
‫המערכת נותנת דירוג סיכון ‪ -‬סיכון נמוך עד סיכון גבוה‪ ,‬והמטרה‬
‫שלה היא טובה כי יש תלונות רבות בארה"ב על גזענות של שופטים‪,‬‬
‫וגם יש עומס גדול בבתי המשפט‪.‬‬
‫המערכת תומכת החלטה‪ ,‬היא עיוורת לדברים שלא נרצה להתבסס‬
‫עליהם‪ ,‬ולא תקבע אם אדם יישאר במעצר אבל כן תשמש תוספת לשופט‪.‬‬
‫בדקו לאורך שנים מתאם בין דירוג המערכת לבין פשעים שביצעו בשנים שלאחר משפטם‪ ,‬והתברר שהמערכת הייתה מוטה‬
‫באופן ברור נגד שחורים (עולות טענות שגם אם לא נשאל "האם אתה שחור?"‪ ,‬אפשר לזהות זאת על פי שכונות מגורים למשל)‪.‬‬
‫בנוסף‪ ,‬לפעמים מפתחים מערכת במדינה אחת על אוכלוסייה מסוימת אבל בפועל‬
‫משתמשים בה במדינות אחרות עם אוכלוסיות שונות‪ -‬דבר שיכול להשפיע באופן‬
‫שונה ולהוביל לתוצאות שונות‪.‬‬
‫במקרה הזה עשו בדיקה על אנשים רגילים ולא על מומחים ובדקו האם הם ישנו את‬
‫הדעה שלהם בעקבות הדעה של המחשב? המחשב קבע שעץ ‪( A‬השמאלי) הוא‬
‫הכי גבוה‪ ,‬כך שממצב שבו רוב האנשים אמרו שעץ ‪( B‬האמצעי) הכי גבוה‪ ,‬לאחר‬
‫החשיפה לדעת המחשב‪ ,‬רק ‪ 14%‬מהאנשים כעת טענו שעץ ‪ B‬הוא הכי כבוה‪.‬‬
‫אולם אצל מומחים הדבר שונה‪ ,‬הם פחות נוטים לקבל את הדעה של המערכת‬
‫(מכיוון שיש עלות ללכת ולעשות בדיקות לאדם בריא)‪ .‬אם כך‪ ,‬מדוע עדיין מכניסים‬
‫את המערכות הללו? כי הן לא אמורות להחליף את הרופא‪ ,‬אלא שהמטרה שלהן היא לזהות דברים שיכולים להיות בעייתיים‪.‬‬
‫מערכות תומכות החלטה במערכת הרווחה בארה"ב‪-‬‬

‫המערכת נותנת דירוג לפי מידת הסיכון לילד ולפיה מחליטים האם‬
‫להוציא את הילד מהבית בשנתיים הקרובות (על סמך דאטה‬
‫היסטורי) או האם יהיו פניות חוזרות‪.‬‬
‫היו תלונות על כך שהמערכת הזו גזענית‪ -‬נתנו הרבה יותר דירוגים‬
‫גבוהים בקרב משפחות מאוכלוסיות שחורות‪.‬‬
‫ונראה כי כאשר מקבלי החלטות אנושיים עוברים על התוצאות של‬
‫האלגוריתם ומחליטים האם לשנות את ההחלטה אז הפער‬
‫מצטמצם (כנראה בין היתר גם בעקבות העובדה שגורמי המקצוע‬
‫מודעים לכך שכנראה שהמערכת עצמה מוטה)‪.‬‬
‫איך נמדוד הוגנות?‬

‫מפתחי המערכות טוענים שהאלגוריתם יודע לחזות בצורה שווה‪.‬‬
‫נשאלת השאלה מהי הפליה? מה אנחנו רוצים לדאוג שייראה שווה‬
‫בין האוכלוסיות השונות בעיניי המערכת?‬
‫המצב קיים בארה"ב‪ :‬שתי אוכלוסיות עם רמות פשיעה שהן בפועל‬
‫שונות‪ .‬בקרב שחורים יש פשיעה רבה יותר מאשר בקרב לבנים‪.‬‬
‫הסבר השקופית‪ :‬נניח באוכלוסייה אחת זיהנו שלושה עצורים‬

‫כסיכון גבוה‪ ,‬ובאוכלוסייה השנייה זיהנו שישה עצורים כסיכון גבוה‪-‬‬
‫זה בסדר כי באמת יש באוכלוסייה השנייה יותר פשיעה‪.‬‬
‫המפתחים טוענים‪ :‬יש לנו שוויון במידת החיזוי באוכלוסיות שונות‪ -‬כי הצליחו לזהות שניים מתוך שישה שאנשים שחזרו‬
‫ופשעו‪ ,‬הצליחו לזהות ארבעה מתוך שישה שחזרו ופשעו‪ .‬כלומר אנחנו מצליחים במידה שווה‪ :‬שני שלישים ושני שלישים‪.‬‬
‫אבל ה‪ false positive -‬הוא פי ‪ ,2‬ובתחומים כאלה אנחנו צריכים להיזהר מה‪ false positive -‬כי אנחנו לא רוצים שאנשים‬
‫יעצרו לשווא‪.‬‬
‫• באוכלוסייה עם הפשיעה הגבוהה יותר‪ 2 :‬מתוך ‪ ,4‬כלומר חצי סווגו כסיכון גבוה על אף שלא היו‪.‬‬
‫• באוכלוסייה עם פשיעה נמוכה יותר‪ 1 :‬מתוך ‪ ,3‬כלומר שליש סווג כסיכון גבוה על אף שלא היו‪.‬‬
‫מתמטית אין לסיטואציה הזו פתרון‪ :‬אי אפשר להגיע למצב של‬
‫שוויון במידת החיזוי וגם להשוות בין ה‪ , false positive -‬כלומר צריך‬
‫להחליט מה עדיף במקרה זה‪.‬‬
‫הגדלת הסף יכולה להביא לחוסר דיוק של המערכת‪ -‬דבר שממנו‬
‫החברות מנסות להימנע‪ .‬כדי להעלות את ה‪ false positive -‬ניתן‬
‫להרים את הסף של אוכלוסיית השחורים אבל אז זה יכול לגרום‬
‫לפספוס בגלל הסף‪ -‬כלומר זה יגרום למערכת להיות פחות מדויקת‪.‬‬
‫הגינות קבוצתית‬
‫מי שמסומן באדום הוא ה‪.false positive -‬‬
‫אם נביט רק בגברים מול נשים נראה שיש שוויון‪ -‬בכל מגדר יש ‪ 3‬מתוך ‪ 16‬שזוהו‬
‫בטעות‪.‬‬
‫אולם אם נביט בתוך הקבוצות נראה שה‪ false positive -‬מתרכז באוכלוסיות‬
‫ספציפיות ויכול להיות שיהיה אי שוויון שיהיה קשה לזהות באוכלוסייה ספציפית‬
‫מסוימת‪.‬‬
‫דוגמה שביעית‪ -‬מערכת לזיהוי פנים‬

‫ההטיות מקבלות חשיבות רבה כשמדובר שנושא של זיהוי‬
‫פנים שימוש בשדות תעופה‪ ,‬מעקבים אחר אנשים וכו')‪.‬‬
‫המחקר של ‪ Gender Shades‬על זיהוי מגדר‪ :‬היה ייצוג‬
‫חסר בנתונים שהחברות מאמנות את אלגוריתמים עליהם‬
‫כך שהמערכות עובדות בצורה טובה יותר על אנשים‬
‫בהירי עור‪ .‬המערכת לא זיהתה שיש בכלל מולה פנים‬
‫כשמדובר בפנים שחורות ואף כשהנבדקת עטתה מסיכה‬
‫לבנה פשוטה המערכת זיהתה שיש מולה פנים‪.‬‬
‫מערכות אחרות שכן זיהו שיש מולן פנים‪ ,‬לא זיהו שמדובר‬
‫באישה‪.‬‬
‫מאיסוף הנתונים במחקר עלה כי המערכת מזהה בצורה‬
‫המערכת מזהה פחות טוב אנשים שחורים כי‬ ‫טובה יותר גברים‪ ,‬ומזהה בצורה טובה יותר אנשים לבנים‬
‫הדאטה עליו היא אומנה חסר נתונים‪.‬‬ ‫(כלומר נשים שחורות הן אלה שנפגעות הכי הרבה בקבוצה)‪.‬‬
‫יש מחקרים על תחומים שנהפכו להיות מנוהלים בעיקר‪ ,‬אם לא רק‪ ,‬ע"י אלגוריתמים‪ .‬דוגמה לכך היא מערכות שעוזרות לחברות‬
‫לסנן עובדים פוטנציאלים לעבודה (בעיקר בחברות גדולות)‪.‬‬
‫• המניע הראשוני הינו להקל על המערכת‪.‬‬
‫• המניע השני‪ -‬לוודא שהמערכת לא תהיה מוטה‪.‬‬
‫איך אפשר לוודא שהמערכת הזו עושה עבודה טובה? ניקח את הנתונים על העובדים שכבר קיבלנו לעבודה ונראה מי מהעובדים‬
‫שהתקבלו נחשבים לעובד מוצלח‪ .‬אולם זה סובייקטיבי כי זה תלוי איך מגדירים הצלחה‪ ,‬וזה עלול גם לגרום להטיה אם לא‬
‫קיבלנו בעבר מספיק נשים לעבודה‪ -‬כך שהמערכת תהיה מוטה עקב דאטה חסר ולא תחשיב נשים כבעלות פוטנציאל להצליח‪.‬‬
‫המקרה של אמזון‪:‬‬
‫המערכת שאמזון פיתחה לעצמה התבססה על מידע מ‪10‬‬
‫השנים האחרונות ומכיוון שבאותה התקופה לא היו הרבה נשים‬
‫שאמזון קיבלה לעבודה אז זה יצר הטיה במערכת‪ .‬ממה יכולה‬
‫לנבוע הטיה?‬
‫• ייצוג חסר של האוכלוסייה בנתונים‬
‫• אפליה לגבי האוכלוסייה‬
‫יש כלים שמנסים לנכות את הבעייתיות ולמנוע הטיה מהנתונים‬

‫אבל זה בעייתי כי גם אם מסירים את השם ו‪/‬או המין עדיין ניתן‬
‫יהיה לאתר בעזרת גורמים אחרים (כמו למשל קולג' או מסגרות‬
‫אחרות שמזוהות עם נשים)‪.‬‬
‫חברת ‪ Hirevue‬היא חברה מסחרית שמפתחת תוכנות‬

‫לגיוס עובדים‪ .‬החברה מנסה לעשות את זה בצורה חכמה‬
‫ע"י שאלונים‪ ,‬משחקים מרחוק‪ ,‬שיחות וידאו וכו'‪ .‬ובין‬
‫היתר היא גם פיתחה כלי שמנתח ראיונו וידאו ומנסה‬
‫לזהות על סמך תווי הפנים מי יהיה עובד טוב ומי לא (על‬
‫שמך השוואה של הנתונים וציונם לעובדים אמיתיים‬
‫בחברה שנחשבים לעובדים טובים)‪.‬‬
‫היתרונות‪:‬‬
‫• מהיר‬
‫• מאפשר גישה מרחוק‬
‫• חסכון במשאבי אנוש‬
‫• טוענים שזה אובייקטיבי‬
‫החסרונות‪:‬‬
‫• מתבסס על נתוני עבר‬
‫• יכול להיות מוטה נגד אוכלוסיות שלא היו מיוצגות מספיק ב‪ data‬הקיים‪.‬‬
‫• אחת הבעיות שעלתה בסרטון היא שברגע שהכלים נכנסים לשימוש זה קורה הרבה חברות ומי שלא עובר את הראיונות‬
‫האלה יכול לא לעבור את הרעיונות במספר חברות שמשתמשות באותה מערכת שדחתה אותם (לעומת אנשים שיכולים‬
‫לנסות את מזלם מול מראיין אנושי ובסופו של דבר כן להתקבל לעבודה)‪.‬‬
‫• טענה נוספת בכלי‪ -‬העדר השקיפות‪ .‬היינו רוצים לדעת שאנחנו יודעים מהן הכישורים הנדרשים מאיתנו כדי להתקבל‬
‫לעבודה‪ -‬כלומר שהתהליך יהיה שקוף‪.‬‬
‫• גם כשהכלים נבדקים טוב במהלך הפיתוח עדיין יכול להיות מצב שכאשר המערכת מוטמעת לא תמיד בודקים את‬
‫ההחלטות שלה ולראות אילו טעויות נעשו כדי ללמוד מהן‪.‬‬
‫בהחלט יתכן שמנהל כלל לא יטרח לצפות בסרטון של עובד שקיבל מהמערכת ציון נמוך‪ ,‬והמנהלים מודאגים שהכלים הללו‬
‫מוטים‪ ,‬לא שקופים ולא מדויקים‪.‬‬
‫הרבה חברות משתמשות בטכנולוגיה הזו בארה"ב והבעיה שיכולה להיווצר היא שמי שלא התקבל לעבודה בחברה מסוימת‬
‫עלול גם לא להתקבל לעבודה בחברות אחרות (במיוחד אם נעשה שימוש באותה המערכת)‪.‬‬
‫בנוסף‪ ,‬הציגו חברה שמנתחת את הרשתות החברתיות של המועמדים‪ -‬מערכת שמייצרת פרופיל לפי המידע שברשתות‬
‫החברתיות ונותנת ציון‪ .‬מה הבעיה בכך? מי שפחות משתתף ברשתות החברתיות יכול להיפגע מכך‪ .‬ובנוסף‪ ,‬ברשתות‬
‫החברתיות יש הרבה מידע שלא אמור להיות רלוונטי לצורך הקבלה לעבודה‪ ,‬וזה דווקא מעלה את המסך שאמור להיות לפי‬
‫שיטת ההוגנות בקבלת החלטות עיוורת‪.‬‬
‫?‪objective or bias‬‬
‫הנבדקת חזרה כמה פעמים על הראיון באותה‬
‫הצורה‪ ,‬ובהמשך שינו את הופעתה כשלבשה צעיף‬
‫או משקפיים וראו שהתקבלו תוצאות שונות‪.‬‬
‫גם בניסוי הזה אין שקיפות כי יש כל כך הרבה‬
‫גורמים שאנחנו לא יכולים לדעת שמשפיעים על‬
‫קבלתנו לעבודה (למשל איכות הוידאו)‪.‬‬
‫מה הפתרון שאנחנו צריכים להציע? שהמערכת תתקן את עצמה‪ ,‬כמו להוסיף עוד ‪( data‬כמו למשל אותו אדם ששם על עצמו‬
‫צעיף או שיער אסוף כך שהמערכת תדע לזהות את מאפייני האישיות מעבר לנראות)‪.‬‬
‫בארגונים ציבוריים אחרי זמן נותנים לחוקרים לבדוק את ביצועי המערכת ואז מגלים שהביצועים שלה בפועל רחוקים‬ ‫•‬
‫להיות ממה שהצהירו לגביה‪.‬‬
‫בניו יורק יש חוק שאם משתמשים במערכת ‪ AI‬לצורך גיוס עובדים אז החברה צריכה לוודא שקיפות‪ ,‬איך התהליך‬ ‫•‬
‫מתנהל‪ ,‬מה נדרש ויכול להשפיע על המועמדים וכו'‪.‬‬
‫גם למשטרה יש כלים שמנסים לחזות התנהגות או אירועים של‬

‫אנשים‪.‬‬
‫בדוגמה זו‪ :‬מערכות שעוזרת לזהות אזורים של פשיעה חמורה‪,‬‬
‫והמשטרה משתמשת בכוחות הללו כדי לדעת איך לפרוס את‬
‫הכוחות שלה‪.‬‬
‫התלונות על כך‪:‬‬
‫• שולח את השוטרים לשכונות מיעוטים‪.‬‬
‫• המערכת לא עוזרת למשל לזהות עסקאות סמים באזורים‬
‫עמידים יותר‪.‬‬
‫• הטענה העיקרית שהמערכות הללו לאו דווקא מתבססות‬
‫על פשיעה (זה ‪ data‬על מעצרים ואולי בכלל מישהו נעצר סתם)‪.‬‬
‫• זה יוצר סוג של לופ‪ ,‬לולאה‪ ,‬כי שולחים יותר שוטרים למקומות של פשיעה‪ ,‬ואז אם יש יותר שוטרים יש יותר סיכוי‬
‫להיתפס דבר שמגביר את תיעוד הפשיעה באותו האזור‪.‬‬
‫בארץ המשטרה משתמשת במערכת שיכולה להקפיץ כל אחד שחוזר‬

‫מחו"ל כמי שחשוד בסחר בסמים (על בסיס מידע עבר)‪ .‬המערכת‬
‫בניגוד השוטרים לא יכולה להסביר מהן הסיבות שבגינן השוטר היה‬
‫חושב שיש לעצור את אותו האדם‪ .‬בנוסף‪ ,‬מערכת המשפט חוששת‬
‫שאותם אנשים חשודים שעלו במערכת עלולים להישאר שם ובכך‬
‫לפגוע בהם‪.‬‬
‫החברה בנתה כלי שמספקים למערכות בריאות‪ -‬הכלי נותן‬

‫רמת דירוג לסיכוי שאדם יכול לפתח התמכרות למשככי‬
‫כאבים‪.‬‬
‫אולם לא ברור איך ההחלטה מתקבלת על סמך המידע (חוסר‬
‫שקיפות)‪ -‬שהמערכת תיתן ציון נמוך ואז הרופא לא יאשר את‬
‫המרשם למרות שהוא כלל לא יודע את הסיבה‪.‬‬
‫הגורמים להטיות ודרכי התמודדות‬

‫הבעיות‪:‬‬
‫בעיות השקיפות הן הבעיות המרכזיות בקבלת‬ ‫• הטיות‬
‫החלטות בצורה זו (איך הכלי עובד‪ ,‬איך הכלי למד‬ ‫• שקיפות‬
‫לקבל החלטות)‪.‬‬ ‫• טעויות‬
‫אם אנחנו בנק היינו רוצים לדעת האם אדם הוא כזה שמחזיר‬
‫הלוואות‪ .‬אבל בפועל אנחנו לא יודעים אם הוא אדם כזה‪ ,‬אלא רק‬
‫יודעים אם הוא החזיר בעבר‪.‬‬
‫זה יכול להשפיע עלינו כי זה יכול ליצור הטיה‪ ,‬המדגם פחות טוב‬
‫ואולי לא מייצב מספיק‪ ,‬ואולי עצם זה שאנשים לא קיבלו הלוואה‬
‫(חוסר במידע אודות אותם אנשים) יכול לפגוע בקבלת החלטה‬
‫נכונה‪.‬‬
‫כלומר אנחנו רוצים מדגם יותר מדויק שמייצג את כל מה שרלוונטי‬
‫אולם בפועל לא ניתן לאסוף את המדגם הכי טוב ומלא‪.‬‬
‫איך נראה התהליך של למידת מכונה?‬

‫מהי בינה מלאכותית? כל כלי‪ /‬שיטה שמנסה לדמות את‬
‫אופן קבלת ההחלטות של האדם (איך הוא חושב או מרגיש)‪.‬‬
‫‪ :Ruled-based‬יש לזכור שזה לא תמיד היה מבוסס ‪,data‬‬

‫אלא כל מיני שיטות וחוקים אחרים שמנסים לדמות איך בן‬
‫אדם חושב ומחליט‪.‬‬
‫• לדוגמה‪ :‬משחק החיים של ‪ .Conway‬המשחק‬
‫מתנהל על רשת משבצות‪ ,‬וכל משבצת היא באחד‬
‫משני המצבים "חי" או "מת"‪ .‬הקביעה האם תא הוא‬
‫חי או מת מתבססת על פי כללים מוגדרים מראש‪.‬‬
‫‪ :Machine learning‬ברגע שאספנו יותר נתונים אז הכלים הפכו ללמידת מכונה‪ -‬מלמדים מכונה באמצעות מאגרי מידע‬
‫קודמים‪.‬‬
‫‪  Neural network‬רשתות נוירונים‪ .‬הן יכולות להיות‪:‬‬
‫• ‪ -Supervised‬אנחנו קובעים מה אנחנו מנסים לחזות‪ ,‬לסווג (מהו משתנה המטרה)‪.‬‬
‫• ‪ -Un-supervised‬נותנים למערכת למצוא משהו מבלי להדריך אותה ולתת לה מטרה לזיהוי (פחות שכיח)‪.‬‬
‫בגדול כל מה שמופיע בסגול זה החלטות של אנשים‪.‬‬

‫האפור‪ -‬זה החלטות שהמכונה קבעה (בהנחה שהמכונה‬
‫אובייקטיבית ולא בשליטתנו)‪.‬‬
‫האנשים הם אלו שמביאים את ה‪( data‬והרי אמרנו שה‪ data‬יכול‬
‫להיות בעייתי‪ -‬מוטה‪ ,‬בעל הטיות‪ ,‬בעל הפליה)‪.‬‬
‫עושים חלוקה של הנתונים ואז ב‪ data‬שאנחנו נותנים למערכת‬
‫ללמוד עליו אנחנו מראים לה מה הקלט ורואים מהו הפלט שלה‪.‬‬
‫זה לא תמיד אובייקטיבי‪ ,‬כי הקלט שלפיו המערכת עושה את‬
‫הבדיקות הוא לא בהכרח הנכון (כמו האם גם הפלט יכול להיות לא‬
‫טוב מכיוון שיכול להיות שהכנסנו משתנים מסבירים לא טובים או‬
‫משתנים מוגנים שלא אמורים לשנות את ההחלטה‪ .‬מצד שני‪ ,‬אולי אם נכניס את אותם המשתנים המוגנים זה יעזור דווקא‬
‫להסיר את ההטיות שמידע‪.‬‬
‫איך אנחנו מחליטים להעניש על טעויות שונות?‬

‫האם אנחנו רוצים את הטעות האופטימלית או שנעדיף לשלם ולהגדיל קצת את הטעות אבל למנוע אפליה של אוכלוסיות‪.‬‬
‫השלבים המרכזיים בהטיית ‪:AI‬‬

‫‪ .1‬מסגור הבעיה‪ -‬הקושי להחליט מה רוצים שהאלגוריתם ישיג‪.‬‬
‫‪ .2‬איסוף הנתונים‪ -‬נתונים שלא מייצגים את המציאות או נתונים שמשקפים דעות קדומות קיימות‪.‬‬
‫‪ .3‬הכנת הנתונים‪ -‬בחירת התכונות שאנחנו רוצים שהאלגוריתם ישקול‪.‬‬
‫האתגרים בתיקון הטיית ‪AI‬‬

‫‪ .1‬אלמוניים לא ידועים‪ -‬ברגע שההטיה צצה קשה לזהות רטרואקטיבית מאיפה היא באה ואז להבין כיצד לטפל בה‪.‬‬
‫‪ .2‬תהליכים לא מושלמים‪ -‬מחלקים את הדאטה לקבוצת אימון וקבוצת אימות‪ ,‬אבל בפועל מאמנים את האלגוריתם על‬
‫מידע שמכיל את אותן ההטיות כמו המידע שעליו הוא אומן‪.‬‬
‫‪ .3‬חוסר הקשר חברתי‪ -‬מאמנים אלגוריתם בסביבה ‪ X‬ובמצעים אותו על סביבה שונה לגמרי ‪.Y‬‬
‫‪ .4‬ההגדרות של הגינות‪ -‬יש הרבה הגדרות מתמטיות להוגנות שסותרות זו את זו‪.‬‬
‫הרצאת אורח‪ -‬הילה ליפשיץ‬

‫‪ -AI‬הקדמה‬
‫צפינו בסרטון של תזמורת מנגנת ולאחר מכן צפינו בסרטון של זמרת שרה‪ .‬נשאלנו מה ההבדלים‪ ,‬אלו הנקודות שעלו בדיון‬
‫בכיתה‪:‬‬
‫• הזמרת שרה באופן "מכונתי" יותר (עם קטיעות ו"גליצ'ים")‬
‫• הבעת הפנים שלה בקליפ הייתה מקובעת‪ ,‬עיניים קצת רובוטיות‬
‫• מאמץ בהפקה‪ :‬הפקה ממוחשבת שיתכן שנוצרה בידי אדם אחד‪ ,‬לעומת תזמורת שלמה שמנגנת‬
‫ד"ר ליפשיץ אמרה לגבי התזמורת‪ :‬ניגנו יצירה שלא כתב בן אדם‪ ,‬ההלחנה הייתה של ‪( AI‬בקליפ שראינו הזמרת עצמאית יצרה‬
‫את הקליפ‪ ,‬הזמרת כתבה את המילים ו‪ AI-‬הלחין אותן)‪.‬‬
‫מה כלי ה‪ AI-‬עשו למוזיקאים?‬

‫הוויכוח בספרות הוא של אוטומציה מול אוגמנטציה ‪-‬‬
‫• אוטומציה )‪ -(Automation‬מחליף את בני האדם‪ ,‬כמו בדוגמת התזמורת‪Human .‬‬
‫• אוגמנטציה )‪ -(Augmentation‬אני כבן אנוש "קטן" יותר מבן אנוש ‪ +‬מכונה (אני יכול יותר כשאני נעזר בכלי ה‪,)AI-‬‬
‫כמו דוגמת הזמרת‪Human < Human + AI .‬‬
‫דיון בכיתה ‪ -‬מקצועות שונים וכלי ה‪:AI-‬‬

‫• נהגים ‪ -‬אם העולם מתקדם לכיוון מכוניות אוטונומיות‪ ,‬נהיגה יהפוך להיות משהו שלא נעסוק בו‪.‬‬
‫אולי נעסוק בנהיגה רק כתחביב בעתיד‪ .‬בנהיגה המטרה היא רק להגיע מנקודה ‪ A‬לנקודה ‪ B‬בבטיחות ‪ -‬לא מקצוע‬
‫מדיד כמו הוראה‪.‬‬
‫• מורים ‪ -‬היינו מעדיפים ללמוד מבן אנוש? קשה למדוד את איכות הלמידה‪ .‬אין פה ‪ - right or wrong‬אולי זה נכון‬
‫להשתמש בכלי ‪ AI‬למקצועות כמו מתמטיקה או סטטיסטיקה אבל פחות מתאים למקצועות כמו פילוסופיה? כל תלמיד‬
‫שונה ‪ -‬כלים ממוחשבים יכולים לסייע לכל תלמיד להתקדם בקצב מותאם אליו‪ ,‬יהיה חינוך מותאם אישית‪ .‬מובן‬
‫שמורה אנושי לא יכול לבנות ל‪ 50-‬תלמידים במקביל תוכנית לימודים‪.‬‬
‫• בנקאות ‪ -‬ייתכן שיהיה ניתן להחליף תפקידים פיננסיים אנושיים רבים בכלי ‪.AI‬‬
‫‪:Opacity and black boxed AI‬‬

‫שלושה סוגים של ‪:AI‬‬
‫• קופסה שחורה ‪ -‬אין יכולת בכלל להבין מה הקוד‪ .‬אי אפשר להבין מה גרם לקוד לתת תחזית מסוימת‪ .‬רוב ה‪ AI-‬היום‬
‫בנוי בקופסה שחורה‪ .‬יש דיון רחב בעולם אם יש לנו זכות ל‪ AI-‬פחות "אטום"‪ .‬המערכת שלמדנו עליה‪ ,‬בארה"ב‪,‬‬
‫שקובעת מסוכנות של פושעים היא קופסה שחורה למשל‪.‬‬
‫• יש היום ‪ - explainable AI‬עם שכבה נוספת שאפשר לשאול עליה שאלות‪ .‬שכבה שאפשר לתקשר איתה ‪ -‬נניח‬
‫באלגוריתם לגיוס עובדים‪ ,‬נוכל לשאול את המערכת למה לא לגייס את עובד מסוים? ונוכל לקבל תשובה‪ :‬כי ‪.X Y Z‬‬
‫• יש גם ‪ AI - interpretable AI‬שניתן לפרשנות‪.‬‬
‫המחקר של ד"ר ליפשיץ‪ :‬איך מתמודדים עם קופסה שחורה בהחלטות קריטיות?‬

‫מחקר שטח‪ -‬עוזרי מחקר ישבו מאחורי רופאים באחד מבתי החולים הטובים בארה"ב‪ ,‬ותיעדו את קבלת ההחלטות של‬
‫הרופאים אם לשלוח מטופל לביופסיה או לא‪.‬‬
‫היתרון במחקר שדה‪ :‬נכנסים‬ ‫• בחנו מעל ‪ 1,000‬מקרים בשנה‪.‬‬
‫לעומק של הדברים ‪ -‬מקבלי‬
‫החלטות אמיתיים‪.‬‬ ‫התהליך‪:‬‬
‫רופא מסתכל על צילום ומקבל החלטה‪.‬‬ ‫•‬
‫‪ AI‬בוחן את הצילום‪ ,‬מסמן אזורים בעייתיים בצילום ומקבל החלטה‪.‬‬ ‫•‬
‫בודקים אם ההחלטות של הרופא ושל ה‪ AI-‬זהות‪.‬‬ ‫•‬
‫הרופא בסוף מחליט כיצד להמשיך לפעול‪.‬‬ ‫•‬
‫ממצאים ‪ -‬סרטן השד‪:‬‬

‫• ברוב המקרים (מעל ‪ )60%‬היה חוסר הסכמה בין הרופא ל‪.AI-‬‬
‫• רופא בוחן את המקרה‪ ,‬ולאחר דקה בממוצע מקבל החלטה‪.‬‬
‫• במקרים הפשוטים ‪ -‬כשיש הסכמה‪ ,‬הרופאים העידו שלא עוזר להם השימוש ב‪ ,AI-‬וזה סתם עוד צעד מיותר‬
‫ו"מעצבן" מבחינתם‪.‬‬
‫• במקרים שאין הסכמה בין ה‪ AI-‬לרופא‪ :‬כשהרופא חשב שזה סרטן‪ ,‬וה‪ AI-‬חשב שזה לא סרטן ‪ -‬הרופאים העידו שזו‬
‫אחריותם לשלוח להמשך טיפול‪.‬‬
‫• כשהרופא אומר שמדובר בסרטן וה‪ AI-‬אמר שלא מדובר בסרטן ‪ -‬הרופאים במרבית המקרים התעלמו מההחלטה‬
‫של ה‪ .AI-‬והדגישו שהם כועסים שהתוכנה מסמנת חלקים בצילום מבלי להסביר למה הם בעייתיים‪.‬‬
‫נדגיש‪ ,‬זו אוגמנטציה‪ :‬הכלי הוא תומך החלטה בלבד‪ ,‬הרופא הוא מקבל ההחלטה בפועל‪ ,‬אבל הרופאים לא מרגישים‬
‫שההחלטות שלהם משתפרות בשימוש ב‪.AI-‬‬
‫ממצאים ‪ -‬סרטן ריאות‪:‬‬

‫• כל מקרה נבחן על‪-‬ידי רופא במשך ‪ 2-3‬דקות (יותר ממקרה של סרטן שד)‪.‬‬
‫• הרופאים שוב כעסו במקרים של אי‪-‬הסכמה בינם לבין התוכנה‪ :‬הרופאים ביקשו לחקור את ה‪ ,AI-‬ניסו לחזור‬
‫לצילומים‪" ,‬לשחק" עם הגוונים על המסך‪ ...‬הרופאים היו ‪ ,engaged‬וביקשו להבין למה התוכנה הצביעה על קיומו‬
‫של סרטן‪.‬‬
‫יש פה אינטראקציה‪ :‬הרופא מנסה להבין את התוכנה‪ ,‬ומשקיע יותר מזמנו‪.‬‬
‫אנחנו מבינים שהרופאים עשויים לשנות את ההחלטות שלהם באמצעות ה‪.AI-‬‬
‫• למה הרופאים ניסו לחקור את התוכנה במקרה של סרטן ריאות ולא במקרה של סרטן שד?‬
‫‪ o‬הרופאים פקפקו בעצמם‬
‫‪ o‬ביופסיה היא יותר מסוכנת במקרה של סרטן ריאות ‪ -‬יותר פולשנית‬
‫‪ o‬אולי מדובר ב"אווירה" במחלקות השונות‬
‫מה אפשר לקחת מכאן לארגונים בעתיד?‬

‫‪ .1‬אוגמנטציה‪ :‬למי המערכת עשתה טוב? לרופא? אין לו פידבק הרי מהמערכת‪ .‬לא ברור אם באמת עושה אוגמנטציה‪.‬‬
‫ההנחה שאוגמנטציה היא חיובית היא שקרית‪ ,‬צריך לדבר על אינטראקציה בין בן אדם למכונה ולא להניח ישירות שמדובר‬
‫בכלים שישפרו את חיינו‪.‬‬
‫• צריך כלים יותר טובים‪ ,‬אבל הם כרגע נבנים בצורה שטחית ובעלי מקצוע רבים לא יכולים להפיק שימוש טוב בהם‪.‬‬
‫‪ - Engaged or unengaged .2‬מעורבות של אנשי המקצוע במערכות‪ .‬להציף כשלים בהן‪ ,‬לנסות לחקור את הקוד‪...‬‬
‫‪ .3‬מה נכון לעשות מבחינת ה"אטימות" של ה‪ ?AI-‬האם נכון וראוי שבתי חולים ישתמשו ב‪ AI-‬שהוא קופסה שחורה? או‬
‫שנדרשת רגולציה בנושא? אפשר לשנות את המערכת?‬
‫‪ .4‬בקורונה ‪ -‬כלי ‪ AI‬רבים נכנסו לבתי חולים‪ ,‬כלים שממליצים על פרוטוקול טיפולי‪.‬‬
‫• ספק גדול אם הכלים האלו מועילים כפי שלמדנו בהרצאה‪ .‬הקורונה היא מחלה חדשה ‪ -‬רופאים ביקשו כלי שיסייע‬
‫להם להחליט‪ ,‬אבל חסר דאטה‪.‬‬
‫‪ .5‬בעתיד‪ :‬לאנשי מקצוע לא בהכרח תהיה בחירה‪ ,‬ה‪ AI-‬יהיה מסביבנו‪.‬‬
‫הערות של רונה אחרי ההרצאה‪:‬‬

‫מודעות וחינוך ‪ -‬בקורסים‪ ,‬בהכשרות‪ ,‬באקדמיה ובחברות‪...‬‬ ‫•‬
‫צריך להשתדל להביא דוגמאות כמו שלמדנו לידיעה רחבה‪ .‬אסור‬
‫לקבל את הדברים בצורה מתלהבת ועיוורת‪.‬‬
‫גיוון ‪ -‬גיוון של כוח אדם‪ .‬מועסקים אנשי פילוסופיה רבים‬ ‫•‬
‫בחברות ‪ -‬התחרות גורמת לחברות לרצות שלא יאשימו את‬
‫המוצר שלהן בהפליה או חוסר דיוק‪ .‬יש משמעות להיבטי‬
‫הפרטיות ‪ -‬חברות ששומרות על מדיניות פרטיות טובה‬
‫ואפקטיבית נשכרות מכך (צריך שמהנדסים יבינו רגולציה של‬
‫משפטנים ושמשפטנים יוכלו לתרגם רגולציה למהנדסים)‪.‬‬
‫בקרה ‪ -‬כל מיני כלים טכניים לבדוק את איכות המערכת‪.‬‬ ‫•‬
‫אפשר לרדת אפילו לרמה של לראיין את האנשים שפיתחו‬
‫את המודל ולהבין אם הם יודעים מה הם עשו‪.‬‬
‫ניטור ‪ -‬גם כלי טכני‪ .‬בודקים את הדאטה ב"לייב"‪.‬‬ ‫•‬
‫רגולציה ‪ -‬יש בישראל טיוטה ראשונית של רגולציה‬ ‫•‬

‫בתחום הבינה המלאכותית‪ ,‬והיא עוד "פתוחה"‬
‫וגמישה‪ .‬חשוב שהיא "פתוחה" כי לא נרצה להגביל‬
‫חדשנות וטכנולוגיה בצורה שיהיה קשה לתקן בעתיד‪.‬‬
‫מאוד חוששים לפגוע בארגונים ובקדמה‪.‬‬
‫הרגולציה דורשת מעקב רציף על המערכת‪ ,‬ולערוך‬
‫עליה ביקורות שוטפות תוך כדי העבודה עליה‪.‬‬
‫אנחנו לא רוצים שההחלטות יהיו מוטות‪ ,‬לא‬ ‫‪o‬‬

‫ישפיעו לרעה על אנשים‪.‬‬
‫אנחנו רוצים שהמערכות הציבוריות שלנו יהיו‬ ‫‪o‬‬
‫יעילות‪ :‬שמערכת המשפט לא תעבוד בסחבת‪,‬‬
‫החלטות מהירות‪...‬‬
‫אנחנו רוצים להגביר את אמון הציבור בשימוש‬ ‫‪o‬‬
‫במערכות האלו‪.‬‬
‫יש כל מיני גישות שאומרות שנחלק את הרגולציה לפי רמות‬

‫סיכון (בהחלטות קריטיות ‪ -‬כמו המחקר על הרופאים‪ ,‬נדרוש‬
‫מערכות שקופות יותר)‪ .‬הרגולציה באירופה מתבססת על‬
‫גישה זו‪.‬‬
‫בניו‪-‬יורק יש למשל חוק שמחייב גילוי למועמד שמערכת‬

‫אוטומטית תחליט על גיוסו לעבודה‪ ,‬וגם לספק רשימת‬
‫קריטריונים למועמד‪.‬‬
‫ניתן לזהות ‪ 3‬מגמות מרכזיות ברגולציה האירופאית‪:‬‬

‫‪ .1‬תזכיר ההשפעה האלגוריתמית (‪)IA for AI‬‬
‫דרישה לעריכת תסקיר הערכת סיכוני ה‪ AI-‬ובו ‪ 2‬חלקים‪:‬‬
‫‪ o‬תיאור ברור של הסיכונים שמייצרת כל מערכת ‪.AI‬‬
‫‪ o‬תיאור ברור של האופן שבו מטופל כל סיכון‪.‬‬
‫‪ .2‬אחריות ואי תלות (כלומר מי שבודק את המערכת לא יהיה מי שפיתח אותה)‬

‫‪ o‬דרישה לאי תלות בין המפתחים והגורמים שמעריכים את הסיכונים במערכת‪.‬‬
‫‪ o‬מרכיב מרכזי כמעט בכל המסגרות של הרגולציה על ה‪.AI -‬‬
‫‪ o‬בעיקר במקרים של סיכון גבוה‪ -‬מומלץ לארגונים להעסיק מומחים חיצוניים לעריכת התסקירים‪.‬‬
‫‪ .3‬בדיקה שוטפת של מערכות ה‪AI -‬‬

‫הסיכונים בבינה המלאכותית גדלים ומשתנים לאורך זמן‪ ,‬ולא ניתן לסיים את הטיפול בהם בנקודת זמן אחת‪ ,‬ולכן‬
‫הרגולטורים מדגישים שניהול הסיכונים הינו תהליך מתמשך‪.‬‬
‫היבטים אתיים של ניסויים דיגיטליים ושל פרסום דיגיטלי‬
‫בקורס אנחנו מתייחסים בעיקר לניסויים הדיגיטליים שאנחנו כלל לא מודעים‬

‫שאנחנו לוקחים בהם חלק‪.‬‬
‫אם נסתכל על כך כניסויים בבני אדם האם צריך להתייחס אליהם ולנתר אותם?‬
‫הניסוי שעשו בפייסבוק‪:‬‬

‫לקחו קבוצה גדולה של משתמשים והסירו לחלקם פוסטים חיוביים‪,‬‬
‫ולחלקם שליליים ובחנו את הפוסטים שאותם אנשים פרסמו אח"כ‪.‬‬
‫הצליחו להראות ש"הרגשות" מדבקים גם מרחוק‪ ,‬כלומר לא רק‬
‫במפגש פיזי עם אנשים‪.‬‬
‫כנראה שפייסבוק רצתה להתייחס לטענה שאנשים סובלים כשהם‬
‫רואים אנשים אחרים נהנים ע"י כך שהם דווקא כן נעשים שמחים‬
‫יותר כשהם נחשפים לפוסטים חיוביים‪.‬‬
‫בניגוד לכל המחקרים‪ ,‬התוצאות של המחקר של פייסבוק פורסמו‬
‫(ואם הם לא היו מפורסמים כנראה שלא היינו יודעים על כך)‪.‬‬
‫במחקר של ‪ LinkedIn‬פרסמו את התוצאות לאחד ‪ 5‬שנים בכתב עת‪ ,‬והעלו ביקורת על כך שהניסוי לא קיבל את אישור‬ ‫•‬
‫וועדת האתיקה לניסויים באקדמיה‪.‬‬
‫כדי שהניסוי יהיה מבוקר היטב צריך ליידע את הנסיינים‪ ,‬לקבל את אישורם והסכמתם‪ ,‬לשמור על הפרטיות שלהם וכו'‪.‬‬
‫במקרה של הניסוי של פייסבוק ההסכמה של המשתתפים ניתנה בעת רישומם לרשת החברתית (שהם מאשרים להשתתף‬
‫בניסויים עתידיים)‪ ,‬אך זה לא אומר שהם נתנו הסכמה מודעת‪.‬‬
‫בנוסף גם לא הייתה כאן בקרה על הנסיינים כמו בניסויים אחרים‪ ,‬ויש כאן פעולה אקטיבית של פייסבוק ולא אלגוריתם שמותאם‬
‫באופן אקראי‪.‬‬
‫הניסוי של אוקיי קיופיד‪:‬‬

‫בניסוי הזה רצו לבחון האם "כוח ההצעה"‪ -‬העובדה‬
‫שאומרים לנו שאנחנו מתאימים למישהו אחר זה מה‬
‫שהכי חשוב ביצירת הקשר או שהאלגוריתם יודע לבצע‬
‫את ההתאמה האמיתית עבור המשתתפים (כלומר רצו‬
‫לבחון האם התחברת למישהו כי מצאנו שאתם באמת‬
‫מתאימים או רק כי ראיתם אחוזי התאמה גבוהים בניכם‬
‫ללא בדיקה מאשרת)‪.‬‬
‫האחוזים בטבלה‪ -‬מה הסיכוי שמי שקיבל את ההתאמה‬
‫שכל אחד מהמשבצות עוברים לשיחה‪.‬‬
‫מה ניתן לראות מהנתונים על האלגוריתם לעומת "כוח‬
‫ההצעה"? ניתן לראות שלא משנה מהי ההתאמה האמיתית שלכם‪ ,‬ככל שנתנו לכם התאמה יותר גבוהה האחוזים יגדלו‪.‬‬
‫מה היינו חושבים על זה? כאן הציגו ממש מצג שווא‪ ,‬לא סתם הסתירו מאיתנו מידע (זה הרבה יותר קריפי וחמור מפייסבוק)‪.‬‬
‫• האתר היה הראשון שהצהיר כי הוא מבצע "ניסויים" באנשים‪ ,‬לא כי הם יודעים כל כך הרבה‪ ,‬אלא שבעזרת ניסויים‬
‫הם יכולים לבחון את הדברים האלה ובמטרה לשפר את האלגוריתם שלהם‪.‬‬
‫‪ :LinkedIn‬מסתבר שהיה ניסוי במשך הרבה שנים (כי היה קשה‬

‫לנתח אותו) במטרה לבחון את העוצמה של קשרים חלשים‪ ,‬כלומר‬
‫טוענים שלאנשים יש סיכוי גבוה יותר להשיג תעסוקה והזדמנויות‬
‫אחרות דרך מכרים רחוקים יותר מאשר דרך חברים קרובים‪.‬‬
‫כלומר בדקו אם ככל שאתה מתחבר עם אנשי קשר רחוקים יותר‪,‬‬
‫במעגל רחב יותר‪ ,‬מייצרים אצלנו יותר תנועה ולהיפתח לקשרים‬
‫חדשים יותר שיקדמו את הקריירה שלנו ויחשפו אותנו להזדמנויות‬
‫חדשות ורבות יותר‪.‬‬
‫הדרכים להתייחס לניסויים דיגיטליים‪:‬‬

‫‪ .1‬מסגרת ‪ -A‬מדובר בניסויים עם משתתפים אנושיים‬
‫‪ .2‬מסגרת ‪ -B‬מדובר בחדשנות אחראים‬
‫מסגרת ‪ :A‬נגיד כי מדובר בניסויים בבני אדם (משתתפים‬

‫אנושיים)‪ ,‬שצריכה להיות אמנה ברורה לגבי איך זה אמור‬
‫להתבצע‪.‬‬
‫‪ -Commonrule‬כל מוסד שמקבל סבסוד מהמדינה בארה"ב‬

‫חייב לעמוד בתנאי ביקורת של ניסויים‪.‬‬
‫• בחברות פרטיות אין הגבלה כזאת לאופן הביצוע של‬
‫הניסויים שהן עורכות על אנשים‪.‬‬
‫מוסדות מחקר ממשלתיים צריכים לשמור על‪:‬‬

‫• כבוד למשתמשים‬
‫• הערכת סיכון‪ /‬תועלת‬
‫‪ .1‬כבוד למשתתפים‪:‬‬
‫• צריכה להיות לאנשים את זכות הבחירה האם להשתתף‬
‫בניסוי‪.‬‬
‫• הסכמה מדעת‬
‫• אפשרות פרישה‬
‫• פרטיות‪ -‬שאם מבטיחים ששומרים על פרטיות המשתמשים‬
‫אז ניתן לבצע את המחקר ללא קבלת ההסכמה המפורשת‬
‫שלהם‪.‬‬
‫יש הבדלים כשמדובר בניסויים דיגיטליים‪ ,‬האנשים פחות יכולים להבין מה מבקשים מהם ומה ההשלכות של הניסוי (כי זה‬
‫פחות מבוקר ויש קשר חלש יותר עם הנסיינים)‪.‬‬
‫בניסוי החיסונים של הקורונה‪ -‬הניסוי הוא המחקר על הנתונים של‬

‫המחוסנים הישראלים‪ .‬המדינה הודיעה על כך למחוסנים שהיא מתכוונת‬
‫להעביר את הנתונים שלהם לחברה‪ ,‬אולם לא קיבלו את האישור של וועדת‬
‫הלסינקי בארץ דבר שייצר תגובות רבות (למרות שהמדינה הבטיחה שהיא‬
‫מעבירה את המידע באופן מותמם)‪.‬‬
‫הערכת סיכון‪ /‬תועלת‪:‬‬

‫• החברות שמבצעות את הניסויים צריכות להבטיח שהתועלת מהניסוי‬
‫עולה על הסיכון למשתתפים (במחקרים רפואיים למשל‪ ,‬הסיכון‬
‫הבריאותי על הנסיינים ביחס לתועלת שזה יכול להביא)‪.‬‬
‫• ושיהיה ניתן להבטיח שמי שמשתתף בניסוי יוכל גם להנות מפירותיו‬
‫ולא רק לסבול בשביל לעזור לאחרים‪.‬‬
‫מסגרת ‪:B‬‬
‫הטענה שלא מדובר כאן על ניסוי בבני אדם‪ ,‬אנחנו פתאום מאוד נחרדים‬
‫מה‪"-‬סכנות" שיכולות להיגרם למשתמשי הניסוי כשמחלקים לקבוצות‬
‫(קבוצה א‪ ,‬לעומת קבוצה ב) תוך התעלמות משאר המשתמשים של‬
‫הפלטפורמה‪ ,‬כמו במקרה של פייסבוק ולינקדאין‪.‬‬
‫• כלומר אומרים שלא צריך להיות נחרדים ולראות כאן ממש כניסוי‬
‫שדורש הסכמה‪ ,‬אבל שזה כן יהיה תהליך שקוף‪.‬‬
‫ההטעיות בפרסום דיגיטלי‬

‫מאז ומעולם המפרסמים רוצים לטרגט את המידע לקהל היעד שלהם (פרסום‬
‫לילדים בתכניות ילדים)‪.‬‬
‫המעבר לעולם הדיגיטלי גרם לאפשרויות להשתכלל מאוד‪.‬‬
‫כאן מראים שבפייסבוק אפשר לטרגט עד כדי‬

‫מאפיינים שהם יכולים להיות בהקשרים מפלים‪.‬‬
‫במקרה הזה של פרסום לפי הגיל של המשתמש זה יכול להיות אפליה‬

‫לפי גיל כי בניגוד לעיתון שבו פונים לאוכלוסייה בגיל ספציפי שעדיין‬
‫כולם חשופים למודעה‪ ,‬בפייסבוק‪ ,‬רק מי שבגיל הרלוונטי יכול לראות‬
‫את זה דבר שיכול ליצור אפליה לפי גיל‪.‬‬
‫פייסבוק הבינה שהיא לא יכולה לתת למפרסם לטרגט על דעת עצמו‬

‫והבינה שהבחירה לא צריכה להיות בידי המפרסם‪ ,‬אלא שזה יעשה‬
‫על ידי אלגוריתם‪.‬‬
‫אבל גם האלגוריתם עצמו יכול להיות מפלה‪ ,‬למשל שהאלגוריתם‬
‫יפרסם את הצעת המשרות באופן מפלה‪ .‬ואיך נדע למשל‬
‫שהאלגוריתם עם הטעיה או שבאמת אותם אנשים שהתקבלו הם‬
‫בעלי הכישורים המתאימים למשרה?‬
‫כדי לבחון זאת עשו ניסוי ולקחו קבוצות אנשים בעלי אותם הקישורים‬
‫למשרה ממקומות שונים‪ ,‬כשבכל חברה יש הבדל לטובת גברים או‬
‫נשים (דומינוס‪ -‬יותר עובדים גברים‪ ,‬בחברה השנייה עובדות יותר‬
‫נשים)‪ ,‬והריצו את המודעה בפייסבוק ובלינקדאין‪.‬‬
‫• גילו שבפייסבוק יש הרבה יותר הבדל בפנייה למגדר של‬
‫האנשים לפי מה שיש בחברה (כלומר האלגוריתם של‬
‫פייסבוק בעצמו ייצר את ההטעיה לפי המידע שראה על‬
‫החברה‪ -‬שיותר גברים רוצים לעבוד בדומינוס‪ ,‬ולכן יותר‬
‫גברים גם עובדים שם)‪.‬‬
‫• לעומתם‪ ,‬בלינקדאין היה הבדל הרבה יותר קטן‪ ,‬שלא היה‬
‫מובהק‪.‬‬
‫הטעיה בפרסום משרות בהתאם לתמונות‪:‬‬

‫עבור אותו תיאור המשרה‪ -‬התמונה שמופיעה במודעת המשרה‬
‫משפיעה גם על התפוצה‪ ,‬כלומר מי ייחשף להצעת העבודה‪.‬‬
‫• למשל ראו כי כאשר יש תמונות של ילדות צעירות הן לרוב‬
‫ישלחו לגברים בגילאי ה‪.55‬‬
‫המשך ניסויים דיגיטליים‪:‬‬

‫במאמר הזה החוקרת הראתה שכאשר מחפשים אדם מסוים‬
‫אז המודעות הממומנות שרואים במהלך החיפוש בגוגל מפנות‬
‫אותנו לאתרים שבהם ניתן ללמוד על אותו האדם (למשל האם‬
‫אותו אדם נעצר או שיש לו רישומים פליליים)‪.‬‬
‫היא רצתה בעיקר לבחון האם יש הבדל בהופעה של הפרסומים‬

‫האלה כאשר מחפשים אנשים "שחורים" מאשר "לבנים"?‬
‫היה הבדל משמעותי ומובהק במספר ההופעות של‬ ‫•‬

‫פרסומים כאלה של רישומים פליליים בעיקר בהקשרים‬
‫שליליים מאשר ניטרליים כאשר מדובר באנשים שחורים‪.‬‬
‫דוגמה נוספת‪ -‬כאשר חיפשו את השם "ג'יל שניידר" המודעה על הרישומים הפליליים שלה הופיעה רק במקום השלישי‪,‬‬ ‫•‬
‫כשלפני זה הופיע הלינק "גי'ל שניידר אומנות" למרות שבפועל היו לה הרבה רישומים פליליים‪.‬‬
‫גם אם אנחנו יכולים להסביר למה התופעה הזאת קוראת אנחנו רואים שברגע שנותנים לאלגוריתם קצת עצמאות הוא יכול‬
‫לגרום להטיה מסוימת (כמו העובדה שאם אנחנו נחפש "‪ "teacher‬ו‪ "doctor" -‬אז זה יתרגם מורה נקבה ורופא זכר כי זה מה‬
‫שרוב האנשים חיפשו וזה היה הבסיס של האלגוריתם)‪.‬‬

אתיקה וביד דאטה

Uploaded by

Copyright:

Available Formats

You might also like

אתיקה וביד דאטה

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

אתיקה וביד דאטה

Uploaded by

Copyright:

Available Formats

‫נטלי נחמיאס‬ ‫אתיקה וביג דאטה‬

‫אתיקה וביג דאטה‬

‫אתיקה של טכנולוגיה‪ -‬החששות‪:‬‬

‫מהי אתיקה בתחום המחשוב?‬

‫הדברים שמורים על המחשב ופחות שקופים‪.‬‬

‫ארבעת הסוגיות האתיות של עידן המידע‪:‬‬

‫‪ 5‬הגישות פילוסופיות לאתיקה‪:‬‬

‫‪ .2‬גישת הצדק וההוגנות‬

‫בעיה מפורסמת מגישה הזאת היא "בעיית הטרולי" (בעיית הקרונית)‪:‬‬

‫‪Moral Machines experiment‬‬

‫‪ .4‬גישת הטובה המשותפת (טובת הכלל)‬

‫‪ .5‬גישת האתיקה של סגולות‬

‫דילמות מוסריות בעולם הביג דאטה‬

‫שכבות של איסוף נתונים אישיים‪:‬‬

‫איסוף המידע עלינו‬

‫העברת המידע לגורמים אחרים‪ -‬צד ג'‬

‫מיזוג מערכי נתונים כדי לחשוף נתונים שלא שיתפנו‬

‫ניתוח נתונים כדי לחשוף נתונים אישיים שאיננו‬

‫מיזוג מערכי נתונים כדי לחשוף נתונים שלא שיתפנו‬

‫ניתוח נתונים כדי לחשוף או להסיק נתונים אישיים‬

‫האם הפרטיות מתה?‬

‫יחסים בין אישיים ומקצועיים‪ :‬הצדקות אחרות מדגישות את‬

‫קהילה‪ -‬הפן הציבורי של הפרטיות‪ :‬הפרטיות חשובה לא רק‬

‫הפרטיות בדין האירופאי‬

‫הזכות לפרטיות בישראל‬

‫חוק הגנת הפרטיות‪-‬‬

‫‪ -FIPs‬עקרונות המידע האישי שהחלו להופיע‬

‫כלומר עולה הטענה שאם לא מדובר בנתונים היסטוריים חשובים‬

‫סיכוני הפגיעה בפרטיות‬

‫ניהול עצמי של נתונים‬

‫כלים משמרי פרטיות בנתונים‬

‫זיהוי מחדש של הנתונים הרפואיים של מושל מסצ'וסטס‬

‫‪ -Linkage‬הצלבה‪ -‬משווים בין שני מאגרי מידע שונים על סמך‬

‫מה הפתרון? ‪K-Anonymity‬‬

‫איך ניתן לבצע ‪?K-Anonymity‬‬

‫לדוגמה‪ -‬הטבלה העליונה היא הטבלה המקורית‪,‬‬

‫בריאות דיגיטלית ושיתוף נתונים רפואיים‬

‫דוגמאות למקרים שבהם כלל לא היו מזהים אישיים בנתונים‬

‫במחקר נוסף שנעשה על ה‪ META DATA-‬על ציוצים של אנשים (נתונים‬

‫איסוף הנתונים של נסיעות מוניות ברחבי ארה"ב יכול לעזור ל‪-‬‬

‫מסגרת קבלת החלטות האנונימיזציה (‪)ADF‬‬

‫גישת מצב הנתונים‪:‬‬

‫ביטול זיהוי נתונים מעשי (‪)Practical data de-identification‬‬

‫הבקרות ואמצעי ההגנה על השימוש בנתונים‬

‫אמצעי ההגנה ובקרות לא טכניים‪:‬‬

‫המדריך החזותי לביטול זיהוי נתונים מעשי‬

‫פסאודונימי‪ -‬שמות בדוי מלאכותיים ייחודיים מחליפים‬ ‫•‬

‫נתונים ללא זיהוי‬

‫מה אפשר לעשות במקרה הזה?‬

‫הטיות בקבלת החלטות אלגוריתמית‬

‫לדוגמה‪ -‬גוגל תרגום‬

‫דוגמה נוספת‪ -‬זיהוי תמונות‬

‫גישת הצדק וההוגנות בהקשר זה‪ -‬אנחנו לא רוצים שההחלטות יהיו‬

‫עולה השאלה‪ -‬מה צודק‪ /‬הוגן?‬

‫דוגמה שלישית‪Fairness through blindness -‬‬

‫דוגמה רביעית‪Apple Card -‬‬

‫בהודעה של אפל שיצאה בהמשך הם טוענים כי‪" :‬אנחנו לא‬

‫דוגמה חמישית‪ -‬מערכת הבריאות‬

‫דוגמה שישית‪ -‬מערכת ‪COMPAS‬‬