Download as pdf or txt
Download as pdf or txt
You are on page 1of 49

รายงานโครงงานวิ ศวกรรมไฟฟ้ า วิ ชา 2102490

สอนปัญญาประดิ ษฐ์ให้ลืม
Machine Unlearning

นายธีรศักดิ์ โรหิ ตเสถียร เลขประจาตัว 6330254521


อาจารย์ที่ปรึกษา รศ.ดร.ชาญชัย ปลื้มปิ ติ วิริยะเวช

ภาควิ ชาวิศวกรรมไฟฟ้ า คณะวิศวกรรมศาสตร์


จุฬาลงกรณ์มหาวิ ทยาลัย
ปี การศึกษา 2566

ลงชื่ออาจารย์ทป่ี รึกษาหลัก ลงชื่ออาจารย์ทป่ี รึกษาร่วม (ถ้ามี) ลงชื่อตัวแทนบริษทั (เฉพาะนิสติ ใน


โปรแกรมความเชื่อมโยง
อุตสาหกรรม)

____________________ ____________________ ____________________


(รศ.ดร.ชาญชัย ปลืม้ ปิ ตวิ ริ ยิ ะเวช) ( ) ( )
วันที่ 25/4/2567 วันที่ ____________________ วันที่ ____________________
บทคัดย่อ

เนื่อ งจากความต้อ งการในลบข้อ มูล ออกจากแบบจ าลองด้ว ยวิธี ท่ีป ระหยัดทรัพยากรและมี


ประสิท ธิภ าพ ซึ่ง ในปั จ จุ บัน ประเทศไทยยัง ไม่ มีก ารศึก ษาหัว ข้อ นี้ ในโครงงานนี้ จึง มีเ ป้ า หมายใน
การศึกษากระบวนการลืมเรียนรู้ โดยศึกษาวิธกี ารในการลืมเรียนรูด้ ว้ ยกัน 3 วิธี ได้แก่ การลืมเรียนรูโ้ ดย
เลือกทาให้บกพร่องและซ่อมแซม การลืมเรียนรูแ้ บบหลงลืม และ การลืมเรียนรูโ้ ดยผูส้ อนทีไ่ ม่เชีย่ วชาญ
ศึกษาบนชุดข้อมูล CIFAR-10 และ MNIST โดยทัง้ สามวิธกี าร สามารถทาให้แบบจาลองมีลมื การจดจา
ชุดข้อมูลทีต่ อ้ งการให้ลมื ได้ในระดับทีน่ ่าพอใจ รวมถึงส่งผลกระทบต่อการจดจาข้อมูลอื่นๆต่าด้วย

คาสาคัญ : กระบวนการลืมเรียนรู้

Abstract

Due to a need effective method to unlearn the desired data, where nowadays in Thailand,
there is no study about this topic, in this project, we aim to study in machine unlearning, by
studying 3 methods: UNSIR, Amnesiac and Incompetent teacher. We applied, in this project, the
three unlearning processes on CIFAR-10 and MNIST datasets. Results of all 3 methods can
make the model to unlearn the desired data with satisfactory level, and they make an impact on
recognition in other data in lower level.

Keyword : Machine Unlearning


สารบัญ
บทคัดย่อ ........................................................................................................................................... ก
Abstract ............................................................................................................................................ ก
สารบัญ .............................................................................................................................................. ข
1. บทนา ........................................................................................................................................ 1
1.1 ทีม่ าและความสาคัญของโครงงาน ........................................................................................... 1
1.2 วัตถุประสงค์ของโครงงาน ....................................................................................................... 2
1.3 ขอบเขตของโครงงาน ............................................................................................................. 2
1.4 ผลลัพธ์ทค่ี าดหวังจากโครงงาน ............................................................................................... 2
1.5 ขัน้ ตอนการดาเนินงาน ............................................................................................................ 2
2. หลักการและทฤษฎีทเ่ี กีย่ วข้อง .................................................................................................... 3
2.1 Machine Unlearning.............................................................................................................. 3
2.1.1 ความหมายของ Machine Unlearning ........................................................................ 3
2.1.3 Exact Unlearning...................................................................................................... 6
2.1.4 Approximate Unlearning (Certified Unlearning) ...................................................... 7
2.2 กระบวนการวิธลี มื เรียนรูท้ ใ่ี ช้................................................................................................... 8
2.2.1 นิยามตัวแปรและวัตถุประสงค์เบือ้ งต้น ....................................................................... 8
2.2.2 Unlearning by Selective Impair and Repair : UNSIR ............................................. 8
2.2.3 Amnesiac Unlearning ............................................................................................ 10
2.2.4 Unlearning by using an Incompetent Teacher ..................................................... 11
2.3 มาตรวัดผลสาหรับ Machine Unlearning Algorithms ............................................................ 13
2.3.1 ความแม่นยาบนชุดข้อมูลทีต่ อ้ งการให้ลมื และชุดข้อมูลทีเ่ หลือ ................................. 14
2.3.2 เวลาในการฝึกฝน .................................................................................................... 15
2.3.3 เมทริกซ์ของความสับสน (Confusion matrix) .......................................................... 15
3. ผลลัพธ์ของโครงการและการอภิปรายผล ................................................................................... 18
3.1 การศึกษากระบวนการลืมเรียนรูบ้ นชุดข้อมูล CIFAR-10 ........................................................ 18
3.1.1 การฝึกฝนแบบจาลองด้วยชุดข้อมูลดัง้ เดิม ............................................................... 19
3.1.2 การฝึกฝนแบบจาลองด้วยชุดข้อมูลทีเ่ หลือ ............................................................... 21
3.1.3 การลืมเรียนรูด้ ว้ ยวิธี UNSIR ................................................................................... 22


3.1.4 การลืมเรียนรูด้ ว้ ยวิธี Amnesiac Unlearning ............................................................ 24
3.1.5 การลืมเรียนรูด้ ว้ ยวิธี Bad and Good Teacher ........................................................ 26
3.1.6 การวิเคราะห์ผลทีไ่ ด้ ................................................................................................ 28
3.2 การศึกษากระบวนการลืมเรียนรูบ้ นชุดข้อมูล MNIST............................................................. 29
3.2.1 การฝึกฝนแบบจาลองด้วยชุดข้อมูลดัง้ เดิม ............................................................... 30
3.2.2 การฝึกฝนแบบจาลองด้วยชุดข้อมูลทีเ่ หลือ ............................................................... 32
3.2.3 การลืมเรียนรูด้ ว้ ยวิธี UNSIR ................................................................................... 33
3.2.4 การลืมเรียนรูด้ ว้ ยวิธี Amnesiac Unlearning ............................................................ 35
3.2.5 การลืมเรียนรูด้ ว้ ยวิธี Bad and Good Teacher ........................................................ 37
3.2.6 การวิเคราะห์ผลทีไ่ ด้ ................................................................................................ 39
3.3 วิเคราะห์ผลทีไ่ ด้จากทัง้ สองชุดข้อมูล ..................................................................................... 40
4. บทสรุป .................................................................................................................................... 41
4.1 สรุปผลการดาเนินการ........................................................................................................... 41
4.2 ปั ญหา อุปสรรค และแนวทางแก้ไข ....................................................................................... 41
5. กิตติกรรมประกาศ .................................................................................................................... 41
6. เอกสารอ้างอิง .......................................................................................................................... 42
7. ภาคผนวก ................................................................................................................................ 45
7.1 ภาคผนวก ก ........................................................................................................................ 45


1. บทนา
1.1 ที่มาและความสาคัญของโครงงาน
โลกของเราทุกวันนี้ได้ก้าวสู่ยุคแห่งข้อมูลโดยแท้จริง ไม่ว่าจะเป็ น ข้อมูลขนาดใหญ่ (Big Data)
ทีมกี าลังมีอิทธิพลอย่างมากในโลกธุรกิจ [1] และ ในทางวิศวกรรม เราได้ใช้ปัญญาประดิษฐ์และการ
เรียนรูข้ องเครื่อง (Artificial Intelligent and Machine Learning) ช่วยในการทางานต่างๆมากขึน้ [2] [3]
ซึ่งการสร้างปั ญญาประดิษฐ์ต่างๆมักใช้ ชุดข้อมูลขนาดใหญ่ ซึ่งการใช้ข้อมูลขนาดใหญ่ ใ นการสร้าง
จาลองแบบ (Model) ในปั ญญาประดิษฐ์นัน้ มีความยุ่งยากในเรื่องของการรวบรวมและเตรียมข้อมูลให้
เพียงพอ เหมาะสม และใช้ทรัพยากรในการฝึกฝน (Train) ต้นแบบเป็ นอย่างมาก ทัง้ เวลาในการฝึ กฝน
ชุ ด ข้อ มู ล ที่ย าวนาน ค่ า ใช้ จ่ า ยในแง่ ข องโปรแกรมชุ ด ค าสัง่ (Software) และเครื่อ งคอมพิว เตอร์
(Hardware) ทีส่ งู รวมถึงค่าไฟทีส่ งู ตามจานวนเครื่องฝึกฝนและเวลาการฝึก
อ้างอิงจากบทความประเด็นข้อกฎหมายความปลอดภัยและความเป็ นส่วนตัวของข้อมูล ส่วน
บุคคล โดยเฉพาะในประเด็น “สิทธิทจ่ี ะถูกลืม” (Right to be forgotten) ทีเ่ ป็ นประเด็นหยิบยกในสหภาพ
ยุโรปในเรื่องของการนาข้อมูลส่วนบุคคลไปใช้ฝึกฝน [4] ซึ่ง ผู้ใช้นัน้ สามารถขอลบข้อมูลส่วนบุคคลได้
ทุกเมื่อ โดยพื้นฐานการลบข้อมูล ที่ต้องการ ส่วนใหญ่มกั จะลบข้อมูลจากฐานข้อมูลที่เก็บข้อมูลไว้ ซึ่ง
สามารถทาได้โดยง่าย แต่ สาหรับแบบจาลองทีถ่ ูกฝึกฝนมา (Trained Model) จะจดจาชุดข้อมูลทีน่ ามา
ฝึก ด้วยวิธกี ารดัง้ เดิม หากเราต้องการให้ Trained model ลืมข้อมูลทีต่ ้องการ เราจะต้อ งฝึกฝนตัวแบบ
ใหม่ด้วย ชุดข้อมูลใหม่ท่ไี ด้ตดั ชุดข้อมูลที่ต้องการให้ลืมออก แต่เนื่องจากการฝึ กฝนแบบจาลองด้วย
ข้อมูลใหม่ (Retrain Model) เป็ นวิธกี ารทีส่ ้นิ เปลืองทรัพยากร อีกทัง้ หากข้อมูลที่เดิมทีใ่ ช้ฝึกหายไป ก็
จะไม่สามารถฝึกฝนใหม่ได้
นอกจากนี้ ยังมีหลายประเด็นที่ เราพยายามทาให้ model ลืมข้อมูล (Unlearning) ไม่ว่าจะเป็ น
การที่เ ราเตรีย มข้อ มูล มาไม่ ดี ท าให้ trained model แปรผลหรือ ท านาย (Interpret and Prediction)
คลาดเคลื่อนจากทีค่ วรจะเป็ น การถูกโจมตีทางข้อมูล (Data poisoning attack) โดยการแอบแฝงข้อมูล
เท็จเพือ่ ให้ model ถูกอิทธิพลจากข้อมูลเท็จจนทาให้ Interpret and Prediction ออกมาผิดพลาด ซึง่ เป็ น
อันตรายโดยเฉพาะในทางการแพทย์ ทีม่ คี วามเป็ นความตายมาเกี่ยวข้อง รวมถึง การเปลีย่ นแปลงของ
ข้อมูลตลอด (Dynamic dataset) บางครัง้ ข้อมูลที่เราเคยใช้training modelเป็ นข้อมูลที่เก็บในอดีตมา
นาน ในปั จจุบนั ข้อมูลอาจมีความเปลี่ยนแปลงสืบเนื่อง เราจึงอยากที่จะนาข้อมูลเก่าๆออกไป เพื่อให้
model มีความเป็ นปั จจุบนั มากขึน้
สาหรับ คาว่า Machine Unlearning นัน้ มีมานานแล้ว มีการกล่ าวถึงค าว่า “Unlearning” ครัง้
แรกในปี 2000 ในเอกสารงานวิจ ัย เรื่อ ง Incremental and Decremental Support Vector Machine
Learning [5]และ มีก ารท าวิจ ัย เกี่ย วกับ Machine Unlearning มานาน และได้มีผู้ร วบรวมเอกสาร
งานวิจ ัย ต่ า งๆ ที่เ กี่ย วข้อ งไว้ จะพบว่ า มี ขัน้ ตอนวิธีจ านวนการลืม เรีย นรู้ (Unlearning Algorithm)
จานวนมาก ในหลากหลายวิธแี ละสาหรับหลากหลายตัวแบบ (Model) อีกด้วย รวมถึงในปั จจุบนั ในปี
2566 มีก ารจัด แข่ ง การลืม การเรีย นรู้ใ น เว็บ บอร์ด Kaggle ในนาม the first Machine Unlearning
Challenge [6] ซึ่งจึงทาให้มวี ธิ กี ารลืมข้อมูลด้วยขัน้ ตอนวิธตี ่างๆหลากหลายมากขึ้น ในปั จจุบนั แต่เมื่อ

1
สารวจข้อมูล บทความ หรืองานวิจยั ที่เกี่ยวข้องกับ หัวข้อ Machine Unlearning ในไทยกลับพบว่า มี
เพียงการกล่าวถึงเพียงผิวเผิน ยังไม่มงี านวิจยั และการศึกษาทีเ่ กีย่ วข้องเลย จึงเป็ นแรงบันดาลใจในการ
ทาการศึกษาโครงงานครัง้ นี้ โดยวิธกี ารทีใ่ ช้ในโครงงานจะมีดว้ ยกัน 3 วิธี ได้แก่ การลืมเรียนรูโ้ ดยเลือก
ท าให้บ กพร่ อ งและซ่ อ มแซม (Unlearning by Selective Impair and Repair : UNSIR) การลืม เรีย นรู้
แบบหลงลืม (Amnesiac unlearning) และ การลืมเรียนรู้โดยผู้สอนที่ไร้ความสามารถ (Unlearning by
using an Incompetent Teacher) ซึ่งการลืมเรียนรู้ในโครงงานนี้จะมุ่งเน้นที่การทานายผลลัพธ์กบั ชุด
ข้อมูลทีต่ ้องการให้หายไปบนแบบจาลองที่ผ่านการกระบวนการลืมเรียนรู้นัน้ ให้มผี ลลัพธ์ออกมาในแง่
เสมือนว่าแบบจาลองนัน้ ไม่เคยเรียนรูช้ ุดข้อมูลดังกล่าวเลย
ผูจ้ ดั ทาจึงมีความคาดหวังว่า โครงงานนี้จะสามารถแสดงผลลัพธ์การศึกษาเกี่ยวกระบวนการลืม
เรียนรูไ้ ด้ และวัดประเมินผลการลืมเรียนรูด้ ว้ ยมาตรวัดผลทีใ่ ห้ผลลัพธ์ออกมาในระดับทีน่ ่าพึงพอใจ

1.2 วัตถุประสงค์ของโครงงาน
1. เพือ่ ศึกษาและทดลองกระบวนการลืมเรียนรู้
2. เพือ่ วัดผลประสิทธิภาพของกระบวนการลืมเรียนรูด้ ว้ ยมาตรวัดผลทีใ่ ช้ในการโครงงาน

1.3 ขอบเขตของโครงงาน
1. โครงงานนี้ศกึ ษากระบวนการลืมเรียนรูโ้ ดยศึกษาบนปั ญหาการจาแนกประเภทด้วยแบบจาลอง
resnet18 กับชุดข้อมูล 2 ชุด คือ CIFAR-10 และ MNIST
2. โครงงานนี้ใช้วธิ กี ระบวนการลืมเรียนรู้ด้วยกัน 3 วิธี โดยแต่ละวิธจี ะดาเนินการด้วยค่าตัวแปร
เบือ้ งต้นเหมือนกันทุกประการ
3. โครงงานจะทดสอบวัดประเมินผลประสิทธิภาพการลืมเรียนรูด้ ว้ ยมาตรวัดผลกับแต่ละวิธกี ารลืม
เรียนรู้ เพือ่ เปรียบเทียบผลลัพธ์ทไ่ี ด้ของแต่ละวิธกี าร

1.4 ผลลัพธ์ที่คาดหวังจากโครงงาน
แสดงผลลัพธ์ของกระบวนการลืมเรียนรู้ดว้ ยวิธกี ระบวนการลืมเรียนรูต้ ่างๆทีใ่ ช้ในโครงงาน และ
วัดประเมินผลประสิทธิภาพด้วยมาตรวัดผลทีใ่ ช้ในโครงงาน

1.5 ขัน้ ตอนการดาเนิ นงาน


1. ศึกษาหลักการ และทฤษฏีทเ่ี กีย่ วข้องกับกระบวนการลืมเรียนรู้
2. ศึกษาโครงสร้างชุดข้อมูล
3. ทดสอบกระบวนการลืมเรียนรู้
4. แก้ไขข้อผิดพลาด และทาซ้า
5. วัดประเมินผล วิเคราะห์และสรุปผล
6. เขียนรายงาน

2
2. หลักการและทฤษฎีที่เกี่ยวข้อง
2.1 Machine Unlearning
ในหัวข้อนี้ เราจะพูดถึง ความหมายของ Machine Unlearning เพื่อให้เข้าใจความหมายและ
วัต ถุ ป ระสงค์ใ นการท าอย่ า งง่า ย การก าหนดปั ญ หา เพื่อ แสดงเป็ น กรอบการท างานเบื้อ งต้น ของ
Machine Unlearning และ ประเภทของ Machine Unlearning ซึ่งมีดว้ ยกัน 2 แบบ คือ กระบวนการลืม
การเรียนรู้ท่แี น่ นอน (Exact Unlearning) และ กระบวนการลืมการเรียนรู้โดยประมาณ (Approximate
Unlearning)
2.1.1 ความหมายของ Machine Unlearning
คือ กระบวนการลืมการเรียนรู้ของเครื่อง ซึ่งอ้างอิงจาก เอกสารงานวิจยั ของ Jie Xu และคณะ
[7] เป็ นกระบวนการที่กาจัดอิทธิพลของข้อมูลที่ต้องการออกจาก trained model โดยกระบวนการของ
Machine Unlearning อย่างง่ายดังในรูปที่ 1

รูปที่ 1 กระบวนการของ Machine Unlearning อย่างง่าย [6]


อธิบายองค์ประกอบและกระบวนการที่เกิดขึ้น ในรูปที่ 1 เริม่ จากฝั ง่ บนซ้าย กลุ่มรูปภาพ 3 รูป
เป็ นชุดข้อมูล ดัง้ เดิม ได้ถูกนามาฝึ กฝน (training) เพื่อสร้างแบบจาลองที่ถูกฝึ กฝนแล้ว (pre-trained
model) จากนัน้ มีค วามต้อ งการที่จ ะลบข้อ มูล ของภาพชายใส่หมวกโดยกาหนดให้เ ป็ น ชุ ด ข้อ มูล ที่
ต้องการให้ลมื (forget set) จากนัน้ เราจะนาชุดข้อมูลดัง้ เดิม, pre-trained model และ forget set มาผ่าน
กระบวนการลืมเรียนรู้ (unlearning algorithm) เพื่อให้ pre-trained model ไม่สามารถจดจา forget set
ได้ ซึ่ ง จะถู ก เรีย กว่ า unlearned model หรือ แบบจ าลองที่ ถู ก ลื ม แล้ ว ซึ่ ง จะมีก ารเปรีย บเที ย บ
ความสามารถในการลืมเรียนรูข้ อง unlearned model ด้วยการ สร้างแบบจาลองใหม่ทเ่ี รียนรูช้ ุดข้อมูลที่
ปราศจาก forget set ซึง่ จะถือเป็ นมาตรฐานในการเปรียบเทียบ (gold standard) จากนัน้ จะเปรียบเทียบ

3
วัดประเมินผลระหว่าง unlearned model กับ gold standard ว่ามีความคล้ายหรือผลลัพธ์ทใ่ี กล้เคียงกัน
หรือไม่
ยกตัว อย่างปั ญ หาที่เ กิดขึ้นจริงในปั จ จุบัน นัน่ คือ ปั ญ หาความต้อ งการลบข้อ มูล ส่ว นบุ ค คล
ยกตัวอย่างปั ญหาจริงดังรูปที่ 2 ซึ่งโดยปกติองค์กรที่ถูกขอให้ลบข้อมูลดังกล่าว จะลบข้อมูลออกจาก
ฐานข้อมูล (database) เพียงเท่านัน้ แต่การลบข้อมูลจากแบบจาลองเป็ นไปได้ยาก เนื่องจากแบบจาลอง
จะเรียนรู้ข้อ มูล และเปลี่ย นแปลงให้อ ยู่ใ นรูปแบบที่ซับ ซ้อ น โดยเฉพาะอย่ างยิ่ง ในแบบจ าลองแบบ
โครงข่ายประสาทเทียมเชิงลึก (Deep neural network) ทีม่ คี วามซับซ้อนสูงในการเรียนรูข้ อ้ มูล แต่การ
ใช้วธิ ีการฝึ กฝน (retraining) เป็ นวิธีการที่ส้นิ เปลือ งทรัพยากรอย่างมาก สาหรับ big data ทาให้เ กิด
แรงจูงใจในการหาวิธกี ารทีส่ ามารถลืมข้อมูลได้โดยประหยัดทรัพยากรให้มากทีส่ ุด

รูปที่ 2 ตัวอย่างปั ญหาความต้องการลบข้อมูลบุคคล จากระบบจดจาใบหน้า [10]

2.1.2 การกาหนดปัญหา (Problem Formulation)


ทัง้ นี้ได้มกี ารสร้างข้อปั ญหา(Problem Formulation) ของ Machine Unlearning จากเอกสารงาน
เชิงสารวจ (Survey Paper) ของ Thanh Tam Nguyen [8] และคณะ ให้เห็นภาพกรอบการทางานภาพ
ใหญ่ของ Machine unlearning ด้วยในรูปที่ 3

4
รูปที่ 3 กรอบการทางานของ machine unlearning (ปรับปรุงจาก A survey of Machine
unlearning)

เพื่อให้เห็นภาพที่ง่ายขึ้น เราจะนิยามให้ชุดข้อมูล 𝐷 เป็ นชุดข้อมูลดัง้ เดิม (Original set) ชุด


ข้อมูล 𝐷 ใช้ในการฝึกฝนตัวแบบ ตัวแบบทีไ่ ด้มาเราจะเรียกว่า แบบจาลองดัง้ เดิม 𝑀 (Original Model)
ซึ่งการจะลืมข้อมูลออกจาก 𝑀 นัน่ จะเริม่ จากการระบุชุดข้อมูลทีต่ ้องการให้ลมื 𝐷𝑓 (Forgot set) แล้ว
ในไปผ่านขัน้ ตอนวิธี (Algorithm) จากนัน้ จะได้แบบจาลองที่ลืมข้อมูล 𝑀𝑢 (Unlearn Model) ออกมา
ซึ่ง เรามีแนวคิดในการวัดประเมินผล (Evaluation) ของ 𝑀𝑢 โดย สร้างตัวแบบใหม่จาก ชุดข้อมูลที่
ก าจัดข้อ มูล ที่ต้อ งการให้ลืมออก หรือ ก็ค ือ 𝐷\𝐷𝑓 หรือ 𝐷𝑟 (Retain set) ตัว แบบที่ได้จะเรีย กว่ า
แบบจาลองฝึ กใหม่ (Retrained Model) 𝑀𝑟 ถือ เป็ นตัว แบบอุดมคติของ 𝑀𝑢 เพราะเป็ นวิธีท่ีกาจัด
ข้อมูลจากตัวแบบได้ดที ่สี ุดด้วยการไม่มขี อ้ มูลนัน้ ในการฝึ กตัวแบบตัง้ แต่ เริม่ ต้น(แต่เป็ นวิธที ่สี ้นิ เปลือง
ทรัพยากรอย่างทีเ่ คยกล่าวถึง) โดยกระบวนการการสร้างและวัดประเมินผล จะแสดงในรูปที่ 4

รูปที่ 4 กระบวนการสร้างและวัดประเมินผล unlearning model ด้วย Original, Forgot and Retain set

5
2.1.3 Exact Unlearning
เป็ นกระบวนการลืม การเรีย นรู้ท่ีแน่ นอน ซึ่งเป็ นแนวคิดยึดหลัก ที่ว่ าให้ประสิทธิภ าพความ
แม่นยาในการลืมข้อมูล เท่ากับ การฝึ กชุดข้อมูลใหม่ โดยนิยามให้ ขัน้ ตอนวิธใี นการลืม (Unlearning
Algorithm) เป็ น 𝑈 (𝑥, 𝑥𝑓 , 𝐴(𝑥 )) ส่ว นขัน้ ตอนวิธีการในการเรีย นรู้ทวไป ั ่ (learning Algorithm)
เป็ น 𝐴(𝑥 ) เมื่อ 𝑥 เป็ นชุดข้อมูลทีน่ ามาผ่าน algorithm ดังกล่าว 𝑥𝑓 เป็ นชุดข้อมูลทีต่ อ้ งการจะลบ ซึ่ง
โดยปกติ ผลลัพ ธ์ ใ นการผ่ า น learning algorithm มัก จะวัด ในรู ป ของการกระจายตัว (Distribution)
เนื่องจาก ผลลัพธ์ทไ่ี ด้มคี วามสุม่ [7] ไม่ได้ค่าเท่าเดิมในทุกๆครัง้ จึงนิยามให้ 𝑃𝑟(𝑌) แทนการกระจาย
ตัว ของผลลัพ ธ์จากการใช้ข นั ้ ตอนวิธี 𝑌 ดังนัน้ หากว่า 𝑥 ⊆ 𝑥𝑓 แล้ว เราจะพูดได้ว่ า ขัน้ ตอนวิธี
𝑈 (𝑥, 𝑥𝑓 , 𝐴(𝑥 )) เป็ น Exact Unlearning ก็ต่อเมื่อ [8]

𝑃𝑟(𝑈(𝑥, 𝑥𝑓 , 𝐴(𝑥 ))) = 𝑃𝑟(𝐴(𝑥\𝑥𝑓 )) (1)

เมื่อ 𝑥\𝑥𝑓 เป็ นชุดข้อมูลทีเ่ หลือเมื่อกาจัดชุดข้อมูลทีต่ อ้ งการจะลบ


มีกระบวนการวิธีท่นี าหลักการ Exact Unlearning มาใช้ได้แก่ SISA framework [9] ซึ่ง SISA
ย่อมาจาก Sharding, Isolation, Slicing, and Aggregation เป็ นกระบวนการทีใ่ ช้การแบ่งส่วน (Shading)
การแยก (Isolation) การเลื่อน (Slicing) และการรวมกลุ่ม (Aggregation) โดยแนวคิดหลักของ SISA คือ
การแบ่งข้อมูลออกมาเป็ นชุดข้อมูลหลายชุดโดยเป็ นอิสระต่อกัน โดยแต่ละชุดนัน้ อิทธิพลของข้อมูลแต่
ละชุดจะแยกจากกัน ดังนัน้ เมื่อนาไปชุดข้อมูลย่อย ไปทาตัวแบบ แล้วประเมินผลพบว่าตัวแบบดังกล่าว
มีปัญหา จะทากับฝึกฝนใหม่ (Retraining) กับชุดข้อมูลทีม่ ปี ั ญหาเท่านัน้ แผนภาพการทางานของ SISA
เมื่อรวมเข้าด้วยกันจะเป็ นดังรูปที่ 5 ด้านล่าง

รูปที่ 5 แผนภาพกระบวนการทางานของ SISA (ปรับปรุงจาก


Machine Unlearning)

6
จุดเด่นของ SISA คือ เวลาทีใ่ ช้ในการ Unlearning model น้อย เพราะใช้วธิ กี าร unlearning กับ
model ทีม่ ปี ั ญหาเพียงชุดเดียว ซึง่ มีขนาดเล็กเนื่องจากเราแบ่งชุดข้อมูลให้เป็ นขนาดเล็กๆ และยังเรียนรู้
เพิม่ จากการ แบ่งชุดข้อมูลย่อยภายในชุด เมื่อนากลับมารวมกัน จะได้ความแม่นยาทีส่ ูงตามด้วย เพราะ
trained model จากส่วนใหญ่อ่นื ให้เสมือนการเรียนรูป้ กติ อีกทัง้ ยังไม่กระทบต่อประสิทธิภาพของ model
แต่ทงั ้ นี้กย็ งั มีขอ้ จากัดเนื่องจาก เป็ นกระบวนการทีข่ น้ึ อยู่กบั ลักษณะของกระบวนการเรียนรู้ ในตัวแบบที่
เกิดจากชุดข้อมูลทีแ่ บ่งย่อย ยกตัวอย่าง การใช้วธิ ี SISA กับ ระบบการเรียนรูเ้ ชิงลึกและระบบโครงข่าย
ประสาทเที ย ม (Deep Learning and Neural Network) ที่ มี ค วามซั บ ซ้ อ นในตั ว แบบสู ง ในเรื่ อ ง
ความสัมพันธ์ของข้อมูลซึ่งยากต่อกันแยกออกจากกัน และยังต้องใช้พ้นื ที่จานวนมากในการแบ่งย่อย
ข้อมูล และจะมีผลกระทบต่อผลการทานายโดยรวม (Prediction) จากการแยก model แล้วนากลับมา
Aggregation [9]
ในโครงงานของเราจะไม่ได้นา Exact Unlearning อย่าง SISA มาใช้ เนื่องจากวิธี SISA มีความ
จาเป็ นในการใช้พน้ื ทีจ่ ดั เก็บข้อมูลอย่างมาก ซึ่งโครงงานของเราดาเนินการบนพืน้ ทีจ่ ดั เก็บทีจ่ ากัด และ
จากจุดด้อยนี้ เป็ นอีกหนึ่งปั ญหาสูก่ ารสร้างวิธกี ารลืมเรียนรูอ้ ่นื ขึน้

2.1.4 Approximate Unlearning (Certified Unlearning)


กระบวนการลืมการเรียนรู้โดยประมาณ จะเน้ น ไปที่ก ารทาให้ผ ลกระทบจากข้อ มูล ที่ถู ก ลืม
unlearned data มีผลต่อตัวแบบน้อยทีส่ ุด พร้อมทัง้ ทาให้กระบวนการลืมเรียนรูข้ องข้อมูลเป็ นไปอย่างมี
ประสิทธิภาพ โดยมีแนวคิดที่ว่า ค่าการกระจายตัวของผลลัพธ์ท่ถี ูกสร้างด้วย Unlearning Model หรือ
𝑃𝑟(𝑈(𝑥, 𝑥𝑓 , 𝐴(𝑥 ))) เปรียบเทียบกับค่าการกระจายตัวของผลลัพธ์ทถ่ี ูกสร้างด้วย Retraining
Model หรือ 𝑃𝑟(𝐴(𝑥\𝑥𝑓 )) อยู่ใ นช่ว งที่ยอมรับได้ ซึ่งนิยามค่ าช่ว งที่ยอมรับได้ด้ว ย 𝜖-certified
removal จะได้สมการเป็ น

𝑃𝑟(𝑈(𝑥, 𝑥𝑓 , 𝐴(𝑥 )))


𝑒 −𝜖 ≤ ≤ 𝑒𝜖 (2)
𝑃𝑟(𝐴(𝑥\𝑥𝑓 ))

โดยที่ค่ า 𝜖 ≥ 0 สาเหตุท่ีส มการมีล ักษณะแบบนี้ เนื่อ งมาจากหลายแบบจ าลองนิ ย มใช้


ฟั งก์ชนั ลอการิทมึ (Logarithm Function) เมื่อเรานาสมการ (2) ผ่าน Logarithm จะได้หน้าตาเป็ น

log ∥ 𝑃𝑟(𝑈(𝑥, 𝑥𝑓 , 𝐴(𝑥 ))) /𝑃𝑟(𝐴(𝑥\𝑥𝑓 )) ∥ ≤ 𝜖 (3)

โดยที่ ∥. ∥ ใดๆ สื่อ ถึง เป็ น การวัดระยะห่ า ง (Absolute Distance Metric) บนปริภู มิผ ลลัพธ์
(Outer Space)

7
2.2 กระบวนการวิ ธีลืมเรียนรู้ที่ใช้
กระบวนการลืมเรียนรู้ท่เี ราใช้ในโครงงาน เป็ นประเภท Approximate Unlearning ซึ่งจะเน้ น
กระบวนการไปที่แ บบจาลองเป็ นหลัก ซึ่งมีอยู่ด้วยกัน 3 วิธี ซึ่งได้แก่ การลืมเรียนรู้โดยเลือ กทาให้
บกพร่ อ งและซ่ อ มแซม (Unlearning by Selective Impair and Repair : UNSIR) การลืม เรีย นรู้ แ บบ
หลงลืม (Amnesiac unlearning) และ การลืมเรียนรูโ้ ดยผูส้ อนทีไ่ ม่เชีย่ วชาญ (Unlearning by using an
Incompetent Teacher) โดยจะเริ่มเกริ่นนาในสัญ ลักษณ์ทางคณิต ศาสตร์ ของตัวแปรที่ใช้ใ นในแต่ละ
วิธกี ารก่อน
2.2.1 นิ ยามตัวแปรและวัตถุประสงค์เบือ้ งต้น
เริม่ ต้นด้วยการกาหนดสัญลักษณ์ทางคณิตศาสตร์ของตัวแปรทีจ่ ะใช้ในโครงงาน เริม่ ต้นด้วย ชุด
ข้อมูลดัง้ เดิม 𝐷 ซึง่ ประกอบไปด้วย ข้อมูลจานวน 𝑛 ตัว และ ประเภทของเป้ าหมาย (target classes)
𝐾 ประเภท ซึง่ ในชุดข้อมูล 𝐷 มีขอ้ มูลขาเข้าสาหรับฝึกฝน 𝑋 ซึง่ จะมีสมาชิก 𝑥 ทัง้ หมด 𝑛 ตัวเป็ นข้อมูล
ขาเข้าและ ข้อมูลขาออกเป็ นข้อมูลเป้ าหมาย 𝑌 ซึง่ จะมีสมาชิก 𝑦 ทัง้ หมด 𝑛 ตัว เป็ นประเภทของ
เป้ าหมาย ตัง้ แต่ 1 ถึง 𝐾 และกาหนดให้เป้ าหมายทีต่ อ้ งการให้ลมื กับเป้ าหมายทีเ่ หลือเป็ น 𝑌𝑓 กับ 𝑌𝑟
ตามลาดับ โดยทีช่ ุดข้อมูลทีต่ อ้ งการให้ลมื 𝐷𝑓 และชุดข้อมูลทีเ่ หลือ 𝐷𝑟 รวมกันจะต้องได้ชุดข้อมูล
ดัง้ เดิม รวมถึง ชุดข้อมูลทีต่ อ้ งการให้ลมื 𝐷𝑓 และชุดข้อมูลทีเ่ หลือ 𝐷𝑟 จะต้องไม่มชี ุดข้อมูลทีซ่ ้ากัน หรือ
ก็คอื 𝐷𝑟 ∪ 𝐷𝑓 = 𝐷 , 𝐷𝑟 ∩ 𝐷𝑓 = ∅ นันเอง ่ จากนัน้ จะสร้างฟั งก์ชนั ทีท่ าหน้าทีเ่ ป็ น
แบบจาลองในการสร้างความสัมพันธ์จาก 𝑋 → 𝑌 โดยถูกกาหนดค่าด้วย 𝜃 เรียกว่า 𝑀𝜃 (𝑥) ซึง่ ค่า
น้าหนัก 𝜃 จากแบบจาลองดัง้ เดิม 𝑀𝜃 เป็ นค่าทีไ่ ด้จากชุดข้อมูลดัง้ เดิม
2.2.2 Unlearning by Selective Impair and Repair : UNSIR
อ้า งอิง วิธีก ารจากเอกสารงานวิจ ัย Fast Yet Effective Machine Unlearning ของ Ayush K
Tarun และ คณะ [12] เป็ นวิธีก ารที่ลืมชุดข้อ มูล ด้ว ยการสร้างสัญ ญาณรบกวน (noise) กับประเภท
เป้ าหมายที่ต้องการให้ลมื 𝑌𝑓 โดยที่ไม่จาเป็ นต้องใช้ชุดข้อมูลที่ต้องการให้ลมื 𝐷𝑓 เลย ซึ่งขัน้ ตอนใน
การทางานของ UNSIR มีอยู่ดว้ ยกันอยู่ 3 ขัน้ ตอนใหญ่ๆ
1. การสร้างสัญญาณรบกวน (Noise) : เป็ นขัน้ ตอนที่เริม่ ด้วยการสร้าง เมทริกซ์ของสัญญาณ
รบกวน (Noise Matrix) 𝒩 เป็ นค่าทีส่ ุ่มกระจายตัวแบบปกติ (normal distribution) ด้วยค่า 𝑁(0,1)
หรือก็คอื มีค่าเฉลี่ย 0 และ ค่าความแปรปรวนเป็ น 1 โดยมีขนาดเท่ากันกับขนาดของข้อมูลขาเข้าของ
แบบจาลอง เพื่อใช้รบกวนประเภทเป้ าหมายที่ต้องการให้ลมื 𝑌𝑓 ซึ่งจะใช้แบบจาลอง 𝑀 ที่ถูกฝึ กฝน
มาแล้วในการหาสร้างความสัมพันธ์ (Correlation) ระหว่าง 𝒩 และ 𝑌𝑓 จะมีสญ ั ลักษณ์ทางคณิตศาสตร์
เป็ น 𝑀 ∶ 𝒩 → 𝑌𝑓 ทัง้ นี้ เราจะคงค่าน้ าหนัก 𝜃 จากแบบจาลองดัง้ เดิมไว้ระหว่างกระบวนการนี้
จากนัน้ เราจะใช้ก ารแก้ปัญหาเพื่อ หาค่ าที่ เ หมาะสมที่สุด (optimization problem) เพื่อทาให้ค่าความ
ผิดพลาดทีเ่ กิดสัญญาณรบกวนมีค่ามากทีส่ ุดดังสมการ

8
arg min 𝔼(𝜃) [−ℒ(𝑀 , 𝑦) + 𝜆 ∥ 𝜔𝑛𝑜𝑖𝑠𝑒 ∥] (4)
𝒩

โดยที่ ℒ(𝑓, 𝑦) หรือ ฟั ง ก์ ช ัน ค่ า ความสู ญ เสีย ในการจ าแนกประเภท (classification loss


function) ของแบบจ าลองประเภทเป้ าหมายที่ ต้ อ งการให้ ถู ก ลื ม 𝑌𝑓 ยิ่ง ค่ า นี้ มีม าก จะสื่อ ได้ ว่ า
ความสามารถในการจ าแนกประเภทของแบบจ าลองนี้ ต่ า 𝑀 คือ แบบจ าลองที่ถู ก ฝึ ก ฝนมาแล้ว
𝜔𝑛𝑜𝑖𝑠𝑒 คือค่าตัวแปรทีถ่ ูกเก็บใน noise matrix 𝒩 หากข้อมูลเป็ นประเภทภาพ 𝜔𝑛𝑜𝑖𝑠𝑒 จะเป็ นค่า
พิกเซลของภาพ และ 𝜆 เป็ นค่าสาหรับปรับให้เกิดสมดุลระหว่างตัวแปร ℒ(𝑓, 𝑦) และ 𝜔𝑛𝑜𝑖𝑠𝑒 ซึ่ง
ค่า 𝜆 จะทาให้ค่าสัญญาณรบกวนมีขนาดมากจนเกินไป
กระบวนการหาค่าที่เหมาะสมที่สุด เพื่อทาให้ค่าความผิดพลาดที่เกิดสัญญาณรบกวนมีค่ามาก
ทีส่ ุด จะใช้วธิ กี ารหาค่า 𝐿𝑝 -norm bounded [13] หรือการหามิตทิ เ่ี หมาะสมสาหรับ ∥ 𝜔𝑛𝑜𝑖𝑠𝑒 ∥ โดย
วิธีก ารที่ใ ช้ใ นโครงงานนี้ อ้างอิงจากเอกสารงานวิจยั Fast Yet Effective Machine Unlearning ของ
Ayush K Tarun และ คณะ ซึ่งได้ใช้ ℒ(𝑓, 𝑦) เป็ น Cross-Entropy (ref) และมิตขิ อง ∥ 𝜔𝑛𝑜𝑖𝑠𝑒 ∥
เป็ น 𝐿2
2. ทาให้เกิดการบกพร่อง (Impair step) : จะเริม่ ทาการรบกวนแบบจาลองด้วย นาชุดข้อมูลที่
เหลือจากการกาจัดชุดข้อมูลที่ต้องการให้ลมื ออก 𝐷𝑟 โดยหยิบมาเพียงบางส่วน มาผสมกับสัญญาณ
รบกวน 𝒩 แล้วนาไปฝึกแบบจาลองทีต่ อ้ งการรบกวน จากกระบวนการดังกล่าวจะทาให้ค่าน้ าหนักของ
แบบจาลองดัง้ เดิม เปลีย่ นไปจากการถูกรบกวน ทาให้ประสิทธิภาพในการจดจาข้อมูลที่ต้องการให้ถูก
ลืมลดลง
3. ปรับปรุงซ่อมแซม (Repair step) : หลังจากทีผ่ ่าน Impair step มักจะส่งผลต่อการทานายชุด
ข้อมูลที่เหลือด้วยโดยประสิทธิภาพในการทานายจะลดลง จึงต้องทาการปรับค่าน้ าหนักที่ถูกรบกวนที่
ปรับปรุง ด้วยเหลือจากการกาจัดชุดข้อมูลที่ต้องการให้ลมื ออก 𝐷𝑟 โดยหยิบมาเพียงบางส่วนเช่นกัน
เมื่อผ่านขัน้ ตอนนี้ ประสิทธิภาพในการเรียนรู้บนชุดข้อมูลที่เหลือด้วยแบบจาลองที่ผ่านกระบวนการ
UNSIR จะให้ค่าใกล้เคียงกับ แบบจาลองดัง้ เดิมมากขึน้
ซึง่ ภาพกรอบการทางานของกระบวนการ UNSIR จะแสดงดังในรูปที่ 6

9
รูปที่ 6 กรอบการทางานของ UNSIR (ปรับปรุงมาจาก Fast Yet Effective Machine Unlearning)

ซึ่งจุดเด่นของวิธีการนี้คอื เราไม่จาเป็ นต้องใช้ชุดข้อมูลที่ต้องการให้ลืม 𝐷𝑓 ในกระบวนการ


เนื่องจากกระบวนการ UNSIR จะสร้างสัญญาณรบกวนที่ 𝑌𝑓 หรือเป็ นค่าเป้ าหมายของชุดข้อมูล ใช้
เพียงแค่ชุดข้อมูลทีเ่ หลือในการปรับปรุงเท่านัน้ ทาให้ถอื เป็ นวิธกี ารทีเ่ หมาะสมกับข้อกฎหมาย Right to
be forgotten ด้วยเนื่องจากกฎหมายนี้จะให้เวลาในการจัดการข้อมูลภายใน 1 เดือน ทาให้เราสามารถ
ลืมการทานายของข้อมูลนัน้ ได้ แม้จะไม่มขี อ้ มูลนัน้ แล้ว แต่จะมีขอ้ เสียตรงที่ไม่สามารถลืมข้อมูลนัน้ ได้
จริงๆ เป็ นเพียงการรบกวนการทานายเป้ าหมายทีต่ อ้ งการของแบบจาลองออก
2.2.3 Amnesiac Unlearning
ที่มาของชื่อ Amnesiac Unlearning หรือ กระบวนลืมเรีย นรู้แ บบหลงลืมนัน้ อ้างอิงวิธีจ าก
เอกสารงานวิ จ ั ย Amnesiac Machine Learning ของ Laura Graves และ คณะ [14] ได้ ม าจาก
กระบวนการทีป่ รับค่าตัวแปรต่างๆของแบบจาลองเฉพาะกับชุดข้อมูล (batch) ทีม่ ขี อ้ มูลทีต่ ้องการให้ลมื
อยู่นนเอง
ั่ โดยยังคงค่าตัวแปรต่างๆของแบบชุดข้อมูลอื่นๆทีไ่ ม่เกีย่ วข้องไว้ดงั เดิม เสมือนสมองมนุษย์ท่ี
มักหลงลืมเรื่องบางเรื่องหากไม่ได้คดิ ถึงเรื่องนัน้ บ่อยๆ
อธิบายคณิตศาสตร์ท่เี กี่ยวข้องกับกระบวนการเริม่ จาก โดยปกติก่อนที่จะทาการฝึ กฝนข้อมูล
ด้ว ยชุ ด ข้อ มูล ฝึ ก ฝน เรามัก จะก าหนดค่ า ตัว แปรหรือ ค่ า น้ า หนัก (parameter) บางอย่ า งไว้ เพื่อ ให้
แบบจาลองสามารถเรียนรูไ้ ด้ดแี ละเร็วขึน้ จึงกาหนดไว้ว่า 𝜃𝑖 เป็ นค่าตัวแปรหรือค่าน้ าหนักทีก่ าหนดไว้
เริ่ม ต้น จากนัน้ เมื่อ ท าการสร้า งแบบจ าลอง 𝑀 ขึ้น เมื่อ ท าการฝึ ก ฝน 1 รอบ (epoch) จะเกิด การ

10
เปลี่ยนแปลงค่าตัวแปร (updating parameter) ขึ้น ซึ่งจะเปลี่ยนแปลงในทุกๆ batch เราจึงกาหนดให้
การเปลี่ยนแปลงค่า parameter นี้มสี ญ
ั ลักษณ์ ∆𝜃𝑒,𝑏 ซึ่งจะเปลี่ยนแปลงในแต่ละ epoch และ batch
และแทน ค่า epoch เป็ น 𝑒 และ ค่า batch เป็ น 𝑏 เมื่อทาการฝึกฝนข้อมูลให้กบั แบบจาลอง 𝑀 จะได้
ค่า parameter 𝜃𝑀 ใหม่เป็ นดังสมการนี้
𝐸 𝐵

𝜃𝑀 = 𝜃𝑖 + ∑ ∑ ∆𝜃𝑒,𝑏 (5)
𝑒=1 𝑏=1

โดยที่
𝐸 คือ จานวนรอบทีใ่ ช้ในการฝึกฝน
𝐵 คือ จานวนชุดข้อมูล
ระหว่ า งฝึ ก ฝนแบบจ าลอง Amnesiac Unlearning จะท าการสัง เกตหาชุ ด ข้อ มูล ที่มีข้อ มู ล ที่
ต้อ งการให้ลืม โดยจาเป็ นที่จ ะต้อ งมีชุ ดข้อ มูล เก่ าในการช่ว ยระบุต าแหน่ งกับกระบวนการด้ว ย ซึ่ง
จาเป็ นต้องเก็บค่า parameter ของทุกตัวไว้ เพราะเราจะเปลี่ยนแปลงค่า parameter เฉพาะ batch ที่
สนใจ เมื่อเราเก็บค่าชุดข้อมูลที่มขี อ้ มูลที่ต้องการให้ลมื แล้ว (Unlearn Batch) 𝑈𝐵 เราจะทาการสร้าง
แบบจาลองใหม่ 𝑀′ ขึ้นจากกระบวนการ Amnesiac Unlearning ซึ่งค่า parameter ใหม่ 𝜃𝑀′ จะถูก
ปรับปรุงในแต่ละ batch ที่อยู่ใน 𝑈𝐵 หรือก็คอื 𝑢𝑏 𝜖 𝑈𝐵 โดยแต่ละครัง้ ที่เกิดการเปลี่ยนแปลงค่ า
parameter จะถูกเปลีย่ นในรูป ∆𝜃𝑢𝑏 ซึ่งจะเปลีย่ นแปลงในแต่ละ Unlearn Batch โดยปรับปรุงจากค่า
parameter 𝜃𝑀 เราจะได้สมการออกมาดังนี้

𝑈𝐵

𝜃𝑀′ = 𝜃𝑀 + ∑ ∆𝜃𝑢𝑏 (6)


𝑢𝑏

หากจานวนชุดข้อมูลที่มขี ้อมูลที่ต้องการให้ลืมมีจานวนน้อย ความแตกต่างระหว่าง 𝜃𝑀 กับ


𝜃𝑀′ ค่อนข้างต่า และผลกระทบทีเ่ กิดขึน้ ก็จะต่าลงด้วยเช่นกัน แต่จะมีจุดเสียในแง่ของการพืน้ ทีจ่ ดั เก็บ
batch ทีจ่ าเป็ นต้องใช้มากขึน้ หากจานวนชุดข้อมูลมีมากขึน้ ตาม ซึ่งจริงๆแล้ววิธนี ้ีมคี วามคล้ายคลึงกับ
UNSIR โดยการที่ไ ปเปลี่ย นแปลงประเภทเป้ าหมายให้ เ ป็ นค่ า อื่น แบบสุ่ ม แต่ ว ิธีก าร Amnesiac
Unlearning จะมียงั จาเป็ นต้องใช้ชุดข้อมูล 𝐷𝑓 ในกระบวนการอยู่
2.2.4 Unlearning by using an Incompetent Teacher
จากนี้จะขอกล่าวถึง Unlearning by using an Incompetent Teacher ในโครงงานนี้ว่า Bad and
Good Teacher เป็ นวิธีก ารที่อ้ า งอิง จากเอกสารงานวิจ ัย Can Bad Teaching Induce Forgetting?
Unlearning in Deep Networks Using an Incompetent Teacher ของ Vikram S Chundawat [15] และ

11
คณะ สาเหตุของชื่อเรียกมาจากการที่ก ระบวนการนี้ใช้วธิ ีการที่คล้ายคลึงกับ knowledge distillation
[16] ซึ่งเป็ นกระบวนการในการถ่ายทอดความรู้ หรือการฝึกฝนข้อมูลจากแบบจาลองต้นแบบ (Teacher
model) ไปยังแบบจาลองผู้เ รียน (Student model) เสมือ นดังครูส อนความรู้ท่ีต ัว เองมีใ ห้กับนักเรียน
หลักการของกระบวนการ Bad and Good Teacher จะทากลับกันกับ knowledge distillation โดยการ
ท าให้ student model ที่ถู ก สอนมาด้ว ยชุ ด ข้อ มูล ทัง้ หมด ได้ร ับ การสอนจาก Incompetent teacher
model หรือ แบบจาลองผู้สอนที่ไ ม่เชี่ยวชาญในชุดข้อ มูลที่ต้องการให้ลืม จะทาให้ student model มี
ความสามารถในการเรียนรูบ้ นชุดข้อมูลทีต่ อ้ งการให้ลมื ได้แย่ลง หรือ เสมือนไม่เคยเรียนรูเ้ ลย
วิธีก ารนี้ จ ะเริ่ม ต้ น จากการมี แบบจ าลองที่มีค วามสามารถ 𝑀𝑠 และ แบบจ าลองที่มี ไ ร้
ความสามารถ 𝑀𝑑 บนชุดข้อมูลทีต่ ้องการให้ลมื 𝐷𝑓 ซึ่งแบบจาลองผูเ้ รียน 𝑆 เดิมจะเป็ นแบบจาลองที่
ถูกฝึกฝนด้วยชุดข้อมูลดัง้ เดิม 𝐷 เราจะใช้แบบจาลอง 𝑀𝑠 และ 𝑀𝑑 ในการควบคุมความสามารถของ
𝑆 ซึ่งความไร้ความสามารถในการเรียนรู้บนชุดข้อมูล 𝐷𝑓 ของ 𝑀𝑑 จะช่วยให้ 𝑆 ลืมข้อมูลได้ ซึ่งจะ
เป็ นการทาให้การเรียนรูแ้ บบสุ่มเกี่ยวกับ 𝐷𝑓 ให้กบั 𝑆 ซึ่งกระบวนการนี้อาจส่งผลต่อความสามารถใน
การเรียนรูข้ อง 𝑆 โดยรวมได้ จึงจาเป็ นต้องใช้ 𝑀𝑑 เข้ามาช่วยควบคุมความสามารถในการเรียนรู้บน
𝐷𝑟 ของ 𝑆 ให้มผี ลลัพธ์ใกล้เคียงเดิม ซึ่งกรอบการทางานของ Bad and Good Teacher จะเป็ นไปตาม
รูปที่ 7

รูปที่ 7 กรอบการทางานของ Bad and Good Teacher (ปรับปรุงจาก Can Bad Teaching Induce
Forgetting? Unlearning in Deep Networks Using an Incompetent Teacher)

อธิบายการทางานของกรอบการทางานโดยเริม่ จาก 𝑀𝑠 และ 𝑀𝑑 จะทาการสอน 𝑆 โดยการ


ทาให้ผลลัพธ์ของการทานายของทัง้ สองแบบจาลองใกล้เคียงกัน ด้วยวิธกี าร KL-divergence [17] ซึ่ง
เป็ นหนึ่งในวิธีท่ีใ ช้ว ดั ความแตกต่างระหว่างผลลัพธ์ของแบบจาลองทัง้ สอง โดยเป็ นไปตามสมการ
ด้านล่าง

12
(𝑖) (𝑖)
𝐾𝐿(𝑀𝑑 (𝑥)‖𝑆(𝑥)) = ∑ 𝑡𝑑 𝑙𝑜𝑔(𝑡𝑑 ⁄𝑠 (𝑖) ) (7)
𝑖

โดยที่
(𝑖)
𝑡𝑑 คือ ผลลัพธ์การเรียนรูข้ อง 𝑥𝑖 ตัวที่ 𝑖 บน 𝑀𝑑
𝑠 (𝑖) คือ ผลลัพธ์การเรียนรูข้ อง 𝑥𝑖 ตัวที่ 𝑖 บน 𝑆

(𝑖) (𝑖)
𝐾𝐿(𝑀𝑠 (𝑥)‖𝑆(𝑥)) = ∑ 𝑡𝑠 𝑙𝑜𝑔(𝑡𝑠 ⁄𝑠 (𝑖) ) (8)
𝑖

โดยที่
(𝑖)
𝑡𝑠 คือ ผลลัพธ์การเรียนรูข้ อง 𝑥𝑖 ตัวที่ 𝑖 บน 𝑀𝑠
𝑠 (𝑖) คือ ผลลัพธ์การเรียนรูข้ อง 𝑥𝑖 ตัวที่ 𝑖 บน 𝑆
เราสร้างฟั งก์ชนั ความสูญเสีย (loss function) ℒ(𝑥′, 𝑙) เพื่อนาไปสู่การหาค่าทีเ่ หมาะสมทีส่ ุด
ซึง่ ถูกสร้างด้วยดังสมการด้านล่าง

ℒ(𝑥′, 𝑙) = (1 − 𝑙)(𝐾𝐿(𝑀𝑠 (𝑥′)‖𝑆(𝑥′))) + (9)


𝑙(𝐾𝐿(𝑀𝑑 (𝑥′)‖𝑆(𝑥′)))

โดยที่
𝑥′ คือ ชุดข้อมูลทีป่ ระกอบไปด้วยชุดข้อมูลทีต่ อ้ งการให้ลมื ทัง้ หมดกับชุดข้อมูลทีเ่ หลือบางส่วน
𝑙 คือ ค่าเป้ าหมายในการเรียนรู้
เป้ าหมายในการหาค่ า ที่เ หมาะสมที่สุ ดคือ การหาค่ า 𝑙 ที่เ หมาะสมที่สุ ดที่ส ามารถท าให้ค่ า
𝐾𝐿(𝑀𝑑 (𝑥)‖𝑆(𝑥)) และ 𝐾𝐿(𝑀𝑠 (𝑥)‖𝑆(𝑥)) มีค่ า ต่ า ที่สุ ด ด้ว ยกระบวนการนี้ 𝑆 จะไร้
ความชานาญในการเรียนรู้ 𝐷𝑓 จากการถ่ายทอดความสามารถของ 𝑀𝑑 และยังคงความสามารถในการ
เรียนรู้ 𝐷𝑟 จากการถ่ายทอดความสามารถของ 𝑀𝑠 นันเอง ่

2.3 มาตรวัดผลสาหรับ Machine Unlearning Algorithms


มาตรวัดผลสาหรับประเมินความสามารถของ Machine Unlearning มีอยู่พอสมควร โดยอ้างอิง
จากเอกสารงานเชิงสารวจ (Survey Paper) ของ Thanh Tam Nguyen และคณะ [8] แต่ทางผู้จดั ทามี
ความเห็นว่า ในหลายๆมาตรวัดผลทีม่ อี ยู่ มีความหมายทีค่ ล้ายคลึงกัน รวมถึงบางมาตรวัดผลยังมีความ
ยุ่งยากในการวัดผล และยังจาเพาะกับวิธกี ารอีกด้วย มาตรวัดผลที่ใช้ในโครงงานนี้จงึ ใช้มาตรวัดผลที่

13
เข้าใจได้ง่ายและมีประสิทธิภาพ โดยใช้ด้วยกัน 2 ตัว ได้แก่ ความแม่นยาบนชุดข้อมูลที่ต้องการให้ลมื
และชุดข้อมูลทีเ่ หลือ (accuracy 𝐷𝑓 on and 𝐷𝑟 ) และเวลาในการฝึกฝน (training time)
2.3.1 ความแม่นยาบนชุดข้อมูลที่ต้องการให้ลืม และชุดข้อมูลที่เหลือ
เป็ นมาตรวัดผลที่เข้าใจได้ง่ายที่สุด ตัวหนึ่งในบรรดามาตรวัดผลที่ถูกสร้างขึ้นสาหรับ Machine
Unlearning โดยทีห่ ลักการวัดผลของมาตรวัดผลนี้กค็ อื การเปรียบเทียบค่าการทานายด้วยแบบจาลองที่
ผ่ านกระบวนการ Unlearning โดยเทียบค่ าที่ท านายได้ถู กต้อ งกับค่ า ที่ท านายทัง้ หมด ซึ่งปกติแ ล้ว
accuracy จะนิยมใช้ในการวัดผลประเภทปั ญหาการจาแนก (Classification problem)
การวัด accuracy ของแบบจาลองที่ผ่ านการ Unlearning เทียบกับ 𝐷𝑓 แทนด้ว ยสัญ ลักษณ์
𝐴𝐷𝑓 และ การวัด accuracy ของแบบจาลองทีผ่ ่านการ Unlearning เทียบกับ 𝐷𝑟 แทนด้วยสัญลักษณ์
𝐴𝐷𝑟 สามารถตีความเป็ นคณิตศาสตร์ได้เป็ น

True prediction of 𝑀 on 𝐷𝑓
𝐴𝐷𝑓 = (10)
All prediction 𝑜𝑓 𝑀 on 𝐷𝑓

True prediction 𝑜𝑓 𝑀 on 𝐷𝑟
𝐴𝐷𝑟 = (11)
All prediction 𝑜𝑓 𝑀 on 𝐷𝑟

โดยที่
True prediction of 𝑀 on 𝐷𝑓 คือ จานวนการทานายทีถ่ ูกต้องของ 𝑀 บน 𝐷𝑓
All prediction of 𝑀 on 𝐷𝑓 คือ จานวนการทานายทัง้ หมดของ 𝑀 บน 𝐷𝑓
True prediction of 𝑀 on 𝐷𝑟 คือ จานวนการทานายทีถ่ ูกต้องของ 𝑀 บน 𝐷𝑟
All prediction of 𝑀 on 𝐷𝑟 คือ จานวนการทานายทัง้ หมดของ 𝑀 บน 𝐷𝑟
ค่ า 𝐴𝐷𝑓 , 𝐴𝐷𝑟 จะอยู่ใ นช่ว งระหว่าง 0 – 1 เมื่อ ค่ า 𝐴𝐷𝑓 ,𝐴𝐷𝑟 มีค่ าใกล้ 0 หมายความว่า
แบบจาลอง 𝑀 มีความสามารถในการทานายค่าบน 𝐷𝑓 , 𝐷𝑟 ได้ไม่ดี ซึง่ เราคาดหวังให้ 𝐴𝐷𝑓 มีค่าเป็ น
0 เพราะเราต้องการให้ 𝑀 ลืม 𝐷𝑓 หรือมีความสามารถในการทานาย 𝐷𝑓 ไม่ได้เลย ในกรณีท่ี ค่า
𝐴𝐷𝑓 , 𝐴𝐷𝑟 มีค่าใกล้ 1 หมายความว่า แบบจาลอง 𝑀 มีความสามารถในการทานายค่าบน 𝐷𝑓 , 𝐷𝑟
ได้ดี ซึ่งเราคาดหวังให้ 𝐴𝐷𝑟 มีค่าเป็ น 1 เพราะเราต้องการให้ 𝑀 จา 𝐷𝑟 หรือมีความสามารถในการ
ทานาย 𝐷𝑟 ได้ดหี รือใกล้เคียงกับก่อนกระบวนการ Unlearning

14
2.3.2 เวลาในการฝึ กฝน
อีก 1 เป้ าหมายสาคัญที่ทาให้เกิด Machine Unlearning นัน่ ก็คอื ความต้องการในการย่นเวลา
สาหรับการลืมข้อมูลทีต่ อ้ งการ เนื่องจากสาหรับแบบจาลองทีม่ คี วามซับซ้อนทีฝ่ ึกฝนด้วยชุดข้อมูลขนาด
ใหญ่ มักจะใช้เวลาในการทาฝึกฝนนาน รวมถึงใช้ทรัพยากรในการฝึกฝนอย่างมาก หากต้องฝึกฝนข้อมูล
ใหม่เพียงเพื่อกาจัดข้อ มูลบางส่วนออก จะเป็ นการสูญเสียทรัพยากรต่างๆอย่างมาก เราจึงต้องการ
กระบวนการ Unlearning ทีใ่ ช้เวลาในกระบวนการน้อย
เวลาในการฝึ กฝน จะนับตัง้ แต่เ ริ่มกระบวนการลืมเรียนรู้จนจบ ซึ่ง ทดลองจริงบนโปรแกรม
ภาษาคอมพิวเตอร์ มักจะมีชุดคาสัง่ (module) ที่คอยคานวณเวลาของกระบวนการให้เราเอง ซึ่งเรา
มักจะนาเอาเวลาในการฝึกฝนของกระบวนการ Unlearning ไปเทียบกับ เวลาในการฝึกฝนข้อมูลใหม่ ซึง่
เปรียบเทียบได้อย่างง่ายดังสมการ

time for 𝑈 (𝑥, 𝑥𝑓 , 𝐴(𝑥 ))


unlearn time ratio = (12)
time for 𝐴(𝑥\𝑥𝑓 )

จากอัตราส่วนของเวลาการทางานทัง้ สองตามสมการ ยิง่ อัตราส่วนมีค่าต่า จะแสดงได้ว่า เวลาใน


การทางานของ Unlearning Algorithm เทียบกับ เวลาในการ Retraining Model ในตัวแบบเดียวกันแล้ว
เร็วกว่า

2.3.3 เมทริ กซ์ของความสับสน (Confusion matrix)


เป็ นตารางแสดงผลการเปรียบเทียบระหว่างผลการทานายประเภทเป้ าหมาย (predict label) กับ
ผลลัพธ์จริง (true label) โดยใน confusion matrix จะแสดงจานวนการทานายที่ถูกต้องและผิดไปจาก
ประเภทเป้ าหมายจริง [18] โดยจะยกตัวอย่าง confusion matrix ในรูปที่ 8

15
รูปที่ 8 ตัวอย่าง Confusion matrix

โดยปกติ เอกสารงานวิจยั ทีท่ าในหัวข้อ Machine Unlearning ไม่มกี ารใช้ Confusion matrix แต่
ผูจ้ ดั ทามีความเห็นว่า Confusion matrix สามารถแสดงผลการลืมเรียนรูไ้ ด้โดยสังเกตความแตกต่างของ
predict label ที่เกิดขึ้นบน Confusion matrix -ของแบบจาลองก่อนกระบวนการ Machine Unlearning
ในรูป ที่ 9 เทีย บกับ predict label ที่เ กิด ขึ้น บน Confusion matrix ของแบบจ าลองหลัง กระบวนการ
Machine Unlearning ในรูปที่ 10

รูปที่ 9 Confusion matrix ของแบบจาลองก่อนกระบวนการ Machine Unlearning

16
รูปที่ 10 Confusion matrix ของแบบจาลองหลังกระบวนการ Machine Unlearning

จะสังเกตได้ว่า ในประเภทเป้ าหมายทีช่ ่อื “truck” จากเดิมในรูปที่ 9 ยังคงมี predict label ของ
truck แต่ในรูปที่ 10 predict label ของ truck เป็ น 0 ทัง้ หมด มีความหมายว่าหลังกระบวนการลืมเรียนรู้
แบบจาลองไม่มคี วามสามารถในการทานาย truck ได้แล้ว นอกจากนี้จะยังใช้ค่า predict label และ true
label ใน Confusion matrix มาสร้างค่าวัดผลได้แก่ ค่าความแม่นยา (precision), ค่าความครบถ้วน
(recall) และ F1-score โดยแต่ละค่าเขียนเป็ นสมการได้ดงั นี้ ได้มาดังสมการต่อไปนี้
จานวนการทานายทีถ่ ูกต้อง
precision = (13)
จานวน 𝑝𝑟𝑒𝑑𝑖𝑐𝑡 𝑙𝑎𝑏𝑒𝑙

จานวนการทานายทีถ่ ูกต้อง (14)


𝑟𝑒𝑐𝑎𝑙𝑙 =
จานวน 𝑡𝑟𝑢𝑒 𝑙𝑎𝑏𝑒𝑙

2 × 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 × 𝑟𝑒𝑐𝑎𝑙𝑙
𝐹1 − 𝑠𝑐𝑜𝑟𝑒 = (15)
𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑟𝑒𝑐𝑎𝑙𝑙

17
3. ผลลัพธ์ของโครงการและการอภิ ปรายผล
โครงงานนี้ได้พฒ
ั นาได้พฒ ั นาขึ้นบน Google Colab และ Visual Studio โดยใช้ภาษา Python
เพื่อใช้ในการศึกษาวัดประสิทธิผลของกระบวนการลืมเรียนรู้ เพื่อให้เห็นความสามารถและขีดจากัดของ
กระบวนการลืมเรียนรู้ท่ใี ช้ในโครงงานนี้ โดยใช้ชุดข้อมูลในการศึกษาอยู่ด้วยกัน 2 ชุดข้อมูล ได้แก่
CIFAR-10 [19] และ MNIST [20] โดยที่ทงั ้ สองชุดข้อมูลจะใช้แบบจาลองเดียวกันในการทดลอง ได้แก่
resnet18 ซึ่งเป็ นแบบจาลองทีถ่ ูกฝึกฝนด้วยชุดข้อมูลขนาดใหญ่มาก่อนแล้ว (Pre-trained Model) โดย
เราจะทาการทดลองด้วยค่ าตัวแปรเบื้องต้นเดียวกันกับ ทัง้ สองชุดข้อมูล โดยรายละเอียดข้อมูล และ
การศึกษากระบวนการลืมเรียนรูข้ องแต่ละข้อมูลจะกล่าวในหัวข้อย่อยต่อไป
3.1 การศึกษากระบวนการลืมเรียนรู้บนชุดข้อมูล CIFAR-10
CIFAR–10 เป็ นชุดข้อมูลที่มภี าพแต่ละประเภทรวมอยู่ในชุดข้อมูลเดียวกัน โดยมีทงั ้ หมด 10
ประเภท ได้แก่ แมว, เครื่องบิน, รถบรรทุก, ม้า, รถยนต์, นก, กวาง, เรือ, กบ และ สุนขั ในการศึกษานี้
เราสนใจที่จะให้แ บบจาลองลืมการเรียนรู้บนรูปภาพประเภทรถบรรทุก เบื้องต้นเราจะเริ่มจากการ
จัดการกับข้อมูล CIFAR-10 ก่อน โดย
1. นาเข้าข้อ มูล CIFAR-10 ซึ่งเป็ นข้อมูล รูปภาพสี ซึ่งจะเก็บข้อ มูลขนาด 32x32x3 พิกเซล
โดยที่ 32x32 พิกเซล คือ ขนาดกว้างคูณสูงของภาพแต่ะลภาพ และ 3 พิกเซลหลัง เป็ น
พิกเซลทีเ่ ก็บค่าสีไว้3สี ได้แก่ สีแดง, สีเขียว และ สีน้าเงิน
2. CIFAR-10 จะทาการแบ่งชุดข้อมูล เป็ น ชุดข้อมูลฝึก (train set) และ ชุดข้อมูลทดสอบ (test
set) ไว้อยู่แล้ว โดยมี train set จานวน 50,000 รูป และ test set จานวน 10,000 รูป
3. จากนัน้ แปลงtrain set และ test set ทีเ่ ก็บข้อมูลแบบภาพให้อยู่ในรูปของ เทนเซอร์ (tensor)
ซึ่งเป็ นรูปแบบการเก็บข้อมูลที่ใช้ในการฝึกฝนครัง้ นี้โดยแปลงผ่าน module ทีช่ ่อื torch ทีม่ ี
อยู่ใน python [21]
4. ปรับค่าพิกเซลของสี ให้อยู่รูปมาตรฐาน (normalization) โดยปรับด้วยค่าเฉลี่ยของสีแดง,
เขียว, น้ าเงิน ให้เป็ น 0.4914, 0.4822, 0.4465 ตามลาดับ และค่าส่วนเบี่ยงเบนมาตรฐาน
ของสีแดง, เขียว, น้ าเงิน ให้เป็ น 0.2023, 0.1994, 0.2010 ซึ่งจะมีกระบวนการคือ ลบค่า
พิกเซลทีเ่ ก็บของแต่ละสีดว้ ยค่าเฉลีย่ ของสีนนั ้ ๆ แล้วหารด้วยค่าส่วนเบีย่ งเบนมาตรฐาน
5. จากนัน้ ใช้ คาสัง่ dataloader ของ torch เก็บให้แต่ละ batch มีขนาด 256 ข้อมูล
6. แบ่งชุดข้อมูลทีต่ ้องการให้ลมื (forget set) 𝐷𝑓 และ ชุดข้อมูลทีเ่ หลือ (retain set) 𝐷𝑟 จาก
test set โดยที่ 𝐷𝑓 จะเป็ นชุดข้อมูลมีเพียงรูปภาพประเภทรถบรรทุก ส่วน 𝐷𝑟 จะชุดข้อมูล
ทีม่ รี ปู ภาพประเภททีเ่ หลือ โดยหน้าตาของชุดข้อมูลจะเป็ นดังภาพที่ 11

18
รูปที่ 11 ตัวอย่างภาพแต่ละประเภทของ CIFAR-10 โดยรูปภาพประเภทรถบรรทุกทีถ่ ูกเน้นย้าด้วยสี
เหลือง จะเป็ นรูปภาพประเภททีต่ อ้ งการถูกลืมในการศึกษาครัง้ นี้
3.1.1 การฝึ กฝนแบบจาลองด้วยชุดข้อมูลดัง้ เดิ ม
เมื่อเราทาการเตรียมข้อมูลเรียบร้อยแล้ว เราจะเริม่ ทาการฝึกฝนข้อมูลกับแบบจาลอง โดย
แบบจาลองทีเ่ ราจะใช้ในครัง้ นี้ เป็ น pre-trained model ทีม่ ชี ่อื ว่า resnet18 ซึง่ เป็ นแบบจาลองประเภท
โครงข่ายประสาทเทียมแบบสังวัตนาการ (convolution neural network : CNN) โดยเราได้นาเข้า
resnet18 โดยไม่ได้ปรับค่าใดๆ หรือกาหนดให้เลือกค่า parameter แบบสุ่ม ทาการฝึกฝนทัง้ หมด ผ่าน
Google Colab โดยใช้หน่วยประมวลผลภาพ (Graphics Processing Unit : GPU) ประเภท T4 แล้ว
ปรับเลือกใช้ค่าอัตราการเรียนรู้ (learning rate) ที่ 0.01 อัตราการไล่ระดับ (Gradient Clapping) ที่ 0.1
อัตราการสลายของค่าน้ าหนัก (weight decay) [22] ที่ 0.0001 ใช้ตวั หาค่าเหมาะสม (optimizer)
ประเภท Adam [23] โดยฝึกฝนทัง้ หมด 30 epochs จากนัน้ จะมีการบันทึกค่า parameter ของ
แบบจาลองไว้ใช้ต่อไป และหลังจากนี้จะขอเรียกแบบจาลองทีฝ่ ึกฝนด้วยชุดข้อมูลดัง้ เดิมว่า แบบจาลอง
ตัง้ ต้น
ในการแสดงผลการฝึกฝน เราจะแสดงผ่านมาตรวัดผลทีบ่ อกไปในหัวข้อมาตรวัดผลข้างต้น
ได้แก่ confusion matrix, accuracy บน 𝐷, 𝐷𝑓 และ 𝐷𝑟 และ เวลาในการฝึกฝน โดยจะขอแสดงผล
เพียง confusion matrix ดังในรูปที่ 12 และตารางแสดงค่าความแม่นยา, ค่าความครบถ้วน และ F1-
score ในตารางที่ 1 ค่าอื่นๆจะเก็บรวมในตารางเดียวกันเพือ่ เปรียบเทียบตอนท้าย

19
รูปที่ 12 Confusion matrix ของการฝึกฝนแบบจาลองด้วยชุดข้อมูลดัง้ เดิม

ตารางที่ 1 ค่าความแม่นยา, ค่าความครบถ้วน และ F1-score ของการฝึกฝนแบบจาลองด้วยชุดข้อมูล


ดัง้ เดิม
ประเภท precision (%) recall (%) F1-score (%)
cat 81.5 85.7 83.6
airplane 90.4 90.3 90.3
truck 77.2 75.1 76.1
horse 67.2 65.6 66.4
automobile 81.8 80.1 80.9
bird 74.5 73.5 74.0
deer 83.8 87.5 85.6
ship 86.8 85.6 86.2
frog 90.2 90.1 90.1
dog 89.0 89.5 89.2

20
3.1.2 การฝึ กฝนแบบจาลองด้วยชุดข้อมูลที่เหลือ
เราสร้ า งแบบจ าลองที่ ถู ก ฝึ ก ฝนด้ ว ยชุ ด ข้ อ มู ล ที่ เ หลื อ เพื่อ เป็ น Gold standard ส าหรับ
เปรียบเทียบ โดยทาแบบเดียวกันกับการฝึกฝนแบบจาลองตัง้ ต้น เราจะได้ confusion matrix ดังในรูปที่
13 และตารางแสดงค่าความแม่นยา, ค่าความครบถ้วน และ F1-score ในตารางที่ 2

รูปที่ 13 Confusion matrix ของการฝึกฝนแบบจาลองด้วยชุดข้อมูลทีเ่ หลือ

ตารางที่ 2 ค่าความแม่นยา, ค่าความครบถ้วน และ F1-score ของการฝึกฝนแบบจาลองด้วยชุดข้อมูลที่


เหลือ
ประเภท precision (%) recall (%) F1-score (%)
cat 68.9 84.3 75.8
airplane 84.2 85.0 84.6
truck Nan 0 Nan
horse 50.7 62.4 55.9
automobile 63.0 74.3 68.2
bird 57.3 66.9 61.7
deer 74.6 84.8 79.4
ship 75.9 80.8 78.3
frog 80.5 86.8 85.9
dog 83.3 80.4 81.8

21
ในการฝึกฝนแบบจาลองด้วยชุดข้อมูลที่เหลือ เมื่อสังเกตค่าการทานายผลลัพธ์ (predict label)
บนเป้ าหมายประเภทรถบรรทุกในรูปที่ 13 จะพบว่า ไม่มกี ารทานายภาพข้อมูลว่าเป็ นประเภทรถบรรทุก
เลย ซึ่งจะเห็นเลข 0 ได้ในทุกช่อง predict label ประเภทรถบรรทุก อีกทัง้ ยังสะท้อนจากค่า precision,
recall, F1-score จากตารางที่ 2 โดยที่ค่ า precision เป็ น Nan หมายถึง ไม่มีการทานายเป็ นว่ า เป็ น
เป้ าหมายประเภทรถบรรทุกเลย จึงเกิดการหารด้วย 0 ขึน้ ค่า precision ทีไ่ ด้จงึ แสดงเป็ น Nan ส่วนค่า
recall ที่เ ป็ น 0 นัน้ เนื่อ งจากค่ าผลลัพ ธ์จ ริง (true label) ยังคงมีอ ยู่เ นื่อ งจากเราทดสอบ Confusion
matrix ของแบบจาลองด้ว ย test set ที่มีข้อ มูล ทุกประเภทเป้ าหมาย จึงแสดงว่าไม่มีก ารทานายได้
ถูกต้องบนชุดข้อมูลทีต่ อ้ งการให้ลมื ซึง่ เป็ นไปตามทีต่ อ้ งการ

3.1.3 การลืมเรียนรู้ด้วยวิ ธี UNSIR


เราจะนาค่า parameter จากแบบจาลองทีฝ่ ึกฝนด้วยชุดข้อมูลดัง้ เดิมทีบ่ นั ทึกไว้มาทาการลืมการ
เรียนรูด้ ว้ ยวิธกี าร UNSIR โดยมีขนั ้ ตอนดังนี้
1. สร้างสัญญาณรบกวน (Noise) : โดยสร้างสัญญาณรบกวนที่มขี นาดเท่ากับ tensor ที่เก็บ
ข้อ มูล แต่ล ะรูป ภาพไว้ หรือ ก็ค ือ 32x32x3 ด้ว ยการสร้า งสัญ ญาณรบกวนตัง้ ต้น ที่มีก าร
กระจายตัวสุ่มค่าแบบ 𝑁(0,1) โดยนาสัญญาณรบกวนตัง้ ต้นไปปรับปรุงค่าให้เหมาะสม
โดยผ่ า นแบบจ าลองตัง้ ต้น ด้ว ย learning rate เป็ น 0.1 และ optimizer ประเภท Adam
ฝึ กฝนทัง้ หมด 5 epochs โดยสัญ ญาณรบกวนนี้ จะปรับแปลงค่ าเป้ าหมายของประเภท
รถบรรทุก ให้เปลีย่ นเป็ นค่าอื่น
2. ทาให้เกิดความบกพร่อง (Impair step) : เมื่อได้สญ ั ญาณรบกวนทีเ่ หมาะสม จะนาสัญญาณ
รบกวนที่มีจานวนเท่ ากับ จานวนข้อ มูล ของชุ ดข้อ มูล 𝐷𝑓 มาผสมรวมกับชุดข้อ มูล 𝐷𝑟
บางส่วนโดยหยิบมาทัง้ หมด 1,000 ข้อมูล เป็ นข้อมูลรบกวนนาไปผ่านแบบจาลองตัง้ ต้น
แล้ว ท าการฝึ ก ฝน ด้ว ย learning rate เป็ น 0.02 และ optimizer ประเภท Adam ฝึ ก ฝน
ทัง้ หมด 1 epoch
3. ปรับปรุงซ่อมแซม (Repair step) : หลังจาก Impair step เราจะปรับปรุงความสามารถใน
การเรียนรู้ของแบบจาลองที่ผ่านกระบวนการ Impair step บน 𝐷𝑟 ด้วยการนาชุดข้อมูล
𝐷𝑟 บางส่วนโดยหยิบมาทัง้ หมด 1,000 ข้อมูล มาฝึ กฝนกับ แบบจาลองดังกล่าวอีกครัง้
ด้วยด้วย learning rate เป็ น 0.01 และ optimizer ประเภท Adam ฝึกฝนทัง้ หมด 1 epoch
เราทาการบันทึกค่าเวลาในการฝึ กฝนของทุกขัน้ ตอน และ ค่า accuracy บน 𝐷𝑓 และ 𝐷𝑟 ใน
ส่วนของขัน้ ตอน Impair step กับ Repair step ดังตารางที่ 3

22
ตารางที่ 3 เวลาในการฝึกฝน, 𝐴𝐷𝑓 และ 𝐴𝐷𝑟 ของแต่ละขัน้ ตอน
ขัน้ ตอนในการลืมเรียนรู้ เวลา (s) 𝐴𝐷 (%) 𝐴𝐷 (%)
𝑓 𝑟
Impair step 2.65 0 69.03
Repair step 2.06 0 70.49
Noise time 2.24 - -

เราจะได้ confusion matrix ดังในรูปที่ 14 และตารางแสดงค่าความแม่นยา, ค่าความครบถ้วน


และ F1-score ในตารางที่ 4

รูปที่ 14 Confusion matrix ของการลืมเรียนรูด้ ว้ ยวิธี UNSIR

23
ตารางที่ 4 ค่าความแม่นยา, ค่าความครบถ้วน และ F1-score ของการลืมเรียนรูด้ ว้ ยวิธี UNSIR
ประเภท precision (%) recall (%) F1-score (%)
cat 68.6 74.6 71.5
airplane 82.6 75.9 79.1
truck nan 0 Nan
horse 47.5 48.4 47.9
automobile 58.1 57.2 57.7
bird 55.9 54.1 55.0
deer 55.4 86.0 67.4
ship 62.0 79.0 69.5
frog 69.1 85.1 76.3
dog 77.8 75.1 76.4

ผลลัพธ์ท่ปี รากฏในรูปที่ 14 ให้ผลลัพธ์ใน predict label เช่นเดียวกันกับในหัว ข้อ 3.1.2 หรือ


Gold standard ตีความได้ว่าวิธกี าร UNSIR สามารถทาให้แบบจาลองไม่มคี วามสามารถในการทานาย
รูปประเภทรถบรรทุกได้ หรือลืมชุดข้อมูลรถบรรทุกได้นนเอง
ั่

3.1.4 การลืมเรียนรู้ด้วยวิ ธี Amnesiac Unlearning


ก่อนเริม่ กระบวนการ เราต้องทาการปรับชุดข้อมูล 𝐷𝑓 โดยเปลี่ยนประเภทเป้ าหมายให้เป็ น
เป้ าหมายอื่นแบบสุม่ โดยกระจายสุม่ แบบสม่าเสมอ (Uniform Distribution) รวมกับชุดข้อมูล 𝐷𝑟 เป็ นชุด
ข้อมูลสาหรับใช้ในกระบวนการนี้ จากนัน้ นาไปฝึ กฝนกับ แบบจาลองดัง้ เดิม ด้วย learning rate เป็ น
0.0001 ฝึ กฝนเป็ นจานวน 10 epochs เราจะได้ confusion matrix ดังในรูปที่ และตารางแสดงค่าความ
แม่นยา, ค่าความครบถ้วน และ F1-score ในตารางที่ 5

24
รูปที่ 15 Confusion matrix ของการลืมเรียนรูด้ ว้ ยวิธี Amnesiac Unlearning

ตารางที่ 5 ค่าความแม่นยา, ค่าความครบถ้วน และ F1-score ของการลืมเรียนรูด้ ว้ ยวิธี Amnesiac


Unlearning
ประเภท precision (%) recall (%) F1-score (%)
cat 72.5 82.0 77.0
airplane 80.4 84.5 82.4
truck 0 0 Nan
horse 50.9 62.8 56.2
automobile 71.3 74.2 72.7
bird 60.1 63.6 61.8
deer 73.2 84.4 78.4
ship 70.4 80.3 75.0
frog 78.1 86.5 82.1
dog 76.3 82.9 79.5

ผลลัพธ์ทป่ี รากฏในรูปที่ 15 ให้ผลลัพธ์ใน predict label ใกล้เคียงกับในหัวข้อ 3.1.2 หรือ Gold


standard ตีความได้ว่าวิธีการ Amnesiac สามารถทาให้แบบจาลองมีความสามารถในการทานายรูป

25
ประเภทรถบรรทุกได้เสมือนลืมชุดข้อมูลรถบรรทุกได้เลย แต่ยงั คงหลงเหลือความจาในชุดข้อมูลอยู่ เมื่อ
สังเกตจาก predict label ทีไ่ ม่เป็ น 0 ทัง้ หมด

3.1.5 การลืมเรียนรู้ด้วยวิ ธี Bad and Good Teacher


ขัน้ ตอนกระบวนการของ Bad and Good Teacher จะมีดงั นี้
1. สร้างแบบจาลองผูส้ อนที่มคี วามสามารถ 𝑀𝑠 และแบบจาลองผูเ้ รียน 𝑆 โดยทีแ่ บบจาลอง
ทัง้ สองใช้ค่า parameter เดียวกันกับ แบบจาลองตัง้ ต้น
2. สร้างแบบจาลองผูส้ อนทีไ่ ร้ความสามารถ 𝑀𝑑 โดยให้เป็ นแบบจาลอง resnet18 ทีย่ งั ไม่ได้
ปรับปรุงค่าใดๆเลย หรือกาหนดให้เลือกค่า parameter แบบสุม่
3. สุ่มเลือกชุดข้อมูล 𝐷𝑟 มาเป็ นจานวน 1 ใน 3 ของทัง้ หมด แล้วกาหนดให้เป็ นมีเป้ าหมาย
เป็ น 1 ส่วนชุดข้อมูล 𝐷𝑓 นามาใช้ทงั ้ หมด โดยกาหนดเป้ าหมายให้เป็ น 0 โดยขอเรียกว่า
ชุดข้อมูลเตรียมสอน
4. จากนัน้ นาชุดข้อมูล เตรียมสอนไปให้กบั แบบจาลอง 𝑀𝑠 และ 𝑀𝑑 เพื่อแสดงผลลัพธ์โดย
ไม่เรียนรู้เพิม่ เติมจากชุดข้อมูลนี้โดยนาผลลัพธ์ท่ไี ด้ไปผ่านฟั งก์ชนั Softmax เพื่อปรับให้
เป็ นค่า 0 กับ 1 เพือ่ ให้แสดงถึง 0 ทีเ่ ป็ นเป้ าหมายชุดข้อมูล 𝐷𝑟 และ 1 ทีเ่ ป็ นเป้ าหมายของ
ชุดข้อ มูล 𝐷𝑓 จากนัน้ น าผลลัพธ์ท่ีไ ด้ห ลัง ผ่ า น Softmax ของแบบจ าลองทัง้ สองมาถ่ ว ง
น้ าหนักกันด้วยค่าถ่วงน้ าหนักเริม่ ต้นแล้วจึงนาไปหา เทียบกับผลลัพธ์ทไ่ี ด้จาก 𝑆 ทีเ่ รียนรู้
ชุดข้อมูล เตรียมสอนไปทาการหา KL-Divergence เพื่อปรับหาค่าถ่วงน้ าหนักที่เหมาะสม
ทีส่ ุด โดยฝึกฝนด้วย learning rate เป็ น 0.0001 เป็ นจานวน 5 epochs
เราจะได้ confusion matrix ดังในรูปที่ 16 และตารางแสดงค่าความแม่นยา, ค่าความครบถ้วน
และ F1-score ในตารางที่ 6

26
รูปที่ 16 Confusion matrix ของการลืมเรียนรูด้ ว้ ยวิธี Bad and Good Teacher
ตารางที่ 6 ค่าความแม่นยา, ค่าความครบถ้วน และ F1-score ของการลืมเรียนรูด้ ว้ ยวิธี Bad and Good
Teacher
ประเภท precision (%) recall (%) F1-score (%)
cat 71.3 82.7 76.6
airplane 83.2 83.5 83.3
truck 94.7 1.8 3.5
horse 53.1 64.0 58.0
automobile 63.4 76.1 69.2
bird 59.9 67.6 63.5
deer 74.7 81.6 78.0
ship 77.0 78.5 77.8
frog 81.3 87.9 84.5
dog 74.0 80.7 77.2

ผลลัพธ์ทป่ี รากฏในรูปที่ 16 ให้ผลลัพธ์ใน predict label ใกล้เคียงกับในหัวข้อ 3.1.2 หรือ Gold


standard ตีความได้ว่าวิธกี าร Bad and Good Teacher สามารถทาให้แบบจาลองมีความสามารถในการ
ทานายรูปประเภทรถบรรทุกได้เสมือนลืมชุดข้อมูลรถบรรทุกได้เลย แต่ยงั คงหลงเหลือความจาในชุด
ข้อมูลอยู่ เมื่อสังเกตจาก predict label ทีไ่ ม่เป็ น 0 ทัง้ หมด

27
3.1.6 การวิ เคราะห์ผลที่ได้
ในหัวข้อนี้จะแสดงตารางที่ 7 ทีร่ วบรวมเวลาในการฝึกฝนและ accuracy บน 𝐷, 𝐷𝑓 และ 𝐷𝑟
ของแต่ละวิธกี ารมาเปรียบเทียบกันและวิเคราะห์ผลลัพธ์ทไ่ี ด้

ตารางที่ 7 ตารางแสดงการเปรียบเทียบค่าเวลาในการฝึกฝนและ accuracy บน 𝐷, 𝐷𝑓 และ 𝐷𝑟 ของ


แต่ละวิธกี าร
วิธกี ารเรียนรู/้ ลืมเรียนรู้ accuracy on all set 𝐴𝐷𝑓 𝐴𝐷𝑟 เวลาทีใ่ ช้ในการฝึกฝน
(%) (%) (%) (s)

Full training 77.89 66.89 76.96 890


Naive retraining (Gold - 0 78.46 122
standard)
UNSIR - 0 70.49 6.95
Amnesiac - 0 78.05 51.5
Bad and Good Teacher - 1.78 78.18 42.9

จากตารางที่ 7 จะเห็นได้ว่าทุกวิธกี ารลืมเรียนรูส้ ามารถลดค่า 𝐴𝐷𝑓 จากเดิมทีแ่ บบจาลองตัง้ ต้น


มี 𝐴𝐷𝑓 อยู่ท่ี 66.89 % ให้เหลือใกล้เคียงค่าทีเ่ ราคาดหวังคือ 0 ได้สาเร็จโดยเฉพาะวิธกี าร UNSIR และ
Amnesiac ที่สามารถทาให้แ บบจาลองสามารถลืมการเรียนรู้บนเป้ าหมายรูปภาพรถบรรทุกได้ โดย
สะท้อนจากการสังเกตค่าการทานายเป้ าหมาย (predict label) บนประเภทรถบรรทุกของ Confusion
matrix ของแต่ละวิธี พบว่าไม่มกี ารทานายเลยในส่วนของวิธี UNSIR และ Amnesiac ให้ผลได้เหมือนกับ
Gold standard ในขณะที่ว ิธี Bad and Good Teacher นั น้ มีค่ า 𝐴𝐷𝑓 อยู่ ท่ี 1.78 % ในมุ ม มองของ
ผู้จดั ทาถือว่าอยูในระดับที่ใกล้เคียงกับ Gold standard สาเหตุท่ยี งั มีการหลงเหลือการเรียนรู้บน 𝐷𝑓
อาจเกิดจากการเลือก learning rate ทีย่ งั ไม่เหมาะสม และ ในกระบวนการหาค่าความสูญเสียของแต่ละ
batch ใช้การเฉลีย่ จากค่าแต่ละ batch จึงอาจทาให้ค่าทีไ่ ด้ไม่มคี วามละเอียดพอ
ถัดมา พิจารณาเปรียบเทียบ 𝐴𝐷𝑟 ของแต่ละวิธี จะพบว่าวิธี Amnesiac และ Bad and Good
Teacher มี 𝐴𝐷𝑟 ที่ใ กล้เ คีย งกับ ค่ า 𝐴𝐷𝑟 ของ Gold standard อย่ า งมาก โดยห่ า งเพีย งไม่ ถึง 1 %
ในขณะที่วธิ ี UNSIR มีความแตกต่างจาก Gold standard ที่ 8.03 % โดยเมื่อพิจารณาตารางที่ 4 ค่า
ความแม่นยา, ค่าความครบถ้วน และ F1-score ของการลืมเรียนรูด้ ว้ ยวิธี UNSIR เมื่อเทียบกับตารางที่
2 ที่เ ป็ น ค่ า ความแม่ น ย า, ค่ า ความครบถ้ว น และ F1-score ของ Gold standard จะพบว่ า ค่ า ความ
แม่นยา, ค่าความครบถ้วน และ F1-score ของประเภทรูปภาพแบบอื่นๆ ในรูปที่ 14 และ ตารางที่ 4 มี
ค่ า ที่ ล ดลงจาก Gold standard อย่ า งเห็ น ได้ ช ัด เมื่อ เที ย บกับ วิธี Amnesiac และ Bad and Good

28
Teacher ซึ่งสาเหตุอนั เกิดมาจากการที่ วิธี UNSIR ใช้สญ ั ญาณรบกวนให้ทานายรูปภาพทีเ่ ป็ นประเภท
รถบรรทุก ให้กลายเป็ นประเภทอื่นทัง้ หมด จึงทาให้โอกาสที่จะทานายผิดพลาดมีมากขึ้น ในขณะที่อกี
สองวิธยี งั คงใช้ขอ้ มูล 𝐷𝑓 มาใช้ในกระบวนการ
มาตรวัดผลสุดท้ายที่จะพิจารณาคือ เวลาในการฝึ กฝน ซึ่งจะพบว่า วิธี UNSIR ใช้เวลาได้เร็ว
กว่า Gold standard อย่างมาก รวมถึงเร็วกว่าวิธอี ่นื ๆอย่างมากเช่นกัน เหตุผลของเวลาทีร่ วดเร็วนัน้ มา
จาก วิธดี าเนินกระบวนการที่ไม่จาเป็ นต้องใช้ข้อมูล 𝐷𝑓 ในกระบวนการ ในขณะ วิธี Amnesiac และ
Bad and Good Teacher มีการใช้ 𝐷𝑓 ในการฝึกฝนด้วย จึงใช้เวลาในการฝึกฝนมากกว่า แต่กย็ งั ถือว่า
เร็วกว่า Gold standard อย่างมาก

3.2 การศึกษากระบวนการลืมเรียนรู้บนชุดข้อมูล MNIST


MNIST เป็ นชุ ด ข้อ มู ล ตัว เลขแบบลายมือ ที่มีเ ลข 0 - 9 เก็ บ เป็ นในรู ป ภาพขาวด า ซึ่ ง ใน
การศึก ษานี้ เราต้อ งการให้แ บบจาลองลืมตัว เลข “ 7 ” เบื้อ งต้นเราจะเริ่มจากการจัดการกับข้อ มูล
MNIST ก่อน โดยมีขนั ้ ตอนคล้ายคลึงกับการจัดการข้อมูล CIFAR-10
1. นาเข้าข้อ มูล MNIST โดยที่ MNIST จะเป็ นข้อ มูล รูปภาพขาวด า ซึ่งจะเก็บข้อ มูล ขนาด
29x29 พิกเซล โดยที่ 29x29 พิกเซล คือ ขนาดกว้างคูณสูงของภาพแต่ละภาพ
2. MNIST จะทาการแบ่งชุดข้อมูล เป็ น ชุดข้อมูลฝึ ก (train set) และ ชุดข้อมูลทดสอบ (test
set) ไว้อยู่แล้ว โดยมี train set จานวน 60,000 รูป และ test set จานวน 10,000 รูป
3. จากนัน้ แปลงtrain set และ test set ทีเ่ ก็บข้อมูลแบบภาพให้อยู่ในรูปของ เทนเซอร์ (tensor)
ซึ่งเป็ นรูปแบบการเก็บข้อมูลทีใ่ ช้ในการฝึกฝนครัง้ นี้โดยแปลงผ่าน module ทีช่ ่อื torch ทีม่ ี
อยู่ใน python
4. ปรับค่าพิกเซลของรูปภาพ ให้อยู่รูปมาตรฐาน (normalization) โดยปรับด้วยค่าเฉลี่ยของ
พิ ก เซลแต่ ล ะต าแหน่ ง ที่ 0.1307 และค่ า ส่ ว นเบี่ ย งเบนมาตรฐานที่ 0.3081 ซึ่ ง จะมี
กระบวนการคือ ลบค่าพิกเซลทีเ่ ก็บของแต่ละค่าตาแหน่งด้วยค่าเฉลีย่ ของทุกตัวแหน่ง แล้ว
หารด้วยค่าส่วนเบีย่ งเบนมาตรฐาน
5. มีกระบวนการเพิม่ เติมจากการจัดการข้อมูล CIFAR-10 คือ ข้อมูลแต่ละตัว จะต้องถูกปรับ
ขนาดด้วยการทาให้มลี กั ษณะการเก็บสีดว้ ย ให้เหมือนกับ ข้อมูล CIFAR-10 ทีม่ กี ารเก็บสี
แบบ RGB เนื่องจากแบบจาลองออกแบบมาให้พจิ ารณาในรูปแบบขนาดข้อมูลดังกล่าว
6. จากนัน้ ใช้ คาสัง่ dataloader ของ torch เก็บให้แต่ละ batch มีขนาด 256 ข้อมูล
7. แบ่งชุดข้อมูลทีต่ ้องการให้ลมื (forget set) 𝐷𝑓 และ ชุดข้อมูลทีเ่ หลือ (retain set) 𝐷𝑟 จาก
test set โดยที่ 𝐷𝑓 จะเป็ นชุดข้อมูลมีเพียงรูปภาพเลข 7 ส่วน 𝐷𝑟 จะชุดข้อมูลที่มรี ูปภาพ
เลขทีเ่ หลือ โดยหน้าตาของชุดข้อมูลจะเป็ นดังภาพที่ 17

29
รูปที่ 17 ตัวอย่างภาพแต่ละตัวเลขของ MNIST โดยรูปภาพเลข “ 7 ” ทีถ่ ูกเน้นย้าด้วยสีเหลือง จะเป็ น
รูปภาพประเภททีต่ อ้ งการถูกลืมในการศึกษาครัง้ นี้
3.2.1 การฝึ กฝนแบบจาลองด้วยชุดข้อมูลดัง้ เดิ ม
เมื่อเราทาการเตรียมข้อมูลเรียบร้อยแล้ว เราจะเริม่ ทาการฝึกฝนข้อมูลกับแบบจาลอง โดย
แบบจาลองทีเ่ ราจะใช้ในครัง้ นี้ เป็ น pre-trained model ทีม่ ชี ่อื ว่า resnet18 ซึง่ เป็ นแบบจาลองประเภท
โครงข่ายประสาทเทียมแบบสังวัตนาการ (convolution neural network : CNN) โดยเราได้นาเข้า
resnet18 โดยไม่ได้ปรับค่าใดๆ หรือกาหนดให้เลือกค่า parameter แบบสุ่ม โดยทาการฝึกฝนทัง้ หมด
ผ่าน Google Colab โดยใช้หน่วยประมวลผลภาพ (Graphics Processing Unit : GPU) ประเภท T4
โดยใช้ค่าอัตราการเรียนรู้ (learning rate) ที่ 0.01 อัตราการไล่ระดับ (Gradient Clapping) ที่ 0.1 อัตรา
การสลายของค่าน้าหนัก (weight decay) ที่ 0.0001 ใช้ตวั หาค่าเหมาะสม (optimizer) ประเภท Adam
โดยฝึกฝนทัง้ หมด 5 epochs จากนัน้ จะมีการบันทึกค่า parameter ของแบบจาลองไว้ใช้ต่อไป และ
หลังจากนี้จะขอเรียกแบบจาลองทีฝ่ ึกฝนด้วยชุดข้อมูลดัง้ เดิมว่า แบบจาลองตัง้ ต้น
ในการแสดงผลการฝึกฝน เราจะแสดงผ่านมาตรวัดผลทีบ่ อกไปในหัวข้อมาตรวัดผลข้างต้น
ได้แก่ confusion matrix, accuracy บน 𝐷, 𝐷𝑓 และ 𝐷𝑟 และ เวลาในการฝึกฝน โดยจะขอแสดงผล
เพียง confusion matrix ดังในรูปที่ 18 และตารางแสดงค่าความแม่นยา, ค่าความครบถ้วน และ F1-
score ในตารางที่ 8 ค่าอื่นๆจะเก็บรวมในตารางเดียวกันเพือ่ เปรียบเทียบตอนท้าย

30
รูปที่ 18 Confusion matrix ของการฝึกฝนแบบจาลองด้วยชุดข้อมูลดัง้ เดิม

ตารางที่ 8 ค่าความแม่นยา, ค่าความครบถ้วน และ F1-score ของการฝึกฝนแบบจาลองด้วยชุดข้อมูล


ดัง้ เดิม
เลข precision (%) recall (%) F1-score (%)
0 95.9 98.9 97.4
1 93.1 99.8 96.3
2 99.6 90.5 94.8
3 96.5 99.5 98.0
4 99.2 97.8 98.5
5 99.2 97.8 98.5
6 98.9 97.5 98.2
7 91.0 99.6 95.1
8 99.3 90.3 94.6
9 97.8 96.1 97.0

31
3.2.2 การฝึ กฝนแบบจาลองด้วยชุดข้อมูลที่เหลือ
เราสร้ า งแบบจ าลองที่ ถู ก ฝึ ก ฝนด้ ว ยชุ ด ข้ อ มู ล ที่ เ หลื อ เพื่อ เป็ น Gold standard ส าหรับ
เปรียบเทียบ โดยทาแบบเดียวกันกับการฝึกฝนแบบจาลองตัง้ ต้น เราจะได้ confusion matrix ดังในรูปที่
19 และตารางแสดงค่าความแม่นยา, ค่าความครบถ้วน และ F1-score ในตารางที่ 9

รูปที่ 19 Confusion matrix ของการฝึกฝนแบบจาลองด้วยชุดข้อมูลทีเ่ หลือ

ตารางที่ 9 ค่าความแม่นยา, ค่าความครบถ้วน และ F1-score ของการฝึกฝนแบบจาลองด้วยชุดข้อมูลที่


เหลือ
เลข precision (%) recall (%) F1-score (%)
0 99.1 99.7 99.4
1 81.7 99.7 89.8
2 72.0 99.3 83.5
3 95.9 98.2 97.1
4 91.9 97.0 94.4
5 96.2 99.7 97.9
6 99.5 98.1 98.8
7 nan 0 nan
8 98.3 96.7 97.5
9 76.8 99.5 86.7

32
ในการฝึกฝนแบบจาลองด้วยชุดข้อมูลที่เหลือ เมื่อสังเกตค่าการทานายผลลัพธ์ (predict label)
บนเป้ าหมายเลข 7 ในรูปที่ 19 จะพบว่า ไม่มกี ารทานายภาพข้อมูลว่าเป็ น 7 เลย ซึ่งจะเห็นเลข 0 ได้ใน
ทุกช่อง predict label ประเภทรถบรรทุก อีกทัง้ ยังสะท้อนจากค่า precision, recall, F1-score จากตาราง
ที่ 2 โดยทีค่ ่า precision เป็ น Nan หมายถึง ไม่มกี ารทานายเป็ นว่าเป็ น เลข 7 จึงเกิดการหารด้วย 0 ขึน้
ค่า precision ที่ได้จึงแสดงเป็ น Nan ส่วนค่า recall ที่เป็ น 0 นัน้ เนื่องจากค่าผลลัพธ์จริง (true label)
ยังคงมีอยู่เนื่องจากเราทดสอบ Confusion matrix ของแบบจาลองด้วย test set ที่มขี อ้ มูลทุกประเภท
เป้ าหมาย จึงแสดงว่าไม่มกี ารทานายได้ถูกต้องบนชุดข้อมูลทีต่ อ้ งการให้ลมื ซึง่ เป็ นไปตามทีต่ อ้ งการ
3.2.3 การลืมเรียนรู้ด้วยวิ ธี UNSIR
เราจะนาค่า parameter จากแบบจาลองทีฝ่ ึกฝนด้วยชุดข้อมูลดัง้ เดิมทีบ่ นั ทึกไว้มาทาการลืมการ
เรียนรูด้ ว้ ยวิธกี าร UNSIR โดยมีขนั ้ ตอนดังนี้
1. สร้างสัญญาณรบกวน (Noise) : โดยสร้างสัญญาณรบกวนที่มขี นาดเท่ากับ tensor ที่เก็บ
ข้อ มูล แต่ล ะรูป ภาพไว้ หรือ ก็ค ือ 3x29x29 ด้ว ยการสร้า งสัญ ญาณรบกวนตัง้ ต้น ที่มีก าร
กระจายตัวสุ่มค่าแบบ 𝑁(0,1) โดยนาสัญญาณรบกวนตัง้ ต้นไปปรับปรุงค่าให้เหมาะสม
โดยผ่ า นแบบจ าลองตัง้ ต้น ด้ว ย learning rate เป็ น 0.1 และ optimizer ประเภท Adam
ฝึ กฝนทัง้ หมด 5 epochs โดยสัญ ญาณรบกวนนี้ จะปรับแปลงค่ าเป้ าหมายของประเภท
รถบรรทุก ให้เปลีย่ นเป็ นค่าอื่น
2. ทาให้เกิดความบกพร่อง (Impair step) : เมื่อได้สญ ั ญาณรบกวนทีเ่ หมาะสม จะนาสัญญาณ
รบกวนที่มีจานวนเท่ ากับ จานวนข้อ มูล ของชุ ดข้อ มูล 𝐷𝑓 มาผสมรวมกับชุดข้อ มูล 𝐷𝑟
บางส่วนโดยหยิบมาทัง้ หมด 1,000 ข้อมูล เป็ นข้อมูลรบกวนนาไปผ่านแบบจาลองตัง้ ต้น
แล้ว ท าการฝึ ก ฝน ด้ว ย learning rate เป็ น 0.02 และ optimizer ประเภท Adam ฝึ ก ฝน
ทัง้ หมด 1 epoch
3. ปรับปรุงซ่อมแซม (Repair step) : หลังจาก Impair step เราจะปรับปรุงความสามารถใน
การเรียนรู้ของแบบจาลองที่ผ่านกระบวนการ Impair step บน 𝐷𝑟 ด้วยการนาชุดข้อมูล
𝐷𝑟 บางส่วนโดยหยิบมาทัง้ หมด 1,000 ข้อมูล มาฝึ กฝนกับ แบบจาลองดังกล่าวอีกครัง้
ด้วยด้วย learning rate เป็ น 0.01 และ optimizer ประเภท Adam ฝึกฝนทัง้ หมด 1 epoch
เราทาการบันทึกค่าเวลาในการฝึ กฝนของทุกขัน้ ตอน และ ค่า accuracy บน 𝐷𝑓 และ 𝐷𝑟 ใน
ส่วนของขัน้ ตอน Impair step กับ Repair step ดังตารางที่ 10

33
ตารางที่ 10 เวลาในการฝึกฝน, 𝐴𝐷𝑓 และ 𝐴𝐷𝑟 ของแต่ละขัน้ ตอน
ขัน้ ตอนในการลืมเรียนรู้ เวลา (s) 𝐴𝐷 (%) 𝐴𝐷 (%)
𝑓 𝑟
Impair step 2.66 0 97.03
Repair step 1.98 0 97.95
Noise time 2.4 - -

เราจะได้ confusion matrix ดังในรูปที่ 20 และตารางแสดงค่าความแม่นยา, ค่าความครบถ้วน


และ F1-score ในตารางที่ 11

รูปที่ 20 Confusion matrix ของการลืมเรียนรูด้ ว้ ยวิธี UNSIR

34
ตารางที่ 11 ค่าความแม่นยา, ค่าความครบถ้วน และ F1-score ของการลืมเรียนรูด้ ว้ ยวิธี UNSIR
เลข precision (%) recall (%) F1-score (%)
0 98.9 99.4 99.1
1 87.9 99.1 93.2
2 94.0 93.7 93.8
3 79.2 97.8 87.5
4 98.1 98.8 98.4
5 95.6 99.6 97.5
6 99.1 96.9 98.0
7 Nan 0 nan
8 91.0 99.0 94.8
9 63.4 97.1 76.7

ผลลัพธ์ท่ปี รากฏในรูปที่ 20 ให้ผลลัพธ์ใน predict label เช่นเดียวกันกับในหัว ข้อ 3.2.2 หรือ


Gold standard ตีความได้ว่าวิธกี าร UNSIR สามารถทาให้แบบจาลองไม่มคี วามสามารถในการทานาย
รูปประเภทรถบรรทุกได้ หรือลืมชุดข้อมูลรถบรรทุกได้นนเอง
ั่

3.2.4 การลืมเรียนรู้ด้วยวิ ธี Amnesiac Unlearning


ก่อนเริม่ กระบวนการ เราต้องทาการปรับชุดข้อมูล 𝐷𝑓 โดยเปลี่ยนประเภทเป้ าหมายให้เป็ น
เป้ าหมายอื่นแบบสุม่ โดยกระจายสุม่ แบบสม่าเสมอ (Uniform Distribution) รวมกับชุดข้อมูล 𝐷𝑟 เป็ นชุด
ข้อมูลสาหรับใช้ในกระบวนการนี้ จากนัน้ นาไปฝึ กฝนกับ แบบจาลองดัง้ เดิม ด้วย learning rate เป็ น
0.0001 ฝึกฝนเป็ นจานวน 3 epochs เราจะได้ confusion matrix ดังในรูปที่ 21 และตารางแสดงค่าความ
แม่นยา, ค่าความครบถ้วน และ F1-score ในตารางที่ 12

35
รูปที่ 21 Confusion matrix ของการลืมเรียนรูด้ ว้ ยวิธี Amnesiac Unlearning

ตารางที่ 12 ค่าความแม่นยา, ค่าความครบถ้วน และ F1-score ของการลืมเรียนรูด้ ว้ ยวิธี Amnesiac


Unlearning
เลข precision (%) recall (%) F1-score (%)
0 93.3 100 96.6
1 96.6 100 98.3
2 99.3 99.4 99.4
3 97.4 99.8 98.6
4 79.7 99.7 88.6
5 75.8 99.0 85.9
6 99.9 99.0 99.4
7 100 4.8 9.1
8 98.6 99.7 99.1
9 75.4 99.4 85.7

ผลลัพธ์ทป่ี รากฏในรูปที่ 21 ให้ผลลัพธ์ใน predict label ใกล้เคียงกับในหัวข้อ 3.2.2 หรือ Gold


standard ตีความได้ว่าวิธีการ Amnesiac สามารถทาให้แบบจาลองมีความสามารถในการทานายรูป

36
ประเภทรถบรรทุกได้เสมือนลืมชุดข้อมูลรถบรรทุกได้เลย แต่ยงั คงหลงเหลือความจาในชุดข้อมูลอยู่ เมื่อ
สังเกตจาก predict label ทีไ่ ม่เป็ น 0 ทัง้ หมด

3.2.5 การลืมเรียนรู้ด้วยวิ ธี Bad and Good Teacher


ขัน้ ตอนกระบวนการของ Bad and Good Teacher จะมีดงั นี้
1. สร้างแบบจาลองผูส้ อนที่มคี วามสามารถ 𝑀𝑠 และแบบจาลองผูเ้ รียน 𝑆 โดยทีแ่ บบจาลอง
ทัง้ สองใช้ค่า parameter เดียวกันกับ แบบจาลองตัง้ ต้น
2. สร้างแบบจาลองผูส้ อนทีไ่ ร้ความสามารถ 𝑀𝑑 โดยให้เป็ นแบบจาลอง resnet18 ทีย่ งั ไม่ได้
ปรับปรุงค่าใดๆเลย หรือกาหนดให้เลือกค่า parameter แบบสุม่
3. สุ่มเลือกชุดข้อมูล 𝐷𝑟 มาเป็ นจานวน 1 ใน 3 ของทัง้ หมด แล้วกาหนดให้เป็ นมีเป้ าหมาย
เป็ น 1 ส่วนชุดข้อมูล 𝐷𝑓 นามาใช้ทงั ้ หมด โดยกาหนดเป้ าหมายให้เป็ น 0 โดยขอเรียกว่า
ชุดข้อมูลเตรียมสอน
4. จากนัน้ นาชุดข้อมูลเตรียมสอนไปให้กบั แบบจาลอง 𝑀𝑠 และ 𝑀𝑑 เพื่อแสดงผลลัพธ์โดย
ไม่เรียนรู้เพิม่ เติมจากชุดข้อมูลนี้โดยนาผลลัพธ์ท่ไี ด้ไปผ่านฟั งก์ชนั Softmax เพื่อปรับให้
เป็ นค่า 0 กับ 1 เพือ่ ให้แสดงถึง 0 ทีเ่ ป็ นเป้ าหมายชุดข้อมูล 𝐷𝑟 และ 1 ทีเ่ ป็ นเป้ าหมายของ
ชุดข้อ มูล 𝐷𝑓 จากนัน้ น าผลลัพธ์ท่ีไ ด้ห ลัง ผ่ า น Softmax ของแบบจ าลองทัง้ สองมาถ่ ว ง
น้ าหนักกันด้วยค่าถ่วงน้ าหนักเริม่ ต้นแล้วจึงนาไปหา เทียบกับผลลัพธ์ทไ่ี ด้จาก 𝑆 ทีเ่ รียนรู้
ชุดข้อมูล เตรียมสอนไปทาการหา KL-Divergence เพื่อปรับหาค่าถ่วงน้ าหนักที่เหมาะสม
ทีส่ ุด โดยฝึกฝนด้วย learning rate เป็ น 0.0001 เป็ นจานวน 5 epochs
เราจะได้ confusion matrix ดังในรูปที่ 22 และตารางแสดงค่าความแม่นยา, ค่าความครบถ้วน
และ F1-score ในตารางที่ 13

37
รูปที่ 22 Confusion matrix ของการลืมเรียนรูด้ ว้ ยวิธี Bad and Good Teacher

ตารางที่ 13 ค่าความแม่นยา, ค่าความครบถ้วน และ F1-score ของการลืมเรียนรูด้ ว้ ยวิธี Bad and


Good Teacher
เลข precision (%) recall (%) F1-score (%)
0 99.5 97.6 98.5
1 98.6 99.8 99.2
2 51.0 100 67.6
3 97.9 99.5 98.7
4 99.7 95.1 97.3
5 98.3 98.1 98.2
6 99.6 94.4 96.9
7 87.2 3.3 6.4
8 96.3 98.8 97.5
9 93.8 99.3 96.5

ผลลัพธ์ทป่ี รากฏในรูปที่ 22 ให้ผลลัพธ์ใน predict label ใกล้เคียงกับในหัวข้อ 3.2.2 หรือ Gold


standard ตีความได้ว่าวิธกี าร Bad and Good Teacher สามารถทาให้แบบจาลองมีความสามารถในการ

38
ทานายรูปประเภทรถบรรทุกได้เสมือนลืมชุดข้อมูลรถบรรทุกได้เลย แต่ยงั คงหลงเหลือความจาในชุด
ข้อมูลอยู่ เมื่อสังเกตจาก predict label ทีไ่ ม่เป็ น 0 ทัง้ หมด

3.2.6 การวิ เคราะห์ผลที่ได้


ในหัวข้อนี้จะแสดงตารางที่ 14 ที่รวบรวมเวลาในการฝึ กฝนและ accuracy บน 𝐷, 𝐷𝑓 และ
𝐷𝑟 ของแต่ละวิธกี ารมาเปรียบเทียบกันและวิเคราะห์ผลลัพธ์ทไ่ี ด้

ตารางที่ 14 ตารางแสดงการเปรียบเทียบค่าเวลาในการฝึกฝนและ accuracy บน 𝐷, 𝐷𝑓 และ 𝐷𝑟 ของ


แต่ละวิธกี าร
วิธกี ารเรียนรู/้ ลืมเรียนรู้ accuracy on all set 𝐴𝐷𝑓 𝐴𝐷𝑟 เวลาทีใ่ ช้ในการฝึกฝน
(%) (%) (%) (s)

Full training 77.89 92.3 97.53 120


Naive retraining (Gold - 0 98.71 87
standard)
UNSIR - 0 97.95 7.04
Amnesiac - 3.83 99.58 60
Bad and Good Teacher - 2.65 98.17 50.3

จากตารางที่ 14 จะเห็นได้ว่าทุกวิธกี ารลืมเรียนรู้สามารถลดค่า 𝐴𝐷𝑓 จากเดิมทีแ่ บบจาลองตัง้


ต้นมี 𝐴𝐷𝑓 อยู่ท่ี 92.3 % ให้เหลือใกล้เคียงค่าทีเ่ ราคาดหวังคือ 0 ได้สาเร็จโดยเฉพาะวิธกี าร UNSIR ที่
สามารถทาให้แบบจาลองสามารถลืมการเรียนรูบ้ นเป้ าหมายรูปภาพรถบรรทุกได้ หรือ มี 𝐴𝐷𝑓 = 0 %
โดยสะท้อ นจากการสังเกตค่ าการทานายเป้ าหมาย (predict label) บนตัว เลข “ 7 ” ของ Confusion
matrix ของแต่ละวิธี พบว่าไม่มกี ารทานายเลยในส่วนของวิธี UNSIR ให้ผลได้เหมือนกับ Gold standard
ในขณะที่ว ิธี Amnesiac และ Bad and Good Teacher นัน้ มีค่ า 𝐴𝐷𝑓 อยู่ท่ี 3.83 % กับ 2.65 % ใน
มุมมองของผูจ้ ดั ทาถือว่าอยูในระดับทีใ่ กล้เคียงกับ Gold standard สาเหตุทย่ี งั มีการหลงเหลือการเรียนรู้
บน 𝐷𝑓 อาจเกิด จากการเลือ ก learning rate ที่ ไ ม่ เ หมาะสม อีก ทัง้ แบบจ าลอง resnet18 อาจมี
ความสามารถในการจดจาเลข “ 7 ” ได้ดมี าก หากสังเกต 𝐴𝐷𝑓 จากแบบจาลองตัง้ ต้นทีม่ คี ่าสูงถึง 92.3
%
ถัด มา พิจ ารณาเปรีย บเทีย บ 𝐴𝐷𝑟 ของแต่ ล ะวิธี จะพบว่ า วิธี UNSIR และ Bad and Good
Teacher มี 𝐴𝐷𝑟 ทีใ่ กล้เคียงกับค่า 𝐴𝐷𝑟 ของ Gold standard อย่างมาก โดยห่างเพียงไม่ถงึ 1 % ในแต่

39
ขณะที่ว ิธี UNSIR มีก ลับมีค่ า 𝐴𝐷𝑟 ที่มากกว่า Gold standard อยู่ท่ี 0.83 % เมื่อ สังเกต Confusion
matrix และค่าความแม่นยา, ค่าความครบถ้วน และ F1-score ของการลืมเรียนรู้ด้วยวิธี Amnesiac ใน
รูปที่ ... และ ตารางที่ … จะพบว่า Amnesiac มีการกระจายผลกระทบต่อการทานายเลขตัวอื่นๆมากกว่า
วิธกี ารอื่นๆหรือแม้กระทัง่ Gold standard
มาตรวัดผลสุดท้ายที่จะพิจารณาคือ เวลาในการฝึ กฝน ซึ่งจะพบว่า วิธี UNSIR ใช้เวลาได้เร็ว
กว่า Gold standard อย่างมาก รวมถึงเร็วกว่าวิธอี ่นื ๆอย่างมากเช่นกัน เหตุผลของเวลาทีร่ วดเร็วนัน้ มา
จาก วิธดี าเนินกระบวนการที่ไม่จาเป็ นต้องใช้ข้อมูล 𝐷𝑓 ในกระบวนการ ในขณะ วิธี Amnesiac และ
Bad and Good Teacher มีการใช้ 𝐷𝑓 ในการฝึกฝนด้วย จึงใช้เวลาในการฝึกฝนมากกว่า แต่กย็ งั ถือว่า
เร็วกว่า Gold standard พอสมควร
3.3 วิ เคราะห์ผลที่ได้จากทัง้ สองชุดข้อมูล
จากตารางที่ 7 ทีไ่ ด้จากการศึกษากระบวนการลืมเรียนรูบ้ นชุด และ ตารางที่ 14 ทีไ่ ด้จากการศึกษา
กระบวนการลื ม เรี ย นรู้ บ นชุ ด ข้ อ มู ล MNIST จะพบว่ า แบบจ าลองตั ง้ ต้ น ที่ ม าจาก resnet18 มี
ความสามารถในการเรียนรู้บนชุดข้อมูล MNIST ได้ดกี ว่า CIFAR-10 ซึ่งสมเหตุสมผลเพราะชุดข้อ มูล
MNIST มีขนาด 29x29 พิกเซล รวมถึงเก็บข้อมูลสีเพียงขาวดา หรือก็คอื เก็บข้อมูลแบบ binary ในขณะ
ที่ CIFAR-10 มีขนาด 32x32 พิกเซล และเก็บข้อมูลสีสามสีดว้ ยกัน โครงสร้างข้อมูลของ MNIST มีความ
ซับซ้อ นที่น้อ ยกว่า CIFAR-10 และเมื่อ ผ่ านกระบวนการลืมเรียนรู้ ต่ างๆ กระบวนการลืมเรีย นรู้บ น
CIFAR-10 สามารถทาได้ดกี ว่า MNIST สาเหตุอาจจะเกิดจาก การเลือกรูปภาพประเภททีต่ อ้ งการให้ลมื
ซึ่ง รูปภาพประเภทรถบรรทุก ที่ต้อ งการให้ลืมจากชุดข้อ มูล CIFAR-10 มีค วามแตกต่างจากรูปภาพ
ประเภทอื่นๆชัดเจน จึงสามารถแยกจากรูปภาพอื่นได้ ในขณะที่ เลข “ 7 ” ในชุดข้อมูล MNIST อาจจะมี
โครงสร้างที่ใกล้เคียงเลขอื่นๆ รวมถึงแบบจาลองตัง้ ต้นสามารถเรียนรู้ชุดข้อมูล MNIST ได้ดจี งึ ทาให้
กระบวนการลืมเรียนรูท้ ใ่ี ช้ในโครงงานทาได้ยากเช่นกัน แต่ในแง่ความสามารถในการเรียนรูช้ ุดข้อมูลที่
เหลือ ทัง้ สองชุดข้อ มูล มีระดับที่ใ กล้เ คียงกัน เมื่อ เทียบกับ Gold standard ซึ่ง หากมองค่ าผลกระทบ
สมบูรณ์ท่เี กิดขึ้น จะพบว่า กระบวนการลืมเรียนรู้บนชุดข้อมูล CIFAR-10 จะสร้างผลกระทบกับการ
ทานายชุดข้อ มูลที่เหลือพอสมควร ด้วยความที่โครงสร้างข้อ มูล มีความซับซ้อ น ในขณะที่ ชุดข้อ มูล
MNIST โครงสร้างข้อมูลทีเ่ รียบง่ายกว่า สุดท้ายเมื่อเปรียบเทียบเวลาในการเรียนรูข้ องแต่ละกระบวนการ
หากพิจารณาเวลาในการฝึ กฝนแบบจาลองตัง้ ต้นด้วยชุดข้อมูลดัง้ เดิม และชุดข้อมูลที่เหลือ จะพบว่า
เวลาในการฝึ กฝนบนชุดข้อมูล MNIST ใช้เวลาน้อยกว่า เวลาในการฝึ กฝนบนชุดข้อมูล CIFAR-10 ซึ่ง
สมเหตุสมผลกับความแตกต่างในเรื่องโครงสร้างข้อมูล แต่เวลาการฝึกฝนด้วยวิธกี ารลืมเรียนรูท้ งั ้ สามตัว
เมื่อเปรียบเทียบทัง้ สองชุดข้อมูล กลับให้เวลาเท่ากัน สาเหตุเกิดจากทีแ่ ต่ละกระบวนการจะมีการแปลง
ข้อมูลให้อยู่ในรูปแบบ list ก่อนแล้วจึงแปลงกลับในรูปเดิม ทาให้เวลาในการคานวณจึงใกล้เคียงกัน
เนื่องจากชุดข้อมูลมีจานวนข้อมูลใกล้เคียงกัน

40
4. บทสรุป
4.1 สรุปผลการดาเนิ นการ
กระบวนการลืมเรียนรู้ หรือ Machine Unlearning ทีเ่ รานามาศึกษาการลืมเรียนรูข้ องแบบจาลอง
บนชุดข้อมูลที่ต้องการให้ลืมนัน้ สามารถทาได้จริง อีกทัง้ ยังมีประสิทธิภาพในระดับที่ดีด้วย ซึ่งแต่ละ
วิธีการที่ใช้นัน้ ใช้เวลาที่รวดเร็วกว่า Retraining model อย่างชัดเจน อีกทัง้ ยัง สร้างผลกระทบต่อ ชุด
ข้อมูลที่เหลือ ใกล้เคียงกันกับ Retraining model ซึ่ง Machine Unlearning จะขึ้นอยู่กบั ชุดข้อมูล และ
แบบจาลองทีน่ ามาใช้งานด้วย อีกทัง้ ยังสามารถปรับค่าตัวแปรต่างๆให้เหมาะสมตามความต้องการของ
ผูใ้ ช้งานได้ เพือ่ ให้ได้ประสิทธิภาพทีด่ ขี น้ึ
โครงงานได้แสดงให้เห็นถึงความสามารถในการเรียนลืมเรียนรู้ และการวัดผลด้วยมาตรวัดผลที่
มีอย่างง่าย ในอนาคตที่มกี ารศึกษาเกี่ยวกับกระบวน Machine Unlearning ที่มคี วามซับซ้อนมากขึ้น
หรือการใช้งานมาตรวัดผลทีม่ คี วามซับซ้อนมากขึน้ ผูจ้ ดั ทาเชื่อว่าโครงงานนี้จะเป็ น ต้นแบบในการศึกษา
เพือ่ พัฒนาต่อยอดได้ดี

4.2 ปัญหา อุปสรรค และแนวทางแก้ไข


โดยเริ่มต้น โครงงานได้ศึก ษากระบวนการอื่นๆเพิ่มเติม แต่พบว่า บางกระบวนการมีค วาม
ซับซ้อนในการใช้งานอย่างมาก บางกระบวนการจาเป็ นต้องใช้พ้นื ที่จดั เก็บข้อมูล จานวนมากและใช้
ทรัพยากรในการกระบวนสูง บนขอบเขตการทางานด้วยคอมพิวเตอร์ พกพาทีม่ ที รัพยากรในการทางาน
ต่า และได้ลองใช้ซอฟต์แวร์ Google Colab Pro ในการฝึกฝน โดยซื้อพืน้ ที่จดั เก็บข้อมูลและทรัพยากร
ซึ่งมีราคาสูง ซึ่งโครงงานดัง้ เดิมไม่สามารถฝึกฝนให้สาเร็จได้บน Google Colab Pro ด้วยงบประมาณที่
มี จึงปรับเปลี่ยนชุดข้อมูลมีโครงสร้างที่ซบั ซ้อนน้อยลง และปรับวิธกี ารลืมเรียนรู้ท่ใี ช้ในโครงงาน ที่มี
ความเข้าใจง่ายและใช้พน้ื ทีจ่ ดั เก็บและทรัพยากรน้อย

5. กิ ตติ กรรมประกาศ
ขอขอบคุณ รศ.ดร. ชาญชัย ปลืม้ ปิ ตวิ ริ ยิ ะเวช อาจารย์ทป่ี รึกษาโครงงาน ทีใ่ ห้คาแนะนาในการศึกษา
โครงงาน แนวทางและขัน้ ตอนในการศึก ษา ค าแนะน าในการเขีย นเล่ ม รายงาน และให้ใ ช้พ้ืน ที่
คอมพิวเตอร์ของอาจารย์ในการศึกษาโครงงาน เนื่องด้วยความช่วยเหลือของอาจารย์ทป่ี รึกษาโครงงาน
จึงทาให้โครงงานนี้สาเร็จลุล่วงไปได้ดว้ ยดี

41
6. เอกสารอ้างอิ ง

[1] DATAth, “Big Data คืออะไร? เข้าใจง่าย ๆ ใน 2 นาที,” [ออนไลน์]. Available:


https://blog.datath.com/big-data/. [%1 ทีเ่ ข้าถึง20 Nov 2023].
[2] Lamprianidou, Ifigeneia S. and Papadopoulos, Theofilos A. and Kryonidis, Georgios C.
and Papagiannis, Grigoris K. and Bouhouras, Aggelos S., “Impact of Data-Driven
Modelling Approaches on the Analysis of Active Distribution Networks,” ใน 2019 54th
International Universities Power Engineering Conference (UPEC), 2019.
[3] Miklosik, Andrej and Evans, Nina, “Impact of Big Data and Machine Learning on Digital
Transformation in Marketing: A Literature Review,” IEEE Access, เล่มที่ 8, pp. 101284-
101292, 2020.
[4] Kelly, Michael and Satola, David, “The right to be forgotten,” University of Illinois law
review, pp. 1-64, 2017.
[5] Gert Cauwenberghs, Tomaso Poggio, “Incremental and Decremental Support Vector,”
Neural Information Processing Systems, pp. 388-394, January 2000.
[6] G. Research, “Announcing the first Machine Unlearning Challenge,” 29 June 2023.
[ออนไลน์]. Available: https://blog.research.google/2023/06/announcing-first-machine-
unlearning.html. [%1 ทีเ่ ข้าถึง21 Nov 2023].
[7] Jia, Jie Xu and Zihan Wu and Cong Wang and Xiaohua, “Machine Unlearning: Solutions
and Challenges,” IEEE Transactions on Emerging Topics in Computational Intelligence, pp.
1-19, 2024.
[8] Nguyen, Thanh Tam Nguyen and Thanh Trung Huynh and Phi Le Nguyen and Alan Wee-
Chung Liew and Hongzhi Yin and Quoc Viet Hung, “A Survey of Machine Unlearning,”
arXiv:2209.02299 , 2022.
[9] Papernot, Lucas Bourtoule and Varun Chandrasekaran and Christopher A. Choquette-
Choo and Hengrui Jia and Adelin Travers and Baiwu Zhang and David Lie and Nicolas,
“Machine Unlearning,” 2021 IEEE Symposium on Security and Privacy (SP), pp. 141-159,
2021.
[10] RMIT Centre Cyber Security Research & Innovation, “Machine Unlearning,” Youtube, 15
Sep 2023. [ออนไลน์]. Available: https://www.youtube.com/watch?v=eiZuQmImxEE&t=901s.
[%1 ทีเ่ ข้าถึง20 Nov 2023].

42
[11] Kumaraguru, Shashwat Goel and Ameya Prabhu and Amartya Sanyal and Ser-Nam Lim
and Philip Torr and Ponnurangam, “Towards Adversarial Evaluations for Inexact Machine
Unlearning,” arXiv:2201.06640 , 2023.
[12] Ayush K Tarun, Vikram S Chundawat, Murari Mandal, Mohan Kankanhalli, “Fast Yet
Effective Machine Unlearning,” arXiv:2111.08947v5, 2023.
[13] El Mehdi Achour, Armand Foucault, Sébastien Gerchinovitz, and François Malgouyres,
“Ageneral approximation lower bound in Lp norm,” arXiv:2206.04360, 2022.
[14] Laura Graves, Vineel Nagisetty, Vijay Ganesh, “Amnesiac Machine Learning,”
arXiv:2010.10981, 2020.
[15] Vikram S Chundawat, Ayush K Tarun, Murari Mandal2, Mohan Kankanhalli, “Can
BadTeaching Induce Forgetting? Unlearning in Deep Networks Using an,”
arXiv:2205.08096v2, 2023.
[16] Geoffrey Hinton, Oriol Vinyals, Jeff Dean, “Distilling the Knowledge in a Neural Network,”
arXiv:1503.02531, 2015.
[17] Yufeng Zhang, Wanwei Liu, Zhenbang Chen, Ji Wang, Kenli Li, “On the Properties of
Kullback-Leibler Divergence Between Multivariate Gaussian Distributions,”
arXiv:2102.05485, 2023.
[18] Ivo Düntsch, Günther Gediga, “Confusion matrices and rough set data analysis,”
arXiv:1902.01487, 2019.
[19] Department of Computer Science, University of Toronto, “CIFAR-10 and CIFAR-100
datasets,” 2009. [ออนไลน์]. Available: www.cs.toronto.edu/~kriz/cifar.html. [%1 ทีเ่ ข้าถึง20
April 2024].
[20] LeCun, Yann and Cortes, Corinna and Burges, CJ, “MNIST handwritten digit database,”
ATT Labs [Online]. Available: http://yann.lecun.com/exdb/mnist, %12, 2010.
[21] Pytorch, “torch.library,” 2023. [ออนไลน์]. Available: https://
pytorch.org/docs/stable/library.html. [%1 ทีเ่ ข้าถึง18 April 2024].
[22] StackExchange, “Difference between neural net weight decay and learning rate,” 7 April
2016. [ออนไลน์]. Available: https://stats.stackexchange.com/questions/29130/difference-
between-neural-net-weight-decay-and-learning-rate. [%1 ทีเ่ ข้าถึง18 April 2024]
[23] Diederik P. Kingma, Jimmy Ba, “Adam: A Method for Stochastic Optimization,”
arXiv:1412.6980, 2017.

43
44
7. ภาคผนวก
7.1 ภาคผนวก ก

ตารางที่ 15 ค่าความสูญเสียบนชุดข้อมูล ของแต่ละรูปแบบการฝึกฝน ด้วยชุดข้อมูล CIFAR-10


รูปแบบการฝึกฝน ค่าความสูญเสียบนชุด ค่าความสูญเสียบนชุด ค่าความสูญเสียบนชุด
ข้อมูลทัง้ หมด ข้อมูลทีต่ อ้ งการให้ลมื ข้อมูลทีเ่ หลือ
Full training 1.386 2.068 1.314
Naive retraining - 1.295 12.13
UNSIR - 20.08 0.893
Amnesiac - 5.665 1.146
Bad and Good Teacher - 4.253 1.115

ตารางที่ 16 ค่าความสูญเสียบนชุดข้อมูล ของแต่ละรูปแบบการฝึกฝน ด้วยชุดข้อมูล MNIST


รูปแบบการฝึกฝน ค่าความสูญเสียบนชุด ค่าความสูญเสียบนชุด ค่าความสูญเสียบนชุด
ข้อมูลทัง้ หมด ข้อมูลทีต่ อ้ งการให้ลมื ข้อมูลทีเ่ หลือ
Full training 0.1200 0.2713 0.0949
Naive retraining - 6.619 0.0490
UNSIR - 24.17 0.0596
Amnesiac - 2.210 0.0170
Bad and Good Teacher - 2.147 0.0681

45

You might also like