Professional Documents
Culture Documents
Basic Stat 2p
Basic Stat 2p
Basic Stat 2p
ิ น ํ หรับ
ื้ ฐานสา
Machine Learning
About us
สําหรับการอบรมหลักสูตร Practical Data Science and Machine Learning
• ั ดา
ชื่อ: เอกสิทธิ์ พัชรวงศ์ศก
• การศึกษา:
• ปริญญาเอก วิทยาการคอมพิวเตอร์
ิ น
สถาบันเทคโนโลยีนานาชาติสร ิ ธร (SIIT) มหาวิทยาลัยธรรมศาสตร์
• ประสบการณ์
• ร่วมวิจย
ั โครงการสํารวจข้อมูลเพือ
่ การวิเคราะห์พฤติกรรมของนักท่องเทีย
่ วเชิงลึก ด้วยวิธก
ี ารทําเหมืองข้อมูล
การท่องเทีย
่ วแห่งประเทศไทย (ททท)
RapidMiner Analyst
Certification
This is to Certify that
Eakasit Pacharawongsakda
Successfully passed the examination for the Certified RapidMiner Analyst.
The RapidMiner Analyst certification level is designed for individuals who wish to demonstrate
a fundamental understanding of how RapidMiner software works and is used.
Certified Analyst professionals will be able to prepare data and create predictive models in
standard data environments typically found within most analyst positions.
With:
RapidMiner Studio RapidMiner Server
Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th
Date: August 13, 2014 3
About us
สําหรับการอบรมหลักสูตร Practical Data Science and Machine Learning
• \
About us
สําหรับการอบรมหลักสูตร Practical Data Science and Machine Learning
About us
สําหรับการอบรมหลักสูตร Practical Data Science and Machine Learning
About us
สําหรับการอบรมหลักสูตร Practical Data Science and Machine Learning
100+
public/in-house
47,000+
training classes people like Facebook page
About us
สําหรับการอบรมหลักสูตร Practical Data Science and Machine Learning
• หนังสือ Data Mining ฉบับภาษาไทย
• สถิตท
ิ แ
ี่ สดงปริมาณนํา
้ ฝน
• สถิตอ
ิ บ
ุ ต
ั เิ หตุ
ด้วย
• การเก็บรวบรวมข้อมูล
• การนําเสนอข้อมูล
• การวิเคราะห์ขอ
้ มูล
• การตีความหมายข้อมูล
ฺBasic Statistics
สําหรับการอบรมหลักสูตร Practical Data Science and Machine Learning
• สถิตจ
ิ ะแบ่งได้เป็น 2 ประเภทใหญ่ๆ คือ
• สถิตพ
ิ รรณนา (Descriptive Statistics)
• ค่าเฉลีย
่ (Mean)
• ค่ามัธยฐาน (Median)
• ค่าฐานนิยม (Mode)
• ส่วนเบีย
่ งเบนมาตรฐาน (Deviation)
• ความแปรปรวน (Variance)
ฺBasic Statistics
สําหรับการอบรมหลักสูตร Practical Data Science and Machine Learning
• สถิตเิ ชิงอนุมาน (Inferential Statistics)
• สถิตท
ิ ว
ี่ า
่ ด้วยการวิเคราะห์ขอ
้ มูลทีร
่ วบรวมมาจากกลุม
่ ตัวอย่าง เพือ
่ อธิบาย
สรุปลักษณะบางประการของประชากร โดยมีการนําทฤษฎีความน่าจะเป็นมา
ประยุกต์ใช้ สถิตส
ิ าขานี้ ได้แก่
• การประมาณค่าทางสถิติ
• การทดสอบสมมุตฐ
ิ านทางสถิติ
• การวิเคราะห์การถดถอยและสหสัมพันธ์
ค่าเฉลีย
่
ค่ากลางหรือมัธยฐาน
ค่าฐานนิยม
ค่าเบี่ยงเบนมาตรฐาน
ผลรวมของค่าข้อมูล ค่าทีอ
่ ยูต
่ รงกลางหลัง ค่าทีเ่ กิดขึน
้ บ่อยทีส
่ ด
ุ ใน ค่าทีต
่ า
่ งจากค่าเฉลีย
่ เป็น
ทัง
้ หมดหารด้วยจํานวน จากทําการเรียงลําดับ ชุดข้อมูล จํานวนเท่าไร
ข้อมูลทัง
้ หมด ข้อมูลจากน้อยไปมาก
Descriptive Statistics
สําหรับการอบรมหลักสูตร Practical Data Science and Machine Learning
• ข้อมูลตัวอย่าง
ID ส่วนสูง นํา
้ หนัก
1 170 70
2 170 75
3 180 75
1 2 3 4 5
4 185 80
5 170 80
6 150 45
7 155 50
8 150 50
6 7 8 9 10
9 160 55
10 165 50
ค่าเฉลีย
่
ค่ากลางหรือมัธยฐาน
ค่าฐานนิยม
ค่าเบี่ยงเบนมาตรฐาน
ผลรวมของค่าข้อมูล ค่าทีอ
่ ยูต
่ รงกลางหลัง ค่าทีเ่ กิดขึน
้ บ่อยทีส
่ ด
ุ ใน ค่าทีต
่ า
่ งจากค่าเฉลีย
่ เป็น
ทัง
้ หมดหารด้วยจํานวน จากทําการเรียงลําดับ ชุดข้อมูล จํานวนเท่าไร
ข้อมูลทัง
้ หมด ข้อมูลจากน้อยไปมาก
3 180 75 • ค่าเฉลีย
่ (Mean) ของนํา
้ หนัก
4 185 80
• (70+75+75+ … + 50)/10 = 63
5 170 80
6 150 45
7 155 50
8 150 50
9 160 55
10 165 50
ค่าเฉลีย
่
ค่ากลางหรือมัธยฐาน
ค่าฐานนิยม
ค่าเบี่ยงเบนมาตรฐาน
ผลรวมของค่าข้อมูล ค่าทีอ
่ ยูต
่ รงกลางหลัง ค่าทีเ่ กิดขึน
้ บ่อยทีส
่ ด
ุ ใน ค่าทีต
่ า
่ งจากค่าเฉลีย
่ เป็น
ทัง
้ หมดหารด้วยจํานวน จากทําการเรียงลําดับ ชุดข้อมูล จํานวนเท่าไร
ข้อมูลทัง
้ หมด ข้อมูลจากน้อยไปมาก
ลําดับ ID นํา
้ หนัก
• ค่ากลาง (Median)
ลําดับ ID ส่วนสูง
1 6 150 1 6 45 • เริม
่ จากเรียงลําดับข้อมูลจากน้อยสุด
2 8 150 2 7 50 ไปหามากสุด
4 9 160 4 10 50 จากเรียงลําดับได้แล้ว
5 10 165 5 9 55 • ในกรณีขอ
้ มูลมีจา
ํ นวนเป็นเลขคี่ เช่น
6 1 170 6 1 70 3, 5, 7 ค่ากลางคือค่าทีอ
่ ยูต
่ รงกลาง
เช่น ข้อมูลลําดับที่ 2, 3 และ 4 ตาม
7 2 170 7 2 75
ลําดับ
8 5 170 8 3 75
• ในกรณีทเี่ ป็นเลขคู่ เช่น 8 หรือ 10
9 3 180 9 4 80
ต้องหาค่าเฉลีย
่ ของลําดับข้อมูลทีอ
่ ยู่
10 4 185 10 5 80
ตรงกลาง ได้แก่ ข้อมูลลําดับที่ 4 และ
1 6 150 1 6 45
• ค่าเฉลีย
่ ของข้อมูลลําดับที่
2 8 150 2 7 50
5 และ 6
3 7 155 3 8 50
• (165+170)/2 = 167.5
4 9 160 4 10 50
10 4 185 10 5 80
ข้อมูลเรียงลําดับตามส่วนสูง ข้อมูลเรียงลําดับตามนํ้าหนัก
จากน้อยไปมาก จากน้อยไปมาก
Descriptive Statistics
สําหรับการอบรมหลักสูตร Practical Data Science and Machine Learning
ID รายได้ (บาท) • ค่ากลางสําหรับข้อมูลทีเ่ ป็นตัวเลขมี 2 ค่า คือ
1 15,000
• ค่าเฉลีย
่ (Mean) และ ค่ากลาง หรือ มัธยฐาน
8 18,500
(Median)
2 22,000
ค่าเฉลีย
่
ค่ากลางหรือมัธยฐาน
ค่าฐานนิยม
ค่าเบี่ยงเบนมาตรฐาน
ผลรวมของค่าข้อมูล ค่าทีอ
่ ยูต
่ รงกลางหลัง ค่าทีเ่ กิดขึน
้ บ่อยทีส
่ ด
ุ ใน ค่าทีต
่ า
่ งจากค่าเฉลีย
่ เป็น
ทัง
้ หมดหารด้วยจํานวน จากทําการเรียงลําดับ ชุดข้อมูล จํานวนเท่าไร
ข้อมูลทัง
้ หมด ข้อมูลจากน้อยไปมาก
1 6 150 150 2
• ค่าทีเ่ กิดขึน
้ บ่อยสุดในส่วนสูง
2 8 150 155 1
• = 170
3 7 155 160 1
4 9 160 165 1
5 10 165 170 3
6 1 170 180 1
185 1
7 2 170
8 5 170
9 3 180
10 4 185
ข้อมูลเรียงลําดับตามส่วนสูง
จากน้อยไปมาก
Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th
28
Descriptive Statistics: Mode
สําหรับการอบรมหลักสูตร Practical Data Science and Machine Learning
ลําดับ ID นํา
้ หนัก นํา
้ หนัก ความถี่
• Mode ของส่วนสูง
1 6 45 45 1 • ค่าทีเ่ กิดขึน
้ บ่อยสุดในส่วนสูง =
2 7 50 50 3
170
3 8 50 55 1
4 10 50
• Mode ของส่วนนํา
้ หนัก
70 1
5 9 55 75 2 • ค่าทีเ่ กิดขึน
้ บ่อยสุดในส่วนสูง =
6 1 70 80 2 50
7 2 75
8 3 75
9 4 80
10 5 80
ข้อมูลเรียงลําดับตามนํ้าหนัก
จากน้อยไปมาก
Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th
29
Descriptive Statistics
สําหรับการอบรมหลักสูตร Practical Data Science and Machine Learning
• การสรุปค่าสําหรับ 1 ตัวแปร มักจะใช้วธ
ิ ก ่ น
ี ารวัด การหาค่าเข้าสูศ ู ย์กลาง
(measure of central tendency)
ค่าเฉลีย
่
ค่ากลางหรือมัธยฐาน
ค่าฐานนิยม
ค่าเบี่ยงเบนมาตรฐาน
ผลรวมของค่าข้อมูล ค่าทีอ
่ ยูต
่ รงกลางหลัง ค่าทีเ่ กิดขึน
้ บ่อยทีส
่ ด
ุ ใน ค่าทีต
่ า
่ งจากค่าเฉลีย
่ เป็น
ทัง
้ หมดหารด้วยจํานวน จากทําการเรียงลําดับ ชุดข้อมูล จํานวนเท่าไร
ข้อมูลทัง
้ หมด ข้อมูลจากน้อยไปมาก
ข้อมูลเรียงลําดับตามส่วนสูงจากน้อยไปมาก
ลําดับ ID นํา
้ หนัก ผลต่าง
• Standard Deviation ของส่วนสูง
1 6 45 45 - 63 = -18
• √[(-15.5)2+(-15.5)2 + … + ]/10
2 7 50 50 - 63 = -13
• = 1.28
3 8 50 50 - 63 = -13
7 2 75 75 - 63 = 12
• = 3.45
8 3 75 75 - 63 = 12
9 4 80 80 - 63 = 17
10 5 80 80 - 63 = 17
ข้อมูลเรียงลําดับตามนํ้าหนักจากน้อยไปมาก
Descriptive Statistics
สําหรับการอบรมหลักสูตร Practical Data Science and Machine Learning
• ถ้าการกระจายตัวของข้อมูลเป็นแบบ Normal Distribution แล้วจะมีคณุ สมบัติ
ข้อมูลออกเป็น 2 ส่วน
• ค่าเฉลีย
่ (mean), ค่ามัธยฐาน (median) และค่าฐานนิยม (mode) จะอยูต
่ า
ํ แหน่ง
เดียวกัน
+/- 1 ช่วงเบีย
่ งเบนมาตรฐาน
+/- 3 ช่วงเบีย
่ งเบนมาตรฐาน
Rank-Ordered Statistics
สําหรับการอบรมหลักสูตร Practical Data Science and Machine Learning
ลําดับ ID ส่วนสูง • ตัวอย่างการหาค่า Quartile
1 6 150
Percentile Quartile Value
2 8 150
0th 0th 150
3 7 155
25th 1st 156.25
4 9 160
50th 2nd 167.5
5 10 165
75th 3rd 170
6 1 170
100th 4th 185
7 2 170
8 5 170
9 3 180
10 4 185
9 25,000
75th 3rd 35,000
3 30,000
100th 4th 10,000,000
7 30,000
6 35,000
10 35,000
5 45,000
11 10,000,000
Rank-Ordered Statistics
สําหรับการอบรมหลักสูตร Practical Data Science and Machine Learning
• ใช้ในการหา Outlier (ข้อมูลทีผ
่ ด
ิ ปกติ) ได้
• วิธก
ี าร Inter Quartile Range (IQR)
• โดยที่ IQR = Q3 - Q1
• ค่าทีน
่ อ
้ ยกว่า Q1 - 1.5 * IQR และ
• ค่าทีม
่ ากกว่า Q3 + 1.5 * IQR
7 30,000 • มีคา
่ น้อยกว่า 23,500 - 1.5 * 11,500 = 5,750
6 35,000
• มีคา
่ มากกว่า 35,000 + 1.5 * 11,500 = 52,250
10 35,000
5 45,000
• ดังนัน
้ ข้อมูลหมายเลขที่ 11 ซึง
่ มีคา
่ 10,000,000
Correlation
สําหรับการอบรมหลักสูตร Practical Data Science and Machine Learning
— Investopedia
(https://www.investopedia.com/terms/c/correlation.asp)
“ ค่าสหสัมพันธ์เป็นสถิตซ
ิ ง
ึ่ วัดความเกีย
่ วข้องกันของตัวแปร 2 ตัวแปรว่า
ไปในทิศทางเดียวกันหรือไม่ ถ้าไปในทางเดียวกันถือว่ามีคา
่ สหสัมพันธ์เชิง
บวก แต่ถา
้ ไปในทางตรงกันข้ามถือว่ามีคา
่ สหสัมพันธ์เชิงลบ”
• แสดงได้ดง
ั ในสมการ
โดยที่
Correlation
สําหรับการอบรมหลักสูตร Practical Data Science and Machine Learning
ส่วนสูง
ID ส่วนสูง นํา
้ หนัก 190
180
75, 180
2 170 75
170
3 180 75 70, 170 75, 170 80, 170
50, 165
4 185 80 160
55, 160
9 160 55 Correlation
10 165 50
0.879
• โยนเหรียญบาท (มีหว
ั และก้อย)
• โอกาสได้หว
ั มีคา
่ ความน่าจะเป็น 1/2 = 0.5
• โอกาสได้กอ
้ ย มีคา
่ ความน่าจะเป็น 1/2 = 0.5
all email (100 ฉบับ)
• ความน่าจะเป็นของการพบ spam email
spam
normal
• มี email ทัง
้ หมด 100 ฉบับ
(20 ฉบับ)
• มี spam email ทัง
้ หมด 20 ฉบับ (80 ฉบับ)
• โอกาสที่ emai จะเป็น spam มีความน่าจะเป็น 20/100 = 0.2 หรือ P(spam) = 0.2
• โอกาสที่ emai จะเป็น normal มีความน่าจะเป็น 80/100 = 0.8 หรือ P(normal) = 0.8
Probability
สําหรับการอบรมหลักสูตร Practical Data Science and Machine Learning
• Joint Probability
• ความน่าจะเป็นทีม
่ ค
ี า
ํ ว่า Free อยูใ่ น spam email spam
Free
normal
(20 ฉบับ)
• สัญลักษณ์ P(Free=Y ∩ spam) (80 ฉบับ)
ความน่าจะเป็นทีเ่ ป็น
ความน่าจะเป็นทีม
่ ค
ี า
ํ ว่า
spam email
Free ใน normal email
ความน่าจะเป็นทีม
่ ค
ี า
ํ ว่า