Basic Stat 2p

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 22

สถิตพ

ิ น ํ หรับ

ื้ ฐานสา
Machine Learning

Eakasit Pacharawongsakda, Ph.D.


eakasit@datacubeth.ai
Co-Founder and Data Science Team Lead

Cube Analytics Consulting Co., Ltd.

About us
สําหรับการอบรมหลักสูตร Practical Data Science and Machine Learning
• ั ดา
ชื่อ: เอกสิทธิ์ พัชรวงศ์ศก

• การศึกษา:

• ปริญญาเอก วิทยาการคอมพิวเตอร์ 


ิ น
สถาบันเทคโนโลยีนานาชาติสร ิ ธร (SIIT) มหาวิทยาลัยธรรมศาสตร์

• ปริญญาโท วิศวกรรมคอมพิวเตอร์ มหาวิทยาลัยเกษตรศาสตร์

• ปริญญาตรี วิศวกรรมคอมพิวเตอร์ มหาวิทยาลัยเกษตรศาสตร์ 



(เกียรตินย
ิ มอันดับ 2)

• ประสบการณ์

• Certified RapidMiner Expert and Ambassador

• Research Collaboration with Western Digital (Thailand) เฟสที่ 1 ระยะเวลา 6 เดือน

• ร่วมวิจย
ั โครงการสํารวจข้อมูลเพือ
่ การวิเคราะห์พฤติกรรมของนักท่องเทีย
่ วเชิงลึก ด้วยวิธก
ี ารทําเหมืองข้อมูล

การท่องเทีย
่ วแห่งประเทศไทย (ททท)

• วิทยากรอบรมการใช้งานซอฟต์แวร์ open source ทางด้าน data mining

Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th


2
About us
สําหรับการอบรมหลักสูตร Practical Data Science and Machine Learning
• \

RapidMiner Analyst
Certification
This is to Certify that
Eakasit Pacharawongsakda
Successfully passed the examination for the Certified RapidMiner Analyst.

The RapidMiner Analyst certification level is designed for individuals who wish to demonstrate
a fundamental understanding of how RapidMiner software works and is used.

Certified Analyst professionals will be able to prepare data and create predictive models in
standard data environments typically found within most analyst positions.

The candidate has proven the ability to:


 Prepare data  Build predictive models
 Evaluate the model’s quality  Score new data sets
 Deploy data mining models

With:
 RapidMiner Studio  RapidMiner Server
Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th
Date: August 13, 2014 3

About us
สําหรับการอบรมหลักสูตร Practical Data Science and Machine Learning
• \

Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th


4
About us
สําหรับการอบรมหลักสูตร Practical Data Science and Machine Learning

Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th


5

About us
สําหรับการอบรมหลักสูตร Practical Data Science and Machine Learning

Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th


6
About us
สําหรับการอบรมหลักสูตร Practical Data Science and Machine Learning

Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th


7

About us
สําหรับการอบรมหลักสูตร Practical Data Science and Machine Learning

Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th


8
About us
สําหรับการอบรมหลักสูตร Practical Data Science and Machine Learning

Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th


9

About us
สําหรับการอบรมหลักสูตร Practical Data Science and Machine Learning

Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th


10
About us
สําหรับการอบรมหลักสูตร Practical Data Science and Machine Learning

Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th


11

About Data Cube


สําหรับการอบรมหลักสูตร Practical Data Science and Machine Learning

Focused on training/implementation related to



Founded on
Data Science / AI
2013 Machine Learning / 

Big Data

100+
public/in-house

47,000+
training classes people like Facebook page

Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th


12
About us
สําหรับการอบรมหลักสูตร Practical Data Science and Machine Learning
• หนังสือ Big Data และ Machine Learning ฉบับภาษาไทย

Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th


13

About us
สําหรับการอบรมหลักสูตร Practical Data Science and Machine Learning
• หนังสือ Data Mining ฉบับภาษาไทย

Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th


14
Basic Statistics
สําหรับการอบรมหลักสูตร Practical Data Science and Machine Learning
• สถิติ (Statistics) หมายถึง ตัวเลขทีแ
่ สดงข้อเท็จจริงเกีย
่ วกับเรือ
่ งใดเรือ
่ งหนึ่ง

• สถิตท
ิ แ
ี่ สดงปริมาณนํา
้ ฝน

• สถิตอ
ิ บ
ุ ต
ั เิ หตุ

• สถิติ (Statistics) หมายถึง ศาสตร์ หรือหลักการและระเบียบวิธีทางสถิตท


ิ ว
ี่ า

ด้วย

• การเก็บรวบรวมข้อมูล

• การนําเสนอข้อมูล

• การวิเคราะห์ขอ
้ มูล

• การตีความหมายข้อมูล

Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th


15

ฺBasic Statistics
สําหรับการอบรมหลักสูตร Practical Data Science and Machine Learning
• สถิตจ
ิ ะแบ่งได้เป็น 2 ประเภทใหญ่ๆ คือ

• สถิตพ
ิ รรณนา (Descriptive Statistics)

• สถิตเิ ชิงอนุมาน (Inferential Statistics)

Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th


16
ฺBasic Statistics
สําหรับการอบรมหลักสูตร Practical Data Science and Machine Learning
• สถิตพ
ิ รรณนา (Descriptive Statistics)

• การบรรยายลักษณะของข้อมูล (Data) ทีถ


่ ก
ู เก็บรวบรวมจากประชากรหรือกลุม

ตัวอย่างทีส
่ นใจ ซึง
่ อาจจะแสดงในรูป

• ค่าเฉลีย
่ (Mean)

• ค่ามัธยฐาน (Median)

• ค่าฐานนิยม (Mode)

• ส่วนเบีย
่ งเบนมาตรฐาน (Deviation)

• ความแปรปรวน (Variance)

Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th


17

ฺBasic Statistics
สําหรับการอบรมหลักสูตร Practical Data Science and Machine Learning
• สถิตเิ ชิงอนุมาน (Inferential Statistics)

• สถิตท
ิ ว
ี่ า
่ ด้วยการวิเคราะห์ขอ
้ มูลทีร
่ วบรวมมาจากกลุม
่ ตัวอย่าง เพือ
่ อธิบาย
สรุปลักษณะบางประการของประชากร โดยมีการนําทฤษฎีความน่าจะเป็นมา
ประยุกต์ใช้ สถิตส
ิ าขานี้ ได้แก่

• การประมาณค่าทางสถิติ

• การทดสอบสมมุตฐ
ิ านทางสถิติ

• การวิเคราะห์การถดถอยและสหสัมพันธ์

Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th


18
Descriptive Statistics
สําหรับการอบรมหลักสูตร Practical Data Science and Machine Learning
• การสรุปค่าสําหรับ 1 ตัวแปร มักจะใช้วธ
ิ ก ่ น
ี ารวัด การหาค่าเข้าสูศ ู ย์กลาง
(measure of central tendency)

ค่าเฉลีย
่ 
 ค่ากลางหรือมัธยฐาน
 ค่าฐานนิยม
 ค่าเบี่ยงเบนมาตรฐาน


(Mean) (Median) (Mode) (Standard Deviation)

ผลรวมของค่าข้อมูล ค่าทีอ
่ ยูต
่ รงกลางหลัง ค่าทีเ่ กิดขึน
้ บ่อยทีส
่ ด
ุ ใน ค่าทีต
่ า
่ งจากค่าเฉลีย
่ เป็น
ทัง
้ หมดหารด้วยจํานวน จากทําการเรียงลําดับ ชุดข้อมูล จํานวนเท่าไร

ข้อมูลทัง
้ หมด ข้อมูลจากน้อยไปมาก

x1 + x2 + x3 + … + xN (x1 - x)2 + (x2 - x)2 + …


N N

Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th


19

Descriptive Statistics
สําหรับการอบรมหลักสูตร Practical Data Science and Machine Learning
• ข้อมูลตัวอย่าง

ID ส่วนสูง นํา
้ หนัก

1 170 70

2 170 75

3 180 75

1 2 3 4 5
4 185 80

5 170 80

6 150 45

7 155 50

8 150 50
6 7 8 9 10
9 160 55

10 165 50

Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th


20
Descriptive Statistics
สําหรับการอบรมหลักสูตร Practical Data Science and Machine Learning
• การสรุปค่าสําหรับ 1 ตัวแปร มักจะใช้วธ
ิ ก ่ น
ี ารวัด การหาค่าเข้าสูศ ู ย์กลาง
(measure of central tendency)

ค่าเฉลีย
่ 
 ค่ากลางหรือมัธยฐาน
 ค่าฐานนิยม
 ค่าเบี่ยงเบนมาตรฐาน


(Mean) (Median) (Mode) (Standard Deviation)

ผลรวมของค่าข้อมูล ค่าทีอ
่ ยูต
่ รงกลางหลัง ค่าทีเ่ กิดขึน
้ บ่อยทีส
่ ด
ุ ใน ค่าทีต
่ า
่ งจากค่าเฉลีย
่ เป็น
ทัง
้ หมดหารด้วยจํานวน จากทําการเรียงลําดับ ชุดข้อมูล จํานวนเท่าไร

ข้อมูลทัง
้ หมด ข้อมูลจากน้อยไปมาก

x1 + x2 + x3 + … + xN (x1 - x)2 + (x2 - x)2 + …


N N

Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th


21

Descriptive Statistics: Mean


สําหรับการอบรมหลักสูตร Practical Data Science and Machine Learning
ID ส่วนสูง นํา
้ หนัก • ค่าเฉลีย
่ (Mean) ของส่วนสูง
1 170 70
• (170+170+180+ … + 165)/10 = 165.5
2 170 75

3 180 75 • ค่าเฉลีย
่ (Mean) ของนํา
้ หนัก
4 185 80
• (70+75+75+ … + 50)/10 = 63
5 170 80

6 150 45

7 155 50

8 150 50

9 160 55

10 165 50

Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th


22
Descriptive Statistics
สําหรับการอบรมหลักสูตร Practical Data Science and Machine Learning
• การสรุปค่าสําหรับ 1 ตัวแปร มักจะใช้วธ
ิ ก ่ น
ี ารวัด การหาค่าเข้าสูศ ู ย์กลาง
(measure of central tendency)

ค่าเฉลีย
่ 
 ค่ากลางหรือมัธยฐาน
 ค่าฐานนิยม
 ค่าเบี่ยงเบนมาตรฐาน


(Mean) (Median) (Mode) (Standard Deviation)

ผลรวมของค่าข้อมูล ค่าทีอ
่ ยูต
่ รงกลางหลัง ค่าทีเ่ กิดขึน
้ บ่อยทีส
่ ด
ุ ใน ค่าทีต
่ า
่ งจากค่าเฉลีย
่ เป็น
ทัง
้ หมดหารด้วยจํานวน จากทําการเรียงลําดับ ชุดข้อมูล จํานวนเท่าไร

ข้อมูลทัง
้ หมด ข้อมูลจากน้อยไปมาก

x1 + x2 + x3 + … + xN (x1 - x)2 + (x2 - x)2 + …


N N

Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th


23

Descriptive Statistics: Median


สําหรับการอบรมหลักสูตร Practical Data Science and Machine Learning

ลําดับ ID นํา
้ หนัก
• ค่ากลาง (Median)
ลําดับ ID ส่วนสูง

1 6 150 1 6 45 • เริม
่ จากเรียงลําดับข้อมูลจากน้อยสุด

2 8 150 2 7 50 ไปหามากสุด

3 7 155 3 8 50 • ค่ากลาง คือ ค่าทีอ


่ ยูต
่ รงกลางหลัง

4 9 160 4 10 50 จากเรียงลําดับได้แล้ว

5 10 165 5 9 55 • ในกรณีขอ
้ มูลมีจา
ํ นวนเป็นเลขคี่ เช่น

6 1 170 6 1 70 3, 5, 7 ค่ากลางคือค่าทีอ
่ ยูต
่ รงกลาง
เช่น ข้อมูลลําดับที่ 2, 3 และ 4 ตาม
7 2 170 7 2 75
ลําดับ
8 5 170 8 3 75
• ในกรณีทเี่ ป็นเลขคู่ เช่น 8 หรือ 10
9 3 180 9 4 80
ต้องหาค่าเฉลีย
่ ของลําดับข้อมูลทีอ
่ ยู่
10 4 185 10 5 80
ตรงกลาง ได้แก่ ข้อมูลลําดับที่ 4 และ

ข้อมูลเรียงลําดับตามส่วนสูง
 ข้อมูลเรียงลําดับตามนํ้าหนัก
 5 และข้อมูลลําดับที่ 5 และ 6 ตาม

จากน้อยไปมาก จากน้อยไปมาก ลําดับ


Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th
24
Descriptive Statistics: Median
สําหรับการอบรมหลักสูตร Practical Data Science and Machine Learning

ลําดับ ID ส่วนสูง ลําดับ ID นํา


้ หนัก • ค่ากลาง (Median) ของส่วนสูง

1 6 150 1 6 45
• ค่าเฉลีย
่ ของข้อมูลลําดับที่ 

2 8 150 2 7 50
5 และ 6
3 7 155 3 8 50
• (165+170)/2 = 167.5
4 9 160 4 10 50

5 10 165 5 9 55 • ค่ากลาง (Median) ของนํา


้ หนัก
6 1 170 6 1 70
• ค่าเฉลีย
่ ของข้อมูลลําดับที่ 

7 2 170 7 2 75
5 และ 6
8 5 170 8 3 75

9 3 180 9 4 80 • (55+70)/2 = 62.5

10 4 185 10 5 80

ข้อมูลเรียงลําดับตามส่วนสูง
 ข้อมูลเรียงลําดับตามนํ้าหนัก


จากน้อยไปมาก จากน้อยไปมาก

Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th


25

Descriptive Statistics
สําหรับการอบรมหลักสูตร Practical Data Science and Machine Learning
ID รายได้ (บาท) • ค่ากลางสําหรับข้อมูลทีเ่ ป็นตัวเลขมี 2 ค่า คือ
1 15,000
• ค่าเฉลีย
่ (Mean) และ ค่ากลาง หรือ มัธยฐาน
8 18,500
(Median)
2 22,000

4 25,000 • ข้อเสียของ ค่าเฉลีย


่ (Mean) จะอ่อนไหวกับ

9 25,000 ค่าทีเ่ ป็น outlier หรือค่าทีส


่ ง
ู หรือน้อยกว่า

3 30,000 ปกติ เช่น ในตารางจะได้ ค่าเฉลีย


่ (mean)
7 30,000 ของรายได้เท่ากับ 934,591 บาท
6 35,000
• แต่คา
่ มัธยฐาน (Median) จะไม่ออ
่ นไหวกับ
10 35,000
ค่า Ouliter ดังนัน
้ ค่ามัธยฐานของรายได้จะ
5 45,000
เท่ากับ 30,000 บาท ซึง
่ เป็นตัวแทนของราย
11 10,000,000
ได้คนส่วนใหญ่มากกว่า

Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th


26
Descriptive Statistics
สําหรับการอบรมหลักสูตร Practical Data Science and Machine Learning
• การสรุปค่าสําหรับ 1 ตัวแปร มักจะใช้วธ
ิ ก ่ น
ี ารวัด การหาค่าเข้าสูศ ู ย์กลาง
(measure of central tendency)

ค่าเฉลีย
่ 
 ค่ากลางหรือมัธยฐาน
 ค่าฐานนิยม
 ค่าเบี่ยงเบนมาตรฐาน


(Mean) (Median) (Mode) (Standard Deviation)

ผลรวมของค่าข้อมูล ค่าทีอ
่ ยูต
่ รงกลางหลัง ค่าทีเ่ กิดขึน
้ บ่อยทีส
่ ด
ุ ใน ค่าทีต
่ า
่ งจากค่าเฉลีย
่ เป็น
ทัง
้ หมดหารด้วยจํานวน จากทําการเรียงลําดับ ชุดข้อมูล จํานวนเท่าไร

ข้อมูลทัง
้ หมด ข้อมูลจากน้อยไปมาก

x1 + x2 + x3 + … + xN (x1 - x)2 + (x2 - x)2 + …


N N

Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th


27

Descriptive Statistics: Mode


สําหรับการอบรมหลักสูตร Practical Data Science and Machine Learning

ลําดับ ID ส่วนสูง ส่วนสูง ความถี่


• Mode ของส่วนสูง

1 6 150 150 2
• ค่าทีเ่ กิดขึน
้ บ่อยสุดในส่วนสูง
2 8 150 155 1
• = 170
3 7 155 160 1

4 9 160 165 1

5 10 165 170 3

6 1 170 180 1

185 1
7 2 170

8 5 170

9 3 180

10 4 185

ข้อมูลเรียงลําดับตามส่วนสูง


จากน้อยไปมาก
Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th
28
Descriptive Statistics: Mode
สําหรับการอบรมหลักสูตร Practical Data Science and Machine Learning

ลําดับ ID นํา
้ หนัก นํา
้ หนัก ความถี่
• Mode ของส่วนสูง

1 6 45 45 1 • ค่าทีเ่ กิดขึน
้ บ่อยสุดในส่วนสูง =
2 7 50 50 3
170
3 8 50 55 1

4 10 50
• Mode ของส่วนนํา
้ หนัก
70 1

5 9 55 75 2 • ค่าทีเ่ กิดขึน
้ บ่อยสุดในส่วนสูง =
6 1 70 80 2 50
7 2 75

8 3 75

9 4 80

10 5 80

ข้อมูลเรียงลําดับตามนํ้าหนัก


จากน้อยไปมาก
Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th
29

Descriptive Statistics
สําหรับการอบรมหลักสูตร Practical Data Science and Machine Learning
• การสรุปค่าสําหรับ 1 ตัวแปร มักจะใช้วธ
ิ ก ่ น
ี ารวัด การหาค่าเข้าสูศ ู ย์กลาง
(measure of central tendency)

ค่าเฉลีย
่ 
 ค่ากลางหรือมัธยฐาน
 ค่าฐานนิยม
 ค่าเบี่ยงเบนมาตรฐาน


(Mean) (Median) (Mode) (Standard Deviation)

ผลรวมของค่าข้อมูล ค่าทีอ
่ ยูต
่ รงกลางหลัง ค่าทีเ่ กิดขึน
้ บ่อยทีส
่ ด
ุ ใน ค่าทีต
่ า
่ งจากค่าเฉลีย
่ เป็น
ทัง
้ หมดหารด้วยจํานวน จากทําการเรียงลําดับ ชุดข้อมูล จํานวนเท่าไร

ข้อมูลทัง
้ หมด ข้อมูลจากน้อยไปมาก

x1 + x2 + x3 + … + xN (x1 - x)2 + (x2 - x)2 + …


N N

Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th


30
Descriptive Statistics: STDEV
สําหรับการอบรมหลักสูตร Practical Data Science and Machine Learning

ลําดับ ID ส่วนสูง ผลต่าง


• Standard Deviation ของส่วนสูง

1 6 150 150 - 165.5 = -15.5


• √[(-15.5)2+(-15.5)2 + … + ]/10
2 8 150 150 - 165.5 = -15.5
• = 1.28
3 7 155 155 - 165.5 = -10.5

4 9 160 160 - 165.5 = -5.5

5 10 165 165 - 165.5 = -0.5

6 1 170 170 - 165.5 = 4.5

7 2 170 170 - 165.5 = 4.5

8 5 170 170 - 165.5 = 4.5

9 3 180 180 - 165.5 = 14.5

10 4 185 185 - 165.5 = 19.5

ข้อมูลเรียงลําดับตามส่วนสูงจากน้อยไปมาก

Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th


31

Descriptive Statistics: STDEV


สําหรับการอบรมหลักสูตร Practical Data Science and Machine Learning

ลําดับ ID นํา
้ หนัก ผลต่าง
• Standard Deviation ของส่วนสูง

1 6 45 45 - 63 = -18
• √[(-15.5)2+(-15.5)2 + … + ]/10
2 7 50 50 - 63 = -13
• = 1.28
3 8 50 50 - 63 = -13

4 10 50 50 - 63 = -13 • Standard Deviation ของนํา


้ หนัก
5 9 55 55 - 63 = -8
• √[(-18)2+(-13)2 + … +172 ]/10
6 1 70 70 - 63 = 7

7 2 75 75 - 63 = 12
• = 3.45

8 3 75 75 - 63 = 12

9 4 80 80 - 63 = 17

10 5 80 80 - 63 = 17

ข้อมูลเรียงลําดับตามนํ้าหนักจากน้อยไปมาก

Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th


32
Descriptive Statistics
สําหรับการอบรมหลักสูตร Practical Data Science and Machine Learning
• สามารถ plot การกระจายตัวของข้อมูลในรูปแบบของ curve ได้โดยทัว
่ ไปเรา
อยากให้ขอ
้ มูลอยูใ่ นรูปแบบของ Normal Distribution หรือรูประฆังควํา

image source: https://analystprep.com/cfa-level-1-exam/quantitative-methods/key-properties-normal-distribution/


Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th
33

Descriptive Statistics
สําหรับการอบรมหลักสูตร Practical Data Science and Machine Learning
• ถ้าการกระจายตัวของข้อมูลเป็นแบบ Normal Distribution แล้วจะมีคณุ สมบัติ

• มีการกระจายตัวแบบสมมาตร (symmetric) โดยมีค่าเฉลีย


่ (mean) เป็นตัวแบ่ง

ข้อมูลออกเป็น 2 ส่วน

• ค่าเฉลีย
่ (mean), ค่ามัธยฐาน (median) และค่าฐานนิยม (mode) จะอยูต
่ า
ํ แหน่ง
เดียวกัน

• ข้อมูลประมาณ 68% จะอยูใ่ นช่วงค่าเฉลีย


่ 


+/- 1 ช่วงเบีย
่ งเบนมาตรฐาน

• ข้อมูลประมาณ 95% จะอยูใ่ นช่วงค่าเฉลีย


่ 

+/- 2 ช่วงเบีย
่ งเบนมาตรฐาน

• ข้อมูลประมาณ 99% จะอยูใ่ นช่วงค่าเฉลีย


่ 


+/- 3 ช่วงเบีย
่ งเบนมาตรฐาน

image source: https://analystprep.com/cfa-level-1-exam/quantitative-methods/key-properties-normal-distribution/


Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th
34
Rank-Ordered Statistics
สําหรับการอบรมหลักสูตร Practical Data Science and Machine Learning
• แสดงการกระจายตัวของข้อมูลโดยเรียงข้อมูลตามลําดับจากน้อยไปมาก

• Percentile หรือ Quartile จะเป็นการบอกว่ามีค่าทีน


่ ้อยกว่าค่า ณ ตําแหน่งนี้คิด
เป็นกี่ % หรือกีส ่ น
่ ว

Percentile Quartile Metric

0th 0th ค่าน้อยสุด (minimum)

25th 1st จํานวนทีน


่ อ
้ ยกว่า 25% จะเรียกว่า 1st quartile

50th 2nd จํานวนทีน


่ อ
้ ยกว่า 50% จะเรียกว่า 2nd quartile ซึง
่ ก็คอ
ื ค่า median

75th 3rd จํานวนทีน


่ อ
้ ยกว่า 75% จะเรียกว่า 3rd quartile

100th 4th ค่ามากสุด (maximum)

Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th


35

Rank-Ordered Statistics
สําหรับการอบรมหลักสูตร Practical Data Science and Machine Learning
ลําดับ ID ส่วนสูง • ตัวอย่างการหาค่า Quartile
1 6 150
Percentile Quartile Value
2 8 150
0th 0th 150
3 7 155
25th 1st 156.25
4 9 160
50th 2nd 167.5
5 10 165
75th 3rd 170
6 1 170
100th 4th 185
7 2 170

8 5 170

9 3 180

10 4 185

Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th


36
Rank-Ordered Statistics
สําหรับการอบรมหลักสูตร Practical Data Science and Machine Learning
• ตัวอย่างการหาค่า Quartile
ID รายได้ (บาท)

1 15,000 Percentile Quartile Value

8 18,500 0th 0th 15,000

2 22,000 25th 1st 23,500

4 25,000 50th 2nd 30,000

9 25,000
75th 3rd 35,000

3 30,000
100th 4th 10,000,000

7 30,000

6 35,000

10 35,000

5 45,000

11 10,000,000

Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th


37

Rank-Ordered Statistics
สําหรับการอบรมหลักสูตร Practical Data Science and Machine Learning
• ใช้ในการหา Outlier (ข้อมูลทีผ
่ ด
ิ ปกติ) ได้

• วิธก
ี าร Inter Quartile Range (IQR)

• โดยที่ IQR = Q3 - Q1

• ค่าทีเ่ ป็น outlier คือ

• ค่าทีน
่ อ
้ ยกว่า Q1 - 1.5 * IQR และ

• ค่าทีม
่ ากกว่า Q3 + 1.5 * IQR

image source: https://naysan.ca/2020/06/28/interquartile-range-iqr-to-detect-outliers/


Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th
38
Rank-Ordered Statistics
สําหรับการอบรมหลักสูตร Practical Data Science and Machine Learning
• ตัวอย่างการหา Outlier ด้วยวิธก
ี าร IQR
ID รายได้ (บาท)
Percentile Quartile Value
1 15,000
25th 1st quartile 23,500
8 18,500
75th 3rd quartile 35,000
2 22,000

4 25,000 • IQR = Q3 - Q1 = 35,000 - 23,500 = 11,500


9 25,000
• ข้อมูลทีเ่ ป็น outlier คือจํานวน
3 30,000

7 30,000 • มีคา
่ น้อยกว่า 23,500 - 1.5 * 11,500 = 5,750

6 35,000
• มีคา
่ มากกว่า 35,000 + 1.5 * 11,500 = 52,250
10 35,000

5 45,000
• ดังนัน
้ ข้อมูลหมายเลขที่ 11 ซึง
่ มีคา
่ 10,000,000

11 10,000,000 ถือว่าเป็น outlier

Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th


39

Correlation
สําหรับการอบรมหลักสูตร Practical Data Science and Machine Learning

“ Correlation is a statistic that measures the degree to which 



two variables move in relation to each other. 


If the two variables move in the same direction, then those 

variables are said to have a positive correlation. If they move in 

opposite directions, then they have a negative correlation.”

— Investopedia 

(https://www.investopedia.com/terms/c/correlation.asp)

“ ค่าสหสัมพันธ์เป็นสถิตซ
ิ ง
ึ่ วัดความเกีย
่ วข้องกันของตัวแปร 2 ตัวแปรว่า

ไปในทิศทางเดียวกันหรือไม่ ถ้าไปในทางเดียวกันถือว่ามีคา
่ สหสัมพันธ์เชิง

บวก แต่ถา
้ ไปในทางตรงกันข้ามถือว่ามีคา
่ สหสัมพันธ์เชิงลบ”

Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th


40
Correlation
สําหรับการอบรมหลักสูตร Practical Data Science and Machine Learning
• Correlation จะแสดงด้วยค่า Correlation Coefficient หรือค่าสัมประสิทธิ
์
สหสัมพันธ์

• แสดงได้ดง
ั ในสมการ

โดยที่

• rxy คือ ค่าสัมประสิทธิส


์ หสัมพันธ์ (correlation coefficient)

• xi และ yi คือ ข้อมูลของตัวแปร x และตัวแปร y ในลําดับที่ i

• x และ y คือ ค่าเฉลีย


่ ของตัวแปร x และตัวแปร y

Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th


41

Correlation
สําหรับการอบรมหลักสูตร Practical Data Science and Machine Learning
ส่วนสูง

ID ส่วนสูง นํา
้ หนัก 190

1 170 70 80, 185

180
75, 180

2 170 75
170
3 180 75 70, 170 75, 170 80, 170

50, 165
4 185 80 160
55, 160

5 170 80 50, 155


150
6 150 45
45, 150 50, 150

7 155 50 140 นํา


้ หนัก
40 50 60 70 80
8 150 50

9 160 55 Correlation
10 165 50
0.879

Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th


42
Probability
สําหรับการอบรมหลักสูตร Practical Data Science and Machine Learning
• ความน่าจะเป็น (probability)

• โอกาสทีเ่ กิดเหตุการณ์จากเหตุการณ์ทง ั ลักษณ์ P() หรือ Pr()


ั้ หมด ใช้สญ

• โยนเหรียญบาท (มีหว
ั และก้อย)

• โอกาสได้หว
ั มีคา
่ ความน่าจะเป็น 1/2 = 0.5

• โอกาสได้กอ
้ ย มีคา
่ ความน่าจะเป็น 1/2 = 0.5
all email (100 ฉบับ)
• ความน่าจะเป็นของการพบ spam email
spam
 normal

• มี email ทัง
้ หมด 100 ฉบับ
(20 ฉบับ)
• มี spam email ทัง
้ หมด 20 ฉบับ (80 ฉบับ)

• มี normal email ทัง


้ หมด 80 ฉบับ

• โอกาสที่ emai จะเป็น spam มีความน่าจะเป็น 20/100 = 0.2 หรือ P(spam) = 0.2

• โอกาสที่ emai จะเป็น normal มีความน่าจะเป็น 80/100 = 0.8 หรือ P(normal) = 0.8

Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th


43

Probability
สําหรับการอบรมหลักสูตร Practical Data Science and Machine Learning
• Joint Probability

• ความน่าจะเป็นที่ 2 เหตุการณ์เกิดร่วมกัน all email (100 ฉบับ)

• ความน่าจะเป็นทีม
่ ค
ี า
ํ ว่า Free อยูใ่ น spam email spam
 Free
normal

(20 ฉบับ)
• สัญลักษณ์ P(Free=Y ∩ spam) (80 ฉบับ)

ความน่าจะเป็นทีเ่ ป็น 

ความน่าจะเป็นทีม
่ ค
ี า
ํ ว่า
spam email
Free ใน normal email

ความน่าจะเป็นทีม
่ ค
ี า
ํ ว่า

Free ใน spam email

Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th


44

You might also like