Basic Stat 2p

สถิตพ
ิ น ํ หรับ 
ื้ ฐานสา
Machine Learning
Eakasit Pacharawongsakda, Ph.D.

eakasit@datacubeth.ai
Co-Founder and Data Science Team Lead 
Cube Analytics Consulting Co., Ltd.
About us
สําหรับการอบรมหลักสูตร Practical Data Science and Machine Learning
• ั ดา
ชื่อ: เอกสิทธิ์ พัชรวงศ์ศก
• การศึกษา:
• ปริญญาเอก วิทยาการคอมพิวเตอร์  
ิ น
สถาบันเทคโนโลยีนานาชาติสร ิ ธร (SIIT) มหาวิทยาลัยธรรมศาสตร์
• ปริญญาโท วิศวกรรมคอมพิวเตอร์ มหาวิทยาลัยเกษตรศาสตร์
• ปริญญาตรี วิศวกรรมคอมพิวเตอร์ มหาวิทยาลัยเกษตรศาสตร์  

(เกียรตินย
ิ มอันดับ 2)
• ประสบการณ์
• Certified RapidMiner Expert and Ambassador
• Research Collaboration with Western Digital (Thailand) เฟสที่ 1 ระยะเวลา 6 เดือน
• ร่วมวิจย
ั โครงการสํารวจข้อมูลเพือ
่ การวิเคราะห์พฤติกรรมของนักท่องเทีย
่ วเชิงลึก ด้วยวิธก
ี ารทําเหมืองข้อมูล
การท่องเทีย
่ วแห่งประเทศไทย (ททท)
• วิทยากรอบรมการใช้งานซอฟต์แวร์ open source ทางด้าน data mining
Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th

2
About us
• \
RapidMiner Analyst
Certification
This is to Certify that
Eakasit Pacharawongsakda
Successfully passed the examination for the Certified RapidMiner Analyst.
The RapidMiner Analyst certification level is designed for individuals who wish to demonstrate
a fundamental understanding of how RapidMiner software works and is used.
Certified Analyst professionals will be able to prepare data and create predictive models in
standard data environments typically found within most analyst positions.
The candidate has proven the ability to:

Prepare data Build predictive models
Evaluate the model’s quality Score new data sets
Deploy data mining models
With:
RapidMiner Studio RapidMiner Server
Date: August 13, 2014 3
About us
• \

4
About us

5
About us

6
About us

7
About us

8
About us

9
About us

10
About us

11
About Data Cube

Focused on training/implementation related to 

Founded on
Data Science / AI
2013 Machine Learning /  
Big Data
100+
public/in-house 
47,000+
training classes people like Facebook page

12
About us
• หนังสือ Big Data และ Machine Learning ฉบับภาษาไทย

13
About us
• หนังสือ Data Mining ฉบับภาษาไทย

14
Basic Statistics
• สถิติ (Statistics) หมายถึง ตัวเลขทีแ
่ สดงข้อเท็จจริงเกีย
่ วกับเรือ
่ งใดเรือ
่ งหนึ่ง
• สถิตท
ิ แ
ี่ สดงปริมาณนํา
้ ฝน
• สถิตอ
ิ บ
ุ ต
ั เิ หตุ
• สถิติ (Statistics) หมายถึง ศาสตร์ หรือหลักการและระเบียบวิธีทางสถิตท

ิ ว
ี่ า
่
ด้วย
• การเก็บรวบรวมข้อมูล
• การนําเสนอข้อมูล
• การวิเคราะห์ขอ
้ มูล
• การตีความหมายข้อมูล

15
ฺBasic Statistics
• สถิตจ
ิ ะแบ่งได้เป็น 2 ประเภทใหญ่ๆ คือ
• สถิตพ
ิ รรณนา (Descriptive Statistics)
• สถิตเิ ชิงอนุมาน (Inferential Statistics)

16
ฺBasic Statistics
• สถิตพ
ิ รรณนา (Descriptive Statistics)
• การบรรยายลักษณะของข้อมูล (Data) ทีถ

่ ก
ู เก็บรวบรวมจากประชากรหรือกลุม
่
ตัวอย่างทีส
่ นใจ ซึง
่ อาจจะแสดงในรูป
• ค่าเฉลีย
่ (Mean)
• ค่ามัธยฐาน (Median)
• ค่าฐานนิยม (Mode)
• ส่วนเบีย
่ งเบนมาตรฐาน (Deviation)
• ความแปรปรวน (Variance)

17
ฺBasic Statistics
• สถิตเิ ชิงอนุมาน (Inferential Statistics)
• สถิตท
ิ ว
ี่ า
่ ด้วยการวิเคราะห์ขอ
้ มูลทีร
่ วบรวมมาจากกลุม
่ ตัวอย่าง เพือ
่ อธิบาย
สรุปลักษณะบางประการของประชากร โดยมีการนําทฤษฎีความน่าจะเป็นมา
ประยุกต์ใช้ สถิตส
ิ าขานี้ ได้แก่
• การประมาณค่าทางสถิติ
• การทดสอบสมมุตฐ
ิ านทางสถิติ
• การวิเคราะห์การถดถอยและสหสัมพันธ์

18
Descriptive Statistics
• การสรุปค่าสําหรับ 1 ตัวแปร มักจะใช้วธ
ิ ก ่ น
ี ารวัด การหาค่าเข้าสูศ ู ย์กลาง
(measure of central tendency)
ค่าเฉลีย
่   ค่ากลางหรือมัธยฐาน  ค่าฐานนิยม  ค่าเบี่ยงเบนมาตรฐาน 
(Mean) (Median) (Mode) (Standard Deviation)
ผลรวมของค่าข้อมูล ค่าทีอ
่ ยูต
่ รงกลางหลัง ค่าทีเ่ กิดขึน
้ บ่อยทีส
่ ด
ุ ใน ค่าทีต
่ า
่ งจากค่าเฉลีย
่ เป็น
ทัง
้ หมดหารด้วยจํานวน จากทําการเรียงลําดับ ชุดข้อมูล จํานวนเท่าไร
ข้อมูลทัง
้ หมด ข้อมูลจากน้อยไปมาก
x1 + x2 + x3 + … + xN (x1 - x)2 + (x2 - x)2 + …

N N

19
• ข้อมูลตัวอย่าง
ID ส่วนสูง นํา
้ หนัก
1 170 70
2 170 75
3 180 75
1 2 3 4 5
4 185 80
5 170 80
6 150 45
7 155 50
8 150 50
6 7 8 9 10
9 160 55
10 165 50

20
ิ ก ่ น
่ ยูต
่ ด
่ า
่ เป็น
ทัง
x1 + x2 + x3 + … + xN (x1 - x)2 + (x2 - x)2 + …

N N

21
Descriptive Statistics: Mean

้ หนัก • ค่าเฉลีย
่ (Mean) ของส่วนสูง
1 170 70
• (170+170+180+ … + 165)/10 = 165.5
2 170 75
3 180 75 • ค่าเฉลีย
่ (Mean) ของนํา
้ หนัก
4 185 80
• (70+75+75+ … + 50)/10 = 63
5 170 80
6 150 45
7 155 50
8 150 50
9 160 55
10 165 50

22
ิ ก ่ น
่ ยูต
่ ด
่ า
่ เป็น
ทัง
x1 + x2 + x3 + … + xN (x1 - x)2 + (x2 - x)2 + …

N N

23
Descriptive Statistics: Median

ลําดับ ID นํา
้ หนัก
• ค่ากลาง (Median)
ลําดับ ID ส่วนสูง
1 6 150 1 6 45 • เริม
่ จากเรียงลําดับข้อมูลจากน้อยสุด
2 8 150 2 7 50 ไปหามากสุด
3 7 155 3 8 50 • ค่ากลาง คือ ค่าทีอ

่ ยูต
่ รงกลางหลัง
4 9 160 4 10 50 จากเรียงลําดับได้แล้ว
5 10 165 5 9 55 • ในกรณีขอ
้ มูลมีจา
ํ นวนเป็นเลขคี่ เช่น
6 1 170 6 1 70 3, 5, 7 ค่ากลางคือค่าทีอ
่ ยูต
่ รงกลาง
เช่น ข้อมูลลําดับที่ 2, 3 และ 4 ตาม
7 2 170 7 2 75
ลําดับ
8 5 170 8 3 75
• ในกรณีทเี่ ป็นเลขคู่ เช่น 8 หรือ 10
9 3 180 9 4 80
ต้องหาค่าเฉลีย
่ ของลําดับข้อมูลทีอ
่ ยู่
10 4 185 10 5 80
ตรงกลาง ได้แก่ ข้อมูลลําดับที่ 4 และ
ข้อมูลเรียงลําดับตามส่วนสูง  ข้อมูลเรียงลําดับตามนํ้าหนัก  5 และข้อมูลลําดับที่ 5 และ 6 ตาม
จากน้อยไปมาก จากน้อยไปมาก ลําดับ

24
Descriptive Statistics: Median
ลําดับ ID ส่วนสูง ลําดับ ID นํา

้ หนัก • ค่ากลาง (Median) ของส่วนสูง
1 6 150 1 6 45
่ ของข้อมูลลําดับที่  
2 8 150 2 7 50
5 และ 6
3 7 155 3 8 50
• (165+170)/2 = 167.5
4 9 160 4 10 50
5 10 165 5 9 55 • ค่ากลาง (Median) ของนํา

้ หนัก
6 1 170 6 1 70
่ ของข้อมูลลําดับที่  
7 2 170 7 2 75
5 และ 6
8 5 170 8 3 75
9 3 180 9 4 80 • (55+70)/2 = 62.5
10 4 185 10 5 80
ข้อมูลเรียงลําดับตามส่วนสูง  ข้อมูลเรียงลําดับตามนํ้าหนัก 
จากน้อยไปมาก จากน้อยไปมาก

25
ID รายได้ (บาท) • ค่ากลางสําหรับข้อมูลทีเ่ ป็นตัวเลขมี 2 ค่า คือ
1 15,000
่ (Mean) และ ค่ากลาง หรือ มัธยฐาน
8 18,500
(Median)
2 22,000
4 25,000 • ข้อเสียของ ค่าเฉลีย

่ (Mean) จะอ่อนไหวกับ
9 25,000 ค่าทีเ่ ป็น outlier หรือค่าทีส

่ ง
ู หรือน้อยกว่า
3 30,000 ปกติ เช่น ในตารางจะได้ ค่าเฉลีย

่ (mean)
7 30,000 ของรายได้เท่ากับ 934,591 บาท
6 35,000
• แต่คา
่ มัธยฐาน (Median) จะไม่ออ
่ นไหวกับ
10 35,000
ค่า Ouliter ดังนัน
้ ค่ามัธยฐานของรายได้จะ
5 45,000
เท่ากับ 30,000 บาท ซึง
่ เป็นตัวแทนของราย
11 10,000,000
ได้คนส่วนใหญ่มากกว่า

26
ิ ก ่ น
่ ยูต
่ ด
่ า
่ เป็น
ทัง
x1 + x2 + x3 + … + xN (x1 - x)2 + (x2 - x)2 + …

N N

27
Descriptive Statistics: Mode

ลําดับ ID ส่วนสูง ส่วนสูง ความถี่

• Mode ของส่วนสูง
1 6 150 150 2
• ค่าทีเ่ กิดขึน
้ บ่อยสุดในส่วนสูง
2 8 150 155 1
• = 170
3 7 155 160 1
4 9 160 165 1
5 10 165 170 3
6 1 170 180 1
185 1
7 2 170
8 5 170
9 3 180
10 4 185
ข้อมูลเรียงลําดับตามส่วนสูง 
จากน้อยไปมาก
28
Descriptive Statistics: Mode
้ หนัก นํา
้ หนัก ความถี่
• Mode ของส่วนสูง
1 6 45 45 1 • ค่าทีเ่ กิดขึน
้ บ่อยสุดในส่วนสูง =
2 7 50 50 3
170
3 8 50 55 1
4 10 50
• Mode ของส่วนนํา
้ หนัก
70 1
5 9 55 75 2 • ค่าทีเ่ กิดขึน
้ บ่อยสุดในส่วนสูง =
6 1 70 80 2 50
7 2 75
8 3 75
9 4 80
10 5 80
ข้อมูลเรียงลําดับตามนํ้าหนัก 
จากน้อยไปมาก
29
ิ ก ่ น
่ ยูต
่ ด
่ า
่ เป็น
ทัง
x1 + x2 + x3 + … + xN (x1 - x)2 + (x2 - x)2 + …

N N

30
Descriptive Statistics: STDEV
ลําดับ ID ส่วนสูง ผลต่าง

• Standard Deviation ของส่วนสูง
1 6 150 150 - 165.5 = -15.5

• √[(-15.5)2+(-15.5)2 + … + ]/10
2 8 150 150 - 165.5 = -15.5
• = 1.28
3 7 155 155 - 165.5 = -10.5
4 9 160 160 - 165.5 = -5.5
5 10 165 165 - 165.5 = -0.5
6 1 170 170 - 165.5 = 4.5
7 2 170 170 - 165.5 = 4.5
8 5 170 170 - 165.5 = 4.5
9 3 180 180 - 165.5 = 14.5
10 4 185 185 - 165.5 = 19.5
ข้อมูลเรียงลําดับตามส่วนสูงจากน้อยไปมาก

31
Descriptive Statistics: STDEV

้ หนัก ผลต่าง
• Standard Deviation ของส่วนสูง
1 6 45 45 - 63 = -18
• √[(-15.5)2+(-15.5)2 + … + ]/10
2 7 50 50 - 63 = -13
• = 1.28
3 8 50 50 - 63 = -13
4 10 50 50 - 63 = -13 • Standard Deviation ของนํา

้ หนัก
5 9 55 55 - 63 = -8
• √[(-18)2+(-13)2 + … +172 ]/10
6 1 70 70 - 63 = 7
7 2 75 75 - 63 = 12
• = 3.45
8 3 75 75 - 63 = 12
9 4 80 80 - 63 = 17
10 5 80 80 - 63 = 17
ข้อมูลเรียงลําดับตามนํ้าหนักจากน้อยไปมาก

32
• สามารถ plot การกระจายตัวของข้อมูลในรูปแบบของ curve ได้โดยทัว
่ ไปเรา
อยากให้ขอ
้ มูลอยูใ่ นรูปแบบของ Normal Distribution หรือรูประฆังควํา
่
image source: https://analystprep.com/cfa-level-1-exam/quantitative-methods/key-properties-normal-distribution/

33
• ถ้าการกระจายตัวของข้อมูลเป็นแบบ Normal Distribution แล้วจะมีคณุ สมบัติ
• มีการกระจายตัวแบบสมมาตร (symmetric) โดยมีค่าเฉลีย

่ (mean) เป็นตัวแบ่ง
ข้อมูลออกเป็น 2 ส่วน
่ (mean), ค่ามัธยฐาน (median) และค่าฐานนิยม (mode) จะอยูต
่ า
ํ แหน่ง
เดียวกัน
• ข้อมูลประมาณ 68% จะอยูใ่ นช่วงค่าเฉลีย

่  
+/- 1 ช่วงเบีย
่ งเบนมาตรฐาน

่  

่  
image source: https://analystprep.com/cfa-level-1-exam/quantitative-methods/key-properties-normal-distribution/

34
Rank-Ordered Statistics
• แสดงการกระจายตัวของข้อมูลโดยเรียงข้อมูลตามลําดับจากน้อยไปมาก
• Percentile หรือ Quartile จะเป็นการบอกว่ามีค่าทีน

่ ้อยกว่าค่า ณ ตําแหน่งนี้คิด
เป็นกี่ % หรือกีส ่ น
่ ว
Percentile Quartile Metric
0th 0th ค่าน้อยสุด (minimum)
25th 1st จํานวนทีน

่ อ
้ ยกว่า 25% จะเรียกว่า 1st quartile
50th 2nd จํานวนทีน

่ อ
้ ยกว่า 50% จะเรียกว่า 2nd quartile ซึง
่ ก็คอ
ื ค่า median
75th 3rd จํานวนทีน

่ อ
้ ยกว่า 75% จะเรียกว่า 3rd quartile
100th 4th ค่ามากสุด (maximum)

35
ลําดับ ID ส่วนสูง • ตัวอย่างการหาค่า Quartile
1 6 150
Percentile Quartile Value
2 8 150
0th 0th 150
3 7 155
25th 1st 156.25
4 9 160
50th 2nd 167.5
5 10 165
75th 3rd 170
6 1 170
100th 4th 185
7 2 170
8 5 170
9 3 180
10 4 185

36
• ตัวอย่างการหาค่า Quartile
ID รายได้ (บาท)
1 15,000 Percentile Quartile Value
8 18,500 0th 0th 15,000
2 22,000 25th 1st 23,500
4 25,000 50th 2nd 30,000
9 25,000
75th 3rd 35,000
3 30,000
100th 4th 10,000,000
7 30,000
6 35,000
10 35,000
5 45,000
11 10,000,000

37
• ใช้ในการหา Outlier (ข้อมูลทีผ
่ ด
ิ ปกติ) ได้
• วิธก
ี าร Inter Quartile Range (IQR)
• โดยที่ IQR = Q3 - Q1
• ค่าทีเ่ ป็น outlier คือ
• ค่าทีน
่ อ
้ ยกว่า Q1 - 1.5 * IQR และ
• ค่าทีม
่ ากกว่า Q3 + 1.5 * IQR
image source: https://naysan.ca/2020/06/28/interquartile-range-iqr-to-detect-outliers/

38
• ตัวอย่างการหา Outlier ด้วยวิธก
ี าร IQR
ID รายได้ (บาท)
Percentile Quartile Value
1 15,000
25th 1st quartile 23,500
8 18,500
75th 3rd quartile 35,000
2 22,000
4 25,000 • IQR = Q3 - Q1 = 35,000 - 23,500 = 11,500

9 25,000
• ข้อมูลทีเ่ ป็น outlier คือจํานวน
3 30,000
7 30,000 • มีคา
่ น้อยกว่า 23,500 - 1.5 * 11,500 = 5,750
6 35,000
• มีคา
่ มากกว่า 35,000 + 1.5 * 11,500 = 52,250
10 35,000
5 45,000
• ดังนัน
้ ข้อมูลหมายเลขที่ 11 ซึง
่ มีคา
่ 10,000,000
11 10,000,000 ถือว่าเป็น outlier

39
Correlation
“ Correlation is a statistic that measures the degree to which  

two variables move in relation to each other.  
 
If the two variables move in the same direction, then those  
variables are said to have a positive correlation. If they move in  
opposite directions, then they have a negative correlation.”
— Investopedia  
(https://www.investopedia.com/terms/c/correlation.asp)
“ ค่าสหสัมพันธ์เป็นสถิตซ
ิ ง
ึ่ วัดความเกีย
่ วข้องกันของตัวแปร 2 ตัวแปรว่า 
ไปในทิศทางเดียวกันหรือไม่ ถ้าไปในทางเดียวกันถือว่ามีคา
่ สหสัมพันธ์เชิง 
บวก แต่ถา
้ ไปในทางตรงกันข้ามถือว่ามีคา
่ สหสัมพันธ์เชิงลบ”

40
Correlation
• Correlation จะแสดงด้วยค่า Correlation Coefficient หรือค่าสัมประสิทธิ ์
สหสัมพันธ์
• แสดงได้ดง
ั ในสมการ
โดยที่
• rxy คือ ค่าสัมประสิทธิส

์ หสัมพันธ์ (correlation coefficient)
• xi และ yi คือ ข้อมูลของตัวแปร x และตัวแปร y ในลําดับที่ i
• x และ y คือ ค่าเฉลีย

่ ของตัวแปร x และตัวแปร y

41
Correlation
ส่วนสูง
้ หนัก 190
1 170 70 80, 185
180
75, 180
2 170 75
170
3 180 75 70, 170 75, 170 80, 170
50, 165
4 185 80 160
55, 160
5 170 80 50, 155

150
6 150 45
45, 150 50, 150
7 155 50 140 นํา

้ หนัก
40 50 60 70 80
8 150 50
9 160 55 Correlation
10 165 50
0.879

42
Probability
• ความน่าจะเป็น (probability)
• โอกาสทีเ่ กิดเหตุการณ์จากเหตุการณ์ทง ั ลักษณ์ P() หรือ Pr()

ั้ หมด ใช้สญ
• โยนเหรียญบาท (มีหว
ั และก้อย)
• โอกาสได้หว
ั มีคา
่ ความน่าจะเป็น 1/2 = 0.5
• โอกาสได้กอ
้ ย มีคา
่ ความน่าจะเป็น 1/2 = 0.5
all email (100 ฉบับ)
• ความน่าจะเป็นของการพบ spam email
spam  normal 
• มี email ทัง
้ หมด 100 ฉบับ
(20 ฉบับ)
• มี spam email ทัง
้ หมด 20 ฉบับ (80 ฉบับ)
• มี normal email ทัง

้ หมด 80 ฉบับ
• โอกาสที่ emai จะเป็น spam มีความน่าจะเป็น 20/100 = 0.2 หรือ P(spam) = 0.2
• โอกาสที่ emai จะเป็น normal มีความน่าจะเป็น 80/100 = 0.8 หรือ P(normal) = 0.8

43
Probability
• Joint Probability
• ความน่าจะเป็นที่ 2 เหตุการณ์เกิดร่วมกัน all email (100 ฉบับ)
• ความน่าจะเป็นทีม
่ ค
ี า
ํ ว่า Free อยูใ่ น spam email spam  Free
normal 
(20 ฉบับ)
• สัญลักษณ์ P(Free=Y ∩ spam) (80 ฉบับ)
ความน่าจะเป็นทีเ่ ป็น  
ความน่าจะเป็นทีม
่ ค
ี า
ํ ว่า
spam email
Free ใน normal email
ความน่าจะเป็นทีม
่ ค
ี า
ํ ว่า
Free ใน spam email

44

Basic Stat 2p

Uploaded by

Copyright:

Available Formats

You might also like

Basic Stat 2p

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Basic Stat 2p

Uploaded by

Copyright:

Available Formats

สถิตพ

Eakasit Pacharawongsakda, Ph.D.

• ปริญญาโท วิศวกรรมคอมพิวเตอร์ มหาวิทยาลัยเกษตรศาสตร์

• ปริญญาตรี วิศวกรรมคอมพิวเตอร์ มหาวิทยาลัยเกษตรศาสตร์

• Certified RapidMiner Expert and Ambassador

• Research Collaboration with Western Digital (Thailand) เฟสที่ 1 ระยะเวลา 6 เดือน

• วิทยากรอบรมการใช้งานซอฟต์แวร์ open source ทางด้าน data mining

Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th

The candidate has proven the ability to:

Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th

Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th

Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th

Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th

Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th

Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th

Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th

Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th

About Data Cube

Focused on training/implementation related to

Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th

Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th

Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th

• สถิติ (Statistics) หมายถึง ศาสตร์ หรือหลักการและระเบียบวิธีทางสถิตท

Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th

• สถิตเิ ชิงอนุมาน (Inferential Statistics)

Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th

• การบรรยายลักษณะของข้อมูล (Data) ทีถ

Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th

Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th

(Mean) (Median) (Mode) (Standard Deviation)

x1 + x2 + x3 + … + xN (x1 - x)2 + (x2 - x)2 + …

Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th

Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th

(Mean) (Median) (Mode) (Standard Deviation)

x1 + x2 + x3 + … + xN (x1 - x)2 + (x2 - x)2 + …

Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th

Descriptive Statistics: Mean

Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th

(Mean) (Median) (Mode) (Standard Deviation)

x1 + x2 + x3 + … + xN (x1 - x)2 + (x2 - x)2 + …

Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th

Descriptive Statistics: Median

3 7 155 3 8 50 • ค่ากลาง คือ ค่าทีอ

ข้อมูลเรียงลําดับตามส่วนสูง ข้อมูลเรียงลําดับตามนํ้าหนัก 5 และข้อมูลลําดับที่ 5 และ 6 ตาม

จากน้อยไปมาก จากน้อยไปมาก ลําดับ

ลําดับ ID ส่วนสูง ลําดับ ID นํา

5 10 165 5 9 55 • ค่ากลาง (Median) ของนํา

9 3 180 9 4 80 • (55+70)/2 = 62.5

Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th

4 25,000 • ข้อเสียของ ค่าเฉลีย

9 25,000 ค่าทีเ่ ป็น outlier หรือค่าทีส

3 30,000 ปกติ เช่น ในตารางจะได้ ค่าเฉลีย

Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th

(Mean) (Median) (Mode) (Standard Deviation)

x1 + x2 + x3 + … + xN (x1 - x)2 + (x2 - x)2 + …

Copyright © 2021 Cube Analytics Consulting Co., Ltd. http://facebook.com/datacube.th

Descriptive Statistics: Mode

ลําดับ ID ส่วนสูง ส่วนสูง ความถี่

• ปริญญาตรี วิศวกรรมคอมพิวเตอร์ มหาวิทยาลัยเกษตรศาสตร์  

Focused on training/implementation related to 

ข้อมูลเรียงลําดับตามส่วนสูง  ข้อมูลเรียงลําดับตามนํ้าหนัก  5 และข้อมูลลําดับที่ 5 และ 6 ตาม

“ Correlation is a statistic that measures the degree to which