MATERI WEBINAR DATA ANALYTICS by KMTI UMS

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 82

DATA

ANALYTICS
DI
ERA DIGITAL
DISAMPAIKAN PADA KEGIATAN
TAMBA ATI KMTI, 29 JUNI 2020

UNIVERSITAS MUHAMMADIYAH
SURAKARTA
What is Data ?
Data Science vs Big Data vs Data Analytics
#1 What is
• Mining large amounts of structured and unstructured data to identify patterns
• Includes a combination of programming, statistical skills, machine learning and algorithms
(Simplilearn, https://www.youtube.com/user/Simplilearn)

Data science is a set of fundamental principles that guide the extraction of knowledge from
data. (Provost, F., & Fawcett, T. (2013). Data Science for Business: What you need to know
about data mining and data-analytic thinking. " O'Reilly Media, Inc.".)

Ilmu pengetahuan interdisiplin tentang metode komputasi untuk mendapatkan


wawasan berharga yang dapat ditindaklanjuti dari kumpulan data yang mencakup tiga
fase yaitu desain data, mengumpulkan data, dan analisis data.
(Hayashi, C., Yajima, K., Bock, H. H., Ohsumi, N., Tanaka, Y., & Baba, Y. (Eds.). (2013))
#1 What is

• Refers to humongous volumes of data


• Includes capturing data, data storage,
data sharing, data querying
(Simplilearn,
https://www.youtube.com/user/Simplilearn)
#1 What is

• Process and performs statistical analysis of data


• Discover how data can be used to draw conclusions and solve problems
(Simplilearn, https://www.youtube.com/user/Simplilearn)
#2 What They Do
#2 What They Do
Big Data Professional
#2 What They Do
Data Analyst
#3 Why Data Analytics?
Dan Zarrella is the award-winning social media scientist and author of four books:
“The Science of Marketing,” “Zarrella’s Hierarchy of Contagiousness,” “The Social
Media Marketing Book” and The Facebook Marketing Book.
From Data into Insight

Synthesis Conclusion &


Process Recommendation

Data Processing
Finding
& Analysis

Data Collection Data


Data Analyst Skills
Skill #1 - Statistics
Statistics
Is a branch of mathematics dealing with data collection and organization, analysis, interpretation and
presentation

CATEGORIES IN STATISTICS
Categories in Statistics - Descriptive
Statistics
Descriptive statistics uses the data to provide descriptions of the population, either through
numerical calculations or graphs or tables
Categories in Statistics - Descriptive
Statistics - Measures of Center
Categories in Statistics - Descriptive
Statistics - Measures of Spread

Range is the given Inter Quartile Range (IQR) Variance describes how Standard Deviation is
measure of how spread is the measure of much a random the measure of the
apart are the values in variability, based on variable differs from its dispersion of a set of
dividing a dataset into
a dataset quartile
expected value. It data from its mean.
----- ---- entails computing 1
Range = Max (Xn) – Min (Xn) 1 2|3 4|5 6|7 8 squares of deviations
Q1 Q2 Q3

Inter Quartile Standard


Range Variance
Range Deviation

12|34|56|78
2.5 4.5 6.5
Categories in Statistics – Inferential
Statistics
Inferential Statistics generalize a large dataset and applies probability to draw a conclusion. It allows
us to infer data parameters based on a statistical model using a sample data
Categories in Statistics – Inferential
Statistics – Hypothesis Testing
Statisticians use hypothesis testing to formally check whether the hypothesis is accepted or rejected

Hypothesis testing is conducted in the following manner :


Descriptive vs Inferential Statistics
Skill #2 – Data Cleaning & EDA
Data Cleaning & Manipulation
Exploratory Data Analysis (EDA)
• Exploratory data analysis (EDA) is an approach to analyzing data sets to summarize their main
characteristics, often with visual methods.
• EDA adalah bagian dari proses data science, dan menjadi sangat penting sebelum melakukan
feature engineering dan modeling karena dalam tahap ini kita harus memahami datanya terlebih
dahulu.
• EDA memungkinkan analyst memahami isi data yang digunakan, mulai dari distribusi, frekuensi,
korelasi dan lainnya. Dalam prakteknya, curiousity sangat penting dalam proses ini, pemahaman
konteks data juga diperhatikan, karena akan menjawab masalah masalah dasar.
• Pada umumnya EDA dilakukan dengan beberapa cara :
• Univariat Analysis — analisis deskriptif dengan satu variabel.
• Bivariat Analysis — analisis relasi dengan dua variabel yang biasanya dengan target variabel.
• Multivariat Analysis — analisis yang menggunakan lebih dari atau sama dengan tiga variabel.

https://en.wikipedia.org/wiki/Exploratory_data_analysis
https://medium.com/data-folks-indonesia/memahami-data-dengan-exploratory-data-analysis-a53b230cce84
Posisi EDA dalam Data Science

https://medium.com/data-folks-indonesia/memahami-data-dengan-exploratory-data-analysis-a53b230cce84
Exploratory Data Analysis (EDA)
EXAMPLE

• Menggambarkan seberapa
banyak missing value di setiap
variable
• PoolQC merupakan yang paling
banyak missingnya
• Nilai N/A dalam PoolQC artinya
‘No Pool’, maka dapat nilai
missing tersebut dapat diisi
dengan ‘None’
• Variabel-variabel yang
mempunyai missing value dapat
diisi dengan ‘None’ atau Nilai
Mean

https://medium.com/data-folks-indonesia/memahami-data-dengan-exploratory-data-analysis-a53b230cce84
Skill #3 – Data Visualization
Data Visualization
Data visualization is the representation of data inform of charts, diagram etc
BIG DATA ANALYTICS
BIG DATA EKOSISTEM
Corporate Data Science Process
BIG DATA EKOSISTEM -GOJEK-
https://www.slideshare.net/TechInAsiaID/building-data-foundations-and-analytics-tools-across-the-product-by-crystal-widjaja-gojek
#Proses 1
#Proses 2
#Proses 3
#Proses 4
Data Mining vs Data Analysis
https://www.educba.com/data-mining-vs-data-analysis/
https://www.educba.com/data-mining-vs-data-analysis/
https://www.educba.com/data-mining-vs-data-analysis/
Data Analytics Tools
Data Analytics Tools
Simple Data Analysis
using Excel
Data

https://www.kaggle.com/keyizhang14/superstore
Using Pivot to Analyze Data
Data Visualization
CRISP - DM
CRISP DM
Cross-industry standard process for data mining is an open
standard process model that describes common
approaches used by data mining experts. It is the most
widely-used analytics model
Business Understanding (1)
Mengidentifikasi, mendefiniskan dan motivasi masalah
• Persaingan di dunia bisnis, khususnya dalam industri retail, menuntut para pengembang untuk
menemukan suatu strategi yang dapat meningkatkan penjualan retail dengan memaksimalkan
pelayanan kepada konsumen
• Salah satu caranya adalah dengan tetap tersedianya berbagai jenis produk dirak dan digudang
stores dan management rak di stores

Solusi data mining

• Untuk mengetahui produk apa saja yang dibeli oleh para konsumen, dapat dilakukan dengan
menggunakan teknik analisis keranjang pasar (market basket) yaitu analisis dari kebiasaan membeli
konsumen. Pendeteksian mengenai produk yang sering terbeli secara bersamaan disebut aturan
asosiasi (association rule). Proses pencarian asosiasi atau hubungan antar item data ini diambil dari
suatu basis data relasional. Proses tersebut dapat menggunakan algoritma apriori.
Business Understanding (2)
Keputusan bisnis yang akan didukung oleh solusi ini
• Optimalisasi sistem persediaan (warehouse) di Stores mengenai
kebutuhan ketersediaan produk.
.
Jenis persoalan
• Termasuk dalam klasifikasi : Jenis dan Kategori produk,
• Perangkingan : Mencari kombinasi dengan pola frekuensi tinggi
• Pendugaan nilai Probalibilitas : Memprediksi kemungkinan
kombinasi Jenis/ Kategori produk yang akan terjadi untuk
menentukan ketersediaan stock produk
Data Understanding (1)
The Superstore data set comes with Tableau. It contains information about products, sales, profits, and so on that you can
use to identify key areas for improvement within this fictitious company.
https://www.kaggle.com/keyizhang14/superstore
Data Understanding (2)
Available features (Descriptive Analysis):
Features Description Features Description
Row ID Running Number Postal Code 1040 – 99300
Order ID 5009 unique values Region 4 unique values
Order Date 03 Jan 15 – 30 Dec 18 Product ID 1862 unique values
Ship Date 07 Jan 15 – 05 Jan 19 Category 3 unique values
Ship Mode 4 unique values Sub-Category 17 unique values
Customer ID 793 unique values Product Name 1850 unique values
Customer Name 793 unique values Sales 0.44 – 22600
Segment 3 unique values Quantity 1 – 14
Country 1 unique value Discount 0 – 0.8
City 531 unique values Profit -6599.978 - 8399.976
State 49 unique values
Data Understanding (2)
Selected features (Descriptive Analysis):
Features Value(s) Minimum Maximum Mean StdDev Instances
Consumer 0.444 13999.96 223.7336 585.4597 5191
Segment Corporate 0.556 17499.95 233.8233 599.3111 3020
Home Office 0.99 22638.48 240.9720 755.3044 1783
Central 0.444 17499.95 215.7726 632.6427 2323
East 0.852 11199.968 238.3361 620.6036 2848
Region
South 1.167 22638.48 241.8036 774.5571 1620
West 0.99 13999.96 226.4932 524.7949 3203
Furniture 1.892 4416.174 349.8348 503.0605 2121
Category Office Supplies 0.444 9892.74 119.3241 382.1505 6026
Technology 0.99 22638.48 452.7092 1108.3551 1847
Data Preparation
1. Data selection
•Pemilihan (seleksi) data dari sekumpulan data operasional perlu dilakukan sebelum tahap penggalian informasi dalam
knowledge discovery in database (KDD) dimulai. Data hasil seleksi yang akan digunakan untuk proses data mining,
disimpan dalam suatu berkas, terpisah dari basis data operasional.
2. Pre-processing/Cleaning
•Sebelum proses data mining dapat dilaksanakan, perlu dilakukan proses cleaning pada data yang menjadi fokus KDD.
Proses cleaning mencakup antara lain membuang duplikasi data, memeriksa data yang inkonsisten, dan memperbaikin
kesalahan pada data, seperti kesalahan cetak (tipografi). Juga dilakukan proses enrichment, yaitu proses “memperkaya”
data yang sudah ada dengan data atau informasi lain yang relevan dan diperlukan untuk KDD, seperti data atau informasi
eksternal.
•Beberapa metode yang sudah dilakukan seperti :
•Adding or Dropping features
•Combining multiple features into one feature
•Binning: Replace for more broad value
•Removing Unicode characters
•Remove single product/transaction
•Convert feature value Numeric to Nominal
Data Preparation
Estimated Important Features
3. Transformation (Association):
Order ID (String)
•Coding adalah proses transformation pada data yang City (String)
telah dipilih, sehingga data tersebut sesuai dengan State (String)
untuk proses data mining. Proses coding dalam KDD Sub-Category (String)
Sub-Sub-Category (String) New
merupakan proses kreatif dan sangat bergantung pada Product Name (String)
jenis dan pola informasi yang akan dicari dalam basis
data. Estimated Important Features
•Metode yang dilakukan adalah One-hot encoding (Regression):
•Hal yang perlu diperhatikan dalam step ini adalah Order Date (Date)
Curse of Dimensionality Segment (String)
Region (String)
•Tools yang digunakan pada tahap ini adalah MySql Category (String)
Modelling (Association Rule)
Model asosiasi dalam data mining adalah menemukan attribut yang
muncul dalam satu waktu. Dalam dunia bisnis lebih umum disebut
analisis keranjang belanja. Contoh asosiasi dalam bisnis dan penelitian
adalah:
◦ Meneliti jumlah pelanggan dari perusahaan telekomunikasi seluler yang
diharapkan untuk memberikan respon positif terhadap penawaran upgrade
layanan yang diberikan.
◦ Menentukan barang dalam supermarket yang dibeli secara bersamaan dan
yang tidak pernah dibeli secara bersamaan.

Jenis Algoritma Model Association Rules : AIS, SETM, FPGrowth & Apriori

Algoritma model asosiasi yang digunakan dalam studi ini adalah Algoritma
Apriori. Algoritma apriori adalah algoritma yang paling terkenal untuk
menemukan pola frekuensi tinggi.
Evaluation (Association Rule)
Define Data Training:

Menggunakan data historis slip transaksi yang memiliki kombinasi produk/slip yang diambil secara acak selama 3 tahun (2015 - 2018).

=========

Algorithm: Apriori

Metric Type: Confidence

MinMetric: 0.1

Features: 17

Number of cycles performed: 90

Results (Best rules found):

1. Paper=Y 1741 ==> Binders=Y 825 <conf:(0.47)> lift:(1.41) lev:(0.04) [240] conv:(1.26)

2. Binders=Y 1866 ==> Paper=Y 825 <conf:(0.44)> lift:(1.41) lev:(0.04) [240] conv:(1.23)
Insight
V. CONCLUSION
By using various model algirithm such as association,
classification and regression, we can get better insight from the
dataset. These insight can be delivered into recommendation
for example in this case are; make sure stock of papers are
equal to binders, more innovation to attract more people to buy
item that has the high profit rather than low profit especially in
the south region location and conducted research to know what
was the cause central region suffer losses.
BONUS #1
Machine Learning Process
Machine Learning Techniques
BONUS #2
The Academy (1)
The Academy (2)
BONUS #3
#3 What skills you will need
#4 What your salary will look like
References

https://github.com/imran273

edureka.co, https://edureka.co
Simplilearn, https://www.youtube.com/user/Simplilearn
kaggle, https://www.kaggle.com
https://www.educba.com/data-mining-vs-data-analysis
TERIMA KASIH

You might also like