Big Data

BIG DATA
COMPUTING
BIG DATA COMPUTING OVERVIEW (M1)
TEAM TEACHING UNIVERSITAS GUNADARMA
OUTLINE
• Big Data Applications

• Big Data Computing
• Big Data Technologies
• Big Data Analytics
BIG DATA APPLICATIONS
Finance – Social Media – Retail – Health Insurance – E-Commerce
FINANCIAL DATA (1)
https://eform.bankdki.co.id/consumerloan/new/viewForm.php#
FINANCIAL DATA (2)
FINANCIAL DATA (3)
FINANCIAL DATA (4)
FINANCIAL DATA (5)
SOCIAL MEDIA DATA
http://www.databaseanswers.org/data_models/social_media/index.htm
SOCIAL MEDIA - DESCRIPTIVE ANALYTICS (1)
https://www.datapine.com/blog/wp-content/uploads/2020/03/social-media-report-template-linkedin.jpg
https://www.datapine.com/blog/wp-content/uploads/2019/02/social-media-report-template-twitter.png
https://www.datapine.com/blog/wp-content/uploads/2019/02/social-media-report-youtube.png
https://www.datapine.com/blog/wp-content/uploads/2020/03/youtube-channel-performance-dashboard.png
https://www.datapine.com/blog/wp-content/uploads/2020/03/facebook-post-dashboard.png
https://www.datapine.com/blog/wp-content/uploads/2019/02/social-media-report-facebook.png
RETAIL DATA
http://www.databaseanswers.org/data_models/generic_pos/index.htm
HEALTH INSURANCE DATA
http://www.databaseanswers.org/data_models/health_insurance_claims/data_mart.htm
E-COMMERCE DATA
http://www.webassist.com/tutorials/Free-eCommerce-MySQL-Database
DATA INTEGRATION
Finance
Social
Media Retail
Health
E-Commerce
Insurance
BIG DATA
Name Date Time Age Salary … Post # Like … Amount Point … Treatment Claim …
Handhika 3/7/21 08.00 34 Rp8.000.000 … xxxx 57 … … …
09.25
11.13 Rp98.000 20
… … … … … … … … … … … … … …
Ihsan 3/7/21 07.25 25 Rp20.000.000 … 2344 … … …
14.22 … … MedCheck Rp4.000.000 …
… … … … … … … … … … … … … … …
SAMPLE BIG DATA SOLUTIONS
• Alternative credit scoring

• Targeted advertising
• Customized pricing
• Demand forecasting
• Recommendation engine
• Fraud detection
• Personalized care
• Etc.
BIG DATA COMPUTING
Terminology
DATA (1) – DATA SETS
1. Cios, K. J., Swiniarski, R. W., Pedrycs, W., & Kurgan, L. A. (2007). Data, in Data Mining. Boston: Springer.
2. Sarstedt, M., Ringle, C. M., & Hair, J. F. (2017). Partial Least Squares Structural Equation Modeling, in Handbook of Market Research. Switzerland: Springer.
• A single unit of information is a value of a feature/attribute, where each feature can take a number of different
values.
• There are two key types of values: numerical and symbolic.
• Features (also known as attributes) are usually described by a set of corresponding values.
• Features described by both numerical and symbolic values can be either discrete (categorical) or continuous.
• Objects (also known as records, examples, units, cases, individuals, data points) represent entities described by one or
more features.
• Objects described by the same features are grouped to form data sets.
• Notes: Constructs, also referred to as latent variables, are elements in statistical models that represent
conceptual variables that researchers define in their theoretical models. The indicators, often also named manifest
variables or items, are directly measured or observed variables that represent the raw data. They are linked to
their corresponding constructs. [2]
DATA (2) – DATABASE
Cios, K. J., Swiniarski, R. W., Pedrycs, W., & Kurgan, L. A. (2007). Data, in Data Mining. Boston: Springer.
• Data sets which organized in a rectangularly formatted table composed of rows and columns is called as flat files.
• A polling results (September 2005) performed by KDNuggets: Flat files, which are often extracted from relational databases, were used 26% in the
last 12 months, time series (temporal databases) 13%, text databases 11%, transactional databases 10%, and WWW clickstream data,
spatial databases, and WWW content data 5% each.
• A DataBase Management System (DBMS) provides numerous services, such as the ability to define the structure (schema) of the database,
to store the data, to access the data in concurrent ways (several users may access the data at the same time) and distributed ways (the data are
stored in different locations), and to ensure the security and consistency of the stored data (for instance, to protect against unauthorized access or
a system crash).
• A relational database, the most common database type, consists of a set of tables where each table is rectangular and can be perceived as being
analogous to a single flat file.
• The tables consist of attributes (also called columns or fields) and tuples (also called records and rows).
• Each table is assigned a unique name, and each tuple in a table is assigned a special attribute, called a key, that defines its unique identifiers.
• Relational databases also include the entity-relational (ER) data model, which defines a set of entities (tables, tuples, etc.) and their relationships.
• Another important feature of a DBMS is the availability of a specialized language, called Structured Query Language (SQL), that aims to provide
fast and convenient access to portions of the entire database.
DATA (3) – DATABASE MODEL
• Object-oriented database
• Object-relational database
• Transactional database
• Spatial database
• Temporal database
• Text database
• Multimedia database
• WWW
DATA (4) – DATA WAREHOUSE
• A data warehouse is a repository of data collected in different locations (relational

databases) and stored using a unified schema.
• Data warehouses are usually created by applying a set of processing steps to data coming
from multiple databases, such as data cleaning, data transformation, data
integration, data loading, and periodical data update.
• The objects, described by features, are combined to form data sets, which in turn are
stored as flat (rectangular) files and in other formats using databases and data
warehouses.
DATA (5)
BIG DATA (1) – DIMENSIONS
Kune, R., Konugurthi, P. K., Agarwal, A., Chillarige, R. R., & Buyya, R. (2016). The anatomy of big data computing. Software: Practice and Experience. Vol. 46: pp.
79-105.
BIG DATA (2) – VARIETY & VELOCITY
Assuncāo, M. D., Calheiros, R. N., Bianchi, S., Netto, M. A. S., & Buyya, R. (2015). Big Data computing and clouds: Trends and future directions. Journal of
Parallel and Distributed Computing. vol. 79-80: pp. 3-15.
TRADITIONAL DATA
WAREHOUSING
VS
BIG DATA
Kune, R., Konugurthi, P. K., Agarwal, A.,
Chillarige, R. R., & Buyya, R. (2016).
The anatomy of big data computing.
Software: Practice and Experience. Vol.
46: pp. 79-105.
BIG DATA COMPUTING
Kune, R., Konugurthi, P. K., Agarwal, A., Chillarige, R. R., & Buyya, R. (2016). The anatomy of big data computing. Software: Practice and Experience. Vol. 46: pp.
79-105.
Big data computing is a new paradigm that combines large-scale compute, new data-
intensive techniques, and mathematical models to build data analytics.
BIG DATA TECHNOLOGIES
Storage, Analytics, and Visualization
BIG DATA
COMPONENTS
Kune, R., Konugurthi, P. K., Agarwal, A.,
Chillarige, R. R., & Buyya, R. (2016).
The anatomy of big data computing.
Software: Practice and Experience. Vol.
46: pp. 79-105.
BIG DATA ARCHITECTURE
Prasad, B. R. & Agarwal, S. (2016). Comparative Study of Big Data Computing and Storage Tools: A Review. International Journal of Database Theory and
Application.Vol. 9(1): pp. 45-66.
BIG DATA ECOSYSTEM
https://medium.com/@jain6968/big-data-ecosystem-b0e4c923d7aa
BIG DATA TOOLS (1) – DISTRIBUTED PROCESSING AND STORAGE
Pop, D., Iuhasz, G., & Petcu, D. (2016). Distributed Platforms and Cloud Services: Enabling Machine Learning for Big Data, in Data Science and Big Data
Computing: Frameworks and Methodologies. Switzerland: Springer.
BIG DATA TOOLS
(2) – DISTRIBUTED
MACHINE
LEARNING
FRAMEWORKS
Pop, D., Iuhasz, G., & Petcu, D. (2016).
Distributed Platforms and Cloud
Services: Enabling Machine Learning
for Big Data, in Data Science and Big
Data Computing: Frameworks and
Methodologies. Switzerland: Springer.
BIG DATA TOOLS
(3) – MACHINE
LEARNING AS A
SERVICE
Pop, D., Iuhasz, G., & Petcu, D. (2016).
Distributed Platforms and Cloud
Services: Enabling Machine Learning
for Big Data, in Data Science and Big
Data Computing: Frameworks and
Methodologies. Switzerland: Springer.
DGX A100 (1)
www.nvidia.com/DGXA100
DGX A100 (2)
www.nvidia.com/DGXA100
BIG DATA ANALYTICS
Data Science
BIG DATA ANALYTICS WORKFLOW
BIG DATA ANALYTICS CATEGORIES
DATA SCIENCE
Cleveland, W. S. (2001). Data Science: an Action Plan for Expanding the Technical Areas of the Field of Statistics. International Statistical Review, vol. 69(1):
pp. 21-26.
• The focus of the plan is the practicing data analyst.

• The sets out six technical areas for a university department:
• (25%) Multidisciplinary Investigations: data analysis collaborations in a collection of subject matter areas.
• (20%) Models and Methods for Data: statistical models; methods of model building; methods of estimation and distribution
based on probabilistic inference.
• (15%) Computing with Data: hardware systems; software systems; computation algorithms.
• (15%) Pedagogy: curriculum planning and approaches to teaching for elementary school, secondary school, college, graduate
school, continuing education, and corporate training.
• (5%) Tool Evaluation: surveys of tools in use in practice, surveys of perceived needs for new tools, and studies of the processes
for developing new tools.
• (20%) Theory: foundations of data science; general approaches to models and methods, computing with data, teaching, and tool
evaluation; mathematical investigations of models and methods, computing with data, teaching, and evaluation.
• The outcome of two areas of data science – models and methods, and computing with data – are tools for the data analyst.
METHODOLOGY
1. Data Types 4. Method

• Cross-section • Statistics
• Time-series • Artificial Intelligence
• Panel
5. Approach
2. Problem Formulation • Analytic
• Supervised • Numeric
• Unsupervised • Simulation
• Semi-Supervised
6. Algorithm
• Reinforcement
• Sequential
3. Model • Parallel
a) Deterministic VS Stochastic
b) Static VS Dynamic Notes: GIGO!!
c) Linear VS Non-Linear
DATA PERSPECTIVES
STATISTICS ARTIFICIAL INTELLIGENCE

• Population VS Sample • Training VS Testing
• Generalization (Confidence Interval) • Accuracy (Performance Indicators)
• (Sample) Data • (Big) Data

SAMPLE OUTPUT (1)
SAMPLE OUTPUT (2)
SAMPLE OUTPUT (3)
SAMPLE OUTPUT (4)
SAMPLE OUTPUT (5)
SAMPLE OUTPUT (6)
SAMPLE OUTPUT (7)
SAMPLE OUTPUT (8)
THANKS…
Team Teaching Universitas Gunadarma
Segment 2
Machine Learning &
Predictive Analytics
Use Cases in Business
Galih Permadi
Data Analytics Company

can a machine think?
in 1996, Garry Kasparov was not afraid of a computer, and he won
the next year, he played against a new and improved Deep Blue and lost
When is
Machine Learning
Why the hype is now?
big data analytics, is the culmination
of the machine way of thinking
and thanks to big data technology, now we can immensely
extend our memory and computational power to helped us
answer a lot of questions
do you follow waze instruction during the first one
week?
if you have a waze like apps for giving you direction in
running your company, would you follow them?
can we trust them though?
by tapping social media, a financial institution learns that a married couple just had a child.
Not only can the company congratulate the parents, they can introduce the value of life
insurance or the benefits in setting up a 529 Plan to begin saving for their kid’s college
education.
- Bram Hechtkopf, founding principal of Kobie Marketing.

Customer Analytics
For the bank, integrated

data could means 360
customer view. Which
means the bank could
easily leverage the 360
degree view of customer
profile to expand the
business such as cross-
selling and up-selling –
even cross business units
currently the biggest prescriptive analytics engine: contextual advertising
http://www.flashtalking.com/us/targeted-ads/
another one: marketplace and services
recommendation engine
and
or
Real-Life Business Application
Machine Learning & Predictive Analytics
Airline Dynamic Pricing
Considering high competition of low-cost carrier airline industry in Indonesia, proper pricing strategy is
become more and more essential. Challenges:
• Monitoring competitor’s pricing strategy in more efficient way.
• Difficulty to predict uncommon peak season which leads to overdue pricing adjustment.
Customer Profile
Dynamic Pricing
Pricing Component:
• Internal pricing
• Goverment’s rule
• Competitor’s Pricing recommendation
User Login
Special Offer
engine
pricing Notification
• Calendar activity Loyal Customer
• Market size, etc.
Analyse customer response to enhance

recommendation engine
Predictive Maintenance
• Question to Answer:
• Analytic Process in Azure Machine Learning:
Consume prepared data from
Hive.
Feature selection: exclude
OEEID, Date and Downtime
from dataset
Perform two class neural

network model with
Gaussian normalization to Split data into train and test:
train dataset (already • Train: 18 August 2014 – 31
available in Azure ML). December 2016
• Test: 1 January – 6 April
2017
Train model with down
status as response variable.
Calculate scoring result column

based on the trained model.
Perform the model to test
dataset.
Export data for visualization

using PowerBI.
Applicable to industries using a lot
of machineries with available log
data, we can develop a machine
learning model to predict when a
specific machine will be out of
work and apply preventive
maintenance beforehand.
Our run-in with this challenge was

on an automotive industry,
yielding 80%+ accuracy of the
prediction.
Applicable to industries using a lot • Accuracy looks at ratio of correctly predicted
observations = 80.3%. Using accuracy is only good
of machineries with available log for symmetric dataset (ratio between normal and
data, we can develop a machine down is 50:50).
learning model to predict when a • Precision describe as when it predicts down, how
often it is correct = 60%.
specific machine will be out of • Recall describe as when it’s actually yes, how often
work and apply preventive does it predict yes = 51.1%.
maintenance beforehand. • F1 Score is the weighted average of precision and
recall = 55.2%. This score works best if false positive
and false negative have similar cost.
Our run-in with this challenge was To evaluate the model, we cannot rely on only one
measurement. Tweaking the classifier is a matter of
on an automotive industry, balancing what is more important or more costly for us:
yielding 80%+ accuracy of the
prediction.
Predictive Analytics: Disease Outbreak Prediction
For healthcare and hospital

industry, we create a model to
predict the outbreak of disease
from historical diagnosis data. The
result can be used by hospital to
better plan the inventory,
medicine stocks, and medical
personnel.
TIME PERIODE DISEASE TYPE
Combining both Insurance and Hospital data, we’ll have a very

rich integrated dataset for disease, diagnosis, treatment, and
other supporting variables ready for time-series, trend, and other
analysis
We could see in both helicopter and granular level of the health

condition of Indonesia. This can be beneficial for policy-making
insight as well as preventive and corrective campaigns.
As the by-product of this analysis, the insurance, hospital, and pharma

companies can benefit with this insights. From planning the infrastructure,
catching emerging needs of treatment, and identifying working/non-working
medicing/treatment across the country.
year month tipe_rawat chapter_code
chapter_namebigclass_codebigclass_nametotal pasien obat administrasi jasa sarana jasa perawat akomodasi
2009 5 rawat jalan C00-D48 NeoplasmsC00-C97 Malignant neoplasms 8 NULL - 1,858,716 1,239,144 NULL
2009 5 rawat jalan E00-E90 Endocrine, E40-E46
nutritional and metabolic
Malnutrition
diseases 1 NULL - - - NULL
2009 5 rawat jalan G00-G99 Diseases ofG90-G99
the nervous systemOther disorders of the nervous
1 NULL system NULL 921,600 614,400 NULL
2009 5 rawat jalan H00-H59 Diseases ofH10-H13
the eye and adnexaDisorders of conjunctiva2 NULL NULL 28,800 19,200 NULL
2009 5 rawat jalan J00-J99 Diseases ofJ00-J06
the respiratory system
Acute upper respiratory2infections
NULL - 108,060 72,040 NULL
2009 5 rawat jalan K00-K93 Diseases ofK20-K31
the digestive system
Diseases of oesophagus,2 stomach NULL and duodenumNULL 13,800 9,200 NULL
2009 5 rawat jalan L00-L99 Diseases ofL50-L54
the skin and subcutaneous
Urticaria andtissue
erythema 2 NULL - - - NULL
2009 5 rawat jalan N00-N99 Diseases ofN40-N51
the genitourinaryDiseases
system of male genital1organs NULL - - - NULL
2009 5 rawat inap N00-N99 Diseases ofN17-N19
the genitourinaryRenal
system failure 1 NULL - - - NULL
2009 5 rawat jalan R00-R99 Symptoms,R10-R19signs and abnormalSymptoms
clinical and
andlaboratory
signs involving
1 findings,
NULL
the digestive
not elsewhere
system classified
and
- abdomen - - NULL
Chronic lower respiratory 3 diseases
NULL - - - NULL
Other diseases of upper3respiratory
NULL tract - - - NULL
2009 5 rawat jalan I00-I99 Diseases ofI20-I25
the circulatory system
Ischaemic heart diseases3 NULL NULL 407,520 271,680 NULL
2009 5 rawat jalan I00-I99 Diseases ofI10-I15
the circulatory system
Hypertensive diseases 6 NULL - 1,526,400 1,017,600 NULL
the ear and mastoid
Diseases
process of inner ear 3 NULL NULL 388,200 258,800 NULL
2009 5 rawat jalan E00-E90 Endocrine, E10-E14
nutritional and metabolic
Diabetesdiseases
mellitus 10 NULL - 719,592 479,728 NULL
2009 5 rawat jalan C00-D48 NeoplasmsD10-D36 Benign neoplasms 1 NULL - - - NULL
2009 5 rawat jalan A00-B99 Certain infectious
A20-A28 and parasitic
Certain
diseases
zoonotic bacterial1 diseases
NULL NULL 234,600 156,400 NULL
Intestinal
diseasesinfectious diseases
1 NULL NULL 149,400 99,600 NULL
Tuberculosis
diseases 3 NULL NULL 606,144 404,096 NULL
2009 5 rawat jalan F00-F99 Mental andF20-F29
behavioural disorders
Schizophrenia, schizotypal 1 andNULLdelusional disorders
NULL 90,660 60,440 NULL
the ear and mastoid
Diseases
process of middle ear and
1 NULL
mastoid NULL 2,400 1,600 NULL
Diseases of appendix 1 NULL NULL 2,400 1,600 NULL
system failure 2 NULL - 324,300 216,200 NULL
2009 5 rawat jalan S00-T98 Injury, poisoning
S00-S09and certain other
Injuries
consequences
to the head of external
4 NULLcauses NULL 1,388,400 925,600 NULL
B20-B24 and parasitic
Human
diseases
immunodeficiency 4 virus
NULL[HIV] diseaseNULL 790,420 487,280 NULL
Tuberculosis
diseases 4 NULL NULL 1,550,293 785,736 NULL
Acute upper respiratory5infections
NULL - - - NULL
Diseases of oral cavity, salivary
1 NULLglands and jaws - - - NULL
Diseases of appendix 1 NULL NULL 52,260 34,840 NULL
2009 6 rawat jalan L00-L99 Diseases ofL80-L99
the skin and subcutaneous
Other disorders
tissue of the skin
1 andNULLsubcutaneous NULL
tissue 2,400 1,600 NULL
Going further, with very detailed data set, we can start to predict the future
system failure 3 NULL NULL 1,155,264 770,176 NULL
the genitourinaryOther
system diseases of urinary 1 system
NULL - - - NULL
2009 6 rawat jalan Q00-Q99 Congenital Q20-Q28
malformations, deformations
Congenital malformations
and chromosomal
1 of NULL
the
abnormalities
circulatory system - - - NULL
Injuries
consequences
to the head of12 external
NULLcauses - 3,049,516 1,621,744 NULL
based on historical patterns and correlating variables. Moreover, we could

2009 6 rawat jalan Z00-Z99 Factors influencing
Z80-Z99 health status
Persons
and contact
with potential
with health
health
2 NULLservices
hazards related to family- and personal -history and certain
- conditions
NULL influencing health status
T66-T78and certain other
Otherconsequences
and unspecified ofeffects
external
2 NULL ofcauses
external causes - - - NULL
Injuries
consequences
to the abdomen,of external
1 lower
NULLback,
causeslumbar spine and - pelvis - - NULL
also analyse the impact it may creates on the insurance claims both on BPJS
clinical and
andlaboratory
signs involving
2 findings,
NULL
the urinary
not elsewhere
system
NULL classified 10,800 7,200 NULL
clinical and
andlaboratory
signs involving
1 findings,
NULL
the digestive
not elsewhere
NULL
system classified
and abdomen235,260 156,840 NULL
the genitourinaryUrolithiasis
system 1 NULL - - - NULL
and Insurance alike – for each individual disease.

Potential Area Mapping
Identify your next
open outlet, out-of-
home ads, and even
market expansion
based on your
product-fit and
market-fit criteria
from our wide data
set: demographic,
SES, Point-of-
interests, on our
Indonesian map (with
the ability to zero-in
to village level).
Predictive Analytics: Cashflow Prediction
Applicable to many industries, we

can develop a model to learn
from the historical data of financial
activities to predict the future
cashflow.
Routing Analytics
Create turn-by-turn recommendation based on client’s existing outlet (or any
touch point targets). This plugins is planned to be able to be used by Navi and
any major BI tools supporting map/GIS).
Computer Vision
Thermal Detection
Thermal Detection
Can be used to identify authorized personnel

and attendance, and also check the body
temperature. Can also give warning if the
person does not wear face-mask.
Object Recognition
Object Recognition
Facial Recognition
Segment Break
© 2020 XQUISITE INFORMATICS. All rights reserved.

The information herein is for informational purposes only and represents the current view of XQUISITE INFORMATICS as of the date of this submission.
Segment 3
Hadoop & Big Data
Analytics Journey
Galih Permadi

Hadoop
and it’s services
What is Hadoop
Timeline history of Hadoop from a group project of like-minded engineer into a

technology powerhouse it is today.
What is Hadoop
Node is a machine inside a cluster. Cluster is a collection of interconnected nodes.

Google File System, Bigtable, and MapReduce team develop their project using cluster-
based computing of commodity servers. Where files are split into chunks and spread it
to nodes inside a cluster.
What is Hadoop
Apache Hadoop comprised of the following components:
What is Hadoop
Hadoop consist of three main components:
Hadoop Distributed File System (HDFS)
MapReduce
Yet Another Resources Negotiator (YARN)

What is Hadoop
In traditional database, the schema are straightforward and we can easily

explore relationship between data.
What is Hadoop
In Hadoop, we split our data into large sized chunks and distribute and
replicate it across our nodes on the Hadoop Distributed File System (HDFS).
What is Hadoop
The component that function as the data storage in Hadoop. By its name,
HDFS keep the data by distributing it in all its nodes.
“upload” data contacting distribute
Users’ data Clients: Namenode Datanode

Hue (store metadata) (store data block)
HDFS CLI
HDFS API
What is Hadoop
• Hadoop data processing component. MapReduce implements the principle of parallel computation.
MapReduce will distribute the task given by user into subtasks that send to all worker.
• Nowadays, this component can be replaced by other data processing component, such as, Impala’s
MPP or Apache Spark with an improved performance
What is Hadoop
YARN’s purpose is to maintain resources (CPU, RAM, GPU) within the cluster. There are 2 daemon
(process that runs in the background) in YARN. First is NodeManager installed in the workers and
ResourceManager installed in the master.
What is Hadoop
3
Process flow in a typical Hadoop deployment:

1. Large unstructured data sets are ingested from storage repositories to a Hadoop cluster based on the Hadoop distributed file system (HDFS).
2. Data is mapped to the Hadoop DataNodes of the cluster and a single NameNode controls the metadata.
3. The MapReduce software framework manages jobs for data analysis. MapReduce and HDFS use the same hardware resources for both data analysis and storage.
4. Analysis results are then stored in HDFS or exported to other infrastructures.
Essentials Hadoop Services
As the interest on
Hadoop grew, the
Apache community
continues to build up
the Hadoop
ecosystem by
integrating other
services. Each with its
own unique offering
to the ecosystem.
Essentials Hadoop Services
• Administration:
ZooKeeper, YARN
• Ingestion: Oozie,
Sqoop
• Data Storage &
Analysis: HDFS, Hive,
Impala, HBase, Solr
• Processing: Spark,
MapReduce
Scalability
Hadoop aims for linear horizontal
scalability
With horizontal-scaling it is often

easier to scale dynamically by
adding more machines into the
existing pool.
Vertical-scaling is often limited to

the capacity of a single machine,
scaling beyond that capacity often
involves downtime and comes with
an upper limit.
Scalability
You can just add nodes
to increase cluster
capacity and
performance – By
Scaling Out your
cluster.
Scalability
Hadoop clusters are built from industry-standard, widely-available and relatively inexpensive servers.
Hadoop can reach massive

scalability by exploiting a simple
distribution architecture and
coordination model.
A machine that have 1000 cores

CPU would be much more
expensive than 1000 single core
or 250 quad-core machines.
Scalability
Hadoop will ensure to minimized cross-communication among nodes.
Introducing Unstructured Data
Unstructured data is information that either does not have a pre-defined data model or
is not organized in a pre-defined manner.
It is believed that approximately 80% of enterprise data is unstructured data (Gartner).
Introducing Unstructured Data
Shown here is a sample of unstructured data (Twitter). In order to extract information from
this type of data, we need to prepare the data into a structured format.
Introducing Unstructured Data: NoSQL
NoSQL database (Not Only SQL or non relational database) provide mechanism to store
and retrieve data in a different way of relational database used.
• Fixed Schemas • Dynamic Schemas

• Scale Up • Auto-sharding /Scale-Out
Plugins/Extension for Replication • Automatic Replication
• Integrated Caching (Read Only) • Integrated Caching (Read/Write)
Introducing Unstructured Data: NoSQL
The data structures used by NoSQL databases (e.g. key-value, wide column, graph,
or document) are different from those used in relational databases, making some
operations faster in NoSQL.
BDA Journey
and Milestones
Source: https://www.domo.com/learn/data-never-sleeps-8
Traditional VS Big Data Analytics
Big Data Analytics Journey
Big Data Analytics Milestones
Infrastructure Analytics and

Business Cases Solution Architecture Data Integration Change Management
Procurement Visualization
• Have clear • Develop Solution • Acquire the right • Acquire, enrich, • Analyze the data for • Adapt and transform
Business cases architecture for your infrastructure needed cleanse and each of your specific your organization
including a quick- business cases based on your integrate your data to business case and towards new big data
win project including data solution architecture be analytics ready visualize it in a technology and
collection process, including data meaningful way analytics
technology storage and • Develop business implementation
architecture and processing unit, strategy and action
analytics methods platform and plan out of the
and data application insights you gathered
visualization
• Incorporate your
current asset through
a comprehensive
assessment
Segment end

Segment 1
Big Data Analytics
Implementation
Galih Permadi

Profile
Galih started off his career in a management consulting firm in 2010 focusing on
delivering values through data and system. Ever since, he has managed various
type of project from various type of business users and industries involving
various technologies. Some of the most notable are; developed solution
architecture, blueprint, and technology roadmap for Bank Indonesia (2014-
2015), designed the solution architecture for the first enterprise data warehouse
on Hadoop project for PLN (2017).
He founded XQ at 2016 to focus on helping companies transform into Data

Driven Organization. XQ currently valued at around 7 Million USD.
Besides XQ, Galih also develop other Startup and companies focusing in solving
problems with technology.
Big Data Analytics
So What is Big Data?
Brief History of Big Data
Tim Berners-Lee created

26 millions records of US Citizen the “World Wide Web”. The
done by three million company beginning of the internet as
using IBM punch card machine. we know today.
1937 1943 1989
Colossus is the first data

processing machine in the
world, capable of processing
5000 character per second and
used to decipher NAZI secret
message in world war II.
Brief History of Big Data
Google release
paper about
google file
system
2003 2005 Now
Yahoo! (Doug Cutting)

starting project Hadoop
with purpose to index the
whole world wide web.
Why We Need Big Data
Why We Need Big Data – 5Vs
Why We Need Big Data - Volume
Organizations are
gathering data from
various sources such as
business transaction,
social media, sensor
dan machine to
machine data.
Source: https://www.domo.com/learn/data-never-sleeps-8
Why We Need Big Data - Velocity
Data is flowing with

speed that has never
happened before and
must be managed and
analyzed in real time.
Why We Need Big Data - Variety
Data may have many

format – from structured
and numerical in
traditional database until
unstructured text
document, email, video,
audio and financial
transaction.
Why We Need Big Data - Veracity
The massive data load

that we are having today
can be challenging to
maintain.
Inaccuracy and
inconsistency can be a
risk that enterprise must
deal with.
Why We Need Big Data - Veracity
Data that comes many

source make it harder to
join, cleansing and
transform whole data in
the system. However, we
still need to connect and
correlate between data
and its hierarchy.
Analytics
everyone’s talking about big data, but largely due to its lingering complexity,
adoption remains relatively low
Analytics Implementation
in corporate organization
How Do You Do Analytics?
1.0 2.0 3.0
• Small, structured, • Big, unstructured, • Mix of all data
static data fast-moving data • Hybrid
• Back-office • Data scientists “on business/data
the bridge” teams
analysts
• Data products • Internal + external
• Slow, painstaking
focus in online products/decision
• EDW, stat firms s
packages, • Rise of Hadoop • Discovery tools +
spreadsheets • Visual analytics • Move at speed
• Internal decisions • “Agile is too slow” and scale
• Descriptive • Predictive and
analytics prescriptive
analytics
Analytics 1.0
Traditional Analytics
• Primarily descriptive analytics

and reporting
• Internally sourced, relatively small,
structured data from customer transactions
1.0 • “Back room” teams of analysts
• Internal decision support focus
• Slowly-developed batch propensity models
• Warehouse-centric storage
Analytics 2.0
The Big Data era
• Complex, large, unstructured data

• New analytical and computational
capabilities needed—i.e., Hadoop
“Data Scientists” emerge
2.0
•
• Online firms create data-based products

and services
2.0 Data Products
• Google—Search, AdSense, Books, Maps, Scholar…and now Nest
• LinkedIn—People You May Know, Jobs You May Like, Groups You May Be
Interested In, etc.
• Netflix—Cinematch, Max, etc.

• Zillow—Zestimates, rent Zestimates, Home Value Index, Underwater Index, etc.
• Facebook—People You May Know, Custom Audiences, Exchange
Analytics 3.0
Fast, Pervasive Analytics in the Age of Smart Machines
• A seamless blend of traditional analytics and big data

• Analytics integral to the entire business
Rapid, agile insight and model delivery
3.0
•
• Analytical tools available at point and time of decision

• Any company can produce data products and services
• Industrialized decisions—large scope and scale
TODAY
Analytics 3.0: Data Types
Articles Mobile devices Social Feeds

• Purchase history
• Segmentation XML Cloud RSS
• Customer value
Twitter Videos
• Purchasing behavior
Spatial GPS
Device sensors Blogs
• Recommendations
• Customer profiles • Sentiment analysis
• Organization • Target marketing Images
contacts • Satisfaction Presentatio LinkedIn
• Billing • Customer
• Marketing experience ns Hosted applications
Documents
• Contracts/orders management
• Shipping • Service tiers Email Text messages
• Claims Website activity Clickstream logs
• Call center
• Customer service
Analytics 3.0
Technology and People Requirements
• Heavy reliance on machine learning
3.0
• In-memory and in-database analytics
• Integrated and embedded models
• Delivery to multiple channels, specifically mobile
• Hadoop, EDW, marts, data discovery, etc.
• Blended data science/business/IT teams
• Chief Analytics, Data, Digital Officers to oversee it all
Analytics 3.0 Example
The “Analytics of Things”
• Real-time, high-volume data from sensors and

machines
• Focus on anomalies and exceptions
• Analytics for trends, patterns, prediction,
optimization, situational awareness
• Bring the data to the analysis engine through
complex event processing/streaming
• May be able to sell the analytics to third
parties
The Analytics of Things in Context
Cognitive Action
(Hands, feet, and communities)
Analytics of Things (Brain)
Data Integration (Reflexes, spinal cord)
Local Sensing
(Sense of touch, local neurons)
Analytics Implementation
in corporate organization - examples
Procter & Gamble 3.0
178 years old
• CIO Filippo Passerini and CEO Bob McDonald
focused on improving management decisions
at scale
• “Information and Decision Solutions” (IT)
embeds over 200 analysts in leadership teams
• Over 50 “Business Spheres” for executive
information viewing and decision-making
• “Decision cockpits” on 58K desktops
• 35% of marketing budget on digital
• Real-time social media sentiment analysis for
“Consumer Pulse”
Robert Bosch 3.0
129 years old
• Intelligent fleet management

• Intelligent vehicle charging
• Intelligent energy management
• Intelligent video analysis
• Intelligent freezer
• Intelligent thermostat
• New Software Innovations group to create all of
this intelligence
GE 3.0
123 years old
• $2B initiative in software, analytics, and

“Industrial Internet”
• Primary focus on data-based products and
services from “things that spin”
• Will reshape service agreements for
locomotives, jet engines, turbines
• Gas blade monitoring in turbines produces 588
gigabytes/day—7 times Twitter daily volume
• $IB in revenue already from new industrial data
platforms and software
Monsanto 3.0
114 years old
• Precision planting offerings sold to farmers

• FieldScripts program uses data from field
testing and Monsanto research to recommend
what corn hybrids to plant where
• Genotypes and phenotypes of plants add up to
tens of petabytes of data for analysis
• Paid almost $1B for The Climate Company,
which gathers and analyzes weather data for
agriculture
• Embarking on data and analytics education
programs for farmer customers
Ford 3.0
112 years old
• Bill Ford: “The car is really becoming a rolling
group of sensors.”
• Ford’s Digital Analytics and Optimization team
has full responsibility for all B2C channels and
N. American business units
• Hyper-local dealer support digital algorithm
delivered 85% increase in action rate and 48%
decrease in cost per action
• Smart Inventory Management System suggests
weekly orders for dealers and has increased
revenue by $100M/year
• New Analytics Council and Chief Analytics/Data
Officer
UPS 3.0
108 years old
• Project ORION: Real-time routing of 46,000

vehicles
• Uses telematics, customer, and package data
• Project cost $300 million and is expected to
deliver savings of $450 million/year
• 15 million gallons/year in fuel savings
• World’s largest analytics project
• MyChoice is UPS’ first data product
LinkedIn 3.0
14 years old
• Highly successful data products

People You May Know
Jobs You May Be Interested In
Groups You May Like
InMaps
• Business decisions at scale
Customer InMaps to pinpoint decision-makers
Propensity-to-buy models for LinkedIn services
Rapid testing of multiple website changes
What Should Organizations Do with Analytics?
• 1.0 organizations use analytics

Find the best customers, charge them the best price
Make effective offers
Understand costs and drive better performance
• 2.0 and 3.0 organizations compete on analytics
Making analytics and fact-based decisions key
elements of customer relationships, products and
services, strategy, and competition
How Does Your Company Rank?
Stage 5
Analytical Competitors 2.0 and 3.0
territory
Stage 4
Analytical Companies
Stage 3
Analytical Aspirations 1.0
Stage 2 territory
Localized Analytics
Stage 1
Analytically Impaired
38 | 2015 © Thomas H. Davenport All Rights Reserved
Some Analytical Competitors
Netflix—Cinematch, Max, etc.

Primarily eBay—testing on a massive scale
2.0 firms Zillow—Zestimates, Rent Zestimates, Underwater Index
Facebook—People You May Know, Custom Audiences, Exchange
Google—page rank, advertising, HR, ventures

Marriott — Revenue management, web, loyalty
Primarily Amazon—Testing, logistics, recommendations
Novartis—Drug development with informatics
3.0 firms Caesars—Loyalty and service in real time
Tesco—13 million customers, 13 million offers
Capital One—”information-based strategy”
Barclays—”The Information Business”
Analytical DELTTA Capabilities
Data . . . . . . . . . breadth, integration, quality

Enterprise . . . . . . . . approach to managing analytics
Leadership . . . . . . . . . . . . . . . passion and commitment
Targets . . . . . . . . . . . . . . . . . . first deep, then broad
Technology . . . . . . .changing with big data
Analysts . . . . . professionals and amateurs
Recipe for a 3.0 World
1. Start with an existing
capability for data
management and analytics
2. Pick an analytics 3.0 target and
subtargets
3. Add some unstructured,
large-volume data
4. Throw some product/service
innovation into the mix
5. Add a dash of Hadoop
and a pinch of NoSQL
6. Don’t forget your privacy and
security strategy
7. Train your sous chefs to be
analytical leaders
Segment Break

Pengenalan Hadoop
Agenda
Review Pertemuan Sebelumnya
Konsep Penyimpanan dan Pemrosesan
Pengenalan Hadoop
Penerapan MapReduce
Pengenalan NoSQL Database

Review
• Pengertian Big Data
• Teknologi Big Data
• Big Data Analytics
• Aplikasi Big Data
Big Data?
Teknologi
• Apa yang sudah terjadi?
• Mengapa terjadi?
• Apa yang akan terjadi?
• Apa yang harus dilakukan?
• Apa yang kita tidak tahu? (Cognitive) *)
Analytics
*) Gudivada, V., Irfan, M., Fathi, E., Rao, D.L.: Cognitive analytics: going beyond big data analytics and machine learning, Chap. 5. Elsevier (2016)
*) Gupta, S., Arpan Kumar Kar, A., Baabdullah, A., Al-Khowaiter, W.: Big data with cognitive computing: a review for the future. Int. J. Inf. Manage. 42, 78–89 (2018)
Mesin Rekomendasi
Aplikasi
Big Data Ecosystem
V. Janev et al. (Eds.): Knowledge Graphs and Big Data Processing, LNCS 12072, pp. 3–19, 2020
DATA SOURCES DATA MANAGEMENT DATA ANALYTICS

• Privat (Internal), public • Integrasi • Metodologi
(eksternal) • Penyimpanan • Laporan / Visualisasi
• Terstruktur, tidak terstruktur • Pemrosesan • Aplikasi
Konsep Penyimpanan dan
Pemrosesan Big Data
Scalability
• Kemampuan suatu sistem untuk menangani

penambahan beban yang diberikan tanpa penurunan
kinerja yang berarti
• Vertikal (menambah sumber daya sistem komputer)
• Horizontal (menambah jumlah komputer)
Properti Availability
Penting • Ketersediaan layanan secara terus menerus
Big Data Fault Tolerance
• Kemampuan system untuk terus beroperasi walaupun

terjadi kegagalan pada beberapa komponennya
Reliabillty
• Kehandalan
Cluster
File System
Konsep
Penyimpanan Distributed File System
Big Data Sharding
Replication
NoSQL
Cluster
• Kumpulan server atau node
yang digabungkan erat.
• Memiliki spesifikasi
perangkat keras yang sama
• Terhubung melalui jaringan
• Bekerja sebagai satu kesatuan
File System
• Metode penyimpanan dan

pengaturan data pada
perangkat penyimpanan seperti
harddisk, flashdisk, dll.
• Menyediakan logical view dari
data yang disimpan pada
perangkat penyimpanan dan
menyajikannya sebagai struktur
hirarkis dari direktori dan file
Distributed File
System
• Sistem file yang dapat menyimpan file
besar yang tersebar di seluruh node cluster
• Bagi klien, file tampak seperti lokal;
Namun, ini hanya tampilan logis karena
secara fisik file didistribusikan ke seluruh
cluster
• Contoh:
• Google File System (GFS)
• Hadoop Distributed File System (HDFS)
Sharding
• Proses mempartisi secara horizontal
kumpulan data besar menjadi
kumpulan data yang lebih kecil dan
lebih mudah dikelola
• Pecahan didistribusikan ke beberapa
node, di mana node adalah server atau
mesin
• Setiap pecahan disimpan di node
terpisah dan setiap node bertanggung
jawab hanya untuk data yang disimpan
di dalamnya
Sharding
• Setiap pecahan memiliki skema yang sama,
dan semua pecahan secara kolektif
mewakili kumpulan data lengkap
• Sharding memungkinkan distribusi beban
pemrosesan di beberapa node untuk
mencapai skalabilitas horizontal
• Penskalaan horizontal adalah metode untuk
meningkatkan kapasitas sistem dengan
menambahkan sumber daya berkapasitas
serupa atau lebih tinggi di samping sumber
daya yang ada
Replication
• Replikasi menyimpan banyak salinan dari

sebuah dataset, yang dikenal sebagai
replika, pada banyak node
• Replikasi memberikan skalabilitas dan
ketersediaan karena fakta bahwa data yang
sama direplikasi di berbagai node.
• Toleransi kesalahan juga dicapai karena
redundansi data memastikan bahwa data
tidak hilang ketika node individu gagal.
NoSQL (Not-only SQL)
• Database non-relasional yang
sangat skalabel, toleran terhadap
kesalahan
• Dirancang khusus untuk
menampung data semi-terstruktur
dan tidak terstruktur.
• Tidak memerlukan skema yang
ketat
• Diakses dengan cara:
• API (Aplication Programming Interface)
yang dapat dipanggil dari dalam aplikasi.
• Bahasa query selain Structured Query
Language (SQL)
Teknologi Penyimpanan Big Data
On-Disk Storage Devices In-Memory Storage Devices

RDBMS
On-Disk
Storage
NoSQL
Devices
NewSQL
In-Memory Data Grids
In-Memory
Storage
Devices
In-Memory Databases
Parallel Data Processing
Konsep Distributed Data Processing
Pemrosesan
Big Data Processing Workload
Cluster
• Pemrosesan data paralel melibatkan pelaksanaan beberapa
Parallel Data sub-tugas secara bersamaan yang secara kolektif membentuk
tugas yang lebih besar
Processing • Tujuannya adalah untuk mengurangi waktu eksekusi

• Umumnya dicapai dalam satu mesin dengan banyak prosesor
atau inti (core)
Distributed Data
Processing
• Pemrosesan data
terdistribusi terkait erat
dengan pemrosesan data
paralel yang menerapkan
prinsip "divide-and-
conquer" yang sama
• Dicapai melalui mesin
yang terpisah secara fisik
yang terhubung bersama
sebagai sebuah cluster
Processing Workloads
Beban kerja pemrosesan di Big Data didefinisikan sebagai jumlah dan
sifat data yang diproses dalam jangka waktu tertentu. Beban kerja
biasanya dibagi menjadi dua jenis:
• Batch, dikenal sebagai pemrosesan offline, melibatkan pemrosesan
data dalam batch dan biasanya menimbulkan penundaan, yang pada
gilirannya menghasilkan respons latensi tinggi
• Transaksional, juga dikenal sebagai pemrosesan online. Pemrosesan
beban kerja transaksional mengikuti pendekatan di mana data
diproses secara interaktif tanpa penundaan, menghasilkan respons
latensi rendah
Batch vs Transaksional
Cluster
• Memberikan dukungan yang diperlukan untuk membuat solusi
penyimpanan yang dapat diskalakan secara horizontal
• Menyediakan mekanisme untuk memungkinkan pemrosesan data
terdistribusi dengan skalabilitas linier
• Menyediakan lingkungan yang ideal untuk pemrosesan Big Data
• Big Data dapat diproses dalam mode batch atau mode realtime
Cluster
Pemrosesan dalam Mode Batch
• Dalam mode batch, data diproses secara offline dalam batch dan waktu respons dapat
bervariasi dari menit ke jam. Selain itu, data harus disimpan ke disk sebelum dapat
diproses.
• Mode batch umumnya melibatkan pemrosesan berbagai kumpulan data besar, baik
sendiri-sendiri atau digabungkan, yang pada dasarnya menangani karakteristik volume
dan variasi dari kumpulan data Big Data.
• Mayoritas pemrosesan Big Data terjadi dalam mode batch. Ini relatif sederhana, mudah
diatur dan berbiaya rendah dibandingkan dengan mode waktu nyata. BI strategis, analitik
prediktif dan preskriptif, dan operasi ETL biasanya berorientasi batch.
Pemrosesan Batch dengan MapReduce
• MapReduce adalah model pemrosesan berorientasi batch yang digunakan

untuk memproses kumpulan data besar menggunakan pemrosesan paralel
yang diterapkan di atas cluster perangkat keras komoditas.
• MapReduce adalah implementasi yang banyak digunakan dari framework
pemrosesan batch.
• MapReduce cocok dalam komputasi terdistribusi dan paralel.
• Model inim membagi masalah besar menjadi kumpulan masalah kecil yang
masing-masing dapat diselesaikan dengan cepat.
• MapReduce dapat digunakan untuk memproses kumpulan data tanpa skema.

Kumpulan data dipecah menjadi beberapa bagian yang lebih kecil, dan operasi
dilakukan pada setiap bagian secara independen dan paralel.
• Hasil dari semua operasi kemudian diringkas untuk sampai pada jawabannya.
• Karena overhead koordinasi yang terlibat dalam mengelola pekerjaan, mesin
pemroses MapReduce umumnya hanya mendukung beban kerja batch karena
pekerjaan ini diperkirakan tidak memiliki latensi rendah.
• MapReduce didasarkan pada makalah penelitian Google tentang subjek tersebut,
yang diterbitkan pada awal tahun 2000.
• Secara tradisional, pemrosesan data memerlukan pemindahan data dari node penyimpanan ke
node pemrosesan yang menjalankan algoritme pemrosesan data.
• Pendekatan ini berfungsi dengan baik untuk kumpulan data yang lebih kecil; namun, dengan
kumpulan data yang besar, pemindahan data dapat menimbulkan lebih banyak overhead
daripada pemrosesan data yang sebenarnya.
• Dengan MapReduce, algoritma pemrosesan data dipindahkan ke node yang menyimpan data.
• Algoritma pemrosesan data dijalankan secara paralel pada node ini, sehingga menghilangkan
kebutuhan untuk memindahkan data terlebih dahulu.
• Ini tidak hanya menghemat bandwidth jaringan tetapi juga menghasilkan pengurangan besar
dalam waktu pemrosesan untuk kumpulan data besar, karena memproses potongan data yang
lebih kecil secara paralel jauh lebih cepat.
MapReduce
Terdiri dari:
• Pekerjaan Map, dengan tahapan
• map
• combine (optional)
• partition
• Pekerjaan Reduce
• shuffle and sort
• reduce
Map
Combine
Partition
Shuffle and Sort
Reduce
Pemrosesan dalam Mode Realtime
Dalam mode waktu nyata, data diproses dalam memori sebelum disimpan ke disk. Waktu respons biasanya
berkisar dari satu detik hingga kurang dari satu menit. Mode realtime menangani karakteristik kecepatan
kumpulan data Big Data.
Dalam pemrosesan Big Data, pemrosesan waktu nyata juga disebut pemrosesan peristiwa (event) atau aliran
(stream) karena data datang secara terus menerus (stream) atau pada interval (event). Data event / stream
individu umumnya berukuran kecil, tetapi sifat kontinu menghasilkan kumpulan data yang sangat besar.
Istilah terkait lainnya, mode interaktif, termasuk dalam kategori waktu nyata. Mode interaktif umumnya
mengacu pada pemrosesan kueri secara realtime. BI / analitik operasional umumnya dilakukan dalam mode
waktu nyata.
Prinsip dasar yang terkait dengan pemrosesan Big Data disebut prinsip Kecepatan, Konsistensi, dan Volume
(SCV). Ini dibahas pertama kali karena menetapkan beberapa batasan dasar pada pemrosesan yang terutama
memengaruhi mode pemrosesan waktu nyata.
Speed Consistency
Volume (SCV)
• Speed
• Consistency
• Volume
Dua konsep penting yang terkait dengan pemrosesan Big Data secara
realtime adalah:
• Event Stream Processing (ESP) / Pemrosesan Streaming Acara (ESP)
• Complex Event Processing (CEP) / Pemrosesan Peristiwa Kompleks (CEP)
Event Stream Processing
• Selama ESP, aliran peristiwa yang masuk, biasanya dari satu sumber dan diurutkan
berdasarkan waktu, terus dianalisis. Analisis dapat terjadi melalui kueri sederhana atau
penerapan algoritme yang sebagian besar berbasis rumus. Analisis berlangsung di dalam
memori sebelum menyimpan peristiwa ke perangkat penyimpanan di disk.
• Sumber data lain (yang ada di memori) juga dapat dimasukkan ke dalam analisis untuk
melakukan analisis yang lebih kaya. Hasil pemrosesan dapat dimasukkan ke dasbor atau
dapat bertindak sebagai pemicu aplikasi lain untuk melakukan tindakan yang telah
dikonfigurasi sebelumnya atau analisis lebih lanjut. ESP lebih berfokus pada kecepatan
daripada kompleksitas; operasi yang akan dijalankan relatif sederhana untuk membantu
eksekusi yang lebih cepat.
Complex Event Processing
• Selama CEP, sejumlah peristiwa waktu nyata yang sering datang dari sumber yang
berbeda dan tiba pada interval waktu yang berbeda dianalisis secara bersamaan
untuk mendeteksi pola dan permulaan tindakan. Algoritme berbasis aturan dan
teknik statistik diterapkan, dengan mempertimbangkan logika bisnis dan konteks
proses untuk menemukan pola peristiwa kompleks lintas sektor.
• CEP lebih berfokus pada kompleksitas, menyediakan analitik yang kaya. Namun,
akibatnya, kecepatan eksekusi dapat terpengaruh secara merugikan. Secara
umum, CEP dianggap sebagai superset dari ESP dan sering kali keluaran dari hasil
ESP dapat dimasukkan ke dalam CEP.
Pengenalan
Apa itu Hadoop?
• Suatu framework yang memungkinkan pemrosesan secara
terdistribusi terhadap data yang berukuran besar, dengan
melibatkan satu atau lebih klaster computer, dengan
menerapkan programming model yang sederhana
• Suatu Framework untuk menangani Big Data
• Suatu framework untuk menyimpan dan memprosess Big
Data secara parallel dan terdistribusi
• Suatu framework open source yang memungkinkan
pemrosesan terdistribusi terhadap Big Data melalui
sekumpulan perangkat keras sederhana (Cluster)
Linimasa Hadoop
Karakteristik / Fitur
Komponen Inti Hadoop
HDFS (Hadoop Distributed File System)
• NameNode
• DataNode
• Secondary
NameNode
Lapisan pemroses data
pada Hadoop
Mengadopsi model
MapReduce Google
MapReduce
Memproses data dalam 2
tahap
• Tahap Map
• Tahap Reduce
Manajer sumber daya cluster
YARN (Yet Sistem operasi-nya Hadoop
Another Terdiri dari:
Resource • Resource Manager (berjalan pada Master

node)
Negotiator) • Node Manager (berjalan pada Slave node)
• Application Master (berjalan pada Slave
node)
• Container (berada pada slave node)
Penerapan
MapReduce
Ilustrasi
Ilustrasi
Program WordCount
Mapper code
• Membaca input dalam bentuk pasangan key-value

• Menghasilkan output berupa pasangan key-value
Reducer code
Program • Output dari program Mapper menjadi input bagi

program Reducer
MapReduce • Menggabungkan / mengelompokkan berdasarkan key-

nya masing-masing
• Menghitung jumlah value dari setiap key
• Menghasilkan output berupa pasangan key-value
Driver code
• Menentukan konfigurasi
Facebook Mutual Friends
• “Kamu dan Rini memiliki 63 teman yang sama”

• Bagaimana mendapatkan jumlah teman yang sama?
• Bagaimana mengetahui namanya?
• Gunakan MapReduce untuk mendapatkannya
• Langkah:
• Siapkan input (Daftar pertemanan dari Facebook), simpan di
HDFS
• Hitung dengan MapReduce
• Simpan output di HDFS
Menyiapkan
input
Simpan daftar pertemanan
dalam HDFS
Mapper
• Setiap baris menjadi
argument dari sebuah
Mapper
• Iterasi sebanyak jumlah
teman dalam value dari
setiap key
• Key diurutkan
berdasarkan abjad
Reducer
• Setiap baris berupa pasangan key-

>[list of value] menjadi argument
dari Reducer
• Ambil intersection / irisan dari value
yang terdapat dalam [list of value]
• Output berupa pasangan key->[hasil
irisan]
Pengenalan NoSQL Database
NoSQL Database
• Not-only SQL (NoSQL)

• Teknologi yang digunakan
untuk mengembangkan
database non-relasional
generasi berikutnya yang
sangat skalabel dan toleran
terhadap kesalahan.
• Menyimpan data tidak
terstruktur
Fitur NoSQL Database
High
Non-
Schema-less Scalability & Open Source
Relational
Availability
Jenis Database NoSQL
Key-value
Document
Column Family
Graph
• NoSQL database yang paling
Key-Value Database sederhana
• Menyimpan item data
sebagai pasangan kunci (key)
Bersama dengan nilainya
(value)
• Nilai dapat berupa integer,
string, atau struktur data
• Kunci harus unik
• Data diambil melalui kunci
yang tepat
• Operasi yang dapat dilakukan:
• put(key, value)
• get(key, value)
• delete(key)
Document Database
• Menyimpan data sebagai pasangan key-value

• Value berisi data terstruktur atau semi terstruktur
• Data ini disebut Document
• Dokumen dapat memiliki struktur bersarang (nested)
• Dokumen dapat dikodekan menggunakan skema
pengkodean berbasis teks (XML, JSON), atau menggunakan
skema pengkodean biner (BSON)
• Setiap dokumen dapat memiliki skema yang berbeda
Document Database
Column-Family
• Menyimpan data menggunakan model berorientasi kolom

• Data disimpan sebagai kelompok kolom bukan sebagai baris data
• Menggunakan konsep keyspace (semacam skema)
• Sebuah keyspace berisi kelompok kolom yang berisi baris data.
• Baris data berisi kolom
Graph Database
• Menyimpan hubungan antar entitas

• Entitas disimpan sebagai node (simpul)
• Keterkaitan antar entitas disebut edge (ruas) / relationship
• Setiap node dapat memiliki lebih dari satu ruas
• Setiap node dapat memiliki data atribut sebagai key-value
• Edge dapat memiliki data atribut sebagai key-value
• Edge memiliki arah (searah / dua arah), menunjukkan arah penelusuran node
Ekosistem Hadoop
Penutup
• Hadoop adalah sebuah platform
• Dikembangkan oleh Apache secara open source project
• Distributed File System yang sangat skalabel
• Sistem pemrosesan terdistribusi yang sangat cepat
• Menyimpan data yang banyak dan bervariasi
• Dapat melakukan streaming data dan memprosesnya
secara ‘near’ realtime
Referensi
Thomas Erl, Wajid Khattak, and Dr. Paul Buhler. Big Data Fundamentals: Concepts, Drivers & Techniques. The Prentice Hall Service
Technology Series, ISBN-13: 978-0134291079, 2016
Janev V., Graux D., Jabeen H., Sallinger E. (eds) Knowledge Graphs and Big Data Processing. Lecture Notes in Computer Science, vol
12072. Springer, Cham. https://doi.org/10.1007/978-3-030-53199-7_1
Wayan M. Wijaya, Teknologi Big Data: Sistem Canggih dibalik Google, Yahoo!, Facebook, IBM, Nilacakra, 2019
Hadoop Tutorial, DataFlair, https://data-flair.training/blogs/hadoop-tutorial/
Hadoop Tutorial, TechVidvan, https://techvidvan.com/tutorials/apache-hadoop-tutorials/
Hadoop Tutorial for Beginners, Edureka!, https://youtu.be/1vbXmCrkT3Y
NoSQL Database Series, Orange Output, https://www.youtube.com/playlist?list=PLKDJE8BkZ4wxSleTXC9m9HDpPVF9UcSh6
Hadoop Training Video 1, Training Online Tutorial, https://www.youtube.com/watch?v=cpiGrvs46fs&t=3470s

Data Preprocessing
Agenda
Review Pertemuan Sebelumnya
Konsep Data
Data preprocessing
Contoh Implementasi (Studi kasus: Titanic Dataset)

Big Data Ecosystem
Data Analytics
Review
Big Data Analytics Workflow
Big Data Ecosystem
V. Janev et al. (Eds.): Knowledge Graphs and Big Data Processing, LNCS 12072, pp. 3–19, 2020
DATA SOURCES DATA MANAGEMENT DATA ANALYTICS

• Privat (Internal), public • Integrasi • Metodologi
(eksternal) • Penyimpanan • Laporan / Visualisasi
• Terstruktur, tidak terstruktur • Pemrosesan • Aplikasi
• Apa yang sudah terjadi?
• Mengapa terjadi?
• Apa yang akan terjadi?
• Apa yang harus dilakukan?
• Apa yang kita tidak tahu? (Cognitive) *)
Analytics
*) Gudivada, V., Irfan, M., Fathi, E., Rao, D.L.: Cognitive analytics: going beyond big data analytics and machine learning, Chap. 5. Elsevier (2016)
*) Gupta, S., Arpan Kumar Kar, A., Baabdullah, A., Al-Khowaiter, W.: Big data with cognitive computing: a review for the future. Int. J. Inf. Manage. 42, 78–89 (2018)
Big Data Analytics Workflow
Pengertian
• Dataset
• Data object
Konsep • Atribut dan pengukuran
Data • Jenis dataset
• Karakteristik Dataset
• Statistik Dasar untuk
Deskripsi Data
Pengertian
Data object (objek data), disebut

Dataset, merupakan kumpulan dari juga record, point, vector, pattern,
objek data yang merepresentasikan event, case, sample, observasi, atau
sebuah entitas entity. Data object dijelaskan oleh
sejumlah atribut
Atribut, properti atau karakteristik

suatu objek yang dapat berbeda- Atribut disebut juga variabel,
beda, baik dari satu objek ke objek karakteristik, field, kolom, fitur,
lainnya maupun dari satu waktu ke atau dimensi
waktu lainnya.
Dataset Iris
Atribut dan Pengukuran
Pada tingkat paling dasar, atribut bukanlah tentang angka atau simbol. Namun, untuk
menganalisis karakteristik objek, diberikan angka atau simbol padanya. Untuk melakukan
ini dibutuhkan skala pengukuran.
Skala pengukuran adalah aturan (fungsi) yang mengaitkan nilai numerik atau simbolik
dengan atribut suatu objek.
Contoh: timbangan untuk mengukur berat badan, klasifikasi untuk membedakan
laki-laki dan perempuan, menghitung jumlah kursi di ruang rapat
Tipe Atribut
Tipe Atribut Deskripsi Contoh
Nominal Berupa kategori, membedakan satu Jenis kelamin, status perkawinan,

Categorical
objek dari yang lain kode pos, NPM, dll

(Kualitatif)
Ordinal Nilai yang merepresentasikan urutan Grade nilai, ukuran kualitas (baik,
lebih baik, sangat baik), dll
Interval Untuk atribut interval, perbedaan antara Temperatur (suhu), tanggal, dll
(Kuantitatif)
nilai memiliki arti, yaitu ada unit

Numeric
pengukuran.
Ratio Hasil pengukuran yang sebenarnya Harga, jumlah, usia, berat badan,
panjang, dll
Diskrit
Nilai Atribut • Nilainya terbatas atau dapat dihitung tanpa
batas. Dapat bersifat kategorikal seperti
kode pos, maupun numerik seperti jumlah.
• Binary (biner), adalah kasus khusus untuk
nilai diskrit. Hanya memiliki dua nilai.
Contoh: benar/salah, ya/tidak, 0/1.
Kontinu
• Nilainya adalah bilangan real. Seperti berat,
tinggi, temperature (suhu).
• Biasanya direpresentasikan dengan bilangan
floating point dengan presisi terbatas.
Jenis Dataset
RECORD GRAPH ORDERED

Tid Refund Marital Taxable
Status Income Cheat
1 Yes Single 125K No

Record 2 No Married 100K No
3 No Single 70K No
4 Yes Married 120K No
5 No Divorced 95K Yes
6 No Married 60K No
7 Yes Divorced 220K No
8 No Single 85K Yes
9 No Married 75K No
10 No Single 90K Yes
10
Record
Projection Projection Distance Load Thickness
• Data Matrix of x Load of y load
10.23 5.27 15.22 2.7 1.2

12.65 6.25 16.22 2.2 1.1
Record
• Data Matrix
• Document Data
Record TID Items
1 Bread, Coke, Milk
• Data Matrix 2 Beer, Bread
• Document Data
3 Beer, Coke, Diaper, Milk
• Transaction Data
4 Beer, Bread, Diaper, Milk
5 Coke, Diaper, Milk
Graph
• World wide web
• Social networks
• Molecular structures
Ordered Items/Events
• Sequences of transactions
An element of
the sequence
Ordered
GGTTCCGCCTTCAGCCCCGCGCC
• Sequences of transactions CGCAGGGCCCGCCCCGCGCCGTC
• Genomic sequence data GAGAAGGGCCCGCCTGGCGGGCG
GGGGGAGGCGGGGCCGCCCGAGC
CCAACCGAGTCCGACCAGGTGCC
CCCTCTGCTCGGCCTAGACCTGA
GCTCATTAGGCGGCAGCGGACAG
GCCAAGTAGAACACGCGAAGCGC
TGGGCTGCCTGCTGCGACCAGGG
Ordered
• Genomic sequence data
• Spatio-Temporal Data
Average Monthly
Temperature of
land and ocean
Ordered
• Genomic sequence data
• Spatio-Temporal Data
• Multimedia
• Spatial (maps)
• Image data
• Voice data
• Video data
Dimentionality (Dimensi)
• Dimensi dari suatu dataset adalah jumlah

atribut yang dimiliki oleh objek dalam
dataset tersebut. Jika dimensi terlalu
tinggi maka sulit dianalisis.
• Issue: Dimentionality reduction
Karakteristik (mengurangi dimensi)
Dataset Sparsity (Ketersebaran)
• Hanya yang ada nilainya yang terhitung
Resolution (Resolusi)
• Pola bergantung pada skala

Statistik Dasar untuk
Deskripsi Data
• Agar dapat memahami data terkait pusat distribusi, variasi, dan sebaran data
• Pengukuran tendensi sentral: mean, median, mode
positively skewed negatively skewed

Data Preprocessing
Data Quality
Accuracy: benar atau Completeness: ada

Consistency: tidak
salah, akurat atau yang tidak tercatat,
konsisten
tidak tidak tersedia, …
Believability: seberapa Interpretability:

Timeliness: apakah
dipercaya data itu seberapa mudah data
terupdate?
benar? dapat dipahami?
Data Quality Problem
Noise and outliers Missing values Duplicate data

Data Preprocessing
Imputasi (missing value), smoothing (noisy
data), identifikasi atau penghapusan
Data Cleaning (outliers), dan penanganan (data
inconsistencies)
Integrasi dari multiple databases, data

Data Integration cube, atau files
Dimentionality reduction
Data Reduction Numerosity reduction
Data compression
Data Transformation and Normalisasi
Data Discretization Diskretisasi data

Data Preparation 2) Data Reduction 2)
• Data riil umumnya ‘kotor’, berpotensi adanya incorrect data
• Bisa disebabkan karena kesalahan instrument pengukuran,
human or computer error, dan transmission error
Beberapa • Noisy: berisi noise atau error
• Contoh: tinggi badan= “-120”
contoh • Outliers: anomali
• Incomplete (missing value)
kesalahan • Contoh: pekerjaan = “ ”
• Inconsistent: ada perbedaan pada beberapa atribut
data • Contoh: usia = “31”, tanggal lahir = “28/03/2000”
• Contoh: sebelumnya rating “1, 2, 3”, sekarang
rating “A, B, C”
• Intentional
• Default tanggal lahir: 1 Jan
• Duplicate data
• Contoh: Orang yang sama dengan 2 alamat email
yang berbeda
Menghapus objek data
atau atribut
Menangani
Mengestimasi nilai
Missing yang hilang
Value
Diabaikan (ignore)
Estimasi Missing Value
(Imputasi)
Imputasi nilai secara manual
Imputasi nilai secara otomatis menggunakan

• Nilai mean, median, mode dari atribut yang ada
missing value
• Nilai mean, median, mode untuk semua sampel yang
memiliki kelas yang sama
• Nilai estimasi menggunakan metode Bayesian, Decision
tree, Regresi, k-Nearest Neighbor, Expectation
Maximization,…
Menangani Noise
• Binning
• Mengurutkan data dan membagi
menjadi beberapa bins berdasarkan
frequency (equal-frequency)
• Kemudian melakukan
• smooth by bin means,
• smooth by bin median,
• smooth by bin boundaries,
• dsb.
Menangani Noise
• Regression
• Melakukan smooth by fitting data ke
fungsi regresi
• Clustering
• Mendeteksi dan menghapus outliers
• Combined computer and human inspection
• Mendeteksi nilai yang meragukan dan
dicek secara manual
Data Integration
• Integrasi data dari beberapa sumber data

• Identifikasi: Atribut sama namun mempunya nama yang berbeda
• Derivasi: Satu atribut bisa diderivasi dari atribut lain pada database lain,
misalnya: total gaji setahun
• Redundansi attribut bisa dideteksi menggunakan analisis
korelasi dan kovarian
• Chi square test untuk tipe nominal
• Pearson correlation untuk tipe numerik
• Mengurangi representasi data menjadi lebih
kecil
• Motivasi: Analisis data yang kompleks
memerlukan waktu komputasi yang lama
• Strategi
• Dimensionality reduction (menghapus
atribut tidak penting)
• Wavelet transforms
Data Reduction • Principal Components Analysis (PCA)
• Feature subset selection, feature
creation
• Numerosity reduction (Data Reduction)
• Regression and Log-Linear Models
• Histograms, clustering, sampling
• Data cube aggregation
• Data compression
Data Transformation
• Proses yang mentransformasi nilai asli ke nilai baru
• Metode atau Pendekatan
• Smoothing: menghapus noise
• Attribute/feature construction
• Membuat atribut baru dari atribut yang sudah ada
• Aggregation
• Normalization
• min-max normalization
• z-score normalization
• normalization by decimal scaling
Studi Kasus (Data Titanic)
Atribut Numeric
Atribut Categorical
Kelas
Outliers?
Penutup
• Konsep Data → Data Preprocessing → Menangani missing value
• Kunci: Data Understanding (pemahaman terhadap data)
• Pahami atribut datanya.
• Meringkas data dengan mengidentifikasi karakteristik utama, seperti volume
data dan jumlah variabel dalam data.
• Pahami masalah dengan data, seperti nilai yang hilang, ketidakakuratan, dan
outliers.
• Visualisasikan data untuk memvalidasi karakteristik utama data atau gali
masalah dengan ringkasan statistik.
Referensi
1. Pang-Ning Tan, Michael Steinbach, Vipin Kumar, Introduction to Data Mining, Pearson,
2014
2. Jiawei Han, Micheline, Kamber, and Jian Pei, Data Mining: Concepts and Techniques (3
rd Edition), University of Illinois at Urbana-Champaign & Simon Fraser University, 2011
3. Salvador García, Julián Luengo, Francisco Herrera, Data Preprocessing in Data Mining,
Springer, 2015
4. Chastine Fatichah, Pengertian Data, Jenis dan Tipe Data, Deskripsi Data, Data
Preprocessing, Modul Pelatihan Microcredential Artificial Intelligence, 2021
5. Understanding The Data in Data Science, 3 Pillar Global,
https://www.3pillarglobal.com/insights/blog-posts/understanding-data-data-science/
Big Data Implementation at Fintech
Muhammad Saipul Rohman
Data Engineer
A glimpse
about
Linkaja
LinkAja 2020 3
… enabled by the support we receives from key stakeholders and SOEs
LinkAja 2020 4
LinkAja 2020 5
LinkAja 2020 6
Big Data
at
Linkaja
Oct 2019, Before the fun begins..
Vendor-driven Information retrieval No extended data

Scalability issues
development is challenging products
Where were we?
1. Monolithic architecture
Scalability issues
2. Architecture & network modification was a challenge
3. Hard to scale servers/engines
4. Infrastructure was not so easy to govern
5. No clear logging & monitoring system
6. Scattered databases
Now, Talking about the team
Vendor-driven
development
1. No internal resource, too much dependency to vendors
2. Communication is a challenge
3. No clear data strategy

Talking about classic problem
Information retrieval
is challenging 1. Not so consistent data
2. Metrics definitions are scattered all over the organization
3. Difficult to extend information influence through visualization
4. Democratizing data.. Are you kidding me?

Limited room for innovation
No extended data
products
1. Can not build AI/ML products
2. Can not do UI/UX & product experimentation

Moving All Data Infrastructure to Cloud
Scalability issues
Compute engine & networking
Storage and datawarehouse
Logging, monitoring, & IAM

Why we exist
The needs of Data unification, layering, & Talent pool demand to build big data
democratization capabilities, such as data engineering,
analytics & data governance, and AI/ML
Critical business activities require big data Requirement to advocate high quality and
technology, i.e. business decision, product secure data
development, & crucial operational works
What are our missions
1 2 3 4
Building a single source of Instil the organisation as a Empowering business with Building Artificial
truth of company data lake, whole with fit-for-purpose accessible and secure data Intelligence/Machine Learning
that is scalable, reliable, and data governance principles platform to extract the benefit products that produce high
with high availability from data driven culture business value
What we do and how we do it
Getting the basics perfect
We focus our access management on our

cloud assets
Our cloud assets are great, but we are the

ones optimizing them we try to do less of these… instead, we do these…
instant, in-the-moment requests structured, planned work

We are the experts in data, from storing it,
ad-hoc data retrieval data enablement and evangelism
accessing it, and everything in between. So
partner with us when using data working on requests with solution building and educating on
short-term thinking the most efficient and sustainable
outcome
Big Data Group
Big Data
Group
Data Data Platform AI/ML

Engineering & Core BI Platform
Data Solution Engineering Core BI & Reporting AI/ML Engineering

Data pipeline development, cross data Proactive data enablement by anticipating Bringing best-in-class of self-service AI/ML
sources integration, and data product business needs of self-service data access platform to support business in developing
enablement to support business decision & AI/ML model
operational optimization Product Analytics
Partnering with Product Owners and Product
AI/ML Scientist
Data Infrastructure Engineering Managers to empower the business in Proactively empowering AI/ML activities in
Build scalable & high performing data making product development data-driven providing business and product insights
infrastructure that enhances the efficiency decisions through simulation, intelligent pattern,
and productivity of the data environment and unstructured data insight
Data Governance
Raise awareness, build frameworks and enforce
activities of data quality and data security in all
data domains across the organisation
How Big Data
started ?
Evolution Big Data
5V of Big Data
Type of Data Source
Common roles in Data Teams
Big Data Architecture
• Lambda Architecture
• Kappa Architecture
Lambda Architecture
Example Lambda Architecture
Kappa Architecture
Streaming/ Streaming/
Data Analytical Analytics &
Real-time Real-time
Sources Ingestion Processing Data Store Reporting
Example Kappa Architecture
• DataWarehouse/Data Marts
Analytical • Data Lake
Data Store • Lakehouse
Data Warehouse VS Data Lake VS Lakehouse
Data Ingestion
Self service
Sources Datalake Datamart
playground
BI Reporting AI/ML
Democratization is nonsense without clear governance framework
We need to ensure the data is in high quality We need to ensure the data is secure
1. Plant airflow sensors in ingestion process

1. Looker dashboard for all individual &
service accounts access
2. Looker dashboard for ingestion processes 2. Platform security assessment

AI is useless if you have
scrappy foundation
Tertiary AI/ML
Reporting,
Secondary
Dashboard, &
Analytics
Primary
Data engineering
Use Case Big
Data at LinkAja
Tech Stacks and Production Components
Data Engineering Technology Ecosystems
Data Sources Persistence Layer
Data Pipelines
Databases
Streaming Infrastructure Google Big

Query
Excel
Connect Connect
Google
Files Batching Infrastructure Cloud Storage
API
Monitoring
Airflow
..... GCP Console
Dashboard
LinkAja 2020 41
Core Business Intelligence
Self-service platform
Data evangelist Visualisation Data enablement • Business data dictionary
• Operational data dashboard
• Query optimization how-to guide
Data linkage Business Business-
and data Intelligence focused
access dashboards enablement Government projects
consultant
• Kartu Prakerja disbursement
• Pegadian Emas integration with LinkAja
Data-driven
business Core reporting
advocate
Financial regulators partner
• Bank Indonesia reporting

• Data pipeline documentation
LinkAja 2020 22
Product Analytics and Experimentation
Analytics dashboards Product cataloguing Data-focused product

development
Customer segmentation Product Requirement Data points enablement

dashboards Document with data in mind during product development
Product categorization based

Product usage dashboards Event tracking analysis
on data
Performance dashboards
LinkAja 2020 43
Data Governance
Data quality centre of excellence
Data quality and security • Prioritisation of data of high importance and value
• Data quality tools and processes improvements
• Data ingestion flow metrics (work in progress!)
Adoption of data governance tools

Data governance policy Best in class • Maximum utilization of Google Cloud Platform built-
implementation tools in tools
• Bespoke data catalog tool (work in progress!)
Simplification through clear framework

Awareness- Business-focussed Data governance
building requirements framework • Optimising the number of user access groups
• Bespoke data catalog tool (work in progress!)
LinkAja 2020 44
• Building AI/ML Platform
AI/ML Engineering • Making AI/ML platform adoption easier
• Automation of AI/ML production
LinkAja 2020 45
AI/ML Scientist
Starting AI Guild as eKYC improvement NLP Project

internal community • Image quality metrics • Gender prediction
• ID card detection • Syariah recommendation
LinkAja 2020 46
Introduction
AI in day-by-day activities
Tantangan dan Ancaman
Overview:
Big Data Analytics – Data Science – Data Mining
AI Machine Learning
Deep Learning
Dan Ariely, 2013, Duke University
End Of Segment I
AI di PPATK
Kepegawaian
Kepatuhan
Pelaporan
Analisis
Transaksi
Pelaporan
Sentimen
Analisis
Keamanan
Informasi
dan lain lain …

AI di PPATK
Kepatuhan Analisis
Kepegawaian Pelaporan Sentimen Analisis Keamanan Data
Pelaporan Transaksi
Performa staff Prioritas Audit Skoring Chat Box Analisis berita Log analisis
layananbantuan
Seleksi pegawai Profiling pelapor Analisis TPA Evaluasi Text analisis

Laporan
Social Media analisis

Text matching
Profiling Pelaku
Sumber :
5Ws Model for Big Data Analysis and Sumber :
Visualization, IEEE 16th International Conference, 7 enablers , COBIT 5 - A Business Framework for the Governance and
University of Technology, Management of Enterprise IT
Sydney Australia, Tiajin University Tiajin China, 129-134
Jumlah data saat ini
Summary
❑ AI terbatas hanya sebuah konsep umum, implementasi dan metode yang digunakan serta
hal-hal teknis lainnya dibahas pada domain machine learning
❑ Selain computing power yang mumpuni, big data dengan kualitas data baik dan
metode/algoritma yang tepat adalah kunci keberhasilan machine learning
❑ Performa machine learning dapat ditingkatkan melalui perbaikan kualitas data, pemilihan
algoritma yang tepat, melakukan tuning dan menerapkan metode ensemble.
❑ AI berpotensi meningkatkan produktivitas, efisiensi dan akurasi hampir di semua bidang

sehingga mampu mengurangi biaya operasi dan juga sumber daya manusia.
❑ AI memiliki manfaat dan dampak yang besar, namun tantangan implementasinya perlu
dipersiapkan dengan matang karena AI membutuhkan resource yang besar.
End Of Segment II
Contoh Implementasi Machine Learning
Tujuan:
Melakukan Pemodelan Machine Learning untuk memprediksi data transaksi keuangan merupakan transaksi wajar atau mencurigakan
Deskripsi Data
• Nama: Data Transaksi Keuangan
• Jumlah Baris Data: 10.660
• Jumlah Kolom Data: 32
• Sumber Data: Direktorat Pengawasan Kepatuhan
Tahapan Implementasi
Pemodelan
Machine
Learning
Logistic
Split Data Regression
Model Hasil Prediksi

Train (70 %)
K-NN Prediksi (Data Train)
Pemilihan
Eksplorasi dan Random Evaluasi
Data Perankingan Forest Akurasi
Variabel
Hasil Prediksi
Test (30%)
(Data Test)
Eksplorasi Data
Box Plot Variabel Data Transaksi Keuangan
Pemilihan dan Perankingan Variabel
Hasil Perankingan*
Variabel Ranking
MAX_TRANSAKSI_DEBET 1
Recursive Feature Elimination (RFE)
MAX_TRANSAKSI_KREDIT 2
AVG_TRANSAKSI_DEBET 3
SUM_TRANSAKSI_DEBET 4
SUM_TRANSAKSI_KREDIT 5
RFE pada dasarnya adalah proses rekursif
KENAIKAN_PORTOFOLIO 6 yang meranking fitur berdasarkan tingkat
AVG_TRANSAKSI_KREDIT 7
pentingnya terhadap proses prediksi. Pada
SUM_PORTOFOLIO_YYYY 8
MAX_SETOR_TUNAI 9 setiap iterasi, ranking pentingnya fitur diukur
COUNT_TRANSAKSI_DEBET 10 dan fitur yang kurang relevan dihilangkan.
SUM_PORTOFOLIO_XXXX 11
AVG_SETOR_TUNAI 12
SUM_SETOR_TUNAI 13
COUNT_TRANSAKSI_KREDIT 14
JUMLAH_REKENING 15
COUNT_SETOR_TUNAI 16
SUM_TARIK_TUNAI 17
MAX_TARIK_TUNAI 18
TEMPAT_LAHIR_TEMPAT_KE
19
DUDUKAN
PENGHASILAN 20
PEKERJAAN 21
COUNT_TARIK_TUNAI 22
AVG_TARIK_TUNAI 23
NAMA_ESELON 24
HUBUNGAN 25 *diurutkan dari nilai kepentingan tinggi ke rendah
JENIS_KELAMIN 26
Split Train – Test Data
Tabel Split Data Train - Test
Jumlah Transaksi Jumlah Transaksi

Wajar (Kode 1) Mencurigakan (Kode 0)
Train 3573 3889
Test 1528 1670
Pembentukan Model
Logistic Regression K-NN Random Forest
Logistic Regression K-NN menggunakan pendekatan

Random Forest membuat sejumlah
menggunakan pendekatan sejumlah K data terdekat
kemungkinan pohon keputusan
perhitungan statistika (tetangganya) yang
(decision tree) untuk kemudian
menggunakan fungsi memiliki similarity atau
divoting untuk menentukan
logistik untuk memodelkan kemiripan sebagai acuan untuk
klasifikasi terbaik.
klasifikasi variable. menentukan klasifikasi
Hasil Prediksi
Keterangan:
• True - Positif: Model memprediksi transaksi wajar dan itu benar.
• True - Negatif: Model memprediksi transaksi mencurigakan dan itu benar
• False - Positif: Model memprediksi transaksi wajar tetapi sebenarnya transaksi
mencurigakan
• False - Negatif: Model memprediksi transaksi mencurigakan tetapi sebenarnya
transaksi wajar
Evaluasi Model
Rumus Perhitungan Akurasi =
Tabel Perbandingan Hasil Akuras Model
Model Nilai Akurasi

Logistic Regression 0.616635397123202
K-NN 0.9055659787367104
Random Forest 0.9821763602251408
DEMO MODEL
24
BIG
Data
Issue
Problem
Opportunity
THANKS
DATA MINING
Sulistyo Puspitodjati
AGENDA
Data dan Data Preparation
Konsep Data Mining
Data Mining Task
Data Mining tools dan Implementasi

AGENDA
Data dan Data

Preparation
DATA
Data object (objek data), disebut

Dataset, merupakan kumpulan dari juga record, point, vector, pattern,
objek data yang merepresentasikan event, case, sample, observasi, atau
sebuah entitas entity. Data object dijelaskan oleh
sejumlah atribut
Atribut, properti atau karakteristik

suatu objek yang dapat berbeda- Atribut disebut juga variabel,
beda, baik dari satu objek ke objek karakteristik, field, kolom, fitur,
lainnya maupun dari satu waktu ke atau dimensi
waktu lainnya.
Big Data?
Tantangan: Percepatan Big Data Analytics
Source:OpenAINVIDIA
AGENDA
Konsep Data Mining
Data Mining Task

AGENDA
Konsep Data
Mining
• Pertumbuhan data eksplosif: dari terabytes (1012 )
Why Data Mining? ke petabytes 1015 )/day
• Pengumpulan dan ketersediaan data
• Automated data collection tools, database
systems, Web, computerized society
• Sumber utama melimpahnya data

• Business: Web, e-commerce, transactions, stocks, …
• Science: Remote sensing, bioinformatics, scientific
simulation, …
• Society and everyone: news, digital cameras, YouTube
We are drowning in data, but starving
for knowledge! (John Naisbit, 1982) • “Necessity is the mother of invention”—Data
mining—Automated analysis of massive data sets
13
Evolusi Sains
• Sebelum 1600, empirical science
• 1600-1950s, theoretical science
• Model teoritis memicu eksperimen-eksperimen untuk genaralisasi
• 1950s-1990s, computational science
• Ilmu komputasional secara tradisional bermakna simulasi
• tumbuh dari ketidakmampuan untuk memcahkan model matematika kompleks.
• 1990-now, data science
• Banjir data dari instrument sainstifik dan simulasi
• Kemampuan menyimpan dan mengelola petabytes data online
• Internet & grid computing membuat semua dapat mudah diakses.
• Skala tugas pengelolaan, akusisi, oragnisasi , query, dan visualisasi dari informasi saintifik
linier dengan volume data ➔ data mining adalah suatu tantangan
(Jim Gray and Alex Szalay, The World Wide Telescope: An Archetype for Online Science, Comm. ACM, 45(11): 50-54, Nov. 2002)
14
Evolusi Teknologi Basis data
• 1960s:
• Data collection, database creation, IMS and network DBMS
• 1970s:
• Relational data model, relational DBMS implementation
• 1980s:
• RDBMS, advanced data models (extended-relational, OO, deductive, etc.)
• Application-oriented DBMS (spatial, scientific, engineering, etc.)
• 1990s:
• Data mining, data warehousing, multimedia databases, and Web databases
• 2000s
• Stream data management and mining
• Data mining and its applications
• Web technology (XML, data integration) and global information systems
15
WHAT IS DATA MINING?
• Data mining adalah proses eksplorasi dan analisa data besar untuk diperoleh
pola dan aturan yang berarti.
• Nama alternatif
Knowledge discovery (mining) in databases (KDD), knowledge extraction,
data/pattern analysis, data archeology, data dredging, information harvesting,
business intelligence, etc.
16
PROSES KNOWLEDGE DISCOVERY (KDD)
Pattern Evaluation
Data Mining
Task-relevant Data
Data Warehouse Selection
Data Cleaning
Data Integration
Databases 17
Contoh: Web Mining Framework
• Web mining biasanya melibatkan proses

— Data cleaning
— Data integration dari berbagai sumber
— Warehousing data
— Konstruksi Data cube
— Data selection untuk data mining
— Data mining
— Presentasi hasil mining
— Patterns dan knowledge yang akan digunakan disimpan dalam knowledge-
base
18
Contoh: Proses Data Mining dalam Business Intelligence
Increasing potential
to support
business decisions End User
Decision
Making
Data Presentation Business

Analyst
Visualization Techniques
Data Mining Data
Information Discovery Analyst
Data Exploration
Statistical Summary, Querying, and Reporting
Data Preprocessing/Integration, Data Warehouses

DBA
Data Sources
Paper, Files, Web documents, Scientific experiments, Database Systems
19
KDD Process: Sudut pandang Machine Learning dan Statistik
Input Data Data Pre- Data Post-

Processing Mining Processing
Data integration Pattern discovery Pattern evaluation

Normalization Association & correlation Pattern selection
Feature selection Classification Pattern interpretation
Clustering
Dimension reduction Pattern visualization
Outlier analysis
…………
• This is a view from typical machine learning and statistics communities
20
Contoh: Medical Data Mining
• Health care & medical data mining – mengadopsi sudut pandang
statistics dan machine learning, proses yang dilakukan:
1.Preprocessing data: mis. feature extraction atau dimension
reduction
2.Classification atau clustering processes
3.Post-processing untuk presentasi
21
Data Mining dapat dipandang dari berbagai dimensi:
• Data yang akan di-mining
• Database data (extended-relational, object-oriented, heterogeneous,
legacy), data warehouse, transactional data, stream, spatiotemporal, time-
series, sequence, text and web, multi-media, graphs & social and
information networks
• Knowledge yang akan di-mining (atau Data mining functions/tasks)
• Characterization, discrimination, association, classification, clustering,
trend/deviation, outlier analysis, etc.
• Descriptive vs. predictive vs prescriptive data mining
• Multiple/integrated functions and mining at multiple levels
• Techniques utilized
• Data-intensive, data warehouse (OLAP), machine learning, statistics,
pattern recognition, visualization, high-performance, etc.
• Diterapkan di
• Retail, telecommunication, banking, fraud analysis, bio-data mining, stock
market analysis, text mining, Web mining, etc.
22
DATA MINING: pada DATA?
• Database-oriented data sets and applications
• Relational database, data warehouse, transactional database
• Advanced data sets and advanced applications

• Data streams and sensor data
• Time-series data, temporal data, sequence data (incl. bio-sequences)
• Structure data, graphs, social networks and multi-linked data
• Object-relational databases
• Heterogeneous databases and legacy databases
• Spatial data and spatiotemporal data
• Multimedia database
• Text databases
• The World-Wide Web
23
AGENDA
Konsep Data Mining
Data Mining Task

AGENDA
Data Mining Task

DATA MINING TASKS
• Prediction Tasks
• Menggunakan beberapa variable untuk memprediksi nilai yang
belum diketahui berdasarkan variabel veriabel tersebut.
• Description Tasks
• Menjelaskan data untuk memudahkan interptretasi pola data
• Prescriptive tasks
• Menyarankan aksi-aksi beserta hasil (outcomes) yang potensial
dari setiap aksi
Contoh data mining tasks
• Classification [Predictive]
• Clustering [Descriptive]
• Association Rule Discovery [Descriptive]
• Sequential Pattern Discovery [Descriptive]
• Regression [Predictive]
• Deviation Detection [Predictive]
DATA MINING FUNCTION: GENERALIZATION
• Data dan objects dalam databases mengandung informasi detail
pada level konsep primitive.
• Contoh, item relation dalam database sales dapat mempunyai
attributes yang menjelaskan informasi level rendah seperti item_ID,
name, brand, category, supplier, place_made and price.
• Jadi penting untuk meringkas (summarize) dari data besar dan
dinyatakan dalam level konseptual
• Contoh, summarizing dari set item yang berhubungan dengan
musim Lebaran
• Data penjualan yang menjelaskan secara umum hasil ringaksan
musim tertentu, akan sangat membantu manager sales dan
marketing
DATA MINING FUNCTION: GENERALIZATION Process
• Information integration and data warehouse construction
• Data cleaning, transformation, integration, and multidimensional data
model
• Data cube technology
• Scalable methods for computing (i.e., materializing) multidimensional
aggregates
• OLAP (online analytical processing)
• Multidimensional concept description: Characterization and discrimination
• Generalize, summarize, and contrast data characteristics, e.g., dry vs. wet
region
28
DATA MINING FUNCTION: ASSOCIATION AND CORRELATION
ANALYSIS
• Pola yang sering muncul (Frequent patterns or frequent itemsets)
• Barang (items) apa yang sering dibeli secara bersamaan?
• Association, correlation vs. causality
• Contoh bentuk aturan asosiasi
• Diaper → Beer [0.5%, 75%] (support, confidence)
• strongly associated items ➔ strongly correlated?
• Bagaimana menambang (mining) pola dan aturan seperti ini dalam suatu data
besar secara efisien?
• Bagaimana pola terbut untuk classification, clustering, applications yang lain?
29
Association Rule Discovery: Definition
• Given a set of records each of which contain some number of

items from a given collection;
• Menghasilkan aturan dependensi yang memprediksi kejadian
(occurrence)suatu item berdasarkan kejadian item lain
TID Items
1 Bread, Coke, Milk
Rules Discovered:
2 Beer, Bread {Milk} --> {Coke}
3 Beer, Coke, Diaper, Milk {Diaper, Milk} --> {Beer}
4 Beer, Bread, Diaper, Milk
5 Coke, Diaper, Milk
Association Rule Discovery: Application
❑ Manajemen Rak di Supermarket.

▪ Tujuan: mengidentifikasi items yang dibeli bersamaan oleh banyak
customer
▪ Pendekatan: lakukan mining aturan asosiasi
▪ Contoh klasik, ditemukan aturan:
• customer yang membeli diaper dan susu, maka mempunyai kecenderungan
membeli beer :
DATA MINING FUNCTION: CLASSIFICATION
• Classification dan prediksi (atribut) label
• Membuat models (functions) berdasarkan beberapa training examples
• Menjelaskan dan menentukan class atau konsep untuk prediksi
• Mis., mengklasifikasi desa/wilayah berdasarkan cuaca, atau mengklasifikasi
kendaraan berdasarkan penggunaan bahan bakarnya.
• Memprediksi atribut label class yang tidak diketahui
• Beberapa contoh metode:
• Decision trees, naïve Bayesian classification, support vector machines, neural
networks, rule-based classification, pattern-based classification, logistic regression, …
• Aplikasi :
• Credit card fraud detection, direct marketing, classifying stars, diseases, web-pages,
…
32
Classification: Definisi
• Berdasarkan sejumlah record (training set )

• Tiap record (data) mempunayi beberapa varaibel (attributes), salah satu atributnya diberi
label class.
• Suatu model ditentukan untuk atribut class sebagai fungsi dari nilai
atribut-atribut lain
• Tujuan: memperdiksi nilai class yang belum diketahui dari suatu
record seakurat mungkin berdasarkan model tersebut diatas.
• test set digunakan sebagai model akurasi. Umumnya data set yang dipunya dibagi menjadi
training set dan test set. Kemudian test set digunakan untuk memvalidasi model
Classification Example
Tid Refund Marital Taxable Refund Marital Taxable

Status Income Cheat Status Income Cheat
1 Yes Single 125K No No Single 75K ?

2 No Married 100K No Yes Married 50K ?
3 No Single 70K No No Married 150K ?
4 Yes Married 120K No Yes Divorced 90K ?
5 No Divorced 95K Yes No Single 40K ?
6 No Married 60K No No Married 80K ? Test
7 Yes Divorced 220K
10
Set
No
8 No Single 85K Yes
9 No Married 75K No Learn
Training
10 No Single 90K Yes Model
10
Set Classifier
Classification: Application 1
• Direct Marketing
• Goal: Reduce cost of mailing by targeting a set of consumers likely to buy a
new cell-phone product.
• Approach:
• Use the data for a similar product introduced before.
• We know which customers decided to buy and which decided otherwise. This {buy, don’t
buy} decision forms the class attribute.
• Collect various demographic, lifestyle, and company-interaction related information
about all such customers.
• Type of business, where they stay, how much they earn, etc.
• Use this information as input attributes to learn a classifier model.
• Fraud Detection
• Goal: Predict fraudulent cases in credit card transactions.
• Approach:
• Use credit card transactions and the information on its account-holder as attributes.
• When does a customer buy, what does he buy, how often he pays on time, etc
• Label past transactions as fraud or fair transactions. This forms the class attribute.
• Learn a model for the class of the transactions.
• Use this model to detect fraud by observing credit card transactions on an account.
• Customer Attrition/Churn:
• Goal: To predict whether a customer is likely to be lost to a competitor.
• Approach:
• Use detailed record of transactions with each of the past and present customers, to find
attributes.
• How often the customer calls, where he calls, what time-of-the day he calls most, his financial
status, marital status, etc.
• Label the customers as loyal or disloyal.
• Find a model for loyalty.
• Sky Survey Cataloging

• Goal: To predict class (star or galaxy) of sky objects, especially visually faint
ones, based on the telescopic survey images (from Palomar Observatory).
• 3000 images with 23,040 x 23,040 pixels per image.
• Approach:
• Segment the image.
• Measure image attributes (features) - 40 of them per object.
• Model the class based on these features.
• Success Story: Could find 16 new high red-shift quasars, some of the farthest objects that
are difficult to find!
Classifying Galaxies
Early Class: Attributes:
• Stages of Formation • Image features,
• Characteristics of light
waves received, etc.
Intermediate
Late
Data Size:
• 72 million stars, 20 million galaxies
• Object Catalog: 9 GB
• Image Database: 150 GB
DATA MINING FUNCTION: CLUSTER ANALYSIS
• Unsupervised learning (i.e., Class label is unknown)
• Mengelompokkan data untuk membentuk kategori baru. (i.e., clusters), mis.
Mengelompokkan data citra (gambar) untuk menentukan distribusi pola
• Prinsip: Memaksimumkan similaritas intra-class & meminimumkan similaritas
interclass
• Many methods and applications
40
Clustering: Definisi
• Diberikan sejumlah data point, yang masing-

masingnya mempunyai sejumlah atribut, dan
similaritasnya dihitung antar mereka, tentukan
kelompok (cluster) sedemikian sehingga
— point (data) dalam satu cluster akan mirip (similar) satu
sama lain, namun
— point (data) dalam cluster yang berbeda akan tidak mirip
satu sama lain
• Pengukur Similaritas :
• Euclidean Distance untuk attributes bernilai kontinyu
• Other Problem-specific Measures.
Illustrating Clustering
Euclidean Distance Based Clustering in 3-D space.
Intracluster distances Intercluster distances

are minimized are maximized
Clustering: Application 1
• Market Segmentation:
• Goal: membagi pasar menjadi beberapa bagian pelanggan yang berbeda
untuk dicapai dengan bauran pemasaran yang berbeda
• Pendekatan:
• Kumpulkan berbagai atribut pelanggan berdasarkan informasi terkait geografis dan gaya
hidup mereka
• Cari cluster dari pelanggan yang similar
• Ukur kualitas clustering dengan mengamati pola pembelian dari cluster yang sama dan
dari semua cluster yang berbeda
Clustering: Application 2
• Document Clustering:
• Goal: menentukan groups of documents yang similar berdasarkan term
(istilah) penting yang muncul.
• Approach: Mengidentifikasikan terms yang sering muncul diseitiap document.
Hitung similarity berdasarkan frequencies dari term yang berbeda, gunakan
untuk clustering.
• Gain: Information Retrieval yang dapat digunakan the clusters to relate a new
document or search term to clustered documents.
DATA MINING FUNCTION: (5) OUTLIER ANALYSIS
• Outlier analysis
• Outlier: data object yang tidak sesuai dengan perilaku umum
data tersebut
• Noise (derau) atau pengecualian? ― One person’s garbage
could be another person’s treasure
• Metode: product of clustering, analisa regresi, …
• Berguna untuk fraud detection, rare events analysis
45
Time and Ordering: Sequential Pattern, Trend and Evolution Analysis
• Sequence, trend and evolution analysis
• Trend, time-series, and deviation analysis: e.g., regression and
value prediction
• Sequential pattern mining
• e.g., first buy digital camera, then buy large SD memory cards
• Periodicity analysis
• Motifs and biological sequence analysis
• Approximate and consecutive motifs
• Similarity-based analysis
• Mining data streams
• Ordered, time-varying, potentially infinite, data streams
46
emprediksi nilai variabel bernilai kontinu tertentu berdasarkan nilai variabel lain, dengan asumsi model ketergant
REGRESSION
• Memprediksi suatu nilai kontinyu berdasarkan nilai variable
lain, dengan asumsi model dependensi linier atau nonlinier.
• Banyak dilakukan di ilmu statistics, dan bidang neural network f
• Contoh:
• Memprediksi penjualan produk baru berdasarkan pengeluaran promosi
(iklan).
• Memprediksi kecepatan angin sebagai fungsi dari temperature,
humidity, air pressure, dll.
• Time series prediction dari stock market indices.
ANALISA STRUKUR DAN JARINGAN
• Graph mining
• Menetukan subgraph yang kerap muncul (mis., senyawa kimia),, trees (XML),
substructures (web fragments)
• Information network analysis
• Social networks: actors (objects, nodes) and relationships (edges)
• e.g., author networks in CS, terrorist networks
• Multiple heterogeneous networks
• A person could be multiple information networks: friends, family, classmates, …
• Links mengandung informasi semantik: link mining
• Web mining
• Web adalah information network yang besar: contoh PageRank pada Google untuk
searching
• Analisa Web information networks
• Web community discovery, opinion mining, usage mining, …
48
Evaluasi Knowledge
• Apakah semua “knowledge” yang ditemukan menarik?
• Some may fit only certain dimension space (time, location, …)
• Some may not be representative, may be transient, …
• Evaluation of mined knowledge → directly mine only interesting

knowledge?
• Descriptive vs. predictive vs. prescriptive
• Coverage
• Typicality vs. novelty
• Accuracy
• Timeliness
• …
• Gunakan summarization dan Visualization agar mudah dipahami

49
DATA MINING: PERTEMUAN BERBAGAI DISIPLIN ILMU
Machine Pattern Statistics

Learning Recognition
Applications Data Mining Visualization
Algorithm Database High-Performance

Technology Computing
50
AGENDA
Konsep Data Mining
Data Mining Task

AGENDA
Data Mining
tools dan
Implementasi
IMPLEMENTASI DATA MINING
▪ Search Engine
▪ Advertising
▪ Customer Relationship Management (CRM)
▪ Database Marketing
▪ eCommerce
▪ Health Care
▪ Investment/Securities
▪ Manufacturing, Process Control
▪ Sports and Entertainment
▪ Telecommunications
▪ Web
▪ etc
SEARCH ENGINE
• Search engine merupakan alat yang digunakan untuk mencari informasi yang
ada di internet
• Seluruh data yang ada di internet disimpan dalam bentuk indeks, sehingga jika
ada pencarian informasi dapat direferensikan dari indeks – indeks tersebut.
• Konsep kerja search engine
• Crawl adalah proses pencarian konten baru dan konten yang perlu
diperbaharui dengan mengirimkan crawler ke seluruh konten yang
ditemukan dari tautan halaman.
• Index adalah penyimpanan informasi dari konten yang ditemukan berupa
indeks, ketika konten tersebut telah diindeks, maka halaman tersebut dapat
muncul sebagai hasil dari proses pencarian.
• Rank adalah mengurutkan hasil proses pencarian dari tingkat relevan
tertinggi.
Microarrays:
Classifying Leukemia
• Leukemia: Acute Lymphoblastic (ALL) vs Acute Myeloid (AML),
Golub et al, Science, v.286, 1999
• 72 examples (38 train, 34 test), about 7,000 genes
ALL
AML
Visually similar, but genetically very different
Best Model: 97% accuracy,

1 error (sample suspected mislabelled)
55
Application:CRM
(Customer Relationship Management)
• Data Mining sering disebut dengan data atau Knowledge
Discovery, yaitu merupakan proses menemukan pola
tersembunyi pada suatu data.
• CRM (Customer Relationship Management) merupakan
strategi bisnis yang memadukan proses, manusia dan
teknologi.
• Tujuan dari CRM adalah untuk mengetahui sebanyak mungkin
tentang bagaimana kebutuhan dan perilaku pelanggan.
56
CRM
• Hubungan antara CRM dan data mining terjadi karena
menghadapi fakta makin banyaknya competitor dan makin
banyaknya permintaan konsumen.
• Data mining dan CRM mempunyai tujuan yang sama yaitu
menemukan yang dibutuhkan konsumen, kepuasan dan
kesetiaan konsumen serta profit.
• Contoh
• Mencegah jumlah pelanggan menutup akunnya di suatu bank
(reducing attrition rate)
Application: e-Commerce
• Amazon.com recommendations
• if you bought (viewed) X, you are likely to buy Y
• Netflix
• If you liked "Monty Python and the Holy Grail",
you get a recommendation for "This is Spinal Tap"
• Comparison shopping
• Amazon Sponsored Products, Google Shopping, BizRat, …
58
Application:
Security and Fraud Detection
• Credit Card Fraud Detection
• over 20 Million credit cards protected by
Neural networks (Fair, Isaac)
• Securities Fraud Detection
• NASDAQ KDD system
• Phone fraud detection
• AT&T, Bell Atlantic,
British Telecom/MCI
59
Data mining tools
Orange
• open source component-based software dalam bahasa
pemrograman Python.
• Sering digunakan untuk anlisa dasar data mining analysis
• Menawarkan fitur preprocess data yang baik.
RapidMiner
• open source component-based software dalam Java
• Sering digunakan untuk “predictive analysis”
• Menawarkan integrated environments untuk “machine learning”,
“deep learning”, dan “text mining”.
Data mining tools
Mahout
• open source platform dikembangkan oleh “Apache”.
• Sering untuk unsupervised learning process
• machine learning algorithms untuk clustering, classification dan collaborative
filtering.
MicroStrategy
• adalah business intelligence and data analytics software mencakup semua data
mining models
• platform yang menawarkan beragam drivers dan gateways yang dapat terhubung
ke semua enterprise resource
• analyze complex big data dengan metransformasikan ke visualisasi yang mudah
diakses
• Mudah dibagikan ke seluruh organisasi (easy sharing)
Recommended Reference Books
• J. Han and M. Kamber. Data Mining: Concepts and Techniques. Morgan Kaufmann, 3 rd ed., 2011
• T. Hastie, R. Tibshirani, and J. Friedman, The Elements of Statistical Learning: Data Mining,
Inference, and Prediction, 2nd ed., Springer-Verlag, 2009
• B. Liu, Web Data Mining, Springer 2006.
• G. Piatetsky-Shapiro and W. J. Frawley. Knowledge Discovery in Databases. AAAI/MIT Press,

1991
• P.-N. Tan, M. Steinbach and V. Kumar, Introduction to Data Mining, Wiley, 2005
• I. H. Witten and E. Frank, Data Mining: Practical Machine Learning Tools and Techniques with
Java Implementations, Morgan Kaufmann, 2nd ed. 2005
62
 Segment 1
◦ Pendahuluan Machine Learning
 Segment 2
◦ Supervised Learning
 Segment 3
◦ Implementasi/Aplikasi Machine Learning
 Interaksi dalam bermasyarakat menghasilkan data dalam
jumlah yang sangat besar
– Bidang transportasi, kedokteran, keuangan,
Computer Vision, marketplace dll
 Perlu teknik tertentu untuk mengekstrak informasi dari

data mentah
– Data: fakta-fakta yang tercatat
– Informasi: pola-pola stuktural yang ada pada data,
misal keterhubungan (relationships) atau
ketergantungan (depedencies)
 in vitro fertilization
– Diberikan: embrio yang dideskripsikan oleh 60
fitur
– Masalah: pemilihan embrio yang akan bertahan
hidup
– Data: fakta historis dari embrio dan hasil akhir
 Cow culling
– Diberikan: sapi yang dideskripsikan oleh 700 fitur
– Masalah: pemilihan sapi yang akan dimusnakan
– Data: fakta historis dari sapi dan keputusan
peternak
Pola-pola struktur yang ada pada suatu koleksi
data (knowledge) dapat direpresentasi dalam
bentuk:
– Tabel
– Aturan (If-then Rules)
– Pohon (Decision Trees)
– Fungsi → Model Linear
– Instance
Aturan jika-maka
 Memahami keterhubungan (relationships) dan ketergantungan
(depedencies) dalam suatu koleksi data adalah suatu aspek yang
sangat penting dalam menganalisa data untuk mengekstrak
informasi yang ada pada data tersebut.
 Deskripsi struktural tersebut dapat digunakan untuk:
– Memprediksi output pada suatu situasi yang baru
– Memahami dan menjelaskan bagaimana prediksi tersebut
dihasilkan
 Ketika tidak ada pendekatan pemodelan (modelling approaches)
yang mudah untuk melakukan hal tersebut, maka metode-metode
cerdas, dikenal juga dengan nama machine learning, Menjadi
solusi alternatif
 Machine Learning adalah metode yang dapat belajar dari
data (data-driven method) sehingga menjadi cerdas.
Cerdas dalam artian memiliki kemampuan generalisasi
terhadap data baru yang belum dipelajari sebelumnya.
 Dalam tataran metode, belajar adalah proses penentuan

nilai parameter-parameter dari metode tersebut.
 Pengembangan metode-metode machine learning

menggunakan ide-ide dari: Mathematics, Statistics,
Computer Science, Computational Neuroscience, Cognitive
Science, Psychology
Related Fields
data
miningComputer Science
statistics
decision theory
information theory machine
learning cognitive science
databases
psychological models
Mathematicsneuroscience
Diberikan data training, misal xi , I sd N
 Preprocessing : pemilihan/ekstraksi fitur dari data, misal xi=(x1, x2, …xD)T
 Learning : penentuan parameter metode, misal w, berdasarkan data
pelatihan
 Testing : pengujian metode dengan data baru. Data penguji (testing data)
tersebut harus dilakukan preprocessing yang sama dengan data
pembelajaran sebelum dieksekusi oleh metod
 Training set : kumpulan data yg sudah dipastikan
kebenarannya, dr sisi label, data awal, komponen2
data yg akan dijadikan kunci,
 Instance: bagian dr training set, sample training set
seperti doc/gambar/video
 Feature/attribut: ciri2 dr masing2 sample
Smartphone: ciri:memiliki layar, kamera, tombol,
 Feature vektor: ciri2 yang ditranslasikan dalam
bentuk vektor, ex, jika mengandung layar diset dgn
1, ukuran disesuaikan dgn jumlah ciri yag akan
diextrak,
 Feature extraction: sebuah proses yg
mempersiapkan data sehingga data tsb bisa kita
extract cirinya menjadi suatu vektor
 Langkah pertama dalam tahapan
preprocessing adalah pemilihan fitur (feature
selection) dari data. Selanjutnya, data dapat
direpresentasi dalam bentuk vektor, matrik
atau tensor.
 Misal: pada perekomendasian jenis contact

lens, fitur-fitur tersebut adalah age, spectacle
prescription, astigmatism, tear production
rate. Sehingga, data dapat direpresentasikan
dalam bentuk vektor.
 Pemilihan fitur sangat mempengaruhi proses
pembelajaran, baik dari segi kemudahan, kecepatan,
maupun akurasi.
 Pemilihan fitur-fitur dari fitur-fitur yang ada dikenal juga

dengan istilah ekstraksi fitur (feature extraction).
 Ekstraksi fitur erat kaitannya dengan mereduksi dimensi

input (dimensionality reduction) untuk mengatasi masalah
komputasi yang dikenal dengan istilah curse
dimensionality problem
 verifikasi data terhadap data dengan melakukan visualisasi

terhadap data tersebut
 Supervised Learning
Data pelatihan disertai target, yaitu {xi,t}, i = 1 sd N.
Tujuan pembelajaran adalah membangun model yang
dapat menghasilkan output yang benar untuk suatu data
input, misal untuk pengklasifikasian (classification),
regresi (regression), ranking.
 Unsupervised Learning
Data pelatihan tidak disertai target, yaitu {xi,t}, i = 1 sd N.
Tujuan pembelajaran adalah membagun model yang dapat
menemukan komponen/variabel/fitur tersembunyi pada
data pelatihan, yang dapat digunakan untuk:
pengelompokan (clustering), reduksi dimensi (dimension
reduction), rekomendasi, dll
 Kinerja Metode diukur berdasarkan kemampuan
generalisasinya, yaitu akurasi pada data yang tidak
digunakan pada tahap pelatihan, yang disebut juga
dengan istilah kapabilitas generalisasi
(generalization capability).
– Data dibagi menjadi dua bagian, yaitu data training

dan data testing
– Kapabilitas generalisasi diukur pada data yang tidak
terlibat dalam pembentukan model, yaitu data testing.
Kapabilitas generalisasi digunakan sebagai dasar
tingkat kepercayaan pada hasil yang diberikan oleh
suatu model
– Selanjutnya, data training dan data testing digabung
menjadi data training baru yang akan digunakan untuk
membangun model baru untuk penggunaan aktual
1. Supervised Learning
2. Unsupervised Learning
3. Reinforcement learning
 Regresi
– Nilai output ti bernilai kontinu (riil)
– Bertujuan memprediksi output
dengan akurat untuk data baru
– Contoh: Prediksi kinerja CPU
 Klasifikasi
– Nilai output ti bernilai diskrit (kelas)
– Bertujuan mengklasifikasi data baru
dengan akurat
– Contoh: Klasifikasi jenis contact lens
 Apply a prediction function to a feature
representation of the image to get the desired
output:
f( ) = “apple”
f( ) = “Pear”
f( ) = “tomato”
f( ) = “cow”
Slide credit: L. Lazebnik

Training set (labels known) Test set (labels
unknown)
y = f(x)
output prediction Image

function feature
 Training: Diberikan training set berlabel {(x1,y1), …,

(xN,yN)}, akan diestimasi fungsi prediksi f dengan
meminimumkan eror dari prediksi pada training set
 Testing: pengaplikasian fungsi f pada data testing x
untuk dilakukan prediksi y = f(x)
Slide credit: L. Lazebnik

Training Training
Labels
Training Images
Image Learned
Training
Features model
Testing
Image Learned
Prediction
Features model
Test Image
 Supervised Learning.
Linear Model; Neural Networks; Metode Kernel,
Radial Basis Function Network; Support Vector
Machine: Classification, Regression, Ranking,
Ordinal Regression, Density, Estimation
 Unsupervised Learning.
K-Means; Principal Component Analysis (PCA);
Independent Component Analysis (ICA); Latent
Semantic Analysis (LSA); Matrix Factorization
 Semisupervised Learning
 Reinformance Learning
 Model linear adalah kombinasi linear dari
fungsi nonlinear dari variabel input (fungsi
basis):
𝑀−1
𝑦 𝑥, 𝑤 = ෍ 𝑤𝑗 φ𝑗 𝑥 = 𝑤 𝑇 φ𝑗
𝑗=0
 Ada banyak pilihan yang mungkin untuk

fungsi basis f(x), misal fungsi linear, fungsi
polinomial, fungsi gaussian, fungsi sigmoidal,
dll
Diberikan data training 𝑥𝑖 , 𝑡𝑖 , 𝑖 = 1, . . 𝑁
 Masalah: bagaimana mendapatkan

kurva polinomial yang cocok untuk
data pelatihan tersebut
 Solusi: mencari kurva polinomial yang

memiliki kesalahan (error) terkecil
pada data pelatihan tersebut
 Persoalan ini sering juga disebut

sebagai polynomial curve fitting
 Salah satu fungsi error yang
sering digunakan adalah fungsi
sum-of-squares error sbb:
𝑁
1 2
𝐸 𝑤 = ෍ 𝑦 𝑥𝑛 , 𝑤 , 𝑡𝑛
2
𝑛=1
 Salah satu metode yang

digunakan untuk mencari nilai
w yang meminimumkan fungsi
error adalah metode kuadrat
terkecil (least squares)
 Setelah penurunan E(w) terhadap w, maka
persoalan penentuan nilai parameter w
menjadi persoalan penentuan solusi sistem
persamaan linear:
𝐴𝑤 = 𝑡
dimana
 Karakteristik model regresi linear polinomial
ditentukan oleh nilai M (orde polinomial atau
jumlah parameter). Pemilihan nilai M yang
optimal dikenal juga dengan istilah pemilihan
model (model selection)
 Ada kalanya terjadi kesalahan pemilihan
model sehingga terjadi overfitting atau
underfitting
 Pada aplikasi praktis, kita sering menemukan
kondisi dimana untuk persoalan yang kompleks
ketersediaan data pembelajaran terbatas.
 Salah satu teknik yang digunakan untuk

mengkontrol fenomena over-fitting adalah
regularisasi (regularization), yaitu dengan cara
menambah finalti ke fungsi error.
 Regularisasi dapat dilakukan melalui

penghalusan kurva dan mengecilkan nilai bobot
 Data: Data tentang informasi keuangan dan personal
 Pertanyaan: layakkah untuk diberi pinjaman ?

◦ Metode statistik sederhana dapat menjawab hampir 90%
kasus
◦ Kasus-kasus pada garis batas (borderline) ditentukan oleh
tenaga ahli yang berwenang
◦ Akan tetapi, 50% kasus-kasus pada garis batas yang diberi
pinjaman gagal dalam pengembalian
 Solusi:
◦ Tolak semua kasus pada garis batas. Hal ini tidak mungkin
karena kasus-kasus pada garis batas adalah nasabah aktif
terbesar
◦ Solusi lain → metode lain, misal machine learning
 Data training:
1000 sample untuk kasus-kasus pada garis batas
 Atribut/Fitur:
◦ Umur
◦ Lamanya tinggal di alamat saat ini
◦ Lamanya menjadi nasabah
◦ Kepemilikan kartu kredit lain
 Hasil:
◦ Decision Tree memberikan akurasi 70%
 Data: gambar-gambar satelit dari perairan
pantai
 Masalah: mendeteksi lapisan minyak pada

gambar tersebut
◦ Lapisan minyak muncul pada gambar sebagai area
hitam dengan bentuk dan ukuran yang berubah-
ubah
◦ Persoalan ini tidak mudah, karena area hitam bisa
juga disebabkan oleh kondisi cuaca, misal angin
◦ Pendeteksian ini adalah proses yang mahal karena
membutuhkan personel yang terlatih
 Data training: diekstrak dari area hitam dari
gambar
 Atribut/Fitur:
◦ Ukuran area
◦ Bentuk area
◦ Intensitas
◦ Ketajaman dan lekukan dari batas
◦ Kedekatan dengan wilayah lain
◦ Info tentang latar belakang
 Kendala:
◦ Sedikit data training
◦ Data tidak seimbang : sebagian besar bukan lapisan
minyak
 Latar belakang: perusahaan pensuplai listrik perlu memprediksi
kebutuhan tenaga listrik pada masa yang akan datang
◦ Peramalan beban min/max untuk setiap jam akan memberikan
penghematan yang signifikan
 Data: berupa model beban yang dibangun secara manual dengan

asumsi kondisi cuaca „normal“
◦ Beban dasar dalam setahun
◦ Periodesitas beban dalam setahun
◦ Pengaruh hari libur
 Masalah: membuat model yang selaras dengan kondisi cuaca
 Atribut/Fitur:
◦ Temperatur
◦ Kelembaban
◦ Kecepatan angin
◦ Kondisi awan
 Data: perusahaan biasanya menyimpan data
pemasaran dan penjualan
 Aplikasi:
◦ Loyalitas Pelanggan, yaitu mendeteksi pelanggan yang akan
menyeberang/pindah ke perusahaan lain berdasarkan
perubahan tingkah laku
◦ Penawaran Khusus, yaitu mengidentifikasi pelanggan yang

potensial untuk keuntungan tertentu, misal pemilik kartu
kredit yang membutuhkan uang selama liburan
 Analisa Market Basket, yaitu mencari item-item yang

biasanya terjadi secara bersamaan dalam transaksi
 Machine Learning tanpa data maka tidak akan bisa bekerja. Oleh
sebab itu, hal yang pertama kali perlu disiapkan adalah data.
Data pada algoritma ini umumnya dibagi menjadi 2 bagian, yaitu
data training dan data testing.
 Data training akan digunakan untuk melatih algoritma dalam

mencari model yang sesuai, sedangkan data testing akan dipakai
untuk menguji dan mengetahui performa model yang didapatkan
pada tahapan testing.
 Topik pembelajaran ini menjelaskan pemahaman dasar

mengenai Machine Learning khususnya Supervised Learning yang
terdiri dari variabel input dan output. Sehingga kita dapat
meramal seperti apa nanti outputnya ketika ingin memasuki
input baru dengan melabeli dataset dengan baik.
 Bishop, C. H., Pattern Recognition and
Machine Learning, Springer, 2006
 Vapnik, The Nature of Statistical Learning
Theory, Spinger, 2000
 Murfy, H., Lecture Note
UNSUPERVISED
LEARNING
Sulistyo Puspitodjati
Rifiana Arief
1
AGENDA
Review Machine Learning
Konsep
Unsupervised Learning Task
Aplikasi/Implementasi
Tantangan
2
AGENDA
Definisi - Konsep
3
Machine Learning
◼ Supervised Learning
◼ Unsupervised Learning
◼ Reinforcement Learning
4
Machine
Learning?
Artificial
Intelligent
5
UNSUPERVISED
LEARNING
6
Unsupervised learning?
◼ Unsupervised learning = unsupervised machine learning
= pembelajaran tak terawasi,
◼ Menggunakan algoritma machine learning untuk
menganalisa dan mengelompokkan (clustering) data
yang tidak berlabel (unlabeled datasets)
◼ algoritma akan menemukan pola yang mungkin
tersembunyi (variable latent) atau pengelompokan data
tanpa intervensi manusia
◼ Untuk
❑ exploratory data analysis,
❑ cross-selling strategies,
❑ customer segmentation, dan
❑ image recognition.
7
Supervised learning vs. unsupervised
learning
◼ Supervised learning: mencari pola dalam
data yang menghubungkan atribut data
dengan atribut target (class/label)
❑ Pola ini yang kemudian digunakan untuk
memprediksi nilai dari atribut target dari suatu
instant pada masa datang.
◼ Unsupervised learning: data tidak punya
atribut target/label
❑ Data dieksplor untuk menemukan beberapa
unsur intrinsik didalamnya
8
https://www.researchgate.net/figure/Supervised-learning-and-unsupervised-learning-Supervised-learning-
9
uses-annotation_fig1_329533120
Supervised vs Unsupervised learning
◼ Algoritma supervised learning cenderung
lebih akurat dari unsupervised learning
model, karena supervised learning
melibatkan manusia untuk memberi label
data dengan benar
◼ Teknik-Teknik regresi dan klasifikasi:
❑ Regresi linear dan logistic
❑ naïve bayes,
❑ KNN (K-nearest neighbour)
❑ Decision tree, random forest.
10
Supervised vs Unsupervised
vs. Semi-supervised Learning
◼ Semi-supervised learning, adalah
pembelajaran ketika hanya sebagian data yang
diberi label
◼ Merupakan pendekatan yang meng-
kombinasikan sejumlah kecil data berlabel
dengan sejumlah data tidak berlabel saat
proses belajar (training/modelling)
◼ Diharapkan dapat meningkatkan akurasi
pembelajaran
11
◼ Model pembelajaran tanpa pengawasan
(unsupervised learning) digunakan untuk
bertugas melakukan
❑ Clustering (pengelompokan),
❑ Association (Analisa asosiasi),
❑ dimensionality reduction (reduksi dimensi)
12
AGENDA
Konsep
Tantangan
13
AGENDA
Unsupervised
Learning Task
•Clustering
•association
•dimensionality reduction
14
Clustering
◼ Clustering adalah teknik data mining yang mengelompokkan
data tidak berlabel berdasarkan persamaan (similaritas)
atau perbedaannya (difference/distance)-nya
◼ Algoritma Clustering digunakan untuk memproses data
mentah dan tidak terklasifikasi, kedalam kelompok-
kelompok (groups) yang diwakili oleh struktur atau pola
dalam informasi.
15
Tipe Clustering
dapat dikatagorikan ke
dalam tipe:
❑ specifically exclusive
(saling terpisah),
❑ overlapping (tumpang
tindih),
❑ hierarkis,
❑ probabilistik.
16
Exclusive Clustering
◼ Exclusive clustering adalah bentuk

pengelompokan yang menempatkan suatu
titik data hanya berada dalam satu cluster.
◼ Dikenal dengan istilah “hard” clustering
◼ Contoh algoritma: K-means clustering
17
K-means clustering
◼ metode clustering yang menempatkan titik-titik data
kedalam K kelompok,
◼ K mewakili jumlah cluster yang berdasarkan jarak dari
masing-masing centroid (pusat) kelompok.
◼ Titik data yang terdekat dengan centroid akan
dikelompokkan dalam katagori yang sama.
◼ Semakin besar nilai K , nilainya akan menunjukkan
pengelompokkan yang lebih kecil dengan lebih banyak
perincian, sedangkan nilai K yang lebih kecil akan
memiliki pengelompokan yang lebih besar dan perincian
lebih sedikit.
18
K-means clustering
19
K-means clustering
20
K-means clustering
Distance functions
◼ Kunci clustering ad. fungsi jarak (distance
functions): “similarity” dan “dissimilarity” =
proximity.
◼ Berbagai distance functions
❑ Tergantung types data
◼ Numeric data
◼ Nominal data
❑ Tergantung diterapkan
21
Distance functions untuk atribut numerik
◼ Fungsi populer
❑ Euclidean distance dan
❑ Manhattan (city block) distance
◼ distance = dist(xi, xj), untuk xi dan xj = data
points (vectors)
◼ Minkowski distance. (h positive integer).
1
dist (xi , x j ) = (( xi1 − x j1 ) h + ( xi 2 − x j 2 ) h + ... + ( xir − x jr )h ) h
22
Euclidean distance dan Manhattan distance
◼ If h = 2, ➔ Euclidean distance
dist (xi , x j ) = ( xi1 − x j1 ) 2 + ( xi 2 − x j 2 ) 2 + ... + ( xir − x jr ) 2
◼ If h = 1, ➔ Manhattan distance
dist (xi , x j ) =| xi1 − x j1 | + | xi 2 − x j 2 | +...+ | xir − x jr |
◼ Weighted Euclidean distance

dist (xi , x j ) = w1 ( xi1 − x j1 ) 2 + w2 ( xi 2 − x j 2 ) 2 + ... + wr ( xir − x jr ) 2
23
Squared distance dan Chebychev distance
◼ Squared Euclidean distance: untuk
menempatkan secara progresif bobot pada
titik data yang terpisah lebih jauh.
dist (xi , x j ) = ( xi1 − x j1 ) 2 + ( xi 2 − x j 2 ) 2 + ... + ( xir − x jr ) 2
◼ Chebychev distance:.
dist (xi , x j ) = max(| xi1 − x j1 |, | xi 2 − x j 2 |, ..., | xir − x jr |)
24
Distance functions u/ atribut
binary dan nominal
◼ Binary attribute: hanya mempunyai 2 nilai,
❑ Gender: male dan female
❑ Ya dan tidak
25
Distance functions
◼ Simple Matching Coefficient

b+c
dist (xi , x j ) =
a+b+c+d
◼ Jaccard coefficient
b+c
dist (xi , x j ) =
a+b+c
26
Distance functions: Nominal attributes
◼ Nominal attributes: > 2 values.

❑ simple matching method.
❑ data points xi dan xj, dengan r adalah banyaknya
attributes, dan q adalah banyaknya nilai yang
sama dalam xi dan xj.
r−q
dist (xi , x j ) =
r
27
Distance function untuk
Text Documents
◼ text document = untai kalimat, tiap kalimat = untai
kata
◼ document dipandang sebagai kantong kata-kata
dalam document clustering.
❑ Sequence and position of words are ignored.
◼ document direpresentasikan sebagai vector
◼ Menggunakan similarity untuk membandingkan 2
dokumen
❑ cosine similarity
28
K-means clustering
◼ Dapat digunakan untuk:
❑ market segmentation,
❑ document clustering,
❑ image segmentation, and
❑ image compression.
29
Overlapping clusters
◼ Clustering yang
mengizinkan satu titik
data menjadi anggota
beberapa kelompok
(cluster).
◼ Contoh metode: “Soft”
atau fuzzy k-means
clustering
30
Hierarchical clustering
◼ Pengelompokan
hirarkis =
hierarchical cluster
analysis (HCA),
◼ 2 cara
❑ agglomerative dan
❑ divisive.
31
Agglomerative clustering
◼ Pendekatan “bottoms-up”
◼ Awalnya setiap data dalam kelompok terpisah
◼ Data digabungkan atas dasar kesamaan dalam satu
kelompok (cluster) secara iterative (berulang) sampai satu
cluster tercapai.
32
Agglomerative clustering
4 pengukuran similaritas cluster
◼ Ward’s linkage: Jarak antar 2 cluster didefisikan
melalui konsep jumlah kuadrat error setelah 2 cluster
digabung.
◼ Average linkage: mendefinisikan jarak 2 cluster
berdasarkan jarak rerata (mean) dari jarak setiap 2 titik
dalam tiap cluster
◼ Complete (or maximum) linkage: maksimum jarak
antar 2 titik dalam masing-masing cluster
◼ Single (or minimum) linkage: minimum jarak antar 2
titik dalam masing-masing cluster
33
CS583, Bing Liu, UIC 34
Divisive clustering
◼ Lawan dari agglomerative clustering

➔ pendekatan “top-down”
◼ Bermula dari cluster tunggal
kemudian dipecah, berdasarkan
perbedaan antar titik data
◼ Divisif dan aglomeratif biasanya
divisualisasikan menggunakan
dendrogram, diagram pohon yang
menunjukkan penggabungan dan
pemisahan setiap data pada setiap
iterasi
35
Dendrogram
◼ Chart dibaca "bottom-up" untuk

agglomerative clustering
◼ "top-down" untuk divisive clustering
36
Probabilistic clustering
◼ Model probabilistic adalah teknik unsupervised yang membantu

memecahkan masalah estimasi densitas atau masalah “soft”
clustering problems.
◼ Dalam probabilistic clustering, titik data dikelompokkan berdasarkan
kemungkinan data masuk dalam distribusi probabilistik tertentu.
◼ Gaussian Mixture Model (GMM) adalah salah satu yang sering
digunakan dalam probabilistic clustering
37
Gaussian Mixture Models
◼ Diklasifikasikan sebagai model campuran, yang berarti
model tersebut terdiri dari sejumlah tak tentu fungsi
distribusi probabilitas.
◼ GMMs terutama digunakan untuk menentukan bahwa
suatu titik data masuk fungsi probabilitas Gaussian
(normal) tertentu
◼ Penentuan berdasarkan mean dan variance.
https://cdn.analyticsvidhya.com/wp-content/uploads/2019/10/gaussians-3d-300x224.png
38
Gaussian Mixture Models
◼ Algoritma
Expectation
Maximation (EM)
dapat digunakan
untuk
memperkirakan
probabilitas
penempatan titik
tertentu dalam
cluster tertentu
39
K-Mean vs GMM
https://www.analyticsvidhya.com/blog/2019/10/gaussian-mixture-models-clustering/
40
AGENDA
Unsupervised
Learning Task
•clustering
•association
41
Association Rules
◼ metode berbasis aturan
(rule-based method) untuk
menemukan relasi antar
variable dalam dataset.
❑ {butter, bread} => {milk}
◼ Sering digunakan untuk
analisa keranjang pasar
(market basket analysis),
◼
42
Association Rules
◼ Perusahaan dapat memahami lebih baik
❑ hubungan antara beberapa produk yang biasa
digunakan customers
❑ ➔ penjualan lebih baik dengan memanfaatkan
strategi penjualan silang
❑ Mesin rekomendasi
◼ contoh
❑ Amazon’s “Customers Who Bought This Item Also
Bought” or
❑ Spotify’s "Discover Weekly" playlist.
43
Algoritma Association Rule Mining
◼ Apriori  populer
◼ Eclat
◼ FP-Growth
44
45
Apriori algorithms
◼ Apriori algorithms popular melalui market basket
analysis, unggul sebagai mesin rekomendasi pada
music platforms dan retail online.
◼ Menggunakan data transaksi untuk
mengidentifikasi itemset yang kerap
dipakai/dibeli/dipilih (frequent itemsets)
◼ Identifikasi frequent itemsets untuk mengetahui
kemungkinan suatu produk yang dibeli atas dasar
pembelian produk lain.
46
Apriori algorithms
◼ Contoh: jika memilih Black Sabbath’s radio di
Spotify, mulai dengan lagu “Orchid”, salah satu
rekomendasi lagu pada channel ini adalah lagu
Led Zeppelin, mis. “Over the Hills and Far Away.”
➔ didasarkan pada habit pribadi.
◼ Apriori algorithms
menggunakan hash tree untuk
menghitung itemsets,
menavigasikan seluruh
dataset secara breadth-first
Lattice {a, b, c}
47
Mengukur Asosiasi
Support = seberapa populer

itemset
Confidence = seberapa besar

kemungkinan item Y dibeli ketika item X
dibeli, dinyatakan sebagai {X -> Y}
Lift = seberapa besar kemungkinan item Y dibeli ketika item X

dibeli, sambil mengontrol seberapa populer item Y tersebut
48
Mengukur Asosiasi
49
AGENDA
Unsupervised
Learning Task
•Clustering
•association
50
Dimensionality reduction
◼ Secara umum semakin banyak data, semakin
akurat hasil
◼ Berdampak pada machine learning algorithm
❑ Overfitting
❑ Susah divisualisasikan
◼ Dimensionality reduction adalah Teknik yang
digunakan jika jumlah fitur/dimensi terlalu
banyak
◼ Mengurangi jumlah data input ke ukuran yang
mudah dikelola namum memelihara integritas
dataset semaksimal mungkin
51
Principal component analysis
◼ Sering digunakan pada tahap preprocessing

data stage,
◼ metode dimensionality reduction:
❑ Principal component analysis
❑ Singular value decomposition
❑ Autoencoders
52
Principal component analysis (PCA)
◼ Mengurangi redudansi/kerangkapan dan
memampatkan dataset melalui ekstraksi fitur
◼ Menggunakan linear transformation,
menghasilkan representasi data baru,
menghasilkan sekumpulan komponan utama
(principal components)
53
Principal component analysis (PCA)
◼ Komponen utama pertama adalah arah yang me-
maksimmalkan variance data set
◼ Komponen utama kedua adalah menentukan variance
maksimum dalam data, tidak berkorelasi dengan
komponen pertama, menghasilkan arak tegak lurus
atau orthogonal dengan komponen pertama
◼ Proses dilakukan berulang
sebanyak jumlah dimensi,
dimana principal component
selanjutnya arahnya orthogonal
dengan komponen-komponen
sebelumnya dengan variance
terbesar.
54
Singular value decomposition (SVD)
◼ adalah pendekatan
melalui faktorisasi
matrik A.
◼ SVD menggunakan
formula, A = USVT,
where
❑ U dan V matriks
orthogonal.
❑ S adalah diagonal
matrix, dan S nilai
singular dari matrix A.
55
https://miro.medium.com/max/3800/1*dnvjYsiEhj-NzFf6ZeCETg.jpeg
56
Singular value decomposition (SVD)
Umum digunakan
◼ mereduksi noise
https://www.researchgate.net/profile/Huan-Liu-
29/publication/336339050/figure/fig2/AS:812710459617282@1570776681394/The-pipeline-of-the-proposed-PW-SVD-
framework-which-includes-three-main-modules-1.png
57
◼ memampatkan data (compress data), mis.
file citra (image)
http://www.math.utah.edu/~goller/F15_M2270/Brady
Mathews_SVDImage.pdf 58
Autoencoders
◼ Memanfaatkan jaringan syaraf untuk
mengkompresi data dan kemudian membuat
representasi baru dari input data asli.
◼ Gambar berikut menunjukkan bahwa lapisan
tersembunyi (hidden layer) secara khusus
bertindak untuk memampatkan lapisan input
sebelum merekontruksi lapisan output.
◼ Tahap dari lapisan input ke lapisan tersembunyi
disebut “encoding”, dan tahap dari lapisan
tersembunyi disebut “decoding.”
59
Autoencoders
60
AGENDA
Review Machine Learning
Konsep
Tantangan
61
AGENDA
62
Aplikasi/Penerapan dari
unsupervised learning
◼ meningkatkan product user experience
◼ uji/test systems untuk quality assurance.
◼ Menyediakan jalur ekplorasi untuk melihat
data, memungkinkan bisnis
mengidentifikasikan pola dan volume data
yang besar dengan lebih cepat jika
dibandingkan dengan pengamatan manual.
63
Aplikasi unsupervised learning
◼ News Sections: Google News
menggunakan unsupervised learning untuk
mengkatagorikan articles pada cerita yang
sama dari berbagai outlet berita online.
Contoh: pemilihan presiden Amerika dapat
dikatagorikan sebagai label untuk “US” news
US.
◼ Computer vision: Unsupervised learning
algorithms digunakan untuk tugas persepsi
visual, mis. object recognition.
64
◼ Medical imaging: Unsupervised machine
learning menyediakan fitur esensial pada
perangkat pencitraan medis, mis. image detection,
classification dan segmentation, pada radiology
dan pathology untuk mendiagnosa pasien secara
cepat dan akurat.
◼ Anomaly detection: Unsupervised learning
models dapat menyisir data dalam jumlah besar
dan menemukan titik data atipikal dalam kumpulan
data. Anomali ini dapat meningkatkan kesadaran
seputar peralatan yang rusak, kesalahan manusia,
atau pelanggaran keamanan.
65
◼ Customer personas: mendefinisikan persona pelanggan
membuatnya lebih mudah untuk memahami ciri-ciri umum
dan kebiasaan pembelian klien bisnis. Unsupervised
learning memungkikan bisnis untuk membangun profil
persona pembeli yang lebih baik, memungkinkan organisasi
untuk menyelaraskan pesan produk mereka dengan lebih
tepat.
◼ Recommendation Engines: Dengan menggunakan data
perilaku pembelian sebelumnya, unsupervised learning
dapat membantu menemukan tren data yang dapat
digunakan untuk mengembangkan strategi penjualan silang
yang lebih efektif ➔ digunakan untuk membuat rekomndasi
add-on yang relevan kepada pelanggan selama proses
pembayaran untuk pengecer online.
66
Tantangan unsupervised learning
◼ Kompleksitas komputasi karena besarnya dari data

training
◼ Waktu training yang lebih lama
◼ Resiko yang lebih tinggi untuk ketidak-akuratan hasil
◼ Intervensi manusia untuk validasi variable output
◼ Kurangnya transparansi yang menjadi dasar
pengelompokan data
67
Unsupervised Learning Tools
Machine Learning Software Tools.
◼ IBM Watson Machine Learning → cloud
environment IBM Cloud Pak for Data
◼ Tensor Flow
◼ Google Cloud ML Engine
◼ Amazon Machine Learning
◼ Accord.NET
◼ Apache Mahout
◼ Apache Singa
68
69
Mengenal
BIG DATA
Universitas Gunadarma
Apa itu BIg Data Teknologi dalam Big Data
Kenapa harus dengan Big Data Bagaimana Big Data bekerja
Karakteristik Big Data Pemanfaatan Big Data dalam berbagai Industry
Tipe Data & Sumber Data pada Big Data
Perbedaan Big Data & Tradisional Data

Apa itu Big Data
Kenapa harus dengan Big Data
Salah satu permasalahan yang Big Data coba pecahkan adalah meledaknya volume
data yang disimpan atau diproses oleh perusahaan atau organisasi

Karakteristik Big Data
Volume data yang besar
Kecepatan dalam akses data
Jenis data bervariasi
Kebenaran Data
Tipe data dalam Big Data
Sumber Data dalam Big Data
Perbedaan Data Tradisonal dan Big Data
Teknologi dalam Big Data
Bagimana Big Data Bekerja
Big Data dalam bidang Industry
Banking Retail
Travel Energy
Media Gaming
Media
Perbedaan Big Data & Tradisional Data

PENERAPAN
BIG DATA
SEKTOR PERBANKAN
Pengenalan
Core Banking System
Core Banking system sendiri adalah jantung dari sebuah bank, karena sistem ini digunakan untuk
memproses loan, dan di dalamnya tersimpan data nasabah serta semua transaksi sejak nasabah
membuka rekening di bank sampai menutupnya. Core Banking umumnya diasosiasikan dengan retail
banking.
Jika dibandingkan dengan industri lain, core banking system ini mirip dengan billing system dari sebuah
perusahaan telekomunikasi, atau ERP perusahaan manufaktur.
Yang membedakan adalah pada sistem ini terdapat jenis yang beragam mulai dari yang inhouse
development, local vendor hingga yang dikerjakan vendor asing.
Fungsi Core Banking System
Kemudahan mendapatkan deposit dan penarikan uang tunai di cabang manapun anda
berada. Karena dengan sistem ini memungkinkan bank untuk mendapatkan transfer
dana mereka dan transaksi lainnya dari satu cabang ke cabang lainnya dengan sangat
mudah dan cepat.
Fungsi core banking yang paling mendasar adalah melayani seluruh nasabah untuk
berbagai kebutuhannya seperti funding, lending dan deposit uang.
Fungsi lainnya adalah merekam semua transaksi yang terjadi dalam rekening nasabah,
baik berupa tabungan, loan, KPR, maupun transaksi pembayaran, hingga transaksi
macet yang dimiliki nasabah juga akan terekam.
Fasilitas yang tersedia
di Core Banking system
Kemudahan yang ditawarkan sistem ini di antaranya, fasilitas ATM, dana elektronik, transfer, tele-banking, internet banking, cabang kliring
fasilitas perbankan cabang. Selain itu sistem ini juga lebih cepat dan akurat.
Fungsi lainnya sistem ini seperti pemeliharaan passbook, perhitungan bunga dan berbagai buku lainnya yang menjaga catatan tetap akurat
dalam waktu singkat.
Karena akses core banking sistem ini sudah dilakukan secara real time melalui proses online. Bagi bank sendiri, sistem ini sangat
memudahkan dalam database berbagai catatan transaksi kantor cabang yang lebih akurat dan juga pengenalan produk baru.
Kemajuan teknologi sangat terasa di sistem ini, karena menawarkan solusi yang lebih banyak, lebih mudah serta cepat.
Aplikasi perbankan core
banking sistem
CIS (Customer Identification System)
Modul untuk menfasilitasi pengguna agar dapat memproses transaksi sendiri
DDS (Demand Deposit System)

Modul penarikan uang pengguna tanpa pemberitahuan sebelumnya
GLS (General Ledger System)

Modul pencatatan saldo setiap pengguna
LNS (Loan System)

Modul pengguna untuk dapat mengajukan pinjaman
TDS (Time Deposit System)

Modul pengguna deposito
Manfaat
menggunakan core Banking Naiknya kerpercayaan Nasabah
Meningkatkan efisien Karyawan
Menghemat biaya operasional
Mengurangi masalah pada IT
Mempercepat akses untuk analistis

Keuntungan Beberapa contoh kasus :
BIG DATA
Analisis dan wawasan konsumen untuk
Memprediksi tren keuangan perusahaan asuransi
Peramalan penawaran, permintaan, dan Analisis dan pemasaran waktu nyata
indikator keuangan Penilaian dan manajemen risiko
Menganalisis risiko Deteksi dan pencegahan penipuan
Mengotomatiskan tugas Segmentasi pelanggan dan pemasaran yang
Mendorong inklusivitas ditargetkan
Analisis prediktif dan perencanaan masa
depan
Analisis pasar keuangan dan investasi
Management resiko
Membangun sistem manajeman resiko yang tangguh adalah hal yang sangat penting untuk organisasi perbankan dalam
mencegah dari kerugian pendapatan yang besar.
Untuk bertahan dalam dunia kompetisi dan menambah keuntungan sebanyak mungkin, suatu organisasi harus berinovasi melalui
analisa big data, bank dapat mendeteksi resiko secara waktu nyata, yang akhirnya menyelamatkan pelanggan dari potensi
penipuan
Deteksi penipuan
Dunia digital yang berkembang pesat memberikan banyak manfaat bagi kita, namun di sisi lain juga melahirkan berbagai macam
penipuan.
Dunia digital membuat data pribadi kita menjadi jauh lebih rentan terhadap serangan dunia maya dan ini adalah tantangan
terbesar yang dihadapi organisasi perbankan.
Penggunaan Big Data Analytics melalui Machine Learning Algorithms, Perbankan dapatmedeteksi penipuan sebelum penipuan
tersebut berlangung. Hal ini dilakukan dengan mengidentifikasi pola pengeluaran pengguna yang tidak dikenal
Memprediksi aktivitas pengguna yang tidak biasa
Keputusan
peminjaman
Salah satu keputusan paling penting di sektor Perbankan adalah pemberian pinjaman.
Memilih pelanggan yang tepat yang layak kredit dan sehat secara finansial untuk melunasi hutang adalah yang
paling penting.
Secara tradisional bank sebelumnya mengandalkan lembaga pemeringkat kredit untuk mengukur kelayakan kredit
pelanggan namun pemeringkat tersebut belum menggambarkan keseluruhan, karena dianggap berdasarkan pada
hal tertentu tetapi mengabaikan yang lain
BIG DATA ANALYTICS LIFECYCLE
1.Business Case Evaluation

2.Data Identification
3.Data Acquisition & Filtering
4.Data Extraction
5.Data Validation & Cleansing
6.Data Aggregation & Representation
7.Data Analysis
8.Data Visualization
9.Utilization of Analysis Results
DATA IDENTIFICATION DATA ACQUISITION & FILTERING
Pencarian informasi terkait tipe data, struktur data, Pengumpulan informasi dari sumber data.
bentuk data, dan isi data sampai source data. Kemudian dilakukan penyaringan,
seperti penghapusan data yang rusak atau
data yang tidak relevan, yang tidak termasuk
dalam tujuan kebutuhan.
DATA EXTRACTION
Proses memilih dan mengambil data dari satu atau beberapa sumber misalnya Server SQL, XML, atau flat files untuk dibaca
atau diakses data yang dipilih tersebut
DATA VALIDATION &
CLEANSING
Suatu proses analisa mengenai kualitas dari data
dengan mengubah. Bisa juga pengelola mengoreksi
ataupun menghapus data tersebut. Data yang
dibersihkan tersebut adalah data yang salah, rusak,
tidak akurat, tidak lengkap dan salah format
DATA AGGREGATION & REPRESENTATION
Proses di mana data mentah dikumpulkan dan diekspresikan dalam bentuk ringkasan untuk analisis statistik.
DATA ANALYSIS
Proses pengolahan data yang mencakup memeriksa data, membersihkan data, mengubah data, dan membuat model yang
sesuai sehingga hasil dari proses tersebut didefinisikan dan menemukan informasinya sebagai dasar pengambilan
keputusan dari masalah dalam bisnis yang hendak diselesaikan.
CORE BANKING SERVERS
IBM AS/400 adalah server computer yang termasuk
kategori mini computer yang digunakan oleh RPG sample =>
perusahaan-perusahaan besar di lndonesia. Contoh
Bank Mandiri, Bank BRl, Bank Permata adalah
beberapa dari sekian banyak perusahaan yang
menggunakan IBM AS/400 sebagai server untuk
menyimpan data nasabah dengan jumlah jutaan
record dalam database mereka
OS yang digunakan Operating System / 400 bukan Windows, Linux,

atau Macintos
Environment yang tersedia di AS 400 sebagai berikut, RPG/400, Cobol,
C, C++, PASCAL, JAVA, EGL, PERL, Smalltalk, SQL, PHP, PHYTON
Database yang digunakan adalah DB2
Cobol sample =>
KEUNGGULAN KONEKSI
Kehandalan sistem dari virus komputer dan stabilitas
yang tinggi
Mudah beradaptasi dan fleksibel
Dapat menjalankan berbagai macam bahasa
Cincin Token
Ethernet
FDDI
SDLC
ARSITEKTUR
TELNET (aplikasi TCP/IP) ataupun dengan Client-Access400
Dapat memiliki lebih dari 200 Processor
IO Direct access storage devices (DASDs)
Dls
DB2 LIST SCHEMA DAN TABLE
JOURNAL
Kesimpulan
Core Banking adalah Jantung dari sebuah bank
Fungsi dan Manfaat dirasakan oleh Pihak Bank dan juga Pengguna layanan
Penerapan Big Data dari sisi Bank dapat memberikan keputusan yang terbaik
dengan minimun resiko. Dilain sisi Pengguna merasakan keamanan,
kenyamanan dan kepercayaan
Mesin AS400 menjadi andalan Core Banking
MODEL KASUS TERKAIT PENURUNAN DATA CORE BANKING
MODEL KASUS TERKAIT PENURUNAN DATA CUSTOMER
MODEL KASUS TERKAIT
REKONSTRUKSI DATA
CUSTOMER
Kesimpulan
Proses data memerlukan informasi terkait input dan output
Didalam pengolahan data terdapat proses seperti transformasi, mapping,
cleansing dls
Pemilihan tools yang tepat untuk pengolahan data disesuaikan dengan
kebutuhan
Mempelajari bahasa pemrograman yang sesuai dengan kebutuhan
Dan terus belajar "trial and error"
Introduction to
Deep Learning
Dr. Feni Andriani

Introduction To Deep Learning
Pengenalan Convolution Implementasi

Deep Learning Neural Network
• Perkembangan Deep
Learning • Arsitektur CNN • Pengenalan Tulisan tangan
• Kaitan Deep Learning • Algoritma CNN Angka
dengan Artificial Intelligence Model Evaluasi • Klasifikasi objek
dan Machine Learning
• Artificial Neural Network
Segment 1
Pengenalan Deep Learning

• Perkembangan Deep Learning
• Kaitan Deep Learning dengan Artificial
Intelligence dan Machine Learning
• Artificial Neural Network
Source : https://ram-ai.com/machine-learning/
Apa itu Deep Learning?
Suatu sistem yang berusaha dapat
AI meniru kecerdasan manusia.
Salah satu teknik AI yang berkaitan dengan

pembelajaran data yang dirancang dengan
ML menggunakan algoritma.
Salah satu cabang Machine Learning(ML)

yang menggunakan Artificial Neural
DL Network untuk menyelesaikan
permasalahan yang dikhususkan pada
data tidak terstruktur
source: Nadia Berchane (M2 IESCI,2018)
Artificial Neural Network
• Artificial Neural Network adalah jaringan saraf yang biasanya menggunakan
jaringan yang hanya memiliki 1 atau 2 lapisan tersembunyi, jika lapisan jaringan
sarafnya lebih dari 2 layer disebut sebagai Deep Learning.
• Arsitektur jaringan ANN kurang kompleks dan membutuhkan lebih banyak

informasi tentang data input sehingga dapat menentukan algortima mana yang
dapat digunakan.
• Pada algortima jaringan saraf Deep Learning tidak memerlukan informasi apapun
terhadap data yang akan dipelajarinya, dan algoritmanya dapat secara mandiri
melakuan tuning (penyetelan) dan pemilihan model yang paling optimal. Contoh :
deteksi objek, pengenalan suara, NLP (Natural Language Processing), dan lainnya.
Lapisan Layer Deep Learning
Sumber: Global Engage

Proses Learning ANN
Source:https://towardsdatascience.com/
Struktur Pemodelan Jaringan
Deep Learning berbeda dari teknik machine learning yang
tradisional, karena deep learning secara otomatis melakukan
representasi dari data seperti gambar, video atau text tanpa
memperkenalkan aturan kode atau pengetahuan domain manusia.
Source: https://lawtomated.com/
Machine Learning vs Deep Learning
HARDWARE
Waktu Eksekusi
DATA
Pendekatan penyelesaian masalah

Feature Engineering
• algoritma MLme • Algoritma machi
• Algoritma • Deep Learning • ML: pakar mecahnya ne learning bisa
deep membutuhkan bertugas untuk beberapa bagian melakukan
learning GPU mengidentifikasi permasalahan, eksekusi dari
tidak fitur yang diselesaikan hanya satu
mampu diterapkan dan terpisah. menit - jam.
mengolah membuat kode Kemudian, • Deep
data dalam secara manual penyelesaiannya learning membu
jumlah kecil sesuai domain digabungkan tuhkan waktu
secara dan tipe data. Kembali jauh lebih lama
maksimal. • DL: algoritmanya • DL mampu dari itu.
sendiri berusaha menyelesaikan
mempelajari fitur masalah secara
tingkat tinggi dari keseluruhan
data.
Arsitektur / Model Deep Learning
Deep learning sudah dikembangkan ke berbagai model
atau arsitektur yang berbeda-beda, salah satunya adalah
Convolutional Neural Network
Segment 2
Convolutional Neural Network

• Arsitektur
• Algoritma
• Haar Hascade
Apa itu CNN?
• Convolutional Neural Network (CNN) merupakan salah
satu metode deep learning yang biasa digunakan untuk
mengolah gambar atau video.
• Secara garis besar Convolutional Neural Network (CNN)
tidak jauh beda dengan neural network biasanya. CNN
terdiri dari neuron yang memiliki weight, bias dan
activation function.
• CNN merupakan ANN yang memiliki Convolutional
layer
Arsitektur Convolutional Neural Network
Arsitektur dari CNN dibagi menjadi 2 bagian besar,

Feature Extraction Layer dan Fully-Connected Layer .
Source: https://towardsdatascience.com/
Feature Extraction Layer
Proses yang terjadi pada bagian ini adalah melakukan “encoding” dari
sebuah image menjadi features yang berupa angka-angka yang
merepresentasikan image tersebut (Feature Extraction). Feature
extraction layer terdiri dari dua bagian yaitu Convolutional Layer dan
Pooling Layer. Namun kadang ada beberapa riset/paper yang tidak
menggunakan pooling.
Convolutional
Layer
(Conv. Layer)
Convolutional layer
terdiri dari neuron yang
tersusun sedemikian
rupa sehingga
membentuk sebuah
filter dengan panjang
dan lebar(pixel).
Credit: https://medium.com/@samuelsena/pengenalan-deep-
learning-part-7-convolutional-neural-network-cnn-b003b477dc94
Stride
• Stride adalah parameter yang menentukan berapa jumlah
pergeseran filter. Jika nilai stride adalah 1, maka conv. filter akan
bergeser sebanyak 1 pixel secara horizontal lalu vertical.
• Semakin kecil stride maka akan semakin detail informasi yang kita
dapatkan dari sebuah input, namun membutuhkan komputasi yang
lebih jika dibandingkan dengan stride yang besar.
• Perlu diperhatikan bahwa dengan menggunakan stride yang kecil
kita tidak selalu akan mendapatkan performa yang bagus.
Padding
• Padding atau zero padding adalah parameter menentukan jumlah pixel (berisi nilai
0) yang akan ditambahkan di setiap sisi dari input, dengan tujuan untuk
memanipulasi dimensi output dari conv. layer (feature map).
• Dengan menggunakan padding, kita akan dapat mengukur dimensi output agar
tetap sama seperti dimensi input atau setidaknya tidak berkurang secara drastis.
Sehingga kita bisa menggunakan conv. layer yang lebih dalam sehingga lebih
banyak feature yang berhasil di-extract.
• Meningkatkan performa model karena conv. layer akan fokus pada informasi yang
sebenarnya yaitu yang berada diantara zero padding tersebut.
Fungsi Aktivasi
• Fungsi aktivasi berada pada tahap sebelum melakukan pooling
layer dan setelah melakukan proses konvolusi. Pada tahap ini, nilai
hasil konvolusi dikenakan fungsi aktivasi atau activation function.
• Terdapat beberapa fungsi aktivasi yang sering digunakan
pada convolutional network, di antaranya tanh() atau reLU.
• Fungsi aktivasi pada reLU : nilai output dari neuron bisa dinyatakan
sebagai 0 jika inputnya adalah negatif. Jika nilai input dari fungsi
aktivasi adalah positif, maka output dari neuron adalah
nilai input aktivasi itu sendiri.
Pooling Layer
• Polling layer biasanya berada setelah conv. layer. Pada prinsipnya pooling layer
terdiri dari sebuah filter dengan ukuran dan stride tertentu yang bergeser pada
seluruh area feature map.
• Pooling yang biasa digunakan adalah
Max Pooling dan Average Pooling.
• Tujuan pooling layer adalah
mengurangi dimensi feature map
sehingga mempercepat komputasi
karena parameter yang harus di
update semakin sedikit dan mengatasi
overfitting.
Fully-Connected Layer
• Feature map yang dihasilkan dari feature extraction masih berbentuk
multidimensional array, sehingga harus melakukan “flatten” atau reshape
feature map mejadi sebuah vector agar bisa digunakan sebagai input dari
fully-connected layer.
• Lapisan Fully-connected adalah lapisan dimana semua neuron aktivitas
dari lapisan sebelumnya terhubung semua dengan neuron di lapisan
selanjutnya seperti hal nya jaringan syaraf tiruan biasa. Setiap aktivitas
dari lapisan sebelumnya perlu diubah menjadi data satu dimensi sebelum
dapat dihubungkan ke semua neuron di lapisan Fully-Connected.
Fully-Connected Layer - Lanjutan
• Lapisan Fully-Connected bertujuan untuk mengolah data sehingga

bisa diklasifikasikan.
• Perbedaan anatar lapisan Fully-Connected dan lapisan konvolusi
biasa adalah neuron di lapisan konvolusi terhubung hanya ke
daerah tertentu pada input. Sementara lapisan Fully-Connected
memiliki neuron yang secara keseluruhan terhubung.
Dropout Regularization
• Dropout adalah teknik regularisasi jaringan syaraf dimana beberapa
neuron akan dipilih secara acak dan tidak dipakai selama pelatihan.
Neuron-neuron ini dapat dibilang dibuang secara acak. Hal ini berarti
bahwa kontribusi neuron yang dibuang akan diberhentikan sementara
jaringan dan bobot baru juga tidak diterapkan pada neuron pada saat
melakukan training.
• Dropout merupakan proses mencegah terjadinya overfitting dan juga
mempercepat proses learning. Dropout mengacu kepada menghilangkan
neuron yang berupa hidden mapun layer yang visible di dalam jaringan.
Contoh Implementasi Dropout Regularization
Source: Tiara Shafira

Confusion Matrix
• Tingkat kedekatan antara nilai
Accuracy prediksi dengan nilai aktual.

𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 =
𝑇𝑃 + 𝑇𝑁
𝑇𝑃 + 𝑇𝑁 + 𝐹𝑃 + 𝐹𝑁
• Tingkat ketepatan antara informasi
𝑇𝑃
Precision yang diminta oleh pengguna dengan
jawaban yang diberikan oleh sistem 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 =
𝑇𝑃 + 𝐹𝑃
• Tingkat keberhasilan sistem dalam

𝑇𝑃
Recall menemukan kembali sebuah
informasi. 𝑅𝑒𝑐𝑎𝑙𝑙 =
𝑇𝑃 + 𝐹𝑁
Contoh
Misalkan kita ingin mengukur kinerja dari sebuah mesin pemisah buah apel dan pear
• Untuk mengujinya kita akan memasukkan 100 buah apel dan 900 buah lain (bukan
buah apel).
• Hasilnya mesin tersebut memisahkan 110 yang dideteksi sebagai buah apel.
• Ke 110 buah tersebut kemudian dicek kembali oleh manusia, ternyata dari 110
ikan tersebut hanya 90 buah yang merupakan buah apel , sedangkan 20 lainnya
merupakan buah lain.
90 + 880 90
𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = = 97% 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = = 82%
90 + 880 + 20 + 10 90 + 20
90
𝑅𝑒𝑐𝑎𝑙𝑙 = = 90%
90 + 10
Segment 3
Implementasi Deep Learning

• Pengenalan karakter Tulisan Tangan -MNIST
1. Implementasi DCNN LeNet
Pengenalan Karakter Tulisan Tangan MNIST
Data MNIST diatas terdiri dari nilai 0–255 untuk setiap pixel yang ada.
Implementasi DCNN LeNet
Pengenalan Karakter Tulisan Tangan MNIST
Implementasi mengggunakan library keras
• Pendefinisian kode lenet dan modul-modul yang digunakan, digunakan modul
konvolusi 2D
Pengenalan Karakter Tulisan Tangan - MNIST
• Pendefinisian Jaringan LeNet

Jaringan ini merupakan tahap konvolusional pertama dengan aktivasi ReLU yang
diikuti oleh maxpooling. Jaringan ini akan mempelajari 20 filter konvolusional, yang
masing-masing memiliki ukuran 5 x 5. Dimensi output sama dengan input, jadi akan
menjadi 28 x 28. Convolution2D adalah tahap pertama pada jaringan ini, maka
selanjutnya ditentukan input_shape-nya.
• Tahap konvolusional kedua

Tahap konvolusional kedua dengan aktivasi ReLU berikutnya, yang disertai pula oleh
maxpooling. Dalam hal ini, ditingkatkan jumlah filter konvolusional yang dipelajari dari
20 menjadi 50. Meningkatkan jumlah filter pada kedalaman layer merupakan teknik
umum yang digunakan dalam deep learning.
• Pendefinisian fungsi standar Flatten

Didefinisikan fungsi standar untuk flatten terhadap dense network dengan
500 neuron, diikuti oleh classifier softmax dengan 10 kelas:
Pengenalan Training
Karakter Tulisan
Tangan - MNIST
• Training Jaringan
• Output yang dihasilkan
Semakin banyak epoch maupun

jumlah hidden layer maka akurasi
yang dihasilkan juga semakin baik.
Akurasi yang dihasilkan sebesar
99%. Hal ini membuktikan bahwa
kinerja deep learning sangat baik.
2. Implementasi CIFAR10
Pengenalan 10 jenis objek berbeda pada dataset cifar-10
Output
3. Klasifikasi Cat and Dog
Akan dibangun Convolutional Neural Network
(CNN) dengan data latih beberapa ribu gambar
kucing dan anjing agar kemudian bisa mendeteksi
yang mana kucing atau anjing.
Langkah:
1. Penyiapan data set download dataset dr web
copy ke google drive, tujuan..
2. Membuat arsitektur CNN, konvolusi dan fully
connected layer
3. Menyiapkan dataset siap training
4. Training
5. Prediksi grafik kinerja antara training dan
testing
Sumber: https://becominghuman.ai/
Kesimpulan
• AI merupakan sistem yang masih manual dan masih harus disetting untuk melaksanakan
satu tugas tertentu. Kemudian Marchine Learning adalah suatu program pembelajaran yang
berupa saraf neuron yang berfungsi untuk memerintah pada computer. Deep Learning
adalah kemampuan sistem yang di setting dengan baik demi meningkatkan kerja pada
komputer.
• Deep Learning dikaitkan dengan Artificial Neural Network (ANN) yang menggunakan
simulasi cara kerja otak manusia yang terdiri dari beberapa lapisan yang saling terhubung
dan komunikasi.
• Implementasi deep learning dapat dilakukan pada permasalahan klasifikasi, deteksi,
rekognisi, NLP dan lainnya
• Deep learning dapat dkatakan sebagai teknik AI yang paling baik jika dibandingkan dengan
Machine Learning karena dapat mengakomodir data dan perhitungan yang kompleks
berdasarkan efisiensi dan tingkat akurasi yang dihasilkan
Referensi
[1] Antonio, G., & Sujit P. 2017.”Deep Learning With Keras”. Packt Publishing
[2] Wikipedia Indonesia,Pembelajaran dalam

(https://id.wikipedia.org/wiki/Pembelajaran_dalam) diakses pada 1 Mei 2021
[3] XenonStack. 2021. “Log Analytics and Log Mining with Deep Learning”.
(https://www.xenonstack.com/blog/log-analytics-mining/) diakses pada 1 Mei
2021
[4] Suk, H.-I. (2017). An Introduction to Neural Networks and Deep Learning.
Deep Learning for Medical Image Analysis, 3–24. doi: 10.1016/b978–0–12–
810408–8.00002-x
PENERAPAN KOMPUTASI
BIG DATA PADA BIDANG
FARMASI
Agus Kurniawan
Ashfar kurnia
OUTLINE
1 BIG DATA BIDANG FARMASI
2 PERAN BIG DATA DALAM BIDANG FARMASI
3 BIG DATA DALAM SISTEM KESEHATAN

1 2
4
PEMANFAATAN BIG DATA UNTUK SISTEM
3 PENGELOLAAN FARMASI DALAM PELAYANAN
4
KESEHATAN DI RUMAH SAKIT
PENDAHULUAN
VOLUME
VISUALIZATION VELOCITY
VERACITY
BIG VARIETY
DATA
VALIDITY VARIABILITY
VALUE
Panesar, Arjun. 2021. Machine Learning and AI for Healthcare: Big Data for
Improved Health Outcomes. Second Edition. Apress. New York, US.
BIG DATA BIDANG FARMASI
Farmasi Bahan Alam
Rekayasa Genetik &

BIOLOGI Mikrobiologi
FARMASI
Sintesis Obat
KIMIA Bioavailabilitas dan

Bioekivalensi
FARMASI
BIG
Desain dan Formulasi Obat
DATA
FARMASI TEKNOLOGI Neutrasetikal
FARMASI Kosmetik
Farmakologi
FARMAKOLOGI,
Farmasi Klinik dan
FARMASI Komunitas
KLINIK DAN
Farmakoekonomi
KOMUNITAS
PERAN BIG DATA DALAM BIDANG FARMASI
“Mengetahui tidak hanya apa yang terjadi, tetapi mengapa itu terjadi
(diagnostik), apa yang akan terjadi (prediktif) dan bagaimana kita dapat
mewujudkannya (preskriptif), hal itu penting untuk bergerak melampaui big data Farmasi
menuju pengetahuan.“ (Drenik, Forbes) Klinik dan
Komunitas
Deskriptif Biologi dan
Kimia Penentuan
Farmasi
Big Data Diagnostik Kebijakan
Optimalisasi
Analytics Pelayanan
Kesehatan
Prediktif Inovasi Obat
dan Alat
Kesehatan
Preskriptif
Penemuan
Senyawa
Proses penggalian informasi yang berguna dengan Obat Baru
menganalisis berbagai jenis kumpulan data yang berukuran Teknologi
besar untuk mengungkap pola tersembunyi, korelasi yang Farmasi
tidak diketahui, dan informasi bermanfaat lainnya yang dapat
digunakan untuk membuat keputusan yang lebih baik
PENGGUNAAN BIG DATA DALAM PENEMUAN DAN
PENGEMBANGAN OBAT BARU
Pemanfaatan data
protein target
Pemanfaatan data
senyawa tanaman
obat
Pemanfaatan data
Genomik
Pemanfaatan data
struktur kimia
Aplikasi AI
• Penemuan senyawa aktif • Uji in vivo • Farmakokinetik • Efektivitas • Safety dan • Real world Vs Trials
• Uji in vitro • Farmakokinetik • BA & BE dalam efikasi • Validitas Internal
• Farmakodinamik • Dosis aman Pengobatan dan Eksternal
• Toksisitas • Efek obat Penyakit
• Dosis • Rentang dosis
DATA PROTEIN TARGET
https://www.rcsb.org/
Ikatan Energi
yang Paling
Kuat
Molecular Docking
DATA TANAMAN OBAT
http://herbaldb.farmasi.ui.ac.id
Perlu
pengembangan
untuk data tanaman
asli Indonesia secara
http://www.botanicalauthentication.org http://herbalgram.org komprehensif
DATA STRUKTUR KIMIA
• Analisis
interaksi ligan-
reseptor: Plant,
Autodock Vina,
https://pubchem.ncbi.nlm.nih.gov https://chem-space.com
MOE, Molegro
Virtual Docker,
dll.
• Analisis ADMET:
pkCSM online
tool
http://www.chemspider.com https://chemaxon.com
DATA GENOMIK
https://blast.ncbi.nlm.nih.gov https://www.ebi.ac.uk
GenBank: NCBI, US DNA Data Bank of Japan,
Jepang
Pangkalan Data
Primer untuk
sekuens Asam
Nukleat saat ini
https://www.ddbj.nig.ac.jp
EMBL-EBI: European Molecular Biology Laboratory, Eropa
PUSAT INFORMASI OBAT
http://pionas.pom.go.id
Berisi deskripsi obat,
Monografi Obat
(Indikasi, Peringatan,
Interaksi, Nama
Dagang), bentuk
sediaan, Golongan
obat, dll.
https://www.drugs.com/ https://go.drugbank.com https://druginfo.nlm.nih.gov

BIG DATA DALAM SISTEM KESEHATAN
Pengaturan layanan kesehatan mengumpulkan dan menyimpan set digital
besar data pasien yang dihasilkan dari pemeriksaan medis rutin, resep,
pengurutan genom, pengujian laboratorium, dan klaim administratif.
mHealth Retail Medical

device Pharmacies Records
Public Health Manual Survey

Genomic Data
Data Results
Insurance
Imaging and mHealth
Claim
Lab results Applications
Providers
Hospital and
Health
Providers
ELECTRONIC HEALTH RECORDS (EHRs)
EHRs memiliki peran penting dalam usaha pengawasan
kesehatan populasi dan pelayanan kesehatan individu
sehingga data tersebut dapat bermanfaat untuk
1. memprediksi prevalensi penyakit
2. meningkatkan keselamatan pasien
3. memudahkan komunikasi antar profesi kesehatan
4. penentuan kebijakan terkait program kesehatan
nasional.
EHR dihasilkan dan disimpan di hampir semua

departemen perawatan kesehatan, termasuk perawatan
primer dan pengaturan perawatan khusus, ruang gawat
darurat, dan apotek rumah sakit.
Dokumentasi
catatan apoteker
JENIS DAN SUMBER DATA HEALTHCARE
Kategori sumber big data healthcare
penting untuk analisis AI:
Web and
•history
social media •health forums
data
Machine-to- •Sensors
machine data •wearable
Big
•Health claim data
transaction •billing data
data
•Fingerprints
Biometric •genetics
data •biomarkers driven from wearables
Human- •Email
generated •paper documents
data •EMR
Panesar, Arjun. 2021. Machine Learning and AI for

Healthcare: Big Data for Improved Health
Outcomes. Second Edition. Apress. New York, US.
ANALITIK BIG DATA DALAM PELAYANAN KESEHATAN
Rekam medis berukuran besar dan gejala setiap penyakit berbeda satu
Prediksik Penyakit sama lain. Prediksi penyakit yang tepat pada waktu yang tepat sangat
penting untuk penyakit yang mengancam jiwa seperti kanker.
EHR merupakan catatan pribadi yang meliputi informasi pribadi, riwayat medis, tes
Electronic health records patologi, alergi, penyakit sensitif, dll. Catatan medis tersebut ditransfer melalui
media yang aman dan setiap medical record dapat diedit oleh dokter.
Real time monitoring dapat menunjang kerja dokter dalam memberikan resep
Real-time monitoring kepada pasien yang sensitif atau penyakit berat
Praktisi kesehatan dapat mengumpulkan dan menganalisis hasil pemeriksaan rutin pasien
Perencanaan strategis medis dari segi lokasi, demografi, dan masyarakat untuk menemukan faktor perkembangan jenis
penyakit tertentu dan juga untuk meningkatkan strategi pengobatan
Rekomendasi obat berbasis gejala dimungkinkan dengan penggunaan analitik big data.
Drug suggestions Saran dan rekomendasi obat secara online membuat proses penanganan lebih efektif.
Analisis big data dapat mengubah cara pengambilan dan penyimpanan gambar. Algoritma
Medical imaging dirancang untuk membaca dan menyimpan data berbasis piksel, kemudian mengubah
data tersebut menjadi bentuk yang mudah dibaca dan dimengerti oleh dokter.
Penemuan smartphone dan IoT, seseorang dapat memanfaatkan ponsel untuk konsultasi
Telemedicine online, saran obat, diagnosis, pemantauan pasien secara real-time, pelacakan pencapaian
kesehatan, dan banyak hal lainnya
PEMANFAATAN BIG DATA UNTUK SISTEM PENGELOLAAN
FARMASI DALAM PELAYANAN KESEHATAN DI RUMAH SAKIT
Tools pendukung keputusan klinis yang terkait
Optimalisasi penggunaan tools dengan farmasi meliputi tombol dosis obat,
untuk mendukung keputusan
klinis peringatan obat seperti terapi duplikat atau
peringatan interaksi obat-obat, dan pop-up
Data klaim dan biaya
peringatan untuk memperingatkan pengguna
Manajemen
yang memberikan tentang praktik yang berpotensi tidak aman.
informasi tentang
formularium dan
pemanfaatan pemantauan efek
pelayanan Big Data uses samping
within Health Aplikasi EMRs ada yang open source dan berlisensi
System
Peningkatan Pharmacy
Mengukur kualitas
penerapan
dan hasil
evidence-based
perawatan pasien
medicine
Transisi perawatan yang lebih

baik melalui data yang terkait
dengan kepatuhan pengobatan
TANTANGAN PENERAPAN BIG DATA BIDANG
FARMASI DI INDONESIA
Regulasi
Pemerataan
Tecnology
Challenges akses
supports
internet
Integrasi
data
REFERENSI
• Bermudez et.al., Towards a symbiotic relationship between big data, artifcial intelligence, and hospital
pharmacy. J of Pharm Policy and Pract. 13 (75): 1 – 6. 2020.
• Drenick G. Going beyond big data to knowledge webpage on the internet. Forbes [updated March 11, 2014].
Available from: http://www.forbes.com/sites/prospernow/2014/03/11/going-beyondbig-data-
toknowledge/. Accessed Novemver 30, 2021.
• Ma, C., et al. Big data in pharmacy practice: current use, challenges, and the future. Integrated Pharmacy
Research and Practice 4; 91–99. 2015.
• Madanian, S. et al. mHealth and big-data integration: promises for healthcare system in India. BMJ Health
Care Inform. 26:e100071. 2019.
• Marconi, K. and Lehmann, H (Ed.). 2015. Big Data and Health Analytics. CRC Press. US.
• Natarajan, P., Frenzel, J.C., and Smaltz, D.H. 2017. Demystifying Big Data and Machine Learning for
Healthcare. CRC Press. US.
• Panesar, Arjun. 2021. Machine Learning and AI for Healthcare: Big Data for Improved Health Outcomes.
Second Edition. Apress. New York, US.
• Stokes, L.B., et al. 2016. Big Data: Implications for Health System Pharmacy. Hosp Pharm. 51(7): 599–603.
2016.
• Wijaya, R.D. dan Rahman, La ode A. Implementasi Electronic Health Records (EHRs) pada Pelayanan
Kesehatan di Komunitas: Literature Review. Jurnal Kesehatan. 8; 28-38. 2019
BIG DATA
• Big data adalah istilah yang

menggambarkan data dalam
volime besar baik terstruktur
maupun tidak tersetruktur
yang mambanjiri urusan sehari-
hari.
Volume (Capacity)
Velocity (Speed)
• Data dibuat dan diproses dengan cepat
• Online Data Analytics
• Keputusan terlambat à kehilangan kesempatan/penyesalan
• Contoh:
• Promosi kesehatan (E-health promotion)
• Monitoring (Healthcare monitoring)
• Respon terhadap perkiraan bencana dan wabah penyakit
Veracity (Truth)
• Bagaimana kebenarannya?
• Dapat dipertanggungjawabkan?
• Contoh:
• Survey kesehatan
• Kondisi penyakit tertentu tidak
disebutkan karena malu atau
faktor lain
Value
• Apakah data tersebut bermanfaat?
• Memiliki nilai?
• Dapat diaplikasikan?
Pengembangan V dari Big Data
Penggunaan Big Data dalam Kesehatan
Bagaimana cara memperoleh data biologis?
DNA Sequencing
• Berisi infomasi genetika setiap individu
• Mendeterminasikan sifat genotip dan fenotip
• Dari data ini kita dapat melihat dan menganalisis kemungkinan sifat
waktu lampau, saat ini,

genetiknya pada
dan (memprediksi) masa depan

kesehatannya
Data Biologi (Bioinformatika)
Sumber : Setia Permana
Tren personalisasi Medisin
Farmakogenomik & Farmakogenetik
Terima Kasih
THANK YOU
PRODI KEBIDANAN & PENDIDIKAN
PROFESI BIDAN
Home Welcome
ERIK EKOWATI, M.Keb

Hp: 085784868636
DEPOK, 20 JANUARI 2022
Email: erikekowati82@staff.gunadarma.ac.id
erikekowati82@gmail.com
» Visi & Misi » Tata Pamong » Mahasiswa & Lulusan » SDM » Kurikulum PRODI KEBIDANAN & PENDIDIKAN
» Sarana & Prasarana » Penelitian, Abdimas, & Kerjasama PROFESI BIDAN
Analisis Kebutuhan Big Data pada Pelayanan Kebidanan
Konvensional Teknologi semakin

Pengolahan data berkembang Big Data
secara manual dengan cepat
Kehamilan
PUS
(Pasangan
Persalian
Usia
Subur)
Big Data
Anak
Nifas
Balita
Bayi
Kunjungan
Kehamilan Persalian
Pelayanan
oleh tenaga
KB kesehatan
Pelayanan Kunjungan
balita sakit Nifas
Data Deteksi
Pelayanan
balita Pelayanan faktor
resiko/kom
plikasi
Kunjungan Penangan
bayi komplikasi
Penanganan Kunjungan
komplikasi neonatal
neonatal
PELAYANAN
KESEHATAN
YANG BERMUTU
BAIK
PROFESI BIDAN
Home Closing
PROFESI BIDAN
Home Welcome
Dr. Nina Herlina M.Kes

Hp: 081-18241280
DEPOK, 2 DESEMBER 2021
Email: nina herlina@staff.gunadarma.ac.id
herlina.winaldi@gmail.com
PROFESI BIDAN
Home Identitas
• Program Studi (PS) : Kebidanan & Pendidikan Profesi Bidan

• Fakultas : Ilmu Kesehatan dan Farmasi
• Perguruan Tinggi : Universitas Gunadarma
• Nomor SK pendirian PS (*) : 60/KPT/1/2019
• Tanggal SK pendirian PS : 07 Februari 2019
• Pejabat Penandatangan : Menteri Riset, Teknologi, dan Pendidikan Tinggi RI
SK Pendirian PS c
• Bulan & Tahun Dimulainya : September 2019
Penyelenggaraan PS
• Peringkat (Nilai) Akreditasi : Terakreditasi BAIK LamPTKes
Terakhir
• Homepage dan E-mail : https://gunadarma.ac.id/
kebidanan@gunadarma.ac.id
prodiS1kebidananug@gmail.com
PROFESI BIDAN
Home Outline
1. Visi, Misi, & Tujuan

2. Implementasi Aplikasi dalam Pelayanan
c Kebidanan
Visi
“Pada tahun 2022 menjadi

Program Studi Pendidikan Profesi
Bidan terkemuka di Indonesia Berbasis TIK
berbasis Teknologi Informasi dan
Komunikasi dengan jejaring
nasional dan internasional dalam
kegiatan tridharma perguruan Jejaring nasional &
internasional
tinggi yang holistik dan integratif
dalam rangka meningkatkan
kualitas hidup masyarakat”
Misi
Menyelenggarakan program studi Pendidikan profesi bidan yang berkualitas dalam

rangka meningkatkan kontribusi pada peningkatan kualitas hidup masyarakat Indonesia
Misi Program Studi Menciptakan suasana akademik yang mendukung terselenggaranya proses
pembelajaran yang inofatof agar dapat menghasilkan lulusan yang cerdas, kompetitif
Kebidanan & dan berkarakter
Pendidikan Profesi
Bidan didasarkan pada Menyelenggrarakan kegiatan penelitian dan pengabdian kepada masyarakat sebagai
pengetahuan dan tanggungjawab social dalam peningkatan kesehatan masyarakat dan
tridharma PT yang baik lingkungannya
sesuai dengan
dinamika masyarakat
Meyelenggarakan kerjasama dengan berbagai industry, baik didalam maupun diluar
di era informasi dan negeri dengan dilandasi kesetraan dan demi kepentingan nasional
globalisasi.
Mengembangkan tata kelola program Pendidikan kebidanan yang baik dalam rangka
merespon berbagai perubahan yang terjadi di era informasi dan globalisasi.
Implementasi Aplikasi Pelayanan Kebidanan
1. Asuhan Pada Ibu Hamil

2. Asuhan Pada Ibu Melahirkan dan Bayi Baru Lahir
3. Asuhan Pada ibu Setelah Melahirkan (Nifas)
4. Asuhan Keluarga Berencana
5. Asuhan Kebidanan Komunitas
PROFESI BIDAN
Home Lokasi
Hibah Penelitian Unggulan Ristek Dikti 2020/2021

Judul: Perancangan Sistem Informasi Panduan Ibu
Hamil Berbasis Android Mobile
Rancangan system aplikasi salute bidan merupakan
salah satu upaya untuk memberikan kemudahan pada
ibu hamil dalam mengakses pelayanan kesehatan dan
edukasi untuk dapat melakukan skrining mandiri
tentang kesehatannya di masa pandemik COVID-19
Populasinya: 5 Puskesmas Wilayah Dinas Depok
(Puskesmas Cimanggis, Puskesmas Pancoran Mas,
Puskesmas Sukma Jaya, Puskesmas Cinere,
Puskemas Beji)
PROFESI BIDAN
Home Lokasi
PROFESI BIDAN
Home Lokasi
PROFESI BIDAN
Home Lokasi
PROFESI BIDAN
Home Lokasi
PROFESI BIDAN
Home Lokasi
PROFESI BIDAN
Home Lokasi
PROFESI BIDAN
Home Lokasi
PROFESI BIDAN
Home Lokasi
PROFESI BIDAN
Home Lokasi
PROFESI BIDAN
Home Closing
ATA 2021/2022 | 2-FTI | Komputasi Big Data
| TEAM TEACHING
PERT 1
Manakah yang benar dari pernyataan berikut ini:
Select one:
a. Memperkirakan puncak dari kasus positif Covid-19, adalah contoh analisis prediktif.
b. Prediktif, menilai tindakan
c. Preskriptif, memodelkan perilaku masa lalu
d. Deskriptif, perkiraan berdasarkan data yang tersedia
Unit informasi tunggal disebut:
Select one:
a. Fitur/atribut
b. Nilai
c. Objek
d. Dataset
Clear my choice
Data Warehouse dibuat dengan menerapkan serangkaian langkah pemrosesan terhadap

data yang berasal dari beberapa basis data. Berikut ini adalah yang termasuk dalam
pemrosesan data tersebut:
Select one:
a. Transformasi data
b. Semua benar
c. Integrasi data
d. Pembersihan data
Dataset dibentuk dari:
Select one:
a. Sekumpulan objek yang memiliki fitur yang sama
b. Semua salah
c. Sekumpulan fitur yang memiliki objek yang sama
d. Sekumpulan fitur yang memiliki nilai yang sama
Clear my choice
Salah satu keunggulan DGX A100:

Select one:
a. Konsumsi daya lebih sedikit
b. Semua benar
c. Biaya lebih murah
d. Tidak membutuhkan ruang yang besar
Model basis data yang berupa deret waktu (time series):

Select one:
a. Temporal database
b. Spatial database
c. Text database
d. Semua salah
Kumpulan data yang disusun dalam tabel berformat persegi panjang yang terdiri dari baris
dan kolom disebut sebagai:
Select one:
a. Flat files
b. Data Warehouse
c. Semua salah
d. Database
Sumber data yang digunakan dalam aplikasi Big Data dapat berupa:
Select one:
a. Data Finansial
b. Data Media Sosial
c. Data Asuransi Kesehatan
d. Semua benar
Tempat penyimpanan data yang dikumpulkan di lokasi berbeda (basis data relasional) dan
disimpan menggunakan skema terpadu:
Select one:
a. Data Warehouse
b. Spatial Database
c. Transactional database
d. Semua benar
Dalam ekosistem Big Data, proses pre-prosesing data dapat dilakukan menggunakan:
Select one:
a. Sqoop
b. Facebook
c. Tableu
d. HDFS
Dalam arsitektur Big Data, solusi berupa rekomendasi, berada pada posisi sebagai:
Select one:
a. Data Computing & Analysis
b. End Result
c. Data Format
d. Data Storage Layer
Semakin banyak data hingga mencapai ukuran Peta Byte atau bahkan lebih, merupakan
penjelasan dari dimensi Big Data dalam hal:
Select one:
a. Variety
b. Velocity
c. Veracity
d. Volume
Visualisasi dari hasil analisis Big Data dapat berupa:

Select one:
a. Tabel
b. Grafik 3D
c. Semua benar
d. Plot
Objek disebut juga:
Select one:
a. Unit
b. Semua benar
c. Record
d. Data points
Tipe nilai dapat berupa:
Select one:
a. Semua salah
b. Numerik
c. Fitur
d. Object
Contoh solusi Big Data, kecuali:
Select one:
a. Mesin rekomendasi
b. Deteksi Penipuan
c. Semua benar
d. Input Nilai Mahasiswa
Komponen Komputasi Big Data di lapisan Middleware terdiri dari:
Select one:
a. Resource Layer
b. SDK Layer
c. Semua benar
d. Interface Layer
Sekumpulan tabel dimana bentuk setiap tabel analog dengan flat file, disebut:
Select one:
a. Database
b. Data Warehouse
c. Semua salah
d. DBMS
Yang merupakan framework untuk Machine Learning:
Select one:
a. Semua benar
b. Azure ML
c. Apache Spark MLlib
d. Amazon ML
Beragamnya jenis data di dalam Big Data yang meliputi data terstruktur, semi terstruktur
dan bahkan data tidak terstruktur, merupakan penjelasan dari dimensi Big Data dalam hal:
Select one:
a. Velocity
b. Variety
c. Veracity
d. Volume
PERTEMUAN 2 TEAM TEACHING BIG DATA
Arsitektur Hadoop terdiri dari:
Select one:
a. Storage layer, Resource Management Layer, Application Layer
b. Storage layer, Processing Layer, Application Layer
c. Data layer, Processing Layer, Service Layer
d. Storage layer, Service Layer, Application Layer
Berikut ini adalah saran untuk memasuki era Analytic 3.0:
Select one:
a. Pilih target dan sub-target analytics 3.0
b. Tambahkan beberapa data volume besar yang tidak terstruktur
c. Semua benar
d. Mulailah dengan kemampuan yang ada untuk manajemen data dan analitik
Berikut ini yang harus dilakukan oleh perusahaan 1.0, kecuali:
Select one:
a. Membuat analitik dan keputusan berbasis fakta elemen kunci dari hubungan pelanggan, produk dan
layanan, strategi, dan persaingan
b. Temukan pelanggan terbaik, tetapkan harga terbaik kepada mereka
c. Buat penawaran yang efektif
d. Pahami biaya dan dorong kinerja yang lebih baik
Contoh Analytic 3.0:
Select one:
a. Data volume tinggi waktu nyata dari sensor dan mesin
b. Semua benar
c. Analisis untuk tren, pola, prediksi, pengoptimalan, kesadaran situasional

d. Fokus pada anomali dan pengecualian
Contoh Aplikasi Machine Learning dan Analitik Prediktif:
Select one:
a. Semua benar
b. Prediksi wabah penyakit
c. Prediksi Cashflow
d. Penetapan harga dinamis
Contoh data tidak terstruktur:
Select one:
a. Data pegawai
b. Data media sosial
c. Semua benar
d. Data transaksi penjualan
Contoh implementasi dalam perusahaan:
Select one:
a. Semua benar
b. Procter & Gamble melakukan Analisis sentimen media sosial real time untuk "Pulsa Konsumen"
c. Sistem Manajemen Inventaris Cerdas pada perusahaan Ford, menyarankan pesanan mingguan untuk
dealer dan telah meningkatkan pendapatan sebesar $ 100 juta / tahun
d. Monsanto membayar hampir $ 1 miliar untuk The Climate Company, yang mengumpulkan dan
menganalisis data cuaca untuk pertanian
Dalam computer vision, contoh penerapan Machine Learning adalah, kecuali:
Select one:
a. Analitik Rute
b. Deteksi suhu tubuh

c. Pengenalan wajah
d. Pengenalan objek
stilah 'Machine Learning' diciptakan pada tahun <T> oleh :
Select one:
a. T = 1999, P = Bill Gates
b. T = 1989, P = Tom M. Mitchell
c. T = 1969, P = Yann LeCun
d. T = 1959, P = Arthur Samuel
Komponen Hadoop yang berfungsi sebagai data processing:
Select one:
a. HDFS
b. YARN
c. MapReduce
d. Semua benar
Komponen Hadoop yang berfungsi sebagai data storage:
Select one:
a. MapReduce
b. YARN
c. Semua benar
d. HDFS
Manakah pernyataan yang benar tentang era Analytic 3.0:
Select one:
a. Dibutuhkan kapabilitas analitis dan komputasi baru
b. Data yang kompleks, besar dan tidak terstruktur
c. Perpaduan antara analitik tradisional dengan Big Data

d. Sumber data dari internal, relatif kecil dan data terstruktur dari pelanggan
Manakah pernyataan yang benar tentang Hadoop:
Select one:
a. Hadoop mulai dikembangkan pada tahun 2008
b. Hadoop merupakan framework untuk bekerja dengan Big Data
c. Semua benar
d. Hadoop merupakan Google File System
Netflix adalah contoh perusahaan yang tergolong:
Select one:
a. 1.0
b. Semua benar
c. 3.0
d. 2.0
Perbandingan SQL vs NoSQL:
Select one:
a. Semua benar
b. Static vs Dynamic
c. Relational vs Non-Relational
d. Structured Query Language vs Un-structured Query Language
Perbandingan Traditional vs Big Data Analytics:
Select one:
a. Process centric vs Information centric
b. Semua benar
c. Hard to scale vs Scales out forever
d. Mahal vs Terjangkau
Salah satu bentuk data tidak terstruktur:
Select one:
a. Graph
b. Semua benar
c. Key-Value
d. Document
Salah satu fakta yang menunjukkan aspek Velocity dari Big Data:
Select one:
a. Mobil modern memiliki 100 sensor yang memantau berbagai item pada mobil
b. Pertumbuhan data tidak terstruktur mencapai 60% - 80% per tahun
c. Semua benar
d. 27% responden dalam satu survei tidak yakin dengan banyaknya data mereka yang tidak akurat
Salah satu tonggak penting dalam Big Data Analytic dalam aspek pengadaan infrastruktur:
Select one:
a. Dapatkan infrastruktur yang tepat yang dibutuhkan berdasarkan arsitektur solusi Anda termasuk
penyimpanan data dan unit pemrosesan, platform, dan aplikasi
b. Adaptasi dan ubah organisasi Anda menuju teknologi big data dan implementasi analitik baru
c. Kembangkan arsitektur Solusi untuk kasus bisnis Anda termasuk proses pengumpulan data, arsitektur
teknologi dan metode analitik serta visualisasi data
d. Analisis data untuk setiap kasus bisnis spesifik Anda dan visualisasikan dengan cara yang bermakna
Teknologi yang dibutuhkan pada era Analytic 3.0:
Select one:
a. Ketergantungan yang tinggi pada Machine Learning
b. Berpusat pada Data Warehouse
c. Keduanya benar
d. Keduanya salah
BIG DATA PERTEMUAN 3
Sistem penyimpanan data cluster adalah
Select one:
a. Kumpulan server atau node digabungkan secara erat, dengan spesifikasi perangkat keras yang sama.
Serta terhubung melalui jaringan dan bekerja sebagai satu kesatuan
b. Penyimpanan dan pengaturan data pada perangkat penyimpanan harddisk atau flashdisk, dan
menyediakan logical view dari data yang disimpan dalam struktur hirakis direktori file.
c. Menyimpan data dengan mempartisi secara horizontal dan pecahan horizontal tersebut di simpan
secara terpisah pada node server.
d. Data disimpan dengan cara menyalin dataset dan meyimpan Salinan tersebut pada beberapa node
Berikut yang dimaksud dengan menganalisa data dalam konteks big data adalah:
Select one:
a. Classification analytics, regression analytics, clustering analytics, dan hadooping analytics
b. Menentukan jumlah data dan atribut data
c. mean statistic analytics, deviation standard analytics, dan percentil analytics
d. Descriptive analytics, diagnostic analytics, predictive analytics, dan prescriptive analytics
Properti Big data yang penting, salah satunya adalah aviability, yaitu:
Select one:
a. Kemampuan menanganai penambahan bebab yang diberikan tanpa penurunan kinerja
b. Handal
c. Kemampuan untuk terus beroperasi walaupun terjadi kegagalan pada beberapa komponen
d. Ketersediaan layanan secara terus menerus
Berikut ini yang bukan merupakan Hadoop operation mode, adalah
Select one:
a. Globally distributed mode

b. Pseudo distributed mode
c. Fully-Distributed mode
d. Stand alone mode
Pernyataan yang benar mengenai MapReduce, adalah:
Select one:
a. membagi masalah besar menjadi masalah kecil yang dapat diselesaikan dengan cepat
b. memproses data besar secara parallel dalam cluster pada commodity hardware
c. semua benar
d. implementasi dari framework pemrosesan batch
NoSQl database adalah singkatan dari
Select one:
a. Not-only Structured Query Language database
b. Numbered of sequel database
c. Numbered of Structured Query Language database
d. No Like Structured Query Language database
YARN singkatan dari
Select one:
a. Yahoo’s another resource name
b. Yet another resource negotiator
c. Yahoo’s archived Resource names
d. Yet another resource need
Komponen layanan inti Hadoop adalah
Select one:
a. ClickStream, Sensor, dan Sentiment
b. Speed, consistency, dan volume

c. SQL, NoSQL, Cluster
d. MapReduce, HDFS, dan YARN
Hadoop adalah framework yang bekerja bersama tools lain yang beragam. Kelompok yang umum
bekerja bersama Hadoop adalah
Select one:
a. MapReduce, Hummer and Iguana
b. MapReduce, Hive and Hbase
c. MapReduce, MySQL and Google Apps
d. MapReduce, Heron and Trumpet
Properti Big data yang penting, salah satunya adalah reliability, yaitu:
Select one:
a. Kemampuan untuk terus beroperasi walaupun terjadi kegagalan pada beberapa komponen
b. Handal
c. Ketersediaan layanan secara terus menerus
d. Kemampuan menanganai penambahan bebab yang diberikan tanpa penurunan kinerja
Properti Big data yang penting, salah satunya adalah fault tolerance, yaitu:
Select one:
a. Ketersediaan layanan secara terus menerus
b. Handal
Database NoSQL menggunakan beragam model data untuk mengakses dan mengelola data. Jenis
database ini dioptimalkan secara khusus untuk aplikasi yang memerlukan…., yang dicapai dengan
mengurangi pembatasan konsistensi data dari database lainnya.
Select one:
a. volume data besar, latensi rendah, dan model data fleksibel

b. volume data besar, latensi rendah, dan model data fleksibel
c. volume data besar, latensi rendah, dan model data fleksibel
d. volume data besar, latensi rendah, dan model data fleksibel
Pemrosesan data terdistribusi adalah pemrosesan
Select one:
a. yang menerapkan divide and conquer dalam fisik terpisah, namun terhunung Bersama dalam satu
cluster
b. yang menggunakan pendekatan pendekatan interaktif tanpa penundaan
c. yang melibatkan pelaksanaan sub-tugas secara bersamaan secara kolektif membentuk tugas yang
besar melalui beberapa processor
d. yang membagi pemrosesan dalam beberapa batch dan dilakukan secara offline
Hadoop adalah framework yang
Select one:
a. Melibatkan satu atau lebih cluster Komputer
b. Memungkinkan pemrosesan secara terdistribusi terhadap data yang berukuran besar
c. Semua benar
d. Menerapkan programming model yang sederhana
Type data berikut yang dapat ditangani oleh Hadoop adalah
Select one:
a. Semua benar
b. Tidak terstuktur
c. Terstruktur
d. Semi – terstruktur
Hadoop adalah platform pemrosesan big data yaitu data yang mempunyai karakteristik kecuali:
Select one:
a. Inconsistent dan uncertaint
b. Volume besar, struktur data yang beragam (variety), dan nilai data yang diperlukan (useful value)
c. Jumlah fitur yang tertentu
d. Terakumulasi dengan cepat (high speed velocity)
Bagian pekerjaan utama MapReduce adalah
Select one:
a. combine dan partition
b. map dan combine
c. shuffle dan sort
d. map dan reduce
Terdapat 2 (dua) teknologi Penyimpanan Big Data, yaitu
Select one:
a. Flashdisk dan harddisk
b. Reliable dan Fault tolerance
c. SQL dan No-SQL
d. On Disk Storage Devices dan In Memory Storage Devices
Jenis database NoSQL apa yang membuat dan menjalankan aplikasi yang berjalan dengan dataset yang
selalu terhubung menjadi lebih mudah dan sering digunakan untuk jaringan media sosial.
Select one:
a. Dokumen
b. Primary key
c. Pencarian
d. Grafik
Properti Big data yang penting, salah satunya adalah scalability, yaitu:
Select one:
b. Kemampuan menanganai penambahan bebab yang diberikan tanpa penurunan kinerja
d. Handal
28/03/22 13.27 1 pesan baru
Dashboard / My courses /
ATA 2021/2022 | 2-FTI | Kompuasi Big Data | TEAM TEACHING /
Pertemuan 4 : Data Preprocessing
/
Kuis M4 : Data Preprocessing
Started on Monday, 28 March 2022, 1:18 PM

State Finished
Completed on Monday, 28 March 2022, 1:27 PM
Time taken 9 mins 5 secs
Grade 100.00 out of 100.00
Question 1 Bagaimana menangani missing value dengan tepat?

Correct
Mark 5.00 out of Select one:

5.00
Imputasi nilai manual
Dibiarkan
A,B,dan C benar 
Eliminasi data object
Question 2 Berikut adalah nama lain dari data objek, kecuali

Correct

5.00
Instance
Record
Sample
Atribut 
Question 3 Cara menangani noisy data, kecuali

Correct

5.00
Regression
Ignore 
Clustering
Combined Computer
Question 4 Data berupa image, video bahkan suara termasuk jenis data
Correct

5.00
Record
Multimedia 
Graf
Ordered
1
Online
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=5682077&cmid=856415 1/4
28/03/22 13.27 1 pesan baru
Question 5 data cleaning pada data preprocessing dilakukan..

Correct

5.00
Normalisasi dan diskritasi data
Identifikasi dan integrasi dari multiple database
Imputasi, smoothing dan identifikasi 
Dimensionality reduction dan data compression
Question 6 Data Cleansing merupakan tahapan untuk membersihkan data kotor sehingga menjadi dataset yang siap diolah. Data
Correct kotor tersebut berupa
Mark 5.00 out of
5.00 Select one:
outlier
A,B,C benar 
missing value
duplicate data
Question 7 Data-data yang saling berhubungan, yang biasanya ditemukan pada jaringan internet termasuk dalam jenis data
Correct

5.00
Multimedia
Ordered
Record
Graf 
Question 8 Imputasi nilai secara otomatis saat menangani incomplete data tidak dapat dilakukan menggunakan
Correct

5.00
interpolasi
Nilai tertinggi 
Median
Rata-rata
Question 9 Jenis kelamin, merupakan salah satu atribut data type…

Correct

5.00
Nominal 
Numerik
Rasio
Ordinal
Question 10 Karakteristik data objek merupakan representasi dari

Correct

5.00
Dataset 1
Online
Atribut 
Data objek
Data sample
28/03/22 13.27 1 pesan baru
Question 11 Nilai yang merepresentasikan urutan seperti nilai mata kuliah termasuk dalam atribut data type..
Correct

5.00
Rasio
Ordinal 
Nominal
Numerik
Question 12 Normalisasi data dilakukan pada tahap data preprocessing ..

Correct

5.00
data reduction
data Integration
data transformation 
data cleaning
Question 13 Penanganan missing value dapat dilakukan menggunakan nilai estimasi dari probabilitas bersyarat menggunakan metode
Correct

5.00
Eliminasi
Bayessian 
Regresi
Mean
Question 14 Salah satu jenis data record yang diekstrak menjadi kumpulan term dan ditulis berdasarkan frekuensi kemunculan data,
Correct termasuk pada jenis data
Mark 5.00 out of
5.00 Select one:
Dokumen 
Transaksi
Matriks
Sosial network
Question 15 Seberapa mudah data dapat dipahami merupakan kualitas data dari..
Correct

5.00
Consistency
Interpretability 
Completeness
Believability
Question 16 Statistik dasar untuk mengukur sebaran data salah satunya adalah
Correct

5.00
Mean 1
Modus
Online
Median
Variance 
28/03/22 13.27 1 pesan baru
Question 17 Studi tentang bagaimana menganalisis data dan membersihkan data merupakan salah satu tujuan dari
Correct

5.00
Data validation
Data cleansing 
Data training
Data testing
Question 18 Tahapan pertama data preprocessing adalah

Correct

5.00
data Integration
data reduction
data cleaning 
data transformation
Question 19 Tanggal penjualan, nama pelanggan, nama barang, jumlah penjualan merupakan contoh dari
Correct

5.00
Atribut penjualan
Data sample penjualan
Data objek penjualan
Dataset penjualan 
Question 20 Tinggi badan, berat badan, usia, dan jenis kelamin merupakan contoh representasi karakteristik dari
Correct

5.00
Atribut
Data objek 
Dataset
Data sample
Kuis M4 : Data Preprocessing (khusus

◄ Video M4 : Data Preprocessing Jump to...
kelas MALAM)) ►
1
Online
04/04/22 13.35 Kuis M5: Implementasi BigData pada Fintech: Attempt review
Pertemuan 5: Implementasi Big Data pada Fintech
/
Kuis M5: Implementasi BigData pada Fintech
Started on Monday, 4 April 2022, 1:26 PM

State Finished
Completed on Monday, 4 April 2022, 1:35 PM
Marks 19.00/20.00
Grade 95.00 out of 100.00
Question 1 Peran Data Engineer seringkali juga disebut sebagai:

Correct

1.00
a. Data Architect 
b. Data Manager
c. Business Analyst
d. Statistician
The correct answer is: Data Architect
Question 2 Data terstrutur disimpan kedalam bentuk:

Correct

1.00
a. Abstrak
b. Semua benar
c. Baris dan kolom 
d. Gambar
The correct answer is: Baris dan kolom
Question 3 Berikut ini yang merupakan arsitektur Big Data adalah:

Correct

1.00
a. Arsitektur Alfa dan Beta
b. Arsitektur Lambda dan Kappa 
c. Arsitektur Alfa dan Lambda
d. Arsitektur Beta dan Kappa
The correct answer is: Arsitektur Lambda dan Kappa
1
Online
Question 4 Salah satu karakteristik data tidak terstruktur adalah:

Incorrect

1.00
a. Berbasis teks
b. Sulit untuk dicari
c. Model data dapat ditentukan sebelumnya
d. Terkelola secara fleksibel 
Question 5 Berikut ini yang bukan contoh data terstruktur adalah:

Correct

1.00
a. Nomor KTP
b. Nomor telepon
c. Email 
d. Nama pelanggan
The correct answer is: Email
Question 6 Salah satu teknologi yang dapat digunakan pada bagian Serving Layer dalam Arsitektur lambda adalah:
Correct

1.00
a. Hive 
b. Flume
c. Spark
d. HDFS
The correct answer is: Hive
Question 7 Salah satu aktivitas yang dilakukan oleh Link Aja! dalam mengadopsi alat-alat bantu untuk pengelolaan data adalah:
Correct

1.00
a. Memaksimumkan pemanfaatan platform Google Cloud 
b. Meningkatkan proses perbaikan kualitas data
c. Memprioritaskan data yang memiliki tingkat kepentingan tinggi dan bernilai
d. Mengoptimalkan jumlah kelompok pengguna yang dapat mengakses
The correct answer is: Memaksimumkan pemanfaatan platform Google Cloud
Question 8 Cloudera merilis Kudu pada tahun:

Correct

1.00
a. 2015 
b. 2008
c. 2020
d. 2016
The correct answer is: 2015 1

Online
Question 9 Berikut ini urutan proses yang dilakukan dalam Arsitektur Kappa adalah:
Correct

1.00
a. Data Sources, Streaming/Real-Time Processing, Streaming/Real-Time Ingestion, Analytical Data Store, Analytics
& Reporting
b. Data Sources, Streaming/Real-Time Ingestion, Analytical Data Store, Streaming/Real-Time Processing, Analytics
& Reporting
c. Data Sources, Analytical Data Store, Streaming/Real-Time Ingestion, Streaming/Real-Time Processing, Analytics
& Reporting
d. Data Sources, Streaming/Real-Time Ingestion, Streaming/Real-Time Processing, Analytical Data Store, Analytics
& Reporting 
The correct answer is: Data Sources, Streaming/Real-Time Ingestion, Streaming/Real-Time Processing, Analytical Data
Store, Analytics & Reporting
Question 10 Pembayaran Kartu prakerja merupakan salah satu proyek yang dikerjakan oleh Link Aja bersama dengan:
Correct

1.00
a. BPJS
b. Semua salah
c. Bank Indonesia
d. Pemerintah 
The correct answer is: Pemerintah
Question 11 Dalam ekosistem teknologi Data Engineering Link Aja! Apache Airflow berfungsi sebagai:
Correct

1.00
a. Data Sources Gathering
b. Streaming Infrastructure
c. Monitoring
d. Batching Infratructure 
The correct answer is: Batching Infratructure
Question 12 Ukuran kualitas citra merupakan salah satu luaran yang dihasilkan oleh AI/ML Scientist Link Aja! pada proyek:
Correct

1.00
a. Natural Language processing
b. Pembuatan Platform AI/ML
c. eKYC Improvement 
d. Otomasi Produksi AI/ML
The correct answer is: eKYC Improvement
1
Online
Question 13 Kafka dikembangkan pertama kali oleh:

Correct

1.00
a. Linkedin 
b. Yahoo
c. Google
d. Facebook
The correct answer is: Linkedin
Question 14 Berikut ini merupakan karakteristik dari Big Data, kecuali:

Correct

1.00
a. Semua salah 
b. Volume
c. Veracity
d. Variety
The correct answer is: Semua salah
Question 15 Berikut ini merupakan komponen-kompone produksi dalam implementasi big data, kecuali:
Correct

1.00
a. Kafka
b. Presto
c. Spark
d. MongoDB 
The correct answer is: MongoDB
Question 16 Menjadi platform teknologi keuangan nasional terdepan dan terpercaya merupakan ... dari Link Aja!:
Correct

1.00
a. SLogan
b. Misi
c. Tujuan
d. Visi 
The correct answer is: Visi
1
Online
Question 17 Berikut ini adalah teknologi yang digunakan oleh Link Aja! pada bagian Persistence Layer, kecuali:
Correct

1.00
a. Grafana 
b. Google Cloud Storage
c. Google Big Query
d. PostgreSQL
The correct answer is: Grafana
Question 18 Server logs merupakan salah satu contoh jenis data:

Correct

1.00
a. Terstruktur
b. Tidak Terstruktur
c. Semi Terstruktur 
d. Semua Pilihan Salah
The correct answer is: Semi Terstruktur
Question 19 Nathan Marz adalah orang yang pertama kali mengembangkan:

Correct

1.00
a. Storm 
b. Beam
c. Hadoop
d. Hive
The correct answer is: Storm
Question 20 Berikut ini yang bukan termasuk kedalam peran Tim Data di Link Aja! adalah:
Correct

1.00
a. Data Intelligent 
b. Data Analyst
c. Data Scientist
d. Data Engineer
The correct answer is: Data Intelligent
◄ Materi M5: Implementasi Big Data Kuis M5: Implementasi BigData pada
Jump to...
pada Fintech Fintech (Khusus KELAS MALAM) ►
1
Online
QUIZ M7 KOMPUTASI BIG DATA
Metode untuk memprediksi kelas instance dari instance yang diberi label sebelumnya
Select one:
a. Asosiasi
b. Klasterisasi
c. Klasifikasi
d. Visualisasi
Proses pencarian konten baru dan konten yang perlu diperbaharui dengan mengirimkan crawler ke
seluruh konten yang ditemukan dari tautan halaman merupakan Salah satu konsep data mining pada
Search Engine yang dinamakan
Select one:
a. Rank
b. Searching
c. Index
d. Crawl
Metode untuk mempresentasikan hasil yang ditemukan dengan cara yang "bagus" secara visual
Select one:
a. Asosiasi
b. Visualisasi
c. Klasterisasi
d. Klasifikasi
Untuk menghindari set pengujian yang tumpang tindih, data dibagi menjadi k himpunan bagian dengan
ukuran yang sama kemudiansetiap subset secara bergantian digunakan untuk pengujian dan sisanya
untuk pelatihan
Select one:
a. Direct Marketing Paradigm

b. Commulative PCT Hits
c. Model Sorted list
d. k-fold cross-validation
Attributes yang berisi informasi seperti item_ID, name, brand, category, supplier, place_made and price,
merupakaan salah satu contoh jenis database
Select one:
a. Penjualan
b. Marketing
c. Penyewaan
d. Social media
Urutan langkah melakukan klasifikasi
Select one:
a. Pisahkan data menjadi set pelatihan dan pengujian, Buat model pada set pelatihan, Evaluasi pada set
pengujian
b. Buat model pada set pelatihan, pilih secara acak jumlah instance kelas minoritas yang diinginkan,
Evaluasi pada set pengujian
c. Buat model pada set pelatihan, Evaluasi pada set pengujian (Latih ulang?), Pisahkan data menjadi set
pelatihan dan pengujian
d. Evaluasi pada set pengujian, Buat model pada set pelatihan, Pisahkan data menjadi set pelatihan dan
pengujian
Pernyataan yang tepat terkait data mining and knowledge discovery
Select one:
a. fokus pada peningkatan kinerja agen pembelajaran
b. lebih fokus pada pengujian hipotesis
c. melihat pembelajaran real-time dan robotika
d. fokus pada seluruh proses penemuan pengetahuan

Regression, Decision Trees, Bayesian, Neural Networks, Naïve Bayes Rules, Support Vector Machines,
Genetic Algorithms adalah pendekatan yang digunakan untuk
Select one:
a. Asosiasi
b. Klasifikasi
c. Visualisasi
d. Klasterisasi
Fungsi dari data mining adalah salah satunya dapat mengetahui pola yang sering (atau kumpulan item
yang sering) misalnya item apa yang sering dibeli bersama di Walmart Anda. Ini dikenal dengan istilah
Select one:
a. Klasifikasi
b. Klasterisasi
c. Outlier Analysis
d. Asosiasi dan Analisis Korelasi
Metode untuk mengelompokkan secara "alami" dari instance yang diberi data tanpa label
Select one:
a. Asosiasi
b. Klasifikasi
c. Klasterisasi
d. Visualisasi
Select one:
a. lebih teori
c. mengintegrasikan teori dan heuristik
d. lebih heuristik
Yang bukan Metode clusterisasi
Select one:
a. Hierarchical vs. flat
b. Decision Tree
c. Exclusive vs. overlapping
d. Deterministic vs. probabilistic
Seberapa mudah data dapat dipahami merupakan kualitas data dari..
Select one:
a. Completeness
b. Interpretability
c. Consistency
d. Believability
Jenis tugas data mining yang menfasilitasi penerimaan / penelusuran informasi bagi pengguna
Select one:
a. Visualisasi
b. Klasifikasi
c. Klasterisasi
d. Asosiasi
Karakteristik Big Data yang terus bertambah dengan cepat secara real-time dinamakan
Select one:
a. Value
b. Volume
c. variety
d. Velocity
Pernyataan yang kurang sesuai dengan metode peringkasan
Select one:
a. Mengelompokkan data tak berlabel
b. Biasanya dalam Kombinasi dengan deteksi Deviasi atau metode lain
c. Menggunakan bahasa dan grafik alami
d. Menjelaskan fitur dari grup yang dipilih
Metode klasifikasi pada fungsi data mining yang menggunakan nilai estimasi dari probabilitas bersyarat
dinamakan metode
Select one:
a. Regresi
b. Eliminasi
c. Mean
d. Naive Bayessian
Jenis tugas data mining yang melakukan prediksi kelas
Select one:
a. Klasifikasi
b. Visualisasi
c. Klasterisasi
d. Asosiasi
Melihat suatu objek data yang tidak sesuai dengan perilaku umum data, sering digunakan dalam deteksi
penipuan atau analisis kejadian langka
Select one:
a. Analisis Outlier
b. Klasifikasi
c. Asosiasi dan Analisis Korelasi
d. Klasterisasi
Acuan yang tidak tepat ketika melakukan pengaturan parameter
Select one:
a. Data pengujian tidak digunakan dengan cara apa pun untuk membuat pengklasifikasi
b. Data pengujian harus digunakan untuk penyetelan parameter
c. Skema pembelajaran beroperasi dalam dua tahap yaitu membangun struktur dasar dan
mengoptimalkan pengaturan parameter
d. Data pengujian tidak dapat digunakan untuk penyetelan parameter

09/05/22 13.58 1 pesan baru
ATA 2021/2022 | 2-FTI | Kompuasi Big Data | TEAM TEACHING
/
Pertemuan 8: Introduction to Machine Learning (Supervised) /
Kuis M6 : Introduction to Machine Learning (Supervised)
Started on Monday, 9 May 2022, 1:43 PM

State Finished
Completed on Monday, 9 May 2022, 1:58 PM
Question 1 Pembelajaran yang menghasilkan Nilai output ti bernilai diskrit (kelas)

Correct
Marked out of Select one:

5.00
a. Klasifikasi 
b. Regressi
c. Generalisasi
d. Klasterisasi
1
Question 2 Yang tidak digunakan pada Model Supervised Learning Online
Correct

5.00
a. Linear Model
b. Latent Semantic Analysis 
c. Support Vector Machine
d. Neural Networks
Question 3 Jika variabel keluaran adalah berupa kategori misalnya “apel”, “jeruk” termasuk pada machine learning bertipe
Correct

5.00
a. Supervised -Regresion
b. Reinfocement
c. Unsupervised
d. Supervised – Classification 
Question 4 Tahapan yang tepat ketika melakukan testing

Correct

5.00
a. Image Features - Training With Labeled Data – Prediction
b. Image Features - Learned Model - Prediction 
c. Image Features - Training With Labeled Data - Learned Model
d. Image Features - Training With Unlabel Data -Learned Model - Prediction
09/05/22 13.58 1 pesan baru
Question 5 Model ini belajar dari kumpulan data berlabel dan kemudian digunakan untuk memprediksi peristiwa di masa depan.
Correct

5.00
a. Unsupervised Learning
b. Reinfocement Learning
c. Semi Supervised Learning
d. Supervised Learning 
Question 6 Model pembelajaran yang menggunakan data berlabel dan tidak berlabel untuk pelatihan.
Correct

5.00
c. Semi Supervised Learning 
d. Supervised Learning
Question 7 Tahapan yang tepat ketika melakukan training

Correct
Marked out of Select one: 1

5.00 Online
a. Image Features - Learned Model - Prediction
b. Image Features - Training With Labeled Data – Prediction
c. Image Features - Training With Labeled Data - Learned Model 
d. Image Features - Training With UnLabeled Data - Prediction
Question 8 Yang bukan tujuan supervised learning untuk membangun model yang dapat menghasilkan output yang benar untuk
Correct suatu data input dapat digunakan untuk
Marked out of
5.00 Select one:
a. Klasterisasi (clustering) 
b. Pengklasifikasian (classification)
c. Ranking
d. Regresi (regression)
Question 9 Saat Anda ingin mengungkap pengelompokan yang melekat dalam data, seperti mengelompokkan hewan berdasarkan
Correct beberapa karakteristik / fitur, mis. jumlah kaki maka model pembelajaran yang sesuai
Marked out of
5.00 Select one:
a. Supervised Learning - Regression
b. Unsupervised Learning - Clustering 
c. Reinfocement Learning
d. Supervised Learning - Classification
09/05/22 13.58 1 pesan baru
Question 10 Kumpulan data yg sudah dipastikan kebenarannya, dr sisi label, data awal, komponen2 data yg akan dijadikan kunci,
Correct

5.00
a. Instance
b. Training Set 
c. Feature Extraction
d. Feature/ atribut
Question 11 Pola-pola struktur yang ada pada suatu koleksi data (knowledge) dapat direpresentasi dalam bentuk if then rules :
Correct

5.00
a. Tabel
b. Instance
c. Aturan 
d. Pohon
Question 12
Correct
Marked out of 1
5.00
Online

Gambar pada representasi di atas adalah Pola-pola struktur yang ada pada suatu koleksi data (knowledge) dalam bentuk
Select one:
a. Pohon
b. Tabel
c. Aturan 
d. Instance
Question 13 Sebuah proses yg mempersiapkan data sehingga data tsb bisa kita extract cirinya menjadi suatu vektor
Correct

5.00
a. Instance
b. Feature/ atribut
c. Feature Extraction 
d. Training Set
Question 14 Salah satu teknik yang digunakan untuk mengkontrol fenomena over-fitting adalah dengan cara menambah finalti ke
Correct fungsi error.
Marked out of
5.00 Select one:
a. model selection
b. prediction
c. regularization 
d. generalization
09/05/22 13.58 1 pesan baru
Question 15 Model Pembelajaran yang mempelajari bagaimana sistem dapat menyimpulkan suatu fungsi untuk mendeskripsikan
Correct struktur tersembunyi dari data yang tidak berlabel. Sistem ini tidak memprediksi keluaran yang benar, tetapi
Marked out of mengeksplorasi data dan dapat menarik kesimpulan dari kumpulan data untuk mendeskripsikan struktur tersembunyi dari
5.00 data yang tidak berlabel.
Select one:
a. Reinfocement Learning
b. Supervised Learning
c. Unsupervised Learning 
d. Semi Supervised Learning
Question 16 Pembelajaran yang bertujuan memprediksi output dengan akurat untuk data baru dan output ti bernilai kontinu (riil),
Correct contoh untuk Prediksi kinerja CPU
Marked out of
5.00 Select one:
a. Regressi 
b. Klasifikasi
c. Generalisasi
d. Klasterisasi
1
Online
Question 17 Ciri-ciri dari masing-masing sample data misalnya Smartphone. ciri: memiliki ...
Correct
Marked out of
5.00 Select one:
a. Feature Extraction
b. Feature/ atribut 
c. Training Set
d. Instance
Question 18
Correct
Marked out of
5.00
Select one:
a. Tabel
b. Pohon 
c. Instance
d. Aturan
09/05/22 13.58 1 pesan baru
Question 19
Correct
Marked out of
5.00
Select one:
a. Pohon
b. Aturan
c. Instance
d. Tabel 
Question 20 Tujuan pembelajaran unsupervised adalah membagun model yang dapat menemukan komponen / variabel / fitur
Correct tersembunyi pada data pelatihan, yang dapat digunakan untuk hal berikut, kecuali
Marked out of
5.00 Select one:
a. Pengelompokan (clustering)
b. Reduksi dimensi (dimension reduction)
c. Rekomendasi
d. Pengklasifikasian (classification) 
Kuis M6 : Introduction to Machine

◄ Video M8: Introduction to Machine
Jump to... Learning (Supervised) (Khusus Kelas
Learning (Supervised)
Malam) ►
20/06/22 13.39 1 pesan baru
Pertemuan 9: Unsupervised Learning (M11)
/
Kuis M11 : Unsupervised Learning (KELAS PAGI)
Started on Monday, 20 June 2022, 1:26 PM

State Finished
Completed on Monday, 20 June 2022, 1:38 PM
Question 1 Algoritma yang paling banyak digunakan untuk task Association rules
Correct

5.00
a. Apriori
b. FP-Growth
c. Apriori 
d. Eclat
Question 2 Salah satu bentuk pengelompokan yang menetapkan bahwa suatu titik data hanya dapat ada dalam satu cluster. Ini juga
Correct bisa disebut sebagai pengelompokan "keras". Algoritma yang digunakan salah satunya adalah K-means clustering
Marked out of
5.00 Select one:
a. Tumpang tindih (overlapping)
b. Memecah belah (Divisive)
c. Clustering Eksklusif (specifically exclusive) 
d. Hierarkis ( hierarchical)
Question 3 Pengelompokan yang sebagai "pendekatan bottom-up". Di mana titik datanya diisolasi sebagai pengelompokan terpisah
Correct pada awalnya, dan kemudian digabungkan bersama secara iteratif atas dasar kesamaan hingga satu cluster tercapai.
Marked out of
5.00 Select one:
a. Pendekatan Probabilistic
b. Pendekatan Aglomeratif 
c. Pendekatan Overlapping
d. Pendekatan Divisive
Question 4 Pendekatan Unsupervised Learning adalah

Correct

5.00
a. Mempelajari bagaimana cara kerja pembelajaran dengan pengawasan
b. Mempelajari bagaimana cara kerja pembelajaran yang mendalam
c. Mempelajari bagaimana cara kerja pembelajaran tanpa pengawasan dan dengan pengawasan
d. Mempelajari bagaimana cara kerja pembelajaran tanpa pengawasan 
1
Online
20/06/22 13.39 1 pesan baru
Question 5 Jenis algoritme pengurangan dimensi yang digunakan untuk mengurangi redundansi dan mengompresi kumpulan data
Correct melalui ekstraksi fitur. Metode ini menggunakan transformasi linier untuk membuat representasi data baru, menghasilkan
Marked out of sekumpulan "komponen utama". Komponen utama pertama adalah arah yang memaksimalkan varians dari dataset.
5.00 Sementara komponen utama kedua juga menemukan varians maksimum dalam data, itu sama sekali tidak berkorelasi
dengan komponen utama pertama, menghasilkan arah yang tegak lurus, atau ortogonal, ke komponen pertama. Proses
ini berulang berdasarkan jumlah dimensi, dimana komponen utama berikutnya adalah arah ortogonal ke komponen
sebelumnya dengan varians terbanyak.
Select one:
a. Autoencoders
b. Principal component analysis 
c. Singular value decomposition
d. FP-Growth
Question 6 Kemampuannya untuk menemukan persamaan dan perbedaan informasi menjadikannya unsupervised learning sebagai
Correct solusi ideal tugas tugas di bawah ini, kecuali
Marked out of
5.00 Select one:
a. strategi penjualan silang
b. Analisis data eksplorasi
c. Segmentasi pelanggan
d. Klasifikasi buah jeruk dan buah apel 
Question 7 Pendekatan reduksi dimensi lain yang memfaktorkan matriks, A, menjadi tiga matriks peringkat rendah. SVD
Correct dilambangkan dengan rumus, A = USVT, di mana U dan V adalah matriks ortogonal. S adalah matriks diagonal, dan nilai S
Marked out of dianggap sebagai nilai tunggal matriks A. Principal component analysis
5.00
Select one:
a. Autoencoders 
b. FP-Growth
c. Singular value decomposition
Question 8 Algoritme yang bukan digunakan untuk pengelompokan (Clustering)

Correct

5.00
a. Auto Encoder 
b. Tumpang tindih (overlapping)
c. Clustering ekslusif (specifically exclusive)
Question 9 Algoritme yang berusaha menemukan pola tersembunyi atau pengelompokan data tanpa perlu campur tangan manusia.
Correct

5.00
a. Semi Supervised Learning
b. Deep Learning
1
Online
20/06/22 13.39 1 pesan baru
Question 10 Salah satu bentuk pengelompokan yang memungkinkan titik data menjadi bagian dari beberapa kluster dengan derajat
Correct keanggotaan terpisah. Ini disebut juga Pengelompokan "lembut" atau fuzzy k-means
Marked out of
5.00 Select one:
a. Memecah belah (Divisive)
b. Tumpang tindih (overlapping) 
c. Hierarkis ( hierarchical)
d. Clustering Eksklusif (specifically exclusive)
Question 11 Teknik yang memanfaatkan jaringan neural untuk mengompresi data dan kemudian membuat ulang representasi baru
Correct dari input data asli. Terdapat lapisan tersembunyi secara khusus bertindak sebagai penghambat untuk memampatkan
Marked out of lapisan masukan sebelum merekonstruksi di dalam lapisan keluaran.
5.00
Select one:
a. Principal component analysis
b. Singular value decomposition
c. FP-Growth
d. Autoencoders 
Question 12 Algoritme yang menggunakan pohon hash untuk menghitung kumpulan item, menavigasi kumpulan data dengan cara
Correct yang pertama. Algoritma ini telah dipopulerkan melalui analisis keranjang pasar, yang mengarah ke mesin rekomendasi
Marked out of yang berbeda untuk platform musik dan pengecer online.Misalnya, jika saya memutar radio Black Sabbath di Spotify,
5.00 dimulai dengan lagu mereka "Anggrek", salah satu lagu lain di saluran ini kemungkinan besar adalah lagu Led Zeppelin,
seperti "Over the Hills dan Far Away." Ini didasarkan pada kebiasaan mendengarkan saya sebelumnya serta kebiasaan
orang lain.
Select one:
a. Apriori
b. FP-Growth
c. Eclat
d. Apriori 
Question 13 Yang bukan tugas dari pembelajaran tanpa pengawasan

Correct

5.00
a. clustering
b. Association
c. Dimensionality reduction
d. Regression 
Question 14 Pengelompokan yang mengambil pendekatan "top-down". Dalam hal ini, satu cluster data dibagi berdasarkan perbedaan
Correct antara titik data. Pengelompokan dengan cara ini tidak umum digunakan, tetapi masih perlu diperhatikan dalam konteks
Marked out of pengelompokan hierarkis. Proses pengelompokan ini biasanya divisualisasikan menggunakan dendrogram, diagram mirip
5.00 pohon yang mendokumentasikan penggabungan atau pemisahan titik data pada setiap iterasi.
Select one:
a. Pendekatan Aglomeratif
b. Pendekatan Overlapping
c. Pendekatan Probabilistic
d. Pendekatan Divisive 
1
Online
20/06/22 13.39 1 pesan baru
Question 15 Metode berbasis aturan untuk menemukan hubungan antara variabel dalam kumpulan data tertentu. Metode ini sering
Correct digunakan untuk analisis keranjang pasar, memungkinkan perusahaan untuk lebih memahami hubungan antara produk
Marked out of yang berbeda. Memahami kebiasaan konsumsi pelanggan memungkinkan bisnis untuk mengembangkan strategi
5.00 penjualan silang dan mesin rekomendasi yang lebih baik.
Select one:
a. Association 
b. clustering
d. Regression
Question 16 Teknik tanpa pengawasan yang membantu menyelesaikan estimasi kepadatan atau masalah pengelompokan "lunak".
Correct Dalam hal ini, titik data dikelompokkan berdasarkan kemungkinannya termasuk dalam distribusi tertentu. Teknik yang
Marked out of paling umum digunakan adalah Gaussian Mixture Model (GMM)
5.00
Select one:
a. Pendekatan Divisive
b. Pendekatan Aglomeratif
d. Pendekatan Probabilistic 
Question 17 Teknik yang mengelompokkan data yang tidak berlabel berdasarkan persamaan atau perbedaannya. Algoritma ini
Correct digunakan untuk memproses objek data mentah dan tidak terklasifikasi menjadi grup yang diwakili oleh struktur atau
Marked out of pola dalam informasi.
5.00
Select one:
a. Dimensionality reduction
b. Association
c. Regression
d. Clustering 
Question 18 Pembelajaran mesin tanpa pengawasan, menggunakan algoritme pembelajaran mesin untuk menganalisis dan
Correct mengelompokkan set data tak berlabel
Marked out of
5.00 Select one:
a. Deep Learning
b. Semi Supervised Learning
orang lain. Ini termasuk task
Select one:
a. clustering
b. Regression
c. Association 
1
d. Dimensionality reduction
Online
20/06/22 13.39 1 pesan baru
Question 20 Teknik yang digunakan ketika jumlah fitur, atau dimensi, dalam kumpulan data tertentu terlalu tinggi. Teknik ini
Correct mengurangi jumlah input data ke ukuran yang dapat dikelola sambil juga menjaga integritas set data sebanyak mungkin,
Marked out of biasanya digunakan dalam tahap data praproses
5.00
Select one:
a. Dimensionality reduction 
b. Regression
c. clustering
d. Association
Kuis M11 : Unsupervised Learning (KELAS

◄ Video M11 : Unsupervised Learning Jump to...
MALAM) ►
1
Online
27/06/22 12.55 Kuis M12: Penerapan Big Data di Sektor Perbankan: Attempt review
/
Pertemuan 10: Penerapan Big Data di Sektor Perbankan (M12) /
Kuis M12: Penerapan Big Data di Sektor Perbankan
Started on Monday, 27 June 2022, 12:46 PM

State Finished
Completed on Monday, 27 June 2022, 12:55 PM
Question 1 Tipe data dalam Big Data:

Correct

1.00
a. Unstructured data
b. Data semi terstruktur
c. Data terstruktur
d. Semua benar 
Question 2 Teknologi Big Data dalam hal Data Visualization:

Correct

1.00
a. Kafka
b. Hadoop
c. Tableau 
d. Facebook
Question 3 Pengumpulan dan penyaringan informasi dari sumber data:

Correct

1.00
a. Data Extraction
b. Data Identification
c. Data Aggregation dan Representation
d. Data Acquisition dan Filtering 
Question 4 Sumber data dalam Big Data:

Correct

1.00
a. Komunikasi
b. Semua benar 
c. Sensor
d. Media
Question 5 Perbedaan Data Tradisional dan Big Data pada komponen Arsitektur:
Correct

1.00
a. Semua benar
b. Fixed Schema vs Schema-less
c. Centralized vs Distributed 
d. Known relationsip vs complex/unknown relationship
Question 6 Yang bukan termasuk manfaat Core Banking System:

Correct

1.00
a. Mempercepat akses untuk analisis
b. Mengurangi efisiensi karyawan 
c. Naiknya kepercayaan nasabah
d. Menghemat biaya operasional
Question 7 Proses memilih dan mengambil data dari satu atau beberapa sumber:
Correct

1.00
a. Data Acquisition dan Filtering
b. Data Aggregation dan Representation
c. Data Extraction 
d. Data Identification
Question 8 Aplikasi Core Banking System untuk memfasilitasi nasabah agar dapat melakukan transaksi sendiri:
Correct

1.00
a. LNS (Loan System)
b. DDS (Demand Deposit System)
c. CIS (Customer Identification System) 
d. GLS (General Ledger System)
Question 9 Proses di mana data mentah dikumpulkan dan diekspresikan dalam bentuk ringkasan untuk analisis statistik.
Correct

1.00
a. Data Extraction
b. Data Aggregation dab Representation 
c. Data Identification
d. Data Acquisition dan Filtering
Question 10 Teknologi Big Data dalam hal Data Storage:

Correct

1.00
a. Kafka
b. Tableau
c. Facebook
d. Hadoop 
Question 11 Perangkat server yang digunakan sebagai Core Banking Server:

Correct

1.00
a. MySQL Server
b. MS SQL Server
c. IBM AS-400 
d. Semua benar
Question 12 Yang bukan merupakan karakteristik Big Data:

Correct

1.00
a. Volume Data yang besar
b. Kesamaan data 
c. Kebenaran data
d. Jenis data bervariasi
Question 13 Fungsi paling mendasar dari Core Banking:

Correct

1.00
a. Mentransfer dana dari satu cabang ke cabang lainnya
b. Semua salah
c. Melayani seluruh nasabah untuk berbagai kebutuhan seperti funding, lending, dan deposit uang 
d. Merekam semua transaksi yang terjadi dalam rekening nasabah.
Question 14 Pencarian informasi terkait tipe data, struktur data, bentuk data, dan isi serta sumber data:
Correct

1.00
a. Data Acquisition dan Filtering
b. Data Extraction
c. Data Aggregation dan Representation
d. Data Identification 
Question 15 Pernyataan yang salah tentang Core Banking System:

Correct

1.00
a. Dibuat oleh vendor asing 
b. Digunakan untuk memproses loan
c. Umumnya diasosiasikan dengan retail banking
d. Di dalamnya tersimpan data nasabah serta semua transaksi sejak nasabah membuka rekening di bank sampai
menutupnya.
Question 16 Perbedaan Data Tradisional dan Big Data pada komponen Data relationship:
Correct

1.00
a. Known relationsip vs complex/unknown relationship 
b. Fixed Schema vs Schema-less
c. Semua benar
d. Centralized vs Distributed
Question 17 Di antara karakteristik IBM AS-400 server:

Correct

1.00
a. Dapat memiliki lebih dari 200 prosesor
b. Semua benar 
c. Mudah beradaptasi dan fleksibel
d. Dapat menjalankan berbagai macam bahasa pemrograman
Question 18 Big Data Analytics Lifecycle:

Correct

1.00
a. Business Case Evaluation - Data Identification - Data Extraction - Data Validation & Cleansing - Data
Aggregation & Representation - Data Analysis - Data Visualization - Utilization of Analysis Results
b. Busines Case Evaluation - Data Identification - Data Acquisition & Filtering - Data Extraction - Data Validation
& Cleansing - Data Aggregation & Representation - Data Analysis - Utilization of Analysis Results
c. Busines Case Evaluation - Data Identification - Data Acquisition & Filtering - Data Extraction - Data Validation
& Cleansing - Data Analysis - Data Visualization - Utilization of Analysis Results
d. Busines Case Evaluation - Data Identification - Data Acquisition & Filtering - Data Extraction - Data Validation
& Cleansing - Data Aggregation & Representation - Data Analysis - Data Visualization - Utilization of
Analysis Results 
Question 19 Keuntungan Big Data di perbankan:

Correct

1.00
a. Menanalisis resiko
b. Semua benar 
c. Mendorong inklusivitas
d. Memprediksi trend keuangan
Question 20 Perbedaan Data Tradisional dan Big Data pada komponen Data Model:
Correct

1.00
a. Known relationsip vs complex/unknown relationship
b. Fixed Schema vs Schema-less 
c. Semua benar
d. Centralized vs Distributed
◄ Materi M12: Penerapan Big Data di Kuis M12: Penerapan Big Data di Sektor
Jump to...
Sektor Perbankan Perbankan (Kelas Malam) ►
3/8/2021 Kuis M1 : Big Data Computing Overview: Attempt review
Dashboard / My courses / ATA 2020/2021 | 2-FTI | Komputasi Big Data | TEAM TEACHING / Pertemuan 1 : Big Data Computing Overview
/ Kuis M1 : Big Data Computing Overview
Started on Monday, 8 March 2021, 11:36 AM

State Finished
Grade 100.00 out of 100.00
Question 1 Beragamnya jenis data di dalam Big Data yang meliputi data terstruktur, semi terstruktur dan bahkan data tidak
Correct terstruktur, merupakan penjelasan dari dimensi Big Data dalam hal:
Mark 5.00 out of
5.00 Select one:
Velocity
Variety 
Volume
Veracity
The correct answer is: Variety
Question 2 Contoh solusi Big Data, kecuali:

Correct

5.00
Input Nilai Mahasiswa 
Semua benar
Deteksi Penipuan
Mesin rekomendasi
The correct answer is: Input Nilai Mahasiswa
Question 3 Dalam arsitektur Big Data, solusi berupa rekomendasi, berada pada posisi sebagai:
Correct

5.00
Data Format
End Result 
Data Storage Layer
Data Computing & Analysis
The correct answer is: End Result
Question 4 Dalam ekosistem Big Data, proses pre-prosesing data dapat dilakukan menggunakan:
Correct

5.00
Sqoop 
HDFS
Facebook
Tableu
The correct answer is: Sqoop
Question 5 Data Warehouse dibuat dengan menerapkan serangkaian langkah pemrosesan terhadap data yang berasal dari beberapa
Correct basis data. Berikut ini adalah yang termasuk dalam pemrosesan data tersebut:
Mark 5.00 out of
5.00 Select one:
Pembersihan data
Transformasi data
Semua benar 
Integrasi data
The correct answer is: Semua benar
Question 6 Dataset dibentuk dari:

Correct

5.00
Sekumpulan objek yang memiliki fitur yang sama 
Sekumpulan fitur yang memiliki nilai yang sama
Sekumpulan fitur yang memiliki objek yang sama
Semua salah
The correct answer is: Sekumpulan objek yang memiliki fitur yang sama
Question 7 Komponen Komputasi Big Data di lapisan Middleware terdiri dari:

Correct

5.00
Interface Layer
Resource Layer
Semua benar
SDK Layer 
The correct answer is: SDK Layer
Question 8 Kumpulan data yang disusun dalam tabel berformat persegi panjang yang terdiri dari baris dan kolom disebut sebagai:
Correct

5.00
Semua salah
Flat files 
Data Warehouse
Database
The correct answer is: Flat files
Question 9 Manakah yang benar dari pernyataan berikut ini:

Correct

5.00
Memperkirakan puncak dari kasus positif Covid-19, adalah contoh analisis prediktif. 
Prediktif, menilai tindakan
Deskriptif, perkiraan berdasarkan data yang tersedia
Preskriptif, memodelkan perilaku masa lalu
The correct answer is: Memperkirakan puncak dari kasus positif Covid-19, adalah contoh analisis prediktif.
Question 10 Model basis data yang berupa deret waktu (time series):
Correct

5.00
Temporal database 
Spatial database
Text database
Semua salah
The correct answer is: Temporal database
Question 11 Objek disebut juga:

Correct

5.00
Record
Unit
Data points
Semua benar 
Question 12 Salah satu keunggulan DGX A100:

Correct

5.00
Semua benar 
Tidak membutuhkan ruang yang besar
Biaya lebih murah
Konsumsi daya lebih sedikit
Question 13 Sekumpulan tabel dimana bentuk setiap tabel analog dengan flat file, disebut:
Correct

5.00
Semua salah
Data Warehouse
Database 
DBMS
The correct answer is: Database
Question 14 Semakin banyak data hingga mencapai ukuran Peta Byte atau bahkan lebih, merupakan penjelasan dari dimensi Big Data
Correct dalam hal:
Mark 5.00 out of
5.00 Select one:
Veracity
Variety
Velocity
Volume 
The correct answer is: Volume
Question 15 Sumber data yang digunakan dalam aplikasi Big Data dapat berupa:
Correct

5.00
Semua benar 
Data Media Sosial
Data Finansial
Data Asuransi Kesehatan
Question 16 Tempat penyimpanan data yang dikumpulkan di lokasi berbeda (basis data relasional) dan disimpan menggunakan skema
Correct terpadu:
Mark 5.00 out of
5.00 Select one:
Spatial Database
Transactional database
Semua benar
Data Warehouse 
The correct answer is: Data Warehouse
Question 17 Tipe nilai dapat berupa:

Correct

5.00
Object
Fitur
Semua salah
Numerik 
The correct answer is: Numerik
Question 18 Unit informasi tunggal disebut:

Correct

5.00
Dataset
Nilai 
Objek
Fitur/atribut
The correct answer is: Nilai
Question 19 Visualisasi dari hasil analisis Big Data dapat berupa:

Correct

5.00
Grafik 3D
Plot
Semua benar 
Tabel
Question 20 Yang merupakan framework untuk Machine Learning:

Correct

5.00
Apache Spark MLlib 
Semua benar
Amazon ML
Azure ML
The correct answer is: Apache Spark MLlib
◄ Materi M1 : Big Data Computing Kuis M1 : Big Data Computing Overview

Jump to...
Overview (Khusus Kelas Malam) ►
6/6/2021 Kuis M2 : Big Data Computing, Applications and Technologies: Attempt review
ATA 2020/2021 | 2-FTI | Komputasi Big Data | TEAM TEACHING
/
Pertemuan 2 : Big Data Computing, Applications and Technologies /
Kuis M2 : Big Data Computing, Applications and Technologies

State Finished
Grade 100.00 out of 100.00
Question 1 Arsitektur Hadoop terdiri dari:

Correct

5.00
a. Storage layer, Service Layer, Application Layer
b. Storage layer, Resource Management Layer, Application Layer 
c. Storage layer, Processing Layer, Application Layer
d. Data layer, Processing Layer, Service Layer
The correct answer is: Storage layer, Resource Management Layer, Application Layer
Question 2 Berikut ini adalah saran untuk memasuki era Analytic 3.0:
Correct

5.00
a. Semua benar 
c. Mulailah dengan kemampuan yang ada untuk manajemen data dan analitik
d. Pilih target dan sub-target analytics 3.0
Question 3 Berikut ini yang harus dilakukan oleh perusahaan 1.0, kecuali:
Correct

5.00
a. Temukan pelanggan terbaik, tetapkan harga terbaik kepada mereka
b. Membuat analitik dan keputusan berbasis fakta elemen kunci dari hubungan pelanggan, produk dan layanan,
strategi, dan persaingan 
c. Pahami biaya dan dorong kinerja yang lebih baik
d. Buat penawaran yang efektif
The correct answer is: Membuat analitik dan keputusan berbasis fakta elemen kunci dari hubungan pelanggan, produk
dan layanan, strategi, dan persaingan
Send messa…
Question 4 Contoh Analytic 3.0:

Correct

5.00
a. Semua benar 
b. Fokus pada anomali dan pengecualian
c. Data volume tinggi waktu nyata dari sensor dan mesin
d. Analisis untuk tren, pola, prediksi, pengoptimalan, kesadaran situasional
Question 5 Contoh Aplikasi Machine Learning dan Analitik Prediktif:

Correct

5.00
a. Semua benar 
b. Penetapan harga dinamis
c. Prediksi wabah penyakit
d. Prediksi Cashflow
Question 6 Contoh data tidak terstruktur:

Correct

5.00
a. Data pegawai
b. Semua benar
c. Data transaksi penjualan
d. Data media sosial 
The correct answer is: Data media sosial
Question 7 Contoh implementasi dalam perusahaan:

Correct

5.00
a. Procter & Gamble melakukan Analisis sentimen media sosial real time untuk "Pulsa Konsumen"
b. Monsanto membayar hampir $ 1 miliar untuk The Climate Company, yang mengumpulkan dan menganalisis data
cuaca untuk pertanian
c. Semua benar 
d. Sistem Manajemen Inventaris Cerdas pada perusahaan Ford, menyarankan pesanan mingguan untuk dealer dan
telah meningkatkan pendapatan sebesar $ 100 juta / tahun
Question 8 Dalam computer vision, contoh penerapan Machine Learning adalah, kecuali:
Correct

5.00
a. Pengenalan wajah
c. Pengenalan objek
d. Analitik Rute 
The correct answer is: Analitik Rute
Question 9 Istilah 'Machine Learning' diciptakan pada tahun <T> oleh :
Correct

5.00
a. T = 1989, P = Tom M. Mitchell
b. T = 1999, P = Bill Gates
c. T = 1959, P = Arthur Samuel 
d. T = 1969, P = Yann LeCun
The correct answer is: T = 1959, P = Arthur Samuel
Question 10 Komponen Hadoop yang berfungsi sebagai data processing:

Correct

5.00
a. MapReduce 
b. Semua benar
c. YARN
d. HDFS
The correct answer is: MapReduce
Question 11 Komponen Hadoop yang berfungsi sebagai data storage:

Correct

5.00
a. Semua benar
b. YARN
c. HDFS 
d. MapReduce
The correct answer is: HDFS
Question 12 Manakah pernyataan yang benar tentang era Analytic 3.0:

Correct

5.00
a. Sumber data dari internal, relatif kecil dan data terstruktur dari pelanggan
b. Perpaduan antara analitik tradisional dengan Big Data 
c. Data yang kompleks, besar dan tidak terstruktur
d. Dibutuhkan kapabilitas analitis dan komputasi baru
The correct answer is: Perpaduan antara analitik tradisional dengan Big Data
Question 13 Manakah pernyataan yang benar tentang Hadoop:

Correct

5.00
a. Semua benar
b. Hadoop merupakan Google File System
c. Hadoop merupakan framework untuk bekerja dengan Big Data 
d. Hadoop mulai dikembangkan pada tahun 2008
The correct answer is: Hadoop merupakan framework untuk bekerja dengan Big Data
Question 14 Netflix adalah contoh perusahaan yang tergolong:

Correct

5.00
a. 2.0 
b. 3.0
c. Semua benar
d. 1.0
The correct answer is: 2.0
Question 15 Perbandingan SQL vs NoSQL:

Correct

5.00
a. Semua benar 
c. Structured Query Language vs Un-structured Query Language
d. Relational vs Non-Relational
Question 16 Perbandingan Traditional vs Big Data Analytics:

Correct

5.00
a. Semua benar 
b. Hard to scale vs Scales out forever
c. Mahal vs Terjangkau
d. Process centric vs Information centric
Question 17 Salah satu bentuk data tidak terstruktur:

Correct

5.00
a. Document
b. Graph
c. Key-Value
d. Semua benar 
Question 18 Salah satu fakta yang menunjukkan aspek Velocity dari Big Data:
Correct

5.00
a. Semua benar
c. Mobil modern memiliki 100 sensor yang memantau berbagai item pada mobil 
The correct answer is: Mobil modern memiliki 100 sensor yang memantau berbagai item pada mobil
Question 19 Salah satu tonggak penting dalam Big Data Analytic dalam aspek pengadaan infrastruktur:
Correct

5.00
a. Dapatkan infrastruktur yang tepat yang dibutuhkan berdasarkan arsitektur solusi Anda termasuk penyimpanan
data dan unit pemrosesan, platform, dan aplikasi 
b. Kembangkan arsitektur Solusi untuk kasus bisnis Anda termasuk proses pengumpulan data, arsitektur teknologi
dan metode analitik serta visualisasi data
c. Adaptasi dan ubah organisasi Anda menuju teknologi big data dan implementasi analitik baru
The correct answer is: Dapatkan infrastruktur yang tepat yang dibutuhkan berdasarkan arsitektur solusi Anda termasuk
Question 20 Teknologi yang dibutuhkan pada era Analytic 3.0:

Correct

5.00
a. Ketergantungan yang tinggi pada Machine Learning 
b. Keduanya benar
c. Keduanya salah
d. Berpusat pada Data Warehouse
The correct answer is: Ketergantungan yang tinggi pada Machine Learning
Kuis M2 : Big Data Computing,

◄ Video M2 : Big Data Computing,
Jump to... Applications and Technologies (khusus
Application and Technologies
kelas Malam) ►
Dashboard / My courses / ATA 2020/2021 | 2-FTI | Komputasi Big Data | TEAM TEACHING / Pertemuan 3 : Introduction to Apache Hadoop
/ Kuis M3 : Introduction to Hadoop

State Finished
Question 1 Properti Big data yang penting, salah satunya adalah aviability, yaitu:
Correct

5.00
a. Handal
c. Ketersediaan layanan secara terus menerus 
d. Kemampuan untuk terus beroperasi walaupun terjadi kegagalan pada beberapa komponen
The correct answer is: Ketersediaan layanan secara terus menerus
Question 2 Properti Big data yang penting, salah satunya adalah scalability, yaitu:
Correct

5.00
b. Ketersediaan layanan secara terus menerus
c. Kemampuan menanganai penambahan bebab yang diberikan tanpa penurunan kinerja 
d. Handal
The correct answer is: Kemampuan menanganai penambahan bebab yang diberikan tanpa penurunan kinerja
Question 3 Terdapat 2 (dua) teknologi Penyimpanan Big Data, yaitu

Correct

5.00
b. On Disk Storage Devices dan In Memory Storage Devices 
c. SQL dan No-SQL
d. Reliable dan Fault tolerance
The correct answer is: On Disk Storage Devices dan In Memory Storage Devices
1
Obrolan
Question 4 Komponen layanan inti Hadoop adalah
Correct

5.00
b. MapReduce, HDFS, dan YARN 
d. Speed, consistency, dan volume
The correct answer is: MapReduce, HDFS, dan YARN
Question 5 Sistem penyimpanan data cluster adalah

Correct

5.00
a. Data disimpan dengan cara menyalin dataset dan meyimpan Salinan tersebut pada beberapa node
b. Menyimpan data dengan mempartisi secara horizontal dan pecahan horizontal tersebut di simpan secara terpisah
pada node server.
c. Penyimpanan dan pengaturan data pada perangkat penyimpanan harddisk atau flashdisk, dan menyediakan
logical view dari data yang disimpan dalam struktur hirakis direktori file.
d. Kumpulan server atau node digabungkan secara erat, dengan spesifikasi perangkat keras yang sama. Serta
terhubung melalui jaringan dan bekerja sebagai satu kesatuan 
The correct answer is: Kumpulan server atau node digabungkan secara erat, dengan spesifikasi perangkat keras yang
sama. Serta terhubung melalui jaringan dan bekerja sebagai satu kesatuan
Question 6 Type data berikut yang dapat ditangani oleh Hadoop adalah
Correct

5.00
a. Semua benar 
b. Terstruktur
c. Semi – terstruktur
d. Tidak terstuktur
Question 7 Pernyataan yang benar mengenai MapReduce, adalah:

Correct

5.00
a. semua benar 
b. implementasi dari framework pemrosesan batch
c. membagi masalah besar menjadi masalah kecil yang dapat diselesaikan dengan cepat
d. memproses data besar secara parallel dalam cluster pada commodity hardware
The correct answer is: semua benar

Question 8 Pemrosesan data terdistribusi adalah pemrosesan
Correct

5.00
a. yang melibatkan pelaksanaan sub-tugas secara bersamaan secara kolektif membentuk tugas yang besar melalui
beberapa processor
b. yang membagi pemrosesan dalam beberapa batch dan dilakukan secara offline
c. yang menerapkan divide and conquer dalam fisik terpisah, namun terhunung Bersama dalam satu cluster 
d. yang menggunakan pendekatan pendekatan interaktif tanpa penundaan
The correct answer is: yang menerapkan divide and conquer dalam fisik terpisah, namun terhunung Bersama dalam satu
cluster
Question 9 Berikut yang dimaksud dengan menganalisa data dalam konteks big data adalah:
Correct

5.00
a. mean statistic analytics, deviation standard analytics, dan percentil analytics
b. Classification analytics, regression analytics, clustering analytics, dan hadooping analytics
c. Descriptive analytics, diagnostic analytics, predictive analytics, dan prescriptive analytics 
d. Menentukan jumlah data dan atribut data
The correct answer is: Descriptive analytics, diagnostic analytics, predictive analytics, dan prescriptive analytics
Question 10 Bagian pekerjaan utama MapReduce adalah

Correct

5.00
a. map dan reduce 
b. map dan combine
c. combine dan partition
d. shuffle dan sort
The correct answer is: map dan reduce
Question 11
Correct

5.00
c. Handal 
The correct answer is: Handal

Question 12 Properti Big data yang penting, salah satunya adalah fault tolerance, yaitu:
Correct

5.00
a. Handal
b. Kemampuan untuk terus beroperasi walaupun terjadi kegagalan pada beberapa komponen 
The correct answer is: Kemampuan untuk terus beroperasi walaupun terjadi kegagalan pada beberapa komponen
Question 13
Database NoSQL menggunakan beragam model data untuk mengakses dan mengelola data. Jenis database ini
Incorrect dioptimalkan secara khusus untuk aplikasi yang memerlukan…., yang dicapai dengan mengurangi pembatasan
Mark 0.00 out of konsistensi data dari database lainnya.
5.00
Select one:
a. volume data besar, latensi rendah, dan model data fleksibel 
b. volume data besar, latensi rendah, dan model data fleksibel
c. volume data besar, latensi rendah, dan model data fleksibel
d. volume data besar, latensi rendah, dan model data fleksibel
The correct answer is: volume data besar, latensi rendah, dan model data fleksibel
Question 14 Hadoop adalah framework yang

Correct

5.00
b. Semua benar 
c. Memungkinkan pemrosesan secara terdistribusi terhadap data yang berukuran besar
Question 15
YARN singkatan dari
Correct

5.00
a. Yet another resource need
b. Yet another resource negotiator 
c. Yahoo’s another resource name
d. Yahoo’s archived Resource names
The correct answer is: Yet another resource negotiator

Question 16 Hadoop adalah platform pemrosesan big data yaitu data yang mempunyai karakteristik kecuali:
Correct

5.00
b. Terakumulasi dengan cepat (high speed velocity)
c. Volume besar, struktur data yang beragam (variety), dan nilai data yang diperlukan (useful value)
d. Jumlah fitur yang tertentu 
The correct answer is: Jumlah fitur yang tertentu
Question 17 Jenis database NoSQL apa yang membuat dan menjalankan aplikasi yang berjalan dengan dataset yang selalu terhubung
Correct menjadi lebih mudah dan sering digunakan untuk jaringan media sosial.
Mark 5.00 out of
5.00 Select one:
a. Dokumen
b. Grafik 
c. Pencarian
d. Primary key
The correct answer is: Grafik
Question 18 NoSQl database adalah singkatan dari

Correct

5.00
a. Numbered of sequel database
b. Not-only Structured Query Language database 
c. No Like Structured Query Language database
d. Numbered of Structured Query Language database
The correct answer is: Not-only Structured Query Language database
Question 19
Correct

5.00
a. Pseudo distributed mode
b. Globally distributed mode 
d. Stand alone mode
The correct answer is: Globally distributed mode

Question 20 Hadoop adalah framework yang bekerja bersama tools lain yang beragam. Kelompok yang umum bekerja bersama
Correct Hadoop adalah
Mark 5.00 out of
5.00 Select one:
b. MapReduce, Hive and Hbase 
The correct answer is: MapReduce, Hive and Hbase
← Materi M3 : Introduction to Hadoop Jump to...

Kuis M3 : Introduction to Hadoop (khusus
kelas MALAM)) →
3/29/2021 Kuis M4 : Data Preprocessing: Attempt review
Dashboard / My courses / ATA 2020/2021 | 2-FTI | Komputasi Big Data | TEAM TEACHING / Pertemuan 4 : Data Preprocessing
/ Kuis M4 : Data Preprocessing

State Finished
Completed on Monday, 29 March 2021, 11:56 AM
Grade 100.00 out of 100.00

Correct

5.00
Dibiarkan
A,B,dan C benar 

Correct

5.00
Sample
Instance
Atribut 
Record

Correct

5.00
Clustering
Combined Computer
Regression
Ignore 
Correct

5.00
Record
Graf
Multimedia 
Ordered
1
Online

Correct

5.00
Mark 5.00 out of
5.00 Select one:
missing value
duplicate data
A,B,C benar 
outlier
Correct

5.00
Record
Graf 
Multimedia
Ordered
Correct

5.00
Rata-rata
Nilai tertinggi 
interpolasi
Median

Correct

5.00
Nominal 
Rasio
Numerik
Ordinal

Correct

5.00
Data sample
Atribut 
Dataset
Data objek
Correct

5.00
Rasio
Numerik
Nominal
Ordinal 

Correct

5.00
data cleaning
data reduction
data Integration
Correct

5.00
Eliminasi
Bayessian 
Mean
Regresi
Mark 5.00 out of
5.00 Select one:
Matriks
Transaksi
Dokumen 
Sosial network
Correct

5.00
Believability
Consistency
Completeness
Correct

5.00
Variance 
Modus
Mean
Median
Correct

5.00
Data cleansing 
Data testing
Data training
Data validation

Correct

5.00
data cleaning 
data Integration
data transformation
data reduction
Correct

5.00
Atribut penjualan
Correct

5.00
Data sample
Dataset
Data objek 
Atribut
◄ Materi M4 : Data Preprocessing Kuis M4 : Data Preprocessing (khusus

Jump to...
(update 29/03/2021) kelas MALAM)) ►
4/5/2021 Kuis M5 : Introduction Data Mining: Attempt review
Dashboard / My courses / ATA 2020/2021 | 2-FTI | Komputasi Big Data | TEAM TEACHING / Pertemuan 5 : Introduction to Data Mining
/ Kuis M5 : Introduction Data Mining

State Finished
Correct

5.00
a. Interpretability 
b. Believability
c. Completeness
d. Consistency
Question 2 Pernyataan yang tepat terkait data mining and knowledge discovery
Correct

5.00
a. mengintegrasikan teori dan heuristik 
b. lebih heuristik
c. lebih fokus pada pengujian hipotesis
d. lebih teori
Question 3 Karakteristik Big Data yang terus bertambah dengan cepat secara real-time dinamakan
Correct

5.00
a. Velocity
b. variety
c. Volume 
d. Value
Question 4 Metode klasifikasi pada fungsi data mining yang menggunakan nilai estimasi dari probabilitas bersyarat dinamakan
Correct metode
Marked out of
5.00 Select one:
a. Eliminasi
b. Regresi
c. Naive Bayessian 
d. Mean
1
Online
Question 5 Untuk menghindari set pengujian yang tumpang tindih, data dibagi menjadi k himpunan bagian dengan ukuran yang
Correct sama kemudiansetiap subset secara bergantian digunakan untuk pengujian dan sisanya untuk pelatihan
Marked out of
5.00 Select one:
b. k-fold cross-validation 
c. Commulative PCT Hits
d. Model Sorted list
Question 6 Metode untuk mengelompokkan secara "alami" dari instance yang diberi data tanpa label
Correct

5.00
a. Visualisasi
b. Asosiasi
c. Klasifikasi
d. Klasterisasi 
Question 7 Metode untuk memprediksi kelas instance dari instance yang diberi label sebelumnya
Correct

5.00
a. Klasifikasi 
b. Asosiasi
c. Klasterisasi
d. Visualisasi
Question 8 Urutan langkah melakukan klasifikasi

Correct

5.00
a. Buat model pada set pelatihan, Evaluasi pada set pengujian (Latih ulang?), Pisahkan data menjadi set pelatihan dan
pengujian
b. Buat model pada set pelatihan, pilih secara acak jumlah instance kelas minoritas yang diinginkan, Evaluasi pada set
pengujian
c. Evaluasi pada set pengujian, Buat model pada set pelatihan, Pisahkan data menjadi set pelatihan dan pengujian
d. Pisahkan data menjadi set pelatihan dan pengujian, Buat model pada set pelatihan, Evaluasi pada set pengujian

Question 9 Attributes yang berisi informasi seperti item_ID, name, brand, category, supplier, place_made and price, merupakaan salah
Correct satu contoh jenis database
Marked out of
5.00 Select one:
a. Penyewaan
b. Social media
c. Penjualan 
d. Marketing
Question 10 Pernyataan yang kurang sesuai dengan metode peringkasan

Correct

5.00
a. Biasanya dalam Kombinasi dengan deteksi Deviasi atau metode lain
b. Mengelompokkan data tak berlabel 
Question 11 Metode untuk mempresentasikan hasil yang ditemukan dengan cara yang "bagus" secara visual
Correct

5.00
a. Klasterisasi
b. Visualisasi 
c. Klasifikasi
d. Asosiasi
Question 12 Proses pencarian konten baru dan konten yang perlu diperbaharui dengan mengirimkan crawler ke seluruh konten yang
Correct ditemukan dari tautan halaman merupakan Salah satu konsep data mining pada Search Engine yang dinamakan
Marked out of
5.00 Select one:
a. Rank
b. Searching
c. Index
d. Crawl 
Question 13 Melihat suatu objek data yang tidak sesuai dengan perilaku umum data, sering digunakan dalam deteksi penipuan atau
Correct analisis kejadian langka
Marked out of
5.00 Select one:
a. Analisis Outlier 
b. Asosiasi dan Analisis Korelasi
c. Klasifikasi
d. Klasterisasi
Question 14 Regression, Decision Trees, Bayesian, Neural Networks, Naïve Bayes Rules, Support Vector Machines, Genetic Algorithms
Correct adalah pendekatan yang digunakan untuk
Marked out of
5.00 Select one:
a. Asosiasi
b. Klasterisasi
c. Visualisasi
d. Klasifikasi 
Question 15 Jenis tugas data mining yang melakukan prediksi kelas

Correct

5.00
a. Visualisasi
b. Klasifikasi 
c. Asosiasi
d. Klasterisasi
Correct

5.00
a. lebih fokus pada pengujian hipotesis
b. melihat pembelajaran real-time dan robotika
c. fokus pada peningkatan kinerja agen pembelajaran
d. fokus pada seluruh proses penemuan pengetahuan 
Question 17 Fungsi dari data mining adalah salah satunya dapat mengetahui pola yang sering (atau kumpulan item yang sering)
Correct misalnya item apa yang sering dibeli bersama di Walmart Anda. Ini dikenal dengan istilah
Marked out of
5.00 Select one:
a. Asosiasi dan Analisis Korelasi 
b. Outlier Analysis
c. Klasifikasi
d. Klasterisasi
Question 18 Yang bukan Metode clusterisasi

Correct

5.00
b. Deterministic vs. probabilistic
d. Decision Tree 
Question 19 Acuan yang tidak tepat ketika melakukan pengaturan parameter

Correct

5.00
a. Data pengujian harus digunakan untuk penyetelan parameter 
b. Data pengujian tidak dapat digunakan untuk penyetelan parameter
c. Data pengujian tidak digunakan dengan cara apa pun untuk membuat pengklasifikasi
d. Skema pembelajaran beroperasi dalam dua tahap yaitu membangun struktur dasar dan mengoptimalkan
pengaturan parameter
Question 20 Jenis tugas data mining yang menfasilitasi penerimaan / penelusuran informasi bagi pengguna
Correct

5.00
a. Visualisasi 
b. Klasifikasi
c. Asosiasi
d. Klasterisasi
Kuis M5 : Introduction Data Mining

◄ Video M5 : Introduction Data Mining Jump to...
(KHUSUS KELAS MALAM)) ►
4/19/2021 Kuis M6 : Introduction to Machine Learning (Supervised): Attempt review
Dashboard / My courses / ATA 2020/2021 | 2-FTI | Komputasi Big Data | TEAM TEACHING
/ Pertemuan 6 : Introduction to Machine Learning (Supervised) / Kuis M6 : Introduction to Machine Learning (Supervised)

State Finished
Correct

5.00
a. Supervised – Classification 
b. Reinfocement
c. Unsupervised
d. Supervised -Regresion
Question 2 Yang tidak digunakan pada Model Supervised Learning

Correct

5.00
a. Linear Model
c. Neural Networks
d. Support Vector Machine
Correct

5.00
a. Feature/ atribut
b. Feature Extraction 
c. Training Set
d. Instance
Marked out of
5.00 Select one:
a. Reduksi dimensi (dimension reduction)
b. Pengelompokan (clustering) 1
c. Rekomendasi Online
Question 5
Correct
Marked out of
5.00
Select one:
a. Pohon 
b. Aturan
c. Instance
d. Tabel
Marked out of
5.00 Select one:
b. Supervised Learning - Classification
c. Supervised Learning - Regression
d. Unsupervised Learning - Clustering 
Select one:
Correct

5.00
b. Semi Supervised Learning 
c. Supervised Learning
d. Unsupervised Learning

Correct

5.00
b. Image Features - Training With Labeled Data - Learned Model
c. Image Features - Training With Unlabel Data -Learned Model - Prediction
d. Image Features - Learned Model - Prediction 
Correct
Marked out of
5.00 Select one:
b. Training Set
c. Feature/ atribut 
d. Instance
Correct

5.00
a. Pohon
b. Instance
c. Aturan 
d. Tabel

Correct

5.00
a. Klasifikasi 
b. Generalisasi
c. Regressi
d. Klasterisasi

Correct

5.00
b. Image Features - Training With Labeled Data - Learned Model 
c. Image Features - Training With UnLabeled Data - Prediction
d. Image Features - Learned Model - Prediction
Correct

5.00
a. Feature/ atribut
b. Instance
d. Training Set 
Marked out of
5.00 Select one:
a. Regressi 
b. Klasifikasi
c. Klasterisasi
d. Generalisasi
Marked out of
5.00 Select one:
a. Regresi (regression)
b. Klasterisasi (clustering) 
c. Ranking
d. Pengklasifikasian (classification)
Question 17
Correct
Marked out of
5.00
Select one:
a. Instance
b. Tabel
c. Pohon
d. Aturan 
Marked out of
5.00 Select one:
a. prediction
b. model selection
d. generalization
Correct

5.00
Question 20
Correct
Marked out of
5.00
Select one:
a. Instance
b. Pohon
c. Aturan
d. Tabel 

◄ Materi M6 : Introduction to Machine
Jump to... Learning (Supervised) (KHUSUS KELAS
Learning-Supervised
MALAM)) ►
/ Pertemuan 7 : Introduction to Machine Learning (Unsupervised) / Kuis M7 : Unsupervised Learning

State Finished
Select one:
b. clustering
c. Regression
d. Association 
Select one:
a. Singular value decomposition
b. FP-Growth
c. Principal component analysis 
d. Autoencoders
5.00
Select one:
a. Autoencoders 
b. Principal component analysis
c. FP-Growth
d. Singular value decomposition
1
Online
Select one:
a. Pendekatan Overlapping

Correct

5.00
a. Regression 
b. clustering
d. Association
Incorrect

5.00
a. Eclat
b. Apriori 
c. Apriori
d. FP-Growth
5.00
Select one:
a. Pendekatan Divisive
c. Pendekatan Probabilistic 
d. Pendekatan Overlapping
5.00
Select one:
a. clustering
b. Association
c. Dimensionality reduction 
d. Regression
Correct

5.00
b. Unsupervised Learning 
c. Deep Learning
orang lain.
Select one:
a. Apriori 
b. Apriori
c. Eclat
d. FP-Growth

Correct

5.00
a. Hierarkis ( hierarchical)
b. Auto Encoder 
c. Tumpang tindih (overlapping)
d. Clustering ekslusif (specifically exclusive)
Marked out of
5.00 Select one:
a. Hierarkis ( hierarchical)
c. Clustering Eksklusif (specifically exclusive) 
d. Memecah belah (Divisive)
Incorrect dilambangkan dengan rumus, A = USVT, di mana U dan V adalah matriks ortogonal. S adalah matriks diagonal, dan nilai S
5.00
Select one:
a. FP-Growth
b. Singular value decomposition 
c. Autoencoders
5.00
Select one:
b. Association
c. Clustering 
d. Regression
Marked out of
5.00 Select one:
a. Unsupervised Learning 
c. Deep Learning
Marked out of
5.00 Select one:
a. Pendekatan Aglomeratif 
b. Pendekatan Overlapping
Marked out of
5.00 Select one:
a. Analisis data eksplorasi
b. Klasifikasi buah jeruk dan buah apel 
d. strategi penjualan silang
Marked out of
5.00 Select one:
a. Clustering Eksklusif (specifically exclusive)
b. Hierarkis ( hierarchical)
c. Tumpang tindih (overlapping) 
d. Memecah belah (Divisive)

Correct

5.00
a. Mempelajari bagaimana cara kerja pembelajaran tanpa pengawasan dan dengan pengawasan
b. Mempelajari bagaimana cara kerja pembelajaran yang mendalam
c. Mempelajari bagaimana cara kerja pembelajaran dengan pengawasan
d. Mempelajari bagaimana cara kerja pembelajaran tanpa pengawasan 
Select one:
a. Regression
b. Association 
d. clustering
Kuis M7 : Unsupervised Learning

◄ Materi M7 : Unsupervised Learning Jump to...
(KHUSUS KELAS MALAM) ►
/ Pertemuan 8 : Introduction to Machine Learning (Reinforcement) / Kuis M8 : Reinforcement

State Finished
Question 1 Efek dari suatu aksi yang dipilih dari suatu state yang bergantung hanya pada state tersebut saja bukan pada state-state
Correct sebelumnya dikenal sebagai sifat:
Marked out of
5.00 Select one:
a. Stokastik
b. Markov 
c. Bellman
d. Transisi
Question 2 Pada Markov Decision Process, pemilihan ruas jalan dalam permasalahan shortest path merupakan bagian dari:
Correct

5.00
a. State
b. Value
c. Action 
d. Reward
Question 3 Reinforcement learning tepat digunakan untuk menyelesaikan permasalahan utama dalam:
Correct

5.00
a. Permainan catur 
b. Pengenalan objek
d. Peramalan cuaca
Question 4 Berikut ini merupakan pernyataan yang salah terkait Markov Decision Process:
Correct

5.00
a. Fungsi reward dapat dinyatakan sebagai suatu fungsi ekspektasi
b. Total policy pada suatu state untuk semua reward adalah 1 
c. Fungsi nilai state-action dapat dinyatakan dalam persamaan ekspektasi Bellman
d. Elemen matriks probabilitas transisi bernilai antara 0 dan 1

Question 5 Markov Decision Process dapat didefinisikan kedalam n-tuple, dimana bernilai:
Correct

5.00
a. 6
b. 5 
c. 4
d. 3
Question 6 Reinforcement learning merupakan bagian dari:

Correct

5.00
a. Semua benar
b. Markov Decision Process
c. Dynamic Programming
d. Machine learning 
Question 7 Solusi dari Markov Decision Process disebut sebagai:

Correct

5.00
a. Reward
b. Policy 
c. Model
d. Action
Question 8 Fungsi reward dalam Markov Decision Process dapat bernilai bilangan:
Correct

5.00
a. Asli
b. Bulat
c. Semua benar 
d. Riil
Question 9 Reinforcement learning dapat diilustrasikan sebagai interaksi antara:

Correct

5.00
a. Reward dengan state berikutnya
b. Semua benar
c. Agen dengan lingkungannya 
d. State dengan aksi yang dipilih
Question 10 Sifat Markov dalam Markov Decision Process diperlukan langsung dalam menentukan:
Correct

5.00
a. Fungsi nilai state-action
b. Aksi yang dipilih
c. Fungsi reward
d. Matriks probabilitas transisi 

Question 11 Reinforcement learning dapat diterapkan dalam permasalahan:
Correct

5.00
a. Semua benar 
b. Penentuan jalur terpendek
c. Navigasi robot
d. Supervised learning
Question 12 Sekumpulan token yang mewakili setiap kemungkinan keadaan dari agen disebut sebagai:
Correct

5.00
a. Reward
b. Action
c. Semua salah
d. State 
Question 13 Dalam memilih aksi pada suatu state perlu diperhatikan hal-hal berikut ini:
Correct

5.00
a. Memilih aksi yang memberikan state dengan nilai tertinggi 
b. Semua benar
c. Nilai state-action pada suatu waktu berlaku untuk sembarang policy
d. Memaksimumkan reward pada masa mendatang
Question 14 Berikut ini merupakan contoh permasalahan yang dapat diselesaikan dengan reinforcement learning:
Correct

5.00
a. Self-driving car
b. Sistem percakapan
c. Bermain Game
d. Semua benar 
Question 15 Reward dalam permasalahan shortest path yang dimodelkan dengan Markov Decision Process ditandai dengan:
Correct

5.00
a. Nilai bobot pada simpul
b. Total nilai bobot simpul dan ruas
c. Nilai bobot pada ruas 
d. Semua salah
Question 16 Berikut ini merupakan beberapa algoritma reinforcement learning, kecuali:

Correct

5.00
a. Hill-Climbing Bagged Ensemble Selection (HCES-Bag) 
b. State-Action-Reward-State-Action (SARSA)
c. Q-learning
d. Deep Deterministic Policy Gradient (DDPG)

Question 17 Berikut ini merupakan pernyataan yang kurang tepat terkait reinforcement learning (RL):
Correct

5.00
a. RL dapat digunakan dalam menciptakan sistem pelatihan untuk siswa yang bersifat kustom
b. RL memerlukan lingkungan untuk berinteraksi secara repetitif
c. RL dapat digunakan pada robotik untuk otomasi industri
d. RL yang diselesaikan dengan Markov Decision Process memerlukan data latih dalam menentukan probabilitas
transisinya 
Question 18 Pemilihan suatu aksi pada suatu state tertentu didalam Markov Decision Process ditentukan oleh:
Correct

5.00
a. Reward
b. Policy 
c. Model
d. Value
Question 19 Pernyataan yang benar terkait reinforcement learning:

Correct

5.00
a. Aksi yang dapat dipilih pada setiap state tidak unik 
b. Untuk aksi yang bersifat stokastik harus memenuhi sifat Markov
c. Semua benar
d. Input yang diterima oleh agen berupa state, action dan reward
Question 20 Efek dari suatu pilihan aksi pada suatu state ditentukan oleh:
Correct

5.00
a. Model transisi 
b. Fungsi reward
c. Policy
d. Semua salah
Kuis M8 : Reinforcement (KHUSUS KELAS

◄ Materi M8 : Reinforcement Learning Jump to...
MALAM) ►
5/4/2021 Kuis M9 : Introduction to Deep Learning: Attempt review
Dashboard / Courses / Program Sarjana / ATA 2020/2021 | 2-FTI | Komputasi Big Data | TEAM TEACHING
/ Pertemuan 9 : Introduction to Machine Learning (Deep) / Kuis M9 : Introduction to Deep Learning
∑IGMA
Started on Monday, 3 May 2021, 11:32 AM

State Finished
Completed on Monday, 3 May 2021, 11:33 AM
Time taken 1 min 44 secs
Question 1 18 Dalam Algoritma Convolutional Neural Network, ReLU seringkali digunakan pada:
Correct

5.00
a. Hidden layer
b. Input layer
c. Output layer
d. Classification layer
The correct answer is: Hidden layer
Response history
Step Time Action State Marks
1 3/05/21, 11:32 Started Not yet answered
2 3/05/21, 11:32 Saved: Hidden layer Answer saved
3 3/05/21, 11:33 Attempt finished Correct 5.00
file:///D:/College (On Going)/SEMESTER 4/3. Komputasi Big Data Team Teaching/Pertemuan 9 (M9)/M9_KBD.html 1/11
Question 2 Untuk memperbanyak feature yang berhasil diekstrak dalam Algoritma Convolutional Neural Network digunakan:
Correct

5.00
a. Padding
b. Epoch
c. Max Pooling
d. Stride
The correct answer is: Padding
Response history
2 3/05/21, 11:32 Saved: Padding Answer saved
Question 3 Parameter dalam Algoritma Convolutional Neural Network yang menentukan berapa jumlah pergeseran filter disebut
Correct sebagai:
Mark 5.00 out of
5.00 Select one:
a. Stride
b. Epoch
c. Dropout
d. Padding
The correct answer is: Stride
Response history
2 3/05/21, 11:32 Saved: Stride Answer saved
Question 4 Berikut ini adalah efek dari mengecilnya nilai stride dalam Algoritma Convolutional Neural Network:
Incorrect

5.00
a. Proses komputasi semakin cepat
b. Semua benar
c. Informasi yang diperoleh semakin detail
d. Performa yang dihasilkan semakin baik
The correct answer is: Informasi yang diperoleh semakin detail
Response history
2 3/05/21, 11:32 Saved: Proses komputasi semakin cepat Answer saved
3 3/05/21, 11:33 Attempt finished Incorrect 0.00
Question 5 Pooling layer bertujuan untuk:

Incorrect

5.00
a. Mengatasi overfitting
b. Mengurangi dimensi feature map
c. Mempercepat proses komputasi
d. Semua benar
Response history
2 3/05/21, 11:32 Saved: Mengatasi overfitting Answer saved
Question 6 Berikut ini merupakan loss function dalam algoritma berbasis Neural Network:
Incorrect

5.00
a. Sigmoid function
b. ReLu
c. Semua benar
d. Cross entropy
The correct answer is: Cross entropy
Response history
2 3/05/21, 11:33 Saved: Sigmoid function Answer saved
Question 7 10 Tahapan feature extraction pada Algoritma Convolutional Neural Network terdiri dari beberapa lapisan (layer) berikut
Correct ini, kecuali:
Mark 5.00 out of
5.00 Select one:
a. Fully-connected layer
b. Convolutional layer
c. Pooling layer
d. Semua salah
The correct answer is: Fully-connected layer
Response history
2 3/05/21, 11:33 Saved: Fully-connected layer Answer saved
Question 8 Berikut ini merupakan library Python untuk Algoritma Deep Learning:
Incorrect

5.00
a. Keras
b. PyTorch
c. Semua benar
d. Tensorflow
Response history
2 3/05/21, 11:33 Saved: Keras Answer saved
Question 9 Hasil dari proses flatten pada Algoritma Convolutional Neural Network menjadi masukan dalam:
Incorrect

5.00
a. Convolutional layer
b. Fully-connected layer
c. Semua salah
d. Pooling layer
The correct answer is: Fully-connected layer
Response history
2 3/05/21, 11:33 Saved: Convolutional layer Answer saved
Question 10 16 Berikut ini adalah teknik yang dapat digunakan pada pooling layer dalam Algoritma Convolutional Neural Network:
Correct

5.00
a. Semua benar
b. Min pooling
c. Max pooling
d. Average pooling
Response history
2 3/05/21, 11:33 Saved: Semua benar Answer saved
Question 11 Untuk mencegah terjadinya overfitting dalam Algoritma Convolutional Neural Network dilakukan:
Incorrect

5.00
a. Penambahan epoch
b. Perbanyak jumlah hidden layer
c. Dropout regularization
d. Perkecil stride
The correct answer is: Dropout regularization
Response history
2 3/05/21, 11:33 Saved: Penambahan epoch Answer saved
Question 12 Sebuah citra berdimensi 5x5 dengan filter 3x3 dan stride sebesar 2 akan menghasilkan feature map berdimensi:
Incorrect

5.00
a. 3x3
b. 2x2
c. 4x4
d. Semua salah
The correct answer is: 2x2
Response history
2 3/05/21, 11:33 Saved: 3x3 Answer saved
Question 13 Salah satu ukuran dari confusion matrix yang dapat digunakan dalam mengukur tingkat keberhasilan sistem dalam
Correct menemukan kembali sebuah informasi adalah:
Mark 5.00 out of
5.00 Select one:
a. Recall
b. Semua salah
c. Accuracy
d. Precision
The correct answer is: Recall
Response history
2 3/05/21, 11:33 Saved: Recall Answer saved
Question 14 Untuk menyelesaikan permasalahan klasifikasi biner menggunakan algoritma berbasis Neural Network lebih tepat
Incorrect digunakan fungsi aktivasi:
Mark 0.00 out of
5.00 Select one:
a. ReLU
b. Sigmoid
c. Semua salah
d. Softmax
The correct answer is: Sigmoid
Response history
2 3/05/21, 11:33 Saved: ReLU Answer saved
Question 15 13 Algoritma Deep Learning dapat menyelesaikan permasalahan berikut ini:

Incorrect

5.00
a. Natural Language Processing
b. Pengenalan suara
c. Deteksi objek
d. Semua benar
Response history
2 3/05/21, 11:33 Saved: Natural Language Processing Answer saved
Question 16 Berikut ini merupakan contoh Algoritma Deep Learning:

Correct

5.00
a. Semua benar
b. Algoritma Long Short Term Memory
c. Algoritma Convolutional Neural Network
d. Algoritma Recurrent Neural Network
Response history
Question 17 Dimensi dari feature map dalam Algoritma Convolutional Neural Network bergantung pada:
Incorrect

5.00
a. Padding
b. Dimensi filter dan input
c. Semua benar
d. Stride
Response history
2 3/05/21, 11:33 Saved: Padding Answer saved
Question 18 Algoritma Deep Learning berbasis:

Incorrect

5.00
a. Semua benar
b. Neural network
c. Machine learning
d. Artificial Intelligence
The correct answer is: Neural network
Response history
Question 19 Berikut ini merupakan fungsi aktivasi dalam Algoritma Convolutional Neural Network:
Incorrect

5.00
a. Tanh
b. ReLU
c. Semua benar
d. Sigmoid
Response history
2 3/05/21, 11:33 Saved: Tanh Answer saved
Question 20 Pooling layer pada Algoritma Convolutional Neural Network terdapat pada:
Incorrect

5.00
a. Semua salah
b. Input layer
c. Output layer
d. Hidden layer
The correct answer is: Hidden layer
Response history
2 3/05/21, 11:33 Saved: Semua salah Answer saved
◄ Materi M9 : Introduction to Deep Kuis M9 : Introduction to Deep Learning

Jump to...
Learning (KHUSUS KELAS MALAM) ►
TEAM TEACHING M13
Layanan konsultasi dengan Bidan pada aplikasi Salute Bidan:

Select one:
a. Semua benar
b. Screening Mandiri
c. Kalkulator kehamilan
d. Chat dengan Bidan
Big Data di bidang farmasi meliputi:
Select one:
a. Semua salah
b. Biologi Farmasi, Kimia Farmasi, Teknologi Farmasi, Farmasi Klinik
c. Biologi Farmasi, Kimia Farmasi, Teknologi Farmasi, Kebidanan
d. Biologi Farmasi, Kimia Farmasi, Teknologi Farmasi, Farmakologi, Farmasi Klinik dan
Komunitas
Visi 2022 Program Studi Kebidanan dan Pendidikan Profesi Bidan UG:
Select one:
a. Meyelenggarakan kerjasama dengan berbagai industry, baik didalam maupun diluar
negeri dengan dilandasi kesetraan dan demi kepentingan nasional
b. Menciptakan suasana akademik yang mendukung terselenggaranya proses pembelajaran
yang inofatof agar dapat menghasilkan lulusan yang cerdas, kompetitif dan berkarakter
c. Menyelenggarakan program studi Pendidikan profesi bidan yang berkualitas dalam
rangka meningkatkan kontribusi pada peningkatan kualitas hidup masyarakat Indonesia
d. Menjadi Program Studi Pendidikan Profesi Bidan terkemuka di Indonesia berbasis
Teknologi Informasi dan Komunikasi dengan jejaring nasional dan internasional dalam
kegiatan tridharma perguruan tinggi yang holistik dan integratif dalam rangka
meningkatkan kualitas hidup masyarakat
Peran Big Data dalam bidang farmasi khususnya Farmasi Klinik dan Komunitas :
Select one:
a. Penentuan kebijakan
b. Penemuan senyawa obat baru
c. Optimalisasi pelayanan kesehatan
d. Inovasi obat dan Alat kesehatan
Wilayah yang sudah menjadi populasi bagi aplikasi Salute Bidan:
Select one:
a. Puskesmas Cimanggis, Pancoran Mas, Sukmajaya, Cinere dan Beji
b. Puskesmas Cimanggis, Pancoran Mas, Sawangan, Cinere dan Beji
c. Puskesmas Cimanggis, Cipayung, Sawangan, Cinere dan Beji
d. Puskesmas Cimanggis, Pancoran Mas, Cipayung, Cinere dan Beji
Cakupan kebutuhan data pada pelayanan kebidanan:
Select one:
a. Semua benar
b. Melahirkan dan Bayi Baru lahir
c. Kehamilan
d. Anak, pra sekolah, remaja
Peran Big Data dalam bidang farmasi khususnya Biologi dan Kimia Farmasi:
Select one:
a. Penemuan senyawa obat baru
b. Penentuan kebijakan
Peran Big Data dalam bidang farmasi khususnya Teknologi Farmasi:

Select one:
a. Inovasi obat dan Alat kesehatan
b. Optimalisasi pelayanan kesehatan
c. Penemuan senyawa obat baru
d. Penentuan kebijakan
Data yang dimanfaatkan penemuan dan pengembangan obat baru:

Select one:
a. Data obat, protein target, struktur kimia
b. Data senyawa tanaman obat, data genomik, data struktur kimia, protein target,
c. Semua salah
d. Data genomik, stuktur kimia, senyawa tanaman obat
Data Electronic Health Records (EHRs) dapat bermanfaat untuk:
Select one:
a. Memprediksi prevalensi penyakit
b. Penentuan kebijakan
UTS KOMPUTASI BIG DATA SMT 3
Select one:
a. Decision Tree
b. Deterministic vs. probabilistic
d. Hierarchical vs. flat
Select one:
a. Dataset
b. Nilai
c. Objek
d. Fitur/atribut
Istilah 'Machine Learning' diciptakan pada tahun <T> oleh :
Select one:
a. T = 1959, P = Arthur Samuel
b. T = 1999, P = Bill Gates
c. T = 1989, P = Tom M. Mitchell
d. T = 1969, P = Yann LeCun
Select one:
a. Klasifikasi
b. Klasterisasi
c. Visualisasi
d. Asosiasi
Model pembelajaran yang menggunakan data berlabel dan tidak berlabel untuk pelatihan.
Select one:
d. Unsupervised Learning
Select one:
a. Volume
b. Value
c. variety
d. Velocity
Tahapan yang tepat ketika melakukan testing
Select one:
b. Image Features - Training With Labeled Data - Learned Model
c. Image Features - Learned Model - Prediction
Select one:
a. Asosiasi
b. Visualisasi
c. Klasifikasi
d. Klasterisasi
Dalam ekosistem teknologi Data Engineering Link Aja! Apache Airflow berfungsi sebagai:
Select one:
a. Streaming Infrastructure
b. Monitoring
c. Data Sources Gathering
d. Batching Infratructure
Select one:
b. Keduanya salah
c. Keduanya benar
d. Berpusat pada Data Warehouse
Pada saat memodelkan mesin learning dalam menganalisa data transaksi keuangan,
melakukan perankingan adalah tahapan pada
Select one:
a. data engineering
b. prediction modelling
c. data exploration
d. data visualization
Salah satu agen intelligence yang bertugas saat mengumpulkan data melalui sumber Web
seperti HTML dokumen, gambar, file teksadalah:
Select one:
a. Compiler
b. Chat Box
c. parser
d. web crawler
Studi tentang bagaimana menganalisis data dan membersihkan data merupakan salah satu
tujuan dari
Select one:
a. Data validation
b. Data training
c. Data cleansing
d. Data testing
Bagian dari sistem Kecerdasan Artifisial yang mengolah pengetahuan adalah
Select one:
a. Data historis
b. Machine Learning
c. Validator
d. Hadoop
Peran Data Engineer seringkali juga disebut sebagai:
Select one:
a. Business Analyst
b. Data Architect
c. Data Manager
d. Statistician
YARN singkatan dari
Select one:
a. Yet another resource negotiator
b. Yet another resource need
d. Yahoo’s another resource name
Proses pencarian konten baru dan konten yang perlu diperbaharui dengan mengirimkan
crawler ke seluruh konten yang ditemukan dari tautan halaman merupakan Salah satu
konsep data mining pada Search Engine yang dinamakan
Select one:
a. Index
b. Crawl
c. Searching
d. Rank
Ciri-ciri dari masing-masing sample data misalnya Smartphone. ciri: memiliki layar, kamera,
tombol dan lain-lain
Select one:
b. Training Set
c. Instance
d. Feature/ atribut
Select one:
a. Tableu
b. Facebook
c. Sqoop
d. HDFS
Metode klasifikasi pada fungsi data mining yang menggunakan nilai estimasi dari
probabilitas bersyarat dinamakan metode
Select one:
a. Eliminasi
b. Mean
c. Naive Bayessian
d. Regresi
Manakah framework untuk Machine Learning:

Select one:
a. Apache Spark MLlib
b. Semua benar
c. Azure ML
d. Amazon ML
Regression, Decision Trees, Bayesian, Neural Networks, Naïve Bayes Rules, Support Vector
Machines, Genetic Algorithms adalah pendekatan yang digunakan untuk
Select one:
a. Klasifikasi
b. Klasterisasi
c. Asosiasi
d. Visualisasi
Tahapan pertama data preprocessing adalah
Select one:
a. data transformation
b. data Integration
c. data cleaning
d. data reduction
Select one:
a. Deteksi Penipuan
b. Input Nilai Mahasiswa
c. Mesin rekomendasi
d. Semua jawaban benar
Bagian dari sistem Kecerdasan Artifisial yang mengolah pengetahuan adalah
Select one:
a. Machine Learning
b. Data historis
c. Validator
d. Hadoop
Hadoop adalah framework yang bekerja bersama tools lain yang beragam. Kelompok yang
umum bekerja bersama Hadoop adalah
Select one:
a. MapReduce, Heron and Trumpet
c. MapReduce, Hummer and Iguana
d. MapReduce, MySQL and Google Apps
Jika variabel keluaran adalah berupa kategori misalnya “apel”, “jeruk” termasuk pada
machine learning bertipe
Select one:
a. Supervised – Classification
b. Unsupervised
c. Supervised -Regresion
d. Reinfocement
Select one:
a. Deteksi suhu tubuh
b. Pengenalan objek
c. Analitik Rute
d. Pengenalan wajah
Membuat grafik box plot adalah salah satu tahapan dalam implementasi mesin learning,
yaitu tahap
Select one:
a. verifikasi model
b. validasi model
c. eksplorasi data
d. modelling
Yang tidak digunakan pada Model Supervised Learning

Select one:
a. Linear Model
b. Latent Semantic Analysis
d. Neural Networks
Data berupa image, video bahkan suara termasuk jenis data

Select one:
a. Multimedia
b. Graf
c. Record
d. Ordered
Select one:
a. Storage layer, Service Layer, Application Layer
b. Storage layer, Resource Management Layer, Application Layer
d. Storage layer, Processing Layer, Application Layer
Cara menangani noisy data, kecuali
Select one:
a. Combined Computer
b. Ignore
c. Regression
d. Clustering
Saat Anda ingin mengungkap pengelompokan yang melekat dalam data, seperti
mengelompokkan hewan berdasarkan beberapa karakteristik / fitur, mis. jumlah kaki maka
model pembelajaran yang sesuai
Select one:
b. Supervised Learning - Classification
c. Supervised Learning - Regression
d. Unsupervised Learning - Clustering
Salah satu teknologi yang dapat digunakan pada bagian Serving Layer dalam Arsitektur
lambda adalah:
Select one:
a. Hive
b. Spark
c. HDFS
d. Flume
Select one:
a. Speed, consistency, dan volume
b. MapReduce, HDFS, dan YARN
d. ClickStream, Sensor, dan Sentiment
Pada saat memodelkan mesin learning dalam menganalisa data transaksi keuangan,
melakukan perankingan adalah tahapan pada
Select one:
a. prediction modelling
b. data visualization
c. data engineering
d. data exploration

Select one:
a. Pseudo distributed mode
b. Fully-Distributed mode
c. Stand alone mode
d. Globally distributed mode
Normalisasi data dilakukan pada tahap data preprocessing ..

Select one:
a. data Integration
b. data transformation
c. data reduction
d. data cleaning
Berikut ini yang bukan contoh data terstruktur adalah:

Select one:
a. Nama pelanggan
b. Email
c. Nomor telepon
d. Nomor KTP
ATA 2021/2022 | 2-FTI | Komputasi Big Data
| TEAM TEACHING
PERT 1
Manakah yang benar dari pernyataan berikut ini:
Select one:
a. Memperkirakan puncak dari kasus positif Covid-19, adalah contoh analisis prediktif.
b. Prediktif, menilai tindakan
c. Preskriptif, memodelkan perilaku masa lalu
d. Deskriptif, perkiraan berdasarkan data yang tersedia
Select one:
a. Fitur/atribut
b. Nilai
c. Objek
d. Dataset
Clear my choice
Data Warehouse dibuat dengan menerapkan serangkaian langkah pemrosesan terhadap

pemrosesan data tersebut:
Select one:
a. Transformasi data
b. Semua benar
c. Integrasi data
d. Pembersihan data
Dataset dibentuk dari:
Select one:
a. Sekumpulan objek yang memiliki fitur yang sama
b. Semua salah
c. Sekumpulan fitur yang memiliki objek yang sama
d. Sekumpulan fitur yang memiliki nilai yang sama
Clear my choice
Salah satu keunggulan DGX A100:

Select one:
a. Konsumsi daya lebih sedikit
b. Semua benar
c. Biaya lebih murah
d. Tidak membutuhkan ruang yang besar
Model basis data yang berupa deret waktu (time series):

Select one:
a. Temporal database
b. Spatial database
c. Text database
d. Semua salah
Kumpulan data yang disusun dalam tabel berformat persegi panjang yang terdiri dari baris
dan kolom disebut sebagai:
Select one:
a. Flat files
b. Data Warehouse
c. Semua salah
d. Database
Sumber data yang digunakan dalam aplikasi Big Data dapat berupa:
Select one:
a. Data Finansial
b. Data Media Sosial
c. Data Asuransi Kesehatan
d. Semua benar
Tempat penyimpanan data yang dikumpulkan di lokasi berbeda (basis data relasional) dan
disimpan menggunakan skema terpadu:
Select one:
a. Data Warehouse
b. Spatial Database
c. Transactional database
d. Semua benar
Select one:
a. Sqoop
b. Facebook
c. Tableu
d. HDFS
Dalam arsitektur Big Data, solusi berupa rekomendasi, berada pada posisi sebagai:
Select one:
a. Data Computing & Analysis
b. End Result
c. Data Format
d. Data Storage Layer
Semakin banyak data hingga mencapai ukuran Peta Byte atau bahkan lebih, merupakan
penjelasan dari dimensi Big Data dalam hal:
Select one:
a. Variety
b. Velocity
c. Veracity
d. Volume
Visualisasi dari hasil analisis Big Data dapat berupa:

Select one:
a. Tabel
b. Grafik 3D
c. Semua benar
d. Plot
Objek disebut juga:
Select one:
a. Unit
b. Semua benar
c. Record
d. Data points
Tipe nilai dapat berupa:
Select one:
a. Semua salah
b. Numerik
c. Fitur
d. Object
Select one:
a. Mesin rekomendasi
b. Deteksi Penipuan
c. Semua benar
d. Input Nilai Mahasiswa
Komponen Komputasi Big Data di lapisan Middleware terdiri dari:
Select one:
a. Resource Layer
b. SDK Layer
c. Semua benar
d. Interface Layer
Sekumpulan tabel dimana bentuk setiap tabel analog dengan flat file, disebut:
Select one:
a. Database
b. Data Warehouse
c. Semua salah
d. DBMS
Yang merupakan framework untuk Machine Learning:
Select one:
a. Semua benar
b. Azure ML
c. Apache Spark MLlib
d. Amazon ML
Beragamnya jenis data di dalam Big Data yang meliputi data terstruktur, semi terstruktur
dan bahkan data tidak terstruktur, merupakan penjelasan dari dimensi Big Data dalam hal:
Select one:
a. Velocity
b. Variety
c. Veracity
d. Volume
PERTEMUAN 2 TEAM TEACHING BIG DATA
Select one:
a. Storage layer, Resource Management Layer, Application Layer
b. Storage layer, Processing Layer, Application Layer
Berikut ini adalah saran untuk memasuki era Analytic 3.0:
Select one:
a. Pilih target dan sub-target analytics 3.0
c. Semua benar
d. Mulailah dengan kemampuan yang ada untuk manajemen data dan analitik
Berikut ini yang harus dilakukan oleh perusahaan 1.0, kecuali:
Select one:
a. Membuat analitik dan keputusan berbasis fakta elemen kunci dari hubungan pelanggan, produk dan
layanan, strategi, dan persaingan
Contoh Analytic 3.0:
Select one:
a. Data volume tinggi waktu nyata dari sensor dan mesin
b. Semua benar
c. Analisis untuk tren, pola, prediksi, pengoptimalan, kesadaran situasional

d. Fokus pada anomali dan pengecualian
Contoh Aplikasi Machine Learning dan Analitik Prediktif:
Select one:
a. Semua benar
b. Prediksi wabah penyakit
c. Prediksi Cashflow
d. Penetapan harga dinamis
Contoh data tidak terstruktur:
Select one:
a. Data pegawai
b. Data media sosial
c. Semua benar
d. Data transaksi penjualan
Contoh implementasi dalam perusahaan:
Select one:
a. Semua benar
c. Sistem Manajemen Inventaris Cerdas pada perusahaan Ford, menyarankan pesanan mingguan untuk
dealer dan telah meningkatkan pendapatan sebesar $ 100 juta / tahun
d. Monsanto membayar hampir $ 1 miliar untuk The Climate Company, yang mengumpulkan dan
menganalisis data cuaca untuk pertanian
Select one:
a. Analitik Rute

c. Pengenalan wajah
d. Pengenalan objek
stilah 'Machine Learning' diciptakan pada tahun <T> oleh :
Select one:
a. T = 1999, P = Bill Gates
b. T = 1989, P = Tom M. Mitchell
c. T = 1969, P = Yann LeCun
d. T = 1959, P = Arthur Samuel
Komponen Hadoop yang berfungsi sebagai data processing:
Select one:
a. HDFS
b. YARN
c. MapReduce
d. Semua benar
Komponen Hadoop yang berfungsi sebagai data storage:
Select one:
a. MapReduce
b. YARN
c. Semua benar
d. HDFS
Manakah pernyataan yang benar tentang era Analytic 3.0:
Select one:
a. Dibutuhkan kapabilitas analitis dan komputasi baru
b. Data yang kompleks, besar dan tidak terstruktur
c. Perpaduan antara analitik tradisional dengan Big Data

Manakah pernyataan yang benar tentang Hadoop:
Select one:
a. Hadoop mulai dikembangkan pada tahun 2008
b. Hadoop merupakan framework untuk bekerja dengan Big Data
c. Semua benar
d. Hadoop merupakan Google File System
Netflix adalah contoh perusahaan yang tergolong:
Select one:
a. 1.0
b. Semua benar
c. 3.0
d. 2.0
Perbandingan SQL vs NoSQL:
Select one:
a. Semua benar
c. Relational vs Non-Relational
d. Structured Query Language vs Un-structured Query Language
Perbandingan Traditional vs Big Data Analytics:
Select one:
b. Semua benar
d. Mahal vs Terjangkau
Salah satu bentuk data tidak terstruktur:
Select one:
a. Graph
b. Semua benar
c. Key-Value
d. Document
Salah satu fakta yang menunjukkan aspek Velocity dari Big Data:
Select one:
a. Mobil modern memiliki 100 sensor yang memantau berbagai item pada mobil
c. Semua benar
Salah satu tonggak penting dalam Big Data Analytic dalam aspek pengadaan infrastruktur:
Select one:
a. Dapatkan infrastruktur yang tepat yang dibutuhkan berdasarkan arsitektur solusi Anda termasuk
b. Adaptasi dan ubah organisasi Anda menuju teknologi big data dan implementasi analitik baru
c. Kembangkan arsitektur Solusi untuk kasus bisnis Anda termasuk proses pengumpulan data, arsitektur
teknologi dan metode analitik serta visualisasi data
Select one:
c. Keduanya benar
d. Keduanya salah
BIG DATA PERTEMUAN 3
Sistem penyimpanan data cluster adalah
Select one:
a. Kumpulan server atau node digabungkan secara erat, dengan spesifikasi perangkat keras yang sama.
Serta terhubung melalui jaringan dan bekerja sebagai satu kesatuan
b. Penyimpanan dan pengaturan data pada perangkat penyimpanan harddisk atau flashdisk, dan
menyediakan logical view dari data yang disimpan dalam struktur hirakis direktori file.
c. Menyimpan data dengan mempartisi secara horizontal dan pecahan horizontal tersebut di simpan
secara terpisah pada node server.
d. Data disimpan dengan cara menyalin dataset dan meyimpan Salinan tersebut pada beberapa node
Berikut yang dimaksud dengan menganalisa data dalam konteks big data adalah:
Select one:
a. Classification analytics, regression analytics, clustering analytics, dan hadooping analytics
b. Menentukan jumlah data dan atribut data
c. mean statistic analytics, deviation standard analytics, dan percentil analytics
d. Descriptive analytics, diagnostic analytics, predictive analytics, dan prescriptive analytics
Properti Big data yang penting, salah satunya adalah aviability, yaitu:
Select one:
a. Kemampuan menanganai penambahan bebab yang diberikan tanpa penurunan kinerja
b. Handal
Select one:
a. Globally distributed mode

b. Pseudo distributed mode
d. Stand alone mode
Pernyataan yang benar mengenai MapReduce, adalah:
Select one:
a. membagi masalah besar menjadi masalah kecil yang dapat diselesaikan dengan cepat
b. memproses data besar secara parallel dalam cluster pada commodity hardware
c. semua benar
d. implementasi dari framework pemrosesan batch
NoSQl database adalah singkatan dari
Select one:
a. Not-only Structured Query Language database
b. Numbered of sequel database
d. No Like Structured Query Language database
YARN singkatan dari
Select one:
b. Yet another resource negotiator
d. Yet another resource need
Select one:
b. Speed, consistency, dan volume

d. MapReduce, HDFS, dan YARN
Hadoop adalah framework yang bekerja bersama tools lain yang beragam. Kelompok yang umum
bekerja bersama Hadoop adalah
Select one:
Select one:
b. Handal
Properti Big data yang penting, salah satunya adalah fault tolerance, yaitu:
Select one:
b. Handal
Database NoSQL menggunakan beragam model data untuk mengakses dan mengelola data. Jenis
database ini dioptimalkan secara khusus untuk aplikasi yang memerlukan…., yang dicapai dengan
mengurangi pembatasan konsistensi data dari database lainnya.
Select one:
a. volume data besar, latensi rendah, dan model data fleksibel

Pemrosesan data terdistribusi adalah pemrosesan
Select one:
a. yang menerapkan divide and conquer dalam fisik terpisah, namun terhunung Bersama dalam satu
cluster
b. yang menggunakan pendekatan pendekatan interaktif tanpa penundaan
c. yang melibatkan pelaksanaan sub-tugas secara bersamaan secara kolektif membentuk tugas yang
besar melalui beberapa processor
d. yang membagi pemrosesan dalam beberapa batch dan dilakukan secara offline
Hadoop adalah framework yang
Select one:
b. Memungkinkan pemrosesan secara terdistribusi terhadap data yang berukuran besar
c. Semua benar
Type data berikut yang dapat ditangani oleh Hadoop adalah
Select one:
a. Semua benar
b. Tidak terstuktur
c. Terstruktur
d. Semi – terstruktur
Hadoop adalah platform pemrosesan big data yaitu data yang mempunyai karakteristik kecuali:
Select one:
b. Volume besar, struktur data yang beragam (variety), dan nilai data yang diperlukan (useful value)
c. Jumlah fitur yang tertentu
d. Terakumulasi dengan cepat (high speed velocity)
Bagian pekerjaan utama MapReduce adalah
Select one:
a. combine dan partition
b. map dan combine
c. shuffle dan sort
d. map dan reduce
Terdapat 2 (dua) teknologi Penyimpanan Big Data, yaitu
Select one:
c. SQL dan No-SQL
d. On Disk Storage Devices dan In Memory Storage Devices
Jenis database NoSQL apa yang membuat dan menjalankan aplikasi yang berjalan dengan dataset yang
selalu terhubung menjadi lebih mudah dan sering digunakan untuk jaringan media sosial.
Select one:
a. Dokumen
b. Primary key
c. Pencarian
d. Grafik
Properti Big data yang penting, salah satunya adalah scalability, yaitu:
Select one:
d. Handal
27/03/22 22.57 Kuis M4 : Data Preprocessing: Attempt review
Pertemuan 4 : Data Preprocessing
/
Kuis M4 : Data Preprocessing

State Finished
Grade 100.00 out of 100.00

Correct

5.00
Dibiarkan
A,B,dan C benar 

Correct

5.00
Atribut 
Record
Sample
Instance

Correct

5.00
Clustering
Combined Computer
Regression
Ignore 
Correct

5.00
Record
Graf
Multimedia 
Ordered
1
Online

Correct

5.00
Mark 5.00 out of
5.00 Select one:
duplicate data
A,B,C benar 
missing value
outlier
Correct

5.00
Graf 
Record
Ordered
Multimedia
Correct

5.00
interpolasi
Nilai tertinggi 
Median
Rata-rata

Correct

5.00
Nominal 
Numerik
Ordinal
Rasio

Correct

5.00
Dataset
Data sample
Data objek
Atribut 
Correct

5.00
Rasio
Numerik
Ordinal 
Nominal

Correct

5.00
data cleaning
data reduction
data Integration
Correct

5.00
Mean
Eliminasi
Regresi
Bayessian 
Mark 5.00 out of
5.00 Select one:
Transaksi
Matriks
Sosial network
Dokumen 
Correct

5.00
Believability
Consistency
Completeness
Correct

5.00
Median
Mean
Modus
Variance 
Correct

5.00
Data validation
Data cleansing 
Data testing
Data training

Correct

5.00
data reduction
data cleaning 
data Integration
data transformation
Correct

5.00
Atribut penjualan
Correct

5.00
Dataset
Data objek 
Atribut
Data sample
Kuis M4 : Data Preprocessing (khusus

◄ Video M4 : Data Preprocessing Jump to...
kelas MALAM)) ►
/

State Finished
Marks 19.00/20.00

Correct

1.00
a. Data Architect 
b. Data Manager
c. Business Analyst
d. Statistician

Correct

1.00
a. Abstrak
b. Semua benar
c. Baris dan kolom 
d. Gambar

Correct

1.00
a. Arsitektur Alfa dan Beta
b. Arsitektur Lambda dan Kappa 
c. Arsitektur Alfa dan Lambda
d. Arsitektur Beta dan Kappa
1
Online

Incorrect

1.00
a. Berbasis teks
b. Sulit untuk dicari
c. Model data dapat ditentukan sebelumnya
d. Terkelola secara fleksibel 

Correct

1.00
a. Nomor KTP
b. Nomor telepon
c. Email 
d. Nama pelanggan
Correct

1.00
a. Hive 
b. Flume
c. Spark
d. HDFS
Correct

1.00
a. Memaksimumkan pemanfaatan platform Google Cloud 
b. Meningkatkan proses perbaikan kualitas data
c. Memprioritaskan data yang memiliki tingkat kepentingan tinggi dan bernilai

Correct

1.00
a. 2015 
b. 2008
c. 2020
d. 2016
The correct answer is: 2015 1

Online
Correct

1.00
a. Data Sources, Streaming/Real-Time Processing, Streaming/Real-Time Ingestion, Analytical Data Store, Analytics
& Reporting
b. Data Sources, Streaming/Real-Time Ingestion, Analytical Data Store, Streaming/Real-Time Processing, Analytics
& Reporting
c. Data Sources, Analytical Data Store, Streaming/Real-Time Ingestion, Streaming/Real-Time Processing, Analytics
& Reporting
d. Data Sources, Streaming/Real-Time Ingestion, Streaming/Real-Time Processing, Analytical Data Store, Analytics
& Reporting 
Correct

1.00
a. BPJS
b. Semua salah
c. Bank Indonesia
d. Pemerintah 
Correct

1.00
c. Monitoring
d. Batching Infratructure 
Correct

1.00
b. Pembuatan Platform AI/ML
c. eKYC Improvement 
d. Otomasi Produksi AI/ML
1
Online

Correct

1.00
a. Linkedin 
b. Yahoo
c. Google
d. Facebook

Correct

1.00
a. Semua salah 
b. Volume
c. Veracity
d. Variety
Correct

1.00
a. Kafka
b. Presto
c. Spark
d. MongoDB 
Correct

1.00
a. SLogan
b. Misi
c. Tujuan
d. Visi 
1
Online
Correct

1.00
a. Grafana 
b. Google Cloud Storage
c. Google Big Query
d. PostgreSQL

Correct

1.00
a. Terstruktur
b. Tidak Terstruktur
c. Semi Terstruktur 

Correct

1.00
a. Storm 
b. Beam
c. Hadoop
d. Hive
Correct

1.00
a. Data Intelligent 
b. Data Analyst
c. Data Scientist
d. Data Engineer
Jump to...
1
Online
QUIZ M7 KOMPUTASI BIG DATA
Select one:
a. Asosiasi
b. Klasterisasi
c. Klasifikasi
d. Visualisasi
Proses pencarian konten baru dan konten yang perlu diperbaharui dengan mengirimkan crawler ke
seluruh konten yang ditemukan dari tautan halaman merupakan Salah satu konsep data mining pada
Search Engine yang dinamakan
Select one:
a. Rank
b. Searching
c. Index
d. Crawl
Metode untuk mempresentasikan hasil yang ditemukan dengan cara yang "bagus" secara visual
Select one:
a. Asosiasi
b. Visualisasi
c. Klasterisasi
d. Klasifikasi
Untuk menghindari set pengujian yang tumpang tindih, data dibagi menjadi k himpunan bagian dengan
ukuran yang sama kemudiansetiap subset secara bergantian digunakan untuk pengujian dan sisanya
untuk pelatihan
Select one:

b. Commulative PCT Hits
c. Model Sorted list
d. k-fold cross-validation
Attributes yang berisi informasi seperti item_ID, name, brand, category, supplier, place_made and price,
merupakaan salah satu contoh jenis database
Select one:
a. Penjualan
b. Marketing
c. Penyewaan
d. Social media
Urutan langkah melakukan klasifikasi
Select one:
a. Pisahkan data menjadi set pelatihan dan pengujian, Buat model pada set pelatihan, Evaluasi pada set
pengujian
b. Buat model pada set pelatihan, pilih secara acak jumlah instance kelas minoritas yang diinginkan,
Evaluasi pada set pengujian
c. Buat model pada set pelatihan, Evaluasi pada set pengujian (Latih ulang?), Pisahkan data menjadi set
pelatihan dan pengujian
d. Evaluasi pada set pengujian, Buat model pada set pelatihan, Pisahkan data menjadi set pelatihan dan
pengujian
Select one:
a. fokus pada peningkatan kinerja agen pembelajaran
c. melihat pembelajaran real-time dan robotika
d. fokus pada seluruh proses penemuan pengetahuan

Regression, Decision Trees, Bayesian, Neural Networks, Naïve Bayes Rules, Support Vector Machines,
Genetic Algorithms adalah pendekatan yang digunakan untuk
Select one:
a. Asosiasi
b. Klasifikasi
c. Visualisasi
d. Klasterisasi
Fungsi dari data mining adalah salah satunya dapat mengetahui pola yang sering (atau kumpulan item
yang sering) misalnya item apa yang sering dibeli bersama di Walmart Anda. Ini dikenal dengan istilah
Select one:
a. Klasifikasi
b. Klasterisasi
c. Outlier Analysis
Metode untuk mengelompokkan secara "alami" dari instance yang diberi data tanpa label
Select one:
a. Asosiasi
b. Klasifikasi
c. Klasterisasi
d. Visualisasi
Select one:
a. lebih teori
c. mengintegrasikan teori dan heuristik
d. lebih heuristik
Select one:
b. Decision Tree
d. Deterministic vs. probabilistic
Seberapa mudah data dapat dipahami merupakan kualitas data dari..
Select one:
a. Completeness
b. Interpretability
c. Consistency
d. Believability
Jenis tugas data mining yang menfasilitasi penerimaan / penelusuran informasi bagi pengguna
Select one:
a. Visualisasi
b. Klasifikasi
c. Klasterisasi
d. Asosiasi
Select one:
a. Value
b. Volume
c. variety
d. Velocity
Pernyataan yang kurang sesuai dengan metode peringkasan
Select one:
a. Mengelompokkan data tak berlabel
b. Biasanya dalam Kombinasi dengan deteksi Deviasi atau metode lain
Metode klasifikasi pada fungsi data mining yang menggunakan nilai estimasi dari probabilitas bersyarat
dinamakan metode
Select one:
a. Regresi
b. Eliminasi
c. Mean
d. Naive Bayessian
Select one:
a. Klasifikasi
b. Visualisasi
c. Klasterisasi
d. Asosiasi
Melihat suatu objek data yang tidak sesuai dengan perilaku umum data, sering digunakan dalam deteksi
penipuan atau analisis kejadian langka
Select one:
a. Analisis Outlier
b. Klasifikasi
c. Asosiasi dan Analisis Korelasi
d. Klasterisasi
Acuan yang tidak tepat ketika melakukan pengaturan parameter
Select one:
a. Data pengujian tidak digunakan dengan cara apa pun untuk membuat pengklasifikasi
b. Data pengujian harus digunakan untuk penyetelan parameter
c. Skema pembelajaran beroperasi dalam dua tahap yaitu membangun struktur dasar dan
mengoptimalkan pengaturan parameter
d. Data pengujian tidak dapat digunakan untuk penyetelan parameter

09/05/22 13.58 1 pesan baru
/
Pertemuan 8: Introduction to Machine Learning (Supervised) /
Kuis M6 : Introduction to Machine Learning (Supervised)
Started on Monday, 9 May 2022, 1:43 PM

State Finished
Completed on Monday, 9 May 2022, 1:58 PM

Correct

5.00
a. Klasifikasi 
b. Regressi
c. Generalisasi
d. Klasterisasi
1
Question 2 Yang tidak digunakan pada Model Supervised Learning Online
Correct

5.00
a. Linear Model
d. Neural Networks
Correct

5.00
a. Supervised -Regresion
b. Reinfocement
c. Unsupervised

Correct

5.00
09/05/22 13.58 1 pesan baru
Correct

5.00
Correct

5.00
c. Semi Supervised Learning 

Correct
Marked out of Select one: 1

5.00 Online
a. Image Features - Learned Model - Prediction
b. Image Features - Training With Labeled Data – Prediction
d. Image Features - Training With UnLabeled Data - Prediction
Marked out of
5.00 Select one:
a. Klasterisasi (clustering) 
b. Pengklasifikasian (classification)
c. Ranking
Marked out of
5.00 Select one:
a. Supervised Learning - Regression
b. Unsupervised Learning - Clustering 
c. Reinfocement Learning
d. Supervised Learning - Classification
09/05/22 13.58 1 pesan baru
Correct

5.00
a. Instance
b. Training Set 
d. Feature/ atribut
Correct

5.00
a. Tabel
b. Instance
c. Aturan 
d. Pohon
Question 12
Correct
Marked out of 1
5.00
Online

Select one:
a. Pohon
b. Tabel
c. Aturan 
d. Instance
Correct

5.00
a. Instance
b. Feature/ atribut
d. Training Set
Marked out of
5.00 Select one:
a. model selection
b. prediction
d. generalization
09/05/22 13.58 1 pesan baru
Select one:
Marked out of
5.00 Select one:
a. Regressi 
b. Klasifikasi
c. Generalisasi
d. Klasterisasi
1
Online
Correct
Marked out of
5.00 Select one:
c. Training Set
d. Instance
Question 18
Correct
Marked out of
5.00
Select one:
a. Tabel
b. Pohon 
c. Instance
d. Aturan
09/05/22 13.58 1 pesan baru
Question 19
Correct
Marked out of
5.00
Select one:
a. Pohon
b. Aturan
c. Instance
d. Tabel 
Marked out of
5.00 Select one:
a. Pengelompokan (clustering)
b. Reduksi dimensi (dimension reduction)
c. Rekomendasi

◄ Video M8: Introduction to Machine
Jump to... Learning (Supervised) (Khusus Kelas
Learning (Supervised)
Malam) ►
Dashboard / My courses / ATA 2020/2021 | 2-FIKTI | Komputasi Big Data | TEAM TEACHING / Pertemuan 1 : Big Data Computing Overview
/ Kuis M1 : Big Data Computing Overview

State Finished
Time taken 1 min 46 secs
Question 1 Beragamnya jenis data di dalam Big Data yang meliputi data terstruktur, semi terstruktur dan bahkan data tidak
Correct terstruktur, merupakan penjelasan dari dimensi Big Data dalam hal:
Mark 5.00 out of
5.00 Select one:
Velocity
Volume
Variety 
Veracity
The correct answer is: Variety
Question 2 Contoh solusi Big Data, kecuali:

Correct

5.00
Mesin rekomendasi
Input Nilai Mahasiswa 
Semua benar
Deteksi Penipuan
The correct answer is: Input Nilai Mahasiswa
Question 3 Dalam arsitektur Big Data, solusi berupa rekomendasi, berada pada posisi sebagai:
Correct

5.00
Data Computing & Analysis
Data Storage Layer
Data Format
End Result 
The correct answer is: End Result
1
Online
Question 4 Dalam ekosistem Big Data, proses pre-prosesing data dapat dilakukan menggunakan:
Correct

5.00
HDFS
Sqoop 
Facebook
Tableu
The correct answer is: Sqoop
Question 5 Data Warehouse dibuat dengan menerapkan serangkaian langkah pemrosesan terhadap data yang berasal dari beberapa
Incorrect basis data. Berikut ini adalah yang termasuk dalam pemrosesan data tersebut:
Mark 0.00 out of
5.00 Select one:
Pembersihan data
Semua benar
Integrasi data 
Transformasi data
Question 6 Dataset dibentuk dari:

Correct

5.00
Semua salah
Sekumpulan fitur yang memiliki nilai yang sama
Sekumpulan fitur yang memiliki objek yang sama
Sekumpulan objek yang memiliki fitur yang sama 
The correct answer is: Sekumpulan objek yang memiliki fitur yang sama
Question 7 Komponen Komputasi Big Data di lapisan Middleware terdiri dari:

Correct

5.00
SDK Layer 
Semua benar
Resource Layer
Interface Layer
The correct answer is: SDK Layer
Question 8 Kumpulan data yang disusun dalam tabel berformat persegi panjang yang terdiri dari baris dan kolom disebut sebagai:
Correct

5.00
Semua salah
Data Warehouse
Database
Flat files 
The correct answer is: Flat files
Question 9 Manakah yang benar dari pernyataan berikut ini:

Correct

5.00
Memperkirakan puncak dari kasus positif Covid-19, adalah contoh analisis prediktif. 
Prediktif, menilai tindakan
Deskriptif, perkiraan berdasarkan data yang tersedia
Preskriptif, memodelkan perilaku masa lalu
The correct answer is: Memperkirakan puncak dari kasus positif Covid-19, adalah contoh analisis prediktif.
Question 10 Model basis data yang berupa deret waktu (time series):
Correct

5.00
Temporal database 
Text database
Semua salah
Spatial database
The correct answer is: Temporal database
Question 11 Objek disebut juga:

Correct

5.00
Semua benar 
Unit
Data points
Record
Question 12 Salah satu keunggulan DGX A100:

Correct

5.00
Konsumsi daya lebih sedikit
Semua benar 
Biaya lebih murah
Tidak membutuhkan ruang yang besar
Question 13 Sekumpulan tabel dimana bentuk setiap tabel analog dengan flat file, disebut:
Correct

5.00
Semua salah
Data Warehouse
DBMS
Database 
The correct answer is: Database
Question 14 Semakin banyak data hingga mencapai ukuran Peta Byte atau bahkan lebih, merupakan penjelasan dari dimensi Big Data
Correct dalam hal:
Mark 5.00 out of
5.00 Select one:
Variety
Volume 
Velocity
Veracity
The correct answer is: Volume
Question 15 Sumber data yang digunakan dalam aplikasi Big Data dapat berupa:
Correct

5.00
Data Asuransi Kesehatan
Data Finansial
Semua benar 
Data Media Sosial
Question 16 Tempat penyimpanan data yang dikumpulkan di lokasi berbeda (basis data relasional) dan disimpan menggunakan skema
Correct terpadu:
Mark 5.00 out of
5.00 Select one:
Data Warehouse 
Transactional database
Semua benar
Spatial Database
The correct answer is: Data Warehouse
Question 17 Tipe nilai dapat berupa:

Correct

5.00
Object
Fitur
Semua salah
Numerik 
The correct answer is: Numerik
Question 18 Unit informasi tunggal disebut:

Correct

5.00
Fitur/atribut
Dataset
Nilai 
Objek
The correct answer is: Nilai
Question 19 Visualisasi dari hasil analisis Big Data dapat berupa:

Correct

5.00
Semua benar 
Tabel
Grafik 3D
Plot
Question 20 Yang merupakan framework untuk Machine Learning:

Correct

5.00
Azure ML
Amazon ML
Apache Spark MLlib 
Semua benar
The correct answer is: Apache Spark MLlib
◄ Materi M1 : Big Data Computing Kuis M1 : Big Data Computing Overview

Jump to...
Overview (Khusus Kelas Malam) ►
3/15/2021 1 pesan baru
Dashboard / My courses / ATA 2020/2021 | 2-FIKTI | Komputasi Big Data | TEAM TEACHING
/ Pertemuan 2 : Big Data Computing, Applications and Technologies / Kuis M2 : Big Data Computing, Applications and Technologies

State Finished
Grade 100.00 out of 100.00
Question 1 Arsitektur Hadoop terdiri dari:

Correct

5.00
a. Storage layer, Processing Layer, Application Layer
b. Storage layer, Resource Management Layer, Application Layer 
The correct answer is: Storage layer, Resource Management Layer, Application Layer
Question 2 Berikut ini adalah saran untuk memasuki era Analytic 3.0:
Correct

5.00
a. Mulailah dengan kemampuan yang ada untuk manajemen data dan analitik
b. Pilih target dan sub-target analytics 3.0
c. Semua benar 
d. Tambahkan beberapa data volume besar yang tidak terstruktur
Question 3 Berikut ini yang harus dilakukan oleh perusahaan 1.0, kecuali:
Correct

5.00
a. Membuat analitik dan keputusan berbasis fakta elemen kunci dari hubungan pelanggan, produk dan layanan,
strategi, dan persaingan 
The correct answer is: Membuat analitik dan keputusan berbasis fakta elemen kunci dari hubungan pelanggan, produk
dan layanan, strategi, dan persaingan
1
Online
Question 4 Contoh Analytic 3.0:

Correct

5.00
a. Semua benar 
b. Data volume tinggi waktu nyata dari sensor dan mesin
c. Fokus pada anomali dan pengecualian
d. Analisis untuk tren, pola, prediksi, pengoptimalan, kesadaran situasional
Question 5 Contoh Aplikasi Machine Learning dan Analitik Prediktif:

Correct

5.00
a. Prediksi wabah penyakit
b. Semua benar 
c. Penetapan harga dinamis
d. Prediksi Cashflow
Question 6 Contoh data tidak terstruktur:

Correct

5.00
a. Data media sosial 
b. Data transaksi penjualan
c. Data pegawai
d. Semua benar
The correct answer is: Data media sosial
Question 7 Contoh implementasi dalam perusahaan:

Correct

5.00
a. Sistem Manajemen Inventaris Cerdas pada perusahaan Ford, menyarankan pesanan mingguan untuk dealer dan
telah meningkatkan pendapatan sebesar $ 100 juta / tahun
c. Semua benar 
d. Monsanto membayar hampir $ 1 miliar untuk The Climate Company, yang mengumpulkan dan menganalisis data
cuaca untuk pertanian
Question 8 Dalam computer vision, contoh penerapan Machine Learning adalah, kecuali:
Correct

5.00
a. Analitik Rute 
b. Pengenalan wajah
c. Deteksi suhu tubuh
d. Pengenalan objek
The correct answer is: Analitik Rute
Question 9 Istilah 'Machine Learning' diciptakan pada tahun <T> oleh :
Correct

5.00
a. T = 1969, P = Yann LeCun
b. T = 1959, P = Arthur Samuel 
c. T = 1989, P = Tom M. Mitchell
d. T = 1999, P = Bill Gates
The correct answer is: T = 1959, P = Arthur Samuel
Question 10 Komponen Hadoop yang berfungsi sebagai data processing:

Correct

5.00
a. YARN
b. HDFS
c. Semua benar
d. MapReduce 
The correct answer is: MapReduce
Question 11 Komponen Hadoop yang berfungsi sebagai data storage:

Correct

5.00
a. Semua benar
b. MapReduce
c. YARN
d. HDFS 
The correct answer is: HDFS
Question 12 Manakah pernyataan yang benar tentang era Analytic 3.0:

Correct

5.00
a. Data yang kompleks, besar dan tidak terstruktur
b. Perpaduan antara analitik tradisional dengan Big Data 
c. Dibutuhkan kapabilitas analitis dan komputasi baru
The correct answer is: Perpaduan antara analitik tradisional dengan Big Data
Question 13 Manakah pernyataan yang benar tentang Hadoop:

Correct

5.00
a. Hadoop merupakan Google File System
b. Hadoop merupakan framework untuk bekerja dengan Big Data 
c. Hadoop mulai dikembangkan pada tahun 2008
d. Semua benar
The correct answer is: Hadoop merupakan framework untuk bekerja dengan Big Data
Question 14 Netflix adalah contoh perusahaan yang tergolong:

Correct

5.00
a. 1.0
b. Semua benar
c. 2.0 
d. 3.0
The correct answer is: 2.0
Question 15 Perbandingan SQL vs NoSQL:

Correct

5.00
a. Structured Query Language vs Un-structured Query Language
b. Relational vs Non-Relational
c. Semua benar 
d. Static vs Dynamic
Question 16 Perbandingan Traditional vs Big Data Analytics:

Correct

5.00
b. Mahal vs Terjangkau
d. Semua benar 
Question 17 Salah satu bentuk data tidak terstruktur:

Correct

5.00
a. Document
b. Graph
c. Key-Value
d. Semua benar 
Question 18 Salah satu fakta yang menunjukkan aspek Velocity dari Big Data:
Correct

5.00
a. 27% responden dalam satu survei tidak yakin dengan banyaknya data mereka yang tidak akurat
b. Semua benar
c. Mobil modern memiliki 100 sensor yang memantau berbagai item pada mobil 
d. Pertumbuhan data tidak terstruktur mencapai 60% - 80% per tahun
The correct answer is: Mobil modern memiliki 100 sensor yang memantau berbagai item pada mobil
Question 19 Salah satu tonggak penting dalam Big Data Analytic dalam aspek pengadaan infrastruktur:
Correct

5.00
a. Analisis data untuk setiap kasus bisnis spesifik Anda dan visualisasikan dengan cara yang bermakna
b. Dapatkan infrastruktur yang tepat yang dibutuhkan berdasarkan arsitektur solusi Anda termasuk penyimpanan
data dan unit pemrosesan, platform, dan aplikasi 
c. Adaptasi dan ubah organisasi Anda menuju teknologi big data dan implementasi analitik baru
d. Kembangkan arsitektur Solusi untuk kasus bisnis Anda termasuk proses pengumpulan data, arsitektur teknologi
dan metode analitik serta visualisasi data
The correct answer is: Dapatkan infrastruktur yang tepat yang dibutuhkan berdasarkan arsitektur solusi Anda termasuk
Question 20 Teknologi yang dibutuhkan pada era Analytic 3.0:

Correct

5.00
a. Keduanya benar
c. Ketergantungan yang tinggi pada Machine Learning 
d. Keduanya salah
The correct answer is: Ketergantungan yang tinggi pada Machine Learning
Kuis M2 : Big Data Computing,

◄ Materi M2 : [SEGMENT 3] Hadoop &
Jump to... Applications and Technologies (khusus
Big Data - Analytics Journey
kelas Malam) ►
3/22/2021 Kuis M3 : Introduction to Hadoop: Attempt review
Dashboard / My courses / ATA 2020/2021 | 2-FIKTI | Komputasi Big Data | TEAM TEACHING / Pertemuan 3 : Introduction to Apache Hadoop
/ Kuis M3 : Introduction to Hadoop

State Finished
Question 1 Jenis database NoSQL apa yang membuat dan menjalankan aplikasi yang berjalan dengan dataset yang selalu terhubung
Correct menjadi lebih mudah dan sering digunakan untuk jaringan media sosial.
Mark 5.00 out of
5.00 Select one:
a. Primary key
b. Grafik 
c. Dokumen
d. Pencarian
The correct answer is: Grafik
Question 2 Bagian pekerjaan utama MapReduce adalah

Correct

5.00
a. map dan combine
b. combine dan partition
c. map dan reduce 
d. shuffle dan sort
The correct answer is: map dan reduce
Question 3 NoSQl database adalah singkatan dari

Correct

5.00
a. Not-only Structured Query Language database 
b. No Like Structured Query Language database
d. Numbered of sequel database
The correct answer is: Not-only Structured Query Language database
1
Online
Question 4 Database NoSQL menggunakan beragam model data untuk mengakses dan mengelola data. Jenis database ini
Incorrect dioptimalkan secara khusus untuk aplikasi yang memerlukan…., yang dicapai dengan mengurangi pembatasan konsistensi
Mark 0.00 out of data dari database lainnya.
5.00
Select one:
a. volume data besar, latensi rendah, dan model data fleksibel 
The correct answer is: volume data besar, latensi rendah, dan model data fleksibel
Question 5 Type data berikut yang dapat ditangani oleh Hadoop adalah
Correct

5.00
a. Tidak terstuktur
b. Semi – terstruktur
c. Terstruktur
d. Semua benar 
Question 6 Pernyataan yang benar mengenai MapReduce, adalah:

Correct

5.00
a. memproses data besar secara parallel dalam cluster pada commodity hardware
b. semua benar 
c. implementasi dari framework pemrosesan batch
d. membagi masalah besar menjadi masalah kecil yang dapat diselesaikan dengan cepat
The correct answer is: semua benar
Question 7 Sistem penyimpanan data cluster adalah

Correct

5.00
a. Menyimpan data dengan mempartisi secara horizontal dan pecahan horizontal tersebut di simpan secara terpisah
pada node server.
b. Data disimpan dengan cara menyalin dataset dan meyimpan Salinan tersebut pada beberapa node
c. Penyimpanan dan pengaturan data pada perangkat penyimpanan harddisk atau flashdisk, dan menyediakan logical
view dari data yang disimpan dalam struktur hirakis direktori file.
d. Kumpulan server atau node digabungkan secara erat, dengan spesifikasi perangkat keras yang sama. Serta
terhubung melalui jaringan dan bekerja sebagai satu kesatuan 
The correct answer is: Kumpulan server atau node digabungkan secara erat, dengan spesifikasi perangkat keras yang
sama. Serta terhubung melalui jaringan dan bekerja sebagai satu kesatuan
Question 8 Terdapat 2 (dua) teknologi Penyimpanan Big Data, yaitu

Correct

5.00
c. SQL dan No-SQL
d. On Disk Storage Devices dan In Memory Storage Devices 
The correct answer is: On Disk Storage Devices dan In Memory Storage Devices
Question 9 Berikut yang dimaksud dengan menganalisa data dalam konteks big data adalah:
Correct

5.00
a. Descriptive analytics, diagnostic analytics, predictive analytics, dan prescriptive analytics 
b. mean statistic analytics, deviation standard analytics, dan percentil analytics
c. Menentukan jumlah data dan atribut data
d. Classification analytics, regression analytics, clustering analytics, dan hadooping analytics
The correct answer is: Descriptive analytics, diagnostic analytics, predictive analytics, dan prescriptive analytics
Question 10 Berikut ini yang bukan merupakan Hadoop operation mode, adalah
Correct

5.00
a. Globally distributed mode 
b. Stand alone mode
d. Pseudo distributed mode
The correct answer is: Globally distributed mode
Question 11 Properti Big data yang penting, salah satunya adalah scalability, yaitu:
Correct

5.00
a. Kemampuan menanganai penambahan bebab yang diberikan tanpa penurunan kinerja 
c. Handal
d. Kemampuan untuk terus beroperasi walaupun terjadi kegagalan pada beberapa komponen
The correct answer is: Kemampuan menanganai penambahan bebab yang diberikan tanpa penurunan kinerja
Question 12 Hadoop adalah framework yang

Correct

5.00
b. Semua benar 
c. Menerapkan programming model yang sederhana
d. Memungkinkan pemrosesan secara terdistribusi terhadap data yang berukuran besar
Question 13 Hadoop adalah platform pemrosesan big data yaitu data yang mempunyai karakteristik kecuali:
Correct

5.00
a. Jumlah fitur yang tertentu 
b. Terakumulasi dengan cepat (high speed velocity)
c. Inconsistent dan uncertaint
d. Volume besar, struktur data yang beragam (variety), dan nilai data yang diperlukan (useful value)
The correct answer is: Jumlah fitur yang tertentu
Question 14 Properti Big data yang penting, salah satunya adalah reliability, yaitu:
Correct

5.00
c. Handal 
The correct answer is: Handal
Question 15 Properti Big data yang penting, salah satunya adalah fault tolerance, yaitu:
Correct

5.00
a. Kemampuan untuk terus beroperasi walaupun terjadi kegagalan pada beberapa komponen 
c. Handal
The correct answer is: Kemampuan untuk terus beroperasi walaupun terjadi kegagalan pada beberapa komponen
Question 16 YARN singkatan dari

Correct

5.00
b. Yet another resource negotiator 
c. Yet another resource need
d. Yahoo’s archived Resource names
The correct answer is: Yet another resource negotiator
Question 17 Hadoop adalah framework yang bekerja bersama tools lain yang beragam. Kelompok yang umum bekerja bersama
Correct Hadoop adalah
Mark 5.00 out of
5.00 Select one:
b. MapReduce, Heron and Trumpet
c. MapReduce, Hive and Hbase 
d. MapReduce, MySQL and Google Apps
The correct answer is: MapReduce, Hive and Hbase
Question 18 Komponen layanan inti Hadoop adalah

Correct

5.00
a. Speed, consistency, dan volume
b. MapReduce, HDFS, dan YARN 
d. ClickStream, Sensor, dan Sentiment
The correct answer is: MapReduce, HDFS, dan YARN
Question 19 Pemrosesan data terdistribusi adalah pemrosesan

Correct

5.00
a. yang membagi pemrosesan dalam beberapa batch dan dilakukan secara offline
b. yang menerapkan divide and conquer dalam fisik terpisah, namun terhunung Bersama dalam satu cluster 
c. yang melibatkan pelaksanaan sub-tugas secara bersamaan secara kolektif membentuk tugas yang besar melalui
beberapa processor
d. yang menggunakan pendekatan pendekatan interaktif tanpa penundaan
The correct answer is: yang menerapkan divide and conquer dalam fisik terpisah, namun terhunung Bersama dalam satu
cluster
Question 20 Properti Big data yang penting, salah satunya adalah aviability, yaitu:
Correct

5.00
b. Handal
c. Ketersediaan layanan secara terus menerus 
The correct answer is: Ketersediaan layanan secara terus menerus
Kuis M3 : Introduction to Hadoop (khusus

◄ Materi M3 : Introduction to Hadoop Jump to...
kelas MALAM)) ►
Dashboard / My courses / ATA 2020/2021 | 2-FIKTI | Komputasi Big Data | TEAM TEACHING / Pertemuan 4 : Data Preprocessing
/ Kuis M4 : Data Preprocessing

State Finished
Grade 100.00 out of 100.00

Correct

5.00
A,B,dan C benar 
Dibiarkan

Correct

5.00
Atribut 
Record
Instance
Sample

Correct

5.00
Regression
Combined Computer
Ignore 
Clustering
Correct

5.00
Record
Ordered
Graf
Multimedia 
1
Online

Correct

5.00
Mark 5.00 out of
5.00 Select one:
missing value
duplicate data
outlier
A,B,C benar 
Correct

5.00
Multimedia
Graf 
Record
Ordered
Correct

5.00
interpolasi
Nilai tertinggi 
Rata-rata
Median

Correct

5.00
Numerik
Ordinal
Nominal 
Rasio

Correct

5.00
Dataset
Data objek
Data sample
Atribut 
Correct

5.00
Rasio
Ordinal 
Numerik
Nominal

Correct

5.00
data Integration
data cleaning
data reduction
Correct

5.00
Eliminasi
Mean
Bayessian 
Regresi
Mark 5.00 out of
5.00 Select one:
Dokumen 
Matriks
Sosial network
Transaksi
Correct

5.00
Believability
Completeness
Consistency
Correct

5.00
Variance 
Median
Mean
Modus
Correct

5.00
Data testing
Data cleansing 
Data validation
Data training

Correct

5.00
data Integration
data transformation
data reduction
data cleaning 
Correct

5.00
Atribut penjualan
Correct

5.00
Data sample
Atribut
Dataset
Data objek 
◄ Materi M4 : Data Preprocessing Kuis M4 : Data Preprocessing (khusus

Jump to...
(update 29/03/2021) kelas MALAM)) ►
Dashboard / My courses / ATA 2020/2021 | 2-FIKTI | Komputasi Big Data | TEAM TEACHING / Pertemuan 5 : Introduction to Data Mining
/ Kuis M5 : Introduction Data Mining
Started on Monday, 5 April 2021, 11:57 AM

State Finished
Question 1 Metode untuk mempresentasikan hasil yang ditemukan dengan cara yang "bagus" secara visual
Correct

5.00
a. Asosiasi
b. Visualisasi 
c. Klasterisasi
d. Klasifikasi
Question 2 Untuk menghindari set pengujian yang tumpang tindih, data dibagi menjadi k himpunan bagian dengan ukuran yang
Correct sama kemudiansetiap subset secara bergantian digunakan untuk pengujian dan sisanya untuk pelatihan
Marked out of
5.00 Select one:
a. k-fold cross-validation 
b. Model Sorted list
c. Commulative PCT Hits
d. Direct Marketing Paradigm
Question 3 Metode untuk mengelompokkan secara "alami" dari instance yang diberi data tanpa label
Correct

5.00
a. Asosiasi
b. Klasterisasi 
c. Klasifikasi
d. Visualisasi
Question 4 Pernyataan yang kurang sesuai dengan metode peringkasan

Correct

5.00
a. Menjelaskan fitur dari grup yang dipilih
b. Mengelompokkan data tak berlabel 
d. Biasanya dalam Kombinasi dengan deteksi Deviasi atau metode lain
1
Online
Question 5 Acuan yang tidak tepat ketika melakukan pengaturan parameter

Correct

5.00
a. Data pengujian harus digunakan untuk penyetelan parameter 
b. Data pengujian tidak dapat digunakan untuk penyetelan parameter
c. Data pengujian tidak digunakan dengan cara apa pun untuk membuat pengklasifikasi
d. Skema pembelajaran beroperasi dalam dua tahap yaitu membangun struktur dasar dan mengoptimalkan
pengaturan parameter
Question 6 Jenis tugas data mining yang menfasilitasi penerimaan / penelusuran informasi bagi pengguna
Correct

5.00
a. Asosiasi
b. Klasterisasi
c. Klasifikasi
d. Visualisasi 
Question 7 Karakteristik Big Data yang terus bertambah dengan cepat secara real-time dinamakan
Correct

5.00
a. Volume 
b. variety
c. Velocity
d. Value
Question 8 Fungsi dari data mining adalah salah satunya dapat mengetahui pola yang sering (atau kumpulan item yang sering)
Correct misalnya item apa yang sering dibeli bersama di Walmart Anda. Ini dikenal dengan istilah
Marked out of
5.00 Select one:
a. Klasterisasi
b. Outlier Analysis
c. Klasifikasi
d. Asosiasi dan Analisis Korelasi 
Question 9 Proses pencarian konten baru dan konten yang perlu diperbaharui dengan mengirimkan crawler ke seluruh konten yang
Correct ditemukan dari tautan halaman merupakan Salah satu konsep data mining pada Search Engine yang dinamakan
Marked out of
5.00 Select one:
a. Index
b. Crawl 
c. Rank
d. Searching
Question 10 Metode untuk memprediksi kelas instance dari instance yang diberi label sebelumnya
Correct

5.00
a. Visualisasi
b. Klasterisasi
c. Asosiasi
d. Klasifikasi 
Question 11 Melihat suatu objek data yang tidak sesuai dengan perilaku umum data, sering digunakan dalam deteksi penipuan atau
Correct analisis kejadian langka
Marked out of
5.00 Select one:
a. Analisis Outlier 
b. Klasifikasi
c. Klasterisasi
Correct

5.00
a. Consistency
b. Believability
c. Completeness
d. Interpretability 
Question 13 Regression, Decision Trees, Bayesian, Neural Networks, Naïve Bayes Rules, Support Vector Machines, Genetic Algorithms
Correct adalah pendekatan yang digunakan untuk
Marked out of
5.00 Select one:
a. Asosiasi
b. Klasifikasi 
c. Visualisasi
d. Klasterisasi
Question 14 Urutan langkah melakukan klasifikasi

Correct

5.00
a. Buat model pada set pelatihan, Evaluasi pada set pengujian (Latih ulang?), Pisahkan data menjadi set pelatihan dan
pengujian
b. Pisahkan data menjadi set pelatihan dan pengujian, Buat model pada set pelatihan, Evaluasi pada set pengujian

c. Buat model pada set pelatihan, pilih secara acak jumlah instance kelas minoritas yang diinginkan, Evaluasi pada set
pengujian
d. Evaluasi pada set pengujian, Buat model pada set pelatihan, Pisahkan data menjadi set pelatihan dan pengujian
Correct

5.00
a. lebih heuristik
c. lebih teori
d. mengintegrasikan teori dan heuristik 
Question 16 Jenis tugas data mining yang melakukan prediksi kelas

Correct

5.00
a. Klasterisasi
b. Visualisasi
c. Klasifikasi 
d. Asosiasi
Correct

5.00
a. lebih fokus pada pengujian hipotesis
b. fokus pada seluruh proses penemuan pengetahuan 
c. fokus pada peningkatan kinerja agen pembelajaran
d. melihat pembelajaran real-time dan robotika
Question 18 Attributes yang berisi informasi seperti item_ID, name, brand, category, supplier, place_made and price, merupakaan salah
Correct satu contoh jenis database
Marked out of
5.00 Select one:
a. Social media
b. Penjualan 
c. Penyewaan
d. Marketing
Question 19 Metode klasifikasi pada fungsi data mining yang menggunakan nilai estimasi dari probabilitas bersyarat dinamakan
Correct metode
Marked out of
5.00 Select one:
a. Naive Bayessian 
b. Mean
c. Regresi
d. Eliminasi
Question 20 Yang bukan Metode clusterisasi

Correct

5.00
a. Exclusive vs. overlapping
b. Decision Tree 
c. Deterministic vs. probabilistic
d. Hierarchical vs. flat
Kuis M5 : Introduction Data Mining

◄ Video M5 : Introduction Data Mining Jump to...
(KHUSUS KELAS MALAM)) ►
/ Pertemuan 6 : Introduction to Machine Learning (Supervised) / Kuis M6 : Introduction to Machine Learning (Supervised)

State Finished
Select one:
d. Unsupervised Learning 

Correct

5.00
Correct

5.00
a. Unsupervised
b. Supervised -Regresion
c. Reinfocement
Question 4
Correct
Marked out of
5.00
Select one:
a. Pohon
b. Aturan 
c. Tabel
d. Instance
1
Online
Marked out of
5.00 Select one:
b. Supervised Learning - Regression
c. Supervised Learning - Classification
d. Unsupervised Learning - Clustering 
Correct

5.00
a. Tabel
b. Instance
c. Pohon
d. Aturan 
Correct

5.00
a. Semi Supervised Learning 
b. Unsupervised Learning
d. Reinfocement Learning
Marked out of
5.00 Select one:
a. Klasifikasi
b. Klasterisasi
c. Generalisasi
d. Regressi 

Correct

5.00
b. Image Features - Training With UnLabeled Data - Prediction
d. Image Features - Learned Model - Prediction
Marked out of
5.00 Select one:
a. regularization 
b. generalization
c. model selection
d. prediction
Marked out of
5.00 Select one:
a. Reduksi dimensi (dimension reduction)
b. Pengklasifikasian (classification) 
c. Pengelompokan (clustering)
d. Rekomendasi
Question 12
Correct
Marked out of
5.00
Select one:
a. Aturan
b. Instance
c. Pohon
d. Tabel 
Correct

5.00
c. Unsupervised Learning

Correct

5.00
a. Generalisasi
b. Klasterisasi
c. Regressi
d. Klasifikasi 
Marked out of
5.00 Select one:
a. Pengklasifikasian (classification)
b. Ranking
c. Klasterisasi (clustering) 
Question 16 Yang tidak digunakan pada Model Supervised Learning

Correct

5.00
a. Neural Networks
b. Linear Model
c. Latent Semantic Analysis 
d. Support Vector Machine
Question 17
Correct
Marked out of
5.00
Select one:
a. Aturan
b. Pohon 
c. Tabel
d. Instance
Correct

5.00
b. Instance
c. Feature/ atribut
d. Training Set 
Correct

5.00
a. Training Set
b. Instance
d. Feature/ atribut
Correct
Marked out of
5.00 Select one:
a. Training Set
c. Instance
d. Feature Extraction

◄ Materi M6 : Introduction to Machine
Jump to... Learning (Supervised) (KHUSUS KELAS
Learning-Supervised
MALAM)) ►
4/19/2021 Kuis M7 : Unsupervised Learning: Attempt review
/ Pertemuan 7 : Introduction to Machine Learning (Unsupervised) / Kuis M7 : Unsupervised Learning
Started on Monday, 19 April 2021, 11:40 AM 1

State Finished Online
Completed on Monday, 19 April 2021, 11:45 AM
Marked out of
5.00 Select one:
a. Pendekatan Overlapping
b. Pendekatan Aglomeratif 
c. Pendekatan Divisive
d. Pendekatan Probabilistic
5.00
Select one:
a. Dimensionality reduction 
b. Association
c. clustering
d. Regression
Incorrect yang pertama. Algoritma ini telah dipopulerkan melalui analisis keranjang pasar, yang mengarah ke mesin rekomendasi
orang lain.
Select one:
a. Eclat
b. Apriori 
c. Apriori
d. FP-Growth
Select one:
b. Regression
c. clustering
d. Association 
Correct

5.00
a. Supervised Learning
b. Deep Learning
Select one:
a. Association 
b. clustering
c. Regression
d. Dimensionality reduction
Select one:
b. FP-Growth
c. Autoencoders
d. Principal component analysis 
Correct dilambangkan dengan rumus, A = USVT, di mana U dan V adalah matriks ortogonal. S adalah matriks diagonal, dan nilai S
5.00
Select one:
b. FP-Growth
c. Autoencoders 
Select one:
a. Pendekatan Aglomeratif
b. Pendekatan Probabilistic
Correct

5.00
a. FP-Growth
b. Apriori
c. Apriori 
d. Eclat
Marked out of
5.00 Select one:
b. Clustering Eksklusif (specifically exclusive)
c. Tumpang tindih (overlapping) 

Correct

5.00
a. Association
b. Dimensionality reduction
c. Regression 
d. clustering
Marked out of
5.00 Select one:
b. Clustering Eksklusif (specifically exclusive) 
d. Tumpang tindih (overlapping)

Correct

5.00
a. Mempelajari bagaimana cara kerja pembelajaran dengan pengawasan
b. Mempelajari bagaimana cara kerja pembelajaran tanpa pengawasan dan dengan pengawasan
c. Mempelajari bagaimana cara kerja pembelajaran tanpa pengawasan 
d. Mempelajari bagaimana cara kerja pembelajaran yang mendalam
5.00
Select one:
a. Pendekatan Probabilistic 
Marked out of
5.00 Select one:
a. Supervised Learning
b. Deep Learning
Marked out of
5.00 Select one:
a. strategi penjualan silang
b. Klasifikasi buah jeruk dan buah apel 
c. Analisis data eksplorasi
d. Segmentasi pelanggan

Correct

5.00
a. Clustering ekslusif (specifically exclusive)
d. Auto Encoder 
5.00
Select one:
a. Clustering 
b. Dimensionality reduction
c. Regression
d. Association
5.00
Select one:
b. Principal component analysis
c. Autoencoders 
d. FP-Growth
Kuis M7 : Unsupervised Learning

◄ Materi M7 : Unsupervised Learning Jump to...
(KHUSUS KELAS MALAM) ►
4/26/2021 Kuis M8 : Reinforcement: Attempt review
/ Pertemuan 8 : Introduction to Machine Learning (Reinforcement) / Kuis M8 : Reinforcement

State Finished
Question 1 Reinforcement learning tepat digunakan untuk menyelesaikan permasalahan utama dalam:
Correct

5.00
a. Segmentasi pelanggan
b. Permainan catur 
c. Peramalan cuaca
d. Pengenalan objek
Question 2 Berikut ini merupakan contoh permasalahan yang dapat diselesaikan dengan reinforcement learning:
Correct

5.00
a. Sistem percakapan
b. Self-driving car
c. Semua benar 
d. Bermain Game
Question 3 Markov Decision Process dapat didefinisikan kedalam n-tuple, dimana bernilai:
Correct

5.00
a. 4
b. 3
c. 6
d. 5 
Question 4 Efek dari suatu aksi yang dipilih dari suatu state yang bergantung hanya pada state tersebut saja bukan pada state-state
Correct sebelumnya dikenal sebagai sifat:
Marked out of
5.00 Select one:
a. Markov 
b. Bellman
c. Transisi
d. Stokastik
1
Online
Question 5 Pernyataan yang benar terkait reinforcement learning:

Correct

5.00
a. Semua benar
b. Untuk aksi yang bersifat stokastik harus memenuhi sifat Markov
c. Input yang diterima oleh agen berupa state, action dan reward
d. Aksi yang dapat dipilih pada setiap state tidak unik 
Question 6 Solusi dari Markov Decision Process disebut sebagai:

Correct

5.00
a. Policy 
b. Reward
c. Model
d. Action
Question 7 Fungsi reward dalam Markov Decision Process dapat bernilai bilangan:
Correct

5.00
a. Semua benar 
b. Riil
c. Bulat
d. Asli
Question 8 Sifat Markov dalam Markov Decision Process diperlukan langsung dalam menentukan:
Correct

5.00
a. Fungsi reward
b. Aksi yang dipilih
c. Fungsi nilai state-action
d. Matriks probabilitas transisi 
Question 9 Reinforcement learning dapat diterapkan dalam permasalahan:

Correct

5.00
a. Penentuan jalur terpendek
b. Supervised learning
c. Semua benar 
d. Navigasi robot
Question 10 Pemilihan suatu aksi pada suatu state tertentu didalam Markov Decision Process ditentukan oleh:
Correct

5.00
a. Model
b. Reward
c. Value
d. Policy 
Question 11 Berikut ini merupakan pernyataan yang salah terkait Markov Decision Process:
Correct

5.00
a. Fungsi nilai state-action dapat dinyatakan dalam persamaan ekspektasi Bellman
b. Elemen matriks probabilitas transisi bernilai antara 0 dan 1
c. Fungsi reward dapat dinyatakan sebagai suatu fungsi ekspektasi
d. Total policy pada suatu state untuk semua reward adalah 1 
Question 12 Reinforcement learning merupakan bagian dari:

Correct

5.00
a. Dynamic Programming
b. Markov Decision Process
c. Semua benar
d. Machine learning 
Question 13 Berikut ini merupakan beberapa algoritma reinforcement learning, kecuali:

Correct

5.00
a. Hill-Climbing Bagged Ensemble Selection (HCES-Bag) 
b. State-Action-Reward-State-Action (SARSA)
c. Deep Deterministic Policy Gradient (DDPG)
d. Q-learning
Question 14 Efek dari suatu pilihan aksi pada suatu state ditentukan oleh:
Correct

5.00
a. Semua salah
b. Model transisi 
c. Policy
d. Fungsi reward
Question 15 Reward dalam permasalahan shortest path yang dimodelkan dengan Markov Decision Process ditandai dengan:
Correct

5.00
a. Total nilai bobot simpul dan ruas
b. Nilai bobot pada simpul
c. Nilai bobot pada ruas 
d. Semua salah
Question 16 Reinforcement learning dapat diilustrasikan sebagai interaksi antara:

Correct

5.00
a. Semua benar
b. Reward dengan state berikutnya
c. Agen dengan lingkungannya 
d. State dengan aksi yang dipilih
Question 17 Berikut ini merupakan pernyataan yang kurang tepat terkait reinforcement learning (RL):
Correct

5.00
a. RL dapat digunakan pada robotik untuk otomasi industri
b. RL yang diselesaikan dengan Markov Decision Process memerlukan data latih dalam menentukan probabilitas
transisinya 
c. RL dapat digunakan dalam menciptakan sistem pelatihan untuk siswa yang bersifat kustom
d. RL memerlukan lingkungan untuk berinteraksi secara repetitif
Question 18 Pada Markov Decision Process, pemilihan ruas jalan dalam permasalahan shortest path merupakan bagian dari:
Correct

5.00
a. Value
b. Reward
c. State
d. Action 
Question 19 Dalam memilih aksi pada suatu state perlu diperhatikan hal-hal berikut ini:
Correct

5.00
a. Nilai state-action pada suatu waktu berlaku untuk sembarang policy
b. Memilih aksi yang memberikan state dengan nilai tertinggi 
c. Semua benar
d. Memaksimumkan reward pada masa mendatang
Question 20 Sekumpulan token yang mewakili setiap kemungkinan keadaan dari agen disebut sebagai:
Correct

5.00
a. State 
b. Action
c. Semua salah
d. Reward
Kuis M8 : Reinforcement (KHUSUS KELAS

◄ Materi M8 : Reinforcement Learning Jump to...
MALAM) ►
M10 Team Teaching
1. Salah satu library data science yang digunakan untuk pemrosesan sinyal, gambar, dan rumus
statistik adalah.. Semua Benar
2. Beragamnya jenis data di dalam Big Data yang meliputi data terstruktur, semi terstruktur
dan tidak terstruktur, merupakan dimensi Big Data dalam hal: Variety
3. Pilihan yang dapat menciptakan hasil yang paling optimal merupakan pendekatan analitik
dari.. Preskriptif
4. Sumber data yang digunakan dalam aplikasi Big Data dapat berupa: Semua Benar
5. Keuntungan menggunakan Mobile Positioning data (MPD) adalah… Semua Benar
6. Metode untuk memprediksi kelas instance dari instance yang diberi label sebelumnya…
Klasifikasi
7. Visualisasi pada hasil analisis Big Data dapat disajikan dalam bentuk.. Semua Benar
8. Data yang dikumpulkan secara aktif dari sensor, misalnya melalui penginderaan jauh dan
gambar satelit merupakan sumber big data dalam hal…. Sensing data
9. Contoh solusi Big Data, kecuali: Semua Benar
10. Contoh Aplikasi Machine Learning dan Analitik Prediktif: Semua Benar
11. Semakin banyak data hingga dapat melebihi terabyte merupakan penjelasan dari dimensi
Big Data dalam hal: Volume
12. Karakteristik Big Data yang cepat sekali berubah baik dari sisi variabel maupun tipe data
dinamakan… Velocity
13. Data Warehouse dibuat dengan menerapkan serangkaian langkah pemrosesan terhadap
pemrosesan data tersebut: Semua Benar
14. Manakah yang benar dari pernyataan berikut ini: Deskriptif, perkiraan berdasarkan data
yang tersedia
15. Data Mobile Positioning data (MPD) berupa… Semua Benar
16. Dataset dibentuk dari: Sekumpulan fitur yang memiliki objek yang sama
17. Tools Bahasa Pemograman yang dapat digunakan dalam ilmu data science adalah… Semua
Benar
18. Social Media termasuk dalam sumber data..Digital Content
19. Cara yang dapat dilakukan untuk meningkatkan analisis bigdata genome bioinformatics
adalah.. Semua Benar
20. Proses menganalisis tulisan untuk menentukan nada emosional penulisnya merupakan salah
satu implementasi machine learning dalam… Principal Component Analysis
Team Teaching Big Data M9
1. Berikut ini adalah efek dari mengecilnya nilai stride dalam Algoritma Convolutional Neural Network
Informasi yang diperoleh semakin detail
2. Hasil dari proses flatten pada Algoritma Convolutional Neural Network menjadi masukan dalam
Fully-connected layer
3. Pooling layer bertujuan untuk
Mengurangi dimensi feature map
4. Berikut ini merupakan loss function dalam algoritma berbasis Neural Network
Cross entropy
5. Algoritma Deep Learning berbasis
Semua benar (Neural network, Machine learning, Artificial Intelligence)
6. Berikut ini adalah teknik yang dapat digunakan pada pooling layer dalam Algoritma Convolutional
Neural Network
Semua benar (Average pooling, Min pooling, Max pooling)
7. Dalam Algoritma Convolutional Neural Network, ReLU seringkali digunakan pada
Hidden layer
8. Sebuah citra berdimensi 5x5 dengan filter 3x3 dan stride sebesar 2 akan menghasilkan feature map
berdimensi
4x4
9. Pooling layer pada Algoritma Convolutional Neural Network terdapat pada
Hidden layer
10. Berikut ini merupakan fungsi aktivasi dalam Algoritma Convolutional Neural Network
Semua benar (Sigmoid, Tanh, ReLU)
11. Tahapan feature extraction pada Algoritma Convolutional Neural Network terdiri dari beberapa
lapisan (layer) berikut ini, kecuali
Fully-connected layer
12. Untuk memperbanyak feature yang berhasil diekstrak dalam Algoritma Convolutional Neural
Network digunakan
Padding
13. Berikut ini merupakan contoh Algoritma Deep Learning

Semua benar
Algoritma Recurrent Neural Network
Algoritma Long Short Term Memory
Algoritma Convolutional Neural Network
14. Algoritma Deep Learning dapat menyelesaikan permasalahan berikut ini
Semua benar (Deteksi objek, Natural Language Processing, Pengenalan suara)
15. Untuk menyelesaikan permasalahan klasifikasi biner menggunakan algoritma berbasis Neural
Network lebih tepat digunakan fungsi aktivasi
ReLU
16. Salah satu ukuran dari confusion matrix yang dapat digunakan dalam mengukur tingkat keberhasilan
sistem dalam menemukan kembali sebuah informasi adalah
Recall
17. Untuk mencegah terjadinya overfitting dalam Algoritma Convolutional Neural Network dilakukan
Dropout regularization
18. Dimensi dari feature map dalam Algoritma Convolutional Neural Network bergantung pada
Semua benar
Stride
Dimensi filter dan input
Padding
19. Parameter dalam Algoritma Convolutional Neural Network yang menentukan berapa jumlah
pergeseran filter disebut sebagai
Stride
20. Berikut ini merupakan library Python untuk Algoritma Deep Learning
Semua benar (Tensorflow, Keras, PyTorch)

1. Berikut ini yang bukan merupakan karakteristik dari Apache Spark adalah
Tidak dilengkapi dengan sistem file bawaan
2. Berapa banyak Spark Context yang dapat aktif per Java Virtual Machine
Hanya 1
3. Berikut ini yang bukan merupakan fungsi dari Spark Context adalah
Untuk mengatur konfigurasi
4. Toleransi kesalahan pada Resilient Distributed Data (RDD) dicapai menggunkan
Kemampuan alami dari RDD untuk tidak dapat diubah
5. Berikut ini adalah beberapa manfaat penggunaan Spark, kecuali
Otomatis dalam mengoptimalkan kode program
6. Berikut ini yang bukan operasi transformasi pada Resilient Distributed Data adalah
Flatmap
7. Apache Spark pertama kali diluncurkan open-source pada tahun
2010
8. Berikut ini yang bukan operasi action pada Resilient Distributed Data adalah
Top()
9. Berikut ini adalah pernyataan yang salah mengenai Resilient Distributed Data (RDD), kecuali
RDD merupakan basis data
10. Spark ditulis dalam bahasa pemrograman
Scala
11. Modul untuk memproses data terstruktur dalam Spark adalah
Spark SQL
12. Manajemen memori dalam Spark dikerjakan oleh
Spark Core
13. Cluster manager yang dapat digunakan pada Spark adalah
Semua benar (Hadoop YARN, Mesos cluster, Standalone scheduler)
14. Spark lebih cepat dibandingkan dengan MapReduce karena
Direct Acylic Graph mengeksekusi mesin dan komputasi didalam memori

15. Api Machine Learning yang utama untuk Spark saat ini adalah API berbasis
DataFrame
16. Apache Spark berpotensi … lebih cepat untuk menjalankan program pemrosesan batch didalam
memori jika dibandingkan dengan MapReduce
100 kali
17. Komponen berikut ini yang tidak terdapat diatas Spark Core adalah
Semua salah (Spark SQL, Spark MLib, Spark RDD)
18. Spark SQL menerjemahkan perintah kedalam bentuk kode yang diproses oleh
Semua salah (Cluster manager, Driver nodes, Executor nodes)
19. Pernyataan berikut ini yang salah mengenai Spark dan Hadoop adalah
Keduanya merupakan mesin komputasi cluster
20. Spark dapat menjalankan … tugas pada setiap partisi
Satu
1. Algoritma untuk menentukan jumlah segitia yang melewati setiap simpul dalam graf
Triangle Count
2. Urutan edge yang memungkinkan Anda berpindah dari vertex A ke vertex B disebut
Path
3. Algoritma untuk mengukur seberapa pentingnya halaman situs web
Page Rank
4. Untuk menampilkan pola di balik hubungan antara entitas data
Visualisasi Grafik
5. Manakah urutan yang benar untuk menjelaskan cara kerja Spark Streaming:
1. Input data stream diterima oleh Spark Streaming,
2. Batch input data / RDD tersebut diproses oleh Spark Engine menggunakan operasi RDD.,
3. Hasilnya adalah batch data yang telah diproses didorong keluar ke sistem eksternal,
4. Oleh Spark Streaming data dibagi menjadi kumpulan / batch input data (diperlakukan sebagai RDD).
1-4-2-3
6. Fitur Spark Streaming
Pemulihan cepat dari kegagalan dan kekeliruan
7. Langkah pipa pemrosesan data grafik :
1. Pembuatan grafik,
2. Pengolahan pasca,
3. Pra-pemrosesan data (yang mencakup pemuatan, transformasi, dan pemfilteran),
4. Analisis
3-1-4-2
8. Algoritma untuk menemukan komponen terhubung dari suatu graf
Connected Components
9. Contoh database grafik
Neo4j
10. Contoh penggunaan Spark Streaming
Netflix
11. Operasi Jendela membutuhkan parameter
window length
12. Framework yang dapat digunakan untuk memproses data grafik dan menjalankan analisis prediktif
pada data
Spark GraphX
13. Contoh use case penggunaan Spark GraphX
Semua Benar (Film baru yang paling direkomendasikan orang-orang 1 minggu terakhir, Orang-orang
yang sama-sama mensitasi suatu artikel, Teman toni di facebook yang paling banyak pengikutnya)
14. Pernyataan yang benar tentang Graph
Semua benar (Graph terdiri dari simpul dan sisi, Semua yang ada di Facebook adalah contoh
penggunaan struktur data graph, Edge menunjukan relasi antar simpul)
15. Fitur Spark GraphX
Semua benar (Kecepatan, Pustaka Algoritma, Fleksibilitas)
16. Apa yang menyebabkan Spark Streaming memiliki toleransi kesalahan?
Kumpulan data input direplikasi dalam memori
17. Yang diperlukan untuk menangani data besar dalam bentuk grafik
Semua benar (Analisis Data Grafikm Visualisasi data grafik, Database grafik)
18. Aliran data yang berkelanjutan dalam Spark Streaming disebut
DStream
19. Pernyataan yang benar tentang Apache Spark, kecuali
Abstraksi memori terdistribusi untuk komputasi dalam memori pada klaster besar yang toleran terhadap
kesalahan
20. Pernyataan yang benar Spark Streaming
Semua benar (Memproses menggunakan algoritma kompleks dengan fungsi seperti map, reduce, join,
window, Dapat menyerap data dari berbagai sumber, Data yang diproses dapat dikirim ke sistem file,
database, dan live dashboard)
1. CUDA yang diciptakan oleh NVIDIA adalah singkatan dari
Compute Unified Device Architecture
2. Tiga tahap alur pemrosesan dalam eksekusi program CUDA
Langkah ke-1 Salin input data dari CPU memory ke GPU memory
Langkah-2 Muat program GPU dan eksekusi, caching (simpan) data pada chip untuk kinerja
Langkah-3 Salin hasil dari GPU memory ke CPU memory
3. Arsitektur CUDA menerapkan pendekatan berupa kumpulan streaming multiprocessors (SM) yang
Mengeksekusi sejumlah instruksi yang sama pada beberapa thread pada berbagai wilayah data,
sehingga dikenal dengan istilah single instruction, multiple threads (SIMT)
4. Komputasi paralel adalah komputasi yang
Melibatkan banyak unit computer untuk memecahkan masalah yang berbeda-beda untuk masing-
masing unit computer, namun dalam waktu yang sama
5. Tujuan utama dari pemrograman paralel adalah untuk meningkatkan performa komputasi. Performa
dalam pemrograman paralel diukur dari
Berapa banyak peningkatan kecepatan (speed up) yang diperoleh dalam menggunakan tehnik paralel
6. CUDA C++ adalah perluasan C++ sehingga programmer dapat mendefinisikan fungsi C++ yang ketika
dipanggil, akan dieksekusi sebanyak N kali secara paralel dan N CUDA thread yang berbeda. Fungsi ini
dikenal dengan istilah
Kernel
7. Kernel pada pemrograman CUDA agar dieksekusi pada device, dideklarasi menggunakan
__global__
8. Sistem terdistribusi (distributed computing) adalah teknik komputasi paralel dimana
Komputer yang digunakan secara bersamaan dalam melakukan komputasi dilakukan oleh computer-
komputer terpisah yang terhubung dalam suatu jaringan komputer
9. Perintah kernel < <N, M> >(…) menunjukkan device untuk
Mempersiapkan block sebanyak N dengan thread sebanyak M di tiap block
10. Istilah thread pada GPU adalah
Satuan pemrosesan sekuensial yang dikumpulkan dalam satu grup yang disebut sebagai thread block
11. Dua kata istilah penting yang digunakan dalam CUDA, yaitu: host dan device. Istilah host pada CUDA
mengacu pada
CPU
12. Dua kata istilah penting yang digunakan dalam CUDA, yaitu: host dan device. Istilah device pada
CUDA mengacu
GPU
13. GPU dalam teknologi komputasi adalah singkatan dari
Graphics Processing Unit
14. Pengelolaan memori pada device pada dasarnya menggunakan
CudaMalloc(), cudaMemcpy(), cudaFree()
15. Pernyataan yang benar mengenai thread block pada GPU
Beberapa block dihimpun dalam satu thread, yang kemudian beberapa thread dihimpun dalam satu
kesatuan grid
16. CUDA adalah platform komputasi paralel dengan arsitektur komputasi masuk dalam
Heterogenous computing, karena melibatkan CPU dan GPU
17. Pernyataan yang benar mengenai pemrograman paralel pada GPU
Semua pernyataan benar
18. Pernyataan berikut yang beanr mengenai CUDA
CUDA adalah suatu platform untuk komputasi paralel, dan memanfaatkan GPU untuk komputasi
19. CPU dari suatu unit computer adalah singkatan dari
Central Processing Unit
20. Perintah kernel < <N, M> >(…) menunjukkan device untuk
Mempersiapkan block sebanyak N dengan thread sebanyak M di tiap block

1. Bahasa pemrograman Python tergolong cepat dikarenakan
Semua benar
Bahasa pemrograman tingkat tinggi
Dapat diinterpretasikan
Dapat dikodekan secara dinamis
2. Bahasa pemrograman Python tergolong lambat untuk eksekusi
Tugas yang berulang dan tergolong tingkat rendah
3. Modul kompilasi tepat waktu pada Python untuk CPU adalah
Semua benar (Numba, PySpark, CUDA)
4. Berikut ini adalah urutan proses yang dijalankan oleh Numba
Rewrite IR, Lowering, LLVM IR, LLVM/NVVM JIT
5. Banyaknya operasi-operasi kecil yang berulang merupakan salah satu penyebab bahasa pemrograman
Python
Tergolong lambat
6. Berikut ini yang pernyataan yang tepat tentang Python adalah
Semua jawaban benar
Python tergolong cepat untuk pengembangan
Python tergolong lambat untuk eksekusi kode program
7. Elemen dalam RDD dikelompokkan kedalam beberapa partisi dan hanya dapat disimpan pada sebuah
node yang berbeda merupakan konsep RDD dalam hal
Distributed
8. Numba dapat menangani
Semua jawaban benar (Penyalinan data dari dan ke host jika diperlukan, Alokasi data dari dan ke host
jika diperlukan)
9. Komputasi pada GPU cluster dapat menggunakan
Semua jawaban benar (Numba, PySpark)
10. Berikut ini yang salah terkait dengan Numba adalah
Semua salah
11. Bahasa pemrograman Python tergolong cepat digunakan untuk

Semua benar (Mengembangkan kode program, menguji kode program, menulis kode program)
12. Apache Spark bukan merupakan
Semua jawaban salah
13. Spark diimplementasikan dalam
Semua jawaban benar (Scala dan Java)
14. Berikut ini adalah komputasi primitive yang tersedia pada Spark untuk melakukan parelelisme dan
meminimumkan komunikasi antar workers
Semua benar (Map, Filter, Reduce)
15. Berikut ini yang benar terkait dengan Numba, kecuali
Open-source
16. Modul kompilasi tepat waktu pada Python untuk GPU adalah
Semua benar (PySpark, Numba, CUDA)
17. API Spark memiliki dukungan yang terbatas pada bahasa pemrograman
18. Permasalahan alokasi memori dalam komputasi pada GPU terdapat pada tugas yang berskala
Kecil
19. Type inference pada proses Numba memerlukan
Semua jawaban benar (Functions Arguments, Numba IR)
20. Pemrograman terdistribusi dalam Python adalah
Semua benar (CUDA, Numba, PySpark)

4/4/22, 11:44 AM 1 pesan baru
/
Started on Monday, 4 April 2022, 11:30 AM

State Finished
Completed on Monday, 4 April 2022, 11:44 AM
Marks 6.00/20.00

Correct

1.00
a. Semua salah 
b. Veracity
c. Volume
d. Variety

Correct

1.00
a. Tidak Terstruktur
b. Semi Terstruktur 
c. Terstruktur
Correct

1.00
a. Pemerintah 
b. BPJS
c. Bank Indonesia
d. Semua salah
1
Online
4/4/22, 11:44 AM 1 pesan baru
Incorrect

1.00
c. Monitoring 
d. Batching Infratructure

Correct

1.00
a. Linkedin 
b. Yahoo
c. Facebook
d. Google

Incorrect

1.00
a. Nama pelanggan
b. Nomor KTP 
c. Email
d. Nomor telepon

Incorrect

1.00
a. Arsitektur Beta dan Kappa
b. Arsitektur Lambda dan Kappa
c. Arsitektur Alfa dan Lambda 
d. Arsitektur Alfa dan Beta
1
Online
4/4/22, 11:44 AM 1 pesan baru
Correct

1.00
a. MongoDB 
b. Presto
c. Spark
d. Kafka

Incorrect

1.00
a. Gambar
b. Abstrak
c. Semua benar 
d. Baris dan kolom

Incorrect

1.00
a. Statistician 
b. Data Architect
c. Business Analyst
d. Data Manager
Incorrect

1.00
a. Misi
b. Visi
c. SLogan
d. Tujuan 
1
Online
4/4/22, 11:44 AM 1 pesan baru
Incorrect

1.00
a. Data Sources, Streaming/Real-Time Ingestion, Streaming/Real-Time Processing, Analytical Data Store, Analytics
& Reporting
b. Data Sources, Analytical Data Store, Streaming/Real-Time Ingestion, Streaming/Real-Time Processing, Analytics
& Reporting 
c. Data Sources, Streaming/Real-Time Processing, Streaming/Real-Time Ingestion, Analytical Data Store, Analytics
& Reporting
d. Data Sources, Streaming/Real-Time Ingestion, Analytical Data Store, Streaming/Real-Time Processing, Analytics
& Reporting
Incorrect

1.00
a. Memprioritaskan data yang memiliki tingkat kepentingan tinggi dan bernilai
b. Meningkatkan proses perbaikan kualitas data 
c. Memaksimumkan pemanfaatan platform Google Cloud
Correct

1.00
a. Data Analyst
b. Data Intelligent 
c. Data Scientist
d. Data Engineer
Incorrect

1.00
a. Google Big Query 
b. Grafana
c. PostgreSQL
d. Google Cloud Storage
1
Online
4/4/22, 11:44 AM 1 pesan baru
Incorrect

1.00
a. Spark 
b. Flume
c. HDFS
d. Hive

Incorrect

1.00
a. 2008
b. 2015
c. 2016
d. 2020 
The correct answer is: 2015

Incorrect

1.00
a. Storm
b. Beam
c. Hadoop 
d. Hive
Incorrect

1.00
b. Pembuatan Platform AI/ML 
c. Otomasi Produksi AI/ML
d. eKYC Improvement

Incorrect

1.00
a. Berbasis teks
b. Model data dapat ditentukan sebelumnya 
c. Terkelola secara fleksibel
d. Sulit untuk dicari 1

Online
4/4/22, 11:44 AM 1 pesan baru
Jump to...
1
Online
4/11/22, 8:00 PM Kuis M6: BigData di PPATK: Attempt review
ATA 2021/2022 | 2-FIKTI | Kompuasi Big Data | TEAM TEACHING /
Pertemuan 6: Big Data di PPATK
/
Kuis M6: BigData di PPATK

State Finished
Grade 100.00 out of 100.00
Question 1 Splitting data set dalam pemodelan mesin learning untuk menganalisa data transaksi keuangan adalah
Correct

5.00
a. menampilkan grafik box plot dalam tiap dimensi
b. membagi data set menjadi dua bagian, yaitu data training dan data test 
c. me-log kan regresi model klasifikasi
d. melakukan perankongan dalam rangka mengeliminasi fitur yang kurang berpengaruh
The correct answer is: membagi data set menjadi dua bagian, yaitu data training dan data test
Question 2 Agen Kecerdasan Artifisial menerima dan bertindak berdasrkan lingkungan (environment) menggunakan
Correct

5.00
a. Perceiver
b. Sensor
c. Sensor maupun Actuator 
d. Actuator
The correct answer is: Sensor maupun Actuator
Question 3 Berikut ini yang merupakan tahapan data engineering dalam big data analytics adalah
Correct

5.00
a. data architecure, data acquisition, data cleaning, dan cloud computation 
b. penentuan volume data, velocity data, dan varietas data
c. data exploration, data mining, data visualization
d. deep learning, machine learning, AI
The correct answer is: data architecure, data acquisition, data cleaning, dan cloud computation
Question 4 Agent AI yang terbaik adalah ____________

Correct

5.00
a. yang memerlukan input untuk memecahkan masalah
b. yang dapat memecahkan masalah tanpa intervensi manusia 
c. yang memerlukan contoh masalah, basis pengetahuan, dan memerlukan input, untuk memecahkan masalah
d. yang memerlukan contoh masalah dan basis pengetahuannya dalam memecahkan masalah
The correct answer is: yang dapat memecahkan masalah tanpa intervensi manusia
Question 5 Pusat Pelaporan dan Analisis Transaksi Keuangan (PPATK) merupakan lembaga sentral (focal point) yang
Correct mengkoordinasikan pelaksanaan upaya pencegahan dan pemberantasan tindak pidana pencucian uang di Indonesia.
Mark 5.00 out of PPATK dalam tugasnya menerapkan AI (Artificial Intelligence)
5.00
Select one:
a. di bidang: Kepegawaian, Kepatuhan Pelaporan, Analisis Transaksi, Pelaporan, Sentimen Analisis, dan Keamanan
Data 
b. di bidang: Analisis Transaksi
c. hanya di bidang Keamanan data.
d. di semua bidang yang tidak melibatkan Sentimen Analisis
The correct answer is: di bidang: Kepegawaian, Kepatuhan Pelaporan, Analisis Transaksi, Pelaporan, Sentimen Analisis, dan
Keamanan Data
Question 6 Salah satu agen intelligence yang bertugas saat mengumpulkan data melalui sumber Web seperti HTML dokumen,
Correct gambar, file teksadalah:
Mark 5.00 out of
5.00 Select one:
a. Chat Box
b. Compiler
c. web crawler 
d. parser
The correct answer is: web crawler
Question 7 Berikut sistem intelligent yang dapat difungsikan pada bidang Pelaporan pada Pusat Pelaporan dan Analisis Transaksi
Correct Keuangan (PPATK) adalah
Mark 5.00 out of
5.00 Select one:
a. dapat keduanya, chat Box untuk layanan bantuan dan evaluasi laporan 
b. chat Box untuk layanan bantuan
c. bukan keduanya, baik chat box maupun evaluasi laporan.
d. evaluasi laporan
The correct answer is: dapat keduanya, chat Box untuk layanan bantuan dan evaluasi laporan
Question 8 Jika dalam memodelkan klasifikasi transaksi keuangan, diperoleh nilai akurasi untuk model logistic regression adalah 0,62,
Correct model K-NN adalah 0,91, dan model random forest adalah 0,98, maka berarti:
Mark 5.00 out of
5.00 Select one:
a. random forest memprediksi transaksi wajar paling banyak dibandingkan model K-NN dan logistic regression, yaitu
sebesar 98%
b. transaksi wajar diprediksi sebesar 62% menurut logistic regression
c. logistic regression lebih akurat dibanding k-NN dan random forest
d. random forest lebih akurat dibanding k-NN dan logistic regression 
The correct answer is: random forest lebih akurat dibanding k-NN dan logistic regression
Question 9 Proses rekursif yang meranking fitur berdasarkan tingkat pentingnya terhadap proses prediksi, salah satunya adalah
Correct

5.00
a. Splitting data set ke data train dan data uji
b. Recursive Feature Elimination 
c. random forest clssifier
d. logistic regression model
The correct answer is: Recursive Feature Elimination
Question 10 Salah sata tahapan big data analytics adalah data mining, yang memperkerjakan machine learning, yaitu melakukan
Correct

5.00
a. penentuan volume data, velocity data, dan varietas data
b. Data engineering, data exploration, data visualization
c. data architecure, data acquisition, data cleaning, dan cloud computation
d. estimasi atau prediksi, atau mengklasifikasi, atau meng-cluter, atau menentukan asosiasi 
The correct answer is: estimasi atau prediksi, atau mengklasifikasi, atau meng-cluter, atau menentukan asosiasi
Question 11 Berikut teknik Kecerdasan Artifisial yang membuat komputer dapat memahamai asosiasi dan relasi antara object dan
Correct kejadian adalah
Mark 5.00 out of
5.00 Select one:
a. Cognitive Science
b. Relative Symbolism
c. Heuristic Processing
d. Pattern Matching 
The correct answer is: Pattern Matching
Question 12 Bagian dari sistem Kecerdasan Artifisial yang mengolah pengetahuan adalah
Correct

5.00
a. Hadoop
b. Validator
c. Machine Learning 
d. Data historis
The correct answer is: Machine Learning
Question 13 Akurasi model klasifikasi adalah

Correct

5.00
a. nilai true positive dibagi nilai true negative
b. jumlah nilai true positive dan true negative dibagi total data 
c. nilai true positive dibagi total data
d. nilai true negatif dibagi total data
The correct answer is: jumlah nilai true positive dan true negative dibagi total data
Question 14 Pada saat memodelkan mesin learning dalam menganalisa data transaksi keuangan, melakukan perankingan adalah
Correct tahapan pada
Mark 5.00 out of
5.00 Select one:
a. data engineering
b. data exploration 
c. prediction modelling
d. data visualization
The correct answer is: data exploration
Question 15 Membuat grafik box plot adalah salah satu tahapan dalam implementasi mesin learning, yaitu tahap
Correct

5.00
a. verifikasi model
b. eksplorasi data 
c. modelling
d. validasi model
The correct answer is: eksplorasi data
Question 16 Maksud pernyataan "Pemodelan Machine Learning untuk memprediksi data transaksi keuangan merupakan transaksi
Correct wajar atau mencurigakan", adalah
Mark 5.00 out of
5.00 Select one:
a. memvalidasi data historis agar data baru menjadi data transaksi wajar
b. menentukan statistik data historis, untuk input data baru dalam meprediksinya apakah data tersebut berada pada
nilai transaksi wajar atau transaksi mencurigakan
c. memverifikaso data historis agar tidak ada transaksi yang mencurigakan
d. membangun model terbaik, berdasarkan data historis, untuk input data baru dalam meprediksinya apakah data
tersebut suatu transaksi wajar atau transaksi mencurigakan 
The correct answer is: membangun model terbaik, berdasarkan data historis, untuk input data baru dalam meprediksinya
apakah data tersebut suatu transaksi wajar atau transaksi mencurigakan
Question 17 Pusat Pelaporan dan Analisis Transaksi Keuangan (PPATK) merupakan lembaga sentral (focal point) yang
Correct mengkoordinasikan pelaksanaan upaya pencegahan dan pemberantasan tindak pidana pencucian uang di Indonesia.
Mark 5.00 out of PPATK dalam tugasnya menerapkan AI (Artificial Intelligence). Pernyataan berikut yang benar mengenai AI adalah
5.00
Select one:
a. cabang ilmu dari machine learning
b. Cabang ilmu dari komputasi big data
c. cabang dari ilmu komputer yang menenkankan pada pengembangan mesin cerdas (intelligence), berpikir dan
bekerja seperti manusia 
d. cabang ilmu dari data mining
The correct answer is: cabang dari ilmu komputer yang menenkankan pada pengembangan mesin cerdas (intelligence),
berpikir dan bekerja seperti manusia
Question 18 Big data analytics, termasuk didalamnya urutan tahapan berikut:

Correct

5.00
a. Data engineering, data exploration, data mining, data visualization 
b. data architecure, data acquisition, data cleaning, dan cloud computation
c. deep learning, machine learning, AI
d. penentuan volume data, velocity data, dan varietas data
The correct answer is: Data engineering, data exploration, data mining, data visualization
Question 19 Berikut yang merupakan algoritma yang dapat digunakan untuk model klasifikasi transaksi keuangan adalah
Correct

5.00
a. data splitting menjadi data training dan data testing
b. confussion matrix, true possitivity
c. Logistic regression, K-NN, Random Forest 
d. C#, Java, Python, R, Ruby, Scala, SQL
The correct answer is: Logistic regression, K-NN, Random Forest
Question 20 Machine LAerning dapat digolongkan dalam

Correct

5.00
a. 3 tipe: Supervised Learning, Unsupervised Learning, dan Reinforcement Learning 
b. dua tipe, yaitu: Unsupervised Learning dan Reinforcement Learning
c. satu tipe, yaitu: Deep Learning
d. 4 tipe, yaitu: Supervised Learning, Unsupervised Learning, Reinforcement Learning, dan Deep Learning
The correct answer is: 3 tipe: Supervised Learning, Unsupervised Learning, dan Reinforcement Learning
Kuis M6: BigData di PPATK (Kelas

◄ Materi M6: BigData di PPATK Jump to...
MALAM) ►

Big Data

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Big Data

Uploaded by

Copyright:

Available Formats

BIG DATA

• Big Data Applications

Handhika 3/7/21 08.00 34 Rp8.000.000 … xxxx 57 … … …

Ihsan 3/7/21 07.25 25 Rp20.000.000 … 2344 … … …

14.22 … … MedCheck Rp4.000.000 …

• Alternative credit scoring

• A data warehouse is a repository of data collected in different locations (relational

• The focus of the plan is the practicing data analyst.

1. Data Types 4. Method

STATISTICS ARTIFICIAL INTELLIGENCE

• Generalization (Confidence Interval) • Accuracy (Performance Indicators)

• (Sample) Data • (Big) Data

Data Analytics Company

- Bram Hechtkopf, founding principal of Kobie Marketing.

For the bank, integrated

Analyse customer response to enhance

Perform two class neural

Calculate scoring result column

Export data for visualization

Our run-in with this challenge was

For healthcare and hospital

Combining both Insurance and Hospital data, we’ll have a very

We could see in both helicopter and granular level of the health

As the by-product of this analysis, the insurance, hospital, and pharma

based on historical patterns and correlating variables. Moreover, we could

and Insurance alike – for each individual disease.

Applicable to many industries, we

Can be used to identify authorized personnel

© 2020 XQUISITE INFORMATICS. All rights reserved.

Data Analytics Company

Timeline history of Hadoop from a group project of like-minded engineer into a

Node is a machine inside a cluster. Cluster is a collection of interconnected nodes.

Hadoop consist of three main components:

Hadoop Distributed File System (HDFS)

Yet Another Resources Negotiator (YARN)

In traditional database, the schema are straightforward and we can easily

“upload” data contacting distribute

Users’ data Clients: Namenode Datanode

Process flow in a typical Hadoop deployment:

With horizontal-scaling it is often

Vertical-scaling is often limited to

Hadoop can reach massive

A machine that have 1000 cores

• Fixed Schemas • Dynamic Schemas

Infrastructure Analytics and

© 2020 XQUISITE INFORMATICS. All rights reserved.

Data Analytics Company

He founded XQ at 2016 to focus on helping companies transform into Data

Tim Berners-Lee created

1937 1943 1989

Colossus is the first data

2003 2005 Now

Yahoo! (Doug Cutting)

Data is flowing with

Data may have many

The massive data load

Data that comes many

• Primarily descriptive analytics

• Complex, large, unstructured data

• Online firms create data-based products

• Netflix—Cinematch, Max, etc.

• A seamless blend of traditional analytics and big data

• Analytical tools available at point and time of decision