Download as pdf or txt
Download as pdf or txt
You are on page 1of 957

BIG DATA

COMPUTING
BIG DATA COMPUTING OVERVIEW (M1)
TEAM TEACHING UNIVERSITAS GUNADARMA
OUTLINE

• Big Data Applications


• Big Data Computing
• Big Data Technologies
• Big Data Analytics
BIG DATA APPLICATIONS
Finance – Social Media – Retail – Health Insurance – E-Commerce
FINANCIAL DATA (1)
https://eform.bankdki.co.id/consumerloan/new/viewForm.php#
FINANCIAL DATA (2)
https://eform.bankdki.co.id/consumerloan/new/viewForm.php#
FINANCIAL DATA (3)
https://eform.bankdki.co.id/consumerloan/new/viewForm.php#
FINANCIAL DATA (4)
https://eform.bankdki.co.id/consumerloan/new/viewForm.php#
FINANCIAL DATA (5)
https://eform.bankdki.co.id/consumerloan/new/viewForm.php#
SOCIAL MEDIA DATA
http://www.databaseanswers.org/data_models/social_media/index.htm
SOCIAL MEDIA - DESCRIPTIVE ANALYTICS (1)
https://www.datapine.com/blog/wp-content/uploads/2020/03/social-media-report-template-linkedin.jpg
SOCIAL MEDIA - DESCRIPTIVE ANALYTICS (2)
https://www.datapine.com/blog/wp-content/uploads/2019/02/social-media-report-template-twitter.png
SOCIAL MEDIA - DESCRIPTIVE ANALYTICS (3)
https://www.datapine.com/blog/wp-content/uploads/2019/02/social-media-report-youtube.png
SOCIAL MEDIA - DESCRIPTIVE ANALYTICS (4)
https://www.datapine.com/blog/wp-content/uploads/2020/03/youtube-channel-performance-dashboard.png
SOCIAL MEDIA - DESCRIPTIVE ANALYTICS (5)
https://www.datapine.com/blog/wp-content/uploads/2020/03/facebook-post-dashboard.png
SOCIAL MEDIA - DESCRIPTIVE ANALYTICS (6)
https://www.datapine.com/blog/wp-content/uploads/2019/02/social-media-report-facebook.png
RETAIL DATA
http://www.databaseanswers.org/data_models/generic_pos/index.htm
HEALTH INSURANCE DATA
http://www.databaseanswers.org/data_models/health_insurance_claims/data_mart.htm
E-COMMERCE DATA
http://www.webassist.com/tutorials/Free-eCommerce-MySQL-Database
DATA INTEGRATION

Finance
Social
Media Retail

Health
E-Commerce
Insurance
BIG DATA

Name Date Time Age Salary … Post # Like … Amount Point … Treatment Claim …

Handhika 3/7/21 08.00 34 Rp8.000.000 … xxxx 57 … … …

09.25

11.13 Rp98.000 20

… … … … … … … … … … … … … …

Ihsan 3/7/21 07.25 25 Rp20.000.000 … 2344 … … …

14.22 … … MedCheck Rp4.000.000 …

… … … … … … … … … … … … … … …
SAMPLE BIG DATA SOLUTIONS

• Alternative credit scoring


• Targeted advertising
• Customized pricing
• Demand forecasting
• Recommendation engine
• Fraud detection
• Personalized care
• Etc.
BIG DATA COMPUTING
Terminology
DATA (1) – DATA SETS
1. Cios, K. J., Swiniarski, R. W., Pedrycs, W., & Kurgan, L. A. (2007). Data, in Data Mining. Boston: Springer.

2. Sarstedt, M., Ringle, C. M., & Hair, J. F. (2017). Partial Least Squares Structural Equation Modeling, in Handbook of Market Research. Switzerland: Springer.

• A single unit of information is a value of a feature/attribute, where each feature can take a number of different
values.
• There are two key types of values: numerical and symbolic.
• Features (also known as attributes) are usually described by a set of corresponding values.
• Features described by both numerical and symbolic values can be either discrete (categorical) or continuous.
• Objects (also known as records, examples, units, cases, individuals, data points) represent entities described by one or
more features.
• Objects described by the same features are grouped to form data sets.
• Notes: Constructs, also referred to as latent variables, are elements in statistical models that represent
conceptual variables that researchers define in their theoretical models. The indicators, often also named manifest
variables or items, are directly measured or observed variables that represent the raw data. They are linked to
their corresponding constructs. [2]
DATA (2) – DATABASE
Cios, K. J., Swiniarski, R. W., Pedrycs, W., & Kurgan, L. A. (2007). Data, in Data Mining. Boston: Springer.

• Data sets which organized in a rectangularly formatted table composed of rows and columns is called as flat files.
• A polling results (September 2005) performed by KDNuggets: Flat files, which are often extracted from relational databases, were used 26% in the
last 12 months, time series (temporal databases) 13%, text databases 11%, transactional databases 10%, and WWW clickstream data,
spatial databases, and WWW content data 5% each.
• A DataBase Management System (DBMS) provides numerous services, such as the ability to define the structure (schema) of the database,
to store the data, to access the data in concurrent ways (several users may access the data at the same time) and distributed ways (the data are
stored in different locations), and to ensure the security and consistency of the stored data (for instance, to protect against unauthorized access or
a system crash).
• A relational database, the most common database type, consists of a set of tables where each table is rectangular and can be perceived as being
analogous to a single flat file.
• The tables consist of attributes (also called columns or fields) and tuples (also called records and rows).
• Each table is assigned a unique name, and each tuple in a table is assigned a special attribute, called a key, that defines its unique identifiers.
• Relational databases also include the entity-relational (ER) data model, which defines a set of entities (tables, tuples, etc.) and their relationships.
• Another important feature of a DBMS is the availability of a specialized language, called Structured Query Language (SQL), that aims to provide
fast and convenient access to portions of the entire database.
DATA (3) – DATABASE MODEL
Cios, K. J., Swiniarski, R. W., Pedrycs, W., & Kurgan, L. A. (2007). Data, in Data Mining. Boston: Springer.

• Object-oriented database
• Object-relational database
• Transactional database
• Spatial database
• Temporal database
• Text database
• Multimedia database
• WWW
DATA (4) – DATA WAREHOUSE
Cios, K. J., Swiniarski, R. W., Pedrycs, W., & Kurgan, L. A. (2007). Data, in Data Mining. Boston: Springer.

• A data warehouse is a repository of data collected in different locations (relational


databases) and stored using a unified schema.
• Data warehouses are usually created by applying a set of processing steps to data coming
from multiple databases, such as data cleaning, data transformation, data
integration, data loading, and periodical data update.
• The objects, described by features, are combined to form data sets, which in turn are
stored as flat (rectangular) files and in other formats using databases and data
warehouses.
DATA (5)
Cios, K. J., Swiniarski, R. W., Pedrycs, W., & Kurgan, L. A. (2007). Data, in Data Mining. Boston: Springer.
BIG DATA (1) – DIMENSIONS
Kune, R., Konugurthi, P. K., Agarwal, A., Chillarige, R. R., & Buyya, R. (2016). The anatomy of big data computing. Software: Practice and Experience. Vol. 46: pp.
79-105.
BIG DATA (2) – VARIETY & VELOCITY
Assuncāo, M. D., Calheiros, R. N., Bianchi, S., Netto, M. A. S., & Buyya, R. (2015). Big Data computing and clouds: Trends and future directions. Journal of
Parallel and Distributed Computing. vol. 79-80: pp. 3-15.
TRADITIONAL DATA
WAREHOUSING

VS

BIG DATA
Kune, R., Konugurthi, P. K., Agarwal, A.,
Chillarige, R. R., & Buyya, R. (2016).
The anatomy of big data computing.
Software: Practice and Experience. Vol.
46: pp. 79-105.
BIG DATA COMPUTING
Kune, R., Konugurthi, P. K., Agarwal, A., Chillarige, R. R., & Buyya, R. (2016). The anatomy of big data computing. Software: Practice and Experience. Vol. 46: pp.
79-105.

Big data computing is a new paradigm that combines large-scale compute, new data-
intensive techniques, and mathematical models to build data analytics.
BIG DATA TECHNOLOGIES
Storage, Analytics, and Visualization
BIG DATA
COMPONENTS
Kune, R., Konugurthi, P. K., Agarwal, A.,
Chillarige, R. R., & Buyya, R. (2016).
The anatomy of big data computing.
Software: Practice and Experience. Vol.
46: pp. 79-105.
BIG DATA ARCHITECTURE
Prasad, B. R. & Agarwal, S. (2016). Comparative Study of Big Data Computing and Storage Tools: A Review. International Journal of Database Theory and
Application.Vol. 9(1): pp. 45-66.
BIG DATA ECOSYSTEM
https://medium.com/@jain6968/big-data-ecosystem-b0e4c923d7aa
BIG DATA TOOLS (1) – DISTRIBUTED PROCESSING AND STORAGE
Pop, D., Iuhasz, G., & Petcu, D. (2016). Distributed Platforms and Cloud Services: Enabling Machine Learning for Big Data, in Data Science and Big Data
Computing: Frameworks and Methodologies. Switzerland: Springer.
BIG DATA TOOLS
(2) – DISTRIBUTED
MACHINE
LEARNING
FRAMEWORKS
Pop, D., Iuhasz, G., & Petcu, D. (2016).
Distributed Platforms and Cloud
Services: Enabling Machine Learning
for Big Data, in Data Science and Big
Data Computing: Frameworks and
Methodologies. Switzerland: Springer.
BIG DATA TOOLS
(3) – MACHINE
LEARNING AS A
SERVICE
Pop, D., Iuhasz, G., & Petcu, D. (2016).
Distributed Platforms and Cloud
Services: Enabling Machine Learning
for Big Data, in Data Science and Big
Data Computing: Frameworks and
Methodologies. Switzerland: Springer.
DGX A100 (1)
www.nvidia.com/DGXA100
DGX A100 (2)
www.nvidia.com/DGXA100
BIG DATA ANALYTICS
Data Science
BIG DATA ANALYTICS WORKFLOW
Assuncāo, M. D., Calheiros, R. N., Bianchi, S., Netto, M. A. S., & Buyya, R. (2015). Big Data computing and clouds: Trends and future directions. Journal of
Parallel and Distributed Computing. vol. 79-80: pp. 3-15.
BIG DATA ANALYTICS CATEGORIES
Assuncāo, M. D., Calheiros, R. N., Bianchi, S., Netto, M. A. S., & Buyya, R. (2015). Big Data computing and clouds: Trends and future directions. Journal of
Parallel and Distributed Computing. vol. 79-80: pp. 3-15.
DATA SCIENCE
Cleveland, W. S. (2001). Data Science: an Action Plan for Expanding the Technical Areas of the Field of Statistics. International Statistical Review, vol. 69(1):
pp. 21-26.

• The focus of the plan is the practicing data analyst.


• The sets out six technical areas for a university department:
• (25%) Multidisciplinary Investigations: data analysis collaborations in a collection of subject matter areas.
• (20%) Models and Methods for Data: statistical models; methods of model building; methods of estimation and distribution
based on probabilistic inference.
• (15%) Computing with Data: hardware systems; software systems; computation algorithms.
• (15%) Pedagogy: curriculum planning and approaches to teaching for elementary school, secondary school, college, graduate
school, continuing education, and corporate training.
• (5%) Tool Evaluation: surveys of tools in use in practice, surveys of perceived needs for new tools, and studies of the processes
for developing new tools.
• (20%) Theory: foundations of data science; general approaches to models and methods, computing with data, teaching, and tool
evaluation; mathematical investigations of models and methods, computing with data, teaching, and evaluation.

• The outcome of two areas of data science – models and methods, and computing with data – are tools for the data analyst.
METHODOLOGY

1. Data Types 4. Method


• Cross-section • Statistics
• Time-series • Artificial Intelligence
• Panel
5. Approach
2. Problem Formulation • Analytic
• Supervised • Numeric
• Unsupervised • Simulation
• Semi-Supervised
6. Algorithm
• Reinforcement
• Sequential
3. Model • Parallel
a) Deterministic VS Stochastic
b) Static VS Dynamic Notes: GIGO!!
c) Linear VS Non-Linear
DATA PERSPECTIVES

STATISTICS ARTIFICIAL INTELLIGENCE


• Population VS Sample • Training VS Testing

• Generalization (Confidence Interval) • Accuracy (Performance Indicators)

• (Sample) Data • (Big) Data


SAMPLE OUTPUT (1)
SAMPLE OUTPUT (2)
SAMPLE OUTPUT (3)
SAMPLE OUTPUT (4)
SAMPLE OUTPUT (5)
SAMPLE OUTPUT (6)
SAMPLE OUTPUT (7)
SAMPLE OUTPUT (8)
THANKS…
Team Teaching Universitas Gunadarma
Segment 2
Machine Learning &
Predictive Analytics
Use Cases in Business

Galih Permadi

Data Analytics Company


can a machine think?
in 1996, Garry Kasparov was not afraid of a computer, and he won
the next year, he played against a new and improved Deep Blue and lost
When is
Machine Learning
Why the hype is now?
big data analytics, is the culmination
of the machine way of thinking
and thanks to big data technology, now we can immensely
extend our memory and computational power to helped us
answer a lot of questions
do you follow waze instruction during the first one
week?
if you have a waze like apps for giving you direction in
running your company, would you follow them?
can we trust them though?
by tapping social media, a financial institution learns that a married couple just had a child.

Not only can the company congratulate the parents, they can introduce the value of life
insurance or the benefits in setting up a 529 Plan to begin saving for their kid’s college
education.

- Bram Hechtkopf, founding principal of Kobie Marketing.


Customer Analytics

For the bank, integrated


data could means 360
customer view. Which
means the bank could
easily leverage the 360
degree view of customer
profile to expand the
business such as cross-
selling and up-selling –
even cross business units
currently the biggest prescriptive analytics engine: contextual advertising

http://www.flashtalking.com/us/targeted-ads/
another one: marketplace and services
recommendation engine
and
or
Real-Life Business Application
Machine Learning & Predictive Analytics
Airline Dynamic Pricing
Considering high competition of low-cost carrier airline industry in Indonesia, proper pricing strategy is
become more and more essential. Challenges:
• Monitoring competitor’s pricing strategy in more efficient way.
• Difficulty to predict uncommon peak season which leads to overdue pricing adjustment.

Customer Profile
Dynamic Pricing

Pricing Component:
• Internal pricing
• Goverment’s rule
• Competitor’s Pricing recommendation
User Login
Special Offer
engine
pricing Notification
• Calendar activity Loyal Customer
• Market size, etc.

Analyse customer response to enhance


recommendation engine
Airline Dynamic Pricing
Airline Dynamic Pricing
Predictive Maintenance
• Question to Answer:
Predictive Maintenance
• Analytic Process in Azure Machine Learning:
Consume prepared data from
Hive.
Feature selection: exclude
OEEID, Date and Downtime
from dataset

Perform two class neural


network model with
Gaussian normalization to Split data into train and test:
train dataset (already • Train: 18 August 2014 – 31
available in Azure ML). December 2016
• Test: 1 January – 6 April
2017
Train model with down
status as response variable.

Calculate scoring result column


based on the trained model.
Perform the model to test
dataset.

Export data for visualization


using PowerBI.
Predictive Maintenance
Applicable to industries using a lot
of machineries with available log
data, we can develop a machine
learning model to predict when a
specific machine will be out of
work and apply preventive
maintenance beforehand.

Our run-in with this challenge was


on an automotive industry,
yielding 80%+ accuracy of the
prediction.
Predictive Maintenance
Applicable to industries using a lot • Accuracy looks at ratio of correctly predicted
observations = 80.3%. Using accuracy is only good
of machineries with available log for symmetric dataset (ratio between normal and
data, we can develop a machine down is 50:50).

learning model to predict when a • Precision describe as when it predicts down, how
often it is correct = 60%.
specific machine will be out of • Recall describe as when it’s actually yes, how often
work and apply preventive does it predict yes = 51.1%.
maintenance beforehand. • F1 Score is the weighted average of precision and
recall = 55.2%. This score works best if false positive
and false negative have similar cost.
Our run-in with this challenge was To evaluate the model, we cannot rely on only one
measurement. Tweaking the classifier is a matter of
on an automotive industry, balancing what is more important or more costly for us:
yielding 80%+ accuracy of the
prediction.
Predictive Analytics: Disease Outbreak Prediction

For healthcare and hospital


industry, we create a model to
predict the outbreak of disease
from historical diagnosis data. The
result can be used by hospital to
better plan the inventory,
medicine stocks, and medical
personnel.
Predictive Analytics: Disease Outbreak Prediction
TIME PERIODE DISEASE TYPE
Predictive Analytics: Disease Outbreak Prediction

Combining both Insurance and Hospital data, we’ll have a very


rich integrated dataset for disease, diagnosis, treatment, and
other supporting variables ready for time-series, trend, and other
analysis
Predictive Analytics: Disease Outbreak Prediction

We could see in both helicopter and granular level of the health


condition of Indonesia. This can be beneficial for policy-making
insight as well as preventive and corrective campaigns.
Predictive Analytics: Disease Outbreak Prediction

As the by-product of this analysis, the insurance, hospital, and pharma


companies can benefit with this insights. From planning the infrastructure,
catching emerging needs of treatment, and identifying working/non-working
medicing/treatment across the country.
Predictive Analytics: Disease Outbreak Prediction
year month tipe_rawat chapter_code
chapter_namebigclass_codebigclass_nametotal pasien obat administrasi jasa sarana jasa perawat akomodasi
2009 5 rawat jalan C00-D48 NeoplasmsC00-C97 Malignant neoplasms 8 NULL - 1,858,716 1,239,144 NULL
2009 5 rawat jalan E00-E90 Endocrine, E40-E46
nutritional and metabolic
Malnutrition
diseases 1 NULL - - - NULL
2009 5 rawat jalan G00-G99 Diseases ofG90-G99
the nervous systemOther disorders of the nervous
1 NULL system NULL 921,600 614,400 NULL
2009 5 rawat jalan H00-H59 Diseases ofH10-H13
the eye and adnexaDisorders of conjunctiva2 NULL NULL 28,800 19,200 NULL
2009 5 rawat jalan J00-J99 Diseases ofJ00-J06
the respiratory system
Acute upper respiratory2infections
NULL - 108,060 72,040 NULL
2009 5 rawat jalan K00-K93 Diseases ofK20-K31
the digestive system
Diseases of oesophagus,2 stomach NULL and duodenumNULL 13,800 9,200 NULL
2009 5 rawat jalan L00-L99 Diseases ofL50-L54
the skin and subcutaneous
Urticaria andtissue
erythema 2 NULL - - - NULL
2009 5 rawat jalan N00-N99 Diseases ofN40-N51
the genitourinaryDiseases
system of male genital1organs NULL - - - NULL
2009 5 rawat inap N00-N99 Diseases ofN17-N19
the genitourinaryRenal
system failure 1 NULL - - - NULL
2009 5 rawat jalan R00-R99 Symptoms,R10-R19signs and abnormalSymptoms
clinical and
andlaboratory
signs involving
1 findings,
NULL
the digestive
not elsewhere
system classified
and
- abdomen - - NULL
2009 5 rawat jalan J00-J99 Diseases ofJ40-J47
the respiratory system
Chronic lower respiratory 3 diseases
NULL - - - NULL
2009 5 rawat jalan J00-J99 Diseases ofJ30-J39
the respiratory system
Other diseases of upper3respiratory
NULL tract - - - NULL
2009 5 rawat jalan I00-I99 Diseases ofI20-I25
the circulatory system
Ischaemic heart diseases3 NULL NULL 407,520 271,680 NULL
2009 5 rawat jalan I00-I99 Diseases ofI10-I15
the circulatory system
Hypertensive diseases 6 NULL - 1,526,400 1,017,600 NULL
2009 5 rawat jalan H60-H95 Diseases ofH80-H83
the ear and mastoid
Diseases
process of inner ear 3 NULL NULL 388,200 258,800 NULL
2009 5 rawat jalan E00-E90 Endocrine, E10-E14
nutritional and metabolic
Diabetesdiseases
mellitus 10 NULL - 719,592 479,728 NULL
2009 5 rawat jalan C00-D48 NeoplasmsD10-D36 Benign neoplasms 1 NULL - - - NULL
2009 5 rawat jalan A00-B99 Certain infectious
A20-A28 and parasitic
Certain
diseases
zoonotic bacterial1 diseases
NULL NULL 234,600 156,400 NULL
2009 5 rawat jalan A00-B99 Certain infectious
A00-A09 and parasitic
Intestinal
diseasesinfectious diseases
1 NULL NULL 149,400 99,600 NULL
2009 5 rawat jalan A00-B99 Certain infectious
A15-A19 and parasitic
Tuberculosis
diseases 3 NULL NULL 606,144 404,096 NULL
2009 5 rawat jalan F00-F99 Mental andF20-F29
behavioural disorders
Schizophrenia, schizotypal 1 andNULLdelusional disorders
NULL 90,660 60,440 NULL
2009 5 rawat jalan H60-H95 Diseases ofH65-H75
the ear and mastoid
Diseases
process of middle ear and
1 NULL
mastoid NULL 2,400 1,600 NULL
2009 5 rawat jalan K00-K93 Diseases ofK35-K38
the digestive system
Diseases of appendix 1 NULL NULL 2,400 1,600 NULL
2009 5 rawat jalan N00-N99 Diseases ofN17-N19
the genitourinaryRenal
system failure 2 NULL - 324,300 216,200 NULL
2009 5 rawat jalan S00-T98 Injury, poisoning
S00-S09and certain other
Injuries
consequences
to the head of external
4 NULLcauses NULL 1,388,400 925,600 NULL
2009 5 rawat jalan A00-B99 Certain infectious
B20-B24 and parasitic
Human
diseases
immunodeficiency 4 virus
NULL[HIV] diseaseNULL 790,420 487,280 NULL
2009 6 rawat jalan A00-B99 Certain infectious
A15-A19 and parasitic
Tuberculosis
diseases 4 NULL NULL 1,550,293 785,736 NULL
2009 6 rawat jalan J00-J99 Diseases ofJ00-J06
the respiratory system
Acute upper respiratory5infections
NULL - - - NULL
2009 6 rawat jalan K00-K93 Diseases ofK00-K14
the digestive system
Diseases of oral cavity, salivary
1 NULLglands and jaws - - - NULL
2009 6 rawat jalan K00-K93 Diseases ofK35-K38
the digestive system
Diseases of appendix 1 NULL NULL 52,260 34,840 NULL
2009 6 rawat jalan L00-L99 Diseases ofL80-L99
the skin and subcutaneous
Other disorders
tissue of the skin
1 andNULLsubcutaneous NULL
tissue 2,400 1,600 NULL

Going further, with very detailed data set, we can start to predict the future
2009 6 rawat jalan N00-N99 Diseases ofN17-N19
the genitourinaryRenal
system failure 3 NULL NULL 1,155,264 770,176 NULL
2009 6 rawat jalan N00-N99 Diseases ofN30-N39
the genitourinaryOther
system diseases of urinary 1 system
NULL - - - NULL
2009 6 rawat jalan Q00-Q99 Congenital Q20-Q28
malformations, deformations
Congenital malformations
and chromosomal
1 of NULL
the
abnormalities
circulatory system - - - NULL
2009 6 rawat jalan S00-T98 Injury, poisoning
S00-S09and certain other
Injuries
consequences
to the head of12 external
NULLcauses - 3,049,516 1,621,744 NULL

based on historical patterns and correlating variables. Moreover, we could


2009 6 rawat jalan Z00-Z99 Factors influencing
Z80-Z99 health status
Persons
and contact
with potential
with health
health
2 NULLservices
hazards related to family- and personal -history and certain
- conditions
NULL influencing health status
2009 6 rawat jalan S00-T98 Injury, poisoning
T66-T78and certain other
Otherconsequences
and unspecified ofeffects
external
2 NULL ofcauses
external causes - - - NULL
2009 6 rawat jalan S00-T98 Injury, poisoning
S30-S39and certain other
Injuries
consequences
to the abdomen,of external
1 lower
NULLback,
causeslumbar spine and - pelvis - - NULL

also analyse the impact it may creates on the insurance claims both on BPJS
2009 6 rawat jalan R00-R99 Symptoms,R30-R39signs and abnormalSymptoms
clinical and
andlaboratory
signs involving
2 findings,
NULL
the urinary
not elsewhere
system
NULL classified 10,800 7,200 NULL
2009 6 rawat jalan R00-R99 Symptoms,R10-R19signs and abnormalSymptoms
clinical and
andlaboratory
signs involving
1 findings,
NULL
the digestive
not elsewhere
NULL
system classified
and abdomen235,260 156,840 NULL
2009 6 rawat jalan N00-N99 Diseases ofN20-N23
the genitourinaryUrolithiasis
system 1 NULL - - - NULL

and Insurance alike – for each individual disease.


Potential Area Mapping
Identify your next
open outlet, out-of-
home ads, and even
market expansion
based on your
product-fit and
market-fit criteria
from our wide data
set: demographic,
SES, Point-of-
interests, on our
Indonesian map (with
the ability to zero-in
to village level).
Predictive Analytics: Cashflow Prediction

Applicable to many industries, we


can develop a model to learn
from the historical data of financial
activities to predict the future
cashflow.
Routing Analytics
Create turn-by-turn recommendation based on client’s existing outlet (or any
touch point targets). This plugins is planned to be able to be used by Navi and
any major BI tools supporting map/GIS).
Computer Vision
Thermal Detection
Thermal Detection

Can be used to identify authorized personnel


and attendance, and also check the body
temperature. Can also give warning if the
person does not wear face-mask.
Object Recognition
Object Recognition
Facial Recognition
Segment Break

© 2020 XQUISITE INFORMATICS. All rights reserved.


The information herein is for informational purposes only and represents the current view of XQUISITE INFORMATICS as of the date of this submission.
Segment 3
Hadoop & Big Data
Analytics Journey

Galih Permadi

Data Analytics Company


Hadoop
and it’s services
What is Hadoop

Timeline history of Hadoop from a group project of like-minded engineer into a


technology powerhouse it is today.
What is Hadoop

Node is a machine inside a cluster. Cluster is a collection of interconnected nodes.


Google File System, Bigtable, and MapReduce team develop their project using cluster-
based computing of commodity servers. Where files are split into chunks and spread it
to nodes inside a cluster.
What is Hadoop
Apache Hadoop comprised of the following components:
What is Hadoop

Hadoop consist of three main components:

Hadoop Distributed File System (HDFS)

MapReduce

Yet Another Resources Negotiator (YARN)


What is Hadoop

In traditional database, the schema are straightforward and we can easily


explore relationship between data.
What is Hadoop

In Hadoop, we split our data into large sized chunks and distribute and
replicate it across our nodes on the Hadoop Distributed File System (HDFS).
What is Hadoop

The component that function as the data storage in Hadoop. By its name,
HDFS keep the data by distributing it in all its nodes.

“upload” data contacting distribute

Users’ data Clients: Namenode Datanode


Hue (store metadata) (store data block)
HDFS CLI
HDFS API
What is Hadoop

• Hadoop data processing component. MapReduce implements the principle of parallel computation.
MapReduce will distribute the task given by user into subtasks that send to all worker.
• Nowadays, this component can be replaced by other data processing component, such as, Impala’s
MPP or Apache Spark with an improved performance
What is Hadoop

YARN’s purpose is to maintain resources (CPU, RAM, GPU) within the cluster. There are 2 daemon
(process that runs in the background) in YARN. First is NodeManager installed in the workers and
ResourceManager installed in the master.
What is Hadoop
3

Process flow in a typical Hadoop deployment:


1. Large unstructured data sets are ingested from storage repositories to a Hadoop cluster based on the Hadoop distributed file system (HDFS).
2. Data is mapped to the Hadoop DataNodes of the cluster and a single NameNode controls the metadata.
3. The MapReduce software framework manages jobs for data analysis. MapReduce and HDFS use the same hardware resources for both data analysis and storage.
4. Analysis results are then stored in HDFS or exported to other infrastructures.
Essentials Hadoop Services
As the interest on
Hadoop grew, the
Apache community
continues to build up
the Hadoop
ecosystem by
integrating other
services. Each with its
own unique offering
to the ecosystem.
Essentials Hadoop Services
• Administration:
ZooKeeper, YARN
• Ingestion: Oozie,
Sqoop
• Data Storage &
Analysis: HDFS, Hive,
Impala, HBase, Solr
• Processing: Spark,
MapReduce
Scalability
Hadoop aims for linear horizontal
scalability

With horizontal-scaling it is often


easier to scale dynamically by
adding more machines into the
existing pool.

Vertical-scaling is often limited to


the capacity of a single machine,
scaling beyond that capacity often
involves downtime and comes with
an upper limit.
Scalability
You can just add nodes
to increase cluster
capacity and
performance – By
Scaling Out your
cluster.
Scalability
Hadoop clusters are built from industry-standard, widely-available and relatively inexpensive servers.

Hadoop can reach massive


scalability by exploiting a simple
distribution architecture and
coordination model.

A machine that have 1000 cores


CPU would be much more
expensive than 1000 single core
or 250 quad-core machines.
Scalability
Hadoop will ensure to minimized cross-communication among nodes.
Introducing Unstructured Data

Unstructured data is information that either does not have a pre-defined data model or
is not organized in a pre-defined manner.
It is believed that approximately 80% of enterprise data is unstructured data (Gartner).
Introducing Unstructured Data

Shown here is a sample of unstructured data (Twitter). In order to extract information from
this type of data, we need to prepare the data into a structured format.
Introducing Unstructured Data: NoSQL
NoSQL database (Not Only SQL or non relational database) provide mechanism to store
and retrieve data in a different way of relational database used.

• Fixed Schemas • Dynamic Schemas


• Scale Up • Auto-sharding /Scale-Out
Plugins/Extension for Replication • Automatic Replication
• Integrated Caching (Read Only) • Integrated Caching (Read/Write)
Introducing Unstructured Data: NoSQL
The data structures used by NoSQL databases (e.g. key-value, wide column, graph,
or document) are different from those used in relational databases, making some
operations faster in NoSQL.
BDA Journey
and Milestones
Source: https://www.domo.com/learn/data-never-sleeps-8
Traditional VS Big Data Analytics
Traditional VS Big Data Analytics
Traditional VS Big Data Analytics
Traditional VS Big Data Analytics
Big Data Analytics Journey
Big Data Analytics Milestones

Infrastructure Analytics and


Business Cases Solution Architecture Data Integration Change Management
Procurement Visualization

• Have clear • Develop Solution • Acquire the right • Acquire, enrich, • Analyze the data for • Adapt and transform
Business cases architecture for your infrastructure needed cleanse and each of your specific your organization
including a quick- business cases based on your integrate your data to business case and towards new big data
win project including data solution architecture be analytics ready visualize it in a technology and
collection process, including data meaningful way analytics
technology storage and • Develop business implementation
architecture and processing unit, strategy and action
analytics methods platform and plan out of the
and data application insights you gathered
visualization
• Incorporate your
current asset through
a comprehensive
assessment
Segment end

© 2020 XQUISITE INFORMATICS. All rights reserved.


The information herein is for informational purposes only and represents the current view of XQUISITE INFORMATICS as of the date of this submission.
Segment 1
Big Data Analytics
Implementation

Galih Permadi

Data Analytics Company


Profile
Galih started off his career in a management consulting firm in 2010 focusing on
delivering values through data and system. Ever since, he has managed various
type of project from various type of business users and industries involving
various technologies. Some of the most notable are; developed solution
architecture, blueprint, and technology roadmap for Bank Indonesia (2014-
2015), designed the solution architecture for the first enterprise data warehouse
on Hadoop project for PLN (2017).

He founded XQ at 2016 to focus on helping companies transform into Data


Driven Organization. XQ currently valued at around 7 Million USD.

Besides XQ, Galih also develop other Startup and companies focusing in solving
problems with technology.
Big Data Analytics
So What is Big Data?
Brief History of Big Data

Tim Berners-Lee created


26 millions records of US Citizen the “World Wide Web”. The
done by three million company beginning of the internet as
using IBM punch card machine. we know today.

1937 1943 1989

Colossus is the first data


processing machine in the
world, capable of processing
5000 character per second and
used to decipher NAZI secret
message in world war II.
Brief History of Big Data

Google release
paper about
google file
system

2003 2005 Now

Yahoo! (Doug Cutting)


starting project Hadoop
with purpose to index the
whole world wide web.
Why We Need Big Data
Why We Need Big Data – 5Vs
Why We Need Big Data - Volume

Organizations are
gathering data from
various sources such as
business transaction,
social media, sensor
dan machine to
machine data.
Source: https://www.domo.com/learn/data-never-sleeps-8
Why We Need Big Data - Velocity

Data is flowing with


speed that has never
happened before and
must be managed and
analyzed in real time.
Why We Need Big Data - Variety

Data may have many


format – from structured
and numerical in
traditional database until
unstructured text
document, email, video,
audio and financial
transaction.
Why We Need Big Data - Veracity

The massive data load


that we are having today
can be challenging to
maintain.
Inaccuracy and
inconsistency can be a
risk that enterprise must
deal with.
Why We Need Big Data - Veracity

Data that comes many


source make it harder to
join, cleansing and
transform whole data in
the system. However, we
still need to connect and
correlate between data
and its hierarchy.
Analytics
everyone’s talking about big data, but largely due to its lingering complexity,
adoption remains relatively low
Analytics Implementation
in corporate organization
How Do You Do Analytics?
1.0 2.0 3.0
• Small, structured, • Big, unstructured, • Mix of all data
static data fast-moving data • Hybrid
• Back-office • Data scientists “on business/data
the bridge” teams
analysts
• Data products • Internal + external
• Slow, painstaking
focus in online products/decision
• EDW, stat firms s
packages, • Rise of Hadoop • Discovery tools +
spreadsheets • Visual analytics • Move at speed
• Internal decisions • “Agile is too slow” and scale
• Descriptive • Predictive and
analytics prescriptive
analytics
Analytics 1.0
Traditional Analytics

• Primarily descriptive analytics


and reporting
• Internally sourced, relatively small,
structured data from customer transactions
1.0 • “Back room” teams of analysts
• Internal decision support focus
• Slowly-developed batch propensity models
• Warehouse-centric storage
Analytics 2.0
The Big Data era

• Complex, large, unstructured data


• New analytical and computational
capabilities needed—i.e., Hadoop
“Data Scientists” emerge
2.0

• Online firms create data-based products


and services
2.0 Data Products
• Google—Search, AdSense, Books, Maps, Scholar…and now Nest
• LinkedIn—People You May Know, Jobs You May Like, Groups You May Be
Interested In, etc.

• Netflix—Cinematch, Max, etc.


• Zillow—Zestimates, rent Zestimates, Home Value Index, Underwater Index, etc.
• Facebook—People You May Know, Custom Audiences, Exchange
Analytics 3.0
Fast, Pervasive Analytics in the Age of Smart Machines

• A seamless blend of traditional analytics and big data


• Analytics integral to the entire business
Rapid, agile insight and model delivery
3.0

• Analytical tools available at point and time of decision


• Any company can produce data products and services
• Industrialized decisions—large scope and scale

TODAY
Analytics 3.0: Data Types

Articles Mobile devices Social Feeds


• Purchase history
• Segmentation XML Cloud RSS
• Customer value
Twitter Videos
• Purchasing behavior
Spatial GPS
Device sensors Blogs
• Recommendations
• Customer profiles • Sentiment analysis
• Organization • Target marketing Images
contacts • Satisfaction Presentatio LinkedIn
• Billing • Customer
• Marketing experience ns Hosted applications
Documents
• Contracts/orders management
• Shipping • Service tiers Email Text messages
• Claims Website activity Clickstream logs
• Call center
• Customer service
Analytics 3.0
Technology and People Requirements

• Heavy reliance on machine learning

3.0
• In-memory and in-database analytics
• Integrated and embedded models
• Delivery to multiple channels, specifically mobile
• Hadoop, EDW, marts, data discovery, etc.
• Blended data science/business/IT teams
• Chief Analytics, Data, Digital Officers to oversee it all
Analytics 3.0 Example
The “Analytics of Things”

• Real-time, high-volume data from sensors and


machines
• Focus on anomalies and exceptions
• Analytics for trends, patterns, prediction,
optimization, situational awareness
• Bring the data to the analysis engine through
complex event processing/streaming
• May be able to sell the analytics to third
parties
The Analytics of Things in Context

Cognitive Action
(Hands, feet, and communities)

Analytics of Things (Brain)

Data Integration (Reflexes, spinal cord)

Local Sensing
(Sense of touch, local neurons)
Analytics Implementation
in corporate organization - examples
Procter & Gamble 3.0
178 years old
• CIO Filippo Passerini and CEO Bob McDonald
focused on improving management decisions
at scale
• “Information and Decision Solutions” (IT)
embeds over 200 analysts in leadership teams
• Over 50 “Business Spheres” for executive
information viewing and decision-making
• “Decision cockpits” on 58K desktops
• 35% of marketing budget on digital
• Real-time social media sentiment analysis for
“Consumer Pulse”
Robert Bosch 3.0
129 years old

• Intelligent fleet management


• Intelligent vehicle charging
• Intelligent energy management
• Intelligent video analysis
• Intelligent freezer
• Intelligent thermostat
• New Software Innovations group to create all of
this intelligence
GE 3.0
123 years old

• $2B initiative in software, analytics, and


“Industrial Internet”
• Primary focus on data-based products and
services from “things that spin”
• Will reshape service agreements for
locomotives, jet engines, turbines
• Gas blade monitoring in turbines produces 588
gigabytes/day—7 times Twitter daily volume
• $IB in revenue already from new industrial data
platforms and software
Monsanto 3.0
114 years old

• Precision planting offerings sold to farmers


• FieldScripts program uses data from field
testing and Monsanto research to recommend
what corn hybrids to plant where
• Genotypes and phenotypes of plants add up to
tens of petabytes of data for analysis
• Paid almost $1B for The Climate Company,
which gathers and analyzes weather data for
agriculture
• Embarking on data and analytics education
programs for farmer customers
Ford 3.0
112 years old
• Bill Ford: “The car is really becoming a rolling
group of sensors.”
• Ford’s Digital Analytics and Optimization team
has full responsibility for all B2C channels and
N. American business units
• Hyper-local dealer support digital algorithm
delivered 85% increase in action rate and 48%
decrease in cost per action
• Smart Inventory Management System suggests
weekly orders for dealers and has increased
revenue by $100M/year
• New Analytics Council and Chief Analytics/Data
Officer
UPS 3.0
108 years old

• Project ORION: Real-time routing of 46,000


vehicles
• Uses telematics, customer, and package data
• Project cost $300 million and is expected to
deliver savings of $450 million/year
• 15 million gallons/year in fuel savings
• World’s largest analytics project
• MyChoice is UPS’ first data product
LinkedIn 3.0
14 years old

• Highly successful data products


People You May Know
Jobs You May Be Interested In
Groups You May Like
InMaps
• Business decisions at scale
Customer InMaps to pinpoint decision-makers
Propensity-to-buy models for LinkedIn services
Rapid testing of multiple website changes
What Should Organizations Do with Analytics?

• 1.0 organizations use analytics


Find the best customers, charge them the best price
Make effective offers
Understand costs and drive better performance
• 2.0 and 3.0 organizations compete on analytics
Making analytics and fact-based decisions key
elements of customer relationships, products and
services, strategy, and competition
How Does Your Company Rank?

Stage 5
Analytical Competitors 2.0 and 3.0
territory
Stage 4
Analytical Companies
Stage 3
Analytical Aspirations 1.0
Stage 2 territory
Localized Analytics
Stage 1
Analytically Impaired
38 | 2015 © Thomas H. Davenport All Rights Reserved
Some Analytical Competitors

Netflix—Cinematch, Max, etc.


Primarily eBay—testing on a massive scale
2.0 firms Zillow—Zestimates, Rent Zestimates, Underwater Index
Facebook—People You May Know, Custom Audiences, Exchange

Google—page rank, advertising, HR, ventures


Marriott — Revenue management, web, loyalty
Primarily Amazon—Testing, logistics, recommendations
Novartis—Drug development with informatics
3.0 firms Caesars—Loyalty and service in real time
Tesco—13 million customers, 13 million offers
Capital One—”information-based strategy”
Barclays—”The Information Business”
Analytical DELTTA Capabilities

Data . . . . . . . . . breadth, integration, quality


Enterprise . . . . . . . . approach to managing analytics
Leadership . . . . . . . . . . . . . . . passion and commitment
Targets . . . . . . . . . . . . . . . . . . first deep, then broad
Technology . . . . . . .changing with big data
Analysts . . . . . professionals and amateurs
Recipe for a 3.0 World
1. Start with an existing
capability for data
management and analytics
2. Pick an analytics 3.0 target and
subtargets
3. Add some unstructured,
large-volume data
4. Throw some product/service
innovation into the mix
5. Add a dash of Hadoop
and a pinch of NoSQL
6. Don’t forget your privacy and
security strategy
7. Train your sous chefs to be
analytical leaders
Segment Break

© 2020 XQUISITE INFORMATICS. All rights reserved.


The information herein is for informational purposes only and represents the current view of XQUISITE INFORMATICS as of the date of this submission.
Pengenalan Hadoop
Agenda

Review Pertemuan Sebelumnya

Konsep Penyimpanan dan Pemrosesan

Pengenalan Hadoop

Penerapan MapReduce

Pengenalan NoSQL Database


Review
• Pengertian Big Data
• Teknologi Big Data
• Big Data Analytics
• Aplikasi Big Data
Big Data?
Teknologi
• Apa yang sudah terjadi?
• Mengapa terjadi?
• Apa yang akan terjadi?
• Apa yang harus dilakukan?
• Apa yang kita tidak tahu? (Cognitive) *)

Analytics

*) Gudivada, V., Irfan, M., Fathi, E., Rao, D.L.: Cognitive analytics: going beyond big data analytics and machine learning, Chap. 5. Elsevier (2016)
*) Gupta, S., Arpan Kumar Kar, A., Baabdullah, A., Al-Khowaiter, W.: Big data with cognitive computing: a review for the future. Int. J. Inf. Manage. 42, 78–89 (2018)
Mesin Rekomendasi

Aplikasi
Big Data Ecosystem
V. Janev et al. (Eds.): Knowledge Graphs and Big Data Processing, LNCS 12072, pp. 3–19, 2020

DATA SOURCES DATA MANAGEMENT DATA ANALYTICS


• Privat (Internal), public • Integrasi • Metodologi
(eksternal) • Penyimpanan • Laporan / Visualisasi
• Terstruktur, tidak terstruktur • Pemrosesan • Aplikasi
Konsep Penyimpanan dan
Pemrosesan Big Data
Scalability

• Kemampuan suatu sistem untuk menangani


penambahan beban yang diberikan tanpa penurunan
kinerja yang berarti
• Vertikal (menambah sumber daya sistem komputer)
• Horizontal (menambah jumlah komputer)

Properti Availability

Penting • Ketersediaan layanan secara terus menerus

Big Data Fault Tolerance

• Kemampuan system untuk terus beroperasi walaupun


terjadi kegagalan pada beberapa komponennya

Reliabillty

• Kehandalan
Cluster

File System
Konsep
Penyimpanan Distributed File System
Big Data Sharding

Replication

NoSQL
Cluster
• Kumpulan server atau node
yang digabungkan erat.
• Memiliki spesifikasi
perangkat keras yang sama
• Terhubung melalui jaringan
• Bekerja sebagai satu kesatuan
File System

• Metode penyimpanan dan


pengaturan data pada
perangkat penyimpanan seperti
harddisk, flashdisk, dll.
• Menyediakan logical view dari
data yang disimpan pada
perangkat penyimpanan dan
menyajikannya sebagai struktur
hirarkis dari direktori dan file
Distributed File
System
• Sistem file yang dapat menyimpan file
besar yang tersebar di seluruh node cluster
• Bagi klien, file tampak seperti lokal;
Namun, ini hanya tampilan logis karena
secara fisik file didistribusikan ke seluruh
cluster
• Contoh:
• Google File System (GFS)
• Hadoop Distributed File System (HDFS)
Sharding
• Proses mempartisi secara horizontal
kumpulan data besar menjadi
kumpulan data yang lebih kecil dan
lebih mudah dikelola
• Pecahan didistribusikan ke beberapa
node, di mana node adalah server atau
mesin
• Setiap pecahan disimpan di node
terpisah dan setiap node bertanggung
jawab hanya untuk data yang disimpan
di dalamnya
Sharding
• Setiap pecahan memiliki skema yang sama,
dan semua pecahan secara kolektif
mewakili kumpulan data lengkap
• Sharding memungkinkan distribusi beban
pemrosesan di beberapa node untuk
mencapai skalabilitas horizontal
• Penskalaan horizontal adalah metode untuk
meningkatkan kapasitas sistem dengan
menambahkan sumber daya berkapasitas
serupa atau lebih tinggi di samping sumber
daya yang ada
Replication

• Replikasi menyimpan banyak salinan dari


sebuah dataset, yang dikenal sebagai
replika, pada banyak node
• Replikasi memberikan skalabilitas dan
ketersediaan karena fakta bahwa data yang
sama direplikasi di berbagai node.
• Toleransi kesalahan juga dicapai karena
redundansi data memastikan bahwa data
tidak hilang ketika node individu gagal.
NoSQL (Not-only SQL)
• Database non-relasional yang
sangat skalabel, toleran terhadap
kesalahan
• Dirancang khusus untuk
menampung data semi-terstruktur
dan tidak terstruktur.
• Tidak memerlukan skema yang
ketat
• Diakses dengan cara:
• API (Aplication Programming Interface)
yang dapat dipanggil dari dalam aplikasi.
• Bahasa query selain Structured Query
Language (SQL)
Teknologi Penyimpanan Big Data

On-Disk Storage Devices In-Memory Storage Devices


RDBMS

On-Disk
Storage
NoSQL
Devices

NewSQL
In-Memory Data Grids
In-Memory
Storage
Devices
In-Memory Databases
Parallel Data Processing

Konsep Distributed Data Processing

Pemrosesan
Big Data Processing Workload

Cluster
• Pemrosesan data paralel melibatkan pelaksanaan beberapa
Parallel Data sub-tugas secara bersamaan yang secara kolektif membentuk
tugas yang lebih besar

Processing • Tujuannya adalah untuk mengurangi waktu eksekusi


• Umumnya dicapai dalam satu mesin dengan banyak prosesor
atau inti (core)
Distributed Data
Processing
• Pemrosesan data
terdistribusi terkait erat
dengan pemrosesan data
paralel yang menerapkan
prinsip "divide-and-
conquer" yang sama
• Dicapai melalui mesin
yang terpisah secara fisik
yang terhubung bersama
sebagai sebuah cluster
Processing Workloads
Beban kerja pemrosesan di Big Data didefinisikan sebagai jumlah dan
sifat data yang diproses dalam jangka waktu tertentu. Beban kerja
biasanya dibagi menjadi dua jenis:
• Batch, dikenal sebagai pemrosesan offline, melibatkan pemrosesan
data dalam batch dan biasanya menimbulkan penundaan, yang pada
gilirannya menghasilkan respons latensi tinggi
• Transaksional, juga dikenal sebagai pemrosesan online. Pemrosesan
beban kerja transaksional mengikuti pendekatan di mana data
diproses secara interaktif tanpa penundaan, menghasilkan respons
latensi rendah
Batch vs Transaksional
Cluster
• Memberikan dukungan yang diperlukan untuk membuat solusi
penyimpanan yang dapat diskalakan secara horizontal
• Menyediakan mekanisme untuk memungkinkan pemrosesan data
terdistribusi dengan skalabilitas linier
• Menyediakan lingkungan yang ideal untuk pemrosesan Big Data
• Big Data dapat diproses dalam mode batch atau mode realtime
Cluster
Pemrosesan dalam Mode Batch
• Dalam mode batch, data diproses secara offline dalam batch dan waktu respons dapat
bervariasi dari menit ke jam. Selain itu, data harus disimpan ke disk sebelum dapat
diproses.
• Mode batch umumnya melibatkan pemrosesan berbagai kumpulan data besar, baik
sendiri-sendiri atau digabungkan, yang pada dasarnya menangani karakteristik volume
dan variasi dari kumpulan data Big Data.
• Mayoritas pemrosesan Big Data terjadi dalam mode batch. Ini relatif sederhana, mudah
diatur dan berbiaya rendah dibandingkan dengan mode waktu nyata. BI strategis, analitik
prediktif dan preskriptif, dan operasi ETL biasanya berorientasi batch.
Pemrosesan Batch dengan MapReduce

• MapReduce adalah model pemrosesan berorientasi batch yang digunakan


untuk memproses kumpulan data besar menggunakan pemrosesan paralel
yang diterapkan di atas cluster perangkat keras komoditas.
• MapReduce adalah implementasi yang banyak digunakan dari framework
pemrosesan batch.
• MapReduce cocok dalam komputasi terdistribusi dan paralel.
• Model inim membagi masalah besar menjadi kumpulan masalah kecil yang
masing-masing dapat diselesaikan dengan cepat.
Pemrosesan Batch dengan MapReduce

• MapReduce dapat digunakan untuk memproses kumpulan data tanpa skema.


Kumpulan data dipecah menjadi beberapa bagian yang lebih kecil, dan operasi
dilakukan pada setiap bagian secara independen dan paralel.
• Hasil dari semua operasi kemudian diringkas untuk sampai pada jawabannya.
• Karena overhead koordinasi yang terlibat dalam mengelola pekerjaan, mesin
pemroses MapReduce umumnya hanya mendukung beban kerja batch karena
pekerjaan ini diperkirakan tidak memiliki latensi rendah.
• MapReduce didasarkan pada makalah penelitian Google tentang subjek tersebut,
yang diterbitkan pada awal tahun 2000.
Pemrosesan Batch dengan MapReduce

• Secara tradisional, pemrosesan data memerlukan pemindahan data dari node penyimpanan ke
node pemrosesan yang menjalankan algoritme pemrosesan data.
• Pendekatan ini berfungsi dengan baik untuk kumpulan data yang lebih kecil; namun, dengan
kumpulan data yang besar, pemindahan data dapat menimbulkan lebih banyak overhead
daripada pemrosesan data yang sebenarnya.
• Dengan MapReduce, algoritma pemrosesan data dipindahkan ke node yang menyimpan data.
• Algoritma pemrosesan data dijalankan secara paralel pada node ini, sehingga menghilangkan
kebutuhan untuk memindahkan data terlebih dahulu.
• Ini tidak hanya menghemat bandwidth jaringan tetapi juga menghasilkan pengurangan besar
dalam waktu pemrosesan untuk kumpulan data besar, karena memproses potongan data yang
lebih kecil secara paralel jauh lebih cepat.
MapReduce
Terdiri dari:
• Pekerjaan Map, dengan tahapan
• map
• combine (optional)
• partition
• Pekerjaan Reduce
• shuffle and sort
• reduce
Map
Combine
Partition
Shuffle and Sort
Reduce
Pemrosesan dalam Mode Realtime
Dalam mode waktu nyata, data diproses dalam memori sebelum disimpan ke disk. Waktu respons biasanya
berkisar dari satu detik hingga kurang dari satu menit. Mode realtime menangani karakteristik kecepatan
kumpulan data Big Data.

Dalam pemrosesan Big Data, pemrosesan waktu nyata juga disebut pemrosesan peristiwa (event) atau aliran
(stream) karena data datang secara terus menerus (stream) atau pada interval (event). Data event / stream
individu umumnya berukuran kecil, tetapi sifat kontinu menghasilkan kumpulan data yang sangat besar.

Istilah terkait lainnya, mode interaktif, termasuk dalam kategori waktu nyata. Mode interaktif umumnya
mengacu pada pemrosesan kueri secara realtime. BI / analitik operasional umumnya dilakukan dalam mode
waktu nyata.

Prinsip dasar yang terkait dengan pemrosesan Big Data disebut prinsip Kecepatan, Konsistensi, dan Volume
(SCV). Ini dibahas pertama kali karena menetapkan beberapa batasan dasar pada pemrosesan yang terutama
memengaruhi mode pemrosesan waktu nyata.
Speed Consistency
Volume (SCV)
• Speed
• Consistency
• Volume
Dua konsep penting yang terkait dengan pemrosesan Big Data secara
realtime adalah:
• Event Stream Processing (ESP) / Pemrosesan Streaming Acara (ESP)
• Complex Event Processing (CEP) / Pemrosesan Peristiwa Kompleks (CEP)
Event Stream Processing

• Selama ESP, aliran peristiwa yang masuk, biasanya dari satu sumber dan diurutkan
berdasarkan waktu, terus dianalisis. Analisis dapat terjadi melalui kueri sederhana atau
penerapan algoritme yang sebagian besar berbasis rumus. Analisis berlangsung di dalam
memori sebelum menyimpan peristiwa ke perangkat penyimpanan di disk.
• Sumber data lain (yang ada di memori) juga dapat dimasukkan ke dalam analisis untuk
melakukan analisis yang lebih kaya. Hasil pemrosesan dapat dimasukkan ke dasbor atau
dapat bertindak sebagai pemicu aplikasi lain untuk melakukan tindakan yang telah
dikonfigurasi sebelumnya atau analisis lebih lanjut. ESP lebih berfokus pada kecepatan
daripada kompleksitas; operasi yang akan dijalankan relatif sederhana untuk membantu
eksekusi yang lebih cepat.
Complex Event Processing

• Selama CEP, sejumlah peristiwa waktu nyata yang sering datang dari sumber yang
berbeda dan tiba pada interval waktu yang berbeda dianalisis secara bersamaan
untuk mendeteksi pola dan permulaan tindakan. Algoritme berbasis aturan dan
teknik statistik diterapkan, dengan mempertimbangkan logika bisnis dan konteks
proses untuk menemukan pola peristiwa kompleks lintas sektor.
• CEP lebih berfokus pada kompleksitas, menyediakan analitik yang kaya. Namun,
akibatnya, kecepatan eksekusi dapat terpengaruh secara merugikan. Secara
umum, CEP dianggap sebagai superset dari ESP dan sering kali keluaran dari hasil
ESP dapat dimasukkan ke dalam CEP.
Pengenalan
Apa itu Hadoop?
• Suatu framework yang memungkinkan pemrosesan secara
terdistribusi terhadap data yang berukuran besar, dengan
melibatkan satu atau lebih klaster computer, dengan
menerapkan programming model yang sederhana
• Suatu Framework untuk menangani Big Data
• Suatu framework untuk menyimpan dan memprosess Big
Data secara parallel dan terdistribusi
• Suatu framework open source yang memungkinkan
pemrosesan terdistribusi terhadap Big Data melalui
sekumpulan perangkat keras sederhana (Cluster)
Linimasa Hadoop
Karakteristik / Fitur
Komponen Inti Hadoop
HDFS (Hadoop Distributed File System)
• NameNode
• DataNode
• Secondary
NameNode
Lapisan pemroses data
pada Hadoop

Mengadopsi model
MapReduce Google
MapReduce
Memproses data dalam 2
tahap
• Tahap Map
• Tahap Reduce
Manajer sumber daya cluster

YARN (Yet Sistem operasi-nya Hadoop

Another Terdiri dari:

Resource • Resource Manager (berjalan pada Master


node)
Negotiator) • Node Manager (berjalan pada Slave node)
• Application Master (berjalan pada Slave
node)
• Container (berada pada slave node)
Penerapan
MapReduce
Ilustrasi
Ilustrasi
Program WordCount
Mapper code

• Membaca input dalam bentuk pasangan key-value


• Menghasilkan output berupa pasangan key-value

Reducer code

Program • Output dari program Mapper menjadi input bagi


program Reducer

MapReduce • Menggabungkan / mengelompokkan berdasarkan key-


nya masing-masing
• Menghitung jumlah value dari setiap key
• Menghasilkan output berupa pasangan key-value

Driver code

• Menentukan konfigurasi
Facebook Mutual Friends

• “Kamu dan Rini memiliki 63 teman yang sama”


• Bagaimana mendapatkan jumlah teman yang sama?
• Bagaimana mengetahui namanya?
• Gunakan MapReduce untuk mendapatkannya
• Langkah:
• Siapkan input (Daftar pertemanan dari Facebook), simpan di
HDFS
• Hitung dengan MapReduce
• Simpan output di HDFS
Menyiapkan
input
Simpan daftar pertemanan
dalam HDFS
Mapper
• Setiap baris menjadi
argument dari sebuah
Mapper
• Iterasi sebanyak jumlah
teman dalam value dari
setiap key
• Key diurutkan
berdasarkan abjad
Reducer

• Setiap baris berupa pasangan key-


>[list of value] menjadi argument
dari Reducer
• Ambil intersection / irisan dari value
yang terdapat dalam [list of value]
• Output berupa pasangan key->[hasil
irisan]
Pengenalan NoSQL Database
NoSQL Database

• Not-only SQL (NoSQL)


• Teknologi yang digunakan
untuk mengembangkan
database non-relasional
generasi berikutnya yang
sangat skalabel dan toleran
terhadap kesalahan.
• Menyimpan data tidak
terstruktur
Fitur NoSQL Database

High
Non-
Schema-less Scalability & Open Source
Relational
Availability
Jenis Database NoSQL

Key-value

Document

Column Family

Graph
• NoSQL database yang paling
Key-Value Database sederhana
• Menyimpan item data
sebagai pasangan kunci (key)
Bersama dengan nilainya
(value)
• Nilai dapat berupa integer,
string, atau struktur data
• Kunci harus unik
• Data diambil melalui kunci
yang tepat
• Operasi yang dapat dilakukan:
• put(key, value)
• get(key, value)
• delete(key)
Document Database

• Menyimpan data sebagai pasangan key-value


• Value berisi data terstruktur atau semi terstruktur
• Data ini disebut Document
• Dokumen dapat memiliki struktur bersarang (nested)
• Dokumen dapat dikodekan menggunakan skema
pengkodean berbasis teks (XML, JSON), atau menggunakan
skema pengkodean biner (BSON)
• Setiap dokumen dapat memiliki skema yang berbeda
Document Database
Column-Family

• Menyimpan data menggunakan model berorientasi kolom


• Data disimpan sebagai kelompok kolom bukan sebagai baris data
• Menggunakan konsep keyspace (semacam skema)
• Sebuah keyspace berisi kelompok kolom yang berisi baris data.
• Baris data berisi kolom
Graph Database

• Menyimpan hubungan antar entitas


• Entitas disimpan sebagai node (simpul)
• Keterkaitan antar entitas disebut edge (ruas) / relationship
• Setiap node dapat memiliki lebih dari satu ruas
• Setiap node dapat memiliki data atribut sebagai key-value
• Edge dapat memiliki data atribut sebagai key-value
• Edge memiliki arah (searah / dua arah), menunjukkan arah penelusuran node
Ekosistem Hadoop
Penutup
• Hadoop adalah sebuah platform
• Dikembangkan oleh Apache secara open source project
• Distributed File System yang sangat skalabel
• Sistem pemrosesan terdistribusi yang sangat cepat
• Menyimpan data yang banyak dan bervariasi
• Dapat melakukan streaming data dan memprosesnya
secara ‘near’ realtime
Referensi
Thomas Erl, Wajid Khattak, and Dr. Paul Buhler. Big Data Fundamentals: Concepts, Drivers & Techniques. The Prentice Hall Service
Technology Series, ISBN-13: 978-0134291079, 2016
Janev V., Graux D., Jabeen H., Sallinger E. (eds) Knowledge Graphs and Big Data Processing. Lecture Notes in Computer Science, vol
12072. Springer, Cham. https://doi.org/10.1007/978-3-030-53199-7_1
Wayan M. Wijaya, Teknologi Big Data: Sistem Canggih dibalik Google, Yahoo!, Facebook, IBM, Nilacakra, 2019

Hadoop Tutorial, DataFlair, https://data-flair.training/blogs/hadoop-tutorial/

Hadoop Tutorial, TechVidvan, https://techvidvan.com/tutorials/apache-hadoop-tutorials/

Hadoop Tutorial for Beginners, Edureka!, https://youtu.be/1vbXmCrkT3Y

NoSQL Database Series, Orange Output, https://www.youtube.com/playlist?list=PLKDJE8BkZ4wxSleTXC9m9HDpPVF9UcSh6

Hadoop Training Video 1, Training Online Tutorial, https://www.youtube.com/watch?v=cpiGrvs46fs&t=3470s


Data Preprocessing
Agenda

Review Pertemuan Sebelumnya

Konsep Data

Data preprocessing

Contoh Implementasi (Studi kasus: Titanic Dataset)


Big Data Ecosystem

Data Analytics
Review
Big Data Analytics Workflow
Big Data Ecosystem
V. Janev et al. (Eds.): Knowledge Graphs and Big Data Processing, LNCS 12072, pp. 3–19, 2020

DATA SOURCES DATA MANAGEMENT DATA ANALYTICS


• Privat (Internal), public • Integrasi • Metodologi
(eksternal) • Penyimpanan • Laporan / Visualisasi
• Terstruktur, tidak terstruktur • Pemrosesan • Aplikasi
• Apa yang sudah terjadi?
• Mengapa terjadi?
• Apa yang akan terjadi?
• Apa yang harus dilakukan?
• Apa yang kita tidak tahu? (Cognitive) *)

Analytics

*) Gudivada, V., Irfan, M., Fathi, E., Rao, D.L.: Cognitive analytics: going beyond big data analytics and machine learning, Chap. 5. Elsevier (2016)
*) Gupta, S., Arpan Kumar Kar, A., Baabdullah, A., Al-Khowaiter, W.: Big data with cognitive computing: a review for the future. Int. J. Inf. Manage. 42, 78–89 (2018)
Big Data Analytics Workflow
Assuncāo, M. D., Calheiros, R. N., Bianchi, S., Netto, M. A. S., & Buyya, R. (2015). Big Data computing and clouds: Trends and future directions. Journal of
Parallel and Distributed Computing. vol. 79-80: pp. 3-15.
Pengertian

• Dataset
• Data object
Konsep • Atribut dan pengukuran
Data • Jenis dataset
• Karakteristik Dataset
• Statistik Dasar untuk
Deskripsi Data
Pengertian

Data object (objek data), disebut


Dataset, merupakan kumpulan dari juga record, point, vector, pattern,
objek data yang merepresentasikan event, case, sample, observasi, atau
sebuah entitas entity. Data object dijelaskan oleh
sejumlah atribut

Atribut, properti atau karakteristik


suatu objek yang dapat berbeda- Atribut disebut juga variabel,
beda, baik dari satu objek ke objek karakteristik, field, kolom, fitur,
lainnya maupun dari satu waktu ke atau dimensi
waktu lainnya.
Dataset Iris
Atribut dan Pengukuran
Pada tingkat paling dasar, atribut bukanlah tentang angka atau simbol. Namun, untuk
menganalisis karakteristik objek, diberikan angka atau simbol padanya. Untuk melakukan
ini dibutuhkan skala pengukuran.

Skala pengukuran adalah aturan (fungsi) yang mengaitkan nilai numerik atau simbolik
dengan atribut suatu objek.
Contoh: timbangan untuk mengukur berat badan, klasifikasi untuk membedakan
laki-laki dan perempuan, menghitung jumlah kursi di ruang rapat
Tipe Atribut
Tipe Atribut Deskripsi Contoh

Nominal Berupa kategori, membedakan satu Jenis kelamin, status perkawinan,


Categorical

objek dari yang lain kode pos, NPM, dll


(Kualitatif)

Ordinal Nilai yang merepresentasikan urutan Grade nilai, ukuran kualitas (baik,
lebih baik, sangat baik), dll

Interval Untuk atribut interval, perbedaan antara Temperatur (suhu), tanggal, dll
(Kuantitatif)

nilai memiliki arti, yaitu ada unit


Numeric

pengukuran.
Ratio Hasil pengukuran yang sebenarnya Harga, jumlah, usia, berat badan,
panjang, dll
Diskrit
Nilai Atribut • Nilainya terbatas atau dapat dihitung tanpa
batas. Dapat bersifat kategorikal seperti
kode pos, maupun numerik seperti jumlah.
• Binary (biner), adalah kasus khusus untuk
nilai diskrit. Hanya memiliki dua nilai.
Contoh: benar/salah, ya/tidak, 0/1.

Kontinu
• Nilainya adalah bilangan real. Seperti berat,
tinggi, temperature (suhu).
• Biasanya direpresentasikan dengan bilangan
floating point dengan presisi terbatas.
Jenis Dataset

RECORD GRAPH ORDERED


Tid Refund Marital Taxable
Status Income Cheat

1 Yes Single 125K No


Record 2 No Married 100K No
3 No Single 70K No
4 Yes Married 120K No
5 No Divorced 95K Yes
6 No Married 60K No
7 Yes Divorced 220K No
8 No Single 85K Yes
9 No Married 75K No
10 No Single 90K Yes
10
Record
Projection Projection Distance Load Thickness
• Data Matrix of x Load of y load

10.23 5.27 15.22 2.7 1.2


12.65 6.25 16.22 2.2 1.1
Record
• Data Matrix
• Document Data
Record TID Items
1 Bread, Coke, Milk
• Data Matrix 2 Beer, Bread
• Document Data
3 Beer, Coke, Diaper, Milk
• Transaction Data
4 Beer, Bread, Diaper, Milk
5 Coke, Diaper, Milk
Graph
• World wide web
• Social networks
• Molecular structures
Ordered Items/Events

• Sequences of transactions

An element of
the sequence
Ordered
GGTTCCGCCTTCAGCCCCGCGCC
• Sequences of transactions CGCAGGGCCCGCCCCGCGCCGTC
• Genomic sequence data GAGAAGGGCCCGCCTGGCGGGCG
GGGGGAGGCGGGGCCGCCCGAGC
CCAACCGAGTCCGACCAGGTGCC
CCCTCTGCTCGGCCTAGACCTGA
GCTCATTAGGCGGCAGCGGACAG
GCCAAGTAGAACACGCGAAGCGC
TGGGCTGCCTGCTGCGACCAGGG
Ordered
• Sequences of transactions
• Genomic sequence data
• Spatio-Temporal Data

Average Monthly
Temperature of
land and ocean
Ordered
• Sequences of transactions
• Genomic sequence data
• Spatio-Temporal Data
• Multimedia
• Spatial (maps)
• Image data
• Voice data
• Video data
Dimentionality (Dimensi)

• Dimensi dari suatu dataset adalah jumlah


atribut yang dimiliki oleh objek dalam
dataset tersebut. Jika dimensi terlalu
tinggi maka sulit dianalisis.
• Issue: Dimentionality reduction
Karakteristik (mengurangi dimensi)

Dataset Sparsity (Ketersebaran)

• Hanya yang ada nilainya yang terhitung

Resolution (Resolusi)

• Pola bergantung pada skala


Statistik Dasar untuk
Deskripsi Data
• Agar dapat memahami data terkait pusat distribusi, variasi, dan sebaran data
• Pengukuran tendensi sentral: mean, median, mode

positively skewed negatively skewed


Data Preprocessing
Data Quality

Accuracy: benar atau Completeness: ada


Consistency: tidak
salah, akurat atau yang tidak tercatat,
konsisten
tidak tidak tersedia, …

Believability: seberapa Interpretability:


Timeliness: apakah
dipercaya data itu seberapa mudah data
terupdate?
benar? dapat dipahami?
Data Quality Problem

Noise and outliers Missing values Duplicate data


Data Preprocessing
Imputasi (missing value), smoothing (noisy
data), identifikasi atau penghapusan
Data Cleaning (outliers), dan penanganan (data
inconsistencies)

Integrasi dari multiple databases, data


Data Integration cube, atau files

Dimentionality reduction
Data Reduction Numerosity reduction
Data compression

Data Transformation and Normalisasi

Data Discretization Diskretisasi data


Data Preparation 2) Data Reduction 2)
• Data riil umumnya ‘kotor’, berpotensi adanya incorrect data
• Bisa disebabkan karena kesalahan instrument pengukuran,
human or computer error, dan transmission error
Beberapa • Noisy: berisi noise atau error
• Contoh: tinggi badan= “-120”
contoh • Outliers: anomali
• Incomplete (missing value)
kesalahan • Contoh: pekerjaan = “ ”
• Inconsistent: ada perbedaan pada beberapa atribut
data • Contoh: usia = “31”, tanggal lahir = “28/03/2000”
• Contoh: sebelumnya rating “1, 2, 3”, sekarang
rating “A, B, C”
• Intentional
• Default tanggal lahir: 1 Jan
• Duplicate data
• Contoh: Orang yang sama dengan 2 alamat email
yang berbeda
Menghapus objek data
atau atribut
Menangani
Mengestimasi nilai
Missing yang hilang
Value
Diabaikan (ignore)
Estimasi Missing Value
(Imputasi)
Imputasi nilai secara manual

Imputasi nilai secara otomatis menggunakan


• Nilai mean, median, mode dari atribut yang ada
missing value
• Nilai mean, median, mode untuk semua sampel yang
memiliki kelas yang sama
• Nilai estimasi menggunakan metode Bayesian, Decision
tree, Regresi, k-Nearest Neighbor, Expectation
Maximization,…
Menangani Noise

• Binning
• Mengurutkan data dan membagi
menjadi beberapa bins berdasarkan
frequency (equal-frequency)
• Kemudian melakukan
• smooth by bin means,
• smooth by bin median,
• smooth by bin boundaries,
• dsb.
Menangani Noise

• Regression
• Melakukan smooth by fitting data ke
fungsi regresi
• Clustering
• Mendeteksi dan menghapus outliers
• Combined computer and human inspection
• Mendeteksi nilai yang meragukan dan
dicek secara manual
Data Integration

• Integrasi data dari beberapa sumber data


• Identifikasi: Atribut sama namun mempunya nama yang berbeda
• Derivasi: Satu atribut bisa diderivasi dari atribut lain pada database lain,
misalnya: total gaji setahun
• Redundansi attribut bisa dideteksi menggunakan analisis
korelasi dan kovarian
• Chi square test untuk tipe nominal
• Pearson correlation untuk tipe numerik
• Mengurangi representasi data menjadi lebih
kecil
• Motivasi: Analisis data yang kompleks
memerlukan waktu komputasi yang lama
• Strategi
• Dimensionality reduction (menghapus
atribut tidak penting)
• Wavelet transforms
Data Reduction • Principal Components Analysis (PCA)
• Feature subset selection, feature
creation
• Numerosity reduction (Data Reduction)
• Regression and Log-Linear Models
• Histograms, clustering, sampling
• Data cube aggregation
• Data compression
Data Transformation
• Proses yang mentransformasi nilai asli ke nilai baru
• Metode atau Pendekatan
• Smoothing: menghapus noise
• Attribute/feature construction
• Membuat atribut baru dari atribut yang sudah ada
• Aggregation
• Normalization
• min-max normalization
• z-score normalization
• normalization by decimal scaling
Studi Kasus (Data Titanic)
Atribut Numeric

Atribut Categorical
Kelas
Outliers?
Penutup
• Konsep Data → Data Preprocessing → Menangani missing value
• Kunci: Data Understanding (pemahaman terhadap data)
• Pahami atribut datanya.
• Meringkas data dengan mengidentifikasi karakteristik utama, seperti volume
data dan jumlah variabel dalam data.
• Pahami masalah dengan data, seperti nilai yang hilang, ketidakakuratan, dan
outliers.
• Visualisasikan data untuk memvalidasi karakteristik utama data atau gali
masalah dengan ringkasan statistik.
Referensi
1. Pang-Ning Tan, Michael Steinbach, Vipin Kumar, Introduction to Data Mining, Pearson,
2014
2. Jiawei Han, Micheline, Kamber, and Jian Pei, Data Mining: Concepts and Techniques (3
rd Edition), University of Illinois at Urbana-Champaign & Simon Fraser University, 2011
3. Salvador García, Julián Luengo, Francisco Herrera, Data Preprocessing in Data Mining,
Springer, 2015
4. Chastine Fatichah, Pengertian Data, Jenis dan Tipe Data, Deskripsi Data, Data
Preprocessing, Modul Pelatihan Microcredential Artificial Intelligence, 2021
5. Understanding The Data in Data Science, 3 Pillar Global,
https://www.3pillarglobal.com/insights/blog-posts/understanding-data-data-science/
Big Data Implementation at Fintech
Muhammad Saipul Rohman
Data Engineer
A glimpse
about
Linkaja
LinkAja 2020 3
… enabled by the support we receives from key stakeholders and SOEs

LinkAja 2020 4
LinkAja 2020 5
LinkAja 2020 6
Big Data
at
Linkaja
Oct 2019, Before the fun begins..

Vendor-driven Information retrieval No extended data


Scalability issues
development is challenging products
Where were we?

1. Monolithic architecture
Scalability issues
2. Architecture & network modification was a challenge

3. Hard to scale servers/engines

4. Infrastructure was not so easy to govern

5. No clear logging & monitoring system

6. Scattered databases
Now, Talking about the team

Vendor-driven
development
1. No internal resource, too much dependency to vendors

2. Communication is a challenge

3. No clear data strategy


Talking about classic problem

Information retrieval
is challenging 1. Not so consistent data

2. Metrics definitions are scattered all over the organization

3. Difficult to extend information influence through visualization

4. Democratizing data.. Are you kidding me?


Limited room for innovation

No extended data
products

1. Can not build AI/ML products

2. Can not do UI/UX & product experimentation


Moving All Data Infrastructure to Cloud

Scalability issues
Compute engine & networking

Storage and datawarehouse

Logging, monitoring, & IAM


Why we exist

The needs of Data unification, layering, & Talent pool demand to build big data
democratization capabilities, such as data engineering,
analytics & data governance, and AI/ML

Critical business activities require big data Requirement to advocate high quality and
technology, i.e. business decision, product secure data
development, & crucial operational works

What are our missions

1 2 3 4
Building a single source of Instil the organisation as a Empowering business with Building Artificial
truth of company data lake, whole with fit-for-purpose accessible and secure data Intelligence/Machine Learning
that is scalable, reliable, and data governance principles platform to extract the benefit products that produce high
with high availability from data driven culture business value
What we do and how we do it

Getting the basics perfect

We focus our access management on our


cloud assets

Our cloud assets are great, but we are the


ones optimizing them we try to do less of these… instead, we do these…

instant, in-the-moment requests structured, planned work


We are the experts in data, from storing it,
ad-hoc data retrieval data enablement and evangelism
accessing it, and everything in between. So
partner with us when using data working on requests with solution building and educating on
short-term thinking the most efficient and sustainable
outcome
Big Data Group

Big Data
Group

Data Data Platform AI/ML


Engineering & Core BI Platform

Data Solution Engineering Core BI & Reporting AI/ML Engineering


Data pipeline development, cross data Proactive data enablement by anticipating Bringing best-in-class of self-service AI/ML
sources integration, and data product business needs of self-service data access platform to support business in developing
enablement to support business decision & AI/ML model
operational optimization Product Analytics
Partnering with Product Owners and Product
AI/ML Scientist
Data Infrastructure Engineering Managers to empower the business in Proactively empowering AI/ML activities in
Build scalable & high performing data making product development data-driven providing business and product insights
infrastructure that enhances the efficiency decisions through simulation, intelligent pattern,
and productivity of the data environment and unstructured data insight

Data Governance
Raise awareness, build frameworks and enforce
activities of data quality and data security in all
data domains across the organisation
How Big Data
started ?
Evolution Big Data
5V of Big Data
Type of Data Source
Common roles in Data Teams
Big Data Architecture

• Lambda Architecture
• Kappa Architecture
Lambda Architecture
Example Lambda Architecture
Kappa Architecture

Streaming/ Streaming/
Data Analytical Analytics &
Real-time Real-time
Sources Ingestion Processing Data Store Reporting
Example Kappa Architecture
• DataWarehouse/Data Marts
Analytical • Data Lake
Data Store • Lakehouse
Data Warehouse VS Data Lake VS Lakehouse
Data Ingestion

Self service
Sources Datalake Datamart
playground

BI Reporting AI/ML
Democratization is nonsense without clear governance framework

We need to ensure the data is in high quality We need to ensure the data is secure

1. Plant airflow sensors in ingestion process


1. Looker dashboard for all individual &
service accounts access

2. Looker dashboard for ingestion processes 2. Platform security assessment


AI is useless if you have
scrappy foundation

Tertiary AI/ML

Reporting,
Secondary
Dashboard, &
Analytics

Primary
Data engineering
Use Case Big
Data at LinkAja
Tech Stacks and Production Components
Data Engineering Technology Ecosystems
Data Sources Persistence Layer
Data Pipelines

Databases

Streaming Infrastructure Google Big


Query

Excel
Connect Connect

Google
Files Batching Infrastructure Cloud Storage

API

Monitoring
Airflow
..... GCP Console
Dashboard
LinkAja 2020 41
Core Business Intelligence

Self-service platform
Data evangelist Visualisation Data enablement • Business data dictionary
• Operational data dashboard
• Query optimization how-to guide
Data linkage Business Business-
and data Intelligence focused
access dashboards enablement Government projects
consultant
• Kartu Prakerja disbursement
• Pegadian Emas integration with LinkAja
Data-driven
business Core reporting
advocate
Financial regulators partner

• Bank Indonesia reporting


• Data pipeline documentation

LinkAja 2020 22
Product Analytics and Experimentation

Analytics dashboards Product cataloguing Data-focused product


development

Customer segmentation Product Requirement Data points enablement


dashboards Document with data in mind during product development

Product categorization based


Product usage dashboards Event tracking analysis
on data

Performance dashboards

LinkAja 2020 43
Data Governance

Data quality centre of excellence

Data quality and security • Prioritisation of data of high importance and value
• Data quality tools and processes improvements
• Data ingestion flow metrics (work in progress!)

Adoption of data governance tools


Data governance policy Best in class • Maximum utilization of Google Cloud Platform built-
implementation tools in tools
• Bespoke data catalog tool (work in progress!)

Simplification through clear framework


Awareness- Business-focussed Data governance
building requirements framework • Optimising the number of user access groups
• Bespoke data catalog tool (work in progress!)

LinkAja 2020 44
• Building AI/ML Platform
AI/ML Engineering • Making AI/ML platform adoption easier
• Automation of AI/ML production

LinkAja 2020 45
AI/ML Scientist

Starting AI Guild as eKYC improvement NLP Project


internal community • Image quality metrics • Gender prediction
• ID card detection • Syariah recommendation

LinkAja 2020 46
Introduction
AI in day-by-day activities
Tantangan dan Ancaman
Overview:
Big Data Analytics – Data Science – Data Mining

AI Machine Learning
Deep Learning
Dan Ariely, 2013, Duke University
End Of Segment I
AI di PPATK
Kepegawaian

Kepatuhan
Pelaporan

Analisis
Transaksi

Pelaporan

Sentimen
Analisis

Keamanan
Informasi

dan lain lain …


AI di PPATK
Kepatuhan Analisis
Kepegawaian Pelaporan Sentimen Analisis Keamanan Data
Pelaporan Transaksi

Performa staff Prioritas Audit Skoring Chat Box Analisis berita Log analisis
layananbantuan

Seleksi pegawai Profiling pelapor Analisis TPA Evaluasi Text analisis


Laporan

Social Media analisis


Text matching

Profiling Pelaku
Sumber :
5Ws Model for Big Data Analysis and Sumber :
Visualization, IEEE 16th International Conference, 7 enablers , COBIT 5 - A Business Framework for the Governance and
University of Technology, Management of Enterprise IT
Sydney Australia, Tiajin University Tiajin China, 129-134
Jumlah data saat ini
Summary

❑ AI terbatas hanya sebuah konsep umum, implementasi dan metode yang digunakan serta
hal-hal teknis lainnya dibahas pada domain machine learning

❑ Selain computing power yang mumpuni, big data dengan kualitas data baik dan
metode/algoritma yang tepat adalah kunci keberhasilan machine learning

❑ Performa machine learning dapat ditingkatkan melalui perbaikan kualitas data, pemilihan
algoritma yang tepat, melakukan tuning dan menerapkan metode ensemble.

❑ AI berpotensi meningkatkan produktivitas, efisiensi dan akurasi hampir di semua bidang


sehingga mampu mengurangi biaya operasi dan juga sumber daya manusia.

❑ AI memiliki manfaat dan dampak yang besar, namun tantangan implementasinya perlu
dipersiapkan dengan matang karena AI membutuhkan resource yang besar.
End Of Segment II
Contoh Implementasi Machine Learning

Tujuan:
Melakukan Pemodelan Machine Learning untuk memprediksi data transaksi keuangan merupakan transaksi wajar atau mencurigakan

Deskripsi Data
• Nama: Data Transaksi Keuangan
• Jumlah Baris Data: 10.660
• Jumlah Kolom Data: 32
• Sumber Data: Direktorat Pengawasan Kepatuhan
Tahapan Implementasi
Pemodelan
Machine
Learning

Logistic
Split Data Regression

Model Hasil Prediksi


Train (70 %)
K-NN Prediksi (Data Train)

Pemilihan
Eksplorasi dan Random Evaluasi
Data Perankingan Forest Akurasi
Variabel

Hasil Prediksi
Test (30%)
(Data Test)
Eksplorasi Data
Box Plot Variabel Data Transaksi Keuangan
Pemilihan dan Perankingan Variabel
Hasil Perankingan*
Variabel Ranking
MAX_TRANSAKSI_DEBET 1
Recursive Feature Elimination (RFE)
MAX_TRANSAKSI_KREDIT 2
AVG_TRANSAKSI_DEBET 3
SUM_TRANSAKSI_DEBET 4
SUM_TRANSAKSI_KREDIT 5
RFE pada dasarnya adalah proses rekursif
KENAIKAN_PORTOFOLIO 6 yang meranking fitur berdasarkan tingkat
AVG_TRANSAKSI_KREDIT 7
pentingnya terhadap proses prediksi. Pada
SUM_PORTOFOLIO_YYYY 8
MAX_SETOR_TUNAI 9 setiap iterasi, ranking pentingnya fitur diukur
COUNT_TRANSAKSI_DEBET 10 dan fitur yang kurang relevan dihilangkan.
SUM_PORTOFOLIO_XXXX 11
AVG_SETOR_TUNAI 12
SUM_SETOR_TUNAI 13
COUNT_TRANSAKSI_KREDIT 14
JUMLAH_REKENING 15
COUNT_SETOR_TUNAI 16
SUM_TARIK_TUNAI 17
MAX_TARIK_TUNAI 18
TEMPAT_LAHIR_TEMPAT_KE
19
DUDUKAN
PENGHASILAN 20
PEKERJAAN 21
COUNT_TARIK_TUNAI 22
AVG_TARIK_TUNAI 23
NAMA_ESELON 24
HUBUNGAN 25 *diurutkan dari nilai kepentingan tinggi ke rendah
JENIS_KELAMIN 26
Split Train – Test Data
Tabel Split Data Train - Test

Jumlah Transaksi Jumlah Transaksi


Wajar (Kode 1) Mencurigakan (Kode 0)
Train 3573 3889
Test 1528 1670
Pembentukan Model
Logistic Regression K-NN Random Forest

Logistic Regression K-NN menggunakan pendekatan


Random Forest membuat sejumlah
menggunakan pendekatan sejumlah K data terdekat
kemungkinan pohon keputusan
perhitungan statistika (tetangganya) yang
(decision tree) untuk kemudian
menggunakan fungsi memiliki similarity atau
divoting untuk menentukan
logistik untuk memodelkan kemiripan sebagai acuan untuk
klasifikasi terbaik.
klasifikasi variable. menentukan klasifikasi
Hasil Prediksi

Keterangan:
• True - Positif: Model memprediksi transaksi wajar dan itu benar.
• True - Negatif: Model memprediksi transaksi mencurigakan dan itu benar
• False - Positif: Model memprediksi transaksi wajar tetapi sebenarnya transaksi
mencurigakan
• False - Negatif: Model memprediksi transaksi mencurigakan tetapi sebenarnya
transaksi wajar
Evaluasi Model

Rumus Perhitungan Akurasi =

Tabel Perbandingan Hasil Akuras Model

Model Nilai Akurasi


Logistic Regression 0.616635397123202
K-NN 0.9055659787367104
Random Forest 0.9821763602251408
DEMO MODEL
24

BIG
Data
Issue
Problem
Opportunity

THANKS
DATA MINING

Sulistyo Puspitodjati
AGENDA

Data dan Data Preparation

Konsep Data Mining

Data Mining Task

Data Mining tools dan Implementasi


AGENDA

Data dan Data


Preparation
DATA

Data object (objek data), disebut


Dataset, merupakan kumpulan dari juga record, point, vector, pattern,
objek data yang merepresentasikan event, case, sample, observasi, atau
sebuah entitas entity. Data object dijelaskan oleh
sejumlah atribut

Atribut, properti atau karakteristik


suatu objek yang dapat berbeda- Atribut disebut juga variabel,
beda, baik dari satu objek ke objek karakteristik, field, kolom, fitur,
lainnya maupun dari satu waktu ke atau dimensi
waktu lainnya.
Big Data?
Tantangan: Percepatan Big Data Analytics

Source:OpenAINVIDIA
AGENDA

Data dan Data Preparation

Konsep Data Mining

Data Mining Task

Data Mining tools dan Implementasi


AGENDA

Konsep Data
Mining
• Pertumbuhan data eksplosif: dari terabytes (1012 )
Why Data Mining? ke petabytes 1015 )/day
• Pengumpulan dan ketersediaan data
• Automated data collection tools, database
systems, Web, computerized society

• Sumber utama melimpahnya data


• Business: Web, e-commerce, transactions, stocks, …
• Science: Remote sensing, bioinformatics, scientific
simulation, …
• Society and everyone: news, digital cameras, YouTube
We are drowning in data, but starving
for knowledge! (John Naisbit, 1982) • “Necessity is the mother of invention”—Data
mining—Automated analysis of massive data sets
13
Evolusi Sains
• Sebelum 1600, empirical science
• 1600-1950s, theoretical science
• Model teoritis memicu eksperimen-eksperimen untuk genaralisasi
• 1950s-1990s, computational science
• Ilmu komputasional secara tradisional bermakna simulasi
• tumbuh dari ketidakmampuan untuk memcahkan model matematika kompleks.
• 1990-now, data science
• Banjir data dari instrument sainstifik dan simulasi
• Kemampuan menyimpan dan mengelola petabytes data online
• Internet & grid computing membuat semua dapat mudah diakses.
• Skala tugas pengelolaan, akusisi, oragnisasi , query, dan visualisasi dari informasi saintifik
linier dengan volume data ➔ data mining adalah suatu tantangan

(Jim Gray and Alex Szalay, The World Wide Telescope: An Archetype for Online Science, Comm. ACM, 45(11): 50-54, Nov. 2002)
14
Evolusi Teknologi Basis data
• 1960s:
• Data collection, database creation, IMS and network DBMS
• 1970s:
• Relational data model, relational DBMS implementation
• 1980s:
• RDBMS, advanced data models (extended-relational, OO, deductive, etc.)
• Application-oriented DBMS (spatial, scientific, engineering, etc.)
• 1990s:
• Data mining, data warehousing, multimedia databases, and Web databases
• 2000s
• Stream data management and mining
• Data mining and its applications
• Web technology (XML, data integration) and global information systems
15
WHAT IS DATA MINING?
• Data mining adalah proses eksplorasi dan analisa data besar untuk diperoleh
pola dan aturan yang berarti.
• Nama alternatif
Knowledge discovery (mining) in databases (KDD), knowledge extraction,
data/pattern analysis, data archeology, data dredging, information harvesting,
business intelligence, etc.

16
PROSES KNOWLEDGE DISCOVERY (KDD)
Pattern Evaluation

Data Mining

Task-relevant Data

Data Warehouse Selection

Data Cleaning

Data Integration

Databases 17
Contoh: Web Mining Framework

• Web mining biasanya melibatkan proses


— Data cleaning
— Data integration dari berbagai sumber
— Warehousing data
— Konstruksi Data cube
— Data selection untuk data mining
— Data mining
— Presentasi hasil mining
— Patterns dan knowledge yang akan digunakan disimpan dalam knowledge-
base
18
Contoh: Proses Data Mining dalam Business Intelligence

Increasing potential
to support
business decisions End User
Decision
Making

Data Presentation Business


Analyst
Visualization Techniques
Data Mining Data
Information Discovery Analyst

Data Exploration
Statistical Summary, Querying, and Reporting

Data Preprocessing/Integration, Data Warehouses


DBA
Data Sources
Paper, Files, Web documents, Scientific experiments, Database Systems
19
KDD Process: Sudut pandang Machine Learning dan Statistik

Input Data Data Pre- Data Post-


Processing Mining Processing

Data integration Pattern discovery Pattern evaluation


Normalization Association & correlation Pattern selection
Feature selection Classification Pattern interpretation
Clustering
Dimension reduction Pattern visualization
Outlier analysis
…………

• This is a view from typical machine learning and statistics communities

20
Contoh: Medical Data Mining
• Health care & medical data mining – mengadopsi sudut pandang
statistics dan machine learning, proses yang dilakukan:
1.Preprocessing data: mis. feature extraction atau dimension
reduction
2.Classification atau clustering processes
3.Post-processing untuk presentasi

21
Data Mining dapat dipandang dari berbagai dimensi:
• Data yang akan di-mining
• Database data (extended-relational, object-oriented, heterogeneous,
legacy), data warehouse, transactional data, stream, spatiotemporal, time-
series, sequence, text and web, multi-media, graphs & social and
information networks
• Knowledge yang akan di-mining (atau Data mining functions/tasks)
• Characterization, discrimination, association, classification, clustering,
trend/deviation, outlier analysis, etc.
• Descriptive vs. predictive vs prescriptive data mining
• Multiple/integrated functions and mining at multiple levels
• Techniques utilized
• Data-intensive, data warehouse (OLAP), machine learning, statistics,
pattern recognition, visualization, high-performance, etc.
• Diterapkan di
• Retail, telecommunication, banking, fraud analysis, bio-data mining, stock
market analysis, text mining, Web mining, etc.
22
DATA MINING: pada DATA?
• Database-oriented data sets and applications
• Relational database, data warehouse, transactional database

• Advanced data sets and advanced applications


• Data streams and sensor data
• Time-series data, temporal data, sequence data (incl. bio-sequences)
• Structure data, graphs, social networks and multi-linked data
• Object-relational databases
• Heterogeneous databases and legacy databases
• Spatial data and spatiotemporal data
• Multimedia database
• Text databases
• The World-Wide Web

23
AGENDA

Data dan Data Preparation

Konsep Data Mining

Data Mining Task

Data Mining tools dan Implementasi


AGENDA

Data Mining Task


DATA MINING TASKS
• Prediction Tasks
• Menggunakan beberapa variable untuk memprediksi nilai yang
belum diketahui berdasarkan variabel veriabel tersebut.
• Description Tasks
• Menjelaskan data untuk memudahkan interptretasi pola data
• Prescriptive tasks
• Menyarankan aksi-aksi beserta hasil (outcomes) yang potensial
dari setiap aksi
Contoh data mining tasks
• Classification [Predictive]
• Clustering [Descriptive]
• Association Rule Discovery [Descriptive]
• Sequential Pattern Discovery [Descriptive]
• Regression [Predictive]
• Deviation Detection [Predictive]
DATA MINING FUNCTION: GENERALIZATION
• Data dan objects dalam databases mengandung informasi detail
pada level konsep primitive.
• Contoh, item relation dalam database sales dapat mempunyai
attributes yang menjelaskan informasi level rendah seperti item_ID,
name, brand, category, supplier, place_made and price.
• Jadi penting untuk meringkas (summarize) dari data besar dan
dinyatakan dalam level konseptual
• Contoh, summarizing dari set item yang berhubungan dengan
musim Lebaran
• Data penjualan yang menjelaskan secara umum hasil ringaksan
musim tertentu, akan sangat membantu manager sales dan
marketing
DATA MINING FUNCTION: GENERALIZATION Process
• Information integration and data warehouse construction
• Data cleaning, transformation, integration, and multidimensional data
model
• Data cube technology
• Scalable methods for computing (i.e., materializing) multidimensional
aggregates
• OLAP (online analytical processing)
• Multidimensional concept description: Characterization and discrimination
• Generalize, summarize, and contrast data characteristics, e.g., dry vs. wet
region

28
DATA MINING FUNCTION: ASSOCIATION AND CORRELATION
ANALYSIS
• Pola yang sering muncul (Frequent patterns or frequent itemsets)
• Barang (items) apa yang sering dibeli secara bersamaan?
• Association, correlation vs. causality
• Contoh bentuk aturan asosiasi
• Diaper → Beer [0.5%, 75%] (support, confidence)
• strongly associated items ➔ strongly correlated?
• Bagaimana menambang (mining) pola dan aturan seperti ini dalam suatu data
besar secara efisien?
• Bagaimana pola terbut untuk classification, clustering, applications yang lain?

29
Association Rule Discovery: Definition

• Given a set of records each of which contain some number of


items from a given collection;
• Menghasilkan aturan dependensi yang memprediksi kejadian
(occurrence)suatu item berdasarkan kejadian item lain

TID Items
1 Bread, Coke, Milk
Rules Discovered:
2 Beer, Bread {Milk} --> {Coke}
3 Beer, Coke, Diaper, Milk {Diaper, Milk} --> {Beer}
4 Beer, Bread, Diaper, Milk
5 Coke, Diaper, Milk
Association Rule Discovery: Application

❑ Manajemen Rak di Supermarket.


▪ Tujuan: mengidentifikasi items yang dibeli bersamaan oleh banyak
customer
▪ Pendekatan: lakukan mining aturan asosiasi
▪ Contoh klasik, ditemukan aturan:
• customer yang membeli diaper dan susu, maka mempunyai kecenderungan
membeli beer :
DATA MINING FUNCTION: CLASSIFICATION
• Classification dan prediksi (atribut) label
• Membuat models (functions) berdasarkan beberapa training examples
• Menjelaskan dan menentukan class atau konsep untuk prediksi
• Mis., mengklasifikasi desa/wilayah berdasarkan cuaca, atau mengklasifikasi
kendaraan berdasarkan penggunaan bahan bakarnya.
• Memprediksi atribut label class yang tidak diketahui
• Beberapa contoh metode:
• Decision trees, naïve Bayesian classification, support vector machines, neural
networks, rule-based classification, pattern-based classification, logistic regression, …
• Aplikasi :
• Credit card fraud detection, direct marketing, classifying stars, diseases, web-pages,

32
Classification: Definisi

• Berdasarkan sejumlah record (training set )


• Tiap record (data) mempunayi beberapa varaibel (attributes), salah satu atributnya diberi
label class.
• Suatu model ditentukan untuk atribut class sebagai fungsi dari nilai
atribut-atribut lain
• Tujuan: memperdiksi nilai class yang belum diketahui dari suatu
record seakurat mungkin berdasarkan model tersebut diatas.
• test set digunakan sebagai model akurasi. Umumnya data set yang dipunya dibagi menjadi
training set dan test set. Kemudian test set digunakan untuk memvalidasi model
Classification Example

Tid Refund Marital Taxable Refund Marital Taxable


Status Income Cheat Status Income Cheat

1 Yes Single 125K No No Single 75K ?


2 No Married 100K No Yes Married 50K ?
3 No Single 70K No No Married 150K ?
4 Yes Married 120K No Yes Divorced 90K ?
5 No Divorced 95K Yes No Single 40K ?
6 No Married 60K No No Married 80K ? Test
7 Yes Divorced 220K
10

Set
No
8 No Single 85K Yes
9 No Married 75K No Learn
Training
10 No Single 90K Yes Model
10

Set Classifier
Classification: Application 1

• Direct Marketing
• Goal: Reduce cost of mailing by targeting a set of consumers likely to buy a
new cell-phone product.
• Approach:
• Use the data for a similar product introduced before.
• We know which customers decided to buy and which decided otherwise. This {buy, don’t
buy} decision forms the class attribute.
• Collect various demographic, lifestyle, and company-interaction related information
about all such customers.
• Type of business, where they stay, how much they earn, etc.
• Use this information as input attributes to learn a classifier model.
Classification: Application 2

• Fraud Detection
• Goal: Predict fraudulent cases in credit card transactions.
• Approach:
• Use credit card transactions and the information on its account-holder as attributes.
• When does a customer buy, what does he buy, how often he pays on time, etc
• Label past transactions as fraud or fair transactions. This forms the class attribute.
• Learn a model for the class of the transactions.
• Use this model to detect fraud by observing credit card transactions on an account.
Classification: Application 3

• Customer Attrition/Churn:
• Goal: To predict whether a customer is likely to be lost to a competitor.
• Approach:
• Use detailed record of transactions with each of the past and present customers, to find
attributes.
• How often the customer calls, where he calls, what time-of-the day he calls most, his financial
status, marital status, etc.
• Label the customers as loyal or disloyal.
• Find a model for loyalty.
Classification: Application 4

• Sky Survey Cataloging


• Goal: To predict class (star or galaxy) of sky objects, especially visually faint
ones, based on the telescopic survey images (from Palomar Observatory).
• 3000 images with 23,040 x 23,040 pixels per image.
• Approach:
• Segment the image.
• Measure image attributes (features) - 40 of them per object.
• Model the class based on these features.
• Success Story: Could find 16 new high red-shift quasars, some of the farthest objects that
are difficult to find!
Classifying Galaxies
Early Class: Attributes:
• Stages of Formation • Image features,
• Characteristics of light
waves received, etc.
Intermediate

Late

Data Size:
• 72 million stars, 20 million galaxies
• Object Catalog: 9 GB
• Image Database: 150 GB
DATA MINING FUNCTION: CLUSTER ANALYSIS
• Unsupervised learning (i.e., Class label is unknown)
• Mengelompokkan data untuk membentuk kategori baru. (i.e., clusters), mis.
Mengelompokkan data citra (gambar) untuk menentukan distribusi pola
• Prinsip: Memaksimumkan similaritas intra-class & meminimumkan similaritas
interclass
• Many methods and applications

40
Clustering: Definisi

• Diberikan sejumlah data point, yang masing-


masingnya mempunyai sejumlah atribut, dan
similaritasnya dihitung antar mereka, tentukan
kelompok (cluster) sedemikian sehingga
— point (data) dalam satu cluster akan mirip (similar) satu
sama lain, namun
— point (data) dalam cluster yang berbeda akan tidak mirip
satu sama lain
• Pengukur Similaritas :
• Euclidean Distance untuk attributes bernilai kontinyu
• Other Problem-specific Measures.
Illustrating Clustering

Euclidean Distance Based Clustering in 3-D space.

Intracluster distances Intercluster distances


are minimized are maximized
Clustering: Application 1

• Market Segmentation:
• Goal: membagi pasar menjadi beberapa bagian pelanggan yang berbeda
untuk dicapai dengan bauran pemasaran yang berbeda
• Pendekatan:
• Kumpulkan berbagai atribut pelanggan berdasarkan informasi terkait geografis dan gaya
hidup mereka
• Cari cluster dari pelanggan yang similar
• Ukur kualitas clustering dengan mengamati pola pembelian dari cluster yang sama dan
dari semua cluster yang berbeda
Clustering: Application 2

• Document Clustering:
• Goal: menentukan groups of documents yang similar berdasarkan term
(istilah) penting yang muncul.
• Approach: Mengidentifikasikan terms yang sering muncul diseitiap document.
Hitung similarity berdasarkan frequencies dari term yang berbeda, gunakan
untuk clustering.
• Gain: Information Retrieval yang dapat digunakan the clusters to relate a new
document or search term to clustered documents.
DATA MINING FUNCTION: (5) OUTLIER ANALYSIS

• Outlier analysis
• Outlier: data object yang tidak sesuai dengan perilaku umum
data tersebut
• Noise (derau) atau pengecualian? ― One person’s garbage
could be another person’s treasure
• Metode: product of clustering, analisa regresi, …
• Berguna untuk fraud detection, rare events analysis

45
Time and Ordering: Sequential Pattern, Trend and Evolution Analysis
• Sequence, trend and evolution analysis
• Trend, time-series, and deviation analysis: e.g., regression and
value prediction
• Sequential pattern mining
• e.g., first buy digital camera, then buy large SD memory cards
• Periodicity analysis
• Motifs and biological sequence analysis
• Approximate and consecutive motifs
• Similarity-based analysis
• Mining data streams
• Ordered, time-varying, potentially infinite, data streams

46
emprediksi nilai variabel bernilai kontinu tertentu berdasarkan nilai variabel lain, dengan asumsi model ketergant

REGRESSION
• Memprediksi suatu nilai kontinyu berdasarkan nilai variable
lain, dengan asumsi model dependensi linier atau nonlinier.
• Banyak dilakukan di ilmu statistics, dan bidang neural network f
• Contoh:
• Memprediksi penjualan produk baru berdasarkan pengeluaran promosi
(iklan).
• Memprediksi kecepatan angin sebagai fungsi dari temperature,
humidity, air pressure, dll.
• Time series prediction dari stock market indices.
ANALISA STRUKUR DAN JARINGAN
• Graph mining
• Menetukan subgraph yang kerap muncul (mis., senyawa kimia),, trees (XML),
substructures (web fragments)
• Information network analysis
• Social networks: actors (objects, nodes) and relationships (edges)
• e.g., author networks in CS, terrorist networks
• Multiple heterogeneous networks
• A person could be multiple information networks: friends, family, classmates, …
• Links mengandung informasi semantik: link mining
• Web mining
• Web adalah information network yang besar: contoh PageRank pada Google untuk
searching
• Analisa Web information networks
• Web community discovery, opinion mining, usage mining, …

48
Evaluasi Knowledge
• Apakah semua “knowledge” yang ditemukan menarik?
• Some may fit only certain dimension space (time, location, …)
• Some may not be representative, may be transient, …

• Evaluation of mined knowledge → directly mine only interesting


knowledge?
• Descriptive vs. predictive vs. prescriptive
• Coverage
• Typicality vs. novelty
• Accuracy
• Timeliness
• …

• Gunakan summarization dan Visualization agar mudah dipahami


49
DATA MINING: PERTEMUAN BERBAGAI DISIPLIN ILMU

Machine Pattern Statistics


Learning Recognition

Applications Data Mining Visualization

Algorithm Database High-Performance


Technology Computing

50
AGENDA

Data dan Data Preparation

Konsep Data Mining

Data Mining Task

Data Mining tools dan Implementasi


AGENDA

Data Mining
tools dan
Implementasi
IMPLEMENTASI DATA MINING
▪ Search Engine
▪ Advertising
▪ Customer Relationship Management (CRM)
▪ Database Marketing
▪ eCommerce
▪ Health Care
▪ Investment/Securities
▪ Manufacturing, Process Control
▪ Sports and Entertainment
▪ Telecommunications
▪ Web
▪ etc
SEARCH ENGINE
• Search engine merupakan alat yang digunakan untuk mencari informasi yang
ada di internet
• Seluruh data yang ada di internet disimpan dalam bentuk indeks, sehingga jika
ada pencarian informasi dapat direferensikan dari indeks – indeks tersebut.
• Konsep kerja search engine
• Crawl adalah proses pencarian konten baru dan konten yang perlu
diperbaharui dengan mengirimkan crawler ke seluruh konten yang
ditemukan dari tautan halaman.
• Index adalah penyimpanan informasi dari konten yang ditemukan berupa
indeks, ketika konten tersebut telah diindeks, maka halaman tersebut dapat
muncul sebagai hasil dari proses pencarian.
• Rank adalah mengurutkan hasil proses pencarian dari tingkat relevan
tertinggi.
Microarrays:
Classifying Leukemia
• Leukemia: Acute Lymphoblastic (ALL) vs Acute Myeloid (AML),
Golub et al, Science, v.286, 1999
• 72 examples (38 train, 34 test), about 7,000 genes

ALL
AML

Visually similar, but genetically very different

Best Model: 97% accuracy,


1 error (sample suspected mislabelled)
55
Application:CRM
(Customer Relationship Management)
• Data Mining sering disebut dengan data atau Knowledge
Discovery, yaitu merupakan proses menemukan pola
tersembunyi pada suatu data.
• CRM (Customer Relationship Management) merupakan
strategi bisnis yang memadukan proses, manusia dan
teknologi.
• Tujuan dari CRM adalah untuk mengetahui sebanyak mungkin
tentang bagaimana kebutuhan dan perilaku pelanggan.

56
CRM
• Hubungan antara CRM dan data mining terjadi karena
menghadapi fakta makin banyaknya competitor dan makin
banyaknya permintaan konsumen.
• Data mining dan CRM mempunyai tujuan yang sama yaitu
menemukan yang dibutuhkan konsumen, kepuasan dan
kesetiaan konsumen serta profit.
• Contoh
• Mencegah jumlah pelanggan menutup akunnya di suatu bank
(reducing attrition rate)
Application: e-Commerce
• Amazon.com recommendations
• if you bought (viewed) X, you are likely to buy Y
• Netflix
• If you liked "Monty Python and the Holy Grail",
you get a recommendation for "This is Spinal Tap"
• Comparison shopping
• Amazon Sponsored Products, Google Shopping, BizRat, …

58
Application:
Security and Fraud Detection
• Credit Card Fraud Detection
• over 20 Million credit cards protected by
Neural networks (Fair, Isaac)
• Securities Fraud Detection
• NASDAQ KDD system
• Phone fraud detection
• AT&T, Bell Atlantic,
British Telecom/MCI

59
Data mining tools

Orange
• open source component-based software dalam bahasa
pemrograman Python.
• Sering digunakan untuk anlisa dasar data mining analysis
• Menawarkan fitur preprocess data yang baik.
RapidMiner
• open source component-based software dalam Java
• Sering digunakan untuk “predictive analysis”
• Menawarkan integrated environments untuk “machine learning”,
“deep learning”, dan “text mining”.
Data mining tools
Mahout
• open source platform dikembangkan oleh “Apache”.
• Sering untuk unsupervised learning process
• machine learning algorithms untuk clustering, classification dan collaborative
filtering.
MicroStrategy
• adalah business intelligence and data analytics software mencakup semua data
mining models
• platform yang menawarkan beragam drivers dan gateways yang dapat terhubung
ke semua enterprise resource
• analyze complex big data dengan metransformasikan ke visualisasi yang mudah
diakses
• Mudah dibagikan ke seluruh organisasi (easy sharing)
Recommended Reference Books

• J. Han and M. Kamber. Data Mining: Concepts and Techniques. Morgan Kaufmann, 3 rd ed., 2011

• T. Hastie, R. Tibshirani, and J. Friedman, The Elements of Statistical Learning: Data Mining,
Inference, and Prediction, 2nd ed., Springer-Verlag, 2009

• B. Liu, Web Data Mining, Springer 2006.

• G. Piatetsky-Shapiro and W. J. Frawley. Knowledge Discovery in Databases. AAAI/MIT Press,


1991

• P.-N. Tan, M. Steinbach and V. Kumar, Introduction to Data Mining, Wiley, 2005

• I. H. Witten and E. Frank, Data Mining: Practical Machine Learning Tools and Techniques with
Java Implementations, Morgan Kaufmann, 2nd ed. 2005

62
 Segment 1
◦ Pendahuluan Machine Learning

 Segment 2
◦ Supervised Learning

 Segment 3
◦ Implementasi/Aplikasi Machine Learning
 Interaksi dalam bermasyarakat menghasilkan data dalam
jumlah yang sangat besar
– Bidang transportasi, kedokteran, keuangan,
Computer Vision, marketplace dll

 Perlu teknik tertentu untuk mengekstrak informasi dari


data mentah
– Data: fakta-fakta yang tercatat
– Informasi: pola-pola stuktural yang ada pada data,
misal keterhubungan (relationships) atau
ketergantungan (depedencies)
 in vitro fertilization
– Diberikan: embrio yang dideskripsikan oleh 60
fitur
– Masalah: pemilihan embrio yang akan bertahan
hidup
– Data: fakta historis dari embrio dan hasil akhir

 Cow culling
– Diberikan: sapi yang dideskripsikan oleh 700 fitur
– Masalah: pemilihan sapi yang akan dimusnakan
– Data: fakta historis dari sapi dan keputusan
peternak
Pola-pola struktur yang ada pada suatu koleksi
data (knowledge) dapat direpresentasi dalam
bentuk:

– Tabel
– Aturan (If-then Rules)
– Pohon (Decision Trees)
– Fungsi → Model Linear
– Instance
Aturan jika-maka
 Memahami keterhubungan (relationships) dan ketergantungan
(depedencies) dalam suatu koleksi data adalah suatu aspek yang
sangat penting dalam menganalisa data untuk mengekstrak
informasi yang ada pada data tersebut.
 Deskripsi struktural tersebut dapat digunakan untuk:
– Memprediksi output pada suatu situasi yang baru
– Memahami dan menjelaskan bagaimana prediksi tersebut
dihasilkan
 Ketika tidak ada pendekatan pemodelan (modelling approaches)
yang mudah untuk melakukan hal tersebut, maka metode-metode
cerdas, dikenal juga dengan nama machine learning, Menjadi
solusi alternatif
 Machine Learning adalah metode yang dapat belajar dari
data (data-driven method) sehingga menjadi cerdas.
Cerdas dalam artian memiliki kemampuan generalisasi
terhadap data baru yang belum dipelajari sebelumnya.

 Dalam tataran metode, belajar adalah proses penentuan


nilai parameter-parameter dari metode tersebut.

 Pengembangan metode-metode machine learning


menggunakan ide-ide dari: Mathematics, Statistics,
Computer Science, Computational Neuroscience, Cognitive
Science, Psychology
Related Fields

data
miningComputer Science
statistics
decision theory
information theory machine
learning cognitive science
databases
psychological models
Mathematicsneuroscience
Diberikan data training, misal xi , I sd N
 Preprocessing : pemilihan/ekstraksi fitur dari data, misal xi=(x1, x2, …xD)T
 Learning : penentuan parameter metode, misal w, berdasarkan data
pelatihan
 Testing : pengujian metode dengan data baru. Data penguji (testing data)
tersebut harus dilakukan preprocessing yang sama dengan data
pembelajaran sebelum dieksekusi oleh metod
 Training set : kumpulan data yg sudah dipastikan
kebenarannya, dr sisi label, data awal, komponen2
data yg akan dijadikan kunci,
 Instance: bagian dr training set, sample training set
seperti doc/gambar/video
 Feature/attribut: ciri2 dr masing2 sample
Smartphone: ciri:memiliki layar, kamera, tombol,
 Feature vektor: ciri2 yang ditranslasikan dalam
bentuk vektor, ex, jika mengandung layar diset dgn
1, ukuran disesuaikan dgn jumlah ciri yag akan
diextrak,
 Feature extraction: sebuah proses yg
mempersiapkan data sehingga data tsb bisa kita
extract cirinya menjadi suatu vektor
 Langkah pertama dalam tahapan
preprocessing adalah pemilihan fitur (feature
selection) dari data. Selanjutnya, data dapat
direpresentasi dalam bentuk vektor, matrik
atau tensor.

 Misal: pada perekomendasian jenis contact


lens, fitur-fitur tersebut adalah age, spectacle
prescription, astigmatism, tear production
rate. Sehingga, data dapat direpresentasikan
dalam bentuk vektor.
 Pemilihan fitur sangat mempengaruhi proses
pembelajaran, baik dari segi kemudahan, kecepatan,
maupun akurasi.

 Pemilihan fitur-fitur dari fitur-fitur yang ada dikenal juga


dengan istilah ekstraksi fitur (feature extraction).

 Ekstraksi fitur erat kaitannya dengan mereduksi dimensi


input (dimensionality reduction) untuk mengatasi masalah
komputasi yang dikenal dengan istilah curse
dimensionality problem

 verifikasi data terhadap data dengan melakukan visualisasi


terhadap data tersebut
 Supervised Learning
Data pelatihan disertai target, yaitu {xi,t}, i = 1 sd N.
Tujuan pembelajaran adalah membangun model yang
dapat menghasilkan output yang benar untuk suatu data
input, misal untuk pengklasifikasian (classification),
regresi (regression), ranking.

 Unsupervised Learning
Data pelatihan tidak disertai target, yaitu {xi,t}, i = 1 sd N.
Tujuan pembelajaran adalah membagun model yang dapat
menemukan komponen/variabel/fitur tersembunyi pada
data pelatihan, yang dapat digunakan untuk:
pengelompokan (clustering), reduksi dimensi (dimension
reduction), rekomendasi, dll
 Kinerja Metode diukur berdasarkan kemampuan
generalisasinya, yaitu akurasi pada data yang tidak
digunakan pada tahap pelatihan, yang disebut juga
dengan istilah kapabilitas generalisasi
(generalization capability).

– Data dibagi menjadi dua bagian, yaitu data training


dan data testing
– Kapabilitas generalisasi diukur pada data yang tidak
terlibat dalam pembentukan model, yaitu data testing.
Kapabilitas generalisasi digunakan sebagai dasar
tingkat kepercayaan pada hasil yang diberikan oleh
suatu model
– Selanjutnya, data training dan data testing digabung
menjadi data training baru yang akan digunakan untuk
membangun model baru untuk penggunaan aktual
1. Supervised Learning

2. Unsupervised Learning

3. Reinforcement learning
 Regresi
– Nilai output ti bernilai kontinu (riil)
– Bertujuan memprediksi output
dengan akurat untuk data baru
– Contoh: Prediksi kinerja CPU

 Klasifikasi
– Nilai output ti bernilai diskrit (kelas)
– Bertujuan mengklasifikasi data baru
dengan akurat
– Contoh: Klasifikasi jenis contact lens
 Apply a prediction function to a feature
representation of the image to get the desired
output:

f( ) = “apple”
f( ) = “Pear”
f( ) = “tomato”
f( ) = “cow”

Slide credit: L. Lazebnik


Training set (labels known) Test set (labels
unknown)
y = f(x)

output prediction Image


function feature

 Training: Diberikan training set berlabel {(x1,y1), …,


(xN,yN)}, akan diestimasi fungsi prediksi f dengan
meminimumkan eror dari prediksi pada training set
 Testing: pengaplikasian fungsi f pada data testing x
untuk dilakukan prediksi y = f(x)

Slide credit: L. Lazebnik


Training Training
Labels
Training Images

Image Learned
Training
Features model

Testing

Image Learned
Prediction
Features model
Test Image
 Supervised Learning.
Linear Model; Neural Networks; Metode Kernel,
Radial Basis Function Network; Support Vector
Machine: Classification, Regression, Ranking,
Ordinal Regression, Density, Estimation

 Unsupervised Learning.
K-Means; Principal Component Analysis (PCA);
Independent Component Analysis (ICA); Latent
Semantic Analysis (LSA); Matrix Factorization

 Semisupervised Learning

 Reinformance Learning
 Model linear adalah kombinasi linear dari
fungsi nonlinear dari variabel input (fungsi
basis):
𝑀−1

𝑦 𝑥, 𝑤 = ෍ 𝑤𝑗 φ𝑗 𝑥 = 𝑤 𝑇 φ𝑗
𝑗=0

 Ada banyak pilihan yang mungkin untuk


fungsi basis f(x), misal fungsi linear, fungsi
polinomial, fungsi gaussian, fungsi sigmoidal,
dll
Diberikan data training 𝑥𝑖 , 𝑡𝑖 , 𝑖 = 1, . . 𝑁

 Masalah: bagaimana mendapatkan


kurva polinomial yang cocok untuk
data pelatihan tersebut

 Solusi: mencari kurva polinomial yang


memiliki kesalahan (error) terkecil
pada data pelatihan tersebut

 Persoalan ini sering juga disebut


sebagai polynomial curve fitting
 Salah satu fungsi error yang
sering digunakan adalah fungsi
sum-of-squares error sbb:
𝑁
1 2
𝐸 𝑤 = ෍ 𝑦 𝑥𝑛 , 𝑤 , 𝑡𝑛
2
𝑛=1

 Salah satu metode yang


digunakan untuk mencari nilai
w yang meminimumkan fungsi
error adalah metode kuadrat
terkecil (least squares)
 Setelah penurunan E(w) terhadap w, maka
persoalan penentuan nilai parameter w
menjadi persoalan penentuan solusi sistem
persamaan linear:
𝐴𝑤 = 𝑡
dimana
 Karakteristik model regresi linear polinomial
ditentukan oleh nilai M (orde polinomial atau
jumlah parameter). Pemilihan nilai M yang
optimal dikenal juga dengan istilah pemilihan
model (model selection)
 Ada kalanya terjadi kesalahan pemilihan
model sehingga terjadi overfitting atau
underfitting
 Pada aplikasi praktis, kita sering menemukan
kondisi dimana untuk persoalan yang kompleks
ketersediaan data pembelajaran terbatas.

 Salah satu teknik yang digunakan untuk


mengkontrol fenomena over-fitting adalah
regularisasi (regularization), yaitu dengan cara
menambah finalti ke fungsi error.

 Regularisasi dapat dilakukan melalui


penghalusan kurva dan mengecilkan nilai bobot
 Data: Data tentang informasi keuangan dan personal

 Pertanyaan: layakkah untuk diberi pinjaman ?


◦ Metode statistik sederhana dapat menjawab hampir 90%
kasus
◦ Kasus-kasus pada garis batas (borderline) ditentukan oleh
tenaga ahli yang berwenang
◦ Akan tetapi, 50% kasus-kasus pada garis batas yang diberi
pinjaman gagal dalam pengembalian

 Solusi:
◦ Tolak semua kasus pada garis batas. Hal ini tidak mungkin
karena kasus-kasus pada garis batas adalah nasabah aktif
terbesar
◦ Solusi lain → metode lain, misal machine learning
 Data training:
1000 sample untuk kasus-kasus pada garis batas

 Atribut/Fitur:
◦ Umur
◦ Lamanya tinggal di alamat saat ini
◦ Lamanya menjadi nasabah
◦ Kepemilikan kartu kredit lain

 Hasil:
◦ Decision Tree memberikan akurasi 70%
 Data: gambar-gambar satelit dari perairan
pantai

 Masalah: mendeteksi lapisan minyak pada


gambar tersebut
◦ Lapisan minyak muncul pada gambar sebagai area
hitam dengan bentuk dan ukuran yang berubah-
ubah
◦ Persoalan ini tidak mudah, karena area hitam bisa
juga disebabkan oleh kondisi cuaca, misal angin
◦ Pendeteksian ini adalah proses yang mahal karena
membutuhkan personel yang terlatih
 Data training: diekstrak dari area hitam dari
gambar

 Atribut/Fitur:
◦ Ukuran area
◦ Bentuk area
◦ Intensitas
◦ Ketajaman dan lekukan dari batas
◦ Kedekatan dengan wilayah lain
◦ Info tentang latar belakang

 Kendala:
◦ Sedikit data training
◦ Data tidak seimbang : sebagian besar bukan lapisan
minyak
 Latar belakang: perusahaan pensuplai listrik perlu memprediksi
kebutuhan tenaga listrik pada masa yang akan datang
◦ Peramalan beban min/max untuk setiap jam akan memberikan
penghematan yang signifikan

 Data: berupa model beban yang dibangun secara manual dengan


asumsi kondisi cuaca „normal“
◦ Beban dasar dalam setahun
◦ Periodesitas beban dalam setahun
◦ Pengaruh hari libur

 Masalah: membuat model yang selaras dengan kondisi cuaca

 Atribut/Fitur:
◦ Temperatur
◦ Kelembaban
◦ Kecepatan angin
◦ Kondisi awan
 Data: perusahaan biasanya menyimpan data
pemasaran dan penjualan

 Aplikasi:
◦ Loyalitas Pelanggan, yaitu mendeteksi pelanggan yang akan
menyeberang/pindah ke perusahaan lain berdasarkan
perubahan tingkah laku

◦ Penawaran Khusus, yaitu mengidentifikasi pelanggan yang


potensial untuk keuntungan tertentu, misal pemilik kartu
kredit yang membutuhkan uang selama liburan

 Analisa Market Basket, yaitu mencari item-item yang


biasanya terjadi secara bersamaan dalam transaksi
 Machine Learning tanpa data maka tidak akan bisa bekerja. Oleh
sebab itu, hal yang pertama kali perlu disiapkan adalah data.
Data pada algoritma ini umumnya dibagi menjadi 2 bagian, yaitu
data training dan data testing.

 Data training akan digunakan untuk melatih algoritma dalam


mencari model yang sesuai, sedangkan data testing akan dipakai
untuk menguji dan mengetahui performa model yang didapatkan
pada tahapan testing.

 Topik pembelajaran ini menjelaskan pemahaman dasar


mengenai Machine Learning khususnya Supervised Learning yang
terdiri dari variabel input dan output. Sehingga kita dapat
meramal seperti apa nanti outputnya ketika ingin memasuki
input baru dengan melabeli dataset dengan baik.
 Bishop, C. H., Pattern Recognition and
Machine Learning, Springer, 2006
 Vapnik, The Nature of Statistical Learning
Theory, Spinger, 2000
 Murfy, H., Lecture Note
UNSUPERVISED
LEARNING

Sulistyo Puspitodjati
Rifiana Arief

1
AGENDA
Review Machine Learning

Konsep

Unsupervised Learning Task

Aplikasi/Implementasi

Tantangan
2
AGENDA

Definisi - Konsep

3
Machine Learning

◼ Supervised Learning
◼ Unsupervised Learning
◼ Reinforcement Learning

4
Machine
Learning?

Artificial
Intelligent

5
UNSUPERVISED
LEARNING

6
Unsupervised learning?
◼ Unsupervised learning = unsupervised machine learning
= pembelajaran tak terawasi,
◼ Menggunakan algoritma machine learning untuk
menganalisa dan mengelompokkan (clustering) data
yang tidak berlabel (unlabeled datasets)
◼ algoritma akan menemukan pola yang mungkin
tersembunyi (variable latent) atau pengelompokan data
tanpa intervensi manusia
◼ Untuk
❑ exploratory data analysis,
❑ cross-selling strategies,
❑ customer segmentation, dan
❑ image recognition.
7
Supervised learning vs. unsupervised
learning
◼ Supervised learning: mencari pola dalam
data yang menghubungkan atribut data
dengan atribut target (class/label)
❑ Pola ini yang kemudian digunakan untuk
memprediksi nilai dari atribut target dari suatu
instant pada masa datang.
◼ Unsupervised learning: data tidak punya
atribut target/label
❑ Data dieksplor untuk menemukan beberapa
unsur intrinsik didalamnya
8
https://www.researchgate.net/figure/Supervised-learning-and-unsupervised-learning-Supervised-learning-
9
uses-annotation_fig1_329533120
Supervised vs Unsupervised learning
◼ Algoritma supervised learning cenderung
lebih akurat dari unsupervised learning
model, karena supervised learning
melibatkan manusia untuk memberi label
data dengan benar
◼ Teknik-Teknik regresi dan klasifikasi:
❑ Regresi linear dan logistic
❑ naïve bayes,
❑ KNN (K-nearest neighbour)
❑ Decision tree, random forest.
10
Supervised vs Unsupervised
vs. Semi-supervised Learning
◼ Semi-supervised learning, adalah
pembelajaran ketika hanya sebagian data yang
diberi label
◼ Merupakan pendekatan yang meng-
kombinasikan sejumlah kecil data berlabel
dengan sejumlah data tidak berlabel saat
proses belajar (training/modelling)
◼ Diharapkan dapat meningkatkan akurasi
pembelajaran
11
Unsupervised Learning Task
◼ Model pembelajaran tanpa pengawasan
(unsupervised learning) digunakan untuk
bertugas melakukan
❑ Clustering (pengelompokan),
❑ Association (Analisa asosiasi),
❑ dimensionality reduction (reduksi dimensi)

12
AGENDA
Konsep

Unsupervised Learning Task

Aplikasi/Implementasi

Tantangan
13
AGENDA

Unsupervised
Learning Task
•Clustering
•association
•dimensionality reduction
14
Clustering
◼ Clustering adalah teknik data mining yang mengelompokkan
data tidak berlabel berdasarkan persamaan (similaritas)
atau perbedaannya (difference/distance)-nya
◼ Algoritma Clustering digunakan untuk memproses data
mentah dan tidak terklasifikasi, kedalam kelompok-
kelompok (groups) yang diwakili oleh struktur atau pola
dalam informasi.

15
Tipe Clustering
dapat dikatagorikan ke
dalam tipe:
❑ specifically exclusive
(saling terpisah),
❑ overlapping (tumpang

tindih),
❑ hierarkis,

❑ probabilistik.

16
Exclusive Clustering

◼ Exclusive clustering adalah bentuk


pengelompokan yang menempatkan suatu
titik data hanya berada dalam satu cluster.
◼ Dikenal dengan istilah “hard” clustering
◼ Contoh algoritma: K-means clustering

17
K-means clustering
◼ metode clustering yang menempatkan titik-titik data
kedalam K kelompok,
◼ K mewakili jumlah cluster yang berdasarkan jarak dari
masing-masing centroid (pusat) kelompok.
◼ Titik data yang terdekat dengan centroid akan
dikelompokkan dalam katagori yang sama.
◼ Semakin besar nilai K , nilainya akan menunjukkan
pengelompokkan yang lebih kecil dengan lebih banyak
perincian, sedangkan nilai K yang lebih kecil akan
memiliki pengelompokan yang lebih besar dan perincian
lebih sedikit.

18
K-means clustering

19
K-means clustering

20
K-means clustering
Distance functions
◼ Kunci clustering ad. fungsi jarak (distance
functions): “similarity” dan “dissimilarity” =
proximity.
◼ Berbagai distance functions
❑ Tergantung types data
◼ Numeric data
◼ Nominal data
❑ Tergantung diterapkan

21
Distance functions untuk atribut numerik
◼ Fungsi populer
❑ Euclidean distance dan
❑ Manhattan (city block) distance
◼ distance = dist(xi, xj), untuk xi dan xj = data
points (vectors)
◼ Minkowski distance. (h positive integer).
1
dist (xi , x j ) = (( xi1 − x j1 ) h + ( xi 2 − x j 2 ) h + ... + ( xir − x jr )h ) h

22
Euclidean distance dan Manhattan distance
◼ If h = 2, ➔ Euclidean distance
dist (xi , x j ) = ( xi1 − x j1 ) 2 + ( xi 2 − x j 2 ) 2 + ... + ( xir − x jr ) 2

◼ If h = 1, ➔ Manhattan distance
dist (xi , x j ) =| xi1 − x j1 | + | xi 2 − x j 2 | +...+ | xir − x jr |

◼ Weighted Euclidean distance


dist (xi , x j ) = w1 ( xi1 − x j1 ) 2 + w2 ( xi 2 − x j 2 ) 2 + ... + wr ( xir − x jr ) 2

23
Squared distance dan Chebychev distance
◼ Squared Euclidean distance: untuk
menempatkan secara progresif bobot pada
titik data yang terpisah lebih jauh.
dist (xi , x j ) = ( xi1 − x j1 ) 2 + ( xi 2 − x j 2 ) 2 + ... + ( xir − x jr ) 2

◼ Chebychev distance:.

dist (xi , x j ) = max(| xi1 − x j1 |, | xi 2 − x j 2 |, ..., | xir − x jr |)

24
Distance functions u/ atribut
binary dan nominal
◼ Binary attribute: hanya mempunyai 2 nilai,
❑ Gender: male dan female
❑ Ya dan tidak

25
Distance functions

◼ Simple Matching Coefficient


b+c
dist (xi , x j ) =
a+b+c+d

◼ Jaccard coefficient
b+c
dist (xi , x j ) =
a+b+c
26
Distance functions: Nominal attributes

◼ Nominal attributes: > 2 values.


❑ simple matching method.
❑ data points xi dan xj, dengan r adalah banyaknya
attributes, dan q adalah banyaknya nilai yang
sama dalam xi dan xj.

r−q
dist (xi , x j ) =
r

27
Distance function untuk
Text Documents
◼ text document = untai kalimat, tiap kalimat = untai
kata
◼ document dipandang sebagai kantong kata-kata
dalam document clustering.
❑ Sequence and position of words are ignored.
◼ document direpresentasikan sebagai vector
◼ Menggunakan similarity untuk membandingkan 2
dokumen
❑ cosine similarity

28
K-means clustering
◼ Dapat digunakan untuk:
❑ market segmentation,
❑ document clustering,
❑ image segmentation, and
❑ image compression.

29
Overlapping clusters
◼ Clustering yang
mengizinkan satu titik
data menjadi anggota
beberapa kelompok
(cluster).
◼ Contoh metode: “Soft”
atau fuzzy k-means
clustering

30
Hierarchical clustering
◼ Pengelompokan
hirarkis =
hierarchical cluster
analysis (HCA),
◼ 2 cara
❑ agglomerative dan
❑ divisive.

31
Agglomerative clustering
◼ Pendekatan “bottoms-up”
◼ Awalnya setiap data dalam kelompok terpisah
◼ Data digabungkan atas dasar kesamaan dalam satu
kelompok (cluster) secara iterative (berulang) sampai satu
cluster tercapai.

32
Agglomerative clustering
4 pengukuran similaritas cluster
◼ Ward’s linkage: Jarak antar 2 cluster didefisikan
melalui konsep jumlah kuadrat error setelah 2 cluster
digabung.
◼ Average linkage: mendefinisikan jarak 2 cluster
berdasarkan jarak rerata (mean) dari jarak setiap 2 titik
dalam tiap cluster
◼ Complete (or maximum) linkage: maksimum jarak
antar 2 titik dalam masing-masing cluster
◼ Single (or minimum) linkage: minimum jarak antar 2
titik dalam masing-masing cluster

33
CS583, Bing Liu, UIC 34
Divisive clustering

◼ Lawan dari agglomerative clustering


➔ pendekatan “top-down”
◼ Bermula dari cluster tunggal
kemudian dipecah, berdasarkan
perbedaan antar titik data
◼ Divisif dan aglomeratif biasanya
divisualisasikan menggunakan
dendrogram, diagram pohon yang
menunjukkan penggabungan dan
pemisahan setiap data pada setiap
iterasi

35
Dendrogram

◼ Chart dibaca "bottom-up" untuk


agglomerative clustering
◼ "top-down" untuk divisive clustering

36
Probabilistic clustering

◼ Model probabilistic adalah teknik unsupervised yang membantu


memecahkan masalah estimasi densitas atau masalah “soft”
clustering problems.
◼ Dalam probabilistic clustering, titik data dikelompokkan berdasarkan
kemungkinan data masuk dalam distribusi probabilistik tertentu.
◼ Gaussian Mixture Model (GMM) adalah salah satu yang sering
digunakan dalam probabilistic clustering

37
Gaussian Mixture Models
◼ Diklasifikasikan sebagai model campuran, yang berarti
model tersebut terdiri dari sejumlah tak tentu fungsi
distribusi probabilitas.
◼ GMMs terutama digunakan untuk menentukan bahwa
suatu titik data masuk fungsi probabilitas Gaussian
(normal) tertentu
◼ Penentuan berdasarkan mean dan variance.

https://cdn.analyticsvidhya.com/wp-content/uploads/2019/10/gaussians-3d-300x224.png
38
Gaussian Mixture Models

◼ Algoritma
Expectation
Maximation (EM)
dapat digunakan
untuk
memperkirakan
probabilitas
penempatan titik
tertentu dalam
cluster tertentu

39
K-Mean vs GMM

https://www.analyticsvidhya.com/blog/2019/10/gaussian-mixture-models-clustering/
40
AGENDA

Unsupervised
Learning Task
•clustering
•association
•dimensionality reduction
41
Association Rules
◼ metode berbasis aturan
(rule-based method) untuk
menemukan relasi antar
variable dalam dataset.
❑ {butter, bread} => {milk}
◼ Sering digunakan untuk
analisa keranjang pasar
(market basket analysis),

42
Association Rules
◼ Perusahaan dapat memahami lebih baik
❑ hubungan antara beberapa produk yang biasa
digunakan customers
❑ ➔ penjualan lebih baik dengan memanfaatkan
strategi penjualan silang
❑ Mesin rekomendasi
◼ contoh
❑ Amazon’s “Customers Who Bought This Item Also
Bought” or
❑ Spotify’s "Discover Weekly" playlist.

43
Algoritma Association Rule Mining

◼ Apriori  populer
◼ Eclat
◼ FP-Growth

44
45
Apriori algorithms
◼ Apriori algorithms popular melalui market basket
analysis, unggul sebagai mesin rekomendasi pada
music platforms dan retail online.
◼ Menggunakan data transaksi untuk
mengidentifikasi itemset yang kerap
dipakai/dibeli/dipilih (frequent itemsets)
◼ Identifikasi frequent itemsets untuk mengetahui
kemungkinan suatu produk yang dibeli atas dasar
pembelian produk lain.

46
Apriori algorithms
◼ Contoh: jika memilih Black Sabbath’s radio di
Spotify, mulai dengan lagu “Orchid”, salah satu
rekomendasi lagu pada channel ini adalah lagu
Led Zeppelin, mis. “Over the Hills and Far Away.”
➔ didasarkan pada habit pribadi.

◼ Apriori algorithms
menggunakan hash tree untuk
menghitung itemsets,
menavigasikan seluruh
dataset secara breadth-first
Lattice {a, b, c}

47
Mengukur Asosiasi

Support = seberapa populer


itemset

Confidence = seberapa besar


kemungkinan item Y dibeli ketika item X
dibeli, dinyatakan sebagai {X -> Y}

Lift = seberapa besar kemungkinan item Y dibeli ketika item X


dibeli, sambil mengontrol seberapa populer item Y tersebut

48
Mengukur Asosiasi

49
AGENDA

Unsupervised
Learning Task
•Clustering
•association
•dimensionality reduction
50
Dimensionality reduction
◼ Secara umum semakin banyak data, semakin
akurat hasil
◼ Berdampak pada machine learning algorithm
❑ Overfitting
❑ Susah divisualisasikan
◼ Dimensionality reduction adalah Teknik yang
digunakan jika jumlah fitur/dimensi terlalu
banyak
◼ Mengurangi jumlah data input ke ukuran yang
mudah dikelola namum memelihara integritas
dataset semaksimal mungkin
51
Principal component analysis

◼ Sering digunakan pada tahap preprocessing


data stage,
◼ metode dimensionality reduction:
❑ Principal component analysis
❑ Singular value decomposition
❑ Autoencoders

52
Principal component analysis (PCA)
◼ Mengurangi redudansi/kerangkapan dan
memampatkan dataset melalui ekstraksi fitur
◼ Menggunakan linear transformation,
menghasilkan representasi data baru,
menghasilkan sekumpulan komponan utama
(principal components)

53
Principal component analysis (PCA)
◼ Komponen utama pertama adalah arah yang me-
maksimmalkan variance data set
◼ Komponen utama kedua adalah menentukan variance
maksimum dalam data, tidak berkorelasi dengan
komponen pertama, menghasilkan arak tegak lurus
atau orthogonal dengan komponen pertama
◼ Proses dilakukan berulang
sebanyak jumlah dimensi,
dimana principal component
selanjutnya arahnya orthogonal
dengan komponen-komponen
sebelumnya dengan variance
terbesar.
54
Singular value decomposition (SVD)
◼ adalah pendekatan
melalui faktorisasi
matrik A.
◼ SVD menggunakan
formula, A = USVT,
where
❑ U dan V matriks
orthogonal.
❑ S adalah diagonal
matrix, dan S nilai
singular dari matrix A.
55
https://miro.medium.com/max/3800/1*dnvjYsiEhj-NzFf6ZeCETg.jpeg

56
Singular value decomposition (SVD)
Umum digunakan
◼ mereduksi noise

https://www.researchgate.net/profile/Huan-Liu-
29/publication/336339050/figure/fig2/AS:812710459617282@1570776681394/The-pipeline-of-the-proposed-PW-SVD-
framework-which-includes-three-main-modules-1.png
57
◼ memampatkan data (compress data), mis.
file citra (image)

http://www.math.utah.edu/~goller/F15_M2270/Brady
Mathews_SVDImage.pdf 58
Autoencoders
◼ Memanfaatkan jaringan syaraf untuk
mengkompresi data dan kemudian membuat
representasi baru dari input data asli.
◼ Gambar berikut menunjukkan bahwa lapisan
tersembunyi (hidden layer) secara khusus
bertindak untuk memampatkan lapisan input
sebelum merekontruksi lapisan output.
◼ Tahap dari lapisan input ke lapisan tersembunyi
disebut “encoding”, dan tahap dari lapisan
tersembunyi disebut “decoding.”
59
Autoencoders

60
AGENDA
Review Machine Learning

Konsep

Unsupervised Learning Task

Aplikasi/Implementasi

Tantangan
61
AGENDA

Aplikasi/Implementasi

62
Aplikasi/Penerapan dari
unsupervised learning
◼ meningkatkan product user experience
◼ uji/test systems untuk quality assurance.
◼ Menyediakan jalur ekplorasi untuk melihat
data, memungkinkan bisnis
mengidentifikasikan pola dan volume data
yang besar dengan lebih cepat jika
dibandingkan dengan pengamatan manual.

63
Aplikasi unsupervised learning
◼ News Sections: Google News
menggunakan unsupervised learning untuk
mengkatagorikan articles pada cerita yang
sama dari berbagai outlet berita online.
Contoh: pemilihan presiden Amerika dapat
dikatagorikan sebagai label untuk “US” news
US.
◼ Computer vision: Unsupervised learning
algorithms digunakan untuk tugas persepsi
visual, mis. object recognition.
64
Aplikasi unsupervised learning
◼ Medical imaging: Unsupervised machine
learning menyediakan fitur esensial pada
perangkat pencitraan medis, mis. image detection,
classification dan segmentation, pada radiology
dan pathology untuk mendiagnosa pasien secara
cepat dan akurat.
◼ Anomaly detection: Unsupervised learning
models dapat menyisir data dalam jumlah besar
dan menemukan titik data atipikal dalam kumpulan
data. Anomali ini dapat meningkatkan kesadaran
seputar peralatan yang rusak, kesalahan manusia,
atau pelanggaran keamanan.
65
Aplikasi unsupervised learning
◼ Customer personas: mendefinisikan persona pelanggan
membuatnya lebih mudah untuk memahami ciri-ciri umum
dan kebiasaan pembelian klien bisnis. Unsupervised
learning memungkikan bisnis untuk membangun profil
persona pembeli yang lebih baik, memungkinkan organisasi
untuk menyelaraskan pesan produk mereka dengan lebih
tepat.
◼ Recommendation Engines: Dengan menggunakan data
perilaku pembelian sebelumnya, unsupervised learning
dapat membantu menemukan tren data yang dapat
digunakan untuk mengembangkan strategi penjualan silang
yang lebih efektif ➔ digunakan untuk membuat rekomndasi
add-on yang relevan kepada pelanggan selama proses
pembayaran untuk pengecer online.
66
Tantangan unsupervised learning

◼ Kompleksitas komputasi karena besarnya dari data


training
◼ Waktu training yang lebih lama
◼ Resiko yang lebih tinggi untuk ketidak-akuratan hasil
◼ Intervensi manusia untuk validasi variable output
◼ Kurangnya transparansi yang menjadi dasar
pengelompokan data

67
Unsupervised Learning Tools
Machine Learning Software Tools.
◼ IBM Watson Machine Learning → cloud
environment IBM Cloud Pak for Data
◼ Tensor Flow

◼ Google Cloud ML Engine

◼ Amazon Machine Learning

◼ Accord.NET

◼ Apache Mahout

◼ Apache Singa

68
69
Mengenal

BIG DATA

Universitas Gunadarma
Apa itu BIg Data Teknologi dalam Big Data

Kenapa harus dengan Big Data Bagaimana Big Data bekerja

Karakteristik Big Data Pemanfaatan Big Data dalam berbagai Industry

Tipe Data & Sumber Data pada Big Data

Perbedaan Big Data & Tradisional Data


Apa itu Big Data
Kenapa harus dengan Big Data

Salah satu permasalahan yang Big Data coba pecahkan adalah meledaknya volume

data yang disimpan atau diproses oleh perusahaan atau organisasi


Karakteristik Big Data

Volume data yang besar

Kecepatan dalam akses data

Jenis data bervariasi

Kebenaran Data
Tipe data dalam Big Data
Sumber Data dalam Big Data
Perbedaan Data Tradisonal dan Big Data
Teknologi dalam Big Data
Bagimana Big Data Bekerja
Big Data dalam bidang Industry

Banking Retail

Travel Energy

Media Gaming

Media

Perbedaan Big Data & Tradisional Data


PENERAPAN

BIG DATA
SEKTOR PERBANKAN
Pengenalan
Core Banking System

Core Banking system sendiri adalah jantung dari sebuah bank, karena sistem ini digunakan untuk
memproses loan, dan di dalamnya tersimpan data nasabah serta semua transaksi sejak nasabah
membuka rekening di bank sampai menutupnya. Core Banking umumnya diasosiasikan dengan retail
banking.

Jika dibandingkan dengan industri lain, core banking system ini mirip dengan billing system dari sebuah
perusahaan telekomunikasi, atau ERP perusahaan manufaktur.

Yang membedakan adalah pada sistem ini terdapat jenis yang beragam mulai dari yang inhouse
development, local vendor hingga yang dikerjakan vendor asing.
Fungsi Core Banking System

Kemudahan mendapatkan deposit dan penarikan uang tunai di cabang manapun anda
berada. Karena dengan sistem ini memungkinkan bank untuk mendapatkan transfer
dana mereka dan transaksi lainnya dari satu cabang ke cabang lainnya dengan sangat
mudah dan cepat.

Fungsi core banking yang paling mendasar adalah melayani seluruh nasabah untuk
berbagai kebutuhannya seperti funding, lending dan deposit uang.

Fungsi lainnya adalah merekam semua transaksi yang terjadi dalam rekening nasabah,
baik berupa tabungan, loan, KPR, maupun transaksi pembayaran, hingga transaksi
macet yang dimiliki nasabah juga akan terekam.
Fasilitas yang tersedia
di Core Banking system

Kemudahan yang ditawarkan sistem ini di antaranya, fasilitas ATM, dana elektronik, transfer, tele-banking, internet banking, cabang kliring
fasilitas perbankan cabang. Selain itu sistem ini juga lebih cepat dan akurat.

Fungsi lainnya sistem ini seperti pemeliharaan passbook, perhitungan bunga dan berbagai buku lainnya yang menjaga catatan tetap akurat
dalam waktu singkat.

Karena akses core banking sistem ini sudah dilakukan secara real time melalui proses online. Bagi bank sendiri, sistem ini sangat
memudahkan dalam database berbagai catatan transaksi kantor cabang yang lebih akurat dan juga pengenalan produk baru.

Kemajuan teknologi sangat terasa di sistem ini, karena menawarkan solusi yang lebih banyak, lebih mudah serta cepat.
Aplikasi perbankan core
banking sistem
CIS (Customer Identification System)
Modul untuk menfasilitasi pengguna agar dapat memproses transaksi sendiri

DDS (Demand Deposit System)


Modul penarikan uang pengguna tanpa pemberitahuan sebelumnya

GLS (General Ledger System)


Modul pencatatan saldo setiap pengguna

LNS (Loan System)


Modul pengguna untuk dapat mengajukan pinjaman

TDS (Time Deposit System)


Modul pengguna deposito
Manfaat
menggunakan core Banking Naiknya kerpercayaan Nasabah

Meningkatkan efisien Karyawan

Menghemat biaya operasional

Mengurangi masalah pada IT

Mempercepat akses untuk analistis


Keuntungan Beberapa contoh kasus :
BIG DATA
Analisis dan wawasan konsumen untuk
Memprediksi tren keuangan perusahaan asuransi
Peramalan penawaran, permintaan, dan Analisis dan pemasaran waktu nyata
indikator keuangan Penilaian dan manajemen risiko
Menganalisis risiko Deteksi dan pencegahan penipuan
Mengotomatiskan tugas Segmentasi pelanggan dan pemasaran yang
Mendorong inklusivitas ditargetkan
Analisis prediktif dan perencanaan masa
depan
Analisis pasar keuangan dan investasi
Management resiko
Membangun sistem manajeman resiko yang tangguh adalah hal yang sangat penting untuk organisasi perbankan dalam
mencegah dari kerugian pendapatan yang besar.
Untuk bertahan dalam dunia kompetisi dan menambah keuntungan sebanyak mungkin, suatu organisasi harus berinovasi melalui
analisa big data, bank dapat mendeteksi resiko secara waktu nyata, yang akhirnya menyelamatkan pelanggan dari potensi
penipuan

Deteksi penipuan
Dunia digital yang berkembang pesat memberikan banyak manfaat bagi kita, namun di sisi lain juga melahirkan berbagai macam
penipuan.
Dunia digital membuat data pribadi kita menjadi jauh lebih rentan terhadap serangan dunia maya dan ini adalah tantangan
terbesar yang dihadapi organisasi perbankan.
Penggunaan Big Data Analytics melalui Machine Learning Algorithms, Perbankan dapatmedeteksi penipuan sebelum penipuan
tersebut berlangung. Hal ini dilakukan dengan mengidentifikasi pola pengeluaran pengguna yang tidak dikenal
Memprediksi aktivitas pengguna yang tidak biasa
Keputusan
peminjaman
Salah satu keputusan paling penting di sektor Perbankan adalah pemberian pinjaman.
Memilih pelanggan yang tepat yang layak kredit dan sehat secara finansial untuk melunasi hutang adalah yang
paling penting.
Secara tradisional bank sebelumnya mengandalkan lembaga pemeringkat kredit untuk mengukur kelayakan kredit
pelanggan namun pemeringkat tersebut belum menggambarkan keseluruhan, karena dianggap berdasarkan pada
hal tertentu tetapi mengabaikan yang lain
BIG DATA ANALYTICS LIFECYCLE

1.Business Case Evaluation


2.Data Identification
3.Data Acquisition & Filtering
4.Data Extraction
5.Data Validation & Cleansing
6.Data Aggregation & Representation
7.Data Analysis
8.Data Visualization
9.Utilization of Analysis Results
DATA IDENTIFICATION DATA ACQUISITION & FILTERING

Pencarian informasi terkait tipe data, struktur data, Pengumpulan informasi dari sumber data.
bentuk data, dan isi data sampai source data. Kemudian dilakukan penyaringan,
seperti penghapusan data yang rusak atau
data yang tidak relevan, yang tidak termasuk
dalam tujuan kebutuhan.
DATA EXTRACTION
Proses memilih dan mengambil data dari satu atau beberapa sumber misalnya Server SQL, XML, atau flat files untuk dibaca
atau diakses data yang dipilih tersebut
DATA VALIDATION &
CLEANSING
Suatu proses analisa mengenai kualitas dari data
dengan mengubah. Bisa juga pengelola mengoreksi
ataupun menghapus data tersebut. Data yang
dibersihkan tersebut adalah data yang salah, rusak,
tidak akurat, tidak lengkap dan salah format
DATA AGGREGATION & REPRESENTATION

Proses di mana data mentah dikumpulkan dan diekspresikan dalam bentuk ringkasan untuk analisis statistik.
DATA ANALYSIS

Proses pengolahan data yang mencakup memeriksa data, membersihkan data, mengubah data, dan membuat model yang
sesuai sehingga hasil dari proses tersebut didefinisikan dan menemukan informasinya sebagai dasar pengambilan
keputusan dari masalah dalam bisnis yang hendak diselesaikan.
CORE BANKING SERVERS
IBM AS/400 adalah server computer yang termasuk
kategori mini computer yang digunakan oleh RPG sample =>
perusahaan-perusahaan besar di lndonesia. Contoh
Bank Mandiri, Bank BRl, Bank Permata adalah
beberapa dari sekian banyak perusahaan yang
menggunakan IBM AS/400 sebagai server untuk
menyimpan data nasabah dengan jumlah jutaan
record dalam database mereka

OS yang digunakan Operating System / 400 bukan Windows, Linux,


atau Macintos
Environment yang tersedia di AS 400 sebagai berikut, RPG/400, Cobol,
C, C++, PASCAL, JAVA, EGL, PERL, Smalltalk, SQL, PHP, PHYTON
Database yang digunakan adalah DB2
Cobol sample =>
KEUNGGULAN KONEKSI
Kehandalan sistem dari virus komputer dan stabilitas
yang tinggi
Mudah beradaptasi dan fleksibel
Dapat menjalankan berbagai macam bahasa
Cincin Token
Ethernet
FDDI
SDLC

ARSITEKTUR
TELNET (aplikasi TCP/IP) ataupun dengan Client-Access400
Dapat memiliki lebih dari 200 Processor
IO Direct access storage devices (DASDs)
Dls
DB2 LIST SCHEMA DAN TABLE

JOURNAL
Kesimpulan
Core Banking adalah Jantung dari sebuah bank
Fungsi dan Manfaat dirasakan oleh Pihak Bank dan juga Pengguna layanan
Penerapan Big Data dari sisi Bank dapat memberikan keputusan yang terbaik
dengan minimun resiko. Dilain sisi Pengguna merasakan keamanan,
kenyamanan dan kepercayaan
Mesin AS400 menjadi andalan Core Banking
MODEL KASUS TERKAIT PENURUNAN DATA CORE BANKING
MODEL KASUS TERKAIT PENURUNAN DATA CUSTOMER
MODEL KASUS TERKAIT
REKONSTRUKSI DATA
CUSTOMER
Kesimpulan
Proses data memerlukan informasi terkait input dan output
Didalam pengolahan data terdapat proses seperti transformasi, mapping,
cleansing dls
Pemilihan tools yang tepat untuk pengolahan data disesuaikan dengan
kebutuhan
Mempelajari bahasa pemrograman yang sesuai dengan kebutuhan
Dan terus belajar "trial and error"
Introduction to
Deep Learning

Dr. Feni Andriani


Introduction To Deep Learning

Pengenalan Convolution Implementasi


Deep Learning Neural Network
• Perkembangan Deep
Learning • Arsitektur CNN • Pengenalan Tulisan tangan
• Kaitan Deep Learning • Algoritma CNN Angka
dengan Artificial Intelligence Model Evaluasi • Klasifikasi objek
dan Machine Learning
• Artificial Neural Network
Segment 1

Pengenalan Deep Learning


• Perkembangan Deep Learning
• Kaitan Deep Learning dengan Artificial
Intelligence dan Machine Learning
• Artificial Neural Network
Source : https://ram-ai.com/machine-learning/
Apa itu Deep Learning?
Suatu sistem yang berusaha dapat
AI meniru kecerdasan manusia.

Salah satu teknik AI yang berkaitan dengan


pembelajaran data yang dirancang dengan
ML menggunakan algoritma.

Salah satu cabang Machine Learning(ML)


yang menggunakan Artificial Neural
DL Network untuk menyelesaikan
permasalahan yang dikhususkan pada
data tidak terstruktur
source: Nadia Berchane (M2 IESCI,2018)
Artificial Neural Network
• Artificial Neural Network adalah jaringan saraf yang biasanya menggunakan
jaringan yang hanya memiliki 1 atau 2 lapisan tersembunyi, jika lapisan jaringan
sarafnya lebih dari 2 layer disebut sebagai Deep Learning.

• Arsitektur jaringan ANN kurang kompleks dan membutuhkan lebih banyak


informasi tentang data input sehingga dapat menentukan algortima mana yang
dapat digunakan.

• Pada algortima jaringan saraf Deep Learning tidak memerlukan informasi apapun
terhadap data yang akan dipelajarinya, dan algoritmanya dapat secara mandiri
melakuan tuning (penyetelan) dan pemilihan model yang paling optimal. Contoh :
deteksi objek, pengenalan suara, NLP (Natural Language Processing), dan lainnya.
Lapisan Layer Deep Learning

Sumber: Global Engage


Proses Learning ANN

Source:https://towardsdatascience.com/
Struktur Pemodelan Jaringan
Deep Learning berbeda dari teknik machine learning yang
tradisional, karena deep learning secara otomatis melakukan
representasi dari data seperti gambar, video atau text tanpa
memperkenalkan aturan kode atau pengetahuan domain manusia.

Source: https://lawtomated.com/
Machine Learning vs Deep Learning

HARDWARE

Waktu Eksekusi
DATA

Pendekatan penyelesaian masalah


Feature Engineering
• algoritma MLme • Algoritma machi
• Algoritma • Deep Learning • ML: pakar mecahnya ne learning bisa
deep membutuhkan bertugas untuk beberapa bagian melakukan
learning GPU mengidentifikasi permasalahan, eksekusi dari
tidak fitur yang diselesaikan hanya satu
mampu diterapkan dan terpisah. menit - jam.
mengolah membuat kode Kemudian, • Deep
data dalam secara manual penyelesaiannya learning membu
jumlah kecil sesuai domain digabungkan tuhkan waktu
secara dan tipe data. Kembali jauh lebih lama
maksimal. • DL: algoritmanya • DL mampu dari itu.
sendiri berusaha menyelesaikan
mempelajari fitur masalah secara
tingkat tinggi dari keseluruhan
data.
Arsitektur / Model Deep Learning
Deep learning sudah dikembangkan ke berbagai model
atau arsitektur yang berbeda-beda, salah satunya adalah
Convolutional Neural Network
Segment 2

Convolutional Neural Network


• Arsitektur
• Algoritma
• Haar Hascade
Apa itu CNN?
• Convolutional Neural Network (CNN) merupakan salah
satu metode deep learning yang biasa digunakan untuk
mengolah gambar atau video.
• Secara garis besar Convolutional Neural Network (CNN)
tidak jauh beda dengan neural network biasanya. CNN
terdiri dari neuron yang memiliki weight, bias dan
activation function.
• CNN merupakan ANN yang memiliki Convolutional
layer
Arsitektur Convolutional Neural Network

Arsitektur dari CNN dibagi menjadi 2 bagian besar,


Feature Extraction Layer dan Fully-Connected Layer .
Source: https://towardsdatascience.com/
Feature Extraction Layer
Proses yang terjadi pada bagian ini adalah melakukan “encoding” dari
sebuah image menjadi features yang berupa angka-angka yang
merepresentasikan image tersebut (Feature Extraction). Feature
extraction layer terdiri dari dua bagian yaitu Convolutional Layer dan
Pooling Layer. Namun kadang ada beberapa riset/paper yang tidak
menggunakan pooling.
Convolutional
Layer
(Conv. Layer)

Convolutional layer
terdiri dari neuron yang
tersusun sedemikian
rupa sehingga
membentuk sebuah
filter dengan panjang
dan lebar(pixel).
Credit: https://medium.com/@samuelsena/pengenalan-deep-
learning-part-7-convolutional-neural-network-cnn-b003b477dc94
Stride
• Stride adalah parameter yang menentukan berapa jumlah
pergeseran filter. Jika nilai stride adalah 1, maka conv. filter akan
bergeser sebanyak 1 pixel secara horizontal lalu vertical.
• Semakin kecil stride maka akan semakin detail informasi yang kita
dapatkan dari sebuah input, namun membutuhkan komputasi yang
lebih jika dibandingkan dengan stride yang besar.
• Perlu diperhatikan bahwa dengan menggunakan stride yang kecil
kita tidak selalu akan mendapatkan performa yang bagus.
Padding
• Padding atau zero padding adalah parameter menentukan jumlah pixel (berisi nilai
0) yang akan ditambahkan di setiap sisi dari input, dengan tujuan untuk
memanipulasi dimensi output dari conv. layer (feature map).
• Dengan menggunakan padding, kita akan dapat mengukur dimensi output agar
tetap sama seperti dimensi input atau setidaknya tidak berkurang secara drastis.
Sehingga kita bisa menggunakan conv. layer yang lebih dalam sehingga lebih
banyak feature yang berhasil di-extract.
• Meningkatkan performa model karena conv. layer akan fokus pada informasi yang
sebenarnya yaitu yang berada diantara zero padding tersebut.
Fungsi Aktivasi
• Fungsi aktivasi berada pada tahap sebelum melakukan pooling
layer dan setelah melakukan proses konvolusi. Pada tahap ini, nilai
hasil konvolusi dikenakan fungsi aktivasi atau activation function.
• Terdapat beberapa fungsi aktivasi yang sering digunakan
pada convolutional network, di antaranya tanh() atau reLU.
• Fungsi aktivasi pada reLU : nilai output dari neuron bisa dinyatakan
sebagai 0 jika inputnya adalah negatif. Jika nilai input dari fungsi
aktivasi adalah positif, maka output dari neuron adalah
nilai input aktivasi itu sendiri.
Pooling Layer
• Polling layer biasanya berada setelah conv. layer. Pada prinsipnya pooling layer
terdiri dari sebuah filter dengan ukuran dan stride tertentu yang bergeser pada
seluruh area feature map.
• Pooling yang biasa digunakan adalah
Max Pooling dan Average Pooling.
• Tujuan pooling layer adalah
mengurangi dimensi feature map
sehingga mempercepat komputasi
karena parameter yang harus di
update semakin sedikit dan mengatasi
overfitting.
Fully-Connected Layer
• Feature map yang dihasilkan dari feature extraction masih berbentuk
multidimensional array, sehingga harus melakukan “flatten” atau reshape
feature map mejadi sebuah vector agar bisa digunakan sebagai input dari
fully-connected layer.
• Lapisan Fully-connected adalah lapisan dimana semua neuron aktivitas
dari lapisan sebelumnya terhubung semua dengan neuron di lapisan
selanjutnya seperti hal nya jaringan syaraf tiruan biasa. Setiap aktivitas
dari lapisan sebelumnya perlu diubah menjadi data satu dimensi sebelum
dapat dihubungkan ke semua neuron di lapisan Fully-Connected.
Fully-Connected Layer - Lanjutan

• Lapisan Fully-Connected bertujuan untuk mengolah data sehingga


bisa diklasifikasikan.
• Perbedaan anatar lapisan Fully-Connected dan lapisan konvolusi
biasa adalah neuron di lapisan konvolusi terhubung hanya ke
daerah tertentu pada input. Sementara lapisan Fully-Connected
memiliki neuron yang secara keseluruhan terhubung.
Dropout Regularization
• Dropout adalah teknik regularisasi jaringan syaraf dimana beberapa
neuron akan dipilih secara acak dan tidak dipakai selama pelatihan.
Neuron-neuron ini dapat dibilang dibuang secara acak. Hal ini berarti
bahwa kontribusi neuron yang dibuang akan diberhentikan sementara
jaringan dan bobot baru juga tidak diterapkan pada neuron pada saat
melakukan training.
• Dropout merupakan proses mencegah terjadinya overfitting dan juga
mempercepat proses learning. Dropout mengacu kepada menghilangkan
neuron yang berupa hidden mapun layer yang visible di dalam jaringan.
Contoh Implementasi Dropout Regularization

Source: Tiara Shafira


Confusion Matrix
• Tingkat kedekatan antara nilai

Accuracy prediksi dengan nilai aktual.


𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 =
𝑇𝑃 + 𝑇𝑁
𝑇𝑃 + 𝑇𝑁 + 𝐹𝑃 + 𝐹𝑁
• Tingkat ketepatan antara informasi
𝑇𝑃
Precision yang diminta oleh pengguna dengan
jawaban yang diberikan oleh sistem 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 =
𝑇𝑃 + 𝐹𝑃

• Tingkat keberhasilan sistem dalam


𝑇𝑃
Recall menemukan kembali sebuah
informasi. 𝑅𝑒𝑐𝑎𝑙𝑙 =
𝑇𝑃 + 𝐹𝑁
Contoh
Misalkan kita ingin mengukur kinerja dari sebuah mesin pemisah buah apel dan pear
• Untuk mengujinya kita akan memasukkan 100 buah apel dan 900 buah lain (bukan
buah apel).
• Hasilnya mesin tersebut memisahkan 110 yang dideteksi sebagai buah apel.
• Ke 110 buah tersebut kemudian dicek kembali oleh manusia, ternyata dari 110
ikan tersebut hanya 90 buah yang merupakan buah apel , sedangkan 20 lainnya
merupakan buah lain.

90 + 880 90
𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = = 97% 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = = 82%
90 + 880 + 20 + 10 90 + 20
90
𝑅𝑒𝑐𝑎𝑙𝑙 = = 90%
90 + 10
Segment 3

Implementasi Deep Learning


• Pengenalan karakter Tulisan Tangan -MNIST
1. Implementasi DCNN LeNet
Pengenalan Karakter Tulisan Tangan MNIST
Data MNIST diatas terdiri dari nilai 0–255 untuk setiap pixel yang ada.
Implementasi DCNN LeNet
Pengenalan Karakter Tulisan Tangan MNIST
Implementasi mengggunakan library keras
• Pendefinisian kode lenet dan modul-modul yang digunakan, digunakan modul
konvolusi 2D
Pengenalan Karakter Tulisan Tangan - MNIST

• Pendefinisian Jaringan LeNet


Jaringan ini merupakan tahap konvolusional pertama dengan aktivasi ReLU yang
diikuti oleh maxpooling. Jaringan ini akan mempelajari 20 filter konvolusional, yang
masing-masing memiliki ukuran 5 x 5. Dimensi output sama dengan input, jadi akan
menjadi 28 x 28. Convolution2D adalah tahap pertama pada jaringan ini, maka
selanjutnya ditentukan input_shape-nya.
Pengenalan Karakter Tulisan Tangan - MNIST

• Tahap konvolusional kedua


Tahap konvolusional kedua dengan aktivasi ReLU berikutnya, yang disertai pula oleh
maxpooling. Dalam hal ini, ditingkatkan jumlah filter konvolusional yang dipelajari dari
20 menjadi 50. Meningkatkan jumlah filter pada kedalaman layer merupakan teknik
umum yang digunakan dalam deep learning.
Pengenalan Karakter Tulisan Tangan - MNIST

• Pendefinisian fungsi standar Flatten


Didefinisikan fungsi standar untuk flatten terhadap dense network dengan
500 neuron, diikuti oleh classifier softmax dengan 10 kelas:
Pengenalan Training
Karakter Tulisan
Tangan - MNIST

• Training Jaringan
Pengenalan Karakter Tulisan Tangan - MNIST

• Output yang dihasilkan

Semakin banyak epoch maupun


jumlah hidden layer maka akurasi
yang dihasilkan juga semakin baik.
Akurasi yang dihasilkan sebesar
99%. Hal ini membuktikan bahwa
kinerja deep learning sangat baik.
2. Implementasi CIFAR10
Pengenalan 10 jenis objek berbeda pada dataset cifar-10
Output
3. Klasifikasi Cat and Dog
Akan dibangun Convolutional Neural Network
(CNN) dengan data latih beberapa ribu gambar
kucing dan anjing agar kemudian bisa mendeteksi
yang mana kucing atau anjing.
Langkah:
1. Penyiapan data set download dataset dr web
copy ke google drive, tujuan..
2. Membuat arsitektur CNN, konvolusi dan fully
connected layer
3. Menyiapkan dataset siap training
4. Training
5. Prediksi grafik kinerja antara training dan
testing

Sumber: https://becominghuman.ai/
Kesimpulan
• AI merupakan sistem yang masih manual dan masih harus disetting untuk melaksanakan
satu tugas tertentu. Kemudian Marchine Learning adalah suatu program pembelajaran yang
berupa saraf neuron yang berfungsi untuk memerintah pada computer. Deep Learning
adalah kemampuan sistem yang di setting dengan baik demi meningkatkan kerja pada
komputer.
• Deep Learning dikaitkan dengan Artificial Neural Network (ANN) yang menggunakan
simulasi cara kerja otak manusia yang terdiri dari beberapa lapisan yang saling terhubung
dan komunikasi.
• Implementasi deep learning dapat dilakukan pada permasalahan klasifikasi, deteksi,
rekognisi, NLP dan lainnya
• Deep learning dapat dkatakan sebagai teknik AI yang paling baik jika dibandingkan dengan
Machine Learning karena dapat mengakomodir data dan perhitungan yang kompleks
berdasarkan efisiensi dan tingkat akurasi yang dihasilkan
Referensi
[1] Antonio, G., & Sujit P. 2017.”Deep Learning With Keras”. Packt Publishing

[2] Wikipedia Indonesia,Pembelajaran dalam


(https://id.wikipedia.org/wiki/Pembelajaran_dalam) diakses pada 1 Mei 2021

[3] XenonStack. 2021. “Log Analytics and Log Mining with Deep Learning”.
(https://www.xenonstack.com/blog/log-analytics-mining/) diakses pada 1 Mei
2021

[4] Suk, H.-I. (2017). An Introduction to Neural Networks and Deep Learning.
Deep Learning for Medical Image Analysis, 3–24. doi: 10.1016/b978–0–12–
810408–8.00002-x
PENERAPAN KOMPUTASI
BIG DATA PADA BIDANG
FARMASI
Agus Kurniawan
Ashfar kurnia
OUTLINE
1 BIG DATA BIDANG FARMASI

2 PERAN BIG DATA DALAM BIDANG FARMASI

3 BIG DATA DALAM SISTEM KESEHATAN


1 2
4
PEMANFAATAN BIG DATA UNTUK SISTEM
3 PENGELOLAAN FARMASI DALAM PELAYANAN
4
KESEHATAN DI RUMAH SAKIT
PENDAHULUAN

VOLUME

VISUALIZATION VELOCITY

VERACITY
BIG VARIETY

DATA
VALIDITY VARIABILITY

VALUE

Panesar, Arjun. 2021. Machine Learning and AI for Healthcare: Big Data for
Improved Health Outcomes. Second Edition. Apress. New York, US.
BIG DATA BIDANG FARMASI
Farmasi Bahan Alam

Rekayasa Genetik &


BIOLOGI Mikrobiologi
FARMASI
Sintesis Obat

KIMIA Bioavailabilitas dan


Bioekivalensi
FARMASI
BIG
Desain dan Formulasi Obat
DATA
FARMASI TEKNOLOGI Neutrasetikal

FARMASI Kosmetik

Farmakologi
FARMAKOLOGI,
Farmasi Klinik dan
FARMASI Komunitas
KLINIK DAN
Farmakoekonomi
KOMUNITAS
PERAN BIG DATA DALAM BIDANG FARMASI
“Mengetahui tidak hanya apa yang terjadi, tetapi mengapa itu terjadi
(diagnostik), apa yang akan terjadi (prediktif) dan bagaimana kita dapat
mewujudkannya (preskriptif), hal itu penting untuk bergerak melampaui big data Farmasi
menuju pengetahuan.“ (Drenik, Forbes) Klinik dan
Komunitas
Deskriptif Biologi dan
Kimia Penentuan
Farmasi
Big Data Diagnostik Kebijakan
Optimalisasi
Analytics Pelayanan
Kesehatan
Prediktif Inovasi Obat
dan Alat
Kesehatan
Preskriptif
Penemuan
Senyawa
Proses penggalian informasi yang berguna dengan Obat Baru
menganalisis berbagai jenis kumpulan data yang berukuran Teknologi
besar untuk mengungkap pola tersembunyi, korelasi yang Farmasi
tidak diketahui, dan informasi bermanfaat lainnya yang dapat
digunakan untuk membuat keputusan yang lebih baik
PENGGUNAAN BIG DATA DALAM PENEMUAN DAN
PENGEMBANGAN OBAT BARU

Pemanfaatan data
protein target

Pemanfaatan data
senyawa tanaman
obat

Pemanfaatan data
Genomik

Pemanfaatan data
struktur kimia

Aplikasi AI

• Penemuan senyawa aktif • Uji in vivo • Farmakokinetik • Efektivitas • Safety dan • Real world Vs Trials
• Uji in vitro • Farmakokinetik • BA & BE dalam efikasi • Validitas Internal
• Farmakodinamik • Dosis aman Pengobatan dan Eksternal
• Toksisitas • Efek obat Penyakit
• Dosis • Rentang dosis
DATA PROTEIN TARGET

https://www.rcsb.org/

Ikatan Energi
yang Paling
Kuat
Molecular Docking
DATA TANAMAN OBAT

http://herbaldb.farmasi.ui.ac.id

Perlu
pengembangan
untuk data tanaman
asli Indonesia secara
http://www.botanicalauthentication.org http://herbalgram.org komprehensif
DATA STRUKTUR KIMIA

• Analisis
interaksi ligan-
reseptor: Plant,
Autodock Vina,
https://pubchem.ncbi.nlm.nih.gov https://chem-space.com
MOE, Molegro
Virtual Docker,
dll.
• Analisis ADMET:
pkCSM online
tool

http://www.chemspider.com https://chemaxon.com
DATA GENOMIK

https://blast.ncbi.nlm.nih.gov https://www.ebi.ac.uk
GenBank: NCBI, US DNA Data Bank of Japan,
Jepang

Pangkalan Data
Primer untuk
sekuens Asam
Nukleat saat ini
https://www.ddbj.nig.ac.jp
EMBL-EBI: European Molecular Biology Laboratory, Eropa
PUSAT INFORMASI OBAT
http://pionas.pom.go.id
Berisi deskripsi obat,
Monografi Obat
(Indikasi, Peringatan,
Interaksi, Nama
Dagang), bentuk
sediaan, Golongan
obat, dll.

https://www.drugs.com/ https://go.drugbank.com https://druginfo.nlm.nih.gov


BIG DATA DALAM SISTEM KESEHATAN
Pengaturan layanan kesehatan mengumpulkan dan menyimpan set digital
besar data pasien yang dihasilkan dari pemeriksaan medis rutin, resep,
pengurutan genom, pengujian laboratorium, dan klaim administratif.

mHealth Retail Medical


device Pharmacies Records

Public Health Manual Survey


Genomic Data
Data Results

Insurance
Imaging and mHealth
Claim
Lab results Applications
Providers

Hospital and
Health
Providers
ELECTRONIC HEALTH RECORDS (EHRs)
EHRs memiliki peran penting dalam usaha pengawasan
kesehatan populasi dan pelayanan kesehatan individu
sehingga data tersebut dapat bermanfaat untuk
1. memprediksi prevalensi penyakit
2. meningkatkan keselamatan pasien
3. memudahkan komunikasi antar profesi kesehatan
4. penentuan kebijakan terkait program kesehatan
nasional.

EHR dihasilkan dan disimpan di hampir semua


departemen perawatan kesehatan, termasuk perawatan
primer dan pengaturan perawatan khusus, ruang gawat
darurat, dan apotek rumah sakit.

Dokumentasi
catatan apoteker
JENIS DAN SUMBER DATA HEALTHCARE
Kategori sumber big data healthcare
penting untuk analisis AI:
Web and
•history
social media •health forums
data

Machine-to- •Sensors
machine data •wearable

Big
•Health claim data
transaction •billing data
data

•Fingerprints
Biometric •genetics
data •biomarkers driven from wearables

Human- •Email
generated •paper documents
data •EMR

Panesar, Arjun. 2021. Machine Learning and AI for


Healthcare: Big Data for Improved Health
Outcomes. Second Edition. Apress. New York, US.
ANALITIK BIG DATA DALAM PELAYANAN KESEHATAN
Rekam medis berukuran besar dan gejala setiap penyakit berbeda satu
Prediksik Penyakit sama lain. Prediksi penyakit yang tepat pada waktu yang tepat sangat
penting untuk penyakit yang mengancam jiwa seperti kanker.
EHR merupakan catatan pribadi yang meliputi informasi pribadi, riwayat medis, tes
Electronic health records patologi, alergi, penyakit sensitif, dll. Catatan medis tersebut ditransfer melalui
media yang aman dan setiap medical record dapat diedit oleh dokter.
Real time monitoring dapat menunjang kerja dokter dalam memberikan resep
Real-time monitoring kepada pasien yang sensitif atau penyakit berat

Praktisi kesehatan dapat mengumpulkan dan menganalisis hasil pemeriksaan rutin pasien
Perencanaan strategis medis dari segi lokasi, demografi, dan masyarakat untuk menemukan faktor perkembangan jenis
penyakit tertentu dan juga untuk meningkatkan strategi pengobatan

Rekomendasi obat berbasis gejala dimungkinkan dengan penggunaan analitik big data.
Drug suggestions Saran dan rekomendasi obat secara online membuat proses penanganan lebih efektif.

Analisis big data dapat mengubah cara pengambilan dan penyimpanan gambar. Algoritma
Medical imaging dirancang untuk membaca dan menyimpan data berbasis piksel, kemudian mengubah
data tersebut menjadi bentuk yang mudah dibaca dan dimengerti oleh dokter.
Penemuan smartphone dan IoT, seseorang dapat memanfaatkan ponsel untuk konsultasi
Telemedicine online, saran obat, diagnosis, pemantauan pasien secara real-time, pelacakan pencapaian
kesehatan, dan banyak hal lainnya
PEMANFAATAN BIG DATA UNTUK SISTEM PENGELOLAAN
FARMASI DALAM PELAYANAN KESEHATAN DI RUMAH SAKIT
Tools pendukung keputusan klinis yang terkait
Optimalisasi penggunaan tools dengan farmasi meliputi tombol dosis obat,
untuk mendukung keputusan
klinis peringatan obat seperti terapi duplikat atau
peringatan interaksi obat-obat, dan pop-up
Data klaim dan biaya
peringatan untuk memperingatkan pengguna
Manajemen
yang memberikan tentang praktik yang berpotensi tidak aman.
informasi tentang
formularium dan
pemanfaatan pemantauan efek
pelayanan Big Data uses samping
within Health Aplikasi EMRs ada yang open source dan berlisensi
System
Peningkatan Pharmacy
Mengukur kualitas
penerapan
dan hasil
evidence-based
perawatan pasien
medicine

Transisi perawatan yang lebih


baik melalui data yang terkait
dengan kepatuhan pengobatan
TANTANGAN PENERAPAN BIG DATA BIDANG
FARMASI DI INDONESIA

Regulasi

Pemerataan
Tecnology
Challenges akses
supports
internet

Integrasi
data
REFERENSI
• Bermudez et.al., Towards a symbiotic relationship between big data, artifcial intelligence, and hospital
pharmacy. J of Pharm Policy and Pract. 13 (75): 1 – 6. 2020.
• Drenick G. Going beyond big data to knowledge webpage on the internet. Forbes [updated March 11, 2014].
Available from: http://www.forbes.com/sites/prospernow/2014/03/11/going-beyondbig-data-
toknowledge/. Accessed Novemver 30, 2021.
• Ma, C., et al. Big data in pharmacy practice: current use, challenges, and the future. Integrated Pharmacy
Research and Practice 4; 91–99. 2015.
• Madanian, S. et al. mHealth and big-data integration: promises for healthcare system in India. BMJ Health
Care Inform. 26:e100071. 2019.
• Marconi, K. and Lehmann, H (Ed.). 2015. Big Data and Health Analytics. CRC Press. US.
• Natarajan, P., Frenzel, J.C., and Smaltz, D.H. 2017. Demystifying Big Data and Machine Learning for
Healthcare. CRC Press. US.
• Panesar, Arjun. 2021. Machine Learning and AI for Healthcare: Big Data for Improved Health Outcomes.
Second Edition. Apress. New York, US.
• Stokes, L.B., et al. 2016. Big Data: Implications for Health System Pharmacy. Hosp Pharm. 51(7): 599–603.
2016.
• Wijaya, R.D. dan Rahman, La ode A. Implementasi Electronic Health Records (EHRs) pada Pelayanan
Kesehatan di Komunitas: Literature Review. Jurnal Kesehatan. 8; 28-38. 2019
BIG DATA

• Big data adalah istilah yang


menggambarkan data dalam
volime besar baik terstruktur
maupun tidak tersetruktur
yang mambanjiri urusan sehari-
hari.
Volume (Capacity)
Velocity (Speed)
• Data dibuat dan diproses dengan cepat
• Online Data Analytics
• Keputusan terlambat à kehilangan kesempatan/penyesalan
• Contoh:
• Promosi kesehatan (E-health promotion)
• Monitoring (Healthcare monitoring)
• Respon terhadap perkiraan bencana dan wabah penyakit
Veracity (Truth)
• Bagaimana kebenarannya?
• Dapat dipertanggungjawabkan?
• Contoh:
• Survey kesehatan
• Kondisi penyakit tertentu tidak
disebutkan karena malu atau
faktor lain
Value
• Apakah data tersebut bermanfaat?
• Memiliki nilai?
• Dapat diaplikasikan?
Pengembangan V dari Big Data
Penggunaan Big Data dalam Kesehatan
Bagaimana cara memperoleh data biologis?
DNA Sequencing
• Berisi infomasi genetika setiap individu
• Mendeterminasikan sifat genotip dan fenotip
• Dari data ini kita dapat melihat dan menganalisis kemungkinan sifat

waktu lampau, saat ini,


genetiknya pada

dan (memprediksi) masa depan


kesehatannya
Data Biologi (Bioinformatika)
Sumber : Setia Permana
Sumber : Setia Permana
Sumber : Setia Permana
Sumber : Setia Permana
Tren personalisasi Medisin
Farmakogenomik & Farmakogenetik
Terima Kasih
THANK YOU
PRODI KEBIDANAN & PENDIDIKAN
PROFESI BIDAN
Home Welcome

ERIK EKOWATI, M.Keb


Hp: 085784868636
DEPOK, 20 JANUARI 2022
Email: erikekowati82@staff.gunadarma.ac.id
erikekowati82@gmail.com
» Visi & Misi » Tata Pamong » Mahasiswa & Lulusan » SDM » Kurikulum PRODI KEBIDANAN & PENDIDIKAN
» Sarana & Prasarana » Penelitian, Abdimas, & Kerjasama PROFESI BIDAN
Analisis Kebutuhan Big Data pada Pelayanan Kebidanan

Konvensional Teknologi semakin


Pengolahan data berkembang Big Data
secara manual dengan cepat
» Visi & Misi » Tata Pamong » Mahasiswa & Lulusan » SDM » Kurikulum PRODI KEBIDANAN & PENDIDIKAN
» Sarana & Prasarana » Penelitian, Abdimas, & Kerjasama PROFESI BIDAN
Analisis Kebutuhan Big Data pada Pelayanan Kebidanan

Kehamilan

PUS
(Pasangan
Persalian
Usia
Subur)

Big Data
Anak
Nifas
Balita

Bayi
» Visi & Misi » Tata Pamong » Mahasiswa & Lulusan » SDM » Kurikulum PRODI KEBIDANAN & PENDIDIKAN
» Sarana & Prasarana » Penelitian, Abdimas, & Kerjasama PROFESI BIDAN
Analisis Kebutuhan Big Data pada Pelayanan Kebidanan

Kunjungan
Kehamilan Persalian
Pelayanan
oleh tenaga
KB kesehatan

Pelayanan Kunjungan
balita sakit Nifas

Data Deteksi
Pelayanan
balita Pelayanan faktor
resiko/kom
plikasi

Kunjungan Penangan
bayi komplikasi
Penanganan Kunjungan
komplikasi neonatal
neonatal
» Visi & Misi » Tata Pamong » Mahasiswa & Lulusan » SDM » Kurikulum PRODI KEBIDANAN & PENDIDIKAN
» Sarana & Prasarana » Penelitian, Abdimas, & Kerjasama PROFESI BIDAN

PELAYANAN
KESEHATAN
YANG BERMUTU
BAIK
PRODI KEBIDANAN & PENDIDIKAN
PROFESI BIDAN
Home Closing
PRODI KEBIDANAN & PENDIDIKAN
PROFESI BIDAN
Home Welcome

Dr. Nina Herlina M.Kes


Hp: 081-18241280
DEPOK, 2 DESEMBER 2021
Email: nina herlina@staff.gunadarma.ac.id
herlina.winaldi@gmail.com
PRODI KEBIDANAN & PENDIDIKAN
PROFESI BIDAN
Home Identitas

• Program Studi (PS) : Kebidanan & Pendidikan Profesi Bidan


• Fakultas : Ilmu Kesehatan dan Farmasi
• Perguruan Tinggi : Universitas Gunadarma
• Nomor SK pendirian PS (*) : 60/KPT/1/2019
• Tanggal SK pendirian PS : 07 Februari 2019
• Pejabat Penandatangan : Menteri Riset, Teknologi, dan Pendidikan Tinggi RI
SK Pendirian PS c
• Bulan & Tahun Dimulainya : September 2019
Penyelenggaraan PS
• Peringkat (Nilai) Akreditasi : Terakreditasi BAIK LamPTKes
Terakhir
• Homepage dan E-mail : https://gunadarma.ac.id/
kebidanan@gunadarma.ac.id
prodiS1kebidananug@gmail.com
PRODI KEBIDANAN & PENDIDIKAN
PROFESI BIDAN
Home Outline

1. Visi, Misi, & Tujuan


2. Implementasi Aplikasi dalam Pelayanan
c Kebidanan
» Visi & Misi » Tata Pamong » Mahasiswa & Lulusan » SDM » Kurikulum PRODI KEBIDANAN & PENDIDIKAN
» Sarana & Prasarana » Penelitian, Abdimas, & Kerjasama PROFESI BIDAN
Visi

“Pada tahun 2022 menjadi


Program Studi Pendidikan Profesi
Bidan terkemuka di Indonesia Berbasis TIK
berbasis Teknologi Informasi dan
Komunikasi dengan jejaring
nasional dan internasional dalam
kegiatan tridharma perguruan Jejaring nasional &
internasional
tinggi yang holistik dan integratif
dalam rangka meningkatkan
kualitas hidup masyarakat”
» Visi & Misi » Tata Pamong » Mahasiswa & Lulusan » SDM » Kurikulum PRODI KEBIDANAN & PENDIDIKAN
» Sarana & Prasarana » Penelitian, Abdimas, & Kerjasama PROFESI BIDAN
Misi

Menyelenggarakan program studi Pendidikan profesi bidan yang berkualitas dalam


rangka meningkatkan kontribusi pada peningkatan kualitas hidup masyarakat Indonesia

Misi Program Studi Menciptakan suasana akademik yang mendukung terselenggaranya proses
pembelajaran yang inofatof agar dapat menghasilkan lulusan yang cerdas, kompetitif
Kebidanan & dan berkarakter
Pendidikan Profesi
Bidan didasarkan pada Menyelenggrarakan kegiatan penelitian dan pengabdian kepada masyarakat sebagai
pengetahuan dan tanggungjawab social dalam peningkatan kesehatan masyarakat dan
tridharma PT yang baik lingkungannya
sesuai dengan
dinamika masyarakat
Meyelenggarakan kerjasama dengan berbagai industry, baik didalam maupun diluar
di era informasi dan negeri dengan dilandasi kesetraan dan demi kepentingan nasional
globalisasi.
Mengembangkan tata kelola program Pendidikan kebidanan yang baik dalam rangka
merespon berbagai perubahan yang terjadi di era informasi dan globalisasi.
» Visi & Misi » Tata Pamong » Mahasiswa & Lulusan » SDM » Kurikulum PRODI KEBIDANAN & PENDIDIKAN
» Sarana & Prasarana » Penelitian, Abdimas, & Kerjasama PROFESI BIDAN
Implementasi Aplikasi Pelayanan Kebidanan

1. Asuhan Pada Ibu Hamil


2. Asuhan Pada Ibu Melahirkan dan Bayi Baru Lahir
3. Asuhan Pada ibu Setelah Melahirkan (Nifas)
4. Asuhan Keluarga Berencana
5. Asuhan Kebidanan Komunitas
PRODI KEBIDANAN & PENDIDIKAN
PROFESI BIDAN
Home Lokasi

Hibah Penelitian Unggulan Ristek Dikti 2020/2021


Judul: Perancangan Sistem Informasi Panduan Ibu
Hamil Berbasis Android Mobile
Rancangan system aplikasi salute bidan merupakan
salah satu upaya untuk memberikan kemudahan pada
ibu hamil dalam mengakses pelayanan kesehatan dan
edukasi untuk dapat melakukan skrining mandiri
tentang kesehatannya di masa pandemik COVID-19
Populasinya: 5 Puskesmas Wilayah Dinas Depok
(Puskesmas Cimanggis, Puskesmas Pancoran Mas,
Puskesmas Sukma Jaya, Puskesmas Cinere,
Puskemas Beji)
PRODI KEBIDANAN & PENDIDIKAN
PROFESI BIDAN
Home Lokasi
PRODI KEBIDANAN & PENDIDIKAN
PROFESI BIDAN
Home Lokasi
PRODI KEBIDANAN & PENDIDIKAN
PROFESI BIDAN
Home Lokasi
PRODI KEBIDANAN & PENDIDIKAN
PROFESI BIDAN
Home Lokasi
PRODI KEBIDANAN & PENDIDIKAN
PROFESI BIDAN
Home Lokasi
PRODI KEBIDANAN & PENDIDIKAN
PROFESI BIDAN
Home Lokasi
PRODI KEBIDANAN & PENDIDIKAN
PROFESI BIDAN
Home Lokasi
PRODI KEBIDANAN & PENDIDIKAN
PROFESI BIDAN
Home Lokasi
PRODI KEBIDANAN & PENDIDIKAN
PROFESI BIDAN
Home Lokasi
PRODI KEBIDANAN & PENDIDIKAN
PROFESI BIDAN
Home Closing
ATA 2021/2022 | 2-FTI | Komputasi Big Data
| TEAM TEACHING
PERT 1
Manakah yang benar dari pernyataan berikut ini:
Select one:
a. Memperkirakan puncak dari kasus positif Covid-19, adalah contoh analisis prediktif.
b. Prediktif, menilai tindakan
c. Preskriptif, memodelkan perilaku masa lalu
d. Deskriptif, perkiraan berdasarkan data yang tersedia

Unit informasi tunggal disebut:

Select one:
a. Fitur/atribut
b. Nilai
c. Objek
d. Dataset
Clear my choice

Data Warehouse dibuat dengan menerapkan serangkaian langkah pemrosesan terhadap


data yang berasal dari beberapa basis data. Berikut ini adalah yang termasuk dalam
pemrosesan data tersebut:

Select one:
a. Transformasi data
b. Semua benar
c. Integrasi data
d. Pembersihan data
Dataset dibentuk dari:
Select one:
a. Sekumpulan objek yang memiliki fitur yang sama
b. Semua salah
c. Sekumpulan fitur yang memiliki objek yang sama
d. Sekumpulan fitur yang memiliki nilai yang sama
Clear my choice

Salah satu keunggulan DGX A100:


Select one:
a. Konsumsi daya lebih sedikit
b. Semua benar
c. Biaya lebih murah
d. Tidak membutuhkan ruang yang besar

Model basis data yang berupa deret waktu (time series):


Select one:
a. Temporal database
b. Spatial database
c. Text database
d. Semua salah

Kumpulan data yang disusun dalam tabel berformat persegi panjang yang terdiri dari baris
dan kolom disebut sebagai:

Select one:
a. Flat files
b. Data Warehouse
c. Semua salah
d. Database
Sumber data yang digunakan dalam aplikasi Big Data dapat berupa:
Select one:
a. Data Finansial
b. Data Media Sosial
c. Data Asuransi Kesehatan
d. Semua benar

Tempat penyimpanan data yang dikumpulkan di lokasi berbeda (basis data relasional) dan
disimpan menggunakan skema terpadu:
Select one:
a. Data Warehouse
b. Spatial Database
c. Transactional database
d. Semua benar

Dalam ekosistem Big Data, proses pre-prosesing data dapat dilakukan menggunakan:

Select one:
a. Sqoop
b. Facebook
c. Tableu
d. HDFS

Dalam arsitektur Big Data, solusi berupa rekomendasi, berada pada posisi sebagai:
Select one:
a. Data Computing & Analysis
b. End Result
c. Data Format
d. Data Storage Layer
Semakin banyak data hingga mencapai ukuran Peta Byte atau bahkan lebih, merupakan
penjelasan dari dimensi Big Data dalam hal:

Select one:
a. Variety
b. Velocity
c. Veracity
d. Volume

Visualisasi dari hasil analisis Big Data dapat berupa:


Select one:
a. Tabel
b. Grafik 3D
c. Semua benar
d. Plot

Objek disebut juga:

Select one:
a. Unit
b. Semua benar
c. Record
d. Data points

Tipe nilai dapat berupa:

Select one:
a. Semua salah
b. Numerik
c. Fitur
d. Object
Contoh solusi Big Data, kecuali:
Select one:
a. Mesin rekomendasi
b. Deteksi Penipuan
c. Semua benar
d. Input Nilai Mahasiswa

Komponen Komputasi Big Data di lapisan Middleware terdiri dari:

Select one:
a. Resource Layer
b. SDK Layer
c. Semua benar
d. Interface Layer

Sekumpulan tabel dimana bentuk setiap tabel analog dengan flat file, disebut:

Select one:
a. Database
b. Data Warehouse
c. Semua salah
d. DBMS

Yang merupakan framework untuk Machine Learning:

Select one:
a. Semua benar
b. Azure ML
c. Apache Spark MLlib
d. Amazon ML
Beragamnya jenis data di dalam Big Data yang meliputi data terstruktur, semi terstruktur
dan bahkan data tidak terstruktur, merupakan penjelasan dari dimensi Big Data dalam hal:

Select one:
a. Velocity
b. Variety
c. Veracity
d. Volume
PERTEMUAN 2 TEAM TEACHING BIG DATA

Arsitektur Hadoop terdiri dari:

Select one:

a. Storage layer, Resource Management Layer, Application Layer

b. Storage layer, Processing Layer, Application Layer

c. Data layer, Processing Layer, Service Layer

d. Storage layer, Service Layer, Application Layer

Berikut ini adalah saran untuk memasuki era Analytic 3.0:

Select one:

a. Pilih target dan sub-target analytics 3.0

b. Tambahkan beberapa data volume besar yang tidak terstruktur

c. Semua benar

d. Mulailah dengan kemampuan yang ada untuk manajemen data dan analitik

Berikut ini yang harus dilakukan oleh perusahaan 1.0, kecuali:

Select one:

a. Membuat analitik dan keputusan berbasis fakta elemen kunci dari hubungan pelanggan, produk dan
layanan, strategi, dan persaingan

b. Temukan pelanggan terbaik, tetapkan harga terbaik kepada mereka

c. Buat penawaran yang efektif

d. Pahami biaya dan dorong kinerja yang lebih baik

Contoh Analytic 3.0:

Select one:

a. Data volume tinggi waktu nyata dari sensor dan mesin

b. Semua benar

c. Analisis untuk tren, pola, prediksi, pengoptimalan, kesadaran situasional


d. Fokus pada anomali dan pengecualian

Contoh Aplikasi Machine Learning dan Analitik Prediktif:

Select one:

a. Semua benar

b. Prediksi wabah penyakit

c. Prediksi Cashflow

d. Penetapan harga dinamis

Contoh data tidak terstruktur:

Select one:

a. Data pegawai

b. Data media sosial

c. Semua benar

d. Data transaksi penjualan

Contoh implementasi dalam perusahaan:

Select one:

a. Semua benar

b. Procter & Gamble melakukan Analisis sentimen media sosial real time untuk "Pulsa Konsumen"

c. Sistem Manajemen Inventaris Cerdas pada perusahaan Ford, menyarankan pesanan mingguan untuk
dealer dan telah meningkatkan pendapatan sebesar $ 100 juta / tahun

d. Monsanto membayar hampir $ 1 miliar untuk The Climate Company, yang mengumpulkan dan
menganalisis data cuaca untuk pertanian

Dalam computer vision, contoh penerapan Machine Learning adalah, kecuali:

Select one:

a. Analitik Rute

b. Deteksi suhu tubuh


c. Pengenalan wajah

d. Pengenalan objek

stilah 'Machine Learning' diciptakan pada tahun <T> oleh <P>:

Select one:

a. T = 1999, P = Bill Gates

b. T = 1989, P = Tom M. Mitchell

c. T = 1969, P = Yann LeCun

d. T = 1959, P = Arthur Samuel

Komponen Hadoop yang berfungsi sebagai data processing:

Select one:

a. HDFS

b. YARN

c. MapReduce

d. Semua benar

Komponen Hadoop yang berfungsi sebagai data storage:

Select one:

a. MapReduce

b. YARN

c. Semua benar

d. HDFS

Manakah pernyataan yang benar tentang era Analytic 3.0:

Select one:

a. Dibutuhkan kapabilitas analitis dan komputasi baru

b. Data yang kompleks, besar dan tidak terstruktur

c. Perpaduan antara analitik tradisional dengan Big Data


d. Sumber data dari internal, relatif kecil dan data terstruktur dari pelanggan

Manakah pernyataan yang benar tentang Hadoop:

Select one:

a. Hadoop mulai dikembangkan pada tahun 2008

b. Hadoop merupakan framework untuk bekerja dengan Big Data

c. Semua benar

d. Hadoop merupakan Google File System

Netflix adalah contoh perusahaan yang tergolong:

Select one:

a. 1.0

b. Semua benar

c. 3.0

d. 2.0

Perbandingan SQL vs NoSQL:

Select one:

a. Semua benar

b. Static vs Dynamic

c. Relational vs Non-Relational

d. Structured Query Language vs Un-structured Query Language

Perbandingan Traditional vs Big Data Analytics:

Select one:

a. Process centric vs Information centric

b. Semua benar

c. Hard to scale vs Scales out forever

d. Mahal vs Terjangkau
Salah satu bentuk data tidak terstruktur:

Select one:

a. Graph

b. Semua benar

c. Key-Value

d. Document

Salah satu fakta yang menunjukkan aspek Velocity dari Big Data:

Select one:

a. Mobil modern memiliki 100 sensor yang memantau berbagai item pada mobil

b. Pertumbuhan data tidak terstruktur mencapai 60% - 80% per tahun

c. Semua benar

d. 27% responden dalam satu survei tidak yakin dengan banyaknya data mereka yang tidak akurat

Salah satu tonggak penting dalam Big Data Analytic dalam aspek pengadaan infrastruktur:

Select one:

a. Dapatkan infrastruktur yang tepat yang dibutuhkan berdasarkan arsitektur solusi Anda termasuk
penyimpanan data dan unit pemrosesan, platform, dan aplikasi

b. Adaptasi dan ubah organisasi Anda menuju teknologi big data dan implementasi analitik baru

c. Kembangkan arsitektur Solusi untuk kasus bisnis Anda termasuk proses pengumpulan data, arsitektur
teknologi dan metode analitik serta visualisasi data

d. Analisis data untuk setiap kasus bisnis spesifik Anda dan visualisasikan dengan cara yang bermakna

Teknologi yang dibutuhkan pada era Analytic 3.0:

Select one:

a. Ketergantungan yang tinggi pada Machine Learning

b. Berpusat pada Data Warehouse

c. Keduanya benar

d. Keduanya salah
BIG DATA PERTEMUAN 3

Sistem penyimpanan data cluster adalah

Select one:

a. Kumpulan server atau node digabungkan secara erat, dengan spesifikasi perangkat keras yang sama.
Serta terhubung melalui jaringan dan bekerja sebagai satu kesatuan

b. Penyimpanan dan pengaturan data pada perangkat penyimpanan harddisk atau flashdisk, dan
menyediakan logical view dari data yang disimpan dalam struktur hirakis direktori file.

c. Menyimpan data dengan mempartisi secara horizontal dan pecahan horizontal tersebut di simpan
secara terpisah pada node server.

d. Data disimpan dengan cara menyalin dataset dan meyimpan Salinan tersebut pada beberapa node

Berikut yang dimaksud dengan menganalisa data dalam konteks big data adalah:

Select one:

a. Classification analytics, regression analytics, clustering analytics, dan hadooping analytics

b. Menentukan jumlah data dan atribut data

c. mean statistic analytics, deviation standard analytics, dan percentil analytics

d. Descriptive analytics, diagnostic analytics, predictive analytics, dan prescriptive analytics

Properti Big data yang penting, salah satunya adalah aviability, yaitu:

Select one:

a. Kemampuan menanganai penambahan bebab yang diberikan tanpa penurunan kinerja

b. Handal

c. Kemampuan untuk terus beroperasi walaupun terjadi kegagalan pada beberapa komponen

d. Ketersediaan layanan secara terus menerus

Berikut ini yang bukan merupakan Hadoop operation mode, adalah

Select one:

a. Globally distributed mode


b. Pseudo distributed mode

c. Fully-Distributed mode

d. Stand alone mode

Pernyataan yang benar mengenai MapReduce, adalah:

Select one:

a. membagi masalah besar menjadi masalah kecil yang dapat diselesaikan dengan cepat

b. memproses data besar secara parallel dalam cluster pada commodity hardware

c. semua benar

d. implementasi dari framework pemrosesan batch

NoSQl database adalah singkatan dari

Select one:

a. Not-only Structured Query Language database

b. Numbered of sequel database

c. Numbered of Structured Query Language database

d. No Like Structured Query Language database

YARN singkatan dari

Select one:

a. Yahoo’s another resource name

b. Yet another resource negotiator

c. Yahoo’s archived Resource names

d. Yet another resource need

Komponen layanan inti Hadoop adalah

Select one:

a. ClickStream, Sensor, dan Sentiment

b. Speed, consistency, dan volume


c. SQL, NoSQL, Cluster

d. MapReduce, HDFS, dan YARN

Hadoop adalah framework yang bekerja bersama tools lain yang beragam. Kelompok yang umum
bekerja bersama Hadoop adalah

Select one:

a. MapReduce, Hummer and Iguana

b. MapReduce, Hive and Hbase

c. MapReduce, MySQL and Google Apps

d. MapReduce, Heron and Trumpet

Properti Big data yang penting, salah satunya adalah reliability, yaitu:

Select one:

a. Kemampuan untuk terus beroperasi walaupun terjadi kegagalan pada beberapa komponen

b. Handal

c. Ketersediaan layanan secara terus menerus

d. Kemampuan menanganai penambahan bebab yang diberikan tanpa penurunan kinerja

Properti Big data yang penting, salah satunya adalah fault tolerance, yaitu:

Select one:

a. Ketersediaan layanan secara terus menerus

b. Handal

c. Kemampuan untuk terus beroperasi walaupun terjadi kegagalan pada beberapa komponen

d. Kemampuan menanganai penambahan bebab yang diberikan tanpa penurunan kinerja

Database NoSQL menggunakan beragam model data untuk mengakses dan mengelola data. Jenis
database ini dioptimalkan secara khusus untuk aplikasi yang memerlukan…., yang dicapai dengan
mengurangi pembatasan konsistensi data dari database lainnya.

Select one:

a. volume data besar, latensi rendah, dan model data fleksibel


b. volume data besar, latensi rendah, dan model data fleksibel

c. volume data besar, latensi rendah, dan model data fleksibel

d. volume data besar, latensi rendah, dan model data fleksibel

Pemrosesan data terdistribusi adalah pemrosesan

Select one:

a. yang menerapkan divide and conquer dalam fisik terpisah, namun terhunung Bersama dalam satu
cluster

b. yang menggunakan pendekatan pendekatan interaktif tanpa penundaan

c. yang melibatkan pelaksanaan sub-tugas secara bersamaan secara kolektif membentuk tugas yang
besar melalui beberapa processor

d. yang membagi pemrosesan dalam beberapa batch dan dilakukan secara offline

Hadoop adalah framework yang

Select one:

a. Melibatkan satu atau lebih cluster Komputer

b. Memungkinkan pemrosesan secara terdistribusi terhadap data yang berukuran besar

c. Semua benar

d. Menerapkan programming model yang sederhana

Type data berikut yang dapat ditangani oleh Hadoop adalah

Select one:

a. Semua benar

b. Tidak terstuktur

c. Terstruktur

d. Semi – terstruktur
Hadoop adalah platform pemrosesan big data yaitu data yang mempunyai karakteristik kecuali:

Select one:

a. Inconsistent dan uncertaint

b. Volume besar, struktur data yang beragam (variety), dan nilai data yang diperlukan (useful value)

c. Jumlah fitur yang tertentu

d. Terakumulasi dengan cepat (high speed velocity)

Bagian pekerjaan utama MapReduce adalah

Select one:

a. combine dan partition

b. map dan combine

c. shuffle dan sort

d. map dan reduce

Terdapat 2 (dua) teknologi Penyimpanan Big Data, yaitu

Select one:

a. Flashdisk dan harddisk

b. Reliable dan Fault tolerance

c. SQL dan No-SQL

d. On Disk Storage Devices dan In Memory Storage Devices

Jenis database NoSQL apa yang membuat dan menjalankan aplikasi yang berjalan dengan dataset yang
selalu terhubung menjadi lebih mudah dan sering digunakan untuk jaringan media sosial.

Select one:

a. Dokumen

b. Primary key

c. Pencarian

d. Grafik
Properti Big data yang penting, salah satunya adalah scalability, yaitu:

Select one:

a. Ketersediaan layanan secara terus menerus

b. Kemampuan menanganai penambahan bebab yang diberikan tanpa penurunan kinerja

c. Kemampuan untuk terus beroperasi walaupun terjadi kegagalan pada beberapa komponen

d. Handal
28/03/22 13.27 1 pesan baru

Dashboard / My courses /
ATA 2021/2022 | 2-FTI | Kompuasi Big Data | TEAM TEACHING /
Pertemuan 4 : Data Preprocessing
/
Kuis M4 : Data Preprocessing

Started on Monday, 28 March 2022, 1:18 PM


State Finished
Completed on Monday, 28 March 2022, 1:27 PM
Time taken 9 mins 5 secs
Grade 100.00 out of 100.00

Question 1 Bagaimana menangani missing value dengan tepat?


Correct

Mark 5.00 out of Select one:


5.00
Imputasi nilai manual

Dibiarkan

A,B,dan C benar 

Eliminasi data object

Question 2 Berikut adalah nama lain dari data objek, kecuali


Correct

Mark 5.00 out of Select one:


5.00
Instance

Record

Sample

Atribut 

Question 3 Cara menangani noisy data, kecuali


Correct

Mark 5.00 out of Select one:


5.00
Regression

Ignore 

Clustering

Combined Computer

Question 4 Data berupa image, video bahkan suara termasuk jenis data
Correct

Mark 5.00 out of Select one:


5.00
Record

Multimedia 

Graf

Ordered

1
Online

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=5682077&cmid=856415 1/4
28/03/22 13.27 1 pesan baru

Question 5 data cleaning pada data preprocessing dilakukan..


Correct

Mark 5.00 out of Select one:


5.00
Normalisasi dan diskritasi data

Identifikasi dan integrasi dari multiple database

Imputasi, smoothing dan identifikasi 

Dimensionality reduction dan data compression

Question 6 Data Cleansing merupakan tahapan untuk membersihkan data kotor sehingga menjadi dataset yang siap diolah. Data
Correct kotor tersebut berupa
Mark 5.00 out of
5.00 Select one:
outlier

A,B,C benar 

missing value

duplicate data

Question 7 Data-data yang saling berhubungan, yang biasanya ditemukan pada jaringan internet termasuk dalam jenis data
Correct

Mark 5.00 out of Select one:


5.00
Multimedia

Ordered

Record

Graf 

Question 8 Imputasi nilai secara otomatis saat menangani incomplete data tidak dapat dilakukan menggunakan
Correct

Mark 5.00 out of Select one:


5.00
interpolasi

Nilai tertinggi 

Median

Rata-rata

Question 9 Jenis kelamin, merupakan salah satu atribut data type…


Correct

Mark 5.00 out of Select one:


5.00
Nominal 

Numerik

Rasio

Ordinal

Question 10 Karakteristik data objek merupakan representasi dari


Correct

Mark 5.00 out of Select one:


5.00
Dataset 1
Online
Atribut 

Data objek

Data sample

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=5682077&cmid=856415 2/4
28/03/22 13.27 1 pesan baru

Question 11 Nilai yang merepresentasikan urutan seperti nilai mata kuliah termasuk dalam atribut data type..
Correct

Mark 5.00 out of Select one:


5.00
Rasio

Ordinal 

Nominal

Numerik

Question 12 Normalisasi data dilakukan pada tahap data preprocessing ..


Correct

Mark 5.00 out of Select one:


5.00
data reduction

data Integration

data transformation 

data cleaning

Question 13 Penanganan missing value dapat dilakukan menggunakan nilai estimasi dari probabilitas bersyarat menggunakan metode
Correct

Mark 5.00 out of Select one:


5.00
Eliminasi

Bayessian 

Regresi

Mean

Question 14 Salah satu jenis data record yang diekstrak menjadi kumpulan term dan ditulis berdasarkan frekuensi kemunculan data,
Correct termasuk pada jenis data
Mark 5.00 out of
5.00 Select one:
Dokumen 

Transaksi

Matriks

Sosial network

Question 15 Seberapa mudah data dapat dipahami merupakan kualitas data dari..
Correct

Mark 5.00 out of Select one:


5.00
Consistency

Interpretability 

Completeness

Believability

Question 16 Statistik dasar untuk mengukur sebaran data salah satunya adalah
Correct

Mark 5.00 out of Select one:


5.00
Mean 1

Modus
Online

Median

Variance 

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=5682077&cmid=856415 3/4
28/03/22 13.27 1 pesan baru

Question 17 Studi tentang bagaimana menganalisis data dan membersihkan data merupakan salah satu tujuan dari
Correct

Mark 5.00 out of Select one:


5.00
Data validation

Data cleansing 

Data training

Data testing

Question 18 Tahapan pertama data preprocessing adalah


Correct

Mark 5.00 out of Select one:


5.00
data Integration

data reduction

data cleaning 

data transformation

Question 19 Tanggal penjualan, nama pelanggan, nama barang, jumlah penjualan merupakan contoh dari
Correct

Mark 5.00 out of Select one:


5.00
Atribut penjualan

Data sample penjualan

Data objek penjualan

Dataset penjualan 

Question 20 Tinggi badan, berat badan, usia, dan jenis kelamin merupakan contoh representasi karakteristik dari
Correct

Mark 5.00 out of Select one:


5.00
Atribut

Data objek 

Dataset

Data sample

Kuis M4 : Data Preprocessing (khusus


◄ Video M4 : Data Preprocessing Jump to...
kelas MALAM)) ►

1
Online

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=5682077&cmid=856415 4/4
04/04/22 13.35 Kuis M5: Implementasi BigData pada Fintech: Attempt review

Dashboard / My courses /
ATA 2021/2022 | 2-FTI | Kompuasi Big Data | TEAM TEACHING /
Pertemuan 5: Implementasi Big Data pada Fintech
/
Kuis M5: Implementasi BigData pada Fintech

Started on Monday, 4 April 2022, 1:26 PM


State Finished
Completed on Monday, 4 April 2022, 1:35 PM
Time taken 8 mins 49 secs
Marks 19.00/20.00
Grade 95.00 out of 100.00

Question 1 Peran Data Engineer seringkali juga disebut sebagai:


Correct

Mark 1.00 out of Select one:


1.00
a. Data Architect 

b. Data Manager

c. Business Analyst

d. Statistician

The correct answer is: Data Architect

Question 2 Data terstrutur disimpan kedalam bentuk:


Correct

Mark 1.00 out of Select one:


1.00
a. Abstrak

b. Semua benar

c. Baris dan kolom 

d. Gambar

The correct answer is: Baris dan kolom

Question 3 Berikut ini yang merupakan arsitektur Big Data adalah:


Correct

Mark 1.00 out of Select one:


1.00
a. Arsitektur Alfa dan Beta

b. Arsitektur Lambda dan Kappa 

c. Arsitektur Alfa dan Lambda

d. Arsitektur Beta dan Kappa

The correct answer is: Arsitektur Lambda dan Kappa

1
Online

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=5791856&cmid=867269 1/5
04/04/22 13.35 Kuis M5: Implementasi BigData pada Fintech: Attempt review

Question 4 Salah satu karakteristik data tidak terstruktur adalah:


Incorrect

Mark 0.00 out of Select one:


1.00
a. Berbasis teks

b. Sulit untuk dicari

c. Model data dapat ditentukan sebelumnya

d. Terkelola secara fleksibel 

Question 5 Berikut ini yang bukan contoh data terstruktur adalah:


Correct

Mark 1.00 out of Select one:


1.00
a. Nomor KTP

b. Nomor telepon

c. Email 

d. Nama pelanggan

The correct answer is: Email

Question 6 Salah satu teknologi yang dapat digunakan pada bagian Serving Layer dalam Arsitektur lambda adalah:
Correct

Mark 1.00 out of Select one:


1.00
a. Hive 

b. Flume

c. Spark

d. HDFS

The correct answer is: Hive

Question 7 Salah satu aktivitas yang dilakukan oleh Link Aja! dalam mengadopsi alat-alat bantu untuk pengelolaan data adalah:
Correct

Mark 1.00 out of Select one:


1.00
a. Memaksimumkan pemanfaatan platform Google Cloud 

b. Meningkatkan proses perbaikan kualitas data

c. Memprioritaskan data yang memiliki tingkat kepentingan tinggi dan bernilai

d. Mengoptimalkan jumlah kelompok pengguna yang dapat mengakses

The correct answer is: Memaksimumkan pemanfaatan platform Google Cloud

Question 8 Cloudera merilis Kudu pada tahun:


Correct

Mark 1.00 out of Select one:


1.00
a. 2015 

b. 2008

c. 2020

d. 2016

The correct answer is: 2015 1


Online

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=5791856&cmid=867269 2/5
04/04/22 13.35 Kuis M5: Implementasi BigData pada Fintech: Attempt review

Question 9 Berikut ini urutan proses yang dilakukan dalam Arsitektur Kappa adalah:
Correct

Mark 1.00 out of Select one:


1.00
a. Data Sources, Streaming/Real-Time Processing, Streaming/Real-Time Ingestion, Analytical Data Store, Analytics
&amp; Reporting

b. Data Sources, Streaming/Real-Time Ingestion, Analytical Data Store, Streaming/Real-Time Processing, Analytics
&amp; Reporting

c. Data Sources, Analytical Data Store, Streaming/Real-Time Ingestion, Streaming/Real-Time Processing, Analytics
&amp; Reporting

d. Data Sources, Streaming/Real-Time Ingestion, Streaming/Real-Time Processing, Analytical Data Store, Analytics
&amp; Reporting 

The correct answer is: Data Sources, Streaming/Real-Time Ingestion, Streaming/Real-Time Processing, Analytical Data
Store, Analytics &amp; Reporting

Question 10 Pembayaran Kartu prakerja merupakan salah satu proyek yang dikerjakan oleh Link Aja bersama dengan:
Correct

Mark 1.00 out of Select one:


1.00
a. BPJS

b. Semua salah

c. Bank Indonesia

d. Pemerintah 

The correct answer is: Pemerintah

Question 11 Dalam ekosistem teknologi Data Engineering Link Aja! Apache Airflow berfungsi sebagai:
Correct

Mark 1.00 out of Select one:


1.00
a. Data Sources Gathering

b. Streaming Infrastructure

c. Monitoring

d. Batching Infratructure 

The correct answer is: Batching Infratructure

Question 12 Ukuran kualitas citra merupakan salah satu luaran yang dihasilkan oleh AI/ML Scientist Link Aja! pada proyek:
Correct

Mark 1.00 out of Select one:


1.00
a. Natural Language processing

b. Pembuatan Platform AI/ML

c. eKYC Improvement 

d. Otomasi Produksi AI/ML

The correct answer is: eKYC Improvement

1
Online

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=5791856&cmid=867269 3/5
04/04/22 13.35 Kuis M5: Implementasi BigData pada Fintech: Attempt review

Question 13 Kafka dikembangkan pertama kali oleh:


Correct

Mark 1.00 out of Select one:


1.00
a. Linkedin 

b. Yahoo

c. Google

d. Facebook

The correct answer is: Linkedin

Question 14 Berikut ini merupakan karakteristik dari Big Data, kecuali:


Correct

Mark 1.00 out of Select one:


1.00
a. Semua salah 

b. Volume

c. Veracity

d. Variety

The correct answer is: Semua salah

Question 15 Berikut ini merupakan komponen-kompone produksi dalam implementasi big data, kecuali:
Correct

Mark 1.00 out of Select one:


1.00
a. Kafka

b. Presto

c. Spark

d. MongoDB 

The correct answer is: MongoDB

Question 16 Menjadi platform teknologi keuangan nasional terdepan dan terpercaya merupakan ... dari Link Aja!:
Correct

Mark 1.00 out of Select one:


1.00
a. SLogan

b. Misi

c. Tujuan

d. Visi 

The correct answer is: Visi

1
Online

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=5791856&cmid=867269 4/5
04/04/22 13.35 Kuis M5: Implementasi BigData pada Fintech: Attempt review

Question 17 Berikut ini adalah teknologi yang digunakan oleh Link Aja! pada bagian Persistence Layer, kecuali:
Correct

Mark 1.00 out of Select one:


1.00
a. Grafana 

b. Google Cloud Storage

c. Google Big Query

d. PostgreSQL

The correct answer is: Grafana

Question 18 Server logs merupakan salah satu contoh jenis data:


Correct

Mark 1.00 out of Select one:


1.00
a. Terstruktur

b. Tidak Terstruktur

c. Semi Terstruktur 

d. Semua Pilihan Salah

The correct answer is: Semi Terstruktur

Question 19 Nathan Marz adalah orang yang pertama kali mengembangkan:


Correct

Mark 1.00 out of Select one:


1.00
a. Storm 

b. Beam

c. Hadoop

d. Hive

The correct answer is: Storm

Question 20 Berikut ini yang bukan termasuk kedalam peran Tim Data di Link Aja! adalah:
Correct

Mark 1.00 out of Select one:


1.00
a. Data Intelligent 

b. Data Analyst

c. Data Scientist

d. Data Engineer

The correct answer is: Data Intelligent

◄ Materi M5: Implementasi Big Data Kuis M5: Implementasi BigData pada
Jump to...
pada Fintech Fintech (Khusus KELAS MALAM) ►

1
Online

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=5791856&cmid=867269 5/5
QUIZ M7 KOMPUTASI BIG DATA

Metode untuk memprediksi kelas instance dari instance yang diberi label sebelumnya

Select one:

a. Asosiasi

b. Klasterisasi

c. Klasifikasi

d. Visualisasi

Proses pencarian konten baru dan konten yang perlu diperbaharui dengan mengirimkan crawler ke
seluruh konten yang ditemukan dari tautan halaman merupakan Salah satu konsep data mining pada
Search Engine yang dinamakan

Select one:

a. Rank

b. Searching

c. Index

d. Crawl

Metode untuk mempresentasikan hasil yang ditemukan dengan cara yang "bagus" secara visual

Select one:

a. Asosiasi

b. Visualisasi

c. Klasterisasi

d. Klasifikasi

Untuk menghindari set pengujian yang tumpang tindih, data dibagi menjadi k himpunan bagian dengan
ukuran yang sama kemudiansetiap subset secara bergantian digunakan untuk pengujian dan sisanya
untuk pelatihan

Select one:

a. Direct Marketing Paradigm


b. Commulative PCT Hits

c. Model Sorted list

d. k-fold cross-validation

Attributes yang berisi informasi seperti item_ID, name, brand, category, supplier, place_made and price,
merupakaan salah satu contoh jenis database

Select one:

a. Penjualan

b. Marketing

c. Penyewaan

d. Social media

Urutan langkah melakukan klasifikasi

Select one:

a. Pisahkan data menjadi set pelatihan dan pengujian, Buat model pada set pelatihan, Evaluasi pada set
pengujian

b. Buat model pada set pelatihan, pilih secara acak jumlah instance kelas minoritas yang diinginkan,
Evaluasi pada set pengujian

c. Buat model pada set pelatihan, Evaluasi pada set pengujian (Latih ulang?), Pisahkan data menjadi set
pelatihan dan pengujian

d. Evaluasi pada set pengujian, Buat model pada set pelatihan, Pisahkan data menjadi set pelatihan dan
pengujian

Pernyataan yang tepat terkait data mining and knowledge discovery

Select one:

a. fokus pada peningkatan kinerja agen pembelajaran

b. lebih fokus pada pengujian hipotesis

c. melihat pembelajaran real-time dan robotika

d. fokus pada seluruh proses penemuan pengetahuan


Regression, Decision Trees, Bayesian, Neural Networks, Naïve Bayes Rules, Support Vector Machines,
Genetic Algorithms adalah pendekatan yang digunakan untuk

Select one:

a. Asosiasi

b. Klasifikasi

c. Visualisasi

d. Klasterisasi

Fungsi dari data mining adalah salah satunya dapat mengetahui pola yang sering (atau kumpulan item
yang sering) misalnya item apa yang sering dibeli bersama di Walmart Anda. Ini dikenal dengan istilah

Select one:

a. Klasifikasi

b. Klasterisasi

c. Outlier Analysis

d. Asosiasi dan Analisis Korelasi

Metode untuk mengelompokkan secara "alami" dari instance yang diberi data tanpa label

Select one:

a. Asosiasi

b. Klasifikasi

c. Klasterisasi

d. Visualisasi

Pernyataan yang tepat terkait data mining and knowledge discovery

Select one:

a. lebih teori

b. lebih fokus pada pengujian hipotesis

c. mengintegrasikan teori dan heuristik

d. lebih heuristik
Yang bukan Metode clusterisasi

Select one:

a. Hierarchical vs. flat

b. Decision Tree

c. Exclusive vs. overlapping

d. Deterministic vs. probabilistic

Seberapa mudah data dapat dipahami merupakan kualitas data dari..

Select one:

a. Completeness

b. Interpretability

c. Consistency

d. Believability

Jenis tugas data mining yang menfasilitasi penerimaan / penelusuran informasi bagi pengguna

Select one:

a. Visualisasi

b. Klasifikasi

c. Klasterisasi

d. Asosiasi

Karakteristik Big Data yang terus bertambah dengan cepat secara real-time dinamakan

Select one:

a. Value

b. Volume

c. variety

d. Velocity
Pernyataan yang kurang sesuai dengan metode peringkasan

Select one:

a. Mengelompokkan data tak berlabel

b. Biasanya dalam Kombinasi dengan deteksi Deviasi atau metode lain

c. Menggunakan bahasa dan grafik alami

d. Menjelaskan fitur dari grup yang dipilih

Metode klasifikasi pada fungsi data mining yang menggunakan nilai estimasi dari probabilitas bersyarat
dinamakan metode

Select one:

a. Regresi

b. Eliminasi

c. Mean

d. Naive Bayessian

Jenis tugas data mining yang melakukan prediksi kelas

Select one:

a. Klasifikasi

b. Visualisasi

c. Klasterisasi

d. Asosiasi

Melihat suatu objek data yang tidak sesuai dengan perilaku umum data, sering digunakan dalam deteksi
penipuan atau analisis kejadian langka

Select one:

a. Analisis Outlier

b. Klasifikasi

c. Asosiasi dan Analisis Korelasi

d. Klasterisasi
Acuan yang tidak tepat ketika melakukan pengaturan parameter

Select one:

a. Data pengujian tidak digunakan dengan cara apa pun untuk membuat pengklasifikasi

b. Data pengujian harus digunakan untuk penyetelan parameter

c. Skema pembelajaran beroperasi dalam dua tahap yaitu membangun struktur dasar dan
mengoptimalkan pengaturan parameter

d. Data pengujian tidak dapat digunakan untuk penyetelan parameter


09/05/22 13.58 1 pesan baru

Dashboard / My courses /
ATA 2021/2022 | 2-FTI | Kompuasi Big Data | TEAM TEACHING
/
Pertemuan 8: Introduction to Machine Learning (Supervised) /
Kuis M6 : Introduction to Machine Learning (Supervised)

Started on Monday, 9 May 2022, 1:43 PM


State Finished
Completed on Monday, 9 May 2022, 1:58 PM
Time taken 15 mins 4 secs

Question 1 Pembelajaran yang menghasilkan Nilai output ti bernilai diskrit (kelas)


Correct

Marked out of Select one:


5.00
a. Klasifikasi 

b. Regressi

c. Generalisasi

d. Klasterisasi

1
Question 2 Yang tidak digunakan pada Model Supervised Learning Online
Correct

Marked out of Select one:


5.00
a. Linear Model

b. Latent Semantic Analysis 

c. Support Vector Machine

d. Neural Networks

Question 3 Jika variabel keluaran adalah berupa kategori misalnya “apel”, “jeruk” termasuk pada machine learning bertipe
Correct

Marked out of Select one:


5.00
a. Supervised -Regresion

b. Reinfocement

c. Unsupervised

d. Supervised – Classification 

Question 4 Tahapan yang tepat ketika melakukan testing


Correct

Marked out of Select one:


5.00
a. Image Features - Training With Labeled Data – Prediction

b. Image Features - Learned Model - Prediction 

c. Image Features - Training With Labeled Data - Learned Model

d. Image Features - Training With Unlabel Data -Learned Model - Prediction

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=6197464&cmid=906733 1/5
09/05/22 13.58 1 pesan baru

Question 5 Model ini belajar dari kumpulan data berlabel dan kemudian digunakan untuk memprediksi peristiwa di masa depan.
Correct

Marked out of Select one:


5.00
a. Unsupervised Learning

b. Reinfocement Learning

c. Semi Supervised Learning

d. Supervised Learning 

Question 6 Model pembelajaran yang menggunakan data berlabel dan tidak berlabel untuk pelatihan.
Correct

Marked out of Select one:


5.00
a. Unsupervised Learning

b. Reinfocement Learning

c. Semi Supervised Learning 

d. Supervised Learning

Question 7 Tahapan yang tepat ketika melakukan training


Correct

Marked out of Select one: 1


5.00 Online
a. Image Features - Learned Model - Prediction

b. Image Features - Training With Labeled Data – Prediction

c. Image Features - Training With Labeled Data - Learned Model 

d. Image Features - Training With UnLabeled Data - Prediction

Question 8 Yang bukan tujuan supervised learning untuk membangun model yang dapat menghasilkan output yang benar untuk
Correct suatu data input dapat digunakan untuk
Marked out of
5.00 Select one:
a. Klasterisasi (clustering) 

b. Pengklasifikasian (classification)

c. Ranking

d. Regresi (regression)

Question 9 Saat Anda ingin mengungkap pengelompokan yang melekat dalam data, seperti mengelompokkan hewan berdasarkan
Correct beberapa karakteristik / fitur, mis. jumlah kaki maka model pembelajaran yang sesuai
Marked out of
5.00 Select one:
a. Supervised Learning - Regression

b. Unsupervised Learning - Clustering 

c. Reinfocement Learning

d. Supervised Learning - Classification

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=6197464&cmid=906733 2/5
09/05/22 13.58 1 pesan baru

Question 10 Kumpulan data yg sudah dipastikan kebenarannya, dr sisi label, data awal, komponen2 data yg akan dijadikan kunci,
Correct

Marked out of Select one:


5.00
a. Instance

b. Training Set 

c. Feature Extraction

d. Feature/ atribut

Question 11 Pola-pola struktur yang ada pada suatu koleksi data (knowledge) dapat direpresentasi dalam bentuk if then rules :
Correct

Marked out of Select one:


5.00
a. Tabel

b. Instance

c. Aturan 

d. Pohon

Question 12
Correct

Marked out of 1
5.00
Online

Gambar pada representasi di atas adalah Pola-pola struktur yang ada pada suatu koleksi data (knowledge) dalam bentuk

Select one:
a. Pohon

b. Tabel

c. Aturan 

d. Instance

Question 13 Sebuah proses yg mempersiapkan data sehingga data tsb bisa kita extract cirinya menjadi suatu vektor
Correct

Marked out of Select one:


5.00
a. Instance

b. Feature/ atribut

c. Feature Extraction 

d. Training Set

Question 14 Salah satu teknik yang digunakan untuk mengkontrol fenomena over-fitting adalah dengan cara menambah finalti ke
Correct fungsi error.
Marked out of
5.00 Select one:
a. model selection

b. prediction

c. regularization 

d. generalization

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=6197464&cmid=906733 3/5
09/05/22 13.58 1 pesan baru

Question 15 Model Pembelajaran yang mempelajari bagaimana sistem dapat menyimpulkan suatu fungsi untuk mendeskripsikan
Correct struktur tersembunyi dari data yang tidak berlabel. Sistem ini tidak memprediksi keluaran yang benar, tetapi
Marked out of mengeksplorasi data dan dapat menarik kesimpulan dari kumpulan data untuk mendeskripsikan struktur tersembunyi dari
5.00 data yang tidak berlabel.

Select one:
a. Reinfocement Learning

b. Supervised Learning

c. Unsupervised Learning 

d. Semi Supervised Learning

Question 16 Pembelajaran yang bertujuan memprediksi output dengan akurat untuk data baru dan output ti bernilai kontinu (riil),
Correct contoh untuk Prediksi kinerja CPU
Marked out of
5.00 Select one:
a. Regressi 

b. Klasifikasi

c. Generalisasi

d. Klasterisasi

1
Online
Question 17 Ciri-ciri dari masing-masing sample data misalnya Smartphone. ciri: memiliki ...

Correct

Marked out of
5.00 Select one:
a. Feature Extraction

b. Feature/ atribut 

c. Training Set

d. Instance

Question 18

Correct

Marked out of
5.00

Gambar pada representasi di atas adalah Pola-pola struktur yang ada pada suatu koleksi data (knowledge) dalam bentuk

Select one:
a. Tabel

b. Pohon 

c. Instance

d. Aturan

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=6197464&cmid=906733 4/5
09/05/22 13.58 1 pesan baru

Question 19
Correct

Marked out of
5.00

Gambar pada representasi di atas adalah Pola-pola struktur yang ada pada suatu koleksi data (knowledge) dalam bentuk

Select one:
a. Pohon

b. Aturan

c. Instance

d. Tabel 

Question 20 Tujuan pembelajaran unsupervised adalah membagun model yang dapat menemukan komponen / variabel / fitur
Correct tersembunyi pada data pelatihan, yang dapat digunakan untuk hal berikut, kecuali
Marked out of
5.00 Select one:
a. Pengelompokan (clustering)

b. Reduksi dimensi (dimension reduction)

c. Rekomendasi

d. Pengklasifikasian (classification) 

Kuis M6 : Introduction to Machine


◄ Video M8: Introduction to Machine
Jump to... Learning (Supervised) (Khusus Kelas
Learning (Supervised)
Malam) ►

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=6197464&cmid=906733 5/5
20/06/22 13.39 1 pesan baru

Dashboard / My courses /
ATA 2021/2022 | 2-FTI | Kompuasi Big Data | TEAM TEACHING /
Pertemuan 9: Unsupervised Learning (M11)
/
Kuis M11 : Unsupervised Learning (KELAS PAGI)

Started on Monday, 20 June 2022, 1:26 PM


State Finished
Completed on Monday, 20 June 2022, 1:38 PM
Time taken 11 mins 52 secs

Question 1 Algoritma yang paling banyak digunakan untuk task Association rules
Correct

Marked out of Select one:


5.00
a. Apriori

b. FP-Growth

c. Apriori 

d. Eclat

Question 2 Salah satu bentuk pengelompokan yang menetapkan bahwa suatu titik data hanya dapat ada dalam satu cluster. Ini juga
Correct bisa disebut sebagai pengelompokan "keras". Algoritma yang digunakan salah satunya adalah K-means clustering
Marked out of
5.00 Select one:
a. Tumpang tindih (overlapping)

b. Memecah belah (Divisive)

c. Clustering Eksklusif (specifically exclusive) 

d. Hierarkis ( hierarchical)

Question 3 Pengelompokan yang sebagai "pendekatan bottom-up". Di mana titik datanya diisolasi sebagai pengelompokan terpisah
Correct pada awalnya, dan kemudian digabungkan bersama secara iteratif atas dasar kesamaan hingga satu cluster tercapai.
Marked out of
5.00 Select one:
a. Pendekatan Probabilistic

b. Pendekatan Aglomeratif 

c. Pendekatan Overlapping

d. Pendekatan Divisive

Question 4 Pendekatan Unsupervised Learning adalah


Correct

Marked out of Select one:


5.00
a. Mempelajari bagaimana cara kerja pembelajaran dengan pengawasan

b. Mempelajari bagaimana cara kerja pembelajaran yang mendalam

c. Mempelajari bagaimana cara kerja pembelajaran tanpa pengawasan dan dengan pengawasan

d. Mempelajari bagaimana cara kerja pembelajaran tanpa pengawasan 

1
Online

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=6521344&cmid=939484 1/5
20/06/22 13.39 1 pesan baru

Question 5 Jenis algoritme pengurangan dimensi yang digunakan untuk mengurangi redundansi dan mengompresi kumpulan data
Correct melalui ekstraksi fitur. Metode ini menggunakan transformasi linier untuk membuat representasi data baru, menghasilkan
Marked out of sekumpulan "komponen utama". Komponen utama pertama adalah arah yang memaksimalkan varians dari dataset.
5.00 Sementara komponen utama kedua juga menemukan varians maksimum dalam data, itu sama sekali tidak berkorelasi
dengan komponen utama pertama, menghasilkan arah yang tegak lurus, atau ortogonal, ke komponen pertama. Proses
ini berulang berdasarkan jumlah dimensi, dimana komponen utama berikutnya adalah arah ortogonal ke komponen
sebelumnya dengan varians terbanyak.

Select one:
a. Autoencoders

b. Principal component analysis 

c. Singular value decomposition

d. FP-Growth

Question 6 Kemampuannya untuk menemukan persamaan dan perbedaan informasi menjadikannya unsupervised learning sebagai
Correct solusi ideal tugas tugas di bawah ini, kecuali
Marked out of
5.00 Select one:
a. strategi penjualan silang

b. Analisis data eksplorasi

c. Segmentasi pelanggan

d. Klasifikasi buah jeruk dan buah apel 

Question 7 Pendekatan reduksi dimensi lain yang memfaktorkan matriks, A, menjadi tiga matriks peringkat rendah. SVD
Correct dilambangkan dengan rumus, A = USVT, di mana U dan V adalah matriks ortogonal. S adalah matriks diagonal, dan nilai S
Marked out of dianggap sebagai nilai tunggal matriks A. Principal component analysis
5.00

Select one:
a. Autoencoders 

b. FP-Growth

c. Singular value decomposition

Question 8 Algoritme yang bukan digunakan untuk pengelompokan (Clustering)


Correct

Marked out of Select one:


5.00
a. Auto Encoder 

b. Tumpang tindih (overlapping)

c. Clustering ekslusif (specifically exclusive)

d. Hierarkis ( hierarchical)

Question 9 Algoritme yang berusaha menemukan pola tersembunyi atau pengelompokan data tanpa perlu campur tangan manusia.
Correct

Marked out of Select one:


5.00
a. Semi Supervised Learning

b. Deep Learning

c. Unsupervised Learning 

d. Supervised Learning

1
Online

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=6521344&cmid=939484 2/5
20/06/22 13.39 1 pesan baru

Question 10 Salah satu bentuk pengelompokan yang memungkinkan titik data menjadi bagian dari beberapa kluster dengan derajat
Correct keanggotaan terpisah. Ini disebut juga Pengelompokan "lembut" atau fuzzy k-means
Marked out of
5.00 Select one:
a. Memecah belah (Divisive)

b. Tumpang tindih (overlapping) 

c. Hierarkis ( hierarchical)

d. Clustering Eksklusif (specifically exclusive)

Question 11 Teknik yang memanfaatkan jaringan neural untuk mengompresi data dan kemudian membuat ulang representasi baru
Correct dari input data asli. Terdapat lapisan tersembunyi secara khusus bertindak sebagai penghambat untuk memampatkan
Marked out of lapisan masukan sebelum merekonstruksi di dalam lapisan keluaran.
5.00

Select one:
a. Principal component analysis

b. Singular value decomposition

c. FP-Growth

d. Autoencoders 

Question 12 Algoritme yang menggunakan pohon hash untuk menghitung kumpulan item, menavigasi kumpulan data dengan cara
Correct yang pertama. Algoritma ini telah dipopulerkan melalui analisis keranjang pasar, yang mengarah ke mesin rekomendasi
Marked out of yang berbeda untuk platform musik dan pengecer online.Misalnya, jika saya memutar radio Black Sabbath di Spotify,
5.00 dimulai dengan lagu mereka "Anggrek", salah satu lagu lain di saluran ini kemungkinan besar adalah lagu Led Zeppelin,
seperti "Over the Hills dan Far Away." Ini didasarkan pada kebiasaan mendengarkan saya sebelumnya serta kebiasaan
orang lain.

Select one:
a. Apriori

b. FP-Growth

c. Eclat

d. Apriori 

Question 13 Yang bukan tugas dari pembelajaran tanpa pengawasan


Correct

Marked out of Select one:


5.00
a. clustering

b. Association

c. Dimensionality reduction

d. Regression 

Question 14 Pengelompokan yang mengambil pendekatan "top-down". Dalam hal ini, satu cluster data dibagi berdasarkan perbedaan
Correct antara titik data. Pengelompokan dengan cara ini tidak umum digunakan, tetapi masih perlu diperhatikan dalam konteks
Marked out of pengelompokan hierarkis. Proses pengelompokan ini biasanya divisualisasikan menggunakan dendrogram, diagram mirip
5.00 pohon yang mendokumentasikan penggabungan atau pemisahan titik data pada setiap iterasi.

Select one:
a. Pendekatan Aglomeratif

b. Pendekatan Overlapping

c. Pendekatan Probabilistic

d. Pendekatan Divisive 

1
Online

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=6521344&cmid=939484 3/5
20/06/22 13.39 1 pesan baru

Question 15 Metode berbasis aturan untuk menemukan hubungan antara variabel dalam kumpulan data tertentu. Metode ini sering
Correct digunakan untuk analisis keranjang pasar, memungkinkan perusahaan untuk lebih memahami hubungan antara produk
Marked out of yang berbeda. Memahami kebiasaan konsumsi pelanggan memungkinkan bisnis untuk mengembangkan strategi
5.00 penjualan silang dan mesin rekomendasi yang lebih baik.

Select one:
a. Association 

b. clustering

c. Dimensionality reduction

d. Regression

Question 16 Teknik tanpa pengawasan yang membantu menyelesaikan estimasi kepadatan atau masalah pengelompokan "lunak".
Correct Dalam hal ini, titik data dikelompokkan berdasarkan kemungkinannya termasuk dalam distribusi tertentu. Teknik yang
Marked out of paling umum digunakan adalah Gaussian Mixture Model (GMM)
5.00

Select one:
a. Pendekatan Divisive

b. Pendekatan Aglomeratif

c. Pendekatan Overlapping

d. Pendekatan Probabilistic 

Question 17 Teknik yang mengelompokkan data yang tidak berlabel berdasarkan persamaan atau perbedaannya. Algoritma ini
Correct digunakan untuk memproses objek data mentah dan tidak terklasifikasi menjadi grup yang diwakili oleh struktur atau
Marked out of pola dalam informasi.
5.00

Select one:
a. Dimensionality reduction

b. Association

c. Regression

d. Clustering 

Question 18 Pembelajaran mesin tanpa pengawasan, menggunakan algoritme pembelajaran mesin untuk menganalisis dan
Correct mengelompokkan set data tak berlabel
Marked out of
5.00 Select one:
a. Deep Learning

b. Semi Supervised Learning

c. Unsupervised Learning 

d. Supervised Learning

Question 19 Algoritme yang menggunakan pohon hash untuk menghitung kumpulan item, menavigasi kumpulan data dengan cara
Correct yang pertama. Algoritma ini telah dipopulerkan melalui analisis keranjang pasar, yang mengarah ke mesin rekomendasi
Marked out of yang berbeda untuk platform musik dan pengecer online.Misalnya, jika saya memutar radio Black Sabbath di Spotify,
5.00 dimulai dengan lagu mereka "Anggrek", salah satu lagu lain di saluran ini kemungkinan besar adalah lagu Led Zeppelin,
seperti "Over the Hills dan Far Away." Ini didasarkan pada kebiasaan mendengarkan saya sebelumnya serta kebiasaan
orang lain. Ini termasuk task

Select one:
a. clustering

b. Regression

c. Association 
1
d. Dimensionality reduction
Online

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=6521344&cmid=939484 4/5
20/06/22 13.39 1 pesan baru

Question 20 Teknik yang digunakan ketika jumlah fitur, atau dimensi, dalam kumpulan data tertentu terlalu tinggi. Teknik ini
Correct mengurangi jumlah input data ke ukuran yang dapat dikelola sambil juga menjaga integritas set data sebanyak mungkin,
Marked out of biasanya digunakan dalam tahap data praproses
5.00

Select one:
a. Dimensionality reduction 

b. Regression

c. clustering

d. Association

Kuis M11 : Unsupervised Learning (KELAS


◄ Video M11 : Unsupervised Learning Jump to...
MALAM) ►

1
Online

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=6521344&cmid=939484 5/5
27/06/22 12.55 Kuis M12: Penerapan Big Data di Sektor Perbankan: Attempt review

Dashboard / My courses /
ATA 2021/2022 | 2-FTI | Kompuasi Big Data | TEAM TEACHING
/
Pertemuan 10: Penerapan Big Data di Sektor Perbankan (M12) /
Kuis M12: Penerapan Big Data di Sektor Perbankan

Started on Monday, 27 June 2022, 12:46 PM


State Finished
Completed on Monday, 27 June 2022, 12:55 PM
Time taken 8 mins 46 secs

Question 1 Tipe data dalam Big Data:


Correct

Marked out of Select one:


1.00
a. Unstructured data

b. Data semi terstruktur

c. Data terstruktur

d. Semua benar 

Question 2 Teknologi Big Data dalam hal Data Visualization:


Correct

Marked out of Select one:


1.00
a. Kafka

b. Hadoop

c. Tableau 

d. Facebook

Question 3 Pengumpulan dan penyaringan informasi dari sumber data:


Correct

Marked out of Select one:


1.00
a. Data Extraction

b. Data Identification

c. Data Aggregation dan Representation

d. Data Acquisition dan Filtering 

Question 4 Sumber data dalam Big Data:


Correct

Marked out of Select one:


1.00
a. Komunikasi

b. Semua benar 

c. Sensor

d. Media

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=6622556&cmid=951453 1/4
27/06/22 12.55 Kuis M12: Penerapan Big Data di Sektor Perbankan: Attempt review

Question 5 Perbedaan Data Tradisional dan Big Data pada komponen Arsitektur:
Correct

Marked out of Select one:


1.00
a. Semua benar

b. Fixed Schema vs Schema-less

c. Centralized vs Distributed 

d. Known relationsip vs complex/unknown relationship

Question 6 Yang bukan termasuk manfaat Core Banking System:


Correct

Marked out of Select one:


1.00
a. Mempercepat akses untuk analisis

b. Mengurangi efisiensi karyawan 

c. Naiknya kepercayaan nasabah

d. Menghemat biaya operasional

Question 7 Proses memilih dan mengambil data dari satu atau beberapa sumber:
Correct

Marked out of Select one:


1.00
a. Data Acquisition dan Filtering

b. Data Aggregation dan Representation

c. Data Extraction 

d. Data Identification

Question 8 Aplikasi Core Banking System untuk memfasilitasi nasabah agar dapat melakukan transaksi sendiri:
Correct

Marked out of Select one:


1.00
a. LNS (Loan System)

b. DDS (Demand Deposit System)

c. CIS (Customer Identification System) 

d. GLS (General Ledger System)

Question 9 Proses di mana data mentah dikumpulkan dan diekspresikan dalam bentuk ringkasan untuk analisis statistik.
Correct

Marked out of Select one:


1.00
a. Data Extraction

b. Data Aggregation dab Representation 

c. Data Identification

d. Data Acquisition dan Filtering

Question 10 Teknologi Big Data dalam hal Data Storage:


Correct

Marked out of Select one:


1.00
a. Kafka

b. Tableau

c. Facebook

d. Hadoop 

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=6622556&cmid=951453 2/4
27/06/22 12.55 Kuis M12: Penerapan Big Data di Sektor Perbankan: Attempt review

Question 11 Perangkat server yang digunakan sebagai Core Banking Server:


Correct

Marked out of Select one:


1.00
a. MySQL Server

b. MS SQL Server

c. IBM AS-400 

d. Semua benar

Question 12 Yang bukan merupakan karakteristik Big Data:


Correct

Marked out of Select one:


1.00
a. Volume Data yang besar

b. Kesamaan data 

c. Kebenaran data

d. Jenis data bervariasi

Question 13 Fungsi paling mendasar dari Core Banking:


Correct

Marked out of Select one:


1.00
a. Mentransfer dana dari satu cabang ke cabang lainnya

b. Semua salah

c. Melayani seluruh nasabah untuk berbagai kebutuhan seperti funding, lending, dan deposit uang 

d. Merekam semua transaksi yang terjadi dalam rekening nasabah.

Question 14 Pencarian informasi terkait tipe data, struktur data, bentuk data, dan isi serta sumber data:
Correct

Marked out of Select one:


1.00
a. Data Acquisition dan Filtering

b. Data Extraction

c. Data Aggregation dan Representation

d. Data Identification 

Question 15 Pernyataan yang salah tentang Core Banking System:


Correct

Marked out of Select one:


1.00
a. Dibuat oleh vendor asing 

b. Digunakan untuk memproses loan

c. Umumnya diasosiasikan dengan retail banking

d. Di dalamnya tersimpan data nasabah serta semua transaksi sejak nasabah membuka rekening di bank sampai
menutupnya.

Question 16 Perbedaan Data Tradisional dan Big Data pada komponen Data relationship:
Correct

Marked out of Select one:


1.00
a. Known relationsip vs complex/unknown relationship 

b. Fixed Schema vs Schema-less

c. Semua benar

d. Centralized vs Distributed

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=6622556&cmid=951453 3/4
27/06/22 12.55 Kuis M12: Penerapan Big Data di Sektor Perbankan: Attempt review

Question 17 Di antara karakteristik IBM AS-400 server:


Correct

Marked out of Select one:


1.00
a. Dapat memiliki lebih dari 200 prosesor

b. Semua benar 

c. Mudah beradaptasi dan fleksibel

d. Dapat menjalankan berbagai macam bahasa pemrograman

Question 18 Big Data Analytics Lifecycle:


Correct

Marked out of Select one:


1.00
a. Business Case Evaluation - Data Identification - Data Extraction - Data Validation &amp; Cleansing - Data
Aggregation &amp; Representation - Data Analysis - Data Visualization - Utilization of Analysis Results

b. Busines Case Evaluation - Data Identification - Data Acquisition &amp; Filtering - Data Extraction - Data Validation
&amp; Cleansing - Data Aggregation &amp; Representation - Data Analysis - Utilization of Analysis Results

c. Busines Case Evaluation - Data Identification - Data Acquisition &amp; Filtering - Data Extraction - Data Validation
&amp; Cleansing - Data Analysis - Data Visualization - Utilization of Analysis Results

d. Busines Case Evaluation - Data Identification - Data Acquisition &amp; Filtering - Data Extraction - Data Validation
&amp; Cleansing - Data Aggregation &amp; Representation - Data Analysis - Data Visualization - Utilization of
Analysis Results 

Question 19 Keuntungan Big Data di perbankan:


Correct

Marked out of Select one:


1.00
a. Menanalisis resiko

b. Semua benar 

c. Mendorong inklusivitas

d. Memprediksi trend keuangan

Question 20 Perbedaan Data Tradisional dan Big Data pada komponen Data Model:
Correct

Marked out of Select one:


1.00
a. Known relationsip vs complex/unknown relationship

b. Fixed Schema vs Schema-less 

c. Semua benar

d. Centralized vs Distributed

◄ Materi M12: Penerapan Big Data di Kuis M12: Penerapan Big Data di Sektor
Jump to...
Sektor Perbankan Perbankan (Kelas Malam) ►

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=6622556&cmid=951453 4/4
3/8/2021 Kuis M1 : Big Data Computing Overview: Attempt review

Dashboard / My courses / ATA 2020/2021 | 2-FTI | Komputasi Big Data | TEAM TEACHING / Pertemuan 1 : Big Data Computing Overview
/ Kuis M1 : Big Data Computing Overview

Started on Monday, 8 March 2021, 11:36 AM


State Finished
Completed on Monday, 8 March 2021, 12:11 PM
Time taken 34 mins 33 secs
Grade 100.00 out of 100.00

Question 1 Beragamnya jenis data di dalam Big Data yang meliputi data terstruktur, semi terstruktur dan bahkan data tidak
Correct terstruktur, merupakan penjelasan dari dimensi Big Data dalam hal:
Mark 5.00 out of
5.00 Select one:
Velocity

Variety 

Volume

Veracity

The correct answer is: Variety

Question 2 Contoh solusi Big Data, kecuali:


Correct

Mark 5.00 out of Select one:


5.00
Input Nilai Mahasiswa 

Semua benar

Deteksi Penipuan

Mesin rekomendasi

The correct answer is: Input Nilai Mahasiswa

Question 3 Dalam arsitektur Big Data, solusi berupa rekomendasi, berada pada posisi sebagai:
Correct

Mark 5.00 out of Select one:


5.00
Data Format

End Result 

Data Storage Layer

Data Computing &amp; Analysis

The correct answer is: End Result

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2404117&cmid=491430 1/6
3/8/2021 Kuis M1 : Big Data Computing Overview: Attempt review

Question 4 Dalam ekosistem Big Data, proses pre-prosesing data dapat dilakukan menggunakan:
Correct

Mark 5.00 out of Select one:


5.00
Sqoop 

HDFS

Facebook

Tableu

The correct answer is: Sqoop

Question 5 Data Warehouse dibuat dengan menerapkan serangkaian langkah pemrosesan terhadap data yang berasal dari beberapa
Correct basis data. Berikut ini adalah yang termasuk dalam pemrosesan data tersebut:
Mark 5.00 out of
5.00 Select one:
Pembersihan data

Transformasi data

Semua benar 

Integrasi data

The correct answer is: Semua benar

Question 6 Dataset dibentuk dari:


Correct

Mark 5.00 out of Select one:


5.00
Sekumpulan objek yang memiliki fitur yang sama 

Sekumpulan fitur yang memiliki nilai yang sama

Sekumpulan fitur yang memiliki objek yang sama

Semua salah

The correct answer is: Sekumpulan objek yang memiliki fitur yang sama

Question 7 Komponen Komputasi Big Data di lapisan Middleware terdiri dari:


Correct

Mark 5.00 out of Select one:


5.00
Interface Layer

Resource Layer

Semua benar

SDK Layer 

The correct answer is: SDK Layer

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2404117&cmid=491430 2/6
3/8/2021 Kuis M1 : Big Data Computing Overview: Attempt review

Question 8 Kumpulan data yang disusun dalam tabel berformat persegi panjang yang terdiri dari baris dan kolom disebut sebagai:
Correct

Mark 5.00 out of Select one:


5.00
Semua salah

Flat files 

Data Warehouse

Database

The correct answer is: Flat files

Question 9 Manakah yang benar dari pernyataan berikut ini:


Correct

Mark 5.00 out of Select one:


5.00
Memperkirakan puncak dari kasus positif Covid-19, adalah contoh analisis prediktif. 

Prediktif, menilai tindakan

Deskriptif, perkiraan berdasarkan data yang tersedia

Preskriptif, memodelkan perilaku masa lalu

The correct answer is: Memperkirakan puncak dari kasus positif Covid-19, adalah contoh analisis prediktif.

Question 10 Model basis data yang berupa deret waktu (time series):
Correct

Mark 5.00 out of Select one:


5.00
Temporal database 

Spatial database

Text database

Semua salah

The correct answer is: Temporal database

Question 11 Objek disebut juga:


Correct

Mark 5.00 out of Select one:


5.00
Record

Unit

Data points

Semua benar 

The correct answer is: Semua benar

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2404117&cmid=491430 3/6
3/8/2021 Kuis M1 : Big Data Computing Overview: Attempt review

Question 12 Salah satu keunggulan DGX A100:


Correct

Mark 5.00 out of Select one:


5.00
Semua benar 

Tidak membutuhkan ruang yang besar

Biaya lebih murah

Konsumsi daya lebih sedikit

The correct answer is: Semua benar

Question 13 Sekumpulan tabel dimana bentuk setiap tabel analog dengan flat file, disebut:
Correct

Mark 5.00 out of Select one:


5.00
Semua salah

Data Warehouse

Database 

DBMS

The correct answer is: Database

Question 14 Semakin banyak data hingga mencapai ukuran Peta Byte atau bahkan lebih, merupakan penjelasan dari dimensi Big Data
Correct dalam hal:
Mark 5.00 out of
5.00 Select one:
Veracity

Variety

Velocity

Volume 

The correct answer is: Volume

Question 15 Sumber data yang digunakan dalam aplikasi Big Data dapat berupa:
Correct

Mark 5.00 out of Select one:


5.00
Semua benar 

Data Media Sosial

Data Finansial

Data Asuransi Kesehatan

The correct answer is: Semua benar

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2404117&cmid=491430 4/6
3/8/2021 Kuis M1 : Big Data Computing Overview: Attempt review

Question 16 Tempat penyimpanan data yang dikumpulkan di lokasi berbeda (basis data relasional) dan disimpan menggunakan skema
Correct terpadu:
Mark 5.00 out of
5.00 Select one:
Spatial Database

Transactional database

Semua benar

Data Warehouse 

The correct answer is: Data Warehouse

Question 17 Tipe nilai dapat berupa:


Correct

Mark 5.00 out of Select one:


5.00
Object

Fitur

Semua salah

Numerik 

The correct answer is: Numerik

Question 18 Unit informasi tunggal disebut:


Correct

Mark 5.00 out of Select one:


5.00
Dataset

Nilai 

Objek

Fitur/atribut

The correct answer is: Nilai

Question 19 Visualisasi dari hasil analisis Big Data dapat berupa:


Correct

Mark 5.00 out of Select one:


5.00
Grafik 3D

Plot

Semua benar 

Tabel

The correct answer is: Semua benar

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2404117&cmid=491430 5/6
3/8/2021 Kuis M1 : Big Data Computing Overview: Attempt review

Question 20 Yang merupakan framework untuk Machine Learning:


Correct

Mark 5.00 out of Select one:


5.00
Apache Spark MLlib 

Semua benar

Amazon ML

Azure ML

The correct answer is: Apache Spark MLlib

◄ Materi M1 : Big Data Computing Kuis M1 : Big Data Computing Overview


Jump to...
Overview (Khusus Kelas Malam) ►

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2404117&cmid=491430 6/6
6/6/2021 Kuis M2 : Big Data Computing, Applications and Technologies: Attempt review

Dashboard / My courses /
ATA 2020/2021 | 2-FTI | Komputasi Big Data | TEAM TEACHING
/
Pertemuan 2 : Big Data Computing, Applications and Technologies /
Kuis M2 : Big Data Computing, Applications and Technologies

Started on Monday, 15 March 2021, 1:04 PM


State Finished
Completed on Monday, 15 March 2021, 1:09 PM
Time taken 5 mins 41 secs
Grade 100.00 out of 100.00

Question 1 Arsitektur Hadoop terdiri dari:


Correct

Mark 5.00 out of Select one:


5.00
a. Storage layer, Service Layer, Application Layer

b. Storage layer, Resource Management Layer, Application Layer 

c. Storage layer, Processing Layer, Application Layer

d. Data layer, Processing Layer, Service Layer

The correct answer is: Storage layer, Resource Management Layer, Application Layer

Question 2 Berikut ini adalah saran untuk memasuki era Analytic 3.0:
Correct

Mark 5.00 out of Select one:


5.00
a. Semua benar 

b. Tambahkan beberapa data volume besar yang tidak terstruktur

c. Mulailah dengan kemampuan yang ada untuk manajemen data dan analitik

d. Pilih target dan sub-target analytics 3.0

The correct answer is: Semua benar

Question 3 Berikut ini yang harus dilakukan oleh perusahaan 1.0, kecuali:
Correct

Mark 5.00 out of Select one:


5.00
a. Temukan pelanggan terbaik, tetapkan harga terbaik kepada mereka

b. Membuat analitik dan keputusan berbasis fakta elemen kunci dari hubungan pelanggan, produk dan layanan,
strategi, dan persaingan 

c. Pahami biaya dan dorong kinerja yang lebih baik

d. Buat penawaran yang efektif

The correct answer is: Membuat analitik dan keputusan berbasis fakta elemen kunci dari hubungan pelanggan, produk
dan layanan, strategi, dan persaingan

Send messa…

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2481250&cmid=491954 1/6
6/6/2021 Kuis M2 : Big Data Computing, Applications and Technologies: Attempt review

Question 4 Contoh Analytic 3.0:


Correct

Mark 5.00 out of Select one:


5.00
a. Semua benar 

b. Fokus pada anomali dan pengecualian

c. Data volume tinggi waktu nyata dari sensor dan mesin

d. Analisis untuk tren, pola, prediksi, pengoptimalan, kesadaran situasional

The correct answer is: Semua benar

Question 5 Contoh Aplikasi Machine Learning dan Analitik Prediktif:


Correct

Mark 5.00 out of Select one:


5.00
a. Semua benar 

b. Penetapan harga dinamis

c. Prediksi wabah penyakit

d. Prediksi Cashflow

The correct answer is: Semua benar

Question 6 Contoh data tidak terstruktur:


Correct

Mark 5.00 out of Select one:


5.00
a. Data pegawai

b. Semua benar

c. Data transaksi penjualan

d. Data media sosial 

The correct answer is: Data media sosial

Question 7 Contoh implementasi dalam perusahaan:


Correct

Mark 5.00 out of Select one:


5.00
a. Procter &amp; Gamble melakukan Analisis sentimen media sosial real time untuk "Pulsa Konsumen"

b. Monsanto membayar hampir $ 1 miliar untuk The Climate Company, yang mengumpulkan dan menganalisis data
cuaca untuk pertanian

c. Semua benar 

d. Sistem Manajemen Inventaris Cerdas pada perusahaan Ford, menyarankan pesanan mingguan untuk dealer dan
telah meningkatkan pendapatan sebesar $ 100 juta / tahun

The correct answer is: Semua benar

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2481250&cmid=491954 2/6
6/6/2021 Kuis M2 : Big Data Computing, Applications and Technologies: Attempt review

Question 8 Dalam computer vision, contoh penerapan Machine Learning adalah, kecuali:
Correct

Mark 5.00 out of Select one:


5.00
a. Pengenalan wajah

b. Deteksi suhu tubuh

c. Pengenalan objek

d. Analitik Rute 

The correct answer is: Analitik Rute

Question 9 Istilah 'Machine Learning' diciptakan pada tahun <T> oleh <P>:
Correct

Mark 5.00 out of Select one:


5.00
a. T = 1989, P = Tom M. Mitchell

b. T = 1999, P = Bill Gates

c. T = 1959, P = Arthur Samuel 

d. T = 1969, P = Yann LeCun

The correct answer is: T = 1959, P = Arthur Samuel

Question 10 Komponen Hadoop yang berfungsi sebagai data processing:


Correct

Mark 5.00 out of Select one:


5.00
a. MapReduce 

b. Semua benar

c. YARN

d. HDFS

The correct answer is: MapReduce

Question 11 Komponen Hadoop yang berfungsi sebagai data storage:


Correct

Mark 5.00 out of Select one:


5.00
a. Semua benar

b. YARN

c. HDFS 

d. MapReduce

The correct answer is: HDFS

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2481250&cmid=491954 3/6
6/6/2021 Kuis M2 : Big Data Computing, Applications and Technologies: Attempt review

Question 12 Manakah pernyataan yang benar tentang era Analytic 3.0:


Correct

Mark 5.00 out of Select one:


5.00
a. Sumber data dari internal, relatif kecil dan data terstruktur dari pelanggan

b. Perpaduan antara analitik tradisional dengan Big Data 

c. Data yang kompleks, besar dan tidak terstruktur

d. Dibutuhkan kapabilitas analitis dan komputasi baru

The correct answer is: Perpaduan antara analitik tradisional dengan Big Data

Question 13 Manakah pernyataan yang benar tentang Hadoop:


Correct

Mark 5.00 out of Select one:


5.00
a. Semua benar

b. Hadoop merupakan Google File System

c. Hadoop merupakan framework untuk bekerja dengan Big Data 

d. Hadoop mulai dikembangkan pada tahun 2008

The correct answer is: Hadoop merupakan framework untuk bekerja dengan Big Data

Question 14 Netflix adalah contoh perusahaan yang tergolong:


Correct

Mark 5.00 out of Select one:


5.00
a. 2.0 

b. 3.0

c. Semua benar

d. 1.0

The correct answer is: 2.0

Question 15 Perbandingan SQL vs NoSQL:


Correct

Mark 5.00 out of Select one:


5.00
a. Semua benar 

b. Static vs Dynamic

c. Structured Query Language vs Un-structured Query Language

d. Relational vs Non-Relational

The correct answer is: Semua benar

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2481250&cmid=491954 4/6
6/6/2021 Kuis M2 : Big Data Computing, Applications and Technologies: Attempt review

Question 16 Perbandingan Traditional vs Big Data Analytics:


Correct

Mark 5.00 out of Select one:


5.00
a. Semua benar 

b. Hard to scale vs Scales out forever

c. Mahal vs Terjangkau

d. Process centric vs Information centric

The correct answer is: Semua benar

Question 17 Salah satu bentuk data tidak terstruktur:


Correct

Mark 5.00 out of Select one:


5.00
a. Document

b. Graph

c. Key-Value

d. Semua benar 

The correct answer is: Semua benar

Question 18 Salah satu fakta yang menunjukkan aspek Velocity dari Big Data:
Correct

Mark 5.00 out of Select one:


5.00
a. Semua benar

b. Pertumbuhan data tidak terstruktur mencapai 60% - 80% per tahun

c. Mobil modern memiliki 100 sensor yang memantau berbagai item pada mobil 

d. 27% responden dalam satu survei tidak yakin dengan banyaknya data mereka yang tidak akurat

The correct answer is: Mobil modern memiliki 100 sensor yang memantau berbagai item pada mobil

Question 19 Salah satu tonggak penting dalam Big Data Analytic dalam aspek pengadaan infrastruktur:
Correct

Mark 5.00 out of Select one:


5.00
a. Dapatkan infrastruktur yang tepat yang dibutuhkan berdasarkan arsitektur solusi Anda termasuk penyimpanan
data dan unit pemrosesan, platform, dan aplikasi 

b. Kembangkan arsitektur Solusi untuk kasus bisnis Anda termasuk proses pengumpulan data, arsitektur teknologi
dan metode analitik serta visualisasi data

c. Adaptasi dan ubah organisasi Anda menuju teknologi big data dan implementasi analitik baru

d. Analisis data untuk setiap kasus bisnis spesifik Anda dan visualisasikan dengan cara yang bermakna

The correct answer is: Dapatkan infrastruktur yang tepat yang dibutuhkan berdasarkan arsitektur solusi Anda termasuk
penyimpanan data dan unit pemrosesan, platform, dan aplikasi

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2481250&cmid=491954 5/6
6/6/2021 Kuis M2 : Big Data Computing, Applications and Technologies: Attempt review

Question 20 Teknologi yang dibutuhkan pada era Analytic 3.0:


Correct

Mark 5.00 out of Select one:


5.00
a. Ketergantungan yang tinggi pada Machine Learning 

b. Keduanya benar

c. Keduanya salah

d. Berpusat pada Data Warehouse

The correct answer is: Ketergantungan yang tinggi pada Machine Learning

Kuis M2 : Big Data Computing,


◄ Video M2 : Big Data Computing,
Jump to... Applications and Technologies (khusus
Application and Technologies
kelas Malam) ►

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2481250&cmid=491954 6/6
Dashboard / My courses / ATA 2020/2021 | 2-FTI | Komputasi Big Data | TEAM TEACHING / Pertemuan 3 : Introduction to Apache Hadoop
/ Kuis M3 : Introduction to Hadoop

Started on Monday, 22 March 2021, 11:56 AM


State Finished
Completed on Monday, 22 March 2021, 12:01 PM
Time taken 5 mins 7 secs
Grade 95.00 out of 100.00

Question 1 Properti Big data yang penting, salah satunya adalah aviability, yaitu:
Correct

Mark 5.00 out of Select one:


5.00
a. Handal

b. Kemampuan menanganai penambahan bebab yang diberikan tanpa penurunan kinerja

c. Ketersediaan layanan secara terus menerus 

d. Kemampuan untuk terus beroperasi walaupun terjadi kegagalan pada beberapa komponen

The correct answer is: Ketersediaan layanan secara terus menerus

Question 2 Properti Big data yang penting, salah satunya adalah scalability, yaitu:
Correct

Mark 5.00 out of Select one:


5.00
a. Kemampuan untuk terus beroperasi walaupun terjadi kegagalan pada beberapa komponen

b. Ketersediaan layanan secara terus menerus

c. Kemampuan menanganai penambahan bebab yang diberikan tanpa penurunan kinerja 

d. Handal

The correct answer is: Kemampuan menanganai penambahan bebab yang diberikan tanpa penurunan kinerja

Question 3 Terdapat 2 (dua) teknologi Penyimpanan Big Data, yaitu


Correct

Mark 5.00 out of Select one:


5.00
a. Flashdisk dan harddisk

b. On Disk Storage Devices dan In Memory Storage Devices 

c. SQL dan No-SQL

d. Reliable dan Fault tolerance

The correct answer is: On Disk Storage Devices dan In Memory Storage Devices

1
Obrolan
Question 4 Komponen layanan inti Hadoop adalah
Correct

Mark 5.00 out of Select one:


5.00
a. ClickStream, Sensor, dan Sentiment

b. MapReduce, HDFS, dan YARN 

c. SQL, NoSQL, Cluster

d. Speed, consistency, dan volume

The correct answer is: MapReduce, HDFS, dan YARN

Question 5 Sistem penyimpanan data cluster adalah


Correct

Mark 5.00 out of Select one:


5.00
a. Data disimpan dengan cara menyalin dataset dan meyimpan Salinan tersebut pada beberapa node

b. Menyimpan data dengan mempartisi secara horizontal dan pecahan horizontal tersebut di simpan secara terpisah
pada node server.

c. Penyimpanan dan pengaturan data pada perangkat penyimpanan harddisk atau flashdisk, dan menyediakan
logical view dari data yang disimpan dalam struktur hirakis direktori file.

d. Kumpulan server atau node digabungkan secara erat, dengan spesifikasi perangkat keras yang sama. Serta
terhubung melalui jaringan dan bekerja sebagai satu kesatuan 

The correct answer is: Kumpulan server atau node digabungkan secara erat, dengan spesifikasi perangkat keras yang
sama. Serta terhubung melalui jaringan dan bekerja sebagai satu kesatuan

Question 6 Type data berikut yang dapat ditangani oleh Hadoop adalah
Correct

Mark 5.00 out of Select one:


5.00
a. Semua benar 

b. Terstruktur

c. Semi – terstruktur

d. Tidak terstuktur

The correct answer is: Semua benar

Question 7 Pernyataan yang benar mengenai MapReduce, adalah:


Correct

Mark 5.00 out of Select one:


5.00
a. semua benar 

b. implementasi dari framework pemrosesan batch

c. membagi masalah besar menjadi masalah kecil yang dapat diselesaikan dengan cepat

d. memproses data besar secara parallel dalam cluster pada commodity hardware

The correct answer is: semua benar


Question 8 Pemrosesan data terdistribusi adalah pemrosesan
Correct

Mark 5.00 out of Select one:


5.00
a. yang melibatkan pelaksanaan sub-tugas secara bersamaan secara kolektif membentuk tugas yang besar melalui
beberapa processor

b. yang membagi pemrosesan dalam beberapa batch dan dilakukan secara offline

c. yang menerapkan divide and conquer dalam fisik terpisah, namun terhunung Bersama dalam satu cluster 

d. yang menggunakan pendekatan pendekatan interaktif tanpa penundaan

The correct answer is: yang menerapkan divide and conquer dalam fisik terpisah, namun terhunung Bersama dalam satu
cluster

Question 9 Berikut yang dimaksud dengan menganalisa data dalam konteks big data adalah:
Correct

Mark 5.00 out of Select one:


5.00
a. mean statistic analytics, deviation standard analytics, dan percentil analytics

b. Classification analytics, regression analytics, clustering analytics, dan hadooping analytics

c. Descriptive analytics, diagnostic analytics, predictive analytics, dan prescriptive analytics 

d. Menentukan jumlah data dan atribut data

The correct answer is: Descriptive analytics, diagnostic analytics, predictive analytics, dan prescriptive analytics

Question 10 Bagian pekerjaan utama MapReduce adalah


Correct

Mark 5.00 out of Select one:


5.00
a. map dan reduce 

b. map dan combine

c. combine dan partition

d. shuffle dan sort

The correct answer is: map dan reduce

Question 11
Properti Big data yang penting, salah satunya adalah reliability, yaitu:
Correct

Mark 5.00 out of Select one:


5.00
a. Kemampuan untuk terus beroperasi walaupun terjadi kegagalan pada beberapa komponen

b. Ketersediaan layanan secara terus menerus

c. Handal 

d. Kemampuan menanganai penambahan bebab yang diberikan tanpa penurunan kinerja

The correct answer is: Handal


Question 12 Properti Big data yang penting, salah satunya adalah fault tolerance, yaitu:
Correct

Mark 5.00 out of Select one:


5.00
a. Handal

b. Kemampuan untuk terus beroperasi walaupun terjadi kegagalan pada beberapa komponen 

c. Ketersediaan layanan secara terus menerus

d. Kemampuan menanganai penambahan bebab yang diberikan tanpa penurunan kinerja

The correct answer is: Kemampuan untuk terus beroperasi walaupun terjadi kegagalan pada beberapa komponen

Question 13
Database NoSQL menggunakan beragam model data untuk mengakses dan mengelola data. Jenis database ini
Incorrect dioptimalkan secara khusus untuk aplikasi yang memerlukan…., yang dicapai dengan mengurangi pembatasan
Mark 0.00 out of konsistensi data dari database lainnya.
5.00
Select one:
a. volume data besar, latensi rendah, dan model data fleksibel 

b. volume data besar, latensi rendah, dan model data fleksibel

c. volume data besar, latensi rendah, dan model data fleksibel

d. volume data besar, latensi rendah, dan model data fleksibel

The correct answer is: volume data besar, latensi rendah, dan model data fleksibel

Question 14 Hadoop adalah framework yang


Correct

Mark 5.00 out of Select one:


5.00
a. Melibatkan satu atau lebih cluster Komputer

b. Semua benar 

c. Memungkinkan pemrosesan secara terdistribusi terhadap data yang berukuran besar

d. Menerapkan programming model yang sederhana

The correct answer is: Semua benar

Question 15
YARN singkatan dari
Correct

Mark 5.00 out of Select one:


5.00
a. Yet another resource need

b. Yet another resource negotiator 

c. Yahoo’s another resource name

d. Yahoo’s archived Resource names

The correct answer is: Yet another resource negotiator


Question 16 Hadoop adalah platform pemrosesan big data yaitu data yang mempunyai karakteristik kecuali:
Correct

Mark 5.00 out of Select one:


5.00
a. Inconsistent dan uncertaint

b. Terakumulasi dengan cepat (high speed velocity)

c. Volume besar, struktur data yang beragam (variety), dan nilai data yang diperlukan (useful value)

d. Jumlah fitur yang tertentu 

The correct answer is: Jumlah fitur yang tertentu

Question 17 Jenis database NoSQL apa yang membuat dan menjalankan aplikasi yang berjalan dengan dataset yang selalu terhubung
Correct menjadi lebih mudah dan sering digunakan untuk jaringan media sosial.
Mark 5.00 out of
5.00 Select one:
a. Dokumen

b. Grafik 

c. Pencarian

d. Primary key

The correct answer is: Grafik

Question 18 NoSQl database adalah singkatan dari


Correct

Mark 5.00 out of Select one:


5.00
a. Numbered of sequel database

b. Not-only Structured Query Language database 

c. No Like Structured Query Language database

d. Numbered of Structured Query Language database

The correct answer is: Not-only Structured Query Language database

Question 19
Berikut ini yang bukan merupakan Hadoop operation mode, adalah
Correct

Mark 5.00 out of Select one:


5.00
a. Pseudo distributed mode

b. Globally distributed mode 

c. Fully-Distributed mode

d. Stand alone mode

The correct answer is: Globally distributed mode


Question 20 Hadoop adalah framework yang bekerja bersama tools lain yang beragam. Kelompok yang umum bekerja bersama
Correct Hadoop adalah
Mark 5.00 out of
5.00 Select one:
a. MapReduce, Hummer and Iguana

b. MapReduce, Hive and Hbase 

c. MapReduce, MySQL and Google Apps

d. MapReduce, Heron and Trumpet

The correct answer is: MapReduce, Hive and Hbase

← Materi M3 : Introduction to Hadoop Jump to...


Kuis M3 : Introduction to Hadoop (khusus
kelas MALAM)) →
3/29/2021 Kuis M4 : Data Preprocessing: Attempt review

Dashboard / My courses / ATA 2020/2021 | 2-FTI | Komputasi Big Data | TEAM TEACHING / Pertemuan 4 : Data Preprocessing
/ Kuis M4 : Data Preprocessing

Started on Monday, 29 March 2021, 11:50 AM


State Finished
Completed on Monday, 29 March 2021, 11:56 AM
Time taken 5 mins 57 secs
Grade 100.00 out of 100.00

Question 1 Bagaimana menangani missing value dengan tepat?


Correct

Mark 5.00 out of Select one:


5.00
Dibiarkan

Eliminasi data object

A,B,dan C benar 

Imputasi nilai manual

Question 2 Berikut adalah nama lain dari data objek, kecuali


Correct

Mark 5.00 out of Select one:


5.00
Sample

Instance

Atribut 

Record

Question 3 Cara menangani noisy data, kecuali


Correct

Mark 5.00 out of Select one:


5.00
Clustering

Combined Computer

Regression

Ignore 

Question 4 Data berupa image, video bahkan suara termasuk jenis data
Correct

Mark 5.00 out of Select one:


5.00
Record

Graf

Multimedia 

Ordered

1
Online

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2645804&cmid=502803 1/4
3/29/2021 Kuis M4 : Data Preprocessing: Attempt review

Question 5 data cleaning pada data preprocessing dilakukan..


Correct

Mark 5.00 out of Select one:


5.00
Dimensionality reduction dan data compression

Imputasi, smoothing dan identifikasi 

Identifikasi dan integrasi dari multiple database

Normalisasi dan diskritasi data

Question 6 Data Cleansing merupakan tahapan untuk membersihkan data kotor sehingga menjadi dataset yang siap diolah. Data
Correct kotor tersebut berupa
Mark 5.00 out of
5.00 Select one:
missing value

duplicate data

A,B,C benar 

outlier

Question 7 Data-data yang saling berhubungan, yang biasanya ditemukan pada jaringan internet termasuk dalam jenis data
Correct

Mark 5.00 out of Select one:


5.00
Record

Graf 

Multimedia

Ordered

Question 8 Imputasi nilai secara otomatis saat menangani incomplete data tidak dapat dilakukan menggunakan
Correct

Mark 5.00 out of Select one:


5.00
Rata-rata

Nilai tertinggi 

interpolasi

Median

Question 9 Jenis kelamin, merupakan salah satu atribut data type…


Correct

Mark 5.00 out of Select one:


5.00
Nominal 

Rasio

Numerik

Ordinal

Question 10 Karakteristik data objek merupakan representasi dari


Correct

Mark 5.00 out of Select one:


5.00
Data sample

Atribut 

Dataset

Data objek

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2645804&cmid=502803 2/4
3/29/2021 Kuis M4 : Data Preprocessing: Attempt review

Question 11 Nilai yang merepresentasikan urutan seperti nilai mata kuliah termasuk dalam atribut data type..
Correct

Mark 5.00 out of Select one:


5.00
Rasio

Numerik

Nominal

Ordinal 

Question 12 Normalisasi data dilakukan pada tahap data preprocessing ..


Correct

Mark 5.00 out of Select one:


5.00
data transformation 

data cleaning

data reduction

data Integration

Question 13 Penanganan missing value dapat dilakukan menggunakan nilai estimasi dari probabilitas bersyarat menggunakan metode
Correct

Mark 5.00 out of Select one:


5.00
Eliminasi

Bayessian 

Mean

Regresi

Question 14 Salah satu jenis data record yang diekstrak menjadi kumpulan term dan ditulis berdasarkan frekuensi kemunculan data,
Correct termasuk pada jenis data
Mark 5.00 out of
5.00 Select one:
Matriks

Transaksi

Dokumen 

Sosial network

Question 15 Seberapa mudah data dapat dipahami merupakan kualitas data dari..
Correct

Mark 5.00 out of Select one:


5.00
Believability

Interpretability 

Consistency

Completeness

Question 16 Statistik dasar untuk mengukur sebaran data salah satunya adalah
Correct

Mark 5.00 out of Select one:


5.00
Variance 

Modus

Mean

Median

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2645804&cmid=502803 3/4
3/29/2021 Kuis M4 : Data Preprocessing: Attempt review

Question 17 Studi tentang bagaimana menganalisis data dan membersihkan data merupakan salah satu tujuan dari
Correct

Mark 5.00 out of Select one:


5.00
Data cleansing 

Data testing

Data training

Data validation

Question 18 Tahapan pertama data preprocessing adalah


Correct

Mark 5.00 out of Select one:


5.00
data cleaning 

data Integration

data transformation

data reduction

Question 19 Tanggal penjualan, nama pelanggan, nama barang, jumlah penjualan merupakan contoh dari
Correct

Mark 5.00 out of Select one:


5.00
Data sample penjualan

Atribut penjualan

Data objek penjualan

Dataset penjualan 

Question 20 Tinggi badan, berat badan, usia, dan jenis kelamin merupakan contoh representasi karakteristik dari
Correct

Mark 5.00 out of Select one:


5.00
Data sample

Dataset

Data objek 

Atribut

◄ Materi M4 : Data Preprocessing Kuis M4 : Data Preprocessing (khusus


Jump to...
(update 29/03/2021) kelas MALAM)) ►

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2645804&cmid=502803 4/4
4/5/2021 Kuis M5 : Introduction Data Mining: Attempt review

Dashboard / My courses / ATA 2020/2021 | 2-FTI | Komputasi Big Data | TEAM TEACHING / Pertemuan 5 : Introduction to Data Mining
/ Kuis M5 : Introduction Data Mining

Started on Monday, 5 April 2021, 12:35 PM


State Finished
Completed on Monday, 5 April 2021, 12:47 PM
Time taken 11 mins 31 secs

Question 1 Seberapa mudah data dapat dipahami merupakan kualitas data dari..
Correct

Marked out of Select one:


5.00
a. Interpretability 

b. Believability

c. Completeness

d. Consistency

Question 2 Pernyataan yang tepat terkait data mining and knowledge discovery
Correct

Marked out of Select one:


5.00
a. mengintegrasikan teori dan heuristik 

b. lebih heuristik

c. lebih fokus pada pengujian hipotesis

d. lebih teori

Question 3 Karakteristik Big Data yang terus bertambah dengan cepat secara real-time dinamakan
Correct

Marked out of Select one:


5.00
a. Velocity

b. variety

c. Volume 

d. Value

Question 4 Metode klasifikasi pada fungsi data mining yang menggunakan nilai estimasi dari probabilitas bersyarat dinamakan
Correct metode
Marked out of
5.00 Select one:
a. Eliminasi

b. Regresi

c. Naive Bayessian 

d. Mean

1
Online

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2765364&cmid=517284 1/5
4/5/2021 Kuis M5 : Introduction Data Mining: Attempt review

Question 5 Untuk menghindari set pengujian yang tumpang tindih, data dibagi menjadi k himpunan bagian dengan ukuran yang
Correct sama kemudiansetiap subset secara bergantian digunakan untuk pengujian dan sisanya untuk pelatihan
Marked out of
5.00 Select one:
a. Direct Marketing Paradigm

b. k-fold cross-validation 

c. Commulative PCT Hits

d. Model Sorted list

Question 6 Metode untuk mengelompokkan secara "alami" dari instance yang diberi data tanpa label
Correct

Marked out of Select one:


5.00
a. Visualisasi

b. Asosiasi

c. Klasifikasi

d. Klasterisasi 

Question 7 Metode untuk memprediksi kelas instance dari instance yang diberi label sebelumnya
Correct

Marked out of Select one:


5.00
a. Klasifikasi 

b. Asosiasi

c. Klasterisasi

d. Visualisasi

Question 8 Urutan langkah melakukan klasifikasi


Correct

Marked out of Select one:


5.00
a. Buat model pada set pelatihan, Evaluasi pada set pengujian (Latih ulang?), Pisahkan data menjadi set pelatihan dan
pengujian

b. Buat model pada set pelatihan, pilih secara acak jumlah instance kelas minoritas yang diinginkan, Evaluasi pada set
pengujian

c. Evaluasi pada set pengujian, Buat model pada set pelatihan, Pisahkan data menjadi set pelatihan dan pengujian

d. Pisahkan data menjadi set pelatihan dan pengujian, Buat model pada set pelatihan, Evaluasi pada set pengujian

Question 9 Attributes yang berisi informasi seperti item_ID, name, brand, category, supplier, place_made and price, merupakaan salah
Correct satu contoh jenis database
Marked out of
5.00 Select one:
a. Penyewaan

b. Social media

c. Penjualan 

d. Marketing

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2765364&cmid=517284 2/5
4/5/2021 Kuis M5 : Introduction Data Mining: Attempt review

Question 10 Pernyataan yang kurang sesuai dengan metode peringkasan


Correct

Marked out of Select one:


5.00
a. Biasanya dalam Kombinasi dengan deteksi Deviasi atau metode lain

b. Mengelompokkan data tak berlabel 

c. Menggunakan bahasa dan grafik alami

d. Menjelaskan fitur dari grup yang dipilih

Question 11 Metode untuk mempresentasikan hasil yang ditemukan dengan cara yang "bagus" secara visual
Correct

Marked out of Select one:


5.00
a. Klasterisasi

b. Visualisasi 

c. Klasifikasi

d. Asosiasi

Question 12 Proses pencarian konten baru dan konten yang perlu diperbaharui dengan mengirimkan crawler ke seluruh konten yang
Correct ditemukan dari tautan halaman merupakan Salah satu konsep data mining pada Search Engine yang dinamakan
Marked out of
5.00 Select one:
a. Rank

b. Searching

c. Index

d. Crawl 

Question 13 Melihat suatu objek data yang tidak sesuai dengan perilaku umum data, sering digunakan dalam deteksi penipuan atau
Correct analisis kejadian langka
Marked out of
5.00 Select one:
a. Analisis Outlier 

b. Asosiasi dan Analisis Korelasi

c. Klasifikasi

d. Klasterisasi

Question 14 Regression, Decision Trees, Bayesian, Neural Networks, Naïve Bayes Rules, Support Vector Machines, Genetic Algorithms
Correct adalah pendekatan yang digunakan untuk
Marked out of
5.00 Select one:
a. Asosiasi

b. Klasterisasi

c. Visualisasi

d. Klasifikasi 

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2765364&cmid=517284 3/5
4/5/2021 Kuis M5 : Introduction Data Mining: Attempt review

Question 15 Jenis tugas data mining yang melakukan prediksi kelas


Correct

Marked out of Select one:


5.00
a. Visualisasi

b. Klasifikasi 

c. Asosiasi

d. Klasterisasi

Question 16 Pernyataan yang tepat terkait data mining and knowledge discovery
Correct

Marked out of Select one:


5.00
a. lebih fokus pada pengujian hipotesis

b. melihat pembelajaran real-time dan robotika

c. fokus pada peningkatan kinerja agen pembelajaran

d. fokus pada seluruh proses penemuan pengetahuan 

Question 17 Fungsi dari data mining adalah salah satunya dapat mengetahui pola yang sering (atau kumpulan item yang sering)
Correct misalnya item apa yang sering dibeli bersama di Walmart Anda. Ini dikenal dengan istilah
Marked out of
5.00 Select one:
a. Asosiasi dan Analisis Korelasi 

b. Outlier Analysis

c. Klasifikasi

d. Klasterisasi

Question 18 Yang bukan Metode clusterisasi


Correct

Marked out of Select one:


5.00
a. Hierarchical vs. flat

b. Deterministic vs. probabilistic

c. Exclusive vs. overlapping

d. Decision Tree 

Question 19 Acuan yang tidak tepat ketika melakukan pengaturan parameter


Correct

Marked out of Select one:


5.00
a. Data pengujian harus digunakan untuk penyetelan parameter 

b. Data pengujian tidak dapat digunakan untuk penyetelan parameter

c. Data pengujian tidak digunakan dengan cara apa pun untuk membuat pengklasifikasi

d. Skema pembelajaran beroperasi dalam dua tahap yaitu membangun struktur dasar dan mengoptimalkan
pengaturan parameter

Question 20 Jenis tugas data mining yang menfasilitasi penerimaan / penelusuran informasi bagi pengguna
Correct

Marked out of Select one:


5.00
a. Visualisasi 

b. Klasifikasi

c. Asosiasi

d. Klasterisasi

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2765364&cmid=517284 4/5
4/5/2021 Kuis M5 : Introduction Data Mining: Attempt review

Kuis M5 : Introduction Data Mining


◄ Video M5 : Introduction Data Mining Jump to...
(KHUSUS KELAS MALAM)) ►

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2765364&cmid=517284 5/5
4/19/2021 Kuis M6 : Introduction to Machine Learning (Supervised): Attempt review

Dashboard / My courses / ATA 2020/2021 | 2-FTI | Komputasi Big Data | TEAM TEACHING
/ Pertemuan 6 : Introduction to Machine Learning (Supervised) / Kuis M6 : Introduction to Machine Learning (Supervised)

Started on Monday, 12 April 2021, 12:13 PM


State Finished
Completed on Monday, 12 April 2021, 12:21 PM
Time taken 7 mins 15 secs

Question 1 Jika variabel keluaran adalah berupa kategori misalnya “apel”, “jeruk” termasuk pada machine learning bertipe
Correct

Marked out of Select one:


5.00
a. Supervised – Classification 

b. Reinfocement

c. Unsupervised

d. Supervised -Regresion

Question 2 Yang tidak digunakan pada Model Supervised Learning


Correct

Marked out of Select one:


5.00
a. Linear Model

b. Latent Semantic Analysis 

c. Neural Networks

d. Support Vector Machine

Question 3 Sebuah proses yg mempersiapkan data sehingga data tsb bisa kita extract cirinya menjadi suatu vektor
Correct

Marked out of Select one:


5.00
a. Feature/ atribut

b. Feature Extraction 

c. Training Set

d. Instance

Question 4 Tujuan pembelajaran unsupervised adalah membagun model yang dapat menemukan komponen / variabel / fitur
Correct tersembunyi pada data pelatihan, yang dapat digunakan untuk hal berikut, kecuali
Marked out of
5.00 Select one:
a. Reduksi dimensi (dimension reduction)

b. Pengelompokan (clustering) 1

c. Rekomendasi Online

d. Pengklasifikasian (classification) 

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2886503&cmid=530930 1/5
4/19/2021 Kuis M6 : Introduction to Machine Learning (Supervised): Attempt review

Question 5

Correct

Marked out of
5.00

Gambar pada representasi di atas adalah Pola-pola struktur yang ada pada suatu koleksi data (knowledge) dalam bentuk

Select one:
a. Pohon 

b. Aturan

c. Instance

d. Tabel

Question 6 Saat Anda ingin mengungkap pengelompokan yang melekat dalam data, seperti mengelompokkan hewan berdasarkan
Correct beberapa karakteristik / fitur, mis. jumlah kaki maka model pembelajaran yang sesuai
Marked out of
5.00 Select one:
a. Reinfocement Learning

b. Supervised Learning - Classification

c. Supervised Learning - Regression

d. Unsupervised Learning - Clustering 

Question 7 Model Pembelajaran yang mempelajari bagaimana sistem dapat menyimpulkan suatu fungsi untuk mendeskripsikan
Correct struktur tersembunyi dari data yang tidak berlabel. Sistem ini tidak memprediksi keluaran yang benar, tetapi
Marked out of mengeksplorasi data dan dapat menarik kesimpulan dari kumpulan data untuk mendeskripsikan struktur tersembunyi dari
5.00 data yang tidak berlabel.

Select one:
a. Semi Supervised Learning

b. Reinfocement Learning

c. Unsupervised Learning 

d. Supervised Learning

Question 8 Model pembelajaran yang menggunakan data berlabel dan tidak berlabel untuk pelatihan.
Correct

Marked out of Select one:


5.00
a. Reinfocement Learning

b. Semi Supervised Learning 

c. Supervised Learning

d. Unsupervised Learning

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2886503&cmid=530930 2/5
4/19/2021 Kuis M6 : Introduction to Machine Learning (Supervised): Attempt review

Question 9 Tahapan yang tepat ketika melakukan testing


Correct

Marked out of Select one:


5.00
a. Image Features - Training With Labeled Data – Prediction

b. Image Features - Training With Labeled Data - Learned Model

c. Image Features - Training With Unlabel Data -Learned Model - Prediction

d. Image Features - Learned Model - Prediction 

Question 10 Ciri-ciri dari masing-masing sample data misalnya Smartphone. ciri: memiliki ...
Correct

Marked out of
5.00 Select one:
a. Feature Extraction

b. Training Set

c. Feature/ atribut 

d. Instance

Question 11 Pola-pola struktur yang ada pada suatu koleksi data (knowledge) dapat direpresentasi dalam bentuk if then rules :
Correct

Marked out of Select one:


5.00
a. Pohon

b. Instance

c. Aturan 

d. Tabel

Question 12 Pembelajaran yang menghasilkan Nilai output ti bernilai diskrit (kelas)


Correct

Marked out of Select one:


5.00
a. Klasifikasi 

b. Generalisasi

c. Regressi

d. Klasterisasi

Question 13 Tahapan yang tepat ketika melakukan training


Correct

Marked out of Select one:


5.00
a. Image Features - Training With Labeled Data – Prediction

b. Image Features - Training With Labeled Data - Learned Model 

c. Image Features - Training With UnLabeled Data - Prediction

d. Image Features - Learned Model - Prediction

Question 14 Kumpulan data yg sudah dipastikan kebenarannya, dr sisi label, data awal, komponen2 data yg akan dijadikan kunci,
Correct

Marked out of Select one:


5.00
a. Feature/ atribut

b. Instance

c. Feature Extraction

d. Training Set 

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2886503&cmid=530930 3/5
4/19/2021 Kuis M6 : Introduction to Machine Learning (Supervised): Attempt review

Question 15 Pembelajaran yang bertujuan memprediksi output dengan akurat untuk data baru dan output ti bernilai kontinu (riil),
Correct contoh untuk Prediksi kinerja CPU
Marked out of
5.00 Select one:
a. Regressi 

b. Klasifikasi

c. Klasterisasi

d. Generalisasi

Question 16 Yang bukan tujuan supervised learning untuk membangun model yang dapat menghasilkan output yang benar untuk
Correct suatu data input dapat digunakan untuk
Marked out of
5.00 Select one:
a. Regresi (regression)

b. Klasterisasi (clustering) 

c. Ranking

d. Pengklasifikasian (classification)

Question 17
Correct

Marked out of
5.00

Gambar pada representasi di atas adalah Pola-pola struktur yang ada pada suatu koleksi data (knowledge) dalam bentuk

Select one:
a. Instance

b. Tabel

c. Pohon

d. Aturan 

Question 18 Salah satu teknik yang digunakan untuk mengkontrol fenomena over-fitting adalah dengan cara menambah finalti ke
Correct fungsi error.
Marked out of
5.00 Select one:
a. prediction

b. model selection

c. regularization 

d. generalization

Question 19 Model ini belajar dari kumpulan data berlabel dan kemudian digunakan untuk memprediksi peristiwa di masa depan.
Correct

Marked out of Select one:


5.00
a. Unsupervised Learning

b. Reinfocement Learning

c. Semi Supervised Learning

d. Supervised Learning 

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2886503&cmid=530930 4/5
4/19/2021 Kuis M6 : Introduction to Machine Learning (Supervised): Attempt review

Question 20
Correct

Marked out of
5.00

Gambar pada representasi di atas adalah Pola-pola struktur yang ada pada suatu koleksi data (knowledge) dalam bentuk

Select one:
a. Instance

b. Pohon

c. Aturan

d. Tabel 

Kuis M6 : Introduction to Machine


◄ Materi M6 : Introduction to Machine
Jump to... Learning (Supervised) (KHUSUS KELAS
Learning-Supervised
MALAM)) ►

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2886503&cmid=530930 5/5
Dashboard / My courses / ATA 2020/2021 | 2-FTI | Komputasi Big Data | TEAM TEACHING
/ Pertemuan 7 : Introduction to Machine Learning (Unsupervised) / Kuis M7 : Unsupervised Learning

Started on Monday, 19 April 2021, 12:02 PM


State Finished
Completed on Monday, 19 April 2021, 12:27 PM
Time taken 25 mins 28 secs

Question 1 Metode berbasis aturan untuk menemukan hubungan antara variabel dalam kumpulan data tertentu. Metode ini sering
Correct digunakan untuk analisis keranjang pasar, memungkinkan perusahaan untuk lebih memahami hubungan antara produk
Marked out of yang berbeda. Memahami kebiasaan konsumsi pelanggan memungkinkan bisnis untuk mengembangkan strategi
5.00 penjualan silang dan mesin rekomendasi yang lebih baik.

Select one:
a. Dimensionality reduction

b. clustering

c. Regression

d. Association 

Question 2 Jenis algoritme pengurangan dimensi yang digunakan untuk mengurangi redundansi dan mengompresi kumpulan data
Correct melalui ekstraksi fitur. Metode ini menggunakan transformasi linier untuk membuat representasi data baru, menghasilkan
Marked out of sekumpulan "komponen utama". Komponen utama pertama adalah arah yang memaksimalkan varians dari dataset.
5.00 Sementara komponen utama kedua juga menemukan varians maksimum dalam data, itu sama sekali tidak berkorelasi
dengan komponen utama pertama, menghasilkan arah yang tegak lurus, atau ortogonal, ke komponen pertama. Proses
ini berulang berdasarkan jumlah dimensi, dimana komponen utama berikutnya adalah arah ortogonal ke komponen
sebelumnya dengan varians terbanyak.

Select one:
a. Singular value decomposition

b. FP-Growth

c. Principal component analysis 

d. Autoencoders

Question 3 Teknik yang memanfaatkan jaringan neural untuk mengompresi data dan kemudian membuat ulang representasi baru
Correct dari input data asli. Terdapat lapisan tersembunyi secara khusus bertindak sebagai penghambat untuk memampatkan
Marked out of lapisan masukan sebelum merekonstruksi di dalam lapisan keluaran.
5.00

Select one:
a. Autoencoders 

b. Principal component analysis

c. FP-Growth

d. Singular value decomposition

1
Online
Question 4 Pengelompokan yang mengambil pendekatan "top-down". Dalam hal ini, satu cluster data dibagi berdasarkan perbedaan
Correct antara titik data. Pengelompokan dengan cara ini tidak umum digunakan, tetapi masih perlu diperhatikan dalam konteks
Marked out of pengelompokan hierarkis. Proses pengelompokan ini biasanya divisualisasikan menggunakan dendrogram, diagram mirip
5.00 pohon yang mendokumentasikan penggabungan atau pemisahan titik data pada setiap iterasi.

Select one:
a. Pendekatan Overlapping

b. Pendekatan Aglomeratif

c. Pendekatan Probabilistic

d. Pendekatan Divisive 

Question 5 Yang bukan tugas dari pembelajaran tanpa pengawasan


Correct

Marked out of Select one:


5.00
a. Regression 

b. clustering

c. Dimensionality reduction

d. Association

Question 6 Algoritma yang paling banyak digunakan untuk task Association rules
Incorrect

Marked out of Select one:


5.00
a. Eclat

b. Apriori 

c. Apriori

d. FP-Growth

Question 7 Teknik tanpa pengawasan yang membantu menyelesaikan estimasi kepadatan atau masalah pengelompokan "lunak".
Correct Dalam hal ini, titik data dikelompokkan berdasarkan kemungkinannya termasuk dalam distribusi tertentu. Teknik yang
Marked out of paling umum digunakan adalah Gaussian Mixture Model (GMM)
5.00

Select one:
a. Pendekatan Divisive

b. Pendekatan Aglomeratif

c. Pendekatan Probabilistic 

d. Pendekatan Overlapping

Question 8 Teknik yang digunakan ketika jumlah fitur, atau dimensi, dalam kumpulan data tertentu terlalu tinggi. Teknik ini
Correct mengurangi jumlah input data ke ukuran yang dapat dikelola sambil juga menjaga integritas set data sebanyak mungkin,
Marked out of biasanya digunakan dalam tahap data praproses
5.00

Select one:
a. clustering

b. Association

c. Dimensionality reduction 

d. Regression
Question 9 Algoritme yang berusaha menemukan pola tersembunyi atau pengelompokan data tanpa perlu campur tangan manusia.
Correct

Marked out of Select one:


5.00
a. Semi Supervised Learning

b. Unsupervised Learning 

c. Deep Learning

d. Supervised Learning

Question 10 Algoritme yang menggunakan pohon hash untuk menghitung kumpulan item, menavigasi kumpulan data dengan cara
Correct yang pertama. Algoritma ini telah dipopulerkan melalui analisis keranjang pasar, yang mengarah ke mesin rekomendasi
Marked out of yang berbeda untuk platform musik dan pengecer online.Misalnya, jika saya memutar radio Black Sabbath di Spotify,
5.00 dimulai dengan lagu mereka "Anggrek", salah satu lagu lain di saluran ini kemungkinan besar adalah lagu Led Zeppelin,
seperti "Over the Hills dan Far Away." Ini didasarkan pada kebiasaan mendengarkan saya sebelumnya serta kebiasaan
orang lain.

Select one:
a. Apriori 

b. Apriori

c. Eclat

d. FP-Growth

Question 11 Algoritme yang bukan digunakan untuk pengelompokan (Clustering)


Correct

Marked out of Select one:


5.00
a. Hierarkis ( hierarchical)

b. Auto Encoder 

c. Tumpang tindih (overlapping)

d. Clustering ekslusif (specifically exclusive)

Question 12 Salah satu bentuk pengelompokan yang menetapkan bahwa suatu titik data hanya dapat ada dalam satu cluster. Ini juga
Correct bisa disebut sebagai pengelompokan "keras". Algoritma yang digunakan salah satunya adalah K-means clustering
Marked out of
5.00 Select one:
a. Hierarkis ( hierarchical)

b. Tumpang tindih (overlapping)

c. Clustering Eksklusif (specifically exclusive) 

d. Memecah belah (Divisive)

Question 13 Pendekatan reduksi dimensi lain yang memfaktorkan matriks, A, menjadi tiga matriks peringkat rendah. SVD
Incorrect dilambangkan dengan rumus, A = USVT, di mana U dan V adalah matriks ortogonal. S adalah matriks diagonal, dan nilai S
Marked out of dianggap sebagai nilai tunggal matriks A. Principal component analysis
5.00

Select one:
a. FP-Growth

b. Singular value decomposition 

c. Autoencoders
Question 14 Teknik yang mengelompokkan data yang tidak berlabel berdasarkan persamaan atau perbedaannya. Algoritma ini
Correct digunakan untuk memproses objek data mentah dan tidak terklasifikasi menjadi grup yang diwakili oleh struktur atau
Marked out of pola dalam informasi.
5.00

Select one:
a. Dimensionality reduction

b. Association

c. Clustering 

d. Regression

Question 15 Pembelajaran mesin tanpa pengawasan, menggunakan algoritme pembelajaran mesin untuk menganalisis dan
Correct mengelompokkan set data tak berlabel
Marked out of
5.00 Select one:
a. Unsupervised Learning 

b. Supervised Learning

c. Deep Learning

d. Semi Supervised Learning

Question 16 Pengelompokan yang sebagai "pendekatan bottom-up". Di mana titik datanya diisolasi sebagai pengelompokan terpisah
Correct pada awalnya, dan kemudian digabungkan bersama secara iteratif atas dasar kesamaan hingga satu cluster tercapai.
Marked out of
5.00 Select one:
a. Pendekatan Aglomeratif 

b. Pendekatan Overlapping

c. Pendekatan Probabilistic

d. Pendekatan Divisive

Question 17 Kemampuannya untuk menemukan persamaan dan perbedaan informasi menjadikannya unsupervised learning sebagai
Correct solusi ideal tugas tugas di bawah ini, kecuali
Marked out of
5.00 Select one:
a. Analisis data eksplorasi

b. Klasifikasi buah jeruk dan buah apel 

c. Segmentasi pelanggan

d. strategi penjualan silang

Question 18 Salah satu bentuk pengelompokan yang memungkinkan titik data menjadi bagian dari beberapa kluster dengan derajat
Correct keanggotaan terpisah. Ini disebut juga Pengelompokan "lembut" atau fuzzy k-means
Marked out of
5.00 Select one:
a. Clustering Eksklusif (specifically exclusive)

b. Hierarkis ( hierarchical)

c. Tumpang tindih (overlapping) 

d. Memecah belah (Divisive)


Question 19 Pendekatan Unsupervised Learning adalah
Correct

Marked out of Select one:


5.00
a. Mempelajari bagaimana cara kerja pembelajaran tanpa pengawasan dan dengan pengawasan

b. Mempelajari bagaimana cara kerja pembelajaran yang mendalam

c. Mempelajari bagaimana cara kerja pembelajaran dengan pengawasan

d. Mempelajari bagaimana cara kerja pembelajaran tanpa pengawasan 

Question 20 Algoritme yang menggunakan pohon hash untuk menghitung kumpulan item, menavigasi kumpulan data dengan cara
Correct yang pertama. Algoritma ini telah dipopulerkan melalui analisis keranjang pasar, yang mengarah ke mesin rekomendasi
Marked out of yang berbeda untuk platform musik dan pengecer online.Misalnya, jika saya memutar radio Black Sabbath di Spotify,
5.00 dimulai dengan lagu mereka "Anggrek", salah satu lagu lain di saluran ini kemungkinan besar adalah lagu Led Zeppelin,
seperti "Over the Hills dan Far Away." Ini didasarkan pada kebiasaan mendengarkan saya sebelumnya serta kebiasaan
orang lain. Ini termasuk task

Select one:
a. Regression

b. Association 

c. Dimensionality reduction

d. clustering

Kuis M7 : Unsupervised Learning


◄ Materi M7 : Unsupervised Learning Jump to...
(KHUSUS KELAS MALAM) ►
Dashboard / My courses / ATA 2020/2021 | 2-FTI | Komputasi Big Data | TEAM TEACHING
/ Pertemuan 8 : Introduction to Machine Learning (Reinforcement) / Kuis M8 : Reinforcement

Started on Monday, 26 April 2021, 12:07 PM


State Finished
Completed on Monday, 26 April 2021, 12:50 PM
Time taken 43 mins 42 secs

Question 1 Efek dari suatu aksi yang dipilih dari suatu state yang bergantung hanya pada state tersebut saja bukan pada state-state
Correct sebelumnya dikenal sebagai sifat:
Marked out of
5.00 Select one:
a. Stokastik

b. Markov 

c. Bellman

d. Transisi

Question 2 Pada Markov Decision Process, pemilihan ruas jalan dalam permasalahan shortest path merupakan bagian dari:
Correct

Marked out of Select one:


5.00
a. State

b. Value

c. Action 

d. Reward

Question 3 Reinforcement learning tepat digunakan untuk menyelesaikan permasalahan utama dalam:
Correct

Marked out of Select one:


5.00
a. Permainan catur 

b. Pengenalan objek

c. Segmentasi pelanggan

d. Peramalan cuaca

Question 4 Berikut ini merupakan pernyataan yang salah terkait Markov Decision Process:
Correct

Marked out of Select one:


5.00
a. Fungsi reward dapat dinyatakan sebagai suatu fungsi ekspektasi

b. Total policy pada suatu state untuk semua reward adalah 1 

c. Fungsi nilai state-action dapat dinyatakan dalam persamaan ekspektasi Bellman

d. Elemen matriks probabilitas transisi bernilai antara 0 dan 1


Question 5 Markov Decision Process dapat didefinisikan kedalam n-tuple, dimana bernilai:
Correct

Marked out of Select one:


5.00
a. 6

b. 5 

c. 4

d. 3

Question 6 Reinforcement learning merupakan bagian dari:


Correct

Marked out of Select one:


5.00
a. Semua benar

b. Markov Decision Process

c. Dynamic Programming

d. Machine learning 

Question 7 Solusi dari Markov Decision Process disebut sebagai:


Correct

Marked out of Select one:


5.00
a. Reward

b. Policy 

c. Model

d. Action

Question 8 Fungsi reward dalam Markov Decision Process dapat bernilai bilangan:
Correct

Marked out of Select one:


5.00
a. Asli

b. Bulat

c. Semua benar 

d. Riil

Question 9 Reinforcement learning dapat diilustrasikan sebagai interaksi antara:


Correct

Marked out of Select one:


5.00
a. Reward dengan state berikutnya

b. Semua benar

c. Agen dengan lingkungannya 

d. State dengan aksi yang dipilih

Question 10 Sifat Markov dalam Markov Decision Process diperlukan langsung dalam menentukan:
Correct

Marked out of Select one:


5.00
a. Fungsi nilai state-action

b. Aksi yang dipilih

c. Fungsi reward

d. Matriks probabilitas transisi 


Question 11 Reinforcement learning dapat diterapkan dalam permasalahan:
Correct

Marked out of Select one:


5.00
a. Semua benar 

b. Penentuan jalur terpendek

c. Navigasi robot

d. Supervised learning

Question 12 Sekumpulan token yang mewakili setiap kemungkinan keadaan dari agen disebut sebagai:
Correct

Marked out of Select one:


5.00
a. Reward

b. Action

c. Semua salah

d. State 

Question 13 Dalam memilih aksi pada suatu state perlu diperhatikan hal-hal berikut ini:
Correct

Marked out of Select one:


5.00
a. Memilih aksi yang memberikan state dengan nilai tertinggi 

b. Semua benar

c. Nilai state-action pada suatu waktu berlaku untuk sembarang policy

d. Memaksimumkan reward pada masa mendatang

Question 14 Berikut ini merupakan contoh permasalahan yang dapat diselesaikan dengan reinforcement learning:
Correct

Marked out of Select one:


5.00
a. Self-driving car

b. Sistem percakapan

c. Bermain Game

d. Semua benar 

Question 15 Reward dalam permasalahan shortest path yang dimodelkan dengan Markov Decision Process ditandai dengan:
Correct

Marked out of Select one:


5.00
a. Nilai bobot pada simpul

b. Total nilai bobot simpul dan ruas

c. Nilai bobot pada ruas 

d. Semua salah

Question 16 Berikut ini merupakan beberapa algoritma reinforcement learning, kecuali:


Correct

Marked out of Select one:


5.00
a. Hill-Climbing Bagged Ensemble Selection (HCES-Bag) 

b. State-Action-Reward-State-Action (SARSA)

c. Q-learning

d. Deep Deterministic Policy Gradient (DDPG)


Question 17 Berikut ini merupakan pernyataan yang kurang tepat terkait reinforcement learning (RL):
Correct

Marked out of Select one:


5.00
a. RL dapat digunakan dalam menciptakan sistem pelatihan untuk siswa yang bersifat kustom

b. RL memerlukan lingkungan untuk berinteraksi secara repetitif

c. RL dapat digunakan pada robotik untuk otomasi industri

d. RL yang diselesaikan dengan Markov Decision Process memerlukan data latih dalam menentukan probabilitas
transisinya 

Question 18 Pemilihan suatu aksi pada suatu state tertentu didalam Markov Decision Process ditentukan oleh:
Correct

Marked out of Select one:


5.00
a. Reward

b. Policy 

c. Model

d. Value

Question 19 Pernyataan yang benar terkait reinforcement learning:


Correct

Marked out of Select one:


5.00
a. Aksi yang dapat dipilih pada setiap state tidak unik 

b. Untuk aksi yang bersifat stokastik harus memenuhi sifat Markov

c. Semua benar

d. Input yang diterima oleh agen berupa state, action dan reward

Question 20 Efek dari suatu pilihan aksi pada suatu state ditentukan oleh:
Correct

Marked out of Select one:


5.00
a. Model transisi 

b. Fungsi reward

c. Policy

d. Semua salah

Kuis M8 : Reinforcement (KHUSUS KELAS


◄ Materi M8 : Reinforcement Learning Jump to...
MALAM) ►
5/4/2021 Kuis M9 : Introduction to Deep Learning: Attempt review

Dashboard / Courses / Program Sarjana / ATA 2020/2021 | 2-FTI | Komputasi Big Data | TEAM TEACHING
/ Pertemuan 9 : Introduction to Machine Learning (Deep) / Kuis M9 : Introduction to Deep Learning

∑IGMA

Started on Monday, 3 May 2021, 11:32 AM


State Finished
Completed on Monday, 3 May 2021, 11:33 AM
Time taken 1 min 44 secs
Grade 35.00 out of 100.00

Question 1 18 Dalam Algoritma Convolutional Neural Network, ReLU seringkali digunakan pada:
Correct

Mark 5.00 out of Select one:


5.00
a. Hidden layer

b. Input layer

c. Output layer

d. Classification layer

The correct answer is: Hidden layer

Response history
Step Time Action State Marks

1 3/05/21, 11:32 Started Not yet answered

2 3/05/21, 11:32 Saved: Hidden layer Answer saved

3 3/05/21, 11:33 Attempt finished Correct 5.00

file:///D:/College (On Going)/SEMESTER 4/3. Komputasi Big Data Team Teaching/Pertemuan 9 (M9)/M9_KBD.html 1/11
5/4/2021 Kuis M9 : Introduction to Deep Learning: Attempt review

Question 2 Untuk memperbanyak feature yang berhasil diekstrak dalam Algoritma Convolutional Neural Network digunakan:
Correct

Mark 5.00 out of Select one:


5.00
a. Padding

b. Epoch

c. Max Pooling

d. Stride

The correct answer is: Padding

Response history
Step Time Action State Marks

1 3/05/21, 11:32 Started Not yet answered

2 3/05/21, 11:32 Saved: Padding Answer saved

3 3/05/21, 11:33 Attempt finished Correct 5.00

Question 3 Parameter dalam Algoritma Convolutional Neural Network yang menentukan berapa jumlah pergeseran filter disebut
Correct sebagai:
Mark 5.00 out of
5.00 Select one:
a. Stride

b. Epoch

c. Dropout

d. Padding

The correct answer is: Stride

Response history
Step Time Action State Marks

1 3/05/21, 11:32 Started Not yet answered

2 3/05/21, 11:32 Saved: Stride Answer saved

3 3/05/21, 11:33 Attempt finished Correct 5.00

file:///D:/College (On Going)/SEMESTER 4/3. Komputasi Big Data Team Teaching/Pertemuan 9 (M9)/M9_KBD.html 2/11
5/4/2021 Kuis M9 : Introduction to Deep Learning: Attempt review

Question 4 Berikut ini adalah efek dari mengecilnya nilai stride dalam Algoritma Convolutional Neural Network:
Incorrect

Mark 0.00 out of Select one:


5.00
a. Proses komputasi semakin cepat

b. Semua benar

c. Informasi yang diperoleh semakin detail

d. Performa yang dihasilkan semakin baik

The correct answer is: Informasi yang diperoleh semakin detail

Response history
Step Time Action State Marks

1 3/05/21, 11:32 Started Not yet answered

2 3/05/21, 11:32 Saved: Proses komputasi semakin cepat Answer saved

3 3/05/21, 11:33 Attempt finished Incorrect 0.00

Question 5 Pooling layer bertujuan untuk:


Incorrect

Mark 0.00 out of Select one:


5.00
a. Mengatasi overfitting

b. Mengurangi dimensi feature map

c. Mempercepat proses komputasi

d. Semua benar

The correct answer is: Semua benar

Response history
Step Time Action State Marks

1 3/05/21, 11:32 Started Not yet answered

2 3/05/21, 11:32 Saved: Mengatasi overfitting Answer saved

3 3/05/21, 11:33 Attempt finished Incorrect 0.00

file:///D:/College (On Going)/SEMESTER 4/3. Komputasi Big Data Team Teaching/Pertemuan 9 (M9)/M9_KBD.html 3/11
5/4/2021 Kuis M9 : Introduction to Deep Learning: Attempt review

Question 6 Berikut ini merupakan loss function dalam algoritma berbasis Neural Network:
Incorrect

Mark 0.00 out of Select one:


5.00
a. Sigmoid function

b. ReLu

c. Semua benar

d. Cross entropy

The correct answer is: Cross entropy

Response history
Step Time Action State Marks

1 3/05/21, 11:32 Started Not yet answered

2 3/05/21, 11:33 Saved: Sigmoid function Answer saved

3 3/05/21, 11:33 Attempt finished Incorrect 0.00

Question 7 10 Tahapan feature extraction pada Algoritma Convolutional Neural Network terdiri dari beberapa lapisan (layer) berikut
Correct ini, kecuali:
Mark 5.00 out of
5.00 Select one:
a. Fully-connected layer

b. Convolutional layer

c. Pooling layer

d. Semua salah

The correct answer is: Fully-connected layer

Response history
Step Time Action State Marks

1 3/05/21, 11:32 Started Not yet answered

2 3/05/21, 11:33 Saved: Fully-connected layer Answer saved

3 3/05/21, 11:33 Attempt finished Correct 5.00

file:///D:/College (On Going)/SEMESTER 4/3. Komputasi Big Data Team Teaching/Pertemuan 9 (M9)/M9_KBD.html 4/11
5/4/2021 Kuis M9 : Introduction to Deep Learning: Attempt review

Question 8 Berikut ini merupakan library Python untuk Algoritma Deep Learning:
Incorrect

Mark 0.00 out of Select one:


5.00
a. Keras

b. PyTorch

c. Semua benar

d. Tensorflow

The correct answer is: Semua benar

Response history
Step Time Action State Marks

1 3/05/21, 11:32 Started Not yet answered

2 3/05/21, 11:33 Saved: Keras Answer saved

3 3/05/21, 11:33 Attempt finished Incorrect 0.00

Question 9 Hasil dari proses flatten pada Algoritma Convolutional Neural Network menjadi masukan dalam:
Incorrect

Mark 0.00 out of Select one:


5.00
a. Convolutional layer

b. Fully-connected layer

c. Semua salah

d. Pooling layer

The correct answer is: Fully-connected layer

Response history
Step Time Action State Marks

1 3/05/21, 11:32 Started Not yet answered

2 3/05/21, 11:33 Saved: Convolutional layer Answer saved

3 3/05/21, 11:33 Attempt finished Incorrect 0.00

file:///D:/College (On Going)/SEMESTER 4/3. Komputasi Big Data Team Teaching/Pertemuan 9 (M9)/M9_KBD.html 5/11
5/4/2021 Kuis M9 : Introduction to Deep Learning: Attempt review

Question 10 16 Berikut ini adalah teknik yang dapat digunakan pada pooling layer dalam Algoritma Convolutional Neural Network:
Correct

Mark 5.00 out of Select one:


5.00
a. Semua benar

b. Min pooling

c. Max pooling

d. Average pooling

The correct answer is: Semua benar

Response history
Step Time Action State Marks

1 3/05/21, 11:32 Started Not yet answered

2 3/05/21, 11:33 Saved: Semua benar Answer saved

3 3/05/21, 11:33 Attempt finished Correct 5.00

Question 11 Untuk mencegah terjadinya overfitting dalam Algoritma Convolutional Neural Network dilakukan:
Incorrect

Mark 0.00 out of Select one:


5.00
a. Penambahan epoch

b. Perbanyak jumlah hidden layer

c. Dropout regularization

d. Perkecil stride

The correct answer is: Dropout regularization

Response history
Step Time Action State Marks

1 3/05/21, 11:32 Started Not yet answered

2 3/05/21, 11:33 Saved: Penambahan epoch Answer saved

3 3/05/21, 11:33 Attempt finished Incorrect 0.00

file:///D:/College (On Going)/SEMESTER 4/3. Komputasi Big Data Team Teaching/Pertemuan 9 (M9)/M9_KBD.html 6/11
5/4/2021 Kuis M9 : Introduction to Deep Learning: Attempt review

Question 12 Sebuah citra berdimensi 5x5 dengan filter 3x3 dan stride sebesar 2 akan menghasilkan feature map berdimensi:
Incorrect

Mark 0.00 out of Select one:


5.00
a. 3x3

b. 2x2

c. 4x4

d. Semua salah

The correct answer is: 2x2

Response history
Step Time Action State Marks

1 3/05/21, 11:32 Started Not yet answered

2 3/05/21, 11:33 Saved: 3x3 Answer saved

3 3/05/21, 11:33 Attempt finished Incorrect 0.00

Question 13 Salah satu ukuran dari confusion matrix yang dapat digunakan dalam mengukur tingkat keberhasilan sistem dalam
Correct menemukan kembali sebuah informasi adalah:
Mark 5.00 out of
5.00 Select one:
a. Recall

b. Semua salah

c. Accuracy

d. Precision

The correct answer is: Recall

Response history
Step Time Action State Marks

1 3/05/21, 11:32 Started Not yet answered

2 3/05/21, 11:33 Saved: Recall Answer saved

3 3/05/21, 11:33 Attempt finished Correct 5.00

file:///D:/College (On Going)/SEMESTER 4/3. Komputasi Big Data Team Teaching/Pertemuan 9 (M9)/M9_KBD.html 7/11
5/4/2021 Kuis M9 : Introduction to Deep Learning: Attempt review

Question 14 Untuk menyelesaikan permasalahan klasifikasi biner menggunakan algoritma berbasis Neural Network lebih tepat
Incorrect digunakan fungsi aktivasi:
Mark 0.00 out of
5.00 Select one:
a. ReLU

b. Sigmoid

c. Semua salah

d. Softmax

The correct answer is: Sigmoid

Response history
Step Time Action State Marks

1 3/05/21, 11:32 Started Not yet answered

2 3/05/21, 11:33 Saved: ReLU Answer saved

3 3/05/21, 11:33 Attempt finished Incorrect 0.00

Question 15 13 Algoritma Deep Learning dapat menyelesaikan permasalahan berikut ini:


Incorrect

Mark 0.00 out of Select one:


5.00
a. Natural Language Processing

b. Pengenalan suara

c. Deteksi objek

d. Semua benar

The correct answer is: Semua benar

Response history
Step Time Action State Marks

1 3/05/21, 11:32 Started Not yet answered

2 3/05/21, 11:33 Saved: Natural Language Processing Answer saved

3 3/05/21, 11:33 Attempt finished Incorrect 0.00

file:///D:/College (On Going)/SEMESTER 4/3. Komputasi Big Data Team Teaching/Pertemuan 9 (M9)/M9_KBD.html 8/11
5/4/2021 Kuis M9 : Introduction to Deep Learning: Attempt review

Question 16 Berikut ini merupakan contoh Algoritma Deep Learning:


Correct

Mark 5.00 out of Select one:


5.00
a. Semua benar

b. Algoritma Long Short Term Memory

c. Algoritma Convolutional Neural Network

d. Algoritma Recurrent Neural Network

The correct answer is: Semua benar

Response history
Step Time Action State Marks

1 3/05/21, 11:32 Started Not yet answered

2 3/05/21, 11:33 Saved: Semua benar Answer saved

3 3/05/21, 11:33 Attempt finished Correct 5.00

Question 17 Dimensi dari feature map dalam Algoritma Convolutional Neural Network bergantung pada:
Incorrect

Mark 0.00 out of Select one:


5.00
a. Padding

b. Dimensi filter dan input

c. Semua benar

d. Stride

The correct answer is: Semua benar

Response history
Step Time Action State Marks

1 3/05/21, 11:32 Started Not yet answered

2 3/05/21, 11:33 Saved: Padding Answer saved

3 3/05/21, 11:33 Attempt finished Incorrect 0.00

file:///D:/College (On Going)/SEMESTER 4/3. Komputasi Big Data Team Teaching/Pertemuan 9 (M9)/M9_KBD.html 9/11
5/4/2021 Kuis M9 : Introduction to Deep Learning: Attempt review

Question 18 Algoritma Deep Learning berbasis:


Incorrect

Mark 0.00 out of Select one:


5.00
a. Semua benar

b. Neural network

c. Machine learning

d. Artificial Intelligence

The correct answer is: Neural network

Response history
Step Time Action State Marks

1 3/05/21, 11:32 Started Not yet answered

2 3/05/21, 11:33 Saved: Semua benar Answer saved

3 3/05/21, 11:33 Attempt finished Incorrect 0.00

Question 19 Berikut ini merupakan fungsi aktivasi dalam Algoritma Convolutional Neural Network:
Incorrect

Mark 0.00 out of Select one:


5.00
a. Tanh

b. ReLU

c. Semua benar

d. Sigmoid

The correct answer is: Semua benar

Response history
Step Time Action State Marks

1 3/05/21, 11:32 Started Not yet answered

2 3/05/21, 11:33 Saved: Tanh Answer saved

3 3/05/21, 11:33 Attempt finished Incorrect 0.00

file:///D:/College (On Going)/SEMESTER 4/3. Komputasi Big Data Team Teaching/Pertemuan 9 (M9)/M9_KBD.html 10/11
5/4/2021 Kuis M9 : Introduction to Deep Learning: Attempt review

Question 20 Pooling layer pada Algoritma Convolutional Neural Network terdapat pada:
Incorrect

Mark 0.00 out of Select one:


5.00
a. Semua salah

b. Input layer

c. Output layer

d. Hidden layer

The correct answer is: Hidden layer

Response history
Step Time Action State Marks

1 3/05/21, 11:32 Started Not yet answered

2 3/05/21, 11:33 Saved: Semua salah Answer saved

3 3/05/21, 11:33 Attempt finished Incorrect 0.00

◄ Materi M9 : Introduction to Deep Kuis M9 : Introduction to Deep Learning


Jump to...
Learning (KHUSUS KELAS MALAM) ►

file:///D:/College (On Going)/SEMESTER 4/3. Komputasi Big Data Team Teaching/Pertemuan 9 (M9)/M9_KBD.html 11/11
TEAM TEACHING M13

Layanan konsultasi dengan Bidan pada aplikasi Salute Bidan:


Select one:
a. Semua benar
b. Screening Mandiri
c. Kalkulator kehamilan
d. Chat dengan Bidan

Big Data di bidang farmasi meliputi:

Select one:
a. Semua salah
b. Biologi Farmasi, Kimia Farmasi, Teknologi Farmasi, Farmasi Klinik
c. Biologi Farmasi, Kimia Farmasi, Teknologi Farmasi, Kebidanan
d. Biologi Farmasi, Kimia Farmasi, Teknologi Farmasi, Farmakologi, Farmasi Klinik dan
Komunitas

Visi 2022 Program Studi Kebidanan dan Pendidikan Profesi Bidan UG:

Select one:
a. Meyelenggarakan kerjasama dengan berbagai industry, baik didalam maupun diluar
negeri dengan dilandasi kesetraan dan demi kepentingan nasional
b. Menciptakan suasana akademik yang mendukung terselenggaranya proses pembelajaran
yang inofatof agar dapat menghasilkan lulusan yang cerdas, kompetitif dan berkarakter
c. Menyelenggarakan program studi Pendidikan profesi bidan yang berkualitas dalam
rangka meningkatkan kontribusi pada peningkatan kualitas hidup masyarakat Indonesia
d. Menjadi Program Studi Pendidikan Profesi Bidan terkemuka di Indonesia berbasis
Teknologi Informasi dan Komunikasi dengan jejaring nasional dan internasional dalam
kegiatan tridharma perguruan tinggi yang holistik dan integratif dalam rangka
meningkatkan kualitas hidup masyarakat

Peran Big Data dalam bidang farmasi khususnya Farmasi Klinik dan Komunitas :
Select one:
a. Penentuan kebijakan
b. Penemuan senyawa obat baru
c. Optimalisasi pelayanan kesehatan
d. Inovasi obat dan Alat kesehatan

Wilayah yang sudah menjadi populasi bagi aplikasi Salute Bidan:

Select one:
a. Puskesmas Cimanggis, Pancoran Mas, Sukmajaya, Cinere dan Beji
b. Puskesmas Cimanggis, Pancoran Mas, Sawangan, Cinere dan Beji
c. Puskesmas Cimanggis, Cipayung, Sawangan, Cinere dan Beji
d. Puskesmas Cimanggis, Pancoran Mas, Cipayung, Cinere dan Beji

Cakupan kebutuhan data pada pelayanan kebidanan:

Select one:
a. Semua benar
b. Melahirkan dan Bayi Baru lahir
c. Kehamilan
d. Anak, pra sekolah, remaja

Peran Big Data dalam bidang farmasi khususnya Biologi dan Kimia Farmasi:

Select one:
a. Penemuan senyawa obat baru
b. Penentuan kebijakan
c. Optimalisasi pelayanan kesehatan
d. Inovasi obat dan Alat kesehatan

Peran Big Data dalam bidang farmasi khususnya Teknologi Farmasi:


Select one:
a. Inovasi obat dan Alat kesehatan
b. Optimalisasi pelayanan kesehatan
c. Penemuan senyawa obat baru
d. Penentuan kebijakan

Data yang dimanfaatkan penemuan dan pengembangan obat baru:


Select one:
a. Data obat, protein target, struktur kimia
b. Data senyawa tanaman obat, data genomik, data struktur kimia, protein target,
c. Semua salah
d. Data genomik, stuktur kimia, senyawa tanaman obat

Data Electronic Health Records (EHRs) dapat bermanfaat untuk:

Select one:
a. Memprediksi prevalensi penyakit
b. Penentuan kebijakan
c. Optimalisasi pelayanan kesehatan
d. Inovasi obat dan Alat kesehatan
UTS KOMPUTASI BIG DATA SMT 3

Yang bukan Metode clusterisasi

Select one:
a. Decision Tree
b. Deterministic vs. probabilistic
c. Exclusive vs. overlapping
d. Hierarchical vs. flat

Unit informasi tunggal disebut:

Select one:
a. Dataset
b. Nilai
c. Objek
d. Fitur/atribut

Istilah 'Machine Learning' diciptakan pada tahun <T> oleh <P>:

Select one:
a. T = 1959, P = Arthur Samuel
b. T = 1999, P = Bill Gates
c. T = 1989, P = Tom M. Mitchell
d. T = 1969, P = Yann LeCun

Jenis tugas data mining yang melakukan prediksi kelas

Select one:
a. Klasifikasi
b. Klasterisasi
c. Visualisasi
d. Asosiasi

Model pembelajaran yang menggunakan data berlabel dan tidak berlabel untuk pelatihan.
Select one:
a. Semi Supervised Learning
b. Reinfocement Learning
c. Supervised Learning
d. Unsupervised Learning

Karakteristik Big Data yang terus bertambah dengan cepat secara real-time dinamakan
Select one:
a. Volume
b. Value
c. variety
d. Velocity

Tahapan yang tepat ketika melakukan testing

Select one:
a. Image Features - Training With Labeled Data – Prediction
b. Image Features - Training With Labeled Data - Learned Model
c. Image Features - Learned Model - Prediction
d. Image Features - Training With Unlabel Data -Learned Model - Prediction

Metode untuk memprediksi kelas instance dari instance yang diberi label sebelumnya

Select one:
a. Asosiasi
b. Visualisasi
c. Klasifikasi
d. Klasterisasi

Dalam ekosistem teknologi Data Engineering Link Aja! Apache Airflow berfungsi sebagai:
Select one:
a. Streaming Infrastructure
b. Monitoring
c. Data Sources Gathering
d. Batching Infratructure
Teknologi yang dibutuhkan pada era Analytic 3.0:
Select one:
a. Ketergantungan yang tinggi pada Machine Learning
b. Keduanya salah
c. Keduanya benar
d. Berpusat pada Data Warehouse

Pada saat memodelkan mesin learning dalam menganalisa data transaksi keuangan,
melakukan perankingan adalah tahapan pada
Select one:
a. data engineering
b. prediction modelling
c. data exploration
d. data visualization

Salah satu agen intelligence yang bertugas saat mengumpulkan data melalui sumber Web
seperti HTML dokumen, gambar, file teksadalah:

Select one:
a. Compiler
b. Chat Box
c. parser
d. web crawler

Studi tentang bagaimana menganalisis data dan membersihkan data merupakan salah satu
tujuan dari
Select one:
a. Data validation
b. Data training
c. Data cleansing
d. Data testing

Bagian dari sistem Kecerdasan Artifisial yang mengolah pengetahuan adalah

Select one:
a. Data historis
b. Machine Learning
c. Validator
d. Hadoop

Peran Data Engineer seringkali juga disebut sebagai:

Select one:
a. Business Analyst
b. Data Architect
c. Data Manager
d. Statistician

YARN singkatan dari

Select one:
a. Yet another resource negotiator
b. Yet another resource need
c. Yahoo’s archived Resource names
d. Yahoo’s another resource name

Proses pencarian konten baru dan konten yang perlu diperbaharui dengan mengirimkan
crawler ke seluruh konten yang ditemukan dari tautan halaman merupakan Salah satu
konsep data mining pada Search Engine yang dinamakan

Select one:
a. Index
b. Crawl
c. Searching
d. Rank

Ciri-ciri dari masing-masing sample data misalnya Smartphone. ciri: memiliki layar, kamera,
tombol dan lain-lain
Select one:
a. Feature Extraction
b. Training Set
c. Instance
d. Feature/ atribut
Dalam ekosistem Big Data, proses pre-prosesing data dapat dilakukan menggunakan:
Select one:
a. Tableu
b. Facebook
c. Sqoop
d. HDFS

Metode klasifikasi pada fungsi data mining yang menggunakan nilai estimasi dari
probabilitas bersyarat dinamakan metode
Select one:
a. Eliminasi
b. Mean
c. Naive Bayessian
d. Regresi

Manakah framework untuk Machine Learning:


Select one:
a. Apache Spark MLlib
b. Semua benar
c. Azure ML
d. Amazon ML

Regression, Decision Trees, Bayesian, Neural Networks, Naïve Bayes Rules, Support Vector
Machines, Genetic Algorithms adalah pendekatan yang digunakan untuk

Select one:
a. Klasifikasi
b. Klasterisasi
c. Asosiasi
d. Visualisasi

Tahapan pertama data preprocessing adalah

Select one:
a. data transformation
b. data Integration
c. data cleaning
d. data reduction

Contoh solusi Big Data, kecuali:

Select one:
a. Deteksi Penipuan
b. Input Nilai Mahasiswa
c. Mesin rekomendasi
d. Semua jawaban benar

Bagian dari sistem Kecerdasan Artifisial yang mengolah pengetahuan adalah

Select one:
a. Machine Learning
b. Data historis
c. Validator
d. Hadoop

Hadoop adalah framework yang bekerja bersama tools lain yang beragam. Kelompok yang
umum bekerja bersama Hadoop adalah

Select one:
a. MapReduce, Heron and Trumpet
b. MapReduce, Hive and Hbase
c. MapReduce, Hummer and Iguana
d. MapReduce, MySQL and Google Apps

Jika variabel keluaran adalah berupa kategori misalnya “apel”, “jeruk” termasuk pada
machine learning bertipe
Select one:
a. Supervised – Classification
b. Unsupervised
c. Supervised -Regresion
d. Reinfocement
Dalam computer vision, contoh penerapan Machine Learning adalah, kecuali:
Select one:
a. Deteksi suhu tubuh
b. Pengenalan objek
c. Analitik Rute
d. Pengenalan wajah

Membuat grafik box plot adalah salah satu tahapan dalam implementasi mesin learning,
yaitu tahap
Select one:
a. verifikasi model
b. validasi model
c. eksplorasi data
d. modelling

Yang tidak digunakan pada Model Supervised Learning


Select one:
a. Linear Model
b. Latent Semantic Analysis
c. Support Vector Machine
d. Neural Networks

Data berupa image, video bahkan suara termasuk jenis data


Select one:
a. Multimedia
b. Graf
c. Record
d. Ordered

Arsitektur Hadoop terdiri dari:

Select one:
a. Storage layer, Service Layer, Application Layer
b. Storage layer, Resource Management Layer, Application Layer
c. Data layer, Processing Layer, Service Layer
d. Storage layer, Processing Layer, Application Layer

Cara menangani noisy data, kecuali

Select one:
a. Combined Computer
b. Ignore
c. Regression
d. Clustering

Saat Anda ingin mengungkap pengelompokan yang melekat dalam data, seperti
mengelompokkan hewan berdasarkan beberapa karakteristik / fitur, mis. jumlah kaki maka
model pembelajaran yang sesuai

Select one:
a. Reinfocement Learning
b. Supervised Learning - Classification
c. Supervised Learning - Regression
d. Unsupervised Learning - Clustering

Salah satu teknologi yang dapat digunakan pada bagian Serving Layer dalam Arsitektur
lambda adalah:

Select one:
a. Hive
b. Spark
c. HDFS
d. Flume

Komponen layanan inti Hadoop adalah

Select one:
a. Speed, consistency, dan volume
b. MapReduce, HDFS, dan YARN
c. SQL, NoSQL, Cluster
d. ClickStream, Sensor, dan Sentiment
Pada saat memodelkan mesin learning dalam menganalisa data transaksi keuangan,
melakukan perankingan adalah tahapan pada

Select one:
a. prediction modelling
b. data visualization
c. data engineering
d. data exploration

Berikut ini yang bukan merupakan Hadoop operation mode, adalah


Select one:
a. Pseudo distributed mode
b. Fully-Distributed mode
c. Stand alone mode
d. Globally distributed mode

Normalisasi data dilakukan pada tahap data preprocessing ..


Select one:
a. data Integration
b. data transformation
c. data reduction
d. data cleaning

Berikut ini yang bukan contoh data terstruktur adalah:


Select one:
a. Nama pelanggan
b. Email
c. Nomor telepon
d. Nomor KTP
ATA 2021/2022 | 2-FTI | Komputasi Big Data
| TEAM TEACHING
PERT 1
Manakah yang benar dari pernyataan berikut ini:
Select one:
a. Memperkirakan puncak dari kasus positif Covid-19, adalah contoh analisis prediktif.
b. Prediktif, menilai tindakan
c. Preskriptif, memodelkan perilaku masa lalu
d. Deskriptif, perkiraan berdasarkan data yang tersedia

Unit informasi tunggal disebut:

Select one:
a. Fitur/atribut
b. Nilai
c. Objek
d. Dataset
Clear my choice

Data Warehouse dibuat dengan menerapkan serangkaian langkah pemrosesan terhadap


data yang berasal dari beberapa basis data. Berikut ini adalah yang termasuk dalam
pemrosesan data tersebut:

Select one:
a. Transformasi data
b. Semua benar
c. Integrasi data
d. Pembersihan data
Dataset dibentuk dari:
Select one:
a. Sekumpulan objek yang memiliki fitur yang sama
b. Semua salah
c. Sekumpulan fitur yang memiliki objek yang sama
d. Sekumpulan fitur yang memiliki nilai yang sama
Clear my choice

Salah satu keunggulan DGX A100:


Select one:
a. Konsumsi daya lebih sedikit
b. Semua benar
c. Biaya lebih murah
d. Tidak membutuhkan ruang yang besar

Model basis data yang berupa deret waktu (time series):


Select one:
a. Temporal database
b. Spatial database
c. Text database
d. Semua salah

Kumpulan data yang disusun dalam tabel berformat persegi panjang yang terdiri dari baris
dan kolom disebut sebagai:

Select one:
a. Flat files
b. Data Warehouse
c. Semua salah
d. Database
Sumber data yang digunakan dalam aplikasi Big Data dapat berupa:
Select one:
a. Data Finansial
b. Data Media Sosial
c. Data Asuransi Kesehatan
d. Semua benar

Tempat penyimpanan data yang dikumpulkan di lokasi berbeda (basis data relasional) dan
disimpan menggunakan skema terpadu:
Select one:
a. Data Warehouse
b. Spatial Database
c. Transactional database
d. Semua benar

Dalam ekosistem Big Data, proses pre-prosesing data dapat dilakukan menggunakan:

Select one:
a. Sqoop
b. Facebook
c. Tableu
d. HDFS

Dalam arsitektur Big Data, solusi berupa rekomendasi, berada pada posisi sebagai:
Select one:
a. Data Computing &amp; Analysis
b. End Result
c. Data Format
d. Data Storage Layer
Semakin banyak data hingga mencapai ukuran Peta Byte atau bahkan lebih, merupakan
penjelasan dari dimensi Big Data dalam hal:

Select one:
a. Variety
b. Velocity
c. Veracity
d. Volume

Visualisasi dari hasil analisis Big Data dapat berupa:


Select one:
a. Tabel
b. Grafik 3D
c. Semua benar
d. Plot

Objek disebut juga:

Select one:
a. Unit
b. Semua benar
c. Record
d. Data points

Tipe nilai dapat berupa:

Select one:
a. Semua salah
b. Numerik
c. Fitur
d. Object
Contoh solusi Big Data, kecuali:
Select one:
a. Mesin rekomendasi
b. Deteksi Penipuan
c. Semua benar
d. Input Nilai Mahasiswa

Komponen Komputasi Big Data di lapisan Middleware terdiri dari:

Select one:
a. Resource Layer
b. SDK Layer
c. Semua benar
d. Interface Layer

Sekumpulan tabel dimana bentuk setiap tabel analog dengan flat file, disebut:

Select one:
a. Database
b. Data Warehouse
c. Semua salah
d. DBMS

Yang merupakan framework untuk Machine Learning:

Select one:
a. Semua benar
b. Azure ML
c. Apache Spark MLlib
d. Amazon ML
Beragamnya jenis data di dalam Big Data yang meliputi data terstruktur, semi terstruktur
dan bahkan data tidak terstruktur, merupakan penjelasan dari dimensi Big Data dalam hal:

Select one:
a. Velocity
b. Variety
c. Veracity
d. Volume
PERTEMUAN 2 TEAM TEACHING BIG DATA

Arsitektur Hadoop terdiri dari:

Select one:

a. Storage layer, Resource Management Layer, Application Layer

b. Storage layer, Processing Layer, Application Layer

c. Data layer, Processing Layer, Service Layer

d. Storage layer, Service Layer, Application Layer

Berikut ini adalah saran untuk memasuki era Analytic 3.0:

Select one:

a. Pilih target dan sub-target analytics 3.0

b. Tambahkan beberapa data volume besar yang tidak terstruktur

c. Semua benar

d. Mulailah dengan kemampuan yang ada untuk manajemen data dan analitik

Berikut ini yang harus dilakukan oleh perusahaan 1.0, kecuali:

Select one:

a. Membuat analitik dan keputusan berbasis fakta elemen kunci dari hubungan pelanggan, produk dan
layanan, strategi, dan persaingan

b. Temukan pelanggan terbaik, tetapkan harga terbaik kepada mereka

c. Buat penawaran yang efektif

d. Pahami biaya dan dorong kinerja yang lebih baik

Contoh Analytic 3.0:

Select one:

a. Data volume tinggi waktu nyata dari sensor dan mesin

b. Semua benar

c. Analisis untuk tren, pola, prediksi, pengoptimalan, kesadaran situasional


d. Fokus pada anomali dan pengecualian

Contoh Aplikasi Machine Learning dan Analitik Prediktif:

Select one:

a. Semua benar

b. Prediksi wabah penyakit

c. Prediksi Cashflow

d. Penetapan harga dinamis

Contoh data tidak terstruktur:

Select one:

a. Data pegawai

b. Data media sosial

c. Semua benar

d. Data transaksi penjualan

Contoh implementasi dalam perusahaan:

Select one:

a. Semua benar

b. Procter &amp; Gamble melakukan Analisis sentimen media sosial real time untuk "Pulsa Konsumen"

c. Sistem Manajemen Inventaris Cerdas pada perusahaan Ford, menyarankan pesanan mingguan untuk
dealer dan telah meningkatkan pendapatan sebesar $ 100 juta / tahun

d. Monsanto membayar hampir $ 1 miliar untuk The Climate Company, yang mengumpulkan dan
menganalisis data cuaca untuk pertanian

Dalam computer vision, contoh penerapan Machine Learning adalah, kecuali:

Select one:

a. Analitik Rute

b. Deteksi suhu tubuh


c. Pengenalan wajah

d. Pengenalan objek

stilah 'Machine Learning' diciptakan pada tahun <T> oleh <P>:

Select one:

a. T = 1999, P = Bill Gates

b. T = 1989, P = Tom M. Mitchell

c. T = 1969, P = Yann LeCun

d. T = 1959, P = Arthur Samuel

Komponen Hadoop yang berfungsi sebagai data processing:

Select one:

a. HDFS

b. YARN

c. MapReduce

d. Semua benar

Komponen Hadoop yang berfungsi sebagai data storage:

Select one:

a. MapReduce

b. YARN

c. Semua benar

d. HDFS

Manakah pernyataan yang benar tentang era Analytic 3.0:

Select one:

a. Dibutuhkan kapabilitas analitis dan komputasi baru

b. Data yang kompleks, besar dan tidak terstruktur

c. Perpaduan antara analitik tradisional dengan Big Data


d. Sumber data dari internal, relatif kecil dan data terstruktur dari pelanggan

Manakah pernyataan yang benar tentang Hadoop:

Select one:

a. Hadoop mulai dikembangkan pada tahun 2008

b. Hadoop merupakan framework untuk bekerja dengan Big Data

c. Semua benar

d. Hadoop merupakan Google File System

Netflix adalah contoh perusahaan yang tergolong:

Select one:

a. 1.0

b. Semua benar

c. 3.0

d. 2.0

Perbandingan SQL vs NoSQL:

Select one:

a. Semua benar

b. Static vs Dynamic

c. Relational vs Non-Relational

d. Structured Query Language vs Un-structured Query Language

Perbandingan Traditional vs Big Data Analytics:

Select one:

a. Process centric vs Information centric

b. Semua benar

c. Hard to scale vs Scales out forever

d. Mahal vs Terjangkau
Salah satu bentuk data tidak terstruktur:

Select one:

a. Graph

b. Semua benar

c. Key-Value

d. Document

Salah satu fakta yang menunjukkan aspek Velocity dari Big Data:

Select one:

a. Mobil modern memiliki 100 sensor yang memantau berbagai item pada mobil

b. Pertumbuhan data tidak terstruktur mencapai 60% - 80% per tahun

c. Semua benar

d. 27% responden dalam satu survei tidak yakin dengan banyaknya data mereka yang tidak akurat

Salah satu tonggak penting dalam Big Data Analytic dalam aspek pengadaan infrastruktur:

Select one:

a. Dapatkan infrastruktur yang tepat yang dibutuhkan berdasarkan arsitektur solusi Anda termasuk
penyimpanan data dan unit pemrosesan, platform, dan aplikasi

b. Adaptasi dan ubah organisasi Anda menuju teknologi big data dan implementasi analitik baru

c. Kembangkan arsitektur Solusi untuk kasus bisnis Anda termasuk proses pengumpulan data, arsitektur
teknologi dan metode analitik serta visualisasi data

d. Analisis data untuk setiap kasus bisnis spesifik Anda dan visualisasikan dengan cara yang bermakna

Teknologi yang dibutuhkan pada era Analytic 3.0:

Select one:

a. Ketergantungan yang tinggi pada Machine Learning

b. Berpusat pada Data Warehouse

c. Keduanya benar

d. Keduanya salah
BIG DATA PERTEMUAN 3

Sistem penyimpanan data cluster adalah

Select one:

a. Kumpulan server atau node digabungkan secara erat, dengan spesifikasi perangkat keras yang sama.
Serta terhubung melalui jaringan dan bekerja sebagai satu kesatuan

b. Penyimpanan dan pengaturan data pada perangkat penyimpanan harddisk atau flashdisk, dan
menyediakan logical view dari data yang disimpan dalam struktur hirakis direktori file.

c. Menyimpan data dengan mempartisi secara horizontal dan pecahan horizontal tersebut di simpan
secara terpisah pada node server.

d. Data disimpan dengan cara menyalin dataset dan meyimpan Salinan tersebut pada beberapa node

Berikut yang dimaksud dengan menganalisa data dalam konteks big data adalah:

Select one:

a. Classification analytics, regression analytics, clustering analytics, dan hadooping analytics

b. Menentukan jumlah data dan atribut data

c. mean statistic analytics, deviation standard analytics, dan percentil analytics

d. Descriptive analytics, diagnostic analytics, predictive analytics, dan prescriptive analytics

Properti Big data yang penting, salah satunya adalah aviability, yaitu:

Select one:

a. Kemampuan menanganai penambahan bebab yang diberikan tanpa penurunan kinerja

b. Handal

c. Kemampuan untuk terus beroperasi walaupun terjadi kegagalan pada beberapa komponen

d. Ketersediaan layanan secara terus menerus

Berikut ini yang bukan merupakan Hadoop operation mode, adalah

Select one:

a. Globally distributed mode


b. Pseudo distributed mode

c. Fully-Distributed mode

d. Stand alone mode

Pernyataan yang benar mengenai MapReduce, adalah:

Select one:

a. membagi masalah besar menjadi masalah kecil yang dapat diselesaikan dengan cepat

b. memproses data besar secara parallel dalam cluster pada commodity hardware

c. semua benar

d. implementasi dari framework pemrosesan batch

NoSQl database adalah singkatan dari

Select one:

a. Not-only Structured Query Language database

b. Numbered of sequel database

c. Numbered of Structured Query Language database

d. No Like Structured Query Language database

YARN singkatan dari

Select one:

a. Yahoo’s another resource name

b. Yet another resource negotiator

c. Yahoo’s archived Resource names

d. Yet another resource need

Komponen layanan inti Hadoop adalah

Select one:

a. ClickStream, Sensor, dan Sentiment

b. Speed, consistency, dan volume


c. SQL, NoSQL, Cluster

d. MapReduce, HDFS, dan YARN

Hadoop adalah framework yang bekerja bersama tools lain yang beragam. Kelompok yang umum
bekerja bersama Hadoop adalah

Select one:

a. MapReduce, Hummer and Iguana

b. MapReduce, Hive and Hbase

c. MapReduce, MySQL and Google Apps

d. MapReduce, Heron and Trumpet

Properti Big data yang penting, salah satunya adalah reliability, yaitu:

Select one:

a. Kemampuan untuk terus beroperasi walaupun terjadi kegagalan pada beberapa komponen

b. Handal

c. Ketersediaan layanan secara terus menerus

d. Kemampuan menanganai penambahan bebab yang diberikan tanpa penurunan kinerja

Properti Big data yang penting, salah satunya adalah fault tolerance, yaitu:

Select one:

a. Ketersediaan layanan secara terus menerus

b. Handal

c. Kemampuan untuk terus beroperasi walaupun terjadi kegagalan pada beberapa komponen

d. Kemampuan menanganai penambahan bebab yang diberikan tanpa penurunan kinerja

Database NoSQL menggunakan beragam model data untuk mengakses dan mengelola data. Jenis
database ini dioptimalkan secara khusus untuk aplikasi yang memerlukan…., yang dicapai dengan
mengurangi pembatasan konsistensi data dari database lainnya.

Select one:

a. volume data besar, latensi rendah, dan model data fleksibel


b. volume data besar, latensi rendah, dan model data fleksibel

c. volume data besar, latensi rendah, dan model data fleksibel

d. volume data besar, latensi rendah, dan model data fleksibel

Pemrosesan data terdistribusi adalah pemrosesan

Select one:

a. yang menerapkan divide and conquer dalam fisik terpisah, namun terhunung Bersama dalam satu
cluster

b. yang menggunakan pendekatan pendekatan interaktif tanpa penundaan

c. yang melibatkan pelaksanaan sub-tugas secara bersamaan secara kolektif membentuk tugas yang
besar melalui beberapa processor

d. yang membagi pemrosesan dalam beberapa batch dan dilakukan secara offline

Hadoop adalah framework yang

Select one:

a. Melibatkan satu atau lebih cluster Komputer

b. Memungkinkan pemrosesan secara terdistribusi terhadap data yang berukuran besar

c. Semua benar

d. Menerapkan programming model yang sederhana

Type data berikut yang dapat ditangani oleh Hadoop adalah

Select one:

a. Semua benar

b. Tidak terstuktur

c. Terstruktur

d. Semi – terstruktur
Hadoop adalah platform pemrosesan big data yaitu data yang mempunyai karakteristik kecuali:

Select one:

a. Inconsistent dan uncertaint

b. Volume besar, struktur data yang beragam (variety), dan nilai data yang diperlukan (useful value)

c. Jumlah fitur yang tertentu

d. Terakumulasi dengan cepat (high speed velocity)

Bagian pekerjaan utama MapReduce adalah

Select one:

a. combine dan partition

b. map dan combine

c. shuffle dan sort

d. map dan reduce

Terdapat 2 (dua) teknologi Penyimpanan Big Data, yaitu

Select one:

a. Flashdisk dan harddisk

b. Reliable dan Fault tolerance

c. SQL dan No-SQL

d. On Disk Storage Devices dan In Memory Storage Devices

Jenis database NoSQL apa yang membuat dan menjalankan aplikasi yang berjalan dengan dataset yang
selalu terhubung menjadi lebih mudah dan sering digunakan untuk jaringan media sosial.

Select one:

a. Dokumen

b. Primary key

c. Pencarian

d. Grafik
Properti Big data yang penting, salah satunya adalah scalability, yaitu:

Select one:

a. Ketersediaan layanan secara terus menerus

b. Kemampuan menanganai penambahan bebab yang diberikan tanpa penurunan kinerja

c. Kemampuan untuk terus beroperasi walaupun terjadi kegagalan pada beberapa komponen

d. Handal
27/03/22 22.57 Kuis M4 : Data Preprocessing: Attempt review

Dashboard / My courses /
ATA 2021/2022 | 2-FTI | Kompuasi Big Data | TEAM TEACHING /
Pertemuan 4 : Data Preprocessing
/
Kuis M4 : Data Preprocessing

Started on Monday, 28 March 2022, 12:54 PM


State Finished
Completed on Monday, 28 March 2022, 12:57 PM
Time taken 2 mins 50 secs
Grade 100.00 out of 100.00

Question 1 Bagaimana menangani missing value dengan tepat?


Correct

Mark 5.00 out of Select one:


5.00
Imputasi nilai manual

Eliminasi data object

Dibiarkan

A,B,dan C benar 

Question 2 Berikut adalah nama lain dari data objek, kecuali


Correct

Mark 5.00 out of Select one:


5.00
Atribut 

Record

Sample

Instance

Question 3 Cara menangani noisy data, kecuali


Correct

Mark 5.00 out of Select one:


5.00
Clustering

Combined Computer

Regression

Ignore 

Question 4 Data berupa image, video bahkan suara termasuk jenis data
Correct

Mark 5.00 out of Select one:


5.00
Record

Graf

Multimedia 

Ordered

1
Online

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=5681404&cmid=856415 1/4
27/03/22 22.57 Kuis M4 : Data Preprocessing: Attempt review

Question 5 data cleaning pada data preprocessing dilakukan..


Correct

Mark 5.00 out of Select one:


5.00
Dimensionality reduction dan data compression

Normalisasi dan diskritasi data

Imputasi, smoothing dan identifikasi 

Identifikasi dan integrasi dari multiple database

Question 6 Data Cleansing merupakan tahapan untuk membersihkan data kotor sehingga menjadi dataset yang siap diolah. Data
Correct kotor tersebut berupa
Mark 5.00 out of
5.00 Select one:
duplicate data

A,B,C benar 

missing value

outlier

Question 7 Data-data yang saling berhubungan, yang biasanya ditemukan pada jaringan internet termasuk dalam jenis data
Correct

Mark 5.00 out of Select one:


5.00
Graf 

Record

Ordered

Multimedia

Question 8 Imputasi nilai secara otomatis saat menangani incomplete data tidak dapat dilakukan menggunakan
Correct

Mark 5.00 out of Select one:


5.00
interpolasi

Nilai tertinggi 

Median

Rata-rata

Question 9 Jenis kelamin, merupakan salah satu atribut data type…


Correct

Mark 5.00 out of Select one:


5.00
Nominal 

Numerik

Ordinal

Rasio

Question 10 Karakteristik data objek merupakan representasi dari


Correct

Mark 5.00 out of Select one:


5.00
Dataset

Data sample

Data objek

Atribut 

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=5681404&cmid=856415 2/4
27/03/22 22.57 Kuis M4 : Data Preprocessing: Attempt review

Question 11 Nilai yang merepresentasikan urutan seperti nilai mata kuliah termasuk dalam atribut data type..
Correct

Mark 5.00 out of Select one:


5.00
Rasio

Numerik

Ordinal 

Nominal

Question 12 Normalisasi data dilakukan pada tahap data preprocessing ..


Correct

Mark 5.00 out of Select one:


5.00
data cleaning

data reduction

data Integration

data transformation 

Question 13 Penanganan missing value dapat dilakukan menggunakan nilai estimasi dari probabilitas bersyarat menggunakan metode
Correct

Mark 5.00 out of Select one:


5.00
Mean

Eliminasi

Regresi

Bayessian 

Question 14 Salah satu jenis data record yang diekstrak menjadi kumpulan term dan ditulis berdasarkan frekuensi kemunculan data,
Correct termasuk pada jenis data
Mark 5.00 out of
5.00 Select one:
Transaksi

Matriks

Sosial network

Dokumen 

Question 15 Seberapa mudah data dapat dipahami merupakan kualitas data dari..
Correct

Mark 5.00 out of Select one:


5.00
Believability

Consistency

Interpretability 

Completeness

Question 16 Statistik dasar untuk mengukur sebaran data salah satunya adalah
Correct

Mark 5.00 out of Select one:


5.00
Median

Mean

Modus

Variance 

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=5681404&cmid=856415 3/4
27/03/22 22.57 Kuis M4 : Data Preprocessing: Attempt review

Question 17 Studi tentang bagaimana menganalisis data dan membersihkan data merupakan salah satu tujuan dari
Correct

Mark 5.00 out of Select one:


5.00
Data validation

Data cleansing 

Data testing

Data training

Question 18 Tahapan pertama data preprocessing adalah


Correct

Mark 5.00 out of Select one:


5.00
data reduction

data cleaning 

data Integration

data transformation

Question 19 Tanggal penjualan, nama pelanggan, nama barang, jumlah penjualan merupakan contoh dari
Correct

Mark 5.00 out of Select one:


5.00
Data sample penjualan

Data objek penjualan

Dataset penjualan 

Atribut penjualan

Question 20 Tinggi badan, berat badan, usia, dan jenis kelamin merupakan contoh representasi karakteristik dari
Correct

Mark 5.00 out of Select one:


5.00
Dataset

Data objek 

Atribut

Data sample

Kuis M4 : Data Preprocessing (khusus


◄ Video M4 : Data Preprocessing Jump to...
kelas MALAM)) ►

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=5681404&cmid=856415 4/4
04/04/22 13.35 Kuis M5: Implementasi BigData pada Fintech: Attempt review

Dashboard / My courses /
ATA 2021/2022 | 2-FTI | Kompuasi Big Data | TEAM TEACHING /
Pertemuan 5: Implementasi Big Data pada Fintech
/
Kuis M5: Implementasi BigData pada Fintech

Started on Monday, 4 April 2022, 1:26 PM


State Finished
Completed on Monday, 4 April 2022, 1:35 PM
Time taken 8 mins 49 secs
Marks 19.00/20.00
Grade 95.00 out of 100.00

Question 1 Peran Data Engineer seringkali juga disebut sebagai:


Correct

Mark 1.00 out of Select one:


1.00
a. Data Architect 

b. Data Manager

c. Business Analyst

d. Statistician

The correct answer is: Data Architect

Question 2 Data terstrutur disimpan kedalam bentuk:


Correct

Mark 1.00 out of Select one:


1.00
a. Abstrak

b. Semua benar

c. Baris dan kolom 

d. Gambar

The correct answer is: Baris dan kolom

Question 3 Berikut ini yang merupakan arsitektur Big Data adalah:


Correct

Mark 1.00 out of Select one:


1.00
a. Arsitektur Alfa dan Beta

b. Arsitektur Lambda dan Kappa 

c. Arsitektur Alfa dan Lambda

d. Arsitektur Beta dan Kappa

The correct answer is: Arsitektur Lambda dan Kappa

1
Online

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=5791856&cmid=867269 1/5
04/04/22 13.35 Kuis M5: Implementasi BigData pada Fintech: Attempt review

Question 4 Salah satu karakteristik data tidak terstruktur adalah:


Incorrect

Mark 0.00 out of Select one:


1.00
a. Berbasis teks

b. Sulit untuk dicari

c. Model data dapat ditentukan sebelumnya

d. Terkelola secara fleksibel 

Question 5 Berikut ini yang bukan contoh data terstruktur adalah:


Correct

Mark 1.00 out of Select one:


1.00
a. Nomor KTP

b. Nomor telepon

c. Email 

d. Nama pelanggan

The correct answer is: Email

Question 6 Salah satu teknologi yang dapat digunakan pada bagian Serving Layer dalam Arsitektur lambda adalah:
Correct

Mark 1.00 out of Select one:


1.00
a. Hive 

b. Flume

c. Spark

d. HDFS

The correct answer is: Hive

Question 7 Salah satu aktivitas yang dilakukan oleh Link Aja! dalam mengadopsi alat-alat bantu untuk pengelolaan data adalah:
Correct

Mark 1.00 out of Select one:


1.00
a. Memaksimumkan pemanfaatan platform Google Cloud 

b. Meningkatkan proses perbaikan kualitas data

c. Memprioritaskan data yang memiliki tingkat kepentingan tinggi dan bernilai

d. Mengoptimalkan jumlah kelompok pengguna yang dapat mengakses

The correct answer is: Memaksimumkan pemanfaatan platform Google Cloud

Question 8 Cloudera merilis Kudu pada tahun:


Correct

Mark 1.00 out of Select one:


1.00
a. 2015 

b. 2008

c. 2020

d. 2016

The correct answer is: 2015 1


Online

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=5791856&cmid=867269 2/5
04/04/22 13.35 Kuis M5: Implementasi BigData pada Fintech: Attempt review

Question 9 Berikut ini urutan proses yang dilakukan dalam Arsitektur Kappa adalah:
Correct

Mark 1.00 out of Select one:


1.00
a. Data Sources, Streaming/Real-Time Processing, Streaming/Real-Time Ingestion, Analytical Data Store, Analytics
&amp; Reporting

b. Data Sources, Streaming/Real-Time Ingestion, Analytical Data Store, Streaming/Real-Time Processing, Analytics
&amp; Reporting

c. Data Sources, Analytical Data Store, Streaming/Real-Time Ingestion, Streaming/Real-Time Processing, Analytics
&amp; Reporting

d. Data Sources, Streaming/Real-Time Ingestion, Streaming/Real-Time Processing, Analytical Data Store, Analytics
&amp; Reporting 

The correct answer is: Data Sources, Streaming/Real-Time Ingestion, Streaming/Real-Time Processing, Analytical Data
Store, Analytics &amp; Reporting

Question 10 Pembayaran Kartu prakerja merupakan salah satu proyek yang dikerjakan oleh Link Aja bersama dengan:
Correct

Mark 1.00 out of Select one:


1.00
a. BPJS

b. Semua salah

c. Bank Indonesia

d. Pemerintah 

The correct answer is: Pemerintah

Question 11 Dalam ekosistem teknologi Data Engineering Link Aja! Apache Airflow berfungsi sebagai:
Correct

Mark 1.00 out of Select one:


1.00
a. Data Sources Gathering

b. Streaming Infrastructure

c. Monitoring

d. Batching Infratructure 

The correct answer is: Batching Infratructure

Question 12 Ukuran kualitas citra merupakan salah satu luaran yang dihasilkan oleh AI/ML Scientist Link Aja! pada proyek:
Correct

Mark 1.00 out of Select one:


1.00
a. Natural Language processing

b. Pembuatan Platform AI/ML

c. eKYC Improvement 

d. Otomasi Produksi AI/ML

The correct answer is: eKYC Improvement

1
Online

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=5791856&cmid=867269 3/5
04/04/22 13.35 Kuis M5: Implementasi BigData pada Fintech: Attempt review

Question 13 Kafka dikembangkan pertama kali oleh:


Correct

Mark 1.00 out of Select one:


1.00
a. Linkedin 

b. Yahoo

c. Google

d. Facebook

The correct answer is: Linkedin

Question 14 Berikut ini merupakan karakteristik dari Big Data, kecuali:


Correct

Mark 1.00 out of Select one:


1.00
a. Semua salah 

b. Volume

c. Veracity

d. Variety

The correct answer is: Semua salah

Question 15 Berikut ini merupakan komponen-kompone produksi dalam implementasi big data, kecuali:
Correct

Mark 1.00 out of Select one:


1.00
a. Kafka

b. Presto

c. Spark

d. MongoDB 

The correct answer is: MongoDB

Question 16 Menjadi platform teknologi keuangan nasional terdepan dan terpercaya merupakan ... dari Link Aja!:
Correct

Mark 1.00 out of Select one:


1.00
a. SLogan

b. Misi

c. Tujuan

d. Visi 

The correct answer is: Visi

1
Online

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=5791856&cmid=867269 4/5
04/04/22 13.35 Kuis M5: Implementasi BigData pada Fintech: Attempt review

Question 17 Berikut ini adalah teknologi yang digunakan oleh Link Aja! pada bagian Persistence Layer, kecuali:
Correct

Mark 1.00 out of Select one:


1.00
a. Grafana 

b. Google Cloud Storage

c. Google Big Query

d. PostgreSQL

The correct answer is: Grafana

Question 18 Server logs merupakan salah satu contoh jenis data:


Correct

Mark 1.00 out of Select one:


1.00
a. Terstruktur

b. Tidak Terstruktur

c. Semi Terstruktur 

d. Semua Pilihan Salah

The correct answer is: Semi Terstruktur

Question 19 Nathan Marz adalah orang yang pertama kali mengembangkan:


Correct

Mark 1.00 out of Select one:


1.00
a. Storm 

b. Beam

c. Hadoop

d. Hive

The correct answer is: Storm

Question 20 Berikut ini yang bukan termasuk kedalam peran Tim Data di Link Aja! adalah:
Correct

Mark 1.00 out of Select one:


1.00
a. Data Intelligent 

b. Data Analyst

c. Data Scientist

d. Data Engineer

The correct answer is: Data Intelligent

◄ Materi M5: Implementasi Big Data Kuis M5: Implementasi BigData pada
Jump to...
pada Fintech Fintech (Khusus KELAS MALAM) ►

1
Online

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=5791856&cmid=867269 5/5
QUIZ M7 KOMPUTASI BIG DATA

Metode untuk memprediksi kelas instance dari instance yang diberi label sebelumnya

Select one:

a. Asosiasi

b. Klasterisasi

c. Klasifikasi

d. Visualisasi

Proses pencarian konten baru dan konten yang perlu diperbaharui dengan mengirimkan crawler ke
seluruh konten yang ditemukan dari tautan halaman merupakan Salah satu konsep data mining pada
Search Engine yang dinamakan

Select one:

a. Rank

b. Searching

c. Index

d. Crawl

Metode untuk mempresentasikan hasil yang ditemukan dengan cara yang "bagus" secara visual

Select one:

a. Asosiasi

b. Visualisasi

c. Klasterisasi

d. Klasifikasi

Untuk menghindari set pengujian yang tumpang tindih, data dibagi menjadi k himpunan bagian dengan
ukuran yang sama kemudiansetiap subset secara bergantian digunakan untuk pengujian dan sisanya
untuk pelatihan

Select one:

a. Direct Marketing Paradigm


b. Commulative PCT Hits

c. Model Sorted list

d. k-fold cross-validation

Attributes yang berisi informasi seperti item_ID, name, brand, category, supplier, place_made and price,
merupakaan salah satu contoh jenis database

Select one:

a. Penjualan

b. Marketing

c. Penyewaan

d. Social media

Urutan langkah melakukan klasifikasi

Select one:

a. Pisahkan data menjadi set pelatihan dan pengujian, Buat model pada set pelatihan, Evaluasi pada set
pengujian

b. Buat model pada set pelatihan, pilih secara acak jumlah instance kelas minoritas yang diinginkan,
Evaluasi pada set pengujian

c. Buat model pada set pelatihan, Evaluasi pada set pengujian (Latih ulang?), Pisahkan data menjadi set
pelatihan dan pengujian

d. Evaluasi pada set pengujian, Buat model pada set pelatihan, Pisahkan data menjadi set pelatihan dan
pengujian

Pernyataan yang tepat terkait data mining and knowledge discovery

Select one:

a. fokus pada peningkatan kinerja agen pembelajaran

b. lebih fokus pada pengujian hipotesis

c. melihat pembelajaran real-time dan robotika

d. fokus pada seluruh proses penemuan pengetahuan


Regression, Decision Trees, Bayesian, Neural Networks, Naïve Bayes Rules, Support Vector Machines,
Genetic Algorithms adalah pendekatan yang digunakan untuk

Select one:

a. Asosiasi

b. Klasifikasi

c. Visualisasi

d. Klasterisasi

Fungsi dari data mining adalah salah satunya dapat mengetahui pola yang sering (atau kumpulan item
yang sering) misalnya item apa yang sering dibeli bersama di Walmart Anda. Ini dikenal dengan istilah

Select one:

a. Klasifikasi

b. Klasterisasi

c. Outlier Analysis

d. Asosiasi dan Analisis Korelasi

Metode untuk mengelompokkan secara "alami" dari instance yang diberi data tanpa label

Select one:

a. Asosiasi

b. Klasifikasi

c. Klasterisasi

d. Visualisasi

Pernyataan yang tepat terkait data mining and knowledge discovery

Select one:

a. lebih teori

b. lebih fokus pada pengujian hipotesis

c. mengintegrasikan teori dan heuristik

d. lebih heuristik
Yang bukan Metode clusterisasi

Select one:

a. Hierarchical vs. flat

b. Decision Tree

c. Exclusive vs. overlapping

d. Deterministic vs. probabilistic

Seberapa mudah data dapat dipahami merupakan kualitas data dari..

Select one:

a. Completeness

b. Interpretability

c. Consistency

d. Believability

Jenis tugas data mining yang menfasilitasi penerimaan / penelusuran informasi bagi pengguna

Select one:

a. Visualisasi

b. Klasifikasi

c. Klasterisasi

d. Asosiasi

Karakteristik Big Data yang terus bertambah dengan cepat secara real-time dinamakan

Select one:

a. Value

b. Volume

c. variety

d. Velocity
Pernyataan yang kurang sesuai dengan metode peringkasan

Select one:

a. Mengelompokkan data tak berlabel

b. Biasanya dalam Kombinasi dengan deteksi Deviasi atau metode lain

c. Menggunakan bahasa dan grafik alami

d. Menjelaskan fitur dari grup yang dipilih

Metode klasifikasi pada fungsi data mining yang menggunakan nilai estimasi dari probabilitas bersyarat
dinamakan metode

Select one:

a. Regresi

b. Eliminasi

c. Mean

d. Naive Bayessian

Jenis tugas data mining yang melakukan prediksi kelas

Select one:

a. Klasifikasi

b. Visualisasi

c. Klasterisasi

d. Asosiasi

Melihat suatu objek data yang tidak sesuai dengan perilaku umum data, sering digunakan dalam deteksi
penipuan atau analisis kejadian langka

Select one:

a. Analisis Outlier

b. Klasifikasi

c. Asosiasi dan Analisis Korelasi

d. Klasterisasi
Acuan yang tidak tepat ketika melakukan pengaturan parameter

Select one:

a. Data pengujian tidak digunakan dengan cara apa pun untuk membuat pengklasifikasi

b. Data pengujian harus digunakan untuk penyetelan parameter

c. Skema pembelajaran beroperasi dalam dua tahap yaitu membangun struktur dasar dan
mengoptimalkan pengaturan parameter

d. Data pengujian tidak dapat digunakan untuk penyetelan parameter


09/05/22 13.58 1 pesan baru

Dashboard / My courses /
ATA 2021/2022 | 2-FTI | Kompuasi Big Data | TEAM TEACHING
/
Pertemuan 8: Introduction to Machine Learning (Supervised) /
Kuis M6 : Introduction to Machine Learning (Supervised)

Started on Monday, 9 May 2022, 1:43 PM


State Finished
Completed on Monday, 9 May 2022, 1:58 PM
Time taken 15 mins 4 secs

Question 1 Pembelajaran yang menghasilkan Nilai output ti bernilai diskrit (kelas)


Correct

Marked out of Select one:


5.00
a. Klasifikasi 

b. Regressi

c. Generalisasi

d. Klasterisasi

1
Question 2 Yang tidak digunakan pada Model Supervised Learning Online
Correct

Marked out of Select one:


5.00
a. Linear Model

b. Latent Semantic Analysis 

c. Support Vector Machine

d. Neural Networks

Question 3 Jika variabel keluaran adalah berupa kategori misalnya “apel”, “jeruk” termasuk pada machine learning bertipe
Correct

Marked out of Select one:


5.00
a. Supervised -Regresion

b. Reinfocement

c. Unsupervised

d. Supervised – Classification 

Question 4 Tahapan yang tepat ketika melakukan testing


Correct

Marked out of Select one:


5.00
a. Image Features - Training With Labeled Data – Prediction

b. Image Features - Learned Model - Prediction 

c. Image Features - Training With Labeled Data - Learned Model

d. Image Features - Training With Unlabel Data -Learned Model - Prediction

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=6197464&cmid=906733 1/5
09/05/22 13.58 1 pesan baru

Question 5 Model ini belajar dari kumpulan data berlabel dan kemudian digunakan untuk memprediksi peristiwa di masa depan.
Correct

Marked out of Select one:


5.00
a. Unsupervised Learning

b. Reinfocement Learning

c. Semi Supervised Learning

d. Supervised Learning 

Question 6 Model pembelajaran yang menggunakan data berlabel dan tidak berlabel untuk pelatihan.
Correct

Marked out of Select one:


5.00
a. Unsupervised Learning

b. Reinfocement Learning

c. Semi Supervised Learning 

d. Supervised Learning

Question 7 Tahapan yang tepat ketika melakukan training


Correct

Marked out of Select one: 1


5.00 Online
a. Image Features - Learned Model - Prediction

b. Image Features - Training With Labeled Data – Prediction

c. Image Features - Training With Labeled Data - Learned Model 

d. Image Features - Training With UnLabeled Data - Prediction

Question 8 Yang bukan tujuan supervised learning untuk membangun model yang dapat menghasilkan output yang benar untuk
Correct suatu data input dapat digunakan untuk
Marked out of
5.00 Select one:
a. Klasterisasi (clustering) 

b. Pengklasifikasian (classification)

c. Ranking

d. Regresi (regression)

Question 9 Saat Anda ingin mengungkap pengelompokan yang melekat dalam data, seperti mengelompokkan hewan berdasarkan
Correct beberapa karakteristik / fitur, mis. jumlah kaki maka model pembelajaran yang sesuai
Marked out of
5.00 Select one:
a. Supervised Learning - Regression

b. Unsupervised Learning - Clustering 

c. Reinfocement Learning

d. Supervised Learning - Classification

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=6197464&cmid=906733 2/5
09/05/22 13.58 1 pesan baru

Question 10 Kumpulan data yg sudah dipastikan kebenarannya, dr sisi label, data awal, komponen2 data yg akan dijadikan kunci,
Correct

Marked out of Select one:


5.00
a. Instance

b. Training Set 

c. Feature Extraction

d. Feature/ atribut

Question 11 Pola-pola struktur yang ada pada suatu koleksi data (knowledge) dapat direpresentasi dalam bentuk if then rules :
Correct

Marked out of Select one:


5.00
a. Tabel

b. Instance

c. Aturan 

d. Pohon

Question 12
Correct

Marked out of 1
5.00
Online

Gambar pada representasi di atas adalah Pola-pola struktur yang ada pada suatu koleksi data (knowledge) dalam bentuk

Select one:
a. Pohon

b. Tabel

c. Aturan 

d. Instance

Question 13 Sebuah proses yg mempersiapkan data sehingga data tsb bisa kita extract cirinya menjadi suatu vektor
Correct

Marked out of Select one:


5.00
a. Instance

b. Feature/ atribut

c. Feature Extraction 

d. Training Set

Question 14 Salah satu teknik yang digunakan untuk mengkontrol fenomena over-fitting adalah dengan cara menambah finalti ke
Correct fungsi error.
Marked out of
5.00 Select one:
a. model selection

b. prediction

c. regularization 

d. generalization

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=6197464&cmid=906733 3/5
09/05/22 13.58 1 pesan baru

Question 15 Model Pembelajaran yang mempelajari bagaimana sistem dapat menyimpulkan suatu fungsi untuk mendeskripsikan
Correct struktur tersembunyi dari data yang tidak berlabel. Sistem ini tidak memprediksi keluaran yang benar, tetapi
Marked out of mengeksplorasi data dan dapat menarik kesimpulan dari kumpulan data untuk mendeskripsikan struktur tersembunyi dari
5.00 data yang tidak berlabel.

Select one:
a. Reinfocement Learning

b. Supervised Learning

c. Unsupervised Learning 

d. Semi Supervised Learning

Question 16 Pembelajaran yang bertujuan memprediksi output dengan akurat untuk data baru dan output ti bernilai kontinu (riil),
Correct contoh untuk Prediksi kinerja CPU
Marked out of
5.00 Select one:
a. Regressi 

b. Klasifikasi

c. Generalisasi

d. Klasterisasi

1
Online
Question 17 Ciri-ciri dari masing-masing sample data misalnya Smartphone. ciri: memiliki ...

Correct

Marked out of
5.00 Select one:
a. Feature Extraction

b. Feature/ atribut 

c. Training Set

d. Instance

Question 18

Correct

Marked out of
5.00

Gambar pada representasi di atas adalah Pola-pola struktur yang ada pada suatu koleksi data (knowledge) dalam bentuk

Select one:
a. Tabel

b. Pohon 

c. Instance

d. Aturan

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=6197464&cmid=906733 4/5
09/05/22 13.58 1 pesan baru

Question 19
Correct

Marked out of
5.00

Gambar pada representasi di atas adalah Pola-pola struktur yang ada pada suatu koleksi data (knowledge) dalam bentuk

Select one:
a. Pohon

b. Aturan

c. Instance

d. Tabel 

Question 20 Tujuan pembelajaran unsupervised adalah membagun model yang dapat menemukan komponen / variabel / fitur
Correct tersembunyi pada data pelatihan, yang dapat digunakan untuk hal berikut, kecuali
Marked out of
5.00 Select one:
a. Pengelompokan (clustering)

b. Reduksi dimensi (dimension reduction)

c. Rekomendasi

d. Pengklasifikasian (classification) 

Kuis M6 : Introduction to Machine


◄ Video M8: Introduction to Machine
Jump to... Learning (Supervised) (Khusus Kelas
Learning (Supervised)
Malam) ►

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=6197464&cmid=906733 5/5
3/8/2021 Kuis M1 : Big Data Computing Overview: Attempt review

Dashboard / My courses / ATA 2020/2021 | 2-FIKTI | Komputasi Big Data | TEAM TEACHING / Pertemuan 1 : Big Data Computing Overview
/ Kuis M1 : Big Data Computing Overview

Started on Monday, 8 March 2021, 11:31 AM


State Finished
Completed on Monday, 8 March 2021, 11:33 AM
Time taken 1 min 46 secs
Grade 95.00 out of 100.00

Question 1 Beragamnya jenis data di dalam Big Data yang meliputi data terstruktur, semi terstruktur dan bahkan data tidak
Correct terstruktur, merupakan penjelasan dari dimensi Big Data dalam hal:
Mark 5.00 out of
5.00 Select one:
Velocity

Volume

Variety 

Veracity

The correct answer is: Variety

Question 2 Contoh solusi Big Data, kecuali:


Correct

Mark 5.00 out of Select one:


5.00
Mesin rekomendasi

Input Nilai Mahasiswa 

Semua benar

Deteksi Penipuan

The correct answer is: Input Nilai Mahasiswa

Question 3 Dalam arsitektur Big Data, solusi berupa rekomendasi, berada pada posisi sebagai:
Correct

Mark 5.00 out of Select one:


5.00
Data Computing &amp; Analysis

Data Storage Layer

Data Format

End Result 

The correct answer is: End Result

1
Online

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2403724&cmid=491419 1/6
3/8/2021 Kuis M1 : Big Data Computing Overview: Attempt review

Question 4 Dalam ekosistem Big Data, proses pre-prosesing data dapat dilakukan menggunakan:
Correct

Mark 5.00 out of Select one:


5.00
HDFS

Sqoop 

Facebook

Tableu

The correct answer is: Sqoop

Question 5 Data Warehouse dibuat dengan menerapkan serangkaian langkah pemrosesan terhadap data yang berasal dari beberapa
Incorrect basis data. Berikut ini adalah yang termasuk dalam pemrosesan data tersebut:
Mark 0.00 out of
5.00 Select one:
Pembersihan data

Semua benar

Integrasi data 

Transformasi data

The correct answer is: Semua benar

Question 6 Dataset dibentuk dari:


Correct

Mark 5.00 out of Select one:


5.00
Semua salah

Sekumpulan fitur yang memiliki nilai yang sama

Sekumpulan fitur yang memiliki objek yang sama

Sekumpulan objek yang memiliki fitur yang sama 

The correct answer is: Sekumpulan objek yang memiliki fitur yang sama

Question 7 Komponen Komputasi Big Data di lapisan Middleware terdiri dari:


Correct

Mark 5.00 out of Select one:


5.00
SDK Layer 

Semua benar

Resource Layer

Interface Layer

The correct answer is: SDK Layer

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2403724&cmid=491419 2/6
3/8/2021 Kuis M1 : Big Data Computing Overview: Attempt review

Question 8 Kumpulan data yang disusun dalam tabel berformat persegi panjang yang terdiri dari baris dan kolom disebut sebagai:
Correct

Mark 5.00 out of Select one:


5.00
Semua salah

Data Warehouse

Database

Flat files 

The correct answer is: Flat files

Question 9 Manakah yang benar dari pernyataan berikut ini:


Correct

Mark 5.00 out of Select one:


5.00
Memperkirakan puncak dari kasus positif Covid-19, adalah contoh analisis prediktif. 

Prediktif, menilai tindakan

Deskriptif, perkiraan berdasarkan data yang tersedia

Preskriptif, memodelkan perilaku masa lalu

The correct answer is: Memperkirakan puncak dari kasus positif Covid-19, adalah contoh analisis prediktif.

Question 10 Model basis data yang berupa deret waktu (time series):
Correct

Mark 5.00 out of Select one:


5.00
Temporal database 

Text database

Semua salah

Spatial database

The correct answer is: Temporal database

Question 11 Objek disebut juga:


Correct

Mark 5.00 out of Select one:


5.00
Semua benar 

Unit

Data points

Record

The correct answer is: Semua benar

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2403724&cmid=491419 3/6
3/8/2021 Kuis M1 : Big Data Computing Overview: Attempt review

Question 12 Salah satu keunggulan DGX A100:


Correct

Mark 5.00 out of Select one:


5.00
Konsumsi daya lebih sedikit

Semua benar 

Biaya lebih murah

Tidak membutuhkan ruang yang besar

The correct answer is: Semua benar

Question 13 Sekumpulan tabel dimana bentuk setiap tabel analog dengan flat file, disebut:
Correct

Mark 5.00 out of Select one:


5.00
Semua salah

Data Warehouse

DBMS

Database 

The correct answer is: Database

Question 14 Semakin banyak data hingga mencapai ukuran Peta Byte atau bahkan lebih, merupakan penjelasan dari dimensi Big Data
Correct dalam hal:
Mark 5.00 out of
5.00 Select one:
Variety

Volume 

Velocity

Veracity

The correct answer is: Volume

Question 15 Sumber data yang digunakan dalam aplikasi Big Data dapat berupa:
Correct

Mark 5.00 out of Select one:


5.00
Data Asuransi Kesehatan

Data Finansial

Semua benar 

Data Media Sosial

The correct answer is: Semua benar

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2403724&cmid=491419 4/6
3/8/2021 Kuis M1 : Big Data Computing Overview: Attempt review

Question 16 Tempat penyimpanan data yang dikumpulkan di lokasi berbeda (basis data relasional) dan disimpan menggunakan skema
Correct terpadu:
Mark 5.00 out of
5.00 Select one:
Data Warehouse 

Transactional database

Semua benar

Spatial Database

The correct answer is: Data Warehouse

Question 17 Tipe nilai dapat berupa:


Correct

Mark 5.00 out of Select one:


5.00
Object

Fitur

Semua salah

Numerik 

The correct answer is: Numerik

Question 18 Unit informasi tunggal disebut:


Correct

Mark 5.00 out of Select one:


5.00
Fitur/atribut

Dataset

Nilai 

Objek

The correct answer is: Nilai

Question 19 Visualisasi dari hasil analisis Big Data dapat berupa:


Correct

Mark 5.00 out of Select one:


5.00
Semua benar 

Tabel

Grafik 3D

Plot

The correct answer is: Semua benar

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2403724&cmid=491419 5/6
3/8/2021 Kuis M1 : Big Data Computing Overview: Attempt review

Question 20 Yang merupakan framework untuk Machine Learning:


Correct

Mark 5.00 out of Select one:


5.00
Azure ML

Amazon ML

Apache Spark MLlib 

Semua benar

The correct answer is: Apache Spark MLlib

◄ Materi M1 : Big Data Computing Kuis M1 : Big Data Computing Overview


Jump to...
Overview (Khusus Kelas Malam) ►

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2403724&cmid=491419 6/6
3/15/2021 1 pesan baru

Dashboard / My courses / ATA 2020/2021 | 2-FIKTI | Komputasi Big Data | TEAM TEACHING
/ Pertemuan 2 : Big Data Computing, Applications and Technologies / Kuis M2 : Big Data Computing, Applications and Technologies

Started on Monday, 15 March 2021, 11:33 AM


State Finished
Completed on Monday, 15 March 2021, 11:36 AM
Time taken 3 mins 56 secs
Grade 100.00 out of 100.00

Question 1 Arsitektur Hadoop terdiri dari:


Correct

Mark 5.00 out of Select one:


5.00
a. Storage layer, Processing Layer, Application Layer

b. Storage layer, Resource Management Layer, Application Layer 

c. Data layer, Processing Layer, Service Layer

d. Storage layer, Service Layer, Application Layer

The correct answer is: Storage layer, Resource Management Layer, Application Layer

Question 2 Berikut ini adalah saran untuk memasuki era Analytic 3.0:
Correct

Mark 5.00 out of Select one:


5.00
a. Mulailah dengan kemampuan yang ada untuk manajemen data dan analitik

b. Pilih target dan sub-target analytics 3.0

c. Semua benar 

d. Tambahkan beberapa data volume besar yang tidak terstruktur

The correct answer is: Semua benar

Question 3 Berikut ini yang harus dilakukan oleh perusahaan 1.0, kecuali:
Correct

Mark 5.00 out of Select one:


5.00
a. Membuat analitik dan keputusan berbasis fakta elemen kunci dari hubungan pelanggan, produk dan layanan,
strategi, dan persaingan 

b. Temukan pelanggan terbaik, tetapkan harga terbaik kepada mereka

c. Buat penawaran yang efektif

d. Pahami biaya dan dorong kinerja yang lebih baik

The correct answer is: Membuat analitik dan keputusan berbasis fakta elemen kunci dari hubungan pelanggan, produk
dan layanan, strategi, dan persaingan

1
Online

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2476785&cmid=491949 1/6
3/15/2021 1 pesan baru

Question 4 Contoh Analytic 3.0:


Correct

Mark 5.00 out of Select one:


5.00
a. Semua benar 

b. Data volume tinggi waktu nyata dari sensor dan mesin

c. Fokus pada anomali dan pengecualian

d. Analisis untuk tren, pola, prediksi, pengoptimalan, kesadaran situasional

The correct answer is: Semua benar

Question 5 Contoh Aplikasi Machine Learning dan Analitik Prediktif:


Correct

Mark 5.00 out of Select one:


5.00
a. Prediksi wabah penyakit

b. Semua benar 

c. Penetapan harga dinamis

d. Prediksi Cashflow

The correct answer is: Semua benar

Question 6 Contoh data tidak terstruktur:


Correct

Mark 5.00 out of Select one:


5.00
a. Data media sosial 

b. Data transaksi penjualan

c. Data pegawai

d. Semua benar

The correct answer is: Data media sosial

Question 7 Contoh implementasi dalam perusahaan:


Correct

Mark 5.00 out of Select one:


5.00
a. Sistem Manajemen Inventaris Cerdas pada perusahaan Ford, menyarankan pesanan mingguan untuk dealer dan
telah meningkatkan pendapatan sebesar $ 100 juta / tahun

b. Procter &amp; Gamble melakukan Analisis sentimen media sosial real time untuk "Pulsa Konsumen"

c. Semua benar 

d. Monsanto membayar hampir $ 1 miliar untuk The Climate Company, yang mengumpulkan dan menganalisis data
cuaca untuk pertanian

The correct answer is: Semua benar

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2476785&cmid=491949 2/6
3/15/2021 1 pesan baru

Question 8 Dalam computer vision, contoh penerapan Machine Learning adalah, kecuali:
Correct

Mark 5.00 out of Select one:


5.00
a. Analitik Rute 

b. Pengenalan wajah

c. Deteksi suhu tubuh

d. Pengenalan objek

The correct answer is: Analitik Rute

Question 9 Istilah 'Machine Learning' diciptakan pada tahun <T> oleh <P>:
Correct

Mark 5.00 out of Select one:


5.00
a. T = 1969, P = Yann LeCun

b. T = 1959, P = Arthur Samuel 

c. T = 1989, P = Tom M. Mitchell

d. T = 1999, P = Bill Gates

The correct answer is: T = 1959, P = Arthur Samuel

Question 10 Komponen Hadoop yang berfungsi sebagai data processing:


Correct

Mark 5.00 out of Select one:


5.00
a. YARN

b. HDFS

c. Semua benar

d. MapReduce 

The correct answer is: MapReduce

Question 11 Komponen Hadoop yang berfungsi sebagai data storage:


Correct

Mark 5.00 out of Select one:


5.00
a. Semua benar

b. MapReduce

c. YARN

d. HDFS 

The correct answer is: HDFS

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2476785&cmid=491949 3/6
3/15/2021 1 pesan baru

Question 12 Manakah pernyataan yang benar tentang era Analytic 3.0:


Correct

Mark 5.00 out of Select one:


5.00
a. Data yang kompleks, besar dan tidak terstruktur

b. Perpaduan antara analitik tradisional dengan Big Data 

c. Dibutuhkan kapabilitas analitis dan komputasi baru

d. Sumber data dari internal, relatif kecil dan data terstruktur dari pelanggan

The correct answer is: Perpaduan antara analitik tradisional dengan Big Data

Question 13 Manakah pernyataan yang benar tentang Hadoop:


Correct

Mark 5.00 out of Select one:


5.00
a. Hadoop merupakan Google File System

b. Hadoop merupakan framework untuk bekerja dengan Big Data 

c. Hadoop mulai dikembangkan pada tahun 2008

d. Semua benar

The correct answer is: Hadoop merupakan framework untuk bekerja dengan Big Data

Question 14 Netflix adalah contoh perusahaan yang tergolong:


Correct

Mark 5.00 out of Select one:


5.00
a. 1.0

b. Semua benar

c. 2.0 

d. 3.0

The correct answer is: 2.0

Question 15 Perbandingan SQL vs NoSQL:


Correct

Mark 5.00 out of Select one:


5.00
a. Structured Query Language vs Un-structured Query Language

b. Relational vs Non-Relational

c. Semua benar 

d. Static vs Dynamic

The correct answer is: Semua benar

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2476785&cmid=491949 4/6
3/15/2021 1 pesan baru

Question 16 Perbandingan Traditional vs Big Data Analytics:


Correct

Mark 5.00 out of Select one:


5.00
a. Process centric vs Information centric

b. Mahal vs Terjangkau

c. Hard to scale vs Scales out forever

d. Semua benar 

The correct answer is: Semua benar

Question 17 Salah satu bentuk data tidak terstruktur:


Correct

Mark 5.00 out of Select one:


5.00
a. Document

b. Graph

c. Key-Value

d. Semua benar 

The correct answer is: Semua benar

Question 18 Salah satu fakta yang menunjukkan aspek Velocity dari Big Data:
Correct

Mark 5.00 out of Select one:


5.00
a. 27% responden dalam satu survei tidak yakin dengan banyaknya data mereka yang tidak akurat

b. Semua benar

c. Mobil modern memiliki 100 sensor yang memantau berbagai item pada mobil 

d. Pertumbuhan data tidak terstruktur mencapai 60% - 80% per tahun

The correct answer is: Mobil modern memiliki 100 sensor yang memantau berbagai item pada mobil

Question 19 Salah satu tonggak penting dalam Big Data Analytic dalam aspek pengadaan infrastruktur:
Correct

Mark 5.00 out of Select one:


5.00
a. Analisis data untuk setiap kasus bisnis spesifik Anda dan visualisasikan dengan cara yang bermakna

b. Dapatkan infrastruktur yang tepat yang dibutuhkan berdasarkan arsitektur solusi Anda termasuk penyimpanan
data dan unit pemrosesan, platform, dan aplikasi 

c. Adaptasi dan ubah organisasi Anda menuju teknologi big data dan implementasi analitik baru

d. Kembangkan arsitektur Solusi untuk kasus bisnis Anda termasuk proses pengumpulan data, arsitektur teknologi
dan metode analitik serta visualisasi data

The correct answer is: Dapatkan infrastruktur yang tepat yang dibutuhkan berdasarkan arsitektur solusi Anda termasuk
penyimpanan data dan unit pemrosesan, platform, dan aplikasi

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2476785&cmid=491949 5/6
3/15/2021 1 pesan baru

Question 20 Teknologi yang dibutuhkan pada era Analytic 3.0:


Correct

Mark 5.00 out of Select one:


5.00
a. Keduanya benar

b. Berpusat pada Data Warehouse

c. Ketergantungan yang tinggi pada Machine Learning 

d. Keduanya salah

The correct answer is: Ketergantungan yang tinggi pada Machine Learning

Kuis M2 : Big Data Computing,


◄ Materi M2 : [SEGMENT 3] Hadoop &
Jump to... Applications and Technologies (khusus
Big Data - Analytics Journey
kelas Malam) ►

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2476785&cmid=491949 6/6
3/22/2021 Kuis M3 : Introduction to Hadoop: Attempt review

Dashboard / My courses / ATA 2020/2021 | 2-FIKTI | Komputasi Big Data | TEAM TEACHING / Pertemuan 3 : Introduction to Apache Hadoop
/ Kuis M3 : Introduction to Hadoop

Started on Monday, 22 March 2021, 11:30 AM


State Finished
Completed on Monday, 22 March 2021, 11:34 AM
Time taken 3 mins 51 secs
Grade 95.00 out of 100.00

Question 1 Jenis database NoSQL apa yang membuat dan menjalankan aplikasi yang berjalan dengan dataset yang selalu terhubung
Correct menjadi lebih mudah dan sering digunakan untuk jaringan media sosial.
Mark 5.00 out of
5.00 Select one:
a. Primary key

b. Grafik 

c. Dokumen

d. Pencarian

The correct answer is: Grafik

Question 2 Bagian pekerjaan utama MapReduce adalah


Correct

Mark 5.00 out of Select one:


5.00
a. map dan combine

b. combine dan partition

c. map dan reduce 

d. shuffle dan sort

The correct answer is: map dan reduce

Question 3 NoSQl database adalah singkatan dari


Correct

Mark 5.00 out of Select one:


5.00
a. Not-only Structured Query Language database 

b. No Like Structured Query Language database

c. Numbered of Structured Query Language database

d. Numbered of sequel database

The correct answer is: Not-only Structured Query Language database

1
Online

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2564953&cmid=499213 1/6
3/22/2021 Kuis M3 : Introduction to Hadoop: Attempt review

Question 4 Database NoSQL menggunakan beragam model data untuk mengakses dan mengelola data. Jenis database ini
Incorrect dioptimalkan secara khusus untuk aplikasi yang memerlukan…., yang dicapai dengan mengurangi pembatasan konsistensi
Mark 0.00 out of data dari database lainnya.
5.00

Select one:
a. volume data besar, latensi rendah, dan model data fleksibel 

b. volume data besar, latensi rendah, dan model data fleksibel

c. volume data besar, latensi rendah, dan model data fleksibel

d. volume data besar, latensi rendah, dan model data fleksibel

The correct answer is: volume data besar, latensi rendah, dan model data fleksibel

Question 5 Type data berikut yang dapat ditangani oleh Hadoop adalah
Correct

Mark 5.00 out of Select one:


5.00
a. Tidak terstuktur

b. Semi – terstruktur

c. Terstruktur

d. Semua benar 

The correct answer is: Semua benar

Question 6 Pernyataan yang benar mengenai MapReduce, adalah:


Correct

Mark 5.00 out of Select one:


5.00
a. memproses data besar secara parallel dalam cluster pada commodity hardware

b. semua benar 

c. implementasi dari framework pemrosesan batch

d. membagi masalah besar menjadi masalah kecil yang dapat diselesaikan dengan cepat

The correct answer is: semua benar

Question 7 Sistem penyimpanan data cluster adalah


Correct

Mark 5.00 out of Select one:


5.00
a. Menyimpan data dengan mempartisi secara horizontal dan pecahan horizontal tersebut di simpan secara terpisah
pada node server.

b. Data disimpan dengan cara menyalin dataset dan meyimpan Salinan tersebut pada beberapa node

c. Penyimpanan dan pengaturan data pada perangkat penyimpanan harddisk atau flashdisk, dan menyediakan logical
view dari data yang disimpan dalam struktur hirakis direktori file.

d. Kumpulan server atau node digabungkan secara erat, dengan spesifikasi perangkat keras yang sama. Serta
terhubung melalui jaringan dan bekerja sebagai satu kesatuan 

The correct answer is: Kumpulan server atau node digabungkan secara erat, dengan spesifikasi perangkat keras yang
sama. Serta terhubung melalui jaringan dan bekerja sebagai satu kesatuan

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2564953&cmid=499213 2/6
3/22/2021 Kuis M3 : Introduction to Hadoop: Attempt review

Question 8 Terdapat 2 (dua) teknologi Penyimpanan Big Data, yaitu


Correct

Mark 5.00 out of Select one:


5.00
a. Flashdisk dan harddisk

b. Reliable dan Fault tolerance

c. SQL dan No-SQL

d. On Disk Storage Devices dan In Memory Storage Devices 

The correct answer is: On Disk Storage Devices dan In Memory Storage Devices

Question 9 Berikut yang dimaksud dengan menganalisa data dalam konteks big data adalah:
Correct

Mark 5.00 out of Select one:


5.00
a. Descriptive analytics, diagnostic analytics, predictive analytics, dan prescriptive analytics 

b. mean statistic analytics, deviation standard analytics, dan percentil analytics

c. Menentukan jumlah data dan atribut data

d. Classification analytics, regression analytics, clustering analytics, dan hadooping analytics

The correct answer is: Descriptive analytics, diagnostic analytics, predictive analytics, dan prescriptive analytics

Question 10 Berikut ini yang bukan merupakan Hadoop operation mode, adalah
Correct

Mark 5.00 out of Select one:


5.00
a. Globally distributed mode 

b. Stand alone mode

c. Fully-Distributed mode

d. Pseudo distributed mode

The correct answer is: Globally distributed mode

Question 11 Properti Big data yang penting, salah satunya adalah scalability, yaitu:
Correct

Mark 5.00 out of Select one:


5.00
a. Kemampuan menanganai penambahan bebab yang diberikan tanpa penurunan kinerja 

b. Ketersediaan layanan secara terus menerus

c. Handal

d. Kemampuan untuk terus beroperasi walaupun terjadi kegagalan pada beberapa komponen

The correct answer is: Kemampuan menanganai penambahan bebab yang diberikan tanpa penurunan kinerja

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2564953&cmid=499213 3/6
3/22/2021 Kuis M3 : Introduction to Hadoop: Attempt review

Question 12 Hadoop adalah framework yang


Correct

Mark 5.00 out of Select one:


5.00
a. Melibatkan satu atau lebih cluster Komputer

b. Semua benar 

c. Menerapkan programming model yang sederhana

d. Memungkinkan pemrosesan secara terdistribusi terhadap data yang berukuran besar

The correct answer is: Semua benar

Question 13 Hadoop adalah platform pemrosesan big data yaitu data yang mempunyai karakteristik kecuali:
Correct

Mark 5.00 out of Select one:


5.00
a. Jumlah fitur yang tertentu 

b. Terakumulasi dengan cepat (high speed velocity)

c. Inconsistent dan uncertaint

d. Volume besar, struktur data yang beragam (variety), dan nilai data yang diperlukan (useful value)

The correct answer is: Jumlah fitur yang tertentu

Question 14 Properti Big data yang penting, salah satunya adalah reliability, yaitu:
Correct

Mark 5.00 out of Select one:


5.00
a. Kemampuan untuk terus beroperasi walaupun terjadi kegagalan pada beberapa komponen

b. Kemampuan menanganai penambahan bebab yang diberikan tanpa penurunan kinerja

c. Handal 

d. Ketersediaan layanan secara terus menerus

The correct answer is: Handal

Question 15 Properti Big data yang penting, salah satunya adalah fault tolerance, yaitu:
Correct

Mark 5.00 out of Select one:


5.00
a. Kemampuan untuk terus beroperasi walaupun terjadi kegagalan pada beberapa komponen 

b. Kemampuan menanganai penambahan bebab yang diberikan tanpa penurunan kinerja

c. Handal

d. Ketersediaan layanan secara terus menerus

The correct answer is: Kemampuan untuk terus beroperasi walaupun terjadi kegagalan pada beberapa komponen

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2564953&cmid=499213 4/6
3/22/2021 Kuis M3 : Introduction to Hadoop: Attempt review

Question 16 YARN singkatan dari


Correct

Mark 5.00 out of Select one:


5.00
a. Yahoo’s another resource name

b. Yet another resource negotiator 

c. Yet another resource need

d. Yahoo’s archived Resource names

The correct answer is: Yet another resource negotiator

Question 17 Hadoop adalah framework yang bekerja bersama tools lain yang beragam. Kelompok yang umum bekerja bersama
Correct Hadoop adalah
Mark 5.00 out of
5.00 Select one:
a. MapReduce, Hummer and Iguana

b. MapReduce, Heron and Trumpet

c. MapReduce, Hive and Hbase 

d. MapReduce, MySQL and Google Apps

The correct answer is: MapReduce, Hive and Hbase

Question 18 Komponen layanan inti Hadoop adalah


Correct

Mark 5.00 out of Select one:


5.00
a. Speed, consistency, dan volume

b. MapReduce, HDFS, dan YARN 

c. SQL, NoSQL, Cluster

d. ClickStream, Sensor, dan Sentiment

The correct answer is: MapReduce, HDFS, dan YARN

Question 19 Pemrosesan data terdistribusi adalah pemrosesan


Correct

Mark 5.00 out of Select one:


5.00
a. yang membagi pemrosesan dalam beberapa batch dan dilakukan secara offline

b. yang menerapkan divide and conquer dalam fisik terpisah, namun terhunung Bersama dalam satu cluster 

c. yang melibatkan pelaksanaan sub-tugas secara bersamaan secara kolektif membentuk tugas yang besar melalui
beberapa processor

d. yang menggunakan pendekatan pendekatan interaktif tanpa penundaan

The correct answer is: yang menerapkan divide and conquer dalam fisik terpisah, namun terhunung Bersama dalam satu
cluster

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2564953&cmid=499213 5/6
3/22/2021 Kuis M3 : Introduction to Hadoop: Attempt review

Question 20 Properti Big data yang penting, salah satunya adalah aviability, yaitu:
Correct

Mark 5.00 out of Select one:


5.00
a. Kemampuan untuk terus beroperasi walaupun terjadi kegagalan pada beberapa komponen

b. Handal

c. Ketersediaan layanan secara terus menerus 

d. Kemampuan menanganai penambahan bebab yang diberikan tanpa penurunan kinerja

The correct answer is: Ketersediaan layanan secara terus menerus

Kuis M3 : Introduction to Hadoop (khusus


◄ Materi M3 : Introduction to Hadoop Jump to...
kelas MALAM)) ►

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2564953&cmid=499213 6/6
3/29/2021 1 pesan baru

Dashboard / My courses / ATA 2020/2021 | 2-FIKTI | Komputasi Big Data | TEAM TEACHING / Pertemuan 4 : Data Preprocessing
/ Kuis M4 : Data Preprocessing

Started on Monday, 29 March 2021, 11:35 AM


State Finished
Completed on Monday, 29 March 2021, 11:46 AM
Time taken 10 mins 56 secs
Grade 100.00 out of 100.00

Question 1 Bagaimana menangani missing value dengan tepat?


Correct

Mark 5.00 out of Select one:


5.00
A,B,dan C benar 

Imputasi nilai manual

Dibiarkan

Eliminasi data object

Question 2 Berikut adalah nama lain dari data objek, kecuali


Correct

Mark 5.00 out of Select one:


5.00
Atribut 

Record

Instance

Sample

Question 3 Cara menangani noisy data, kecuali


Correct

Mark 5.00 out of Select one:


5.00
Regression

Combined Computer

Ignore 

Clustering

Question 4 Data berupa image, video bahkan suara termasuk jenis data
Correct

Mark 5.00 out of Select one:


5.00
Record

Ordered

Graf

Multimedia 

1
Online

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2645316&cmid=502729 1/4
3/29/2021 1 pesan baru

Question 5 data cleaning pada data preprocessing dilakukan..


Correct

Mark 5.00 out of Select one:


5.00
Identifikasi dan integrasi dari multiple database

Imputasi, smoothing dan identifikasi 

Normalisasi dan diskritasi data

Dimensionality reduction dan data compression

Question 6 Data Cleansing merupakan tahapan untuk membersihkan data kotor sehingga menjadi dataset yang siap diolah. Data
Correct kotor tersebut berupa
Mark 5.00 out of
5.00 Select one:
missing value

duplicate data

outlier

A,B,C benar 

Question 7 Data-data yang saling berhubungan, yang biasanya ditemukan pada jaringan internet termasuk dalam jenis data
Correct

Mark 5.00 out of Select one:


5.00
Multimedia

Graf 

Record

Ordered

Question 8 Imputasi nilai secara otomatis saat menangani incomplete data tidak dapat dilakukan menggunakan
Correct

Mark 5.00 out of Select one:


5.00
interpolasi

Nilai tertinggi 

Rata-rata

Median

Question 9 Jenis kelamin, merupakan salah satu atribut data type…


Correct

Mark 5.00 out of Select one:


5.00
Numerik

Ordinal

Nominal 

Rasio

Question 10 Karakteristik data objek merupakan representasi dari


Correct

Mark 5.00 out of Select one:


5.00
Dataset

Data objek

Data sample

Atribut 

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2645316&cmid=502729 2/4
3/29/2021 1 pesan baru

Question 11 Nilai yang merepresentasikan urutan seperti nilai mata kuliah termasuk dalam atribut data type..
Correct

Mark 5.00 out of Select one:


5.00
Rasio

Ordinal 

Numerik

Nominal

Question 12 Normalisasi data dilakukan pada tahap data preprocessing ..


Correct

Mark 5.00 out of Select one:


5.00
data transformation 

data Integration

data cleaning

data reduction

Question 13 Penanganan missing value dapat dilakukan menggunakan nilai estimasi dari probabilitas bersyarat menggunakan metode
Correct

Mark 5.00 out of Select one:


5.00
Eliminasi

Mean

Bayessian 

Regresi

Question 14 Salah satu jenis data record yang diekstrak menjadi kumpulan term dan ditulis berdasarkan frekuensi kemunculan data,
Correct termasuk pada jenis data
Mark 5.00 out of
5.00 Select one:
Dokumen 

Matriks

Sosial network

Transaksi

Question 15 Seberapa mudah data dapat dipahami merupakan kualitas data dari..
Correct

Mark 5.00 out of Select one:


5.00
Interpretability 

Believability

Completeness

Consistency

Question 16 Statistik dasar untuk mengukur sebaran data salah satunya adalah
Correct

Mark 5.00 out of Select one:


5.00
Variance 

Median

Mean

Modus

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2645316&cmid=502729 3/4
3/29/2021 1 pesan baru

Question 17 Studi tentang bagaimana menganalisis data dan membersihkan data merupakan salah satu tujuan dari
Correct

Mark 5.00 out of Select one:


5.00
Data testing

Data cleansing 

Data validation

Data training

Question 18 Tahapan pertama data preprocessing adalah


Correct

Mark 5.00 out of Select one:


5.00
data Integration

data transformation

data reduction

data cleaning 

Question 19 Tanggal penjualan, nama pelanggan, nama barang, jumlah penjualan merupakan contoh dari
Correct

Mark 5.00 out of Select one:


5.00
Atribut penjualan

Dataset penjualan 

Data sample penjualan

Data objek penjualan

Question 20 Tinggi badan, berat badan, usia, dan jenis kelamin merupakan contoh representasi karakteristik dari
Correct

Mark 5.00 out of Select one:


5.00
Data sample

Atribut

Dataset

Data objek 

◄ Materi M4 : Data Preprocessing Kuis M4 : Data Preprocessing (khusus


Jump to...
(update 29/03/2021) kelas MALAM)) ►

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2645316&cmid=502729 4/4
4/5/2021 1 pesan baru

Dashboard / My courses / ATA 2020/2021 | 2-FIKTI | Komputasi Big Data | TEAM TEACHING / Pertemuan 5 : Introduction to Data Mining
/ Kuis M5 : Introduction Data Mining

Started on Monday, 5 April 2021, 11:57 AM


State Finished
Completed on Monday, 5 April 2021, 12:20 PM
Time taken 22 mins 53 secs

Question 1 Metode untuk mempresentasikan hasil yang ditemukan dengan cara yang "bagus" secara visual
Correct

Marked out of Select one:


5.00
a. Asosiasi

b. Visualisasi 

c. Klasterisasi

d. Klasifikasi

Question 2 Untuk menghindari set pengujian yang tumpang tindih, data dibagi menjadi k himpunan bagian dengan ukuran yang
Correct sama kemudiansetiap subset secara bergantian digunakan untuk pengujian dan sisanya untuk pelatihan
Marked out of
5.00 Select one:
a. k-fold cross-validation 

b. Model Sorted list

c. Commulative PCT Hits

d. Direct Marketing Paradigm

Question 3 Metode untuk mengelompokkan secara "alami" dari instance yang diberi data tanpa label
Correct

Marked out of Select one:


5.00
a. Asosiasi

b. Klasterisasi 

c. Klasifikasi

d. Visualisasi

Question 4 Pernyataan yang kurang sesuai dengan metode peringkasan


Correct

Marked out of Select one:


5.00
a. Menjelaskan fitur dari grup yang dipilih

b. Mengelompokkan data tak berlabel 

c. Menggunakan bahasa dan grafik alami

d. Biasanya dalam Kombinasi dengan deteksi Deviasi atau metode lain

1
Online

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2763658&cmid=517239 1/5
4/5/2021 1 pesan baru

Question 5 Acuan yang tidak tepat ketika melakukan pengaturan parameter


Correct

Marked out of Select one:


5.00
a. Data pengujian harus digunakan untuk penyetelan parameter 

b. Data pengujian tidak dapat digunakan untuk penyetelan parameter

c. Data pengujian tidak digunakan dengan cara apa pun untuk membuat pengklasifikasi

d. Skema pembelajaran beroperasi dalam dua tahap yaitu membangun struktur dasar dan mengoptimalkan
pengaturan parameter

Question 6 Jenis tugas data mining yang menfasilitasi penerimaan / penelusuran informasi bagi pengguna
Correct

Marked out of Select one:


5.00
a. Asosiasi

b. Klasterisasi

c. Klasifikasi

d. Visualisasi 

Question 7 Karakteristik Big Data yang terus bertambah dengan cepat secara real-time dinamakan
Correct

Marked out of Select one:


5.00
a. Volume 

b. variety

c. Velocity

d. Value

Question 8 Fungsi dari data mining adalah salah satunya dapat mengetahui pola yang sering (atau kumpulan item yang sering)
Correct misalnya item apa yang sering dibeli bersama di Walmart Anda. Ini dikenal dengan istilah
Marked out of
5.00 Select one:
a. Klasterisasi

b. Outlier Analysis

c. Klasifikasi

d. Asosiasi dan Analisis Korelasi 

Question 9 Proses pencarian konten baru dan konten yang perlu diperbaharui dengan mengirimkan crawler ke seluruh konten yang
Correct ditemukan dari tautan halaman merupakan Salah satu konsep data mining pada Search Engine yang dinamakan
Marked out of
5.00 Select one:
a. Index

b. Crawl 

c. Rank

d. Searching

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2763658&cmid=517239 2/5
4/5/2021 1 pesan baru

Question 10 Metode untuk memprediksi kelas instance dari instance yang diberi label sebelumnya
Correct

Marked out of Select one:


5.00
a. Visualisasi

b. Klasterisasi

c. Asosiasi

d. Klasifikasi 

Question 11 Melihat suatu objek data yang tidak sesuai dengan perilaku umum data, sering digunakan dalam deteksi penipuan atau
Correct analisis kejadian langka
Marked out of
5.00 Select one:
a. Analisis Outlier 

b. Klasifikasi

c. Klasterisasi

d. Asosiasi dan Analisis Korelasi

Question 12 Seberapa mudah data dapat dipahami merupakan kualitas data dari..
Correct

Marked out of Select one:


5.00
a. Consistency

b. Believability

c. Completeness

d. Interpretability 

Question 13 Regression, Decision Trees, Bayesian, Neural Networks, Naïve Bayes Rules, Support Vector Machines, Genetic Algorithms
Correct adalah pendekatan yang digunakan untuk
Marked out of
5.00 Select one:
a. Asosiasi

b. Klasifikasi 

c. Visualisasi

d. Klasterisasi

Question 14 Urutan langkah melakukan klasifikasi


Correct

Marked out of Select one:


5.00
a. Buat model pada set pelatihan, Evaluasi pada set pengujian (Latih ulang?), Pisahkan data menjadi set pelatihan dan
pengujian

b. Pisahkan data menjadi set pelatihan dan pengujian, Buat model pada set pelatihan, Evaluasi pada set pengujian

c. Buat model pada set pelatihan, pilih secara acak jumlah instance kelas minoritas yang diinginkan, Evaluasi pada set
pengujian

d. Evaluasi pada set pengujian, Buat model pada set pelatihan, Pisahkan data menjadi set pelatihan dan pengujian

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2763658&cmid=517239 3/5
4/5/2021 1 pesan baru

Question 15 Pernyataan yang tepat terkait data mining and knowledge discovery
Correct

Marked out of Select one:


5.00
a. lebih heuristik

b. lebih fokus pada pengujian hipotesis

c. lebih teori

d. mengintegrasikan teori dan heuristik 

Question 16 Jenis tugas data mining yang melakukan prediksi kelas


Correct

Marked out of Select one:


5.00
a. Klasterisasi

b. Visualisasi

c. Klasifikasi 

d. Asosiasi

Question 17 Pernyataan yang tepat terkait data mining and knowledge discovery
Correct

Marked out of Select one:


5.00
a. lebih fokus pada pengujian hipotesis

b. fokus pada seluruh proses penemuan pengetahuan 

c. fokus pada peningkatan kinerja agen pembelajaran

d. melihat pembelajaran real-time dan robotika

Question 18 Attributes yang berisi informasi seperti item_ID, name, brand, category, supplier, place_made and price, merupakaan salah
Correct satu contoh jenis database
Marked out of
5.00 Select one:
a. Social media

b. Penjualan 

c. Penyewaan

d. Marketing

Question 19 Metode klasifikasi pada fungsi data mining yang menggunakan nilai estimasi dari probabilitas bersyarat dinamakan
Correct metode
Marked out of
5.00 Select one:
a. Naive Bayessian 

b. Mean

c. Regresi

d. Eliminasi

Question 20 Yang bukan Metode clusterisasi


Correct

Marked out of Select one:


5.00
a. Exclusive vs. overlapping

b. Decision Tree 

c. Deterministic vs. probabilistic

d. Hierarchical vs. flat

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2763658&cmid=517239 4/5
4/5/2021 1 pesan baru

Kuis M5 : Introduction Data Mining


◄ Video M5 : Introduction Data Mining Jump to...
(KHUSUS KELAS MALAM)) ►

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2763658&cmid=517239 5/5
4/12/2021 1 pesan baru

Dashboard / My courses / ATA 2020/2021 | 2-FIKTI | Komputasi Big Data | TEAM TEACHING
/ Pertemuan 6 : Introduction to Machine Learning (Supervised) / Kuis M6 : Introduction to Machine Learning (Supervised)

Started on Monday, 12 April 2021, 12:46 PM


State Finished
Completed on Monday, 12 April 2021, 12:53 PM
Time taken 7 mins 37 secs

Question 1 Model Pembelajaran yang mempelajari bagaimana sistem dapat menyimpulkan suatu fungsi untuk mendeskripsikan
Correct struktur tersembunyi dari data yang tidak berlabel. Sistem ini tidak memprediksi keluaran yang benar, tetapi
Marked out of mengeksplorasi data dan dapat menarik kesimpulan dari kumpulan data untuk mendeskripsikan struktur tersembunyi dari
5.00 data yang tidak berlabel.

Select one:
a. Reinfocement Learning

b. Supervised Learning

c. Semi Supervised Learning

d. Unsupervised Learning 

Question 2 Tahapan yang tepat ketika melakukan testing


Correct

Marked out of Select one:


5.00
a. Image Features - Training With Labeled Data – Prediction

b. Image Features - Learned Model - Prediction 

c. Image Features - Training With Labeled Data - Learned Model

d. Image Features - Training With Unlabel Data -Learned Model - Prediction

Question 3 Jika variabel keluaran adalah berupa kategori misalnya “apel”, “jeruk” termasuk pada machine learning bertipe
Correct

Marked out of Select one:


5.00
a. Unsupervised

b. Supervised -Regresion

c. Reinfocement

d. Supervised – Classification 

Question 4

Correct

Marked out of
5.00

Gambar pada representasi di atas adalah Pola-pola struktur yang ada pada suatu koleksi data (knowledge) dalam bentuk

Select one:
a. Pohon

b. Aturan 

c. Tabel

d. Instance

1
Online

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2888103&cmid=530886 1/5
4/12/2021 1 pesan baru

Question 5 Saat Anda ingin mengungkap pengelompokan yang melekat dalam data, seperti mengelompokkan hewan berdasarkan
Correct beberapa karakteristik / fitur, mis. jumlah kaki maka model pembelajaran yang sesuai
Marked out of
5.00 Select one:
a. Reinfocement Learning

b. Supervised Learning - Regression

c. Supervised Learning - Classification

d. Unsupervised Learning - Clustering 

Question 6 Pola-pola struktur yang ada pada suatu koleksi data (knowledge) dapat direpresentasi dalam bentuk if then rules :
Correct

Marked out of Select one:


5.00
a. Tabel

b. Instance

c. Pohon

d. Aturan 

Question 7 Model pembelajaran yang menggunakan data berlabel dan tidak berlabel untuk pelatihan.
Correct

Marked out of Select one:


5.00
a. Semi Supervised Learning 

b. Unsupervised Learning

c. Supervised Learning

d. Reinfocement Learning

Question 8 Pembelajaran yang bertujuan memprediksi output dengan akurat untuk data baru dan output ti bernilai kontinu (riil),
Correct contoh untuk Prediksi kinerja CPU
Marked out of
5.00 Select one:
a. Klasifikasi

b. Klasterisasi

c. Generalisasi

d. Regressi 

Question 9 Tahapan yang tepat ketika melakukan training


Correct

Marked out of Select one:


5.00
a. Image Features - Training With Labeled Data – Prediction

b. Image Features - Training With UnLabeled Data - Prediction

c. Image Features - Training With Labeled Data - Learned Model 

d. Image Features - Learned Model - Prediction

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2888103&cmid=530886 2/5
4/12/2021 1 pesan baru

Question 10 Salah satu teknik yang digunakan untuk mengkontrol fenomena over-fitting adalah dengan cara menambah finalti ke
Correct fungsi error.
Marked out of
5.00 Select one:
a. regularization 

b. generalization

c. model selection

d. prediction

Question 11 Tujuan pembelajaran unsupervised adalah membagun model yang dapat menemukan komponen / variabel / fitur
Correct tersembunyi pada data pelatihan, yang dapat digunakan untuk hal berikut, kecuali
Marked out of
5.00 Select one:
a. Reduksi dimensi (dimension reduction)

b. Pengklasifikasian (classification) 

c. Pengelompokan (clustering)

d. Rekomendasi

Question 12
Correct

Marked out of
5.00

Gambar pada representasi di atas adalah Pola-pola struktur yang ada pada suatu koleksi data (knowledge) dalam bentuk

Select one:
a. Aturan

b. Instance

c. Pohon

d. Tabel 

Question 13 Model ini belajar dari kumpulan data berlabel dan kemudian digunakan untuk memprediksi peristiwa di masa depan.
Correct

Marked out of Select one:


5.00
a. Semi Supervised Learning

b. Reinfocement Learning

c. Unsupervised Learning

d. Supervised Learning 

Question 14 Pembelajaran yang menghasilkan Nilai output ti bernilai diskrit (kelas)


Correct

Marked out of Select one:


5.00
a. Generalisasi

b. Klasterisasi

c. Regressi

d. Klasifikasi 

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2888103&cmid=530886 3/5
4/12/2021 1 pesan baru

Question 15 Yang bukan tujuan supervised learning untuk membangun model yang dapat menghasilkan output yang benar untuk
Correct suatu data input dapat digunakan untuk
Marked out of
5.00 Select one:
a. Pengklasifikasian (classification)

b. Ranking

c. Klasterisasi (clustering) 

d. Regresi (regression)

Question 16 Yang tidak digunakan pada Model Supervised Learning


Correct

Marked out of Select one:


5.00
a. Neural Networks

b. Linear Model

c. Latent Semantic Analysis 

d. Support Vector Machine

Question 17

Correct

Marked out of
5.00

Gambar pada representasi di atas adalah Pola-pola struktur yang ada pada suatu koleksi data (knowledge) dalam bentuk

Select one:
a. Aturan

b. Pohon 

c. Tabel

d. Instance

Question 18 Kumpulan data yg sudah dipastikan kebenarannya, dr sisi label, data awal, komponen2 data yg akan dijadikan kunci,
Correct

Marked out of Select one:


5.00
a. Feature Extraction

b. Instance

c. Feature/ atribut

d. Training Set 

Question 19 Sebuah proses yg mempersiapkan data sehingga data tsb bisa kita extract cirinya menjadi suatu vektor
Correct

Marked out of Select one:


5.00
a. Training Set

b. Instance

c. Feature Extraction 

d. Feature/ atribut

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2888103&cmid=530886 4/5
4/12/2021 1 pesan baru

Question 20 Ciri-ciri dari masing-masing sample data misalnya Smartphone. ciri: memiliki ...
Correct

Marked out of
5.00 Select one:
a. Training Set

b. Feature/ atribut 

c. Instance

d. Feature Extraction

Kuis M6 : Introduction to Machine


◄ Materi M6 : Introduction to Machine
Jump to... Learning (Supervised) (KHUSUS KELAS
Learning-Supervised
MALAM)) ►

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2888103&cmid=530886 5/5
4/19/2021 Kuis M7 : Unsupervised Learning: Attempt review

Dashboard / My courses / ATA 2020/2021 | 2-FIKTI | Komputasi Big Data | TEAM TEACHING
/ Pertemuan 7 : Introduction to Machine Learning (Unsupervised) / Kuis M7 : Unsupervised Learning

Started on Monday, 19 April 2021, 11:40 AM 1


State Finished Online
Completed on Monday, 19 April 2021, 11:45 AM
Time taken 4 mins 38 secs

Question 1 Pengelompokan yang sebagai "pendekatan bottom-up". Di mana titik datanya diisolasi sebagai pengelompokan terpisah
Correct pada awalnya, dan kemudian digabungkan bersama secara iteratif atas dasar kesamaan hingga satu cluster tercapai.
Marked out of
5.00 Select one:
a. Pendekatan Overlapping

b. Pendekatan Aglomeratif 

c. Pendekatan Divisive

d. Pendekatan Probabilistic

Question 2 Teknik yang digunakan ketika jumlah fitur, atau dimensi, dalam kumpulan data tertentu terlalu tinggi. Teknik ini
Correct mengurangi jumlah input data ke ukuran yang dapat dikelola sambil juga menjaga integritas set data sebanyak mungkin,
Marked out of biasanya digunakan dalam tahap data praproses
5.00

Select one:
a. Dimensionality reduction 

b. Association

c. clustering

d. Regression

Question 3 Algoritme yang menggunakan pohon hash untuk menghitung kumpulan item, menavigasi kumpulan data dengan cara
Incorrect yang pertama. Algoritma ini telah dipopulerkan melalui analisis keranjang pasar, yang mengarah ke mesin rekomendasi
Marked out of yang berbeda untuk platform musik dan pengecer online.Misalnya, jika saya memutar radio Black Sabbath di Spotify,
5.00 dimulai dengan lagu mereka "Anggrek", salah satu lagu lain di saluran ini kemungkinan besar adalah lagu Led Zeppelin,
seperti "Over the Hills dan Far Away." Ini didasarkan pada kebiasaan mendengarkan saya sebelumnya serta kebiasaan
orang lain.

Select one:
a. Eclat

b. Apriori 

c. Apriori

d. FP-Growth

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=3027952&cmid=549345 1/5
4/19/2021 Kuis M7 : Unsupervised Learning: Attempt review

Question 4 Algoritme yang menggunakan pohon hash untuk menghitung kumpulan item, menavigasi kumpulan data dengan cara
Correct yang pertama. Algoritma ini telah dipopulerkan melalui analisis keranjang pasar, yang mengarah ke mesin rekomendasi
Marked out of yang berbeda untuk platform musik dan pengecer online.Misalnya, jika saya memutar radio Black Sabbath di Spotify,
5.00 dimulai dengan lagu mereka "Anggrek", salah satu lagu lain di saluran ini kemungkinan besar adalah lagu Led Zeppelin,
seperti "Over the Hills dan Far Away." Ini didasarkan pada kebiasaan mendengarkan saya sebelumnya serta kebiasaan
orang lain. Ini termasuk task

Select one:
a. Dimensionality reduction

b. Regression

c. clustering

d. Association 

Question 5 Algoritme yang berusaha menemukan pola tersembunyi atau pengelompokan data tanpa perlu campur tangan manusia.
Correct

Marked out of Select one:


5.00
a. Supervised Learning

b. Deep Learning

c. Unsupervised Learning 

d. Semi Supervised Learning

Question 6 Metode berbasis aturan untuk menemukan hubungan antara variabel dalam kumpulan data tertentu. Metode ini sering
Correct digunakan untuk analisis keranjang pasar, memungkinkan perusahaan untuk lebih memahami hubungan antara produk
Marked out of yang berbeda. Memahami kebiasaan konsumsi pelanggan memungkinkan bisnis untuk mengembangkan strategi
5.00 penjualan silang dan mesin rekomendasi yang lebih baik.

Select one:
a. Association 

b. clustering

c. Regression

d. Dimensionality reduction

Question 7 Jenis algoritme pengurangan dimensi yang digunakan untuk mengurangi redundansi dan mengompresi kumpulan data
Correct melalui ekstraksi fitur. Metode ini menggunakan transformasi linier untuk membuat representasi data baru, menghasilkan
Marked out of sekumpulan "komponen utama". Komponen utama pertama adalah arah yang memaksimalkan varians dari dataset.
5.00 Sementara komponen utama kedua juga menemukan varians maksimum dalam data, itu sama sekali tidak berkorelasi
dengan komponen utama pertama, menghasilkan arah yang tegak lurus, atau ortogonal, ke komponen pertama. Proses
ini berulang berdasarkan jumlah dimensi, dimana komponen utama berikutnya adalah arah ortogonal ke komponen
sebelumnya dengan varians terbanyak.

Select one:
a. Singular value decomposition

b. FP-Growth

c. Autoencoders

d. Principal component analysis 

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=3027952&cmid=549345 2/5
4/19/2021 Kuis M7 : Unsupervised Learning: Attempt review

Question 8 Pendekatan reduksi dimensi lain yang memfaktorkan matriks, A, menjadi tiga matriks peringkat rendah. SVD
Correct dilambangkan dengan rumus, A = USVT, di mana U dan V adalah matriks ortogonal. S adalah matriks diagonal, dan nilai S
Marked out of dianggap sebagai nilai tunggal matriks A. Principal component analysis
5.00

Select one:
a. Singular value decomposition

b. FP-Growth

c. Autoencoders 

Question 9 Pengelompokan yang mengambil pendekatan "top-down". Dalam hal ini, satu cluster data dibagi berdasarkan perbedaan
Correct antara titik data. Pengelompokan dengan cara ini tidak umum digunakan, tetapi masih perlu diperhatikan dalam konteks
Marked out of pengelompokan hierarkis. Proses pengelompokan ini biasanya divisualisasikan menggunakan dendrogram, diagram mirip
5.00 pohon yang mendokumentasikan penggabungan atau pemisahan titik data pada setiap iterasi.

Select one:
a. Pendekatan Aglomeratif

b. Pendekatan Probabilistic

c. Pendekatan Overlapping

d. Pendekatan Divisive 

Question 10 Algoritma yang paling banyak digunakan untuk task Association rules
Correct

Marked out of Select one:


5.00
a. FP-Growth

b. Apriori

c. Apriori 

d. Eclat

Question 11 Salah satu bentuk pengelompokan yang memungkinkan titik data menjadi bagian dari beberapa kluster dengan derajat
Correct keanggotaan terpisah. Ini disebut juga Pengelompokan "lembut" atau fuzzy k-means
Marked out of
5.00 Select one:
a. Memecah belah (Divisive)

b. Clustering Eksklusif (specifically exclusive)

c. Tumpang tindih (overlapping) 

d. Hierarkis ( hierarchical)

Question 12 Yang bukan tugas dari pembelajaran tanpa pengawasan


Correct

Marked out of Select one:


5.00
a. Association

b. Dimensionality reduction

c. Regression 

d. clustering

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=3027952&cmid=549345 3/5
4/19/2021 Kuis M7 : Unsupervised Learning: Attempt review

Question 13 Salah satu bentuk pengelompokan yang menetapkan bahwa suatu titik data hanya dapat ada dalam satu cluster. Ini juga
Correct bisa disebut sebagai pengelompokan "keras". Algoritma yang digunakan salah satunya adalah K-means clustering
Marked out of
5.00 Select one:
a. Memecah belah (Divisive)

b. Clustering Eksklusif (specifically exclusive) 

c. Hierarkis ( hierarchical)

d. Tumpang tindih (overlapping)

Question 14 Pendekatan Unsupervised Learning adalah


Correct

Marked out of Select one:


5.00
a. Mempelajari bagaimana cara kerja pembelajaran dengan pengawasan

b. Mempelajari bagaimana cara kerja pembelajaran tanpa pengawasan dan dengan pengawasan

c. Mempelajari bagaimana cara kerja pembelajaran tanpa pengawasan 

d. Mempelajari bagaimana cara kerja pembelajaran yang mendalam

Question 15 Teknik tanpa pengawasan yang membantu menyelesaikan estimasi kepadatan atau masalah pengelompokan "lunak".
Correct Dalam hal ini, titik data dikelompokkan berdasarkan kemungkinannya termasuk dalam distribusi tertentu. Teknik yang
Marked out of paling umum digunakan adalah Gaussian Mixture Model (GMM)
5.00

Select one:
a. Pendekatan Probabilistic 

b. Pendekatan Aglomeratif

c. Pendekatan Overlapping

d. Pendekatan Divisive

Question 16 Pembelajaran mesin tanpa pengawasan, menggunakan algoritme pembelajaran mesin untuk menganalisis dan
Correct mengelompokkan set data tak berlabel
Marked out of
5.00 Select one:
a. Supervised Learning

b. Deep Learning

c. Unsupervised Learning 

d. Semi Supervised Learning

Question 17 Kemampuannya untuk menemukan persamaan dan perbedaan informasi menjadikannya unsupervised learning sebagai
Correct solusi ideal tugas tugas di bawah ini, kecuali
Marked out of
5.00 Select one:
a. strategi penjualan silang

b. Klasifikasi buah jeruk dan buah apel 

c. Analisis data eksplorasi

d. Segmentasi pelanggan

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=3027952&cmid=549345 4/5
4/19/2021 Kuis M7 : Unsupervised Learning: Attempt review

Question 18 Algoritme yang bukan digunakan untuk pengelompokan (Clustering)


Correct

Marked out of Select one:


5.00
a. Clustering ekslusif (specifically exclusive)

b. Tumpang tindih (overlapping)

c. Hierarkis ( hierarchical)

d. Auto Encoder 

Question 19 Teknik yang mengelompokkan data yang tidak berlabel berdasarkan persamaan atau perbedaannya. Algoritma ini
Correct digunakan untuk memproses objek data mentah dan tidak terklasifikasi menjadi grup yang diwakili oleh struktur atau
Marked out of pola dalam informasi.
5.00

Select one:
a. Clustering 

b. Dimensionality reduction

c. Regression

d. Association

Question 20 Teknik yang memanfaatkan jaringan neural untuk mengompresi data dan kemudian membuat ulang representasi baru
Correct dari input data asli. Terdapat lapisan tersembunyi secara khusus bertindak sebagai penghambat untuk memampatkan
Marked out of lapisan masukan sebelum merekonstruksi di dalam lapisan keluaran.
5.00

Select one:
a. Singular value decomposition

b. Principal component analysis

c. Autoencoders 

d. FP-Growth

Kuis M7 : Unsupervised Learning


◄ Materi M7 : Unsupervised Learning Jump to...
(KHUSUS KELAS MALAM) ►

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=3027952&cmid=549345 5/5
4/26/2021 Kuis M8 : Reinforcement: Attempt review

Dashboard / My courses / ATA 2020/2021 | 2-FIKTI | Komputasi Big Data | TEAM TEACHING
/ Pertemuan 8 : Introduction to Machine Learning (Reinforcement) / Kuis M8 : Reinforcement

Started on Monday, 26 April 2021, 12:01 PM


State Finished
Completed on Monday, 26 April 2021, 12:05 PM
Time taken 4 mins 43 secs

Question 1 Reinforcement learning tepat digunakan untuk menyelesaikan permasalahan utama dalam:
Correct

Marked out of Select one:


5.00
a. Segmentasi pelanggan

b. Permainan catur 

c. Peramalan cuaca

d. Pengenalan objek

Question 2 Berikut ini merupakan contoh permasalahan yang dapat diselesaikan dengan reinforcement learning:
Correct

Marked out of Select one:


5.00
a. Sistem percakapan

b. Self-driving car

c. Semua benar 

d. Bermain Game

Question 3 Markov Decision Process dapat didefinisikan kedalam n-tuple, dimana bernilai:
Correct

Marked out of Select one:


5.00
a. 4

b. 3

c. 6

d. 5 

Question 4 Efek dari suatu aksi yang dipilih dari suatu state yang bergantung hanya pada state tersebut saja bukan pada state-state
Correct sebelumnya dikenal sebagai sifat:
Marked out of
5.00 Select one:
a. Markov 

b. Bellman

c. Transisi

d. Stokastik

1
Online

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=3172841&cmid=564465 1/4
4/26/2021 Kuis M8 : Reinforcement: Attempt review

Question 5 Pernyataan yang benar terkait reinforcement learning:


Correct

Marked out of Select one:


5.00
a. Semua benar

b. Untuk aksi yang bersifat stokastik harus memenuhi sifat Markov

c. Input yang diterima oleh agen berupa state, action dan reward

d. Aksi yang dapat dipilih pada setiap state tidak unik 

Question 6 Solusi dari Markov Decision Process disebut sebagai:


Correct

Marked out of Select one:


5.00
a. Policy 

b. Reward

c. Model

d. Action

Question 7 Fungsi reward dalam Markov Decision Process dapat bernilai bilangan:
Correct

Marked out of Select one:


5.00
a. Semua benar 

b. Riil

c. Bulat

d. Asli

Question 8 Sifat Markov dalam Markov Decision Process diperlukan langsung dalam menentukan:
Correct

Marked out of Select one:


5.00
a. Fungsi reward

b. Aksi yang dipilih

c. Fungsi nilai state-action

d. Matriks probabilitas transisi 

Question 9 Reinforcement learning dapat diterapkan dalam permasalahan:


Correct

Marked out of Select one:


5.00
a. Penentuan jalur terpendek

b. Supervised learning

c. Semua benar 

d. Navigasi robot

Question 10 Pemilihan suatu aksi pada suatu state tertentu didalam Markov Decision Process ditentukan oleh:
Correct

Marked out of Select one:


5.00
a. Model

b. Reward

c. Value

d. Policy 

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=3172841&cmid=564465 2/4
4/26/2021 Kuis M8 : Reinforcement: Attempt review

Question 11 Berikut ini merupakan pernyataan yang salah terkait Markov Decision Process:
Correct

Marked out of Select one:


5.00
a. Fungsi nilai state-action dapat dinyatakan dalam persamaan ekspektasi Bellman

b. Elemen matriks probabilitas transisi bernilai antara 0 dan 1

c. Fungsi reward dapat dinyatakan sebagai suatu fungsi ekspektasi

d. Total policy pada suatu state untuk semua reward adalah 1 

Question 12 Reinforcement learning merupakan bagian dari:


Correct

Marked out of Select one:


5.00
a. Dynamic Programming

b. Markov Decision Process

c. Semua benar

d. Machine learning 

Question 13 Berikut ini merupakan beberapa algoritma reinforcement learning, kecuali:


Correct

Marked out of Select one:


5.00
a. Hill-Climbing Bagged Ensemble Selection (HCES-Bag) 

b. State-Action-Reward-State-Action (SARSA)

c. Deep Deterministic Policy Gradient (DDPG)

d. Q-learning

Question 14 Efek dari suatu pilihan aksi pada suatu state ditentukan oleh:
Correct

Marked out of Select one:


5.00
a. Semua salah

b. Model transisi 

c. Policy

d. Fungsi reward

Question 15 Reward dalam permasalahan shortest path yang dimodelkan dengan Markov Decision Process ditandai dengan:
Correct

Marked out of Select one:


5.00
a. Total nilai bobot simpul dan ruas

b. Nilai bobot pada simpul

c. Nilai bobot pada ruas 

d. Semua salah

Question 16 Reinforcement learning dapat diilustrasikan sebagai interaksi antara:


Correct

Marked out of Select one:


5.00
a. Semua benar

b. Reward dengan state berikutnya

c. Agen dengan lingkungannya 

d. State dengan aksi yang dipilih

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=3172841&cmid=564465 3/4
4/26/2021 Kuis M8 : Reinforcement: Attempt review

Question 17 Berikut ini merupakan pernyataan yang kurang tepat terkait reinforcement learning (RL):
Correct

Marked out of Select one:


5.00
a. RL dapat digunakan pada robotik untuk otomasi industri

b. RL yang diselesaikan dengan Markov Decision Process memerlukan data latih dalam menentukan probabilitas
transisinya 

c. RL dapat digunakan dalam menciptakan sistem pelatihan untuk siswa yang bersifat kustom

d. RL memerlukan lingkungan untuk berinteraksi secara repetitif

Question 18 Pada Markov Decision Process, pemilihan ruas jalan dalam permasalahan shortest path merupakan bagian dari:
Correct

Marked out of Select one:


5.00
a. Value

b. Reward

c. State

d. Action 

Question 19 Dalam memilih aksi pada suatu state perlu diperhatikan hal-hal berikut ini:
Correct

Marked out of Select one:


5.00
a. Nilai state-action pada suatu waktu berlaku untuk sembarang policy

b. Memilih aksi yang memberikan state dengan nilai tertinggi 

c. Semua benar

d. Memaksimumkan reward pada masa mendatang

Question 20 Sekumpulan token yang mewakili setiap kemungkinan keadaan dari agen disebut sebagai:
Correct

Marked out of Select one:


5.00
a. State 

b. Action

c. Semua salah

d. Reward

Kuis M8 : Reinforcement (KHUSUS KELAS


◄ Materi M8 : Reinforcement Learning Jump to...
MALAM) ►

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=3172841&cmid=564465 4/4
M10 Team Teaching

1. Salah satu library data science yang digunakan untuk pemrosesan sinyal, gambar, dan rumus
statistik adalah.. Semua Benar
2. Beragamnya jenis data di dalam Big Data yang meliputi data terstruktur, semi terstruktur
dan tidak terstruktur, merupakan dimensi Big Data dalam hal: Variety
3. Pilihan yang dapat menciptakan hasil yang paling optimal merupakan pendekatan analitik
dari.. Preskriptif
4. Sumber data yang digunakan dalam aplikasi Big Data dapat berupa: Semua Benar
5. Keuntungan menggunakan Mobile Positioning data (MPD) adalah… Semua Benar
6. Metode untuk memprediksi kelas instance dari instance yang diberi label sebelumnya…
Klasifikasi
7. Visualisasi pada hasil analisis Big Data dapat disajikan dalam bentuk.. Semua Benar
8. Data yang dikumpulkan secara aktif dari sensor, misalnya melalui penginderaan jauh dan
gambar satelit merupakan sumber big data dalam hal…. Sensing data
9. Contoh solusi Big Data, kecuali: Semua Benar
10. Contoh Aplikasi Machine Learning dan Analitik Prediktif: Semua Benar
11. Semakin banyak data hingga dapat melebihi terabyte merupakan penjelasan dari dimensi
Big Data dalam hal: Volume
12. Karakteristik Big Data yang cepat sekali berubah baik dari sisi variabel maupun tipe data
dinamakan… Velocity
13. Data Warehouse dibuat dengan menerapkan serangkaian langkah pemrosesan terhadap
data yang berasal dari beberapa basis data. Berikut ini adalah yang termasuk dalam
pemrosesan data tersebut: Semua Benar
14. Manakah yang benar dari pernyataan berikut ini: Deskriptif, perkiraan berdasarkan data
yang tersedia
15. Data Mobile Positioning data (MPD) berupa… Semua Benar
16. Dataset dibentuk dari: Sekumpulan fitur yang memiliki objek yang sama
17. Tools Bahasa Pemograman yang dapat digunakan dalam ilmu data science adalah… Semua
Benar
18. Social Media termasuk dalam sumber data..Digital Content
19. Cara yang dapat dilakukan untuk meningkatkan analisis bigdata genome bioinformatics
adalah.. Semua Benar
20. Proses menganalisis tulisan untuk menentukan nada emosional penulisnya merupakan salah
satu implementasi machine learning dalam… Principal Component Analysis
Team Teaching Big Data M9

1. Berikut ini adalah efek dari mengecilnya nilai stride dalam Algoritma Convolutional Neural Network

Informasi yang diperoleh semakin detail

2. Hasil dari proses flatten pada Algoritma Convolutional Neural Network menjadi masukan dalam

Fully-connected layer

3. Pooling layer bertujuan untuk

Mengurangi dimensi feature map

4. Berikut ini merupakan loss function dalam algoritma berbasis Neural Network

Cross entropy

5. Algoritma Deep Learning berbasis

Semua benar (Neural network, Machine learning, Artificial Intelligence)

6. Berikut ini adalah teknik yang dapat digunakan pada pooling layer dalam Algoritma Convolutional
Neural Network

Semua benar (Average pooling, Min pooling, Max pooling)

7. Dalam Algoritma Convolutional Neural Network, ReLU seringkali digunakan pada

Hidden layer

8. Sebuah citra berdimensi 5x5 dengan filter 3x3 dan stride sebesar 2 akan menghasilkan feature map
berdimensi

4x4

9. Pooling layer pada Algoritma Convolutional Neural Network terdapat pada

Hidden layer

10. Berikut ini merupakan fungsi aktivasi dalam Algoritma Convolutional Neural Network

Semua benar (Sigmoid, Tanh, ReLU)

11. Tahapan feature extraction pada Algoritma Convolutional Neural Network terdiri dari beberapa
lapisan (layer) berikut ini, kecuali

Fully-connected layer

12. Untuk memperbanyak feature yang berhasil diekstrak dalam Algoritma Convolutional Neural
Network digunakan

Padding

13. Berikut ini merupakan contoh Algoritma Deep Learning


Semua benar

Algoritma Recurrent Neural Network

Algoritma Long Short Term Memory

Algoritma Convolutional Neural Network

14. Algoritma Deep Learning dapat menyelesaikan permasalahan berikut ini

Semua benar (Deteksi objek, Natural Language Processing, Pengenalan suara)

15. Untuk menyelesaikan permasalahan klasifikasi biner menggunakan algoritma berbasis Neural
Network lebih tepat digunakan fungsi aktivasi

ReLU

16. Salah satu ukuran dari confusion matrix yang dapat digunakan dalam mengukur tingkat keberhasilan
sistem dalam menemukan kembali sebuah informasi adalah

Recall

17. Untuk mencegah terjadinya overfitting dalam Algoritma Convolutional Neural Network dilakukan

Dropout regularization

18. Dimensi dari feature map dalam Algoritma Convolutional Neural Network bergantung pada

Semua benar

Stride

Dimensi filter dan input

Padding

19. Parameter dalam Algoritma Convolutional Neural Network yang menentukan berapa jumlah
pergeseran filter disebut sebagai

Stride

20. Berikut ini merupakan library Python untuk Algoritma Deep Learning

Semua benar (Tensorflow, Keras, PyTorch)


Team Teaching Big Data M11

1. Berikut ini yang bukan merupakan karakteristik dari Apache Spark adalah

Tidak dilengkapi dengan sistem file bawaan

2. Berapa banyak Spark Context yang dapat aktif per Java Virtual Machine

Hanya 1

3. Berikut ini yang bukan merupakan fungsi dari Spark Context adalah

Untuk mengatur konfigurasi

4. Toleransi kesalahan pada Resilient Distributed Data (RDD) dicapai menggunkan

Kemampuan alami dari RDD untuk tidak dapat diubah

5. Berikut ini adalah beberapa manfaat penggunaan Spark, kecuali

Otomatis dalam mengoptimalkan kode program

6. Berikut ini yang bukan operasi transformasi pada Resilient Distributed Data adalah

Flatmap

7. Apache Spark pertama kali diluncurkan open-source pada tahun

2010

8. Berikut ini yang bukan operasi action pada Resilient Distributed Data adalah

Top()

9. Berikut ini adalah pernyataan yang salah mengenai Resilient Distributed Data (RDD), kecuali

RDD merupakan basis data

10. Spark ditulis dalam bahasa pemrograman

Scala

11. Modul untuk memproses data terstruktur dalam Spark adalah

Spark SQL

12. Manajemen memori dalam Spark dikerjakan oleh

Spark Core

13. Cluster manager yang dapat digunakan pada Spark adalah

Semua benar (Hadoop YARN, Mesos cluster, Standalone scheduler)

14. Spark lebih cepat dibandingkan dengan MapReduce karena

Direct Acylic Graph mengeksekusi mesin dan komputasi didalam memori


15. Api Machine Learning yang utama untuk Spark saat ini adalah API berbasis

DataFrame

16. Apache Spark berpotensi … lebih cepat untuk menjalankan program pemrosesan batch didalam
memori jika dibandingkan dengan MapReduce

100 kali

17. Komponen berikut ini yang tidak terdapat diatas Spark Core adalah

Semua salah (Spark SQL, Spark MLib, Spark RDD)

18. Spark SQL menerjemahkan perintah kedalam bentuk kode yang diproses oleh

Semua salah (Cluster manager, Driver nodes, Executor nodes)

19. Pernyataan berikut ini yang salah mengenai Spark dan Hadoop adalah

Keduanya merupakan mesin komputasi cluster

20. Spark dapat menjalankan … tugas pada setiap partisi

Satu
Team Teaching Big Data M12

1. Algoritma untuk menentukan jumlah segitia yang melewati setiap simpul dalam graf

Triangle Count

2. Urutan edge yang memungkinkan Anda berpindah dari vertex A ke vertex B disebut

Path

3. Algoritma untuk mengukur seberapa pentingnya halaman situs web

Page Rank

4. Untuk menampilkan pola di balik hubungan antara entitas data

Visualisasi Grafik

5. Manakah urutan yang benar untuk menjelaskan cara kerja Spark Streaming:

1. Input data stream diterima oleh Spark Streaming,

2. Batch input data / RDD tersebut diproses oleh Spark Engine menggunakan operasi RDD.,

3. Hasilnya adalah batch data yang telah diproses didorong keluar ke sistem eksternal,

4. Oleh Spark Streaming data dibagi menjadi kumpulan / batch input data (diperlakukan sebagai RDD).

1-4-2-3

6. Fitur Spark Streaming

Pemulihan cepat dari kegagalan dan kekeliruan

7. Langkah pipa pemrosesan data grafik :

1. Pembuatan grafik,

2. Pengolahan pasca,

3. Pra-pemrosesan data (yang mencakup pemuatan, transformasi, dan pemfilteran),

4. Analisis

3-1-4-2

8. Algoritma untuk menemukan komponen terhubung dari suatu graf

Connected Components

9. Contoh database grafik

Neo4j

10. Contoh penggunaan Spark Streaming

Netflix
11. Operasi Jendela membutuhkan parameter

window length

12. Framework yang dapat digunakan untuk memproses data grafik dan menjalankan analisis prediktif
pada data

Spark GraphX

13. Contoh use case penggunaan Spark GraphX

Semua Benar (Film baru yang paling direkomendasikan orang-orang 1 minggu terakhir, Orang-orang
yang sama-sama mensitasi suatu artikel, Teman toni di facebook yang paling banyak pengikutnya)

14. Pernyataan yang benar tentang Graph

Semua benar (Graph terdiri dari simpul dan sisi, Semua yang ada di Facebook adalah contoh
penggunaan struktur data graph, Edge menunjukan relasi antar simpul)

15. Fitur Spark GraphX

Semua benar (Kecepatan, Pustaka Algoritma, Fleksibilitas)

16. Apa yang menyebabkan Spark Streaming memiliki toleransi kesalahan?

Kumpulan data input direplikasi dalam memori

17. Yang diperlukan untuk menangani data besar dalam bentuk grafik

Semua benar (Analisis Data Grafikm Visualisasi data grafik, Database grafik)

18. Aliran data yang berkelanjutan dalam Spark Streaming disebut

DStream

19. Pernyataan yang benar tentang Apache Spark, kecuali

Abstraksi memori terdistribusi untuk komputasi dalam memori pada klaster besar yang toleran terhadap
kesalahan

20. Pernyataan yang benar Spark Streaming

Semua benar (Memproses menggunakan algoritma kompleks dengan fungsi seperti map, reduce, join,
window, Dapat menyerap data dari berbagai sumber, Data yang diproses dapat dikirim ke sistem file,
database, dan live dashboard)
Team Teaching Big Data M13

1. CUDA yang diciptakan oleh NVIDIA adalah singkatan dari

Compute Unified Device Architecture

2. Tiga tahap alur pemrosesan dalam eksekusi program CUDA

Langkah ke-1 Salin input data dari CPU memory ke GPU memory

Langkah-2 Muat program GPU dan eksekusi, caching (simpan) data pada chip untuk kinerja

Langkah-3 Salin hasil dari GPU memory ke CPU memory

3. Arsitektur CUDA menerapkan pendekatan berupa kumpulan streaming multiprocessors (SM) yang

Mengeksekusi sejumlah instruksi yang sama pada beberapa thread pada berbagai wilayah data,
sehingga dikenal dengan istilah single instruction, multiple threads (SIMT)

4. Komputasi paralel adalah komputasi yang

Melibatkan banyak unit computer untuk memecahkan masalah yang berbeda-beda untuk masing-
masing unit computer, namun dalam waktu yang sama

5. Tujuan utama dari pemrograman paralel adalah untuk meningkatkan performa komputasi. Performa
dalam pemrograman paralel diukur dari

Berapa banyak peningkatan kecepatan (speed up) yang diperoleh dalam menggunakan tehnik paralel

6. CUDA C++ adalah perluasan C++ sehingga programmer dapat mendefinisikan fungsi C++ yang ketika
dipanggil, akan dieksekusi sebanyak N kali secara paralel dan N CUDA thread yang berbeda. Fungsi ini
dikenal dengan istilah

Kernel

7. Kernel pada pemrograman CUDA agar dieksekusi pada device, dideklarasi menggunakan

__global__

8. Sistem terdistribusi (distributed computing) adalah teknik komputasi paralel dimana

Komputer yang digunakan secara bersamaan dalam melakukan komputasi dilakukan oleh computer-
komputer terpisah yang terhubung dalam suatu jaringan komputer

9. Perintah kernel < <N, M> >(…) menunjukkan device untuk

Mempersiapkan block sebanyak N dengan thread sebanyak M di tiap block

10. Istilah thread pada GPU adalah

Satuan pemrosesan sekuensial yang dikumpulkan dalam satu grup yang disebut sebagai thread block

11. Dua kata istilah penting yang digunakan dalam CUDA, yaitu: host dan device. Istilah host pada CUDA
mengacu pada
CPU

12. Dua kata istilah penting yang digunakan dalam CUDA, yaitu: host dan device. Istilah device pada
CUDA mengacu

GPU

13. GPU dalam teknologi komputasi adalah singkatan dari

Graphics Processing Unit

14. Pengelolaan memori pada device pada dasarnya menggunakan

CudaMalloc(), cudaMemcpy(), cudaFree()

15. Pernyataan yang benar mengenai thread block pada GPU

Beberapa block dihimpun dalam satu thread, yang kemudian beberapa thread dihimpun dalam satu
kesatuan grid

16. CUDA adalah platform komputasi paralel dengan arsitektur komputasi masuk dalam

Heterogenous computing, karena melibatkan CPU dan GPU

17. Pernyataan yang benar mengenai pemrograman paralel pada GPU

Semua pernyataan benar

18. Pernyataan berikut yang beanr mengenai CUDA

CUDA adalah suatu platform untuk komputasi paralel, dan memanfaatkan GPU untuk komputasi

19. CPU dari suatu unit computer adalah singkatan dari

Central Processing Unit

20. Perintah kernel < <N, M> >(…) menunjukkan device untuk

Mempersiapkan block sebanyak N dengan thread sebanyak M di tiap block


Team Teaching Big Data M14

1. Bahasa pemrograman Python tergolong cepat dikarenakan

Semua benar

Bahasa pemrograman tingkat tinggi

Dapat diinterpretasikan

Dapat dikodekan secara dinamis

2. Bahasa pemrograman Python tergolong lambat untuk eksekusi

Tugas yang berulang dan tergolong tingkat rendah

3. Modul kompilasi tepat waktu pada Python untuk CPU adalah

Semua benar (Numba, PySpark, CUDA)

4. Berikut ini adalah urutan proses yang dijalankan oleh Numba

Rewrite IR, Lowering, LLVM IR, LLVM/NVVM JIT

5. Banyaknya operasi-operasi kecil yang berulang merupakan salah satu penyebab bahasa pemrograman
Python

Tergolong lambat

6. Berikut ini yang pernyataan yang tepat tentang Python adalah

Semua jawaban benar

Python tergolong cepat untuk pengembangan

Python tergolong lambat untuk eksekusi kode program

7. Elemen dalam RDD dikelompokkan kedalam beberapa partisi dan hanya dapat disimpan pada sebuah
node yang berbeda merupakan konsep RDD dalam hal

Distributed

8. Numba dapat menangani

Semua jawaban benar (Penyalinan data dari dan ke host jika diperlukan, Alokasi data dari dan ke host
jika diperlukan)

9. Komputasi pada GPU cluster dapat menggunakan

Semua jawaban benar (Numba, PySpark)

10. Berikut ini yang salah terkait dengan Numba adalah

Semua salah

11. Bahasa pemrograman Python tergolong cepat digunakan untuk


Semua benar (Mengembangkan kode program, menguji kode program, menulis kode program)

12. Apache Spark bukan merupakan

Semua jawaban salah

13. Spark diimplementasikan dalam

Semua jawaban benar (Scala dan Java)

14. Berikut ini adalah komputasi primitive yang tersedia pada Spark untuk melakukan parelelisme dan
meminimumkan komunikasi antar workers

Semua benar (Map, Filter, Reduce)

15. Berikut ini yang benar terkait dengan Numba, kecuali

Open-source

16. Modul kompilasi tepat waktu pada Python untuk GPU adalah

Semua benar (PySpark, Numba, CUDA)

17. API Spark memiliki dukungan yang terbatas pada bahasa pemrograman

18. Permasalahan alokasi memori dalam komputasi pada GPU terdapat pada tugas yang berskala

Kecil

19. Type inference pada proses Numba memerlukan

Semua jawaban benar (Functions Arguments, Numba IR)

20. Pemrograman terdistribusi dalam Python adalah

Semua benar (CUDA, Numba, PySpark)


4/4/22, 11:44 AM 1 pesan baru

Dashboard / My courses /
ATA 2021/2022 | 2-FTI | Kompuasi Big Data | TEAM TEACHING /
Pertemuan 5: Implementasi Big Data pada Fintech
/
Kuis M5: Implementasi BigData pada Fintech

Started on Monday, 4 April 2022, 11:30 AM


State Finished
Completed on Monday, 4 April 2022, 11:44 AM
Time taken 14 mins 4 secs
Marks 6.00/20.00
Grade 30.00 out of 100.00

Question 1 Berikut ini merupakan karakteristik dari Big Data, kecuali:


Correct

Mark 1.00 out of Select one:


1.00
a. Semua salah 

b. Veracity

c. Volume

d. Variety

The correct answer is: Semua salah

Question 2 Server logs merupakan salah satu contoh jenis data:


Correct

Mark 1.00 out of Select one:


1.00
a. Tidak Terstruktur

b. Semi Terstruktur 

c. Terstruktur

d. Semua Pilihan Salah

The correct answer is: Semi Terstruktur

Question 3 Pembayaran Kartu prakerja merupakan salah satu proyek yang dikerjakan oleh Link Aja bersama dengan:
Correct

Mark 1.00 out of Select one:


1.00
a. Pemerintah 

b. BPJS

c. Bank Indonesia

d. Semua salah

The correct answer is: Pemerintah

1
Online

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=5786711&cmid=867269 1/6
4/4/22, 11:44 AM 1 pesan baru

Question 4 Dalam ekosistem teknologi Data Engineering Link Aja! Apache Airflow berfungsi sebagai:
Incorrect

Mark 0.00 out of Select one:


1.00
a. Data Sources Gathering

b. Streaming Infrastructure

c. Monitoring 

d. Batching Infratructure

The correct answer is: Batching Infratructure

Question 5 Kafka dikembangkan pertama kali oleh:


Correct

Mark 1.00 out of Select one:


1.00
a. Linkedin 

b. Yahoo

c. Facebook

d. Google

The correct answer is: Linkedin

Question 6 Berikut ini yang bukan contoh data terstruktur adalah:


Incorrect

Mark 0.00 out of Select one:


1.00
a. Nama pelanggan

b. Nomor KTP 

c. Email

d. Nomor telepon

The correct answer is: Email

Question 7 Berikut ini yang merupakan arsitektur Big Data adalah:


Incorrect

Mark 0.00 out of Select one:


1.00
a. Arsitektur Beta dan Kappa

b. Arsitektur Lambda dan Kappa

c. Arsitektur Alfa dan Lambda 

d. Arsitektur Alfa dan Beta

The correct answer is: Arsitektur Lambda dan Kappa

1
Online

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=5786711&cmid=867269 2/6
4/4/22, 11:44 AM 1 pesan baru

Question 8 Berikut ini merupakan komponen-kompone produksi dalam implementasi big data, kecuali:
Correct

Mark 1.00 out of Select one:


1.00
a. MongoDB 

b. Presto

c. Spark

d. Kafka

The correct answer is: MongoDB

Question 9 Data terstrutur disimpan kedalam bentuk:


Incorrect

Mark 0.00 out of Select one:


1.00
a. Gambar

b. Abstrak

c. Semua benar 

d. Baris dan kolom

The correct answer is: Baris dan kolom

Question 10 Peran Data Engineer seringkali juga disebut sebagai:


Incorrect

Mark 0.00 out of Select one:


1.00
a. Statistician 

b. Data Architect

c. Business Analyst

d. Data Manager

The correct answer is: Data Architect

Question 11 Menjadi platform teknologi keuangan nasional terdepan dan terpercaya merupakan ... dari Link Aja!:
Incorrect

Mark 0.00 out of Select one:


1.00
a. Misi

b. Visi

c. SLogan

d. Tujuan 

The correct answer is: Visi

1
Online

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=5786711&cmid=867269 3/6
4/4/22, 11:44 AM 1 pesan baru

Question 12 Berikut ini urutan proses yang dilakukan dalam Arsitektur Kappa adalah:
Incorrect

Mark 0.00 out of Select one:


1.00
a. Data Sources, Streaming/Real-Time Ingestion, Streaming/Real-Time Processing, Analytical Data Store, Analytics
&amp; Reporting

b. Data Sources, Analytical Data Store, Streaming/Real-Time Ingestion, Streaming/Real-Time Processing, Analytics
&amp; Reporting 

c. Data Sources, Streaming/Real-Time Processing, Streaming/Real-Time Ingestion, Analytical Data Store, Analytics
&amp; Reporting

d. Data Sources, Streaming/Real-Time Ingestion, Analytical Data Store, Streaming/Real-Time Processing, Analytics
&amp; Reporting

The correct answer is: Data Sources, Streaming/Real-Time Ingestion, Streaming/Real-Time Processing, Analytical Data
Store, Analytics &amp; Reporting

Question 13 Salah satu aktivitas yang dilakukan oleh Link Aja! dalam mengadopsi alat-alat bantu untuk pengelolaan data adalah:
Incorrect

Mark 0.00 out of Select one:


1.00
a. Memprioritaskan data yang memiliki tingkat kepentingan tinggi dan bernilai

b. Meningkatkan proses perbaikan kualitas data 

c. Memaksimumkan pemanfaatan platform Google Cloud

d. Mengoptimalkan jumlah kelompok pengguna yang dapat mengakses

The correct answer is: Memaksimumkan pemanfaatan platform Google Cloud

Question 14 Berikut ini yang bukan termasuk kedalam peran Tim Data di Link Aja! adalah:
Correct

Mark 1.00 out of Select one:


1.00
a. Data Analyst

b. Data Intelligent 

c. Data Scientist

d. Data Engineer

The correct answer is: Data Intelligent

Question 15 Berikut ini adalah teknologi yang digunakan oleh Link Aja! pada bagian Persistence Layer, kecuali:
Incorrect

Mark 0.00 out of Select one:


1.00
a. Google Big Query 

b. Grafana

c. PostgreSQL

d. Google Cloud Storage

The correct answer is: Grafana

1
Online

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=5786711&cmid=867269 4/6
4/4/22, 11:44 AM 1 pesan baru

Question 16 Salah satu teknologi yang dapat digunakan pada bagian Serving Layer dalam Arsitektur lambda adalah:
Incorrect

Mark 0.00 out of Select one:


1.00
a. Spark 

b. Flume

c. HDFS

d. Hive

The correct answer is: Hive

Question 17 Cloudera merilis Kudu pada tahun:


Incorrect

Mark 0.00 out of Select one:


1.00
a. 2008

b. 2015

c. 2016

d. 2020 

The correct answer is: 2015

Question 18 Nathan Marz adalah orang yang pertama kali mengembangkan:


Incorrect

Mark 0.00 out of Select one:


1.00
a. Storm

b. Beam

c. Hadoop 

d. Hive

The correct answer is: Storm

Question 19 Ukuran kualitas citra merupakan salah satu luaran yang dihasilkan oleh AI/ML Scientist Link Aja! pada proyek:
Incorrect

Mark 0.00 out of Select one:


1.00
a. Natural Language processing

b. Pembuatan Platform AI/ML 

c. Otomasi Produksi AI/ML

d. eKYC Improvement

The correct answer is: eKYC Improvement

Question 20 Salah satu karakteristik data tidak terstruktur adalah:


Incorrect

Mark 0.00 out of Select one:


1.00
a. Berbasis teks

b. Model data dapat ditentukan sebelumnya 

c. Terkelola secara fleksibel

d. Sulit untuk dicari 1


Online

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=5786711&cmid=867269 5/6
4/4/22, 11:44 AM 1 pesan baru

◄ Materi M5: Implementasi Big Data Kuis M5: Implementasi BigData pada
Jump to...
pada Fintech Fintech (Khusus KELAS MALAM) ►

1
Online

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=5786711&cmid=867269 6/6
4/11/22, 8:00 PM Kuis M6: BigData di PPATK: Attempt review

Dashboard / My courses /
ATA 2021/2022 | 2-FIKTI | Kompuasi Big Data | TEAM TEACHING /
Pertemuan 6: Big Data di PPATK
/
Kuis M6: BigData di PPATK

Started on Monday, 11 April 2022, 7:49 PM


State Finished
Completed on Monday, 11 April 2022, 8:00 PM
Time taken 10 mins 25 secs
Grade 100.00 out of 100.00

Question 1 Splitting data set dalam pemodelan mesin learning untuk menganalisa data transaksi keuangan adalah
Correct

Mark 5.00 out of Select one:


5.00
a. menampilkan grafik box plot dalam tiap dimensi

b. membagi data set menjadi dua bagian, yaitu data training dan data test 

c. me-log kan regresi model klasifikasi

d. melakukan perankongan dalam rangka mengeliminasi fitur yang kurang berpengaruh

The correct answer is: membagi data set menjadi dua bagian, yaitu data training dan data test

Question 2 Agen Kecerdasan Artifisial menerima dan bertindak berdasrkan lingkungan (environment) menggunakan
Correct

Mark 5.00 out of Select one:


5.00
a. Perceiver

b. Sensor

c. Sensor maupun Actuator 

d. Actuator

The correct answer is: Sensor maupun Actuator

Question 3 Berikut ini yang merupakan tahapan data engineering dalam big data analytics adalah
Correct

Mark 5.00 out of Select one:


5.00
a. data architecure, data acquisition, data cleaning, dan cloud computation 

b. penentuan volume data, velocity data, dan varietas data

c. data exploration, data mining, data visualization

d. deep learning, machine learning, AI

The correct answer is: data architecure, data acquisition, data cleaning, dan cloud computation

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=5910173&cmid=881829 1/6
4/11/22, 8:00 PM Kuis M6: BigData di PPATK: Attempt review

Question 4 Agent AI yang terbaik adalah ____________


Correct

Mark 5.00 out of Select one:


5.00
a. yang memerlukan input untuk memecahkan masalah

b. yang dapat memecahkan masalah tanpa intervensi manusia 

c. yang memerlukan contoh masalah, basis pengetahuan, dan memerlukan input, untuk memecahkan masalah

d. yang memerlukan contoh masalah dan basis pengetahuannya dalam memecahkan masalah

The correct answer is: yang dapat memecahkan masalah tanpa intervensi manusia

Question 5 Pusat Pelaporan dan Analisis Transaksi Keuangan (PPATK) merupakan lembaga sentral (focal point) yang
Correct mengkoordinasikan pelaksanaan upaya pencegahan dan pemberantasan tindak pidana pencucian uang di Indonesia.
Mark 5.00 out of PPATK dalam tugasnya menerapkan AI (Artificial Intelligence)
5.00

Select one:
a. di bidang: Kepegawaian, Kepatuhan Pelaporan, Analisis Transaksi, Pelaporan, Sentimen Analisis, dan Keamanan
Data 

b. di bidang: Analisis Transaksi

c. hanya di bidang Keamanan data.

d. di semua bidang yang tidak melibatkan Sentimen Analisis

The correct answer is: di bidang: Kepegawaian, Kepatuhan Pelaporan, Analisis Transaksi, Pelaporan, Sentimen Analisis, dan
Keamanan Data

Question 6 Salah satu agen intelligence yang bertugas saat mengumpulkan data melalui sumber Web seperti HTML dokumen,
Correct gambar, file teksadalah:
Mark 5.00 out of
5.00 Select one:
a. Chat Box

b. Compiler

c. web crawler 

d. parser

The correct answer is: web crawler

Question 7 Berikut sistem intelligent yang dapat difungsikan pada bidang Pelaporan pada Pusat Pelaporan dan Analisis Transaksi
Correct Keuangan (PPATK) adalah
Mark 5.00 out of
5.00 Select one:
a. dapat keduanya, chat Box untuk layanan bantuan dan evaluasi laporan 

b. chat Box untuk layanan bantuan

c. bukan keduanya, baik chat box maupun evaluasi laporan.

d. evaluasi laporan

The correct answer is: dapat keduanya, chat Box untuk layanan bantuan dan evaluasi laporan

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=5910173&cmid=881829 2/6
4/11/22, 8:00 PM Kuis M6: BigData di PPATK: Attempt review

Question 8 Jika dalam memodelkan klasifikasi transaksi keuangan, diperoleh nilai akurasi untuk model logistic regression adalah 0,62,
Correct model K-NN adalah 0,91, dan model random forest adalah 0,98, maka berarti:
Mark 5.00 out of
5.00 Select one:
a. random forest memprediksi transaksi wajar paling banyak dibandingkan model K-NN dan logistic regression, yaitu
sebesar 98%

b. transaksi wajar diprediksi sebesar 62% menurut logistic regression

c. logistic regression lebih akurat dibanding k-NN dan random forest

d. random forest lebih akurat dibanding k-NN dan logistic regression 

The correct answer is: random forest lebih akurat dibanding k-NN dan logistic regression

Question 9 Proses rekursif yang meranking fitur berdasarkan tingkat pentingnya terhadap proses prediksi, salah satunya adalah
Correct

Mark 5.00 out of Select one:


5.00
a. Splitting data set ke data train dan data uji

b. Recursive Feature Elimination 

c. random forest clssifier

d. logistic regression model

The correct answer is: Recursive Feature Elimination

Question 10 Salah sata tahapan big data analytics adalah data mining, yang memperkerjakan machine learning, yaitu melakukan
Correct

Mark 5.00 out of Select one:


5.00
a. penentuan volume data, velocity data, dan varietas data

b. Data engineering, data exploration, data visualization

c. data architecure, data acquisition, data cleaning, dan cloud computation

d. estimasi atau prediksi, atau mengklasifikasi, atau meng-cluter, atau menentukan asosiasi 

The correct answer is: estimasi atau prediksi, atau mengklasifikasi, atau meng-cluter, atau menentukan asosiasi

Question 11 Berikut teknik Kecerdasan Artifisial yang membuat komputer dapat memahamai asosiasi dan relasi antara object dan
Correct kejadian adalah
Mark 5.00 out of
5.00 Select one:
a. Cognitive Science

b. Relative Symbolism

c. Heuristic Processing

d. Pattern Matching 

The correct answer is: Pattern Matching

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=5910173&cmid=881829 3/6
4/11/22, 8:00 PM Kuis M6: BigData di PPATK: Attempt review

Question 12 Bagian dari sistem Kecerdasan Artifisial yang mengolah pengetahuan adalah
Correct

Mark 5.00 out of Select one:


5.00
a. Hadoop

b. Validator

c. Machine Learning 

d. Data historis

The correct answer is: Machine Learning

Question 13 Akurasi model klasifikasi adalah


Correct

Mark 5.00 out of Select one:


5.00
a. nilai true positive dibagi nilai true negative

b. jumlah nilai true positive dan true negative dibagi total data 

c. nilai true positive dibagi total data

d. nilai true negatif dibagi total data

The correct answer is: jumlah nilai true positive dan true negative dibagi total data

Question 14 Pada saat memodelkan mesin learning dalam menganalisa data transaksi keuangan, melakukan perankingan adalah
Correct tahapan pada
Mark 5.00 out of
5.00 Select one:
a. data engineering

b. data exploration 

c. prediction modelling

d. data visualization

The correct answer is: data exploration

Question 15 Membuat grafik box plot adalah salah satu tahapan dalam implementasi mesin learning, yaitu tahap
Correct

Mark 5.00 out of Select one:


5.00
a. verifikasi model

b. eksplorasi data 

c. modelling

d. validasi model

The correct answer is: eksplorasi data

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=5910173&cmid=881829 4/6
4/11/22, 8:00 PM Kuis M6: BigData di PPATK: Attempt review

Question 16 Maksud pernyataan "Pemodelan Machine Learning untuk memprediksi data transaksi keuangan merupakan transaksi
Correct wajar atau mencurigakan", adalah
Mark 5.00 out of
5.00 Select one:
a. memvalidasi data historis agar data baru menjadi data transaksi wajar

b. menentukan statistik data historis, untuk input data baru dalam meprediksinya apakah data tersebut berada pada
nilai transaksi wajar atau transaksi mencurigakan

c. memverifikaso data historis agar tidak ada transaksi yang mencurigakan

d. membangun model terbaik, berdasarkan data historis, untuk input data baru dalam meprediksinya apakah data
tersebut suatu transaksi wajar atau transaksi mencurigakan 

The correct answer is: membangun model terbaik, berdasarkan data historis, untuk input data baru dalam meprediksinya
apakah data tersebut suatu transaksi wajar atau transaksi mencurigakan

Question 17 Pusat Pelaporan dan Analisis Transaksi Keuangan (PPATK) merupakan lembaga sentral (focal point) yang
Correct mengkoordinasikan pelaksanaan upaya pencegahan dan pemberantasan tindak pidana pencucian uang di Indonesia.
Mark 5.00 out of PPATK dalam tugasnya menerapkan AI (Artificial Intelligence). Pernyataan berikut yang benar mengenai AI adalah
5.00

Select one:
a. cabang ilmu dari machine learning

b. Cabang ilmu dari komputasi big data

c. cabang dari ilmu komputer yang menenkankan pada pengembangan mesin cerdas (intelligence), berpikir dan
bekerja seperti manusia 

d. cabang ilmu dari data mining

The correct answer is: cabang dari ilmu komputer yang menenkankan pada pengembangan mesin cerdas (intelligence),
berpikir dan bekerja seperti manusia

Question 18 Big data analytics, termasuk didalamnya urutan tahapan berikut:


Correct

Mark 5.00 out of Select one:


5.00
a. Data engineering, data exploration, data mining, data visualization 

b. data architecure, data acquisition, data cleaning, dan cloud computation

c. deep learning, machine learning, AI

d. penentuan volume data, velocity data, dan varietas data

The correct answer is: Data engineering, data exploration, data mining, data visualization

Question 19 Berikut yang merupakan algoritma yang dapat digunakan untuk model klasifikasi transaksi keuangan adalah
Correct

Mark 5.00 out of Select one:


5.00
a. data splitting menjadi data training dan data testing

b. confussion matrix, true possitivity

c. Logistic regression, K-NN, Random Forest 

d. C#, Java, Python, R, Ruby, Scala, SQL

The correct answer is: Logistic regression, K-NN, Random Forest

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=5910173&cmid=881829 5/6
4/11/22, 8:00 PM Kuis M6: BigData di PPATK: Attempt review

Question 20 Machine LAerning dapat digolongkan dalam


Correct

Mark 5.00 out of Select one:


5.00
a. 3 tipe: Supervised Learning, Unsupervised Learning, dan Reinforcement Learning 

b. dua tipe, yaitu: Unsupervised Learning dan Reinforcement Learning

c. satu tipe, yaitu: Deep Learning

d. 4 tipe, yaitu: Supervised Learning, Unsupervised Learning, Reinforcement Learning, dan Deep Learning

The correct answer is: 3 tipe: Supervised Learning, Unsupervised Learning, dan Reinforcement Learning

Kuis M6: BigData di PPATK (Kelas


◄ Materi M6: BigData di PPATK Jump to...
MALAM) ►

https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=5910173&cmid=881829 6/6

You might also like