Professional Documents
Culture Documents
Big Data
Big Data
COMPUTING
BIG DATA COMPUTING OVERVIEW (M1)
TEAM TEACHING UNIVERSITAS GUNADARMA
OUTLINE
Finance
Social
Media Retail
Health
E-Commerce
Insurance
BIG DATA
Name Date Time Age Salary … Post # Like … Amount Point … Treatment Claim …
09.25
11.13 Rp98.000 20
… … … … … … … … … … … … … …
… … … … … … … … … … … … … … …
SAMPLE BIG DATA SOLUTIONS
2. Sarstedt, M., Ringle, C. M., & Hair, J. F. (2017). Partial Least Squares Structural Equation Modeling, in Handbook of Market Research. Switzerland: Springer.
• A single unit of information is a value of a feature/attribute, where each feature can take a number of different
values.
• There are two key types of values: numerical and symbolic.
• Features (also known as attributes) are usually described by a set of corresponding values.
• Features described by both numerical and symbolic values can be either discrete (categorical) or continuous.
• Objects (also known as records, examples, units, cases, individuals, data points) represent entities described by one or
more features.
• Objects described by the same features are grouped to form data sets.
• Notes: Constructs, also referred to as latent variables, are elements in statistical models that represent
conceptual variables that researchers define in their theoretical models. The indicators, often also named manifest
variables or items, are directly measured or observed variables that represent the raw data. They are linked to
their corresponding constructs. [2]
DATA (2) – DATABASE
Cios, K. J., Swiniarski, R. W., Pedrycs, W., & Kurgan, L. A. (2007). Data, in Data Mining. Boston: Springer.
• Data sets which organized in a rectangularly formatted table composed of rows and columns is called as flat files.
• A polling results (September 2005) performed by KDNuggets: Flat files, which are often extracted from relational databases, were used 26% in the
last 12 months, time series (temporal databases) 13%, text databases 11%, transactional databases 10%, and WWW clickstream data,
spatial databases, and WWW content data 5% each.
• A DataBase Management System (DBMS) provides numerous services, such as the ability to define the structure (schema) of the database,
to store the data, to access the data in concurrent ways (several users may access the data at the same time) and distributed ways (the data are
stored in different locations), and to ensure the security and consistency of the stored data (for instance, to protect against unauthorized access or
a system crash).
• A relational database, the most common database type, consists of a set of tables where each table is rectangular and can be perceived as being
analogous to a single flat file.
• The tables consist of attributes (also called columns or fields) and tuples (also called records and rows).
• Each table is assigned a unique name, and each tuple in a table is assigned a special attribute, called a key, that defines its unique identifiers.
• Relational databases also include the entity-relational (ER) data model, which defines a set of entities (tables, tuples, etc.) and their relationships.
• Another important feature of a DBMS is the availability of a specialized language, called Structured Query Language (SQL), that aims to provide
fast and convenient access to portions of the entire database.
DATA (3) – DATABASE MODEL
Cios, K. J., Swiniarski, R. W., Pedrycs, W., & Kurgan, L. A. (2007). Data, in Data Mining. Boston: Springer.
• Object-oriented database
• Object-relational database
• Transactional database
• Spatial database
• Temporal database
• Text database
• Multimedia database
• WWW
DATA (4) – DATA WAREHOUSE
Cios, K. J., Swiniarski, R. W., Pedrycs, W., & Kurgan, L. A. (2007). Data, in Data Mining. Boston: Springer.
VS
BIG DATA
Kune, R., Konugurthi, P. K., Agarwal, A.,
Chillarige, R. R., & Buyya, R. (2016).
The anatomy of big data computing.
Software: Practice and Experience. Vol.
46: pp. 79-105.
BIG DATA COMPUTING
Kune, R., Konugurthi, P. K., Agarwal, A., Chillarige, R. R., & Buyya, R. (2016). The anatomy of big data computing. Software: Practice and Experience. Vol. 46: pp.
79-105.
Big data computing is a new paradigm that combines large-scale compute, new data-
intensive techniques, and mathematical models to build data analytics.
BIG DATA TECHNOLOGIES
Storage, Analytics, and Visualization
BIG DATA
COMPONENTS
Kune, R., Konugurthi, P. K., Agarwal, A.,
Chillarige, R. R., & Buyya, R. (2016).
The anatomy of big data computing.
Software: Practice and Experience. Vol.
46: pp. 79-105.
BIG DATA ARCHITECTURE
Prasad, B. R. & Agarwal, S. (2016). Comparative Study of Big Data Computing and Storage Tools: A Review. International Journal of Database Theory and
Application.Vol. 9(1): pp. 45-66.
BIG DATA ECOSYSTEM
https://medium.com/@jain6968/big-data-ecosystem-b0e4c923d7aa
BIG DATA TOOLS (1) – DISTRIBUTED PROCESSING AND STORAGE
Pop, D., Iuhasz, G., & Petcu, D. (2016). Distributed Platforms and Cloud Services: Enabling Machine Learning for Big Data, in Data Science and Big Data
Computing: Frameworks and Methodologies. Switzerland: Springer.
BIG DATA TOOLS
(2) – DISTRIBUTED
MACHINE
LEARNING
FRAMEWORKS
Pop, D., Iuhasz, G., & Petcu, D. (2016).
Distributed Platforms and Cloud
Services: Enabling Machine Learning
for Big Data, in Data Science and Big
Data Computing: Frameworks and
Methodologies. Switzerland: Springer.
BIG DATA TOOLS
(3) – MACHINE
LEARNING AS A
SERVICE
Pop, D., Iuhasz, G., & Petcu, D. (2016).
Distributed Platforms and Cloud
Services: Enabling Machine Learning
for Big Data, in Data Science and Big
Data Computing: Frameworks and
Methodologies. Switzerland: Springer.
DGX A100 (1)
www.nvidia.com/DGXA100
DGX A100 (2)
www.nvidia.com/DGXA100
BIG DATA ANALYTICS
Data Science
BIG DATA ANALYTICS WORKFLOW
Assuncāo, M. D., Calheiros, R. N., Bianchi, S., Netto, M. A. S., & Buyya, R. (2015). Big Data computing and clouds: Trends and future directions. Journal of
Parallel and Distributed Computing. vol. 79-80: pp. 3-15.
BIG DATA ANALYTICS CATEGORIES
Assuncāo, M. D., Calheiros, R. N., Bianchi, S., Netto, M. A. S., & Buyya, R. (2015). Big Data computing and clouds: Trends and future directions. Journal of
Parallel and Distributed Computing. vol. 79-80: pp. 3-15.
DATA SCIENCE
Cleveland, W. S. (2001). Data Science: an Action Plan for Expanding the Technical Areas of the Field of Statistics. International Statistical Review, vol. 69(1):
pp. 21-26.
• The outcome of two areas of data science – models and methods, and computing with data – are tools for the data analyst.
METHODOLOGY
Galih Permadi
Not only can the company congratulate the parents, they can introduce the value of life
insurance or the benefits in setting up a 529 Plan to begin saving for their kid’s college
education.
http://www.flashtalking.com/us/targeted-ads/
another one: marketplace and services
recommendation engine
and
or
Real-Life Business Application
Machine Learning & Predictive Analytics
Airline Dynamic Pricing
Considering high competition of low-cost carrier airline industry in Indonesia, proper pricing strategy is
become more and more essential. Challenges:
• Monitoring competitor’s pricing strategy in more efficient way.
• Difficulty to predict uncommon peak season which leads to overdue pricing adjustment.
Customer Profile
Dynamic Pricing
Pricing Component:
• Internal pricing
• Goverment’s rule
• Competitor’s Pricing recommendation
User Login
Special Offer
engine
pricing Notification
• Calendar activity Loyal Customer
• Market size, etc.
learning model to predict when a • Precision describe as when it predicts down, how
often it is correct = 60%.
specific machine will be out of • Recall describe as when it’s actually yes, how often
work and apply preventive does it predict yes = 51.1%.
maintenance beforehand. • F1 Score is the weighted average of precision and
recall = 55.2%. This score works best if false positive
and false negative have similar cost.
Our run-in with this challenge was To evaluate the model, we cannot rely on only one
measurement. Tweaking the classifier is a matter of
on an automotive industry, balancing what is more important or more costly for us:
yielding 80%+ accuracy of the
prediction.
Predictive Analytics: Disease Outbreak Prediction
Going further, with very detailed data set, we can start to predict the future
2009 6 rawat jalan N00-N99 Diseases ofN17-N19
the genitourinaryRenal
system failure 3 NULL NULL 1,155,264 770,176 NULL
2009 6 rawat jalan N00-N99 Diseases ofN30-N39
the genitourinaryOther
system diseases of urinary 1 system
NULL - - - NULL
2009 6 rawat jalan Q00-Q99 Congenital Q20-Q28
malformations, deformations
Congenital malformations
and chromosomal
1 of NULL
the
abnormalities
circulatory system - - - NULL
2009 6 rawat jalan S00-T98 Injury, poisoning
S00-S09and certain other
Injuries
consequences
to the head of12 external
NULLcauses - 3,049,516 1,621,744 NULL
also analyse the impact it may creates on the insurance claims both on BPJS
2009 6 rawat jalan R00-R99 Symptoms,R30-R39signs and abnormalSymptoms
clinical and
andlaboratory
signs involving
2 findings,
NULL
the urinary
not elsewhere
system
NULL classified 10,800 7,200 NULL
2009 6 rawat jalan R00-R99 Symptoms,R10-R19signs and abnormalSymptoms
clinical and
andlaboratory
signs involving
1 findings,
NULL
the digestive
not elsewhere
NULL
system classified
and abdomen235,260 156,840 NULL
2009 6 rawat jalan N00-N99 Diseases ofN20-N23
the genitourinaryUrolithiasis
system 1 NULL - - - NULL
Galih Permadi
MapReduce
In Hadoop, we split our data into large sized chunks and distribute and
replicate it across our nodes on the Hadoop Distributed File System (HDFS).
What is Hadoop
The component that function as the data storage in Hadoop. By its name,
HDFS keep the data by distributing it in all its nodes.
• Hadoop data processing component. MapReduce implements the principle of parallel computation.
MapReduce will distribute the task given by user into subtasks that send to all worker.
• Nowadays, this component can be replaced by other data processing component, such as, Impala’s
MPP or Apache Spark with an improved performance
What is Hadoop
YARN’s purpose is to maintain resources (CPU, RAM, GPU) within the cluster. There are 2 daemon
(process that runs in the background) in YARN. First is NodeManager installed in the workers and
ResourceManager installed in the master.
What is Hadoop
3
Unstructured data is information that either does not have a pre-defined data model or
is not organized in a pre-defined manner.
It is believed that approximately 80% of enterprise data is unstructured data (Gartner).
Introducing Unstructured Data
Shown here is a sample of unstructured data (Twitter). In order to extract information from
this type of data, we need to prepare the data into a structured format.
Introducing Unstructured Data: NoSQL
NoSQL database (Not Only SQL or non relational database) provide mechanism to store
and retrieve data in a different way of relational database used.
• Have clear • Develop Solution • Acquire the right • Acquire, enrich, • Analyze the data for • Adapt and transform
Business cases architecture for your infrastructure needed cleanse and each of your specific your organization
including a quick- business cases based on your integrate your data to business case and towards new big data
win project including data solution architecture be analytics ready visualize it in a technology and
collection process, including data meaningful way analytics
technology storage and • Develop business implementation
architecture and processing unit, strategy and action
analytics methods platform and plan out of the
and data application insights you gathered
visualization
• Incorporate your
current asset through
a comprehensive
assessment
Segment end
Galih Permadi
Besides XQ, Galih also develop other Startup and companies focusing in solving
problems with technology.
Big Data Analytics
So What is Big Data?
Brief History of Big Data
Google release
paper about
google file
system
Organizations are
gathering data from
various sources such as
business transaction,
social media, sensor
dan machine to
machine data.
Source: https://www.domo.com/learn/data-never-sleeps-8
Why We Need Big Data - Velocity
TODAY
Analytics 3.0: Data Types
3.0
• In-memory and in-database analytics
• Integrated and embedded models
• Delivery to multiple channels, specifically mobile
• Hadoop, EDW, marts, data discovery, etc.
• Blended data science/business/IT teams
• Chief Analytics, Data, Digital Officers to oversee it all
Analytics 3.0 Example
The “Analytics of Things”
Cognitive Action
(Hands, feet, and communities)
Local Sensing
(Sense of touch, local neurons)
Analytics Implementation
in corporate organization - examples
Procter & Gamble 3.0
178 years old
• CIO Filippo Passerini and CEO Bob McDonald
focused on improving management decisions
at scale
• “Information and Decision Solutions” (IT)
embeds over 200 analysts in leadership teams
• Over 50 “Business Spheres” for executive
information viewing and decision-making
• “Decision cockpits” on 58K desktops
• 35% of marketing budget on digital
• Real-time social media sentiment analysis for
“Consumer Pulse”
Robert Bosch 3.0
129 years old
Stage 5
Analytical Competitors 2.0 and 3.0
territory
Stage 4
Analytical Companies
Stage 3
Analytical Aspirations 1.0
Stage 2 territory
Localized Analytics
Stage 1
Analytically Impaired
38 | 2015 © Thomas H. Davenport All Rights Reserved
Some Analytical Competitors
Pengenalan Hadoop
Penerapan MapReduce
Analytics
*) Gudivada, V., Irfan, M., Fathi, E., Rao, D.L.: Cognitive analytics: going beyond big data analytics and machine learning, Chap. 5. Elsevier (2016)
*) Gupta, S., Arpan Kumar Kar, A., Baabdullah, A., Al-Khowaiter, W.: Big data with cognitive computing: a review for the future. Int. J. Inf. Manage. 42, 78–89 (2018)
Mesin Rekomendasi
Aplikasi
Big Data Ecosystem
V. Janev et al. (Eds.): Knowledge Graphs and Big Data Processing, LNCS 12072, pp. 3–19, 2020
Properti Availability
Reliabillty
• Kehandalan
Cluster
File System
Konsep
Penyimpanan Distributed File System
Big Data Sharding
Replication
NoSQL
Cluster
• Kumpulan server atau node
yang digabungkan erat.
• Memiliki spesifikasi
perangkat keras yang sama
• Terhubung melalui jaringan
• Bekerja sebagai satu kesatuan
File System
On-Disk
Storage
NoSQL
Devices
NewSQL
In-Memory Data Grids
In-Memory
Storage
Devices
In-Memory Databases
Parallel Data Processing
Pemrosesan
Big Data Processing Workload
Cluster
• Pemrosesan data paralel melibatkan pelaksanaan beberapa
Parallel Data sub-tugas secara bersamaan yang secara kolektif membentuk
tugas yang lebih besar
• Secara tradisional, pemrosesan data memerlukan pemindahan data dari node penyimpanan ke
node pemrosesan yang menjalankan algoritme pemrosesan data.
• Pendekatan ini berfungsi dengan baik untuk kumpulan data yang lebih kecil; namun, dengan
kumpulan data yang besar, pemindahan data dapat menimbulkan lebih banyak overhead
daripada pemrosesan data yang sebenarnya.
• Dengan MapReduce, algoritma pemrosesan data dipindahkan ke node yang menyimpan data.
• Algoritma pemrosesan data dijalankan secara paralel pada node ini, sehingga menghilangkan
kebutuhan untuk memindahkan data terlebih dahulu.
• Ini tidak hanya menghemat bandwidth jaringan tetapi juga menghasilkan pengurangan besar
dalam waktu pemrosesan untuk kumpulan data besar, karena memproses potongan data yang
lebih kecil secara paralel jauh lebih cepat.
MapReduce
Terdiri dari:
• Pekerjaan Map, dengan tahapan
• map
• combine (optional)
• partition
• Pekerjaan Reduce
• shuffle and sort
• reduce
Map
Combine
Partition
Shuffle and Sort
Reduce
Pemrosesan dalam Mode Realtime
Dalam mode waktu nyata, data diproses dalam memori sebelum disimpan ke disk. Waktu respons biasanya
berkisar dari satu detik hingga kurang dari satu menit. Mode realtime menangani karakteristik kecepatan
kumpulan data Big Data.
Dalam pemrosesan Big Data, pemrosesan waktu nyata juga disebut pemrosesan peristiwa (event) atau aliran
(stream) karena data datang secara terus menerus (stream) atau pada interval (event). Data event / stream
individu umumnya berukuran kecil, tetapi sifat kontinu menghasilkan kumpulan data yang sangat besar.
Istilah terkait lainnya, mode interaktif, termasuk dalam kategori waktu nyata. Mode interaktif umumnya
mengacu pada pemrosesan kueri secara realtime. BI / analitik operasional umumnya dilakukan dalam mode
waktu nyata.
Prinsip dasar yang terkait dengan pemrosesan Big Data disebut prinsip Kecepatan, Konsistensi, dan Volume
(SCV). Ini dibahas pertama kali karena menetapkan beberapa batasan dasar pada pemrosesan yang terutama
memengaruhi mode pemrosesan waktu nyata.
Speed Consistency
Volume (SCV)
• Speed
• Consistency
• Volume
Dua konsep penting yang terkait dengan pemrosesan Big Data secara
realtime adalah:
• Event Stream Processing (ESP) / Pemrosesan Streaming Acara (ESP)
• Complex Event Processing (CEP) / Pemrosesan Peristiwa Kompleks (CEP)
Event Stream Processing
• Selama ESP, aliran peristiwa yang masuk, biasanya dari satu sumber dan diurutkan
berdasarkan waktu, terus dianalisis. Analisis dapat terjadi melalui kueri sederhana atau
penerapan algoritme yang sebagian besar berbasis rumus. Analisis berlangsung di dalam
memori sebelum menyimpan peristiwa ke perangkat penyimpanan di disk.
• Sumber data lain (yang ada di memori) juga dapat dimasukkan ke dalam analisis untuk
melakukan analisis yang lebih kaya. Hasil pemrosesan dapat dimasukkan ke dasbor atau
dapat bertindak sebagai pemicu aplikasi lain untuk melakukan tindakan yang telah
dikonfigurasi sebelumnya atau analisis lebih lanjut. ESP lebih berfokus pada kecepatan
daripada kompleksitas; operasi yang akan dijalankan relatif sederhana untuk membantu
eksekusi yang lebih cepat.
Complex Event Processing
• Selama CEP, sejumlah peristiwa waktu nyata yang sering datang dari sumber yang
berbeda dan tiba pada interval waktu yang berbeda dianalisis secara bersamaan
untuk mendeteksi pola dan permulaan tindakan. Algoritme berbasis aturan dan
teknik statistik diterapkan, dengan mempertimbangkan logika bisnis dan konteks
proses untuk menemukan pola peristiwa kompleks lintas sektor.
• CEP lebih berfokus pada kompleksitas, menyediakan analitik yang kaya. Namun,
akibatnya, kecepatan eksekusi dapat terpengaruh secara merugikan. Secara
umum, CEP dianggap sebagai superset dari ESP dan sering kali keluaran dari hasil
ESP dapat dimasukkan ke dalam CEP.
Pengenalan
Apa itu Hadoop?
• Suatu framework yang memungkinkan pemrosesan secara
terdistribusi terhadap data yang berukuran besar, dengan
melibatkan satu atau lebih klaster computer, dengan
menerapkan programming model yang sederhana
• Suatu Framework untuk menangani Big Data
• Suatu framework untuk menyimpan dan memprosess Big
Data secara parallel dan terdistribusi
• Suatu framework open source yang memungkinkan
pemrosesan terdistribusi terhadap Big Data melalui
sekumpulan perangkat keras sederhana (Cluster)
Linimasa Hadoop
Karakteristik / Fitur
Komponen Inti Hadoop
HDFS (Hadoop Distributed File System)
• NameNode
• DataNode
• Secondary
NameNode
Lapisan pemroses data
pada Hadoop
Mengadopsi model
MapReduce Google
MapReduce
Memproses data dalam 2
tahap
• Tahap Map
• Tahap Reduce
Manajer sumber daya cluster
Reducer code
Driver code
• Menentukan konfigurasi
Facebook Mutual Friends
High
Non-
Schema-less Scalability & Open Source
Relational
Availability
Jenis Database NoSQL
Key-value
Document
Column Family
Graph
• NoSQL database yang paling
Key-Value Database sederhana
• Menyimpan item data
sebagai pasangan kunci (key)
Bersama dengan nilainya
(value)
• Nilai dapat berupa integer,
string, atau struktur data
• Kunci harus unik
• Data diambil melalui kunci
yang tepat
• Operasi yang dapat dilakukan:
• put(key, value)
• get(key, value)
• delete(key)
Document Database
Konsep Data
Data preprocessing
Data Analytics
Review
Big Data Analytics Workflow
Big Data Ecosystem
V. Janev et al. (Eds.): Knowledge Graphs and Big Data Processing, LNCS 12072, pp. 3–19, 2020
Analytics
*) Gudivada, V., Irfan, M., Fathi, E., Rao, D.L.: Cognitive analytics: going beyond big data analytics and machine learning, Chap. 5. Elsevier (2016)
*) Gupta, S., Arpan Kumar Kar, A., Baabdullah, A., Al-Khowaiter, W.: Big data with cognitive computing: a review for the future. Int. J. Inf. Manage. 42, 78–89 (2018)
Big Data Analytics Workflow
Assuncāo, M. D., Calheiros, R. N., Bianchi, S., Netto, M. A. S., & Buyya, R. (2015). Big Data computing and clouds: Trends and future directions. Journal of
Parallel and Distributed Computing. vol. 79-80: pp. 3-15.
Pengertian
• Dataset
• Data object
Konsep • Atribut dan pengukuran
Data • Jenis dataset
• Karakteristik Dataset
• Statistik Dasar untuk
Deskripsi Data
Pengertian
Skala pengukuran adalah aturan (fungsi) yang mengaitkan nilai numerik atau simbolik
dengan atribut suatu objek.
Contoh: timbangan untuk mengukur berat badan, klasifikasi untuk membedakan
laki-laki dan perempuan, menghitung jumlah kursi di ruang rapat
Tipe Atribut
Tipe Atribut Deskripsi Contoh
Ordinal Nilai yang merepresentasikan urutan Grade nilai, ukuran kualitas (baik,
lebih baik, sangat baik), dll
Interval Untuk atribut interval, perbedaan antara Temperatur (suhu), tanggal, dll
(Kuantitatif)
pengukuran.
Ratio Hasil pengukuran yang sebenarnya Harga, jumlah, usia, berat badan,
panjang, dll
Diskrit
Nilai Atribut • Nilainya terbatas atau dapat dihitung tanpa
batas. Dapat bersifat kategorikal seperti
kode pos, maupun numerik seperti jumlah.
• Binary (biner), adalah kasus khusus untuk
nilai diskrit. Hanya memiliki dua nilai.
Contoh: benar/salah, ya/tidak, 0/1.
Kontinu
• Nilainya adalah bilangan real. Seperti berat,
tinggi, temperature (suhu).
• Biasanya direpresentasikan dengan bilangan
floating point dengan presisi terbatas.
Jenis Dataset
• Sequences of transactions
An element of
the sequence
Ordered
GGTTCCGCCTTCAGCCCCGCGCC
• Sequences of transactions CGCAGGGCCCGCCCCGCGCCGTC
• Genomic sequence data GAGAAGGGCCCGCCTGGCGGGCG
GGGGGAGGCGGGGCCGCCCGAGC
CCAACCGAGTCCGACCAGGTGCC
CCCTCTGCTCGGCCTAGACCTGA
GCTCATTAGGCGGCAGCGGACAG
GCCAAGTAGAACACGCGAAGCGC
TGGGCTGCCTGCTGCGACCAGGG
Ordered
• Sequences of transactions
• Genomic sequence data
• Spatio-Temporal Data
Average Monthly
Temperature of
land and ocean
Ordered
• Sequences of transactions
• Genomic sequence data
• Spatio-Temporal Data
• Multimedia
• Spatial (maps)
• Image data
• Voice data
• Video data
Dimentionality (Dimensi)
Resolution (Resolusi)
Dimentionality reduction
Data Reduction Numerosity reduction
Data compression
• Binning
• Mengurutkan data dan membagi
menjadi beberapa bins berdasarkan
frequency (equal-frequency)
• Kemudian melakukan
• smooth by bin means,
• smooth by bin median,
• smooth by bin boundaries,
• dsb.
Menangani Noise
• Regression
• Melakukan smooth by fitting data ke
fungsi regresi
• Clustering
• Mendeteksi dan menghapus outliers
• Combined computer and human inspection
• Mendeteksi nilai yang meragukan dan
dicek secara manual
Data Integration
Atribut Categorical
Kelas
Outliers?
Penutup
• Konsep Data → Data Preprocessing → Menangani missing value
• Kunci: Data Understanding (pemahaman terhadap data)
• Pahami atribut datanya.
• Meringkas data dengan mengidentifikasi karakteristik utama, seperti volume
data dan jumlah variabel dalam data.
• Pahami masalah dengan data, seperti nilai yang hilang, ketidakakuratan, dan
outliers.
• Visualisasikan data untuk memvalidasi karakteristik utama data atau gali
masalah dengan ringkasan statistik.
Referensi
1. Pang-Ning Tan, Michael Steinbach, Vipin Kumar, Introduction to Data Mining, Pearson,
2014
2. Jiawei Han, Micheline, Kamber, and Jian Pei, Data Mining: Concepts and Techniques (3
rd Edition), University of Illinois at Urbana-Champaign & Simon Fraser University, 2011
3. Salvador García, Julián Luengo, Francisco Herrera, Data Preprocessing in Data Mining,
Springer, 2015
4. Chastine Fatichah, Pengertian Data, Jenis dan Tipe Data, Deskripsi Data, Data
Preprocessing, Modul Pelatihan Microcredential Artificial Intelligence, 2021
5. Understanding The Data in Data Science, 3 Pillar Global,
https://www.3pillarglobal.com/insights/blog-posts/understanding-data-data-science/
Big Data Implementation at Fintech
Muhammad Saipul Rohman
Data Engineer
A glimpse
about
Linkaja
LinkAja 2020 3
… enabled by the support we receives from key stakeholders and SOEs
LinkAja 2020 4
LinkAja 2020 5
LinkAja 2020 6
Big Data
at
Linkaja
Oct 2019, Before the fun begins..
1. Monolithic architecture
Scalability issues
2. Architecture & network modification was a challenge
6. Scattered databases
Now, Talking about the team
Vendor-driven
development
1. No internal resource, too much dependency to vendors
2. Communication is a challenge
Information retrieval
is challenging 1. Not so consistent data
No extended data
products
Scalability issues
Compute engine & networking
The needs of Data unification, layering, & Talent pool demand to build big data
democratization capabilities, such as data engineering,
analytics & data governance, and AI/ML
Critical business activities require big data Requirement to advocate high quality and
technology, i.e. business decision, product secure data
development, & crucial operational works
1 2 3 4
Building a single source of Instil the organisation as a Empowering business with Building Artificial
truth of company data lake, whole with fit-for-purpose accessible and secure data Intelligence/Machine Learning
that is scalable, reliable, and data governance principles platform to extract the benefit products that produce high
with high availability from data driven culture business value
What we do and how we do it
Big Data
Group
Data Governance
Raise awareness, build frameworks and enforce
activities of data quality and data security in all
data domains across the organisation
How Big Data
started ?
Evolution Big Data
5V of Big Data
Type of Data Source
Common roles in Data Teams
Big Data Architecture
• Lambda Architecture
• Kappa Architecture
Lambda Architecture
Example Lambda Architecture
Kappa Architecture
Streaming/ Streaming/
Data Analytical Analytics &
Real-time Real-time
Sources Ingestion Processing Data Store Reporting
Example Kappa Architecture
• DataWarehouse/Data Marts
Analytical • Data Lake
Data Store • Lakehouse
Data Warehouse VS Data Lake VS Lakehouse
Data Ingestion
Self service
Sources Datalake Datamart
playground
BI Reporting AI/ML
Democratization is nonsense without clear governance framework
We need to ensure the data is in high quality We need to ensure the data is secure
Tertiary AI/ML
Reporting,
Secondary
Dashboard, &
Analytics
Primary
Data engineering
Use Case Big
Data at LinkAja
Tech Stacks and Production Components
Data Engineering Technology Ecosystems
Data Sources Persistence Layer
Data Pipelines
Databases
Excel
Connect Connect
Google
Files Batching Infrastructure Cloud Storage
API
Monitoring
Airflow
..... GCP Console
Dashboard
LinkAja 2020 41
Core Business Intelligence
Self-service platform
Data evangelist Visualisation Data enablement • Business data dictionary
• Operational data dashboard
• Query optimization how-to guide
Data linkage Business Business-
and data Intelligence focused
access dashboards enablement Government projects
consultant
• Kartu Prakerja disbursement
• Pegadian Emas integration with LinkAja
Data-driven
business Core reporting
advocate
Financial regulators partner
LinkAja 2020 22
Product Analytics and Experimentation
Performance dashboards
LinkAja 2020 43
Data Governance
Data quality and security • Prioritisation of data of high importance and value
• Data quality tools and processes improvements
• Data ingestion flow metrics (work in progress!)
LinkAja 2020 44
• Building AI/ML Platform
AI/ML Engineering • Making AI/ML platform adoption easier
• Automation of AI/ML production
LinkAja 2020 45
AI/ML Scientist
LinkAja 2020 46
Introduction
AI in day-by-day activities
Tantangan dan Ancaman
Overview:
Big Data Analytics – Data Science – Data Mining
AI Machine Learning
Deep Learning
Dan Ariely, 2013, Duke University
End Of Segment I
AI di PPATK
Kepegawaian
Kepatuhan
Pelaporan
Analisis
Transaksi
Pelaporan
Sentimen
Analisis
Keamanan
Informasi
Performa staff Prioritas Audit Skoring Chat Box Analisis berita Log analisis
layananbantuan
Profiling Pelaku
Sumber :
5Ws Model for Big Data Analysis and Sumber :
Visualization, IEEE 16th International Conference, 7 enablers , COBIT 5 - A Business Framework for the Governance and
University of Technology, Management of Enterprise IT
Sydney Australia, Tiajin University Tiajin China, 129-134
Jumlah data saat ini
Summary
❑ AI terbatas hanya sebuah konsep umum, implementasi dan metode yang digunakan serta
hal-hal teknis lainnya dibahas pada domain machine learning
❑ Selain computing power yang mumpuni, big data dengan kualitas data baik dan
metode/algoritma yang tepat adalah kunci keberhasilan machine learning
❑ Performa machine learning dapat ditingkatkan melalui perbaikan kualitas data, pemilihan
algoritma yang tepat, melakukan tuning dan menerapkan metode ensemble.
❑ AI memiliki manfaat dan dampak yang besar, namun tantangan implementasinya perlu
dipersiapkan dengan matang karena AI membutuhkan resource yang besar.
End Of Segment II
Contoh Implementasi Machine Learning
Tujuan:
Melakukan Pemodelan Machine Learning untuk memprediksi data transaksi keuangan merupakan transaksi wajar atau mencurigakan
Deskripsi Data
• Nama: Data Transaksi Keuangan
• Jumlah Baris Data: 10.660
• Jumlah Kolom Data: 32
• Sumber Data: Direktorat Pengawasan Kepatuhan
Tahapan Implementasi
Pemodelan
Machine
Learning
Logistic
Split Data Regression
Pemilihan
Eksplorasi dan Random Evaluasi
Data Perankingan Forest Akurasi
Variabel
Hasil Prediksi
Test (30%)
(Data Test)
Eksplorasi Data
Box Plot Variabel Data Transaksi Keuangan
Pemilihan dan Perankingan Variabel
Hasil Perankingan*
Variabel Ranking
MAX_TRANSAKSI_DEBET 1
Recursive Feature Elimination (RFE)
MAX_TRANSAKSI_KREDIT 2
AVG_TRANSAKSI_DEBET 3
SUM_TRANSAKSI_DEBET 4
SUM_TRANSAKSI_KREDIT 5
RFE pada dasarnya adalah proses rekursif
KENAIKAN_PORTOFOLIO 6 yang meranking fitur berdasarkan tingkat
AVG_TRANSAKSI_KREDIT 7
pentingnya terhadap proses prediksi. Pada
SUM_PORTOFOLIO_YYYY 8
MAX_SETOR_TUNAI 9 setiap iterasi, ranking pentingnya fitur diukur
COUNT_TRANSAKSI_DEBET 10 dan fitur yang kurang relevan dihilangkan.
SUM_PORTOFOLIO_XXXX 11
AVG_SETOR_TUNAI 12
SUM_SETOR_TUNAI 13
COUNT_TRANSAKSI_KREDIT 14
JUMLAH_REKENING 15
COUNT_SETOR_TUNAI 16
SUM_TARIK_TUNAI 17
MAX_TARIK_TUNAI 18
TEMPAT_LAHIR_TEMPAT_KE
19
DUDUKAN
PENGHASILAN 20
PEKERJAAN 21
COUNT_TARIK_TUNAI 22
AVG_TARIK_TUNAI 23
NAMA_ESELON 24
HUBUNGAN 25 *diurutkan dari nilai kepentingan tinggi ke rendah
JENIS_KELAMIN 26
Split Train – Test Data
Tabel Split Data Train - Test
Keterangan:
• True - Positif: Model memprediksi transaksi wajar dan itu benar.
• True - Negatif: Model memprediksi transaksi mencurigakan dan itu benar
• False - Positif: Model memprediksi transaksi wajar tetapi sebenarnya transaksi
mencurigakan
• False - Negatif: Model memprediksi transaksi mencurigakan tetapi sebenarnya
transaksi wajar
Evaluasi Model
BIG
Data
Issue
Problem
Opportunity
THANKS
DATA MINING
Sulistyo Puspitodjati
AGENDA
Source:OpenAINVIDIA
AGENDA
Konsep Data
Mining
• Pertumbuhan data eksplosif: dari terabytes (1012 )
Why Data Mining? ke petabytes 1015 )/day
• Pengumpulan dan ketersediaan data
• Automated data collection tools, database
systems, Web, computerized society
(Jim Gray and Alex Szalay, The World Wide Telescope: An Archetype for Online Science, Comm. ACM, 45(11): 50-54, Nov. 2002)
14
Evolusi Teknologi Basis data
• 1960s:
• Data collection, database creation, IMS and network DBMS
• 1970s:
• Relational data model, relational DBMS implementation
• 1980s:
• RDBMS, advanced data models (extended-relational, OO, deductive, etc.)
• Application-oriented DBMS (spatial, scientific, engineering, etc.)
• 1990s:
• Data mining, data warehousing, multimedia databases, and Web databases
• 2000s
• Stream data management and mining
• Data mining and its applications
• Web technology (XML, data integration) and global information systems
15
WHAT IS DATA MINING?
• Data mining adalah proses eksplorasi dan analisa data besar untuk diperoleh
pola dan aturan yang berarti.
• Nama alternatif
Knowledge discovery (mining) in databases (KDD), knowledge extraction,
data/pattern analysis, data archeology, data dredging, information harvesting,
business intelligence, etc.
16
PROSES KNOWLEDGE DISCOVERY (KDD)
Pattern Evaluation
Data Mining
Task-relevant Data
Data Cleaning
Data Integration
Databases 17
Contoh: Web Mining Framework
Increasing potential
to support
business decisions End User
Decision
Making
Data Exploration
Statistical Summary, Querying, and Reporting
20
Contoh: Medical Data Mining
• Health care & medical data mining – mengadopsi sudut pandang
statistics dan machine learning, proses yang dilakukan:
1.Preprocessing data: mis. feature extraction atau dimension
reduction
2.Classification atau clustering processes
3.Post-processing untuk presentasi
21
Data Mining dapat dipandang dari berbagai dimensi:
• Data yang akan di-mining
• Database data (extended-relational, object-oriented, heterogeneous,
legacy), data warehouse, transactional data, stream, spatiotemporal, time-
series, sequence, text and web, multi-media, graphs & social and
information networks
• Knowledge yang akan di-mining (atau Data mining functions/tasks)
• Characterization, discrimination, association, classification, clustering,
trend/deviation, outlier analysis, etc.
• Descriptive vs. predictive vs prescriptive data mining
• Multiple/integrated functions and mining at multiple levels
• Techniques utilized
• Data-intensive, data warehouse (OLAP), machine learning, statistics,
pattern recognition, visualization, high-performance, etc.
• Diterapkan di
• Retail, telecommunication, banking, fraud analysis, bio-data mining, stock
market analysis, text mining, Web mining, etc.
22
DATA MINING: pada DATA?
• Database-oriented data sets and applications
• Relational database, data warehouse, transactional database
23
AGENDA
28
DATA MINING FUNCTION: ASSOCIATION AND CORRELATION
ANALYSIS
• Pola yang sering muncul (Frequent patterns or frequent itemsets)
• Barang (items) apa yang sering dibeli secara bersamaan?
• Association, correlation vs. causality
• Contoh bentuk aturan asosiasi
• Diaper → Beer [0.5%, 75%] (support, confidence)
• strongly associated items ➔ strongly correlated?
• Bagaimana menambang (mining) pola dan aturan seperti ini dalam suatu data
besar secara efisien?
• Bagaimana pola terbut untuk classification, clustering, applications yang lain?
29
Association Rule Discovery: Definition
TID Items
1 Bread, Coke, Milk
Rules Discovered:
2 Beer, Bread {Milk} --> {Coke}
3 Beer, Coke, Diaper, Milk {Diaper, Milk} --> {Beer}
4 Beer, Bread, Diaper, Milk
5 Coke, Diaper, Milk
Association Rule Discovery: Application
32
Classification: Definisi
Set
No
8 No Single 85K Yes
9 No Married 75K No Learn
Training
10 No Single 90K Yes Model
10
Set Classifier
Classification: Application 1
• Direct Marketing
• Goal: Reduce cost of mailing by targeting a set of consumers likely to buy a
new cell-phone product.
• Approach:
• Use the data for a similar product introduced before.
• We know which customers decided to buy and which decided otherwise. This {buy, don’t
buy} decision forms the class attribute.
• Collect various demographic, lifestyle, and company-interaction related information
about all such customers.
• Type of business, where they stay, how much they earn, etc.
• Use this information as input attributes to learn a classifier model.
Classification: Application 2
• Fraud Detection
• Goal: Predict fraudulent cases in credit card transactions.
• Approach:
• Use credit card transactions and the information on its account-holder as attributes.
• When does a customer buy, what does he buy, how often he pays on time, etc
• Label past transactions as fraud or fair transactions. This forms the class attribute.
• Learn a model for the class of the transactions.
• Use this model to detect fraud by observing credit card transactions on an account.
Classification: Application 3
• Customer Attrition/Churn:
• Goal: To predict whether a customer is likely to be lost to a competitor.
• Approach:
• Use detailed record of transactions with each of the past and present customers, to find
attributes.
• How often the customer calls, where he calls, what time-of-the day he calls most, his financial
status, marital status, etc.
• Label the customers as loyal or disloyal.
• Find a model for loyalty.
Classification: Application 4
Late
Data Size:
• 72 million stars, 20 million galaxies
• Object Catalog: 9 GB
• Image Database: 150 GB
DATA MINING FUNCTION: CLUSTER ANALYSIS
• Unsupervised learning (i.e., Class label is unknown)
• Mengelompokkan data untuk membentuk kategori baru. (i.e., clusters), mis.
Mengelompokkan data citra (gambar) untuk menentukan distribusi pola
• Prinsip: Memaksimumkan similaritas intra-class & meminimumkan similaritas
interclass
• Many methods and applications
40
Clustering: Definisi
• Market Segmentation:
• Goal: membagi pasar menjadi beberapa bagian pelanggan yang berbeda
untuk dicapai dengan bauran pemasaran yang berbeda
• Pendekatan:
• Kumpulkan berbagai atribut pelanggan berdasarkan informasi terkait geografis dan gaya
hidup mereka
• Cari cluster dari pelanggan yang similar
• Ukur kualitas clustering dengan mengamati pola pembelian dari cluster yang sama dan
dari semua cluster yang berbeda
Clustering: Application 2
• Document Clustering:
• Goal: menentukan groups of documents yang similar berdasarkan term
(istilah) penting yang muncul.
• Approach: Mengidentifikasikan terms yang sering muncul diseitiap document.
Hitung similarity berdasarkan frequencies dari term yang berbeda, gunakan
untuk clustering.
• Gain: Information Retrieval yang dapat digunakan the clusters to relate a new
document or search term to clustered documents.
DATA MINING FUNCTION: (5) OUTLIER ANALYSIS
• Outlier analysis
• Outlier: data object yang tidak sesuai dengan perilaku umum
data tersebut
• Noise (derau) atau pengecualian? ― One person’s garbage
could be another person’s treasure
• Metode: product of clustering, analisa regresi, …
• Berguna untuk fraud detection, rare events analysis
45
Time and Ordering: Sequential Pattern, Trend and Evolution Analysis
• Sequence, trend and evolution analysis
• Trend, time-series, and deviation analysis: e.g., regression and
value prediction
• Sequential pattern mining
• e.g., first buy digital camera, then buy large SD memory cards
• Periodicity analysis
• Motifs and biological sequence analysis
• Approximate and consecutive motifs
• Similarity-based analysis
• Mining data streams
• Ordered, time-varying, potentially infinite, data streams
46
emprediksi nilai variabel bernilai kontinu tertentu berdasarkan nilai variabel lain, dengan asumsi model ketergant
REGRESSION
• Memprediksi suatu nilai kontinyu berdasarkan nilai variable
lain, dengan asumsi model dependensi linier atau nonlinier.
• Banyak dilakukan di ilmu statistics, dan bidang neural network f
• Contoh:
• Memprediksi penjualan produk baru berdasarkan pengeluaran promosi
(iklan).
• Memprediksi kecepatan angin sebagai fungsi dari temperature,
humidity, air pressure, dll.
• Time series prediction dari stock market indices.
ANALISA STRUKUR DAN JARINGAN
• Graph mining
• Menetukan subgraph yang kerap muncul (mis., senyawa kimia),, trees (XML),
substructures (web fragments)
• Information network analysis
• Social networks: actors (objects, nodes) and relationships (edges)
• e.g., author networks in CS, terrorist networks
• Multiple heterogeneous networks
• A person could be multiple information networks: friends, family, classmates, …
• Links mengandung informasi semantik: link mining
• Web mining
• Web adalah information network yang besar: contoh PageRank pada Google untuk
searching
• Analisa Web information networks
• Web community discovery, opinion mining, usage mining, …
48
Evaluasi Knowledge
• Apakah semua “knowledge” yang ditemukan menarik?
• Some may fit only certain dimension space (time, location, …)
• Some may not be representative, may be transient, …
50
AGENDA
Data Mining
tools dan
Implementasi
IMPLEMENTASI DATA MINING
▪ Search Engine
▪ Advertising
▪ Customer Relationship Management (CRM)
▪ Database Marketing
▪ eCommerce
▪ Health Care
▪ Investment/Securities
▪ Manufacturing, Process Control
▪ Sports and Entertainment
▪ Telecommunications
▪ Web
▪ etc
SEARCH ENGINE
• Search engine merupakan alat yang digunakan untuk mencari informasi yang
ada di internet
• Seluruh data yang ada di internet disimpan dalam bentuk indeks, sehingga jika
ada pencarian informasi dapat direferensikan dari indeks – indeks tersebut.
• Konsep kerja search engine
• Crawl adalah proses pencarian konten baru dan konten yang perlu
diperbaharui dengan mengirimkan crawler ke seluruh konten yang
ditemukan dari tautan halaman.
• Index adalah penyimpanan informasi dari konten yang ditemukan berupa
indeks, ketika konten tersebut telah diindeks, maka halaman tersebut dapat
muncul sebagai hasil dari proses pencarian.
• Rank adalah mengurutkan hasil proses pencarian dari tingkat relevan
tertinggi.
Microarrays:
Classifying Leukemia
• Leukemia: Acute Lymphoblastic (ALL) vs Acute Myeloid (AML),
Golub et al, Science, v.286, 1999
• 72 examples (38 train, 34 test), about 7,000 genes
ALL
AML
56
CRM
• Hubungan antara CRM dan data mining terjadi karena
menghadapi fakta makin banyaknya competitor dan makin
banyaknya permintaan konsumen.
• Data mining dan CRM mempunyai tujuan yang sama yaitu
menemukan yang dibutuhkan konsumen, kepuasan dan
kesetiaan konsumen serta profit.
• Contoh
• Mencegah jumlah pelanggan menutup akunnya di suatu bank
(reducing attrition rate)
Application: e-Commerce
• Amazon.com recommendations
• if you bought (viewed) X, you are likely to buy Y
• Netflix
• If you liked "Monty Python and the Holy Grail",
you get a recommendation for "This is Spinal Tap"
• Comparison shopping
• Amazon Sponsored Products, Google Shopping, BizRat, …
58
Application:
Security and Fraud Detection
• Credit Card Fraud Detection
• over 20 Million credit cards protected by
Neural networks (Fair, Isaac)
• Securities Fraud Detection
• NASDAQ KDD system
• Phone fraud detection
• AT&T, Bell Atlantic,
British Telecom/MCI
59
Data mining tools
Orange
• open source component-based software dalam bahasa
pemrograman Python.
• Sering digunakan untuk anlisa dasar data mining analysis
• Menawarkan fitur preprocess data yang baik.
RapidMiner
• open source component-based software dalam Java
• Sering digunakan untuk “predictive analysis”
• Menawarkan integrated environments untuk “machine learning”,
“deep learning”, dan “text mining”.
Data mining tools
Mahout
• open source platform dikembangkan oleh “Apache”.
• Sering untuk unsupervised learning process
• machine learning algorithms untuk clustering, classification dan collaborative
filtering.
MicroStrategy
• adalah business intelligence and data analytics software mencakup semua data
mining models
• platform yang menawarkan beragam drivers dan gateways yang dapat terhubung
ke semua enterprise resource
• analyze complex big data dengan metransformasikan ke visualisasi yang mudah
diakses
• Mudah dibagikan ke seluruh organisasi (easy sharing)
Recommended Reference Books
• J. Han and M. Kamber. Data Mining: Concepts and Techniques. Morgan Kaufmann, 3 rd ed., 2011
• T. Hastie, R. Tibshirani, and J. Friedman, The Elements of Statistical Learning: Data Mining,
Inference, and Prediction, 2nd ed., Springer-Verlag, 2009
• P.-N. Tan, M. Steinbach and V. Kumar, Introduction to Data Mining, Wiley, 2005
• I. H. Witten and E. Frank, Data Mining: Practical Machine Learning Tools and Techniques with
Java Implementations, Morgan Kaufmann, 2nd ed. 2005
62
Segment 1
◦ Pendahuluan Machine Learning
Segment 2
◦ Supervised Learning
Segment 3
◦ Implementasi/Aplikasi Machine Learning
Interaksi dalam bermasyarakat menghasilkan data dalam
jumlah yang sangat besar
– Bidang transportasi, kedokteran, keuangan,
Computer Vision, marketplace dll
Cow culling
– Diberikan: sapi yang dideskripsikan oleh 700 fitur
– Masalah: pemilihan sapi yang akan dimusnakan
– Data: fakta historis dari sapi dan keputusan
peternak
Pola-pola struktur yang ada pada suatu koleksi
data (knowledge) dapat direpresentasi dalam
bentuk:
– Tabel
– Aturan (If-then Rules)
– Pohon (Decision Trees)
– Fungsi → Model Linear
– Instance
Aturan jika-maka
Memahami keterhubungan (relationships) dan ketergantungan
(depedencies) dalam suatu koleksi data adalah suatu aspek yang
sangat penting dalam menganalisa data untuk mengekstrak
informasi yang ada pada data tersebut.
Deskripsi struktural tersebut dapat digunakan untuk:
– Memprediksi output pada suatu situasi yang baru
– Memahami dan menjelaskan bagaimana prediksi tersebut
dihasilkan
Ketika tidak ada pendekatan pemodelan (modelling approaches)
yang mudah untuk melakukan hal tersebut, maka metode-metode
cerdas, dikenal juga dengan nama machine learning, Menjadi
solusi alternatif
Machine Learning adalah metode yang dapat belajar dari
data (data-driven method) sehingga menjadi cerdas.
Cerdas dalam artian memiliki kemampuan generalisasi
terhadap data baru yang belum dipelajari sebelumnya.
data
miningComputer Science
statistics
decision theory
information theory machine
learning cognitive science
databases
psychological models
Mathematicsneuroscience
Diberikan data training, misal xi , I sd N
Preprocessing : pemilihan/ekstraksi fitur dari data, misal xi=(x1, x2, …xD)T
Learning : penentuan parameter metode, misal w, berdasarkan data
pelatihan
Testing : pengujian metode dengan data baru. Data penguji (testing data)
tersebut harus dilakukan preprocessing yang sama dengan data
pembelajaran sebelum dieksekusi oleh metod
Training set : kumpulan data yg sudah dipastikan
kebenarannya, dr sisi label, data awal, komponen2
data yg akan dijadikan kunci,
Instance: bagian dr training set, sample training set
seperti doc/gambar/video
Feature/attribut: ciri2 dr masing2 sample
Smartphone: ciri:memiliki layar, kamera, tombol,
Feature vektor: ciri2 yang ditranslasikan dalam
bentuk vektor, ex, jika mengandung layar diset dgn
1, ukuran disesuaikan dgn jumlah ciri yag akan
diextrak,
Feature extraction: sebuah proses yg
mempersiapkan data sehingga data tsb bisa kita
extract cirinya menjadi suatu vektor
Langkah pertama dalam tahapan
preprocessing adalah pemilihan fitur (feature
selection) dari data. Selanjutnya, data dapat
direpresentasi dalam bentuk vektor, matrik
atau tensor.
Unsupervised Learning
Data pelatihan tidak disertai target, yaitu {xi,t}, i = 1 sd N.
Tujuan pembelajaran adalah membagun model yang dapat
menemukan komponen/variabel/fitur tersembunyi pada
data pelatihan, yang dapat digunakan untuk:
pengelompokan (clustering), reduksi dimensi (dimension
reduction), rekomendasi, dll
Kinerja Metode diukur berdasarkan kemampuan
generalisasinya, yaitu akurasi pada data yang tidak
digunakan pada tahap pelatihan, yang disebut juga
dengan istilah kapabilitas generalisasi
(generalization capability).
2. Unsupervised Learning
3. Reinforcement learning
Regresi
– Nilai output ti bernilai kontinu (riil)
– Bertujuan memprediksi output
dengan akurat untuk data baru
– Contoh: Prediksi kinerja CPU
Klasifikasi
– Nilai output ti bernilai diskrit (kelas)
– Bertujuan mengklasifikasi data baru
dengan akurat
– Contoh: Klasifikasi jenis contact lens
Apply a prediction function to a feature
representation of the image to get the desired
output:
f( ) = “apple”
f( ) = “Pear”
f( ) = “tomato”
f( ) = “cow”
Image Learned
Training
Features model
Testing
Image Learned
Prediction
Features model
Test Image
Supervised Learning.
Linear Model; Neural Networks; Metode Kernel,
Radial Basis Function Network; Support Vector
Machine: Classification, Regression, Ranking,
Ordinal Regression, Density, Estimation
Unsupervised Learning.
K-Means; Principal Component Analysis (PCA);
Independent Component Analysis (ICA); Latent
Semantic Analysis (LSA); Matrix Factorization
Semisupervised Learning
Reinformance Learning
Model linear adalah kombinasi linear dari
fungsi nonlinear dari variabel input (fungsi
basis):
𝑀−1
𝑦 𝑥, 𝑤 = 𝑤𝑗 φ𝑗 𝑥 = 𝑤 𝑇 φ𝑗
𝑗=0
Solusi:
◦ Tolak semua kasus pada garis batas. Hal ini tidak mungkin
karena kasus-kasus pada garis batas adalah nasabah aktif
terbesar
◦ Solusi lain → metode lain, misal machine learning
Data training:
1000 sample untuk kasus-kasus pada garis batas
Atribut/Fitur:
◦ Umur
◦ Lamanya tinggal di alamat saat ini
◦ Lamanya menjadi nasabah
◦ Kepemilikan kartu kredit lain
Hasil:
◦ Decision Tree memberikan akurasi 70%
Data: gambar-gambar satelit dari perairan
pantai
Atribut/Fitur:
◦ Ukuran area
◦ Bentuk area
◦ Intensitas
◦ Ketajaman dan lekukan dari batas
◦ Kedekatan dengan wilayah lain
◦ Info tentang latar belakang
Kendala:
◦ Sedikit data training
◦ Data tidak seimbang : sebagian besar bukan lapisan
minyak
Latar belakang: perusahaan pensuplai listrik perlu memprediksi
kebutuhan tenaga listrik pada masa yang akan datang
◦ Peramalan beban min/max untuk setiap jam akan memberikan
penghematan yang signifikan
Atribut/Fitur:
◦ Temperatur
◦ Kelembaban
◦ Kecepatan angin
◦ Kondisi awan
Data: perusahaan biasanya menyimpan data
pemasaran dan penjualan
Aplikasi:
◦ Loyalitas Pelanggan, yaitu mendeteksi pelanggan yang akan
menyeberang/pindah ke perusahaan lain berdasarkan
perubahan tingkah laku
Sulistyo Puspitodjati
Rifiana Arief
1
AGENDA
Review Machine Learning
Konsep
Aplikasi/Implementasi
Tantangan
2
AGENDA
Definisi - Konsep
3
Machine Learning
◼ Supervised Learning
◼ Unsupervised Learning
◼ Reinforcement Learning
4
Machine
Learning?
Artificial
Intelligent
5
UNSUPERVISED
LEARNING
6
Unsupervised learning?
◼ Unsupervised learning = unsupervised machine learning
= pembelajaran tak terawasi,
◼ Menggunakan algoritma machine learning untuk
menganalisa dan mengelompokkan (clustering) data
yang tidak berlabel (unlabeled datasets)
◼ algoritma akan menemukan pola yang mungkin
tersembunyi (variable latent) atau pengelompokan data
tanpa intervensi manusia
◼ Untuk
❑ exploratory data analysis,
❑ cross-selling strategies,
❑ customer segmentation, dan
❑ image recognition.
7
Supervised learning vs. unsupervised
learning
◼ Supervised learning: mencari pola dalam
data yang menghubungkan atribut data
dengan atribut target (class/label)
❑ Pola ini yang kemudian digunakan untuk
memprediksi nilai dari atribut target dari suatu
instant pada masa datang.
◼ Unsupervised learning: data tidak punya
atribut target/label
❑ Data dieksplor untuk menemukan beberapa
unsur intrinsik didalamnya
8
https://www.researchgate.net/figure/Supervised-learning-and-unsupervised-learning-Supervised-learning-
9
uses-annotation_fig1_329533120
Supervised vs Unsupervised learning
◼ Algoritma supervised learning cenderung
lebih akurat dari unsupervised learning
model, karena supervised learning
melibatkan manusia untuk memberi label
data dengan benar
◼ Teknik-Teknik regresi dan klasifikasi:
❑ Regresi linear dan logistic
❑ naïve bayes,
❑ KNN (K-nearest neighbour)
❑ Decision tree, random forest.
10
Supervised vs Unsupervised
vs. Semi-supervised Learning
◼ Semi-supervised learning, adalah
pembelajaran ketika hanya sebagian data yang
diberi label
◼ Merupakan pendekatan yang meng-
kombinasikan sejumlah kecil data berlabel
dengan sejumlah data tidak berlabel saat
proses belajar (training/modelling)
◼ Diharapkan dapat meningkatkan akurasi
pembelajaran
11
Unsupervised Learning Task
◼ Model pembelajaran tanpa pengawasan
(unsupervised learning) digunakan untuk
bertugas melakukan
❑ Clustering (pengelompokan),
❑ Association (Analisa asosiasi),
❑ dimensionality reduction (reduksi dimensi)
12
AGENDA
Konsep
Aplikasi/Implementasi
Tantangan
13
AGENDA
Unsupervised
Learning Task
•Clustering
•association
•dimensionality reduction
14
Clustering
◼ Clustering adalah teknik data mining yang mengelompokkan
data tidak berlabel berdasarkan persamaan (similaritas)
atau perbedaannya (difference/distance)-nya
◼ Algoritma Clustering digunakan untuk memproses data
mentah dan tidak terklasifikasi, kedalam kelompok-
kelompok (groups) yang diwakili oleh struktur atau pola
dalam informasi.
15
Tipe Clustering
dapat dikatagorikan ke
dalam tipe:
❑ specifically exclusive
(saling terpisah),
❑ overlapping (tumpang
tindih),
❑ hierarkis,
❑ probabilistik.
16
Exclusive Clustering
17
K-means clustering
◼ metode clustering yang menempatkan titik-titik data
kedalam K kelompok,
◼ K mewakili jumlah cluster yang berdasarkan jarak dari
masing-masing centroid (pusat) kelompok.
◼ Titik data yang terdekat dengan centroid akan
dikelompokkan dalam katagori yang sama.
◼ Semakin besar nilai K , nilainya akan menunjukkan
pengelompokkan yang lebih kecil dengan lebih banyak
perincian, sedangkan nilai K yang lebih kecil akan
memiliki pengelompokan yang lebih besar dan perincian
lebih sedikit.
18
K-means clustering
19
K-means clustering
20
K-means clustering
Distance functions
◼ Kunci clustering ad. fungsi jarak (distance
functions): “similarity” dan “dissimilarity” =
proximity.
◼ Berbagai distance functions
❑ Tergantung types data
◼ Numeric data
◼ Nominal data
❑ Tergantung diterapkan
21
Distance functions untuk atribut numerik
◼ Fungsi populer
❑ Euclidean distance dan
❑ Manhattan (city block) distance
◼ distance = dist(xi, xj), untuk xi dan xj = data
points (vectors)
◼ Minkowski distance. (h positive integer).
1
dist (xi , x j ) = (( xi1 − x j1 ) h + ( xi 2 − x j 2 ) h + ... + ( xir − x jr )h ) h
22
Euclidean distance dan Manhattan distance
◼ If h = 2, ➔ Euclidean distance
dist (xi , x j ) = ( xi1 − x j1 ) 2 + ( xi 2 − x j 2 ) 2 + ... + ( xir − x jr ) 2
◼ If h = 1, ➔ Manhattan distance
dist (xi , x j ) =| xi1 − x j1 | + | xi 2 − x j 2 | +...+ | xir − x jr |
23
Squared distance dan Chebychev distance
◼ Squared Euclidean distance: untuk
menempatkan secara progresif bobot pada
titik data yang terpisah lebih jauh.
dist (xi , x j ) = ( xi1 − x j1 ) 2 + ( xi 2 − x j 2 ) 2 + ... + ( xir − x jr ) 2
◼ Chebychev distance:.
24
Distance functions u/ atribut
binary dan nominal
◼ Binary attribute: hanya mempunyai 2 nilai,
❑ Gender: male dan female
❑ Ya dan tidak
25
Distance functions
◼ Jaccard coefficient
b+c
dist (xi , x j ) =
a+b+c
26
Distance functions: Nominal attributes
r−q
dist (xi , x j ) =
r
27
Distance function untuk
Text Documents
◼ text document = untai kalimat, tiap kalimat = untai
kata
◼ document dipandang sebagai kantong kata-kata
dalam document clustering.
❑ Sequence and position of words are ignored.
◼ document direpresentasikan sebagai vector
◼ Menggunakan similarity untuk membandingkan 2
dokumen
❑ cosine similarity
28
K-means clustering
◼ Dapat digunakan untuk:
❑ market segmentation,
❑ document clustering,
❑ image segmentation, and
❑ image compression.
29
Overlapping clusters
◼ Clustering yang
mengizinkan satu titik
data menjadi anggota
beberapa kelompok
(cluster).
◼ Contoh metode: “Soft”
atau fuzzy k-means
clustering
30
Hierarchical clustering
◼ Pengelompokan
hirarkis =
hierarchical cluster
analysis (HCA),
◼ 2 cara
❑ agglomerative dan
❑ divisive.
31
Agglomerative clustering
◼ Pendekatan “bottoms-up”
◼ Awalnya setiap data dalam kelompok terpisah
◼ Data digabungkan atas dasar kesamaan dalam satu
kelompok (cluster) secara iterative (berulang) sampai satu
cluster tercapai.
32
Agglomerative clustering
4 pengukuran similaritas cluster
◼ Ward’s linkage: Jarak antar 2 cluster didefisikan
melalui konsep jumlah kuadrat error setelah 2 cluster
digabung.
◼ Average linkage: mendefinisikan jarak 2 cluster
berdasarkan jarak rerata (mean) dari jarak setiap 2 titik
dalam tiap cluster
◼ Complete (or maximum) linkage: maksimum jarak
antar 2 titik dalam masing-masing cluster
◼ Single (or minimum) linkage: minimum jarak antar 2
titik dalam masing-masing cluster
33
CS583, Bing Liu, UIC 34
Divisive clustering
35
Dendrogram
36
Probabilistic clustering
37
Gaussian Mixture Models
◼ Diklasifikasikan sebagai model campuran, yang berarti
model tersebut terdiri dari sejumlah tak tentu fungsi
distribusi probabilitas.
◼ GMMs terutama digunakan untuk menentukan bahwa
suatu titik data masuk fungsi probabilitas Gaussian
(normal) tertentu
◼ Penentuan berdasarkan mean dan variance.
https://cdn.analyticsvidhya.com/wp-content/uploads/2019/10/gaussians-3d-300x224.png
38
Gaussian Mixture Models
◼ Algoritma
Expectation
Maximation (EM)
dapat digunakan
untuk
memperkirakan
probabilitas
penempatan titik
tertentu dalam
cluster tertentu
39
K-Mean vs GMM
https://www.analyticsvidhya.com/blog/2019/10/gaussian-mixture-models-clustering/
40
AGENDA
Unsupervised
Learning Task
•clustering
•association
•dimensionality reduction
41
Association Rules
◼ metode berbasis aturan
(rule-based method) untuk
menemukan relasi antar
variable dalam dataset.
❑ {butter, bread} => {milk}
◼ Sering digunakan untuk
analisa keranjang pasar
(market basket analysis),
◼
42
Association Rules
◼ Perusahaan dapat memahami lebih baik
❑ hubungan antara beberapa produk yang biasa
digunakan customers
❑ ➔ penjualan lebih baik dengan memanfaatkan
strategi penjualan silang
❑ Mesin rekomendasi
◼ contoh
❑ Amazon’s “Customers Who Bought This Item Also
Bought” or
❑ Spotify’s "Discover Weekly" playlist.
43
Algoritma Association Rule Mining
◼ Apriori populer
◼ Eclat
◼ FP-Growth
44
45
Apriori algorithms
◼ Apriori algorithms popular melalui market basket
analysis, unggul sebagai mesin rekomendasi pada
music platforms dan retail online.
◼ Menggunakan data transaksi untuk
mengidentifikasi itemset yang kerap
dipakai/dibeli/dipilih (frequent itemsets)
◼ Identifikasi frequent itemsets untuk mengetahui
kemungkinan suatu produk yang dibeli atas dasar
pembelian produk lain.
46
Apriori algorithms
◼ Contoh: jika memilih Black Sabbath’s radio di
Spotify, mulai dengan lagu “Orchid”, salah satu
rekomendasi lagu pada channel ini adalah lagu
Led Zeppelin, mis. “Over the Hills and Far Away.”
➔ didasarkan pada habit pribadi.
◼ Apriori algorithms
menggunakan hash tree untuk
menghitung itemsets,
menavigasikan seluruh
dataset secara breadth-first
Lattice {a, b, c}
47
Mengukur Asosiasi
48
Mengukur Asosiasi
49
AGENDA
Unsupervised
Learning Task
•Clustering
•association
•dimensionality reduction
50
Dimensionality reduction
◼ Secara umum semakin banyak data, semakin
akurat hasil
◼ Berdampak pada machine learning algorithm
❑ Overfitting
❑ Susah divisualisasikan
◼ Dimensionality reduction adalah Teknik yang
digunakan jika jumlah fitur/dimensi terlalu
banyak
◼ Mengurangi jumlah data input ke ukuran yang
mudah dikelola namum memelihara integritas
dataset semaksimal mungkin
51
Principal component analysis
52
Principal component analysis (PCA)
◼ Mengurangi redudansi/kerangkapan dan
memampatkan dataset melalui ekstraksi fitur
◼ Menggunakan linear transformation,
menghasilkan representasi data baru,
menghasilkan sekumpulan komponan utama
(principal components)
53
Principal component analysis (PCA)
◼ Komponen utama pertama adalah arah yang me-
maksimmalkan variance data set
◼ Komponen utama kedua adalah menentukan variance
maksimum dalam data, tidak berkorelasi dengan
komponen pertama, menghasilkan arak tegak lurus
atau orthogonal dengan komponen pertama
◼ Proses dilakukan berulang
sebanyak jumlah dimensi,
dimana principal component
selanjutnya arahnya orthogonal
dengan komponen-komponen
sebelumnya dengan variance
terbesar.
54
Singular value decomposition (SVD)
◼ adalah pendekatan
melalui faktorisasi
matrik A.
◼ SVD menggunakan
formula, A = USVT,
where
❑ U dan V matriks
orthogonal.
❑ S adalah diagonal
matrix, dan S nilai
singular dari matrix A.
55
https://miro.medium.com/max/3800/1*dnvjYsiEhj-NzFf6ZeCETg.jpeg
56
Singular value decomposition (SVD)
Umum digunakan
◼ mereduksi noise
https://www.researchgate.net/profile/Huan-Liu-
29/publication/336339050/figure/fig2/AS:812710459617282@1570776681394/The-pipeline-of-the-proposed-PW-SVD-
framework-which-includes-three-main-modules-1.png
57
◼ memampatkan data (compress data), mis.
file citra (image)
http://www.math.utah.edu/~goller/F15_M2270/Brady
Mathews_SVDImage.pdf 58
Autoencoders
◼ Memanfaatkan jaringan syaraf untuk
mengkompresi data dan kemudian membuat
representasi baru dari input data asli.
◼ Gambar berikut menunjukkan bahwa lapisan
tersembunyi (hidden layer) secara khusus
bertindak untuk memampatkan lapisan input
sebelum merekontruksi lapisan output.
◼ Tahap dari lapisan input ke lapisan tersembunyi
disebut “encoding”, dan tahap dari lapisan
tersembunyi disebut “decoding.”
59
Autoencoders
60
AGENDA
Review Machine Learning
Konsep
Aplikasi/Implementasi
Tantangan
61
AGENDA
Aplikasi/Implementasi
62
Aplikasi/Penerapan dari
unsupervised learning
◼ meningkatkan product user experience
◼ uji/test systems untuk quality assurance.
◼ Menyediakan jalur ekplorasi untuk melihat
data, memungkinkan bisnis
mengidentifikasikan pola dan volume data
yang besar dengan lebih cepat jika
dibandingkan dengan pengamatan manual.
63
Aplikasi unsupervised learning
◼ News Sections: Google News
menggunakan unsupervised learning untuk
mengkatagorikan articles pada cerita yang
sama dari berbagai outlet berita online.
Contoh: pemilihan presiden Amerika dapat
dikatagorikan sebagai label untuk “US” news
US.
◼ Computer vision: Unsupervised learning
algorithms digunakan untuk tugas persepsi
visual, mis. object recognition.
64
Aplikasi unsupervised learning
◼ Medical imaging: Unsupervised machine
learning menyediakan fitur esensial pada
perangkat pencitraan medis, mis. image detection,
classification dan segmentation, pada radiology
dan pathology untuk mendiagnosa pasien secara
cepat dan akurat.
◼ Anomaly detection: Unsupervised learning
models dapat menyisir data dalam jumlah besar
dan menemukan titik data atipikal dalam kumpulan
data. Anomali ini dapat meningkatkan kesadaran
seputar peralatan yang rusak, kesalahan manusia,
atau pelanggaran keamanan.
65
Aplikasi unsupervised learning
◼ Customer personas: mendefinisikan persona pelanggan
membuatnya lebih mudah untuk memahami ciri-ciri umum
dan kebiasaan pembelian klien bisnis. Unsupervised
learning memungkikan bisnis untuk membangun profil
persona pembeli yang lebih baik, memungkinkan organisasi
untuk menyelaraskan pesan produk mereka dengan lebih
tepat.
◼ Recommendation Engines: Dengan menggunakan data
perilaku pembelian sebelumnya, unsupervised learning
dapat membantu menemukan tren data yang dapat
digunakan untuk mengembangkan strategi penjualan silang
yang lebih efektif ➔ digunakan untuk membuat rekomndasi
add-on yang relevan kepada pelanggan selama proses
pembayaran untuk pengecer online.
66
Tantangan unsupervised learning
67
Unsupervised Learning Tools
Machine Learning Software Tools.
◼ IBM Watson Machine Learning → cloud
environment IBM Cloud Pak for Data
◼ Tensor Flow
◼ Accord.NET
◼ Apache Mahout
◼ Apache Singa
68
69
Mengenal
BIG DATA
Universitas Gunadarma
Apa itu BIg Data Teknologi dalam Big Data
Salah satu permasalahan yang Big Data coba pecahkan adalah meledaknya volume
Kebenaran Data
Tipe data dalam Big Data
Sumber Data dalam Big Data
Perbedaan Data Tradisonal dan Big Data
Teknologi dalam Big Data
Bagimana Big Data Bekerja
Big Data dalam bidang Industry
Banking Retail
Travel Energy
Media Gaming
Media
BIG DATA
SEKTOR PERBANKAN
Pengenalan
Core Banking System
Core Banking system sendiri adalah jantung dari sebuah bank, karena sistem ini digunakan untuk
memproses loan, dan di dalamnya tersimpan data nasabah serta semua transaksi sejak nasabah
membuka rekening di bank sampai menutupnya. Core Banking umumnya diasosiasikan dengan retail
banking.
Jika dibandingkan dengan industri lain, core banking system ini mirip dengan billing system dari sebuah
perusahaan telekomunikasi, atau ERP perusahaan manufaktur.
Yang membedakan adalah pada sistem ini terdapat jenis yang beragam mulai dari yang inhouse
development, local vendor hingga yang dikerjakan vendor asing.
Fungsi Core Banking System
Kemudahan mendapatkan deposit dan penarikan uang tunai di cabang manapun anda
berada. Karena dengan sistem ini memungkinkan bank untuk mendapatkan transfer
dana mereka dan transaksi lainnya dari satu cabang ke cabang lainnya dengan sangat
mudah dan cepat.
Fungsi core banking yang paling mendasar adalah melayani seluruh nasabah untuk
berbagai kebutuhannya seperti funding, lending dan deposit uang.
Fungsi lainnya adalah merekam semua transaksi yang terjadi dalam rekening nasabah,
baik berupa tabungan, loan, KPR, maupun transaksi pembayaran, hingga transaksi
macet yang dimiliki nasabah juga akan terekam.
Fasilitas yang tersedia
di Core Banking system
Kemudahan yang ditawarkan sistem ini di antaranya, fasilitas ATM, dana elektronik, transfer, tele-banking, internet banking, cabang kliring
fasilitas perbankan cabang. Selain itu sistem ini juga lebih cepat dan akurat.
Fungsi lainnya sistem ini seperti pemeliharaan passbook, perhitungan bunga dan berbagai buku lainnya yang menjaga catatan tetap akurat
dalam waktu singkat.
Karena akses core banking sistem ini sudah dilakukan secara real time melalui proses online. Bagi bank sendiri, sistem ini sangat
memudahkan dalam database berbagai catatan transaksi kantor cabang yang lebih akurat dan juga pengenalan produk baru.
Kemajuan teknologi sangat terasa di sistem ini, karena menawarkan solusi yang lebih banyak, lebih mudah serta cepat.
Aplikasi perbankan core
banking sistem
CIS (Customer Identification System)
Modul untuk menfasilitasi pengguna agar dapat memproses transaksi sendiri
Deteksi penipuan
Dunia digital yang berkembang pesat memberikan banyak manfaat bagi kita, namun di sisi lain juga melahirkan berbagai macam
penipuan.
Dunia digital membuat data pribadi kita menjadi jauh lebih rentan terhadap serangan dunia maya dan ini adalah tantangan
terbesar yang dihadapi organisasi perbankan.
Penggunaan Big Data Analytics melalui Machine Learning Algorithms, Perbankan dapatmedeteksi penipuan sebelum penipuan
tersebut berlangung. Hal ini dilakukan dengan mengidentifikasi pola pengeluaran pengguna yang tidak dikenal
Memprediksi aktivitas pengguna yang tidak biasa
Keputusan
peminjaman
Salah satu keputusan paling penting di sektor Perbankan adalah pemberian pinjaman.
Memilih pelanggan yang tepat yang layak kredit dan sehat secara finansial untuk melunasi hutang adalah yang
paling penting.
Secara tradisional bank sebelumnya mengandalkan lembaga pemeringkat kredit untuk mengukur kelayakan kredit
pelanggan namun pemeringkat tersebut belum menggambarkan keseluruhan, karena dianggap berdasarkan pada
hal tertentu tetapi mengabaikan yang lain
BIG DATA ANALYTICS LIFECYCLE
Pencarian informasi terkait tipe data, struktur data, Pengumpulan informasi dari sumber data.
bentuk data, dan isi data sampai source data. Kemudian dilakukan penyaringan,
seperti penghapusan data yang rusak atau
data yang tidak relevan, yang tidak termasuk
dalam tujuan kebutuhan.
DATA EXTRACTION
Proses memilih dan mengambil data dari satu atau beberapa sumber misalnya Server SQL, XML, atau flat files untuk dibaca
atau diakses data yang dipilih tersebut
DATA VALIDATION &
CLEANSING
Suatu proses analisa mengenai kualitas dari data
dengan mengubah. Bisa juga pengelola mengoreksi
ataupun menghapus data tersebut. Data yang
dibersihkan tersebut adalah data yang salah, rusak,
tidak akurat, tidak lengkap dan salah format
DATA AGGREGATION & REPRESENTATION
Proses di mana data mentah dikumpulkan dan diekspresikan dalam bentuk ringkasan untuk analisis statistik.
DATA ANALYSIS
Proses pengolahan data yang mencakup memeriksa data, membersihkan data, mengubah data, dan membuat model yang
sesuai sehingga hasil dari proses tersebut didefinisikan dan menemukan informasinya sebagai dasar pengambilan
keputusan dari masalah dalam bisnis yang hendak diselesaikan.
CORE BANKING SERVERS
IBM AS/400 adalah server computer yang termasuk
kategori mini computer yang digunakan oleh RPG sample =>
perusahaan-perusahaan besar di lndonesia. Contoh
Bank Mandiri, Bank BRl, Bank Permata adalah
beberapa dari sekian banyak perusahaan yang
menggunakan IBM AS/400 sebagai server untuk
menyimpan data nasabah dengan jumlah jutaan
record dalam database mereka
ARSITEKTUR
TELNET (aplikasi TCP/IP) ataupun dengan Client-Access400
Dapat memiliki lebih dari 200 Processor
IO Direct access storage devices (DASDs)
Dls
DB2 LIST SCHEMA DAN TABLE
JOURNAL
Kesimpulan
Core Banking adalah Jantung dari sebuah bank
Fungsi dan Manfaat dirasakan oleh Pihak Bank dan juga Pengguna layanan
Penerapan Big Data dari sisi Bank dapat memberikan keputusan yang terbaik
dengan minimun resiko. Dilain sisi Pengguna merasakan keamanan,
kenyamanan dan kepercayaan
Mesin AS400 menjadi andalan Core Banking
MODEL KASUS TERKAIT PENURUNAN DATA CORE BANKING
MODEL KASUS TERKAIT PENURUNAN DATA CUSTOMER
MODEL KASUS TERKAIT
REKONSTRUKSI DATA
CUSTOMER
Kesimpulan
Proses data memerlukan informasi terkait input dan output
Didalam pengolahan data terdapat proses seperti transformasi, mapping,
cleansing dls
Pemilihan tools yang tepat untuk pengolahan data disesuaikan dengan
kebutuhan
Mempelajari bahasa pemrograman yang sesuai dengan kebutuhan
Dan terus belajar "trial and error"
Introduction to
Deep Learning
• Pada algortima jaringan saraf Deep Learning tidak memerlukan informasi apapun
terhadap data yang akan dipelajarinya, dan algoritmanya dapat secara mandiri
melakuan tuning (penyetelan) dan pemilihan model yang paling optimal. Contoh :
deteksi objek, pengenalan suara, NLP (Natural Language Processing), dan lainnya.
Lapisan Layer Deep Learning
Source:https://towardsdatascience.com/
Struktur Pemodelan Jaringan
Deep Learning berbeda dari teknik machine learning yang
tradisional, karena deep learning secara otomatis melakukan
representasi dari data seperti gambar, video atau text tanpa
memperkenalkan aturan kode atau pengetahuan domain manusia.
Source: https://lawtomated.com/
Machine Learning vs Deep Learning
HARDWARE
Waktu Eksekusi
DATA
Convolutional layer
terdiri dari neuron yang
tersusun sedemikian
rupa sehingga
membentuk sebuah
filter dengan panjang
dan lebar(pixel).
Credit: https://medium.com/@samuelsena/pengenalan-deep-
learning-part-7-convolutional-neural-network-cnn-b003b477dc94
Stride
• Stride adalah parameter yang menentukan berapa jumlah
pergeseran filter. Jika nilai stride adalah 1, maka conv. filter akan
bergeser sebanyak 1 pixel secara horizontal lalu vertical.
• Semakin kecil stride maka akan semakin detail informasi yang kita
dapatkan dari sebuah input, namun membutuhkan komputasi yang
lebih jika dibandingkan dengan stride yang besar.
• Perlu diperhatikan bahwa dengan menggunakan stride yang kecil
kita tidak selalu akan mendapatkan performa yang bagus.
Padding
• Padding atau zero padding adalah parameter menentukan jumlah pixel (berisi nilai
0) yang akan ditambahkan di setiap sisi dari input, dengan tujuan untuk
memanipulasi dimensi output dari conv. layer (feature map).
• Dengan menggunakan padding, kita akan dapat mengukur dimensi output agar
tetap sama seperti dimensi input atau setidaknya tidak berkurang secara drastis.
Sehingga kita bisa menggunakan conv. layer yang lebih dalam sehingga lebih
banyak feature yang berhasil di-extract.
• Meningkatkan performa model karena conv. layer akan fokus pada informasi yang
sebenarnya yaitu yang berada diantara zero padding tersebut.
Fungsi Aktivasi
• Fungsi aktivasi berada pada tahap sebelum melakukan pooling
layer dan setelah melakukan proses konvolusi. Pada tahap ini, nilai
hasil konvolusi dikenakan fungsi aktivasi atau activation function.
• Terdapat beberapa fungsi aktivasi yang sering digunakan
pada convolutional network, di antaranya tanh() atau reLU.
• Fungsi aktivasi pada reLU : nilai output dari neuron bisa dinyatakan
sebagai 0 jika inputnya adalah negatif. Jika nilai input dari fungsi
aktivasi adalah positif, maka output dari neuron adalah
nilai input aktivasi itu sendiri.
Pooling Layer
• Polling layer biasanya berada setelah conv. layer. Pada prinsipnya pooling layer
terdiri dari sebuah filter dengan ukuran dan stride tertentu yang bergeser pada
seluruh area feature map.
• Pooling yang biasa digunakan adalah
Max Pooling dan Average Pooling.
• Tujuan pooling layer adalah
mengurangi dimensi feature map
sehingga mempercepat komputasi
karena parameter yang harus di
update semakin sedikit dan mengatasi
overfitting.
Fully-Connected Layer
• Feature map yang dihasilkan dari feature extraction masih berbentuk
multidimensional array, sehingga harus melakukan “flatten” atau reshape
feature map mejadi sebuah vector agar bisa digunakan sebagai input dari
fully-connected layer.
• Lapisan Fully-connected adalah lapisan dimana semua neuron aktivitas
dari lapisan sebelumnya terhubung semua dengan neuron di lapisan
selanjutnya seperti hal nya jaringan syaraf tiruan biasa. Setiap aktivitas
dari lapisan sebelumnya perlu diubah menjadi data satu dimensi sebelum
dapat dihubungkan ke semua neuron di lapisan Fully-Connected.
Fully-Connected Layer - Lanjutan
90 + 880 90
𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = = 97% 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = = 82%
90 + 880 + 20 + 10 90 + 20
90
𝑅𝑒𝑐𝑎𝑙𝑙 = = 90%
90 + 10
Segment 3
• Training Jaringan
Pengenalan Karakter Tulisan Tangan - MNIST
Sumber: https://becominghuman.ai/
Kesimpulan
• AI merupakan sistem yang masih manual dan masih harus disetting untuk melaksanakan
satu tugas tertentu. Kemudian Marchine Learning adalah suatu program pembelajaran yang
berupa saraf neuron yang berfungsi untuk memerintah pada computer. Deep Learning
adalah kemampuan sistem yang di setting dengan baik demi meningkatkan kerja pada
komputer.
• Deep Learning dikaitkan dengan Artificial Neural Network (ANN) yang menggunakan
simulasi cara kerja otak manusia yang terdiri dari beberapa lapisan yang saling terhubung
dan komunikasi.
• Implementasi deep learning dapat dilakukan pada permasalahan klasifikasi, deteksi,
rekognisi, NLP dan lainnya
• Deep learning dapat dkatakan sebagai teknik AI yang paling baik jika dibandingkan dengan
Machine Learning karena dapat mengakomodir data dan perhitungan yang kompleks
berdasarkan efisiensi dan tingkat akurasi yang dihasilkan
Referensi
[1] Antonio, G., & Sujit P. 2017.”Deep Learning With Keras”. Packt Publishing
[3] XenonStack. 2021. “Log Analytics and Log Mining with Deep Learning”.
(https://www.xenonstack.com/blog/log-analytics-mining/) diakses pada 1 Mei
2021
[4] Suk, H.-I. (2017). An Introduction to Neural Networks and Deep Learning.
Deep Learning for Medical Image Analysis, 3–24. doi: 10.1016/b978–0–12–
810408–8.00002-x
PENERAPAN KOMPUTASI
BIG DATA PADA BIDANG
FARMASI
Agus Kurniawan
Ashfar kurnia
OUTLINE
1 BIG DATA BIDANG FARMASI
VOLUME
VISUALIZATION VELOCITY
VERACITY
BIG VARIETY
DATA
VALIDITY VARIABILITY
VALUE
Panesar, Arjun. 2021. Machine Learning and AI for Healthcare: Big Data for
Improved Health Outcomes. Second Edition. Apress. New York, US.
BIG DATA BIDANG FARMASI
Farmasi Bahan Alam
FARMASI Kosmetik
Farmakologi
FARMAKOLOGI,
Farmasi Klinik dan
FARMASI Komunitas
KLINIK DAN
Farmakoekonomi
KOMUNITAS
PERAN BIG DATA DALAM BIDANG FARMASI
“Mengetahui tidak hanya apa yang terjadi, tetapi mengapa itu terjadi
(diagnostik), apa yang akan terjadi (prediktif) dan bagaimana kita dapat
mewujudkannya (preskriptif), hal itu penting untuk bergerak melampaui big data Farmasi
menuju pengetahuan.“ (Drenik, Forbes) Klinik dan
Komunitas
Deskriptif Biologi dan
Kimia Penentuan
Farmasi
Big Data Diagnostik Kebijakan
Optimalisasi
Analytics Pelayanan
Kesehatan
Prediktif Inovasi Obat
dan Alat
Kesehatan
Preskriptif
Penemuan
Senyawa
Proses penggalian informasi yang berguna dengan Obat Baru
menganalisis berbagai jenis kumpulan data yang berukuran Teknologi
besar untuk mengungkap pola tersembunyi, korelasi yang Farmasi
tidak diketahui, dan informasi bermanfaat lainnya yang dapat
digunakan untuk membuat keputusan yang lebih baik
PENGGUNAAN BIG DATA DALAM PENEMUAN DAN
PENGEMBANGAN OBAT BARU
Pemanfaatan data
protein target
Pemanfaatan data
senyawa tanaman
obat
Pemanfaatan data
Genomik
Pemanfaatan data
struktur kimia
Aplikasi AI
• Penemuan senyawa aktif • Uji in vivo • Farmakokinetik • Efektivitas • Safety dan • Real world Vs Trials
• Uji in vitro • Farmakokinetik • BA & BE dalam efikasi • Validitas Internal
• Farmakodinamik • Dosis aman Pengobatan dan Eksternal
• Toksisitas • Efek obat Penyakit
• Dosis • Rentang dosis
DATA PROTEIN TARGET
https://www.rcsb.org/
Ikatan Energi
yang Paling
Kuat
Molecular Docking
DATA TANAMAN OBAT
http://herbaldb.farmasi.ui.ac.id
Perlu
pengembangan
untuk data tanaman
asli Indonesia secara
http://www.botanicalauthentication.org http://herbalgram.org komprehensif
DATA STRUKTUR KIMIA
• Analisis
interaksi ligan-
reseptor: Plant,
Autodock Vina,
https://pubchem.ncbi.nlm.nih.gov https://chem-space.com
MOE, Molegro
Virtual Docker,
dll.
• Analisis ADMET:
pkCSM online
tool
http://www.chemspider.com https://chemaxon.com
DATA GENOMIK
https://blast.ncbi.nlm.nih.gov https://www.ebi.ac.uk
GenBank: NCBI, US DNA Data Bank of Japan,
Jepang
Pangkalan Data
Primer untuk
sekuens Asam
Nukleat saat ini
https://www.ddbj.nig.ac.jp
EMBL-EBI: European Molecular Biology Laboratory, Eropa
PUSAT INFORMASI OBAT
http://pionas.pom.go.id
Berisi deskripsi obat,
Monografi Obat
(Indikasi, Peringatan,
Interaksi, Nama
Dagang), bentuk
sediaan, Golongan
obat, dll.
Insurance
Imaging and mHealth
Claim
Lab results Applications
Providers
Hospital and
Health
Providers
ELECTRONIC HEALTH RECORDS (EHRs)
EHRs memiliki peran penting dalam usaha pengawasan
kesehatan populasi dan pelayanan kesehatan individu
sehingga data tersebut dapat bermanfaat untuk
1. memprediksi prevalensi penyakit
2. meningkatkan keselamatan pasien
3. memudahkan komunikasi antar profesi kesehatan
4. penentuan kebijakan terkait program kesehatan
nasional.
Dokumentasi
catatan apoteker
JENIS DAN SUMBER DATA HEALTHCARE
Kategori sumber big data healthcare
penting untuk analisis AI:
Web and
•history
social media •health forums
data
Machine-to- •Sensors
machine data •wearable
Big
•Health claim data
transaction •billing data
data
•Fingerprints
Biometric •genetics
data •biomarkers driven from wearables
Human- •Email
generated •paper documents
data •EMR
Praktisi kesehatan dapat mengumpulkan dan menganalisis hasil pemeriksaan rutin pasien
Perencanaan strategis medis dari segi lokasi, demografi, dan masyarakat untuk menemukan faktor perkembangan jenis
penyakit tertentu dan juga untuk meningkatkan strategi pengobatan
Rekomendasi obat berbasis gejala dimungkinkan dengan penggunaan analitik big data.
Drug suggestions Saran dan rekomendasi obat secara online membuat proses penanganan lebih efektif.
Analisis big data dapat mengubah cara pengambilan dan penyimpanan gambar. Algoritma
Medical imaging dirancang untuk membaca dan menyimpan data berbasis piksel, kemudian mengubah
data tersebut menjadi bentuk yang mudah dibaca dan dimengerti oleh dokter.
Penemuan smartphone dan IoT, seseorang dapat memanfaatkan ponsel untuk konsultasi
Telemedicine online, saran obat, diagnosis, pemantauan pasien secara real-time, pelacakan pencapaian
kesehatan, dan banyak hal lainnya
PEMANFAATAN BIG DATA UNTUK SISTEM PENGELOLAAN
FARMASI DALAM PELAYANAN KESEHATAN DI RUMAH SAKIT
Tools pendukung keputusan klinis yang terkait
Optimalisasi penggunaan tools dengan farmasi meliputi tombol dosis obat,
untuk mendukung keputusan
klinis peringatan obat seperti terapi duplikat atau
peringatan interaksi obat-obat, dan pop-up
Data klaim dan biaya
peringatan untuk memperingatkan pengguna
Manajemen
yang memberikan tentang praktik yang berpotensi tidak aman.
informasi tentang
formularium dan
pemanfaatan pemantauan efek
pelayanan Big Data uses samping
within Health Aplikasi EMRs ada yang open source dan berlisensi
System
Peningkatan Pharmacy
Mengukur kualitas
penerapan
dan hasil
evidence-based
perawatan pasien
medicine
Regulasi
Pemerataan
Tecnology
Challenges akses
supports
internet
Integrasi
data
REFERENSI
• Bermudez et.al., Towards a symbiotic relationship between big data, artifcial intelligence, and hospital
pharmacy. J of Pharm Policy and Pract. 13 (75): 1 – 6. 2020.
• Drenick G. Going beyond big data to knowledge webpage on the internet. Forbes [updated March 11, 2014].
Available from: http://www.forbes.com/sites/prospernow/2014/03/11/going-beyondbig-data-
toknowledge/. Accessed Novemver 30, 2021.
• Ma, C., et al. Big data in pharmacy practice: current use, challenges, and the future. Integrated Pharmacy
Research and Practice 4; 91–99. 2015.
• Madanian, S. et al. mHealth and big-data integration: promises for healthcare system in India. BMJ Health
Care Inform. 26:e100071. 2019.
• Marconi, K. and Lehmann, H (Ed.). 2015. Big Data and Health Analytics. CRC Press. US.
• Natarajan, P., Frenzel, J.C., and Smaltz, D.H. 2017. Demystifying Big Data and Machine Learning for
Healthcare. CRC Press. US.
• Panesar, Arjun. 2021. Machine Learning and AI for Healthcare: Big Data for Improved Health Outcomes.
Second Edition. Apress. New York, US.
• Stokes, L.B., et al. 2016. Big Data: Implications for Health System Pharmacy. Hosp Pharm. 51(7): 599–603.
2016.
• Wijaya, R.D. dan Rahman, La ode A. Implementasi Electronic Health Records (EHRs) pada Pelayanan
Kesehatan di Komunitas: Literature Review. Jurnal Kesehatan. 8; 28-38. 2019
BIG DATA
Kehamilan
PUS
(Pasangan
Persalian
Usia
Subur)
Big Data
Anak
Nifas
Balita
Bayi
» Visi & Misi » Tata Pamong » Mahasiswa & Lulusan » SDM » Kurikulum PRODI KEBIDANAN & PENDIDIKAN
» Sarana & Prasarana » Penelitian, Abdimas, & Kerjasama PROFESI BIDAN
Analisis Kebutuhan Big Data pada Pelayanan Kebidanan
Kunjungan
Kehamilan Persalian
Pelayanan
oleh tenaga
KB kesehatan
Pelayanan Kunjungan
balita sakit Nifas
Data Deteksi
Pelayanan
balita Pelayanan faktor
resiko/kom
plikasi
Kunjungan Penangan
bayi komplikasi
Penanganan Kunjungan
komplikasi neonatal
neonatal
» Visi & Misi » Tata Pamong » Mahasiswa & Lulusan » SDM » Kurikulum PRODI KEBIDANAN & PENDIDIKAN
» Sarana & Prasarana » Penelitian, Abdimas, & Kerjasama PROFESI BIDAN
PELAYANAN
KESEHATAN
YANG BERMUTU
BAIK
PRODI KEBIDANAN & PENDIDIKAN
PROFESI BIDAN
Home Closing
PRODI KEBIDANAN & PENDIDIKAN
PROFESI BIDAN
Home Welcome
Misi Program Studi Menciptakan suasana akademik yang mendukung terselenggaranya proses
pembelajaran yang inofatof agar dapat menghasilkan lulusan yang cerdas, kompetitif
Kebidanan & dan berkarakter
Pendidikan Profesi
Bidan didasarkan pada Menyelenggrarakan kegiatan penelitian dan pengabdian kepada masyarakat sebagai
pengetahuan dan tanggungjawab social dalam peningkatan kesehatan masyarakat dan
tridharma PT yang baik lingkungannya
sesuai dengan
dinamika masyarakat
Meyelenggarakan kerjasama dengan berbagai industry, baik didalam maupun diluar
di era informasi dan negeri dengan dilandasi kesetraan dan demi kepentingan nasional
globalisasi.
Mengembangkan tata kelola program Pendidikan kebidanan yang baik dalam rangka
merespon berbagai perubahan yang terjadi di era informasi dan globalisasi.
» Visi & Misi » Tata Pamong » Mahasiswa & Lulusan » SDM » Kurikulum PRODI KEBIDANAN & PENDIDIKAN
» Sarana & Prasarana » Penelitian, Abdimas, & Kerjasama PROFESI BIDAN
Implementasi Aplikasi Pelayanan Kebidanan
Select one:
a. Fitur/atribut
b. Nilai
c. Objek
d. Dataset
Clear my choice
Select one:
a. Transformasi data
b. Semua benar
c. Integrasi data
d. Pembersihan data
Dataset dibentuk dari:
Select one:
a. Sekumpulan objek yang memiliki fitur yang sama
b. Semua salah
c. Sekumpulan fitur yang memiliki objek yang sama
d. Sekumpulan fitur yang memiliki nilai yang sama
Clear my choice
Kumpulan data yang disusun dalam tabel berformat persegi panjang yang terdiri dari baris
dan kolom disebut sebagai:
Select one:
a. Flat files
b. Data Warehouse
c. Semua salah
d. Database
Sumber data yang digunakan dalam aplikasi Big Data dapat berupa:
Select one:
a. Data Finansial
b. Data Media Sosial
c. Data Asuransi Kesehatan
d. Semua benar
Tempat penyimpanan data yang dikumpulkan di lokasi berbeda (basis data relasional) dan
disimpan menggunakan skema terpadu:
Select one:
a. Data Warehouse
b. Spatial Database
c. Transactional database
d. Semua benar
Dalam ekosistem Big Data, proses pre-prosesing data dapat dilakukan menggunakan:
Select one:
a. Sqoop
b. Facebook
c. Tableu
d. HDFS
Dalam arsitektur Big Data, solusi berupa rekomendasi, berada pada posisi sebagai:
Select one:
a. Data Computing & Analysis
b. End Result
c. Data Format
d. Data Storage Layer
Semakin banyak data hingga mencapai ukuran Peta Byte atau bahkan lebih, merupakan
penjelasan dari dimensi Big Data dalam hal:
Select one:
a. Variety
b. Velocity
c. Veracity
d. Volume
Select one:
a. Unit
b. Semua benar
c. Record
d. Data points
Select one:
a. Semua salah
b. Numerik
c. Fitur
d. Object
Contoh solusi Big Data, kecuali:
Select one:
a. Mesin rekomendasi
b. Deteksi Penipuan
c. Semua benar
d. Input Nilai Mahasiswa
Select one:
a. Resource Layer
b. SDK Layer
c. Semua benar
d. Interface Layer
Sekumpulan tabel dimana bentuk setiap tabel analog dengan flat file, disebut:
Select one:
a. Database
b. Data Warehouse
c. Semua salah
d. DBMS
Select one:
a. Semua benar
b. Azure ML
c. Apache Spark MLlib
d. Amazon ML
Beragamnya jenis data di dalam Big Data yang meliputi data terstruktur, semi terstruktur
dan bahkan data tidak terstruktur, merupakan penjelasan dari dimensi Big Data dalam hal:
Select one:
a. Velocity
b. Variety
c. Veracity
d. Volume
PERTEMUAN 2 TEAM TEACHING BIG DATA
Select one:
Select one:
c. Semua benar
d. Mulailah dengan kemampuan yang ada untuk manajemen data dan analitik
Select one:
a. Membuat analitik dan keputusan berbasis fakta elemen kunci dari hubungan pelanggan, produk dan
layanan, strategi, dan persaingan
Select one:
b. Semua benar
Select one:
a. Semua benar
c. Prediksi Cashflow
Select one:
a. Data pegawai
c. Semua benar
Select one:
a. Semua benar
b. Procter & Gamble melakukan Analisis sentimen media sosial real time untuk "Pulsa Konsumen"
c. Sistem Manajemen Inventaris Cerdas pada perusahaan Ford, menyarankan pesanan mingguan untuk
dealer dan telah meningkatkan pendapatan sebesar $ 100 juta / tahun
d. Monsanto membayar hampir $ 1 miliar untuk The Climate Company, yang mengumpulkan dan
menganalisis data cuaca untuk pertanian
Select one:
a. Analitik Rute
d. Pengenalan objek
Select one:
Select one:
a. HDFS
b. YARN
c. MapReduce
d. Semua benar
Select one:
a. MapReduce
b. YARN
c. Semua benar
d. HDFS
Select one:
Select one:
c. Semua benar
Select one:
a. 1.0
b. Semua benar
c. 3.0
d. 2.0
Select one:
a. Semua benar
b. Static vs Dynamic
c. Relational vs Non-Relational
Select one:
b. Semua benar
d. Mahal vs Terjangkau
Salah satu bentuk data tidak terstruktur:
Select one:
a. Graph
b. Semua benar
c. Key-Value
d. Document
Salah satu fakta yang menunjukkan aspek Velocity dari Big Data:
Select one:
a. Mobil modern memiliki 100 sensor yang memantau berbagai item pada mobil
c. Semua benar
d. 27% responden dalam satu survei tidak yakin dengan banyaknya data mereka yang tidak akurat
Salah satu tonggak penting dalam Big Data Analytic dalam aspek pengadaan infrastruktur:
Select one:
a. Dapatkan infrastruktur yang tepat yang dibutuhkan berdasarkan arsitektur solusi Anda termasuk
penyimpanan data dan unit pemrosesan, platform, dan aplikasi
b. Adaptasi dan ubah organisasi Anda menuju teknologi big data dan implementasi analitik baru
c. Kembangkan arsitektur Solusi untuk kasus bisnis Anda termasuk proses pengumpulan data, arsitektur
teknologi dan metode analitik serta visualisasi data
d. Analisis data untuk setiap kasus bisnis spesifik Anda dan visualisasikan dengan cara yang bermakna
Select one:
c. Keduanya benar
d. Keduanya salah
BIG DATA PERTEMUAN 3
Select one:
a. Kumpulan server atau node digabungkan secara erat, dengan spesifikasi perangkat keras yang sama.
Serta terhubung melalui jaringan dan bekerja sebagai satu kesatuan
b. Penyimpanan dan pengaturan data pada perangkat penyimpanan harddisk atau flashdisk, dan
menyediakan logical view dari data yang disimpan dalam struktur hirakis direktori file.
c. Menyimpan data dengan mempartisi secara horizontal dan pecahan horizontal tersebut di simpan
secara terpisah pada node server.
d. Data disimpan dengan cara menyalin dataset dan meyimpan Salinan tersebut pada beberapa node
Berikut yang dimaksud dengan menganalisa data dalam konteks big data adalah:
Select one:
Properti Big data yang penting, salah satunya adalah aviability, yaitu:
Select one:
b. Handal
c. Kemampuan untuk terus beroperasi walaupun terjadi kegagalan pada beberapa komponen
Select one:
c. Fully-Distributed mode
Select one:
a. membagi masalah besar menjadi masalah kecil yang dapat diselesaikan dengan cepat
b. memproses data besar secara parallel dalam cluster pada commodity hardware
c. semua benar
Select one:
Select one:
Select one:
Hadoop adalah framework yang bekerja bersama tools lain yang beragam. Kelompok yang umum
bekerja bersama Hadoop adalah
Select one:
Properti Big data yang penting, salah satunya adalah reliability, yaitu:
Select one:
a. Kemampuan untuk terus beroperasi walaupun terjadi kegagalan pada beberapa komponen
b. Handal
Properti Big data yang penting, salah satunya adalah fault tolerance, yaitu:
Select one:
b. Handal
c. Kemampuan untuk terus beroperasi walaupun terjadi kegagalan pada beberapa komponen
Database NoSQL menggunakan beragam model data untuk mengakses dan mengelola data. Jenis
database ini dioptimalkan secara khusus untuk aplikasi yang memerlukan…., yang dicapai dengan
mengurangi pembatasan konsistensi data dari database lainnya.
Select one:
Select one:
a. yang menerapkan divide and conquer dalam fisik terpisah, namun terhunung Bersama dalam satu
cluster
c. yang melibatkan pelaksanaan sub-tugas secara bersamaan secara kolektif membentuk tugas yang
besar melalui beberapa processor
d. yang membagi pemrosesan dalam beberapa batch dan dilakukan secara offline
Select one:
c. Semua benar
Select one:
a. Semua benar
b. Tidak terstuktur
c. Terstruktur
d. Semi – terstruktur
Hadoop adalah platform pemrosesan big data yaitu data yang mempunyai karakteristik kecuali:
Select one:
b. Volume besar, struktur data yang beragam (variety), dan nilai data yang diperlukan (useful value)
Select one:
Select one:
Jenis database NoSQL apa yang membuat dan menjalankan aplikasi yang berjalan dengan dataset yang
selalu terhubung menjadi lebih mudah dan sering digunakan untuk jaringan media sosial.
Select one:
a. Dokumen
b. Primary key
c. Pencarian
d. Grafik
Properti Big data yang penting, salah satunya adalah scalability, yaitu:
Select one:
c. Kemampuan untuk terus beroperasi walaupun terjadi kegagalan pada beberapa komponen
d. Handal
28/03/22 13.27 1 pesan baru
Dashboard / My courses /
ATA 2021/2022 | 2-FTI | Kompuasi Big Data | TEAM TEACHING /
Pertemuan 4 : Data Preprocessing
/
Kuis M4 : Data Preprocessing
Dibiarkan
A,B,dan C benar
Record
Sample
Atribut
Ignore
Clustering
Combined Computer
Question 4 Data berupa image, video bahkan suara termasuk jenis data
Correct
Multimedia
Graf
Ordered
1
Online
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=5682077&cmid=856415 1/4
28/03/22 13.27 1 pesan baru
Question 6 Data Cleansing merupakan tahapan untuk membersihkan data kotor sehingga menjadi dataset yang siap diolah. Data
Correct kotor tersebut berupa
Mark 5.00 out of
5.00 Select one:
outlier
A,B,C benar
missing value
duplicate data
Question 7 Data-data yang saling berhubungan, yang biasanya ditemukan pada jaringan internet termasuk dalam jenis data
Correct
Ordered
Record
Graf
Question 8 Imputasi nilai secara otomatis saat menangani incomplete data tidak dapat dilakukan menggunakan
Correct
Nilai tertinggi
Median
Rata-rata
Numerik
Rasio
Ordinal
Data objek
Data sample
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=5682077&cmid=856415 2/4
28/03/22 13.27 1 pesan baru
Question 11 Nilai yang merepresentasikan urutan seperti nilai mata kuliah termasuk dalam atribut data type..
Correct
Ordinal
Nominal
Numerik
data Integration
data transformation
data cleaning
Question 13 Penanganan missing value dapat dilakukan menggunakan nilai estimasi dari probabilitas bersyarat menggunakan metode
Correct
Bayessian
Regresi
Mean
Question 14 Salah satu jenis data record yang diekstrak menjadi kumpulan term dan ditulis berdasarkan frekuensi kemunculan data,
Correct termasuk pada jenis data
Mark 5.00 out of
5.00 Select one:
Dokumen
Transaksi
Matriks
Sosial network
Question 15 Seberapa mudah data dapat dipahami merupakan kualitas data dari..
Correct
Interpretability
Completeness
Believability
Question 16 Statistik dasar untuk mengukur sebaran data salah satunya adalah
Correct
Modus
Online
Median
Variance
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=5682077&cmid=856415 3/4
28/03/22 13.27 1 pesan baru
Question 17 Studi tentang bagaimana menganalisis data dan membersihkan data merupakan salah satu tujuan dari
Correct
Data cleansing
Data training
Data testing
data reduction
data cleaning
data transformation
Question 19 Tanggal penjualan, nama pelanggan, nama barang, jumlah penjualan merupakan contoh dari
Correct
Dataset penjualan
Question 20 Tinggi badan, berat badan, usia, dan jenis kelamin merupakan contoh representasi karakteristik dari
Correct
Data objek
Dataset
Data sample
1
Online
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=5682077&cmid=856415 4/4
04/04/22 13.35 Kuis M5: Implementasi BigData pada Fintech: Attempt review
Dashboard / My courses /
ATA 2021/2022 | 2-FTI | Kompuasi Big Data | TEAM TEACHING /
Pertemuan 5: Implementasi Big Data pada Fintech
/
Kuis M5: Implementasi BigData pada Fintech
b. Data Manager
c. Business Analyst
d. Statistician
b. Semua benar
d. Gambar
1
Online
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=5791856&cmid=867269 1/5
04/04/22 13.35 Kuis M5: Implementasi BigData pada Fintech: Attempt review
b. Nomor telepon
c. Email
d. Nama pelanggan
Question 6 Salah satu teknologi yang dapat digunakan pada bagian Serving Layer dalam Arsitektur lambda adalah:
Correct
b. Flume
c. Spark
d. HDFS
Question 7 Salah satu aktivitas yang dilakukan oleh Link Aja! dalam mengadopsi alat-alat bantu untuk pengelolaan data adalah:
Correct
b. 2008
c. 2020
d. 2016
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=5791856&cmid=867269 2/5
04/04/22 13.35 Kuis M5: Implementasi BigData pada Fintech: Attempt review
Question 9 Berikut ini urutan proses yang dilakukan dalam Arsitektur Kappa adalah:
Correct
b. Data Sources, Streaming/Real-Time Ingestion, Analytical Data Store, Streaming/Real-Time Processing, Analytics
& Reporting
c. Data Sources, Analytical Data Store, Streaming/Real-Time Ingestion, Streaming/Real-Time Processing, Analytics
& Reporting
d. Data Sources, Streaming/Real-Time Ingestion, Streaming/Real-Time Processing, Analytical Data Store, Analytics
& Reporting
The correct answer is: Data Sources, Streaming/Real-Time Ingestion, Streaming/Real-Time Processing, Analytical Data
Store, Analytics & Reporting
Question 10 Pembayaran Kartu prakerja merupakan salah satu proyek yang dikerjakan oleh Link Aja bersama dengan:
Correct
b. Semua salah
c. Bank Indonesia
d. Pemerintah
Question 11 Dalam ekosistem teknologi Data Engineering Link Aja! Apache Airflow berfungsi sebagai:
Correct
b. Streaming Infrastructure
c. Monitoring
d. Batching Infratructure
Question 12 Ukuran kualitas citra merupakan salah satu luaran yang dihasilkan oleh AI/ML Scientist Link Aja! pada proyek:
Correct
c. eKYC Improvement
1
Online
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=5791856&cmid=867269 3/5
04/04/22 13.35 Kuis M5: Implementasi BigData pada Fintech: Attempt review
b. Yahoo
c. Google
d. Facebook
b. Volume
c. Veracity
d. Variety
Question 15 Berikut ini merupakan komponen-kompone produksi dalam implementasi big data, kecuali:
Correct
b. Presto
c. Spark
d. MongoDB
Question 16 Menjadi platform teknologi keuangan nasional terdepan dan terpercaya merupakan ... dari Link Aja!:
Correct
b. Misi
c. Tujuan
d. Visi
1
Online
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=5791856&cmid=867269 4/5
04/04/22 13.35 Kuis M5: Implementasi BigData pada Fintech: Attempt review
Question 17 Berikut ini adalah teknologi yang digunakan oleh Link Aja! pada bagian Persistence Layer, kecuali:
Correct
d. PostgreSQL
b. Tidak Terstruktur
c. Semi Terstruktur
b. Beam
c. Hadoop
d. Hive
Question 20 Berikut ini yang bukan termasuk kedalam peran Tim Data di Link Aja! adalah:
Correct
b. Data Analyst
c. Data Scientist
d. Data Engineer
◄ Materi M5: Implementasi Big Data Kuis M5: Implementasi BigData pada
Jump to...
pada Fintech Fintech (Khusus KELAS MALAM) ►
1
Online
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=5791856&cmid=867269 5/5
QUIZ M7 KOMPUTASI BIG DATA
Metode untuk memprediksi kelas instance dari instance yang diberi label sebelumnya
Select one:
a. Asosiasi
b. Klasterisasi
c. Klasifikasi
d. Visualisasi
Proses pencarian konten baru dan konten yang perlu diperbaharui dengan mengirimkan crawler ke
seluruh konten yang ditemukan dari tautan halaman merupakan Salah satu konsep data mining pada
Search Engine yang dinamakan
Select one:
a. Rank
b. Searching
c. Index
d. Crawl
Metode untuk mempresentasikan hasil yang ditemukan dengan cara yang "bagus" secara visual
Select one:
a. Asosiasi
b. Visualisasi
c. Klasterisasi
d. Klasifikasi
Untuk menghindari set pengujian yang tumpang tindih, data dibagi menjadi k himpunan bagian dengan
ukuran yang sama kemudiansetiap subset secara bergantian digunakan untuk pengujian dan sisanya
untuk pelatihan
Select one:
d. k-fold cross-validation
Attributes yang berisi informasi seperti item_ID, name, brand, category, supplier, place_made and price,
merupakaan salah satu contoh jenis database
Select one:
a. Penjualan
b. Marketing
c. Penyewaan
d. Social media
Select one:
a. Pisahkan data menjadi set pelatihan dan pengujian, Buat model pada set pelatihan, Evaluasi pada set
pengujian
b. Buat model pada set pelatihan, pilih secara acak jumlah instance kelas minoritas yang diinginkan,
Evaluasi pada set pengujian
c. Buat model pada set pelatihan, Evaluasi pada set pengujian (Latih ulang?), Pisahkan data menjadi set
pelatihan dan pengujian
d. Evaluasi pada set pengujian, Buat model pada set pelatihan, Pisahkan data menjadi set pelatihan dan
pengujian
Select one:
Select one:
a. Asosiasi
b. Klasifikasi
c. Visualisasi
d. Klasterisasi
Fungsi dari data mining adalah salah satunya dapat mengetahui pola yang sering (atau kumpulan item
yang sering) misalnya item apa yang sering dibeli bersama di Walmart Anda. Ini dikenal dengan istilah
Select one:
a. Klasifikasi
b. Klasterisasi
c. Outlier Analysis
Metode untuk mengelompokkan secara "alami" dari instance yang diberi data tanpa label
Select one:
a. Asosiasi
b. Klasifikasi
c. Klasterisasi
d. Visualisasi
Select one:
a. lebih teori
d. lebih heuristik
Yang bukan Metode clusterisasi
Select one:
b. Decision Tree
Select one:
a. Completeness
b. Interpretability
c. Consistency
d. Believability
Jenis tugas data mining yang menfasilitasi penerimaan / penelusuran informasi bagi pengguna
Select one:
a. Visualisasi
b. Klasifikasi
c. Klasterisasi
d. Asosiasi
Karakteristik Big Data yang terus bertambah dengan cepat secara real-time dinamakan
Select one:
a. Value
b. Volume
c. variety
d. Velocity
Pernyataan yang kurang sesuai dengan metode peringkasan
Select one:
Metode klasifikasi pada fungsi data mining yang menggunakan nilai estimasi dari probabilitas bersyarat
dinamakan metode
Select one:
a. Regresi
b. Eliminasi
c. Mean
d. Naive Bayessian
Select one:
a. Klasifikasi
b. Visualisasi
c. Klasterisasi
d. Asosiasi
Melihat suatu objek data yang tidak sesuai dengan perilaku umum data, sering digunakan dalam deteksi
penipuan atau analisis kejadian langka
Select one:
a. Analisis Outlier
b. Klasifikasi
d. Klasterisasi
Acuan yang tidak tepat ketika melakukan pengaturan parameter
Select one:
a. Data pengujian tidak digunakan dengan cara apa pun untuk membuat pengklasifikasi
c. Skema pembelajaran beroperasi dalam dua tahap yaitu membangun struktur dasar dan
mengoptimalkan pengaturan parameter
Dashboard / My courses /
ATA 2021/2022 | 2-FTI | Kompuasi Big Data | TEAM TEACHING
/
Pertemuan 8: Introduction to Machine Learning (Supervised) /
Kuis M6 : Introduction to Machine Learning (Supervised)
b. Regressi
c. Generalisasi
d. Klasterisasi
1
Question 2 Yang tidak digunakan pada Model Supervised Learning Online
Correct
d. Neural Networks
Question 3 Jika variabel keluaran adalah berupa kategori misalnya “apel”, “jeruk” termasuk pada machine learning bertipe
Correct
b. Reinfocement
c. Unsupervised
d. Supervised – Classification
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=6197464&cmid=906733 1/5
09/05/22 13.58 1 pesan baru
Question 5 Model ini belajar dari kumpulan data berlabel dan kemudian digunakan untuk memprediksi peristiwa di masa depan.
Correct
b. Reinfocement Learning
d. Supervised Learning
Question 6 Model pembelajaran yang menggunakan data berlabel dan tidak berlabel untuk pelatihan.
Correct
b. Reinfocement Learning
d. Supervised Learning
Question 8 Yang bukan tujuan supervised learning untuk membangun model yang dapat menghasilkan output yang benar untuk
Correct suatu data input dapat digunakan untuk
Marked out of
5.00 Select one:
a. Klasterisasi (clustering)
b. Pengklasifikasian (classification)
c. Ranking
d. Regresi (regression)
Question 9 Saat Anda ingin mengungkap pengelompokan yang melekat dalam data, seperti mengelompokkan hewan berdasarkan
Correct beberapa karakteristik / fitur, mis. jumlah kaki maka model pembelajaran yang sesuai
Marked out of
5.00 Select one:
a. Supervised Learning - Regression
c. Reinfocement Learning
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=6197464&cmid=906733 2/5
09/05/22 13.58 1 pesan baru
Question 10 Kumpulan data yg sudah dipastikan kebenarannya, dr sisi label, data awal, komponen2 data yg akan dijadikan kunci,
Correct
b. Training Set
c. Feature Extraction
d. Feature/ atribut
Question 11 Pola-pola struktur yang ada pada suatu koleksi data (knowledge) dapat direpresentasi dalam bentuk if then rules :
Correct
b. Instance
c. Aturan
d. Pohon
Question 12
Correct
Marked out of 1
5.00
Online
Gambar pada representasi di atas adalah Pola-pola struktur yang ada pada suatu koleksi data (knowledge) dalam bentuk
Select one:
a. Pohon
b. Tabel
c. Aturan
d. Instance
Question 13 Sebuah proses yg mempersiapkan data sehingga data tsb bisa kita extract cirinya menjadi suatu vektor
Correct
b. Feature/ atribut
c. Feature Extraction
d. Training Set
Question 14 Salah satu teknik yang digunakan untuk mengkontrol fenomena over-fitting adalah dengan cara menambah finalti ke
Correct fungsi error.
Marked out of
5.00 Select one:
a. model selection
b. prediction
c. regularization
d. generalization
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=6197464&cmid=906733 3/5
09/05/22 13.58 1 pesan baru
Question 15 Model Pembelajaran yang mempelajari bagaimana sistem dapat menyimpulkan suatu fungsi untuk mendeskripsikan
Correct struktur tersembunyi dari data yang tidak berlabel. Sistem ini tidak memprediksi keluaran yang benar, tetapi
Marked out of mengeksplorasi data dan dapat menarik kesimpulan dari kumpulan data untuk mendeskripsikan struktur tersembunyi dari
5.00 data yang tidak berlabel.
Select one:
a. Reinfocement Learning
b. Supervised Learning
c. Unsupervised Learning
Question 16 Pembelajaran yang bertujuan memprediksi output dengan akurat untuk data baru dan output ti bernilai kontinu (riil),
Correct contoh untuk Prediksi kinerja CPU
Marked out of
5.00 Select one:
a. Regressi
b. Klasifikasi
c. Generalisasi
d. Klasterisasi
1
Online
Question 17 Ciri-ciri dari masing-masing sample data misalnya Smartphone. ciri: memiliki ...
Correct
Marked out of
5.00 Select one:
a. Feature Extraction
b. Feature/ atribut
c. Training Set
d. Instance
Question 18
Correct
Marked out of
5.00
Gambar pada representasi di atas adalah Pola-pola struktur yang ada pada suatu koleksi data (knowledge) dalam bentuk
Select one:
a. Tabel
b. Pohon
c. Instance
d. Aturan
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=6197464&cmid=906733 4/5
09/05/22 13.58 1 pesan baru
Question 19
Correct
Marked out of
5.00
Gambar pada representasi di atas adalah Pola-pola struktur yang ada pada suatu koleksi data (knowledge) dalam bentuk
Select one:
a. Pohon
b. Aturan
c. Instance
d. Tabel
Question 20 Tujuan pembelajaran unsupervised adalah membagun model yang dapat menemukan komponen / variabel / fitur
Correct tersembunyi pada data pelatihan, yang dapat digunakan untuk hal berikut, kecuali
Marked out of
5.00 Select one:
a. Pengelompokan (clustering)
c. Rekomendasi
d. Pengklasifikasian (classification)
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=6197464&cmid=906733 5/5
20/06/22 13.39 1 pesan baru
Dashboard / My courses /
ATA 2021/2022 | 2-FTI | Kompuasi Big Data | TEAM TEACHING /
Pertemuan 9: Unsupervised Learning (M11)
/
Kuis M11 : Unsupervised Learning (KELAS PAGI)
Question 1 Algoritma yang paling banyak digunakan untuk task Association rules
Correct
b. FP-Growth
c. Apriori
d. Eclat
Question 2 Salah satu bentuk pengelompokan yang menetapkan bahwa suatu titik data hanya dapat ada dalam satu cluster. Ini juga
Correct bisa disebut sebagai pengelompokan "keras". Algoritma yang digunakan salah satunya adalah K-means clustering
Marked out of
5.00 Select one:
a. Tumpang tindih (overlapping)
d. Hierarkis ( hierarchical)
Question 3 Pengelompokan yang sebagai "pendekatan bottom-up". Di mana titik datanya diisolasi sebagai pengelompokan terpisah
Correct pada awalnya, dan kemudian digabungkan bersama secara iteratif atas dasar kesamaan hingga satu cluster tercapai.
Marked out of
5.00 Select one:
a. Pendekatan Probabilistic
b. Pendekatan Aglomeratif
c. Pendekatan Overlapping
d. Pendekatan Divisive
c. Mempelajari bagaimana cara kerja pembelajaran tanpa pengawasan dan dengan pengawasan
1
Online
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=6521344&cmid=939484 1/5
20/06/22 13.39 1 pesan baru
Question 5 Jenis algoritme pengurangan dimensi yang digunakan untuk mengurangi redundansi dan mengompresi kumpulan data
Correct melalui ekstraksi fitur. Metode ini menggunakan transformasi linier untuk membuat representasi data baru, menghasilkan
Marked out of sekumpulan "komponen utama". Komponen utama pertama adalah arah yang memaksimalkan varians dari dataset.
5.00 Sementara komponen utama kedua juga menemukan varians maksimum dalam data, itu sama sekali tidak berkorelasi
dengan komponen utama pertama, menghasilkan arah yang tegak lurus, atau ortogonal, ke komponen pertama. Proses
ini berulang berdasarkan jumlah dimensi, dimana komponen utama berikutnya adalah arah ortogonal ke komponen
sebelumnya dengan varians terbanyak.
Select one:
a. Autoencoders
d. FP-Growth
Question 6 Kemampuannya untuk menemukan persamaan dan perbedaan informasi menjadikannya unsupervised learning sebagai
Correct solusi ideal tugas tugas di bawah ini, kecuali
Marked out of
5.00 Select one:
a. strategi penjualan silang
c. Segmentasi pelanggan
Question 7 Pendekatan reduksi dimensi lain yang memfaktorkan matriks, A, menjadi tiga matriks peringkat rendah. SVD
Correct dilambangkan dengan rumus, A = USVT, di mana U dan V adalah matriks ortogonal. S adalah matriks diagonal, dan nilai S
Marked out of dianggap sebagai nilai tunggal matriks A. Principal component analysis
5.00
Select one:
a. Autoencoders
b. FP-Growth
d. Hierarkis ( hierarchical)
Question 9 Algoritme yang berusaha menemukan pola tersembunyi atau pengelompokan data tanpa perlu campur tangan manusia.
Correct
b. Deep Learning
c. Unsupervised Learning
d. Supervised Learning
1
Online
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=6521344&cmid=939484 2/5
20/06/22 13.39 1 pesan baru
Question 10 Salah satu bentuk pengelompokan yang memungkinkan titik data menjadi bagian dari beberapa kluster dengan derajat
Correct keanggotaan terpisah. Ini disebut juga Pengelompokan "lembut" atau fuzzy k-means
Marked out of
5.00 Select one:
a. Memecah belah (Divisive)
c. Hierarkis ( hierarchical)
Question 11 Teknik yang memanfaatkan jaringan neural untuk mengompresi data dan kemudian membuat ulang representasi baru
Correct dari input data asli. Terdapat lapisan tersembunyi secara khusus bertindak sebagai penghambat untuk memampatkan
Marked out of lapisan masukan sebelum merekonstruksi di dalam lapisan keluaran.
5.00
Select one:
a. Principal component analysis
c. FP-Growth
d. Autoencoders
Question 12 Algoritme yang menggunakan pohon hash untuk menghitung kumpulan item, menavigasi kumpulan data dengan cara
Correct yang pertama. Algoritma ini telah dipopulerkan melalui analisis keranjang pasar, yang mengarah ke mesin rekomendasi
Marked out of yang berbeda untuk platform musik dan pengecer online.Misalnya, jika saya memutar radio Black Sabbath di Spotify,
5.00 dimulai dengan lagu mereka "Anggrek", salah satu lagu lain di saluran ini kemungkinan besar adalah lagu Led Zeppelin,
seperti "Over the Hills dan Far Away." Ini didasarkan pada kebiasaan mendengarkan saya sebelumnya serta kebiasaan
orang lain.
Select one:
a. Apriori
b. FP-Growth
c. Eclat
d. Apriori
b. Association
c. Dimensionality reduction
d. Regression
Question 14 Pengelompokan yang mengambil pendekatan "top-down". Dalam hal ini, satu cluster data dibagi berdasarkan perbedaan
Correct antara titik data. Pengelompokan dengan cara ini tidak umum digunakan, tetapi masih perlu diperhatikan dalam konteks
Marked out of pengelompokan hierarkis. Proses pengelompokan ini biasanya divisualisasikan menggunakan dendrogram, diagram mirip
5.00 pohon yang mendokumentasikan penggabungan atau pemisahan titik data pada setiap iterasi.
Select one:
a. Pendekatan Aglomeratif
b. Pendekatan Overlapping
c. Pendekatan Probabilistic
d. Pendekatan Divisive
1
Online
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=6521344&cmid=939484 3/5
20/06/22 13.39 1 pesan baru
Question 15 Metode berbasis aturan untuk menemukan hubungan antara variabel dalam kumpulan data tertentu. Metode ini sering
Correct digunakan untuk analisis keranjang pasar, memungkinkan perusahaan untuk lebih memahami hubungan antara produk
Marked out of yang berbeda. Memahami kebiasaan konsumsi pelanggan memungkinkan bisnis untuk mengembangkan strategi
5.00 penjualan silang dan mesin rekomendasi yang lebih baik.
Select one:
a. Association
b. clustering
c. Dimensionality reduction
d. Regression
Question 16 Teknik tanpa pengawasan yang membantu menyelesaikan estimasi kepadatan atau masalah pengelompokan "lunak".
Correct Dalam hal ini, titik data dikelompokkan berdasarkan kemungkinannya termasuk dalam distribusi tertentu. Teknik yang
Marked out of paling umum digunakan adalah Gaussian Mixture Model (GMM)
5.00
Select one:
a. Pendekatan Divisive
b. Pendekatan Aglomeratif
c. Pendekatan Overlapping
d. Pendekatan Probabilistic
Question 17 Teknik yang mengelompokkan data yang tidak berlabel berdasarkan persamaan atau perbedaannya. Algoritma ini
Correct digunakan untuk memproses objek data mentah dan tidak terklasifikasi menjadi grup yang diwakili oleh struktur atau
Marked out of pola dalam informasi.
5.00
Select one:
a. Dimensionality reduction
b. Association
c. Regression
d. Clustering
Question 18 Pembelajaran mesin tanpa pengawasan, menggunakan algoritme pembelajaran mesin untuk menganalisis dan
Correct mengelompokkan set data tak berlabel
Marked out of
5.00 Select one:
a. Deep Learning
c. Unsupervised Learning
d. Supervised Learning
Question 19 Algoritme yang menggunakan pohon hash untuk menghitung kumpulan item, menavigasi kumpulan data dengan cara
Correct yang pertama. Algoritma ini telah dipopulerkan melalui analisis keranjang pasar, yang mengarah ke mesin rekomendasi
Marked out of yang berbeda untuk platform musik dan pengecer online.Misalnya, jika saya memutar radio Black Sabbath di Spotify,
5.00 dimulai dengan lagu mereka "Anggrek", salah satu lagu lain di saluran ini kemungkinan besar adalah lagu Led Zeppelin,
seperti "Over the Hills dan Far Away." Ini didasarkan pada kebiasaan mendengarkan saya sebelumnya serta kebiasaan
orang lain. Ini termasuk task
Select one:
a. clustering
b. Regression
c. Association
1
d. Dimensionality reduction
Online
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=6521344&cmid=939484 4/5
20/06/22 13.39 1 pesan baru
Question 20 Teknik yang digunakan ketika jumlah fitur, atau dimensi, dalam kumpulan data tertentu terlalu tinggi. Teknik ini
Correct mengurangi jumlah input data ke ukuran yang dapat dikelola sambil juga menjaga integritas set data sebanyak mungkin,
Marked out of biasanya digunakan dalam tahap data praproses
5.00
Select one:
a. Dimensionality reduction
b. Regression
c. clustering
d. Association
1
Online
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=6521344&cmid=939484 5/5
27/06/22 12.55 Kuis M12: Penerapan Big Data di Sektor Perbankan: Attempt review
Dashboard / My courses /
ATA 2021/2022 | 2-FTI | Kompuasi Big Data | TEAM TEACHING
/
Pertemuan 10: Penerapan Big Data di Sektor Perbankan (M12) /
Kuis M12: Penerapan Big Data di Sektor Perbankan
c. Data terstruktur
d. Semua benar
b. Hadoop
c. Tableau
d. Facebook
b. Data Identification
b. Semua benar
c. Sensor
d. Media
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=6622556&cmid=951453 1/4
27/06/22 12.55 Kuis M12: Penerapan Big Data di Sektor Perbankan: Attempt review
Question 5 Perbedaan Data Tradisional dan Big Data pada komponen Arsitektur:
Correct
c. Centralized vs Distributed
Question 7 Proses memilih dan mengambil data dari satu atau beberapa sumber:
Correct
c. Data Extraction
d. Data Identification
Question 8 Aplikasi Core Banking System untuk memfasilitasi nasabah agar dapat melakukan transaksi sendiri:
Correct
Question 9 Proses di mana data mentah dikumpulkan dan diekspresikan dalam bentuk ringkasan untuk analisis statistik.
Correct
c. Data Identification
b. Tableau
c. Facebook
d. Hadoop
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=6622556&cmid=951453 2/4
27/06/22 12.55 Kuis M12: Penerapan Big Data di Sektor Perbankan: Attempt review
b. MS SQL Server
c. IBM AS-400
d. Semua benar
b. Kesamaan data
c. Kebenaran data
b. Semua salah
c. Melayani seluruh nasabah untuk berbagai kebutuhan seperti funding, lending, dan deposit uang
Question 14 Pencarian informasi terkait tipe data, struktur data, bentuk data, dan isi serta sumber data:
Correct
b. Data Extraction
d. Data Identification
d. Di dalamnya tersimpan data nasabah serta semua transaksi sejak nasabah membuka rekening di bank sampai
menutupnya.
Question 16 Perbedaan Data Tradisional dan Big Data pada komponen Data relationship:
Correct
c. Semua benar
d. Centralized vs Distributed
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=6622556&cmid=951453 3/4
27/06/22 12.55 Kuis M12: Penerapan Big Data di Sektor Perbankan: Attempt review
b. Semua benar
b. Busines Case Evaluation - Data Identification - Data Acquisition & Filtering - Data Extraction - Data Validation
& Cleansing - Data Aggregation & Representation - Data Analysis - Utilization of Analysis Results
c. Busines Case Evaluation - Data Identification - Data Acquisition & Filtering - Data Extraction - Data Validation
& Cleansing - Data Analysis - Data Visualization - Utilization of Analysis Results
d. Busines Case Evaluation - Data Identification - Data Acquisition & Filtering - Data Extraction - Data Validation
& Cleansing - Data Aggregation & Representation - Data Analysis - Data Visualization - Utilization of
Analysis Results
b. Semua benar
c. Mendorong inklusivitas
Question 20 Perbedaan Data Tradisional dan Big Data pada komponen Data Model:
Correct
c. Semua benar
d. Centralized vs Distributed
◄ Materi M12: Penerapan Big Data di Kuis M12: Penerapan Big Data di Sektor
Jump to...
Sektor Perbankan Perbankan (Kelas Malam) ►
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=6622556&cmid=951453 4/4
3/8/2021 Kuis M1 : Big Data Computing Overview: Attempt review
Dashboard / My courses / ATA 2020/2021 | 2-FTI | Komputasi Big Data | TEAM TEACHING / Pertemuan 1 : Big Data Computing Overview
/ Kuis M1 : Big Data Computing Overview
Question 1 Beragamnya jenis data di dalam Big Data yang meliputi data terstruktur, semi terstruktur dan bahkan data tidak
Correct terstruktur, merupakan penjelasan dari dimensi Big Data dalam hal:
Mark 5.00 out of
5.00 Select one:
Velocity
Variety
Volume
Veracity
Semua benar
Deteksi Penipuan
Mesin rekomendasi
Question 3 Dalam arsitektur Big Data, solusi berupa rekomendasi, berada pada posisi sebagai:
Correct
End Result
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2404117&cmid=491430 1/6
3/8/2021 Kuis M1 : Big Data Computing Overview: Attempt review
Question 4 Dalam ekosistem Big Data, proses pre-prosesing data dapat dilakukan menggunakan:
Correct
HDFS
Tableu
Question 5 Data Warehouse dibuat dengan menerapkan serangkaian langkah pemrosesan terhadap data yang berasal dari beberapa
Correct basis data. Berikut ini adalah yang termasuk dalam pemrosesan data tersebut:
Mark 5.00 out of
5.00 Select one:
Pembersihan data
Transformasi data
Semua benar
Integrasi data
Semua salah
The correct answer is: Sekumpulan objek yang memiliki fitur yang sama
Resource Layer
Semua benar
SDK Layer
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2404117&cmid=491430 2/6
3/8/2021 Kuis M1 : Big Data Computing Overview: Attempt review
Question 8 Kumpulan data yang disusun dalam tabel berformat persegi panjang yang terdiri dari baris dan kolom disebut sebagai:
Correct
Flat files
Data Warehouse
Database
The correct answer is: Memperkirakan puncak dari kasus positif Covid-19, adalah contoh analisis prediktif.
Question 10 Model basis data yang berupa deret waktu (time series):
Correct
Spatial database
Text database
Semua salah
Unit
Data points
Semua benar
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2404117&cmid=491430 3/6
3/8/2021 Kuis M1 : Big Data Computing Overview: Attempt review
Question 13 Sekumpulan tabel dimana bentuk setiap tabel analog dengan flat file, disebut:
Correct
Data Warehouse
Database
DBMS
Question 14 Semakin banyak data hingga mencapai ukuran Peta Byte atau bahkan lebih, merupakan penjelasan dari dimensi Big Data
Correct dalam hal:
Mark 5.00 out of
5.00 Select one:
Veracity
Variety
Velocity
Volume
Question 15 Sumber data yang digunakan dalam aplikasi Big Data dapat berupa:
Correct
Data Finansial
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2404117&cmid=491430 4/6
3/8/2021 Kuis M1 : Big Data Computing Overview: Attempt review
Question 16 Tempat penyimpanan data yang dikumpulkan di lokasi berbeda (basis data relasional) dan disimpan menggunakan skema
Correct terpadu:
Mark 5.00 out of
5.00 Select one:
Spatial Database
Transactional database
Semua benar
Data Warehouse
Fitur
Semua salah
Numerik
Nilai
Objek
Fitur/atribut
Plot
Semua benar
Tabel
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2404117&cmid=491430 5/6
3/8/2021 Kuis M1 : Big Data Computing Overview: Attempt review
Semua benar
Amazon ML
Azure ML
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2404117&cmid=491430 6/6
6/6/2021 Kuis M2 : Big Data Computing, Applications and Technologies: Attempt review
Dashboard / My courses /
ATA 2020/2021 | 2-FTI | Komputasi Big Data | TEAM TEACHING
/
Pertemuan 2 : Big Data Computing, Applications and Technologies /
Kuis M2 : Big Data Computing, Applications and Technologies
The correct answer is: Storage layer, Resource Management Layer, Application Layer
Question 2 Berikut ini adalah saran untuk memasuki era Analytic 3.0:
Correct
c. Mulailah dengan kemampuan yang ada untuk manajemen data dan analitik
Question 3 Berikut ini yang harus dilakukan oleh perusahaan 1.0, kecuali:
Correct
b. Membuat analitik dan keputusan berbasis fakta elemen kunci dari hubungan pelanggan, produk dan layanan,
strategi, dan persaingan
The correct answer is: Membuat analitik dan keputusan berbasis fakta elemen kunci dari hubungan pelanggan, produk
dan layanan, strategi, dan persaingan
Send messa…
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2481250&cmid=491954 1/6
6/6/2021 Kuis M2 : Big Data Computing, Applications and Technologies: Attempt review
d. Prediksi Cashflow
b. Semua benar
b. Monsanto membayar hampir $ 1 miliar untuk The Climate Company, yang mengumpulkan dan menganalisis data
cuaca untuk pertanian
c. Semua benar
d. Sistem Manajemen Inventaris Cerdas pada perusahaan Ford, menyarankan pesanan mingguan untuk dealer dan
telah meningkatkan pendapatan sebesar $ 100 juta / tahun
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2481250&cmid=491954 2/6
6/6/2021 Kuis M2 : Big Data Computing, Applications and Technologies: Attempt review
Question 8 Dalam computer vision, contoh penerapan Machine Learning adalah, kecuali:
Correct
c. Pengenalan objek
d. Analitik Rute
Question 9 Istilah 'Machine Learning' diciptakan pada tahun <T> oleh <P>:
Correct
b. Semua benar
c. YARN
d. HDFS
b. YARN
c. HDFS
d. MapReduce
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2481250&cmid=491954 3/6
6/6/2021 Kuis M2 : Big Data Computing, Applications and Technologies: Attempt review
The correct answer is: Perpaduan antara analitik tradisional dengan Big Data
The correct answer is: Hadoop merupakan framework untuk bekerja dengan Big Data
b. 3.0
c. Semua benar
d. 1.0
b. Static vs Dynamic
d. Relational vs Non-Relational
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2481250&cmid=491954 4/6
6/6/2021 Kuis M2 : Big Data Computing, Applications and Technologies: Attempt review
c. Mahal vs Terjangkau
b. Graph
c. Key-Value
d. Semua benar
Question 18 Salah satu fakta yang menunjukkan aspek Velocity dari Big Data:
Correct
c. Mobil modern memiliki 100 sensor yang memantau berbagai item pada mobil
d. 27% responden dalam satu survei tidak yakin dengan banyaknya data mereka yang tidak akurat
The correct answer is: Mobil modern memiliki 100 sensor yang memantau berbagai item pada mobil
Question 19 Salah satu tonggak penting dalam Big Data Analytic dalam aspek pengadaan infrastruktur:
Correct
b. Kembangkan arsitektur Solusi untuk kasus bisnis Anda termasuk proses pengumpulan data, arsitektur teknologi
dan metode analitik serta visualisasi data
c. Adaptasi dan ubah organisasi Anda menuju teknologi big data dan implementasi analitik baru
d. Analisis data untuk setiap kasus bisnis spesifik Anda dan visualisasikan dengan cara yang bermakna
The correct answer is: Dapatkan infrastruktur yang tepat yang dibutuhkan berdasarkan arsitektur solusi Anda termasuk
penyimpanan data dan unit pemrosesan, platform, dan aplikasi
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2481250&cmid=491954 5/6
6/6/2021 Kuis M2 : Big Data Computing, Applications and Technologies: Attempt review
b. Keduanya benar
c. Keduanya salah
The correct answer is: Ketergantungan yang tinggi pada Machine Learning
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2481250&cmid=491954 6/6
Dashboard / My courses / ATA 2020/2021 | 2-FTI | Komputasi Big Data | TEAM TEACHING / Pertemuan 3 : Introduction to Apache Hadoop
/ Kuis M3 : Introduction to Hadoop
Question 1 Properti Big data yang penting, salah satunya adalah aviability, yaitu:
Correct
d. Kemampuan untuk terus beroperasi walaupun terjadi kegagalan pada beberapa komponen
Question 2 Properti Big data yang penting, salah satunya adalah scalability, yaitu:
Correct
d. Handal
The correct answer is: Kemampuan menanganai penambahan bebab yang diberikan tanpa penurunan kinerja
The correct answer is: On Disk Storage Devices dan In Memory Storage Devices
1
Obrolan
Question 4 Komponen layanan inti Hadoop adalah
Correct
b. Menyimpan data dengan mempartisi secara horizontal dan pecahan horizontal tersebut di simpan secara terpisah
pada node server.
c. Penyimpanan dan pengaturan data pada perangkat penyimpanan harddisk atau flashdisk, dan menyediakan
logical view dari data yang disimpan dalam struktur hirakis direktori file.
d. Kumpulan server atau node digabungkan secara erat, dengan spesifikasi perangkat keras yang sama. Serta
terhubung melalui jaringan dan bekerja sebagai satu kesatuan
The correct answer is: Kumpulan server atau node digabungkan secara erat, dengan spesifikasi perangkat keras yang
sama. Serta terhubung melalui jaringan dan bekerja sebagai satu kesatuan
Question 6 Type data berikut yang dapat ditangani oleh Hadoop adalah
Correct
b. Terstruktur
c. Semi – terstruktur
d. Tidak terstuktur
c. membagi masalah besar menjadi masalah kecil yang dapat diselesaikan dengan cepat
d. memproses data besar secara parallel dalam cluster pada commodity hardware
b. yang membagi pemrosesan dalam beberapa batch dan dilakukan secara offline
c. yang menerapkan divide and conquer dalam fisik terpisah, namun terhunung Bersama dalam satu cluster
The correct answer is: yang menerapkan divide and conquer dalam fisik terpisah, namun terhunung Bersama dalam satu
cluster
Question 9 Berikut yang dimaksud dengan menganalisa data dalam konteks big data adalah:
Correct
The correct answer is: Descriptive analytics, diagnostic analytics, predictive analytics, dan prescriptive analytics
Question 11
Properti Big data yang penting, salah satunya adalah reliability, yaitu:
Correct
c. Handal
b. Kemampuan untuk terus beroperasi walaupun terjadi kegagalan pada beberapa komponen
The correct answer is: Kemampuan untuk terus beroperasi walaupun terjadi kegagalan pada beberapa komponen
Question 13
Database NoSQL menggunakan beragam model data untuk mengakses dan mengelola data. Jenis database ini
Incorrect dioptimalkan secara khusus untuk aplikasi yang memerlukan…., yang dicapai dengan mengurangi pembatasan
Mark 0.00 out of konsistensi data dari database lainnya.
5.00
Select one:
a. volume data besar, latensi rendah, dan model data fleksibel
The correct answer is: volume data besar, latensi rendah, dan model data fleksibel
b. Semua benar
Question 15
YARN singkatan dari
Correct
c. Volume besar, struktur data yang beragam (variety), dan nilai data yang diperlukan (useful value)
Question 17 Jenis database NoSQL apa yang membuat dan menjalankan aplikasi yang berjalan dengan dataset yang selalu terhubung
Correct menjadi lebih mudah dan sering digunakan untuk jaringan media sosial.
Mark 5.00 out of
5.00 Select one:
a. Dokumen
b. Grafik
c. Pencarian
d. Primary key
Question 19
Berikut ini yang bukan merupakan Hadoop operation mode, adalah
Correct
c. Fully-Distributed mode
Dashboard / My courses / ATA 2020/2021 | 2-FTI | Komputasi Big Data | TEAM TEACHING / Pertemuan 4 : Data Preprocessing
/ Kuis M4 : Data Preprocessing
A,B,dan C benar
Instance
Atribut
Record
Combined Computer
Regression
Ignore
Question 4 Data berupa image, video bahkan suara termasuk jenis data
Correct
Graf
Multimedia
Ordered
1
Online
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2645804&cmid=502803 1/4
3/29/2021 Kuis M4 : Data Preprocessing: Attempt review
Question 6 Data Cleansing merupakan tahapan untuk membersihkan data kotor sehingga menjadi dataset yang siap diolah. Data
Correct kotor tersebut berupa
Mark 5.00 out of
5.00 Select one:
missing value
duplicate data
A,B,C benar
outlier
Question 7 Data-data yang saling berhubungan, yang biasanya ditemukan pada jaringan internet termasuk dalam jenis data
Correct
Graf
Multimedia
Ordered
Question 8 Imputasi nilai secara otomatis saat menangani incomplete data tidak dapat dilakukan menggunakan
Correct
Nilai tertinggi
interpolasi
Median
Rasio
Numerik
Ordinal
Atribut
Dataset
Data objek
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2645804&cmid=502803 2/4
3/29/2021 Kuis M4 : Data Preprocessing: Attempt review
Question 11 Nilai yang merepresentasikan urutan seperti nilai mata kuliah termasuk dalam atribut data type..
Correct
Numerik
Nominal
Ordinal
data cleaning
data reduction
data Integration
Question 13 Penanganan missing value dapat dilakukan menggunakan nilai estimasi dari probabilitas bersyarat menggunakan metode
Correct
Bayessian
Mean
Regresi
Question 14 Salah satu jenis data record yang diekstrak menjadi kumpulan term dan ditulis berdasarkan frekuensi kemunculan data,
Correct termasuk pada jenis data
Mark 5.00 out of
5.00 Select one:
Matriks
Transaksi
Dokumen
Sosial network
Question 15 Seberapa mudah data dapat dipahami merupakan kualitas data dari..
Correct
Interpretability
Consistency
Completeness
Question 16 Statistik dasar untuk mengukur sebaran data salah satunya adalah
Correct
Modus
Mean
Median
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2645804&cmid=502803 3/4
3/29/2021 Kuis M4 : Data Preprocessing: Attempt review
Question 17 Studi tentang bagaimana menganalisis data dan membersihkan data merupakan salah satu tujuan dari
Correct
Data testing
Data training
Data validation
data Integration
data transformation
data reduction
Question 19 Tanggal penjualan, nama pelanggan, nama barang, jumlah penjualan merupakan contoh dari
Correct
Atribut penjualan
Dataset penjualan
Question 20 Tinggi badan, berat badan, usia, dan jenis kelamin merupakan contoh representasi karakteristik dari
Correct
Dataset
Data objek
Atribut
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2645804&cmid=502803 4/4
4/5/2021 Kuis M5 : Introduction Data Mining: Attempt review
Dashboard / My courses / ATA 2020/2021 | 2-FTI | Komputasi Big Data | TEAM TEACHING / Pertemuan 5 : Introduction to Data Mining
/ Kuis M5 : Introduction Data Mining
Question 1 Seberapa mudah data dapat dipahami merupakan kualitas data dari..
Correct
b. Believability
c. Completeness
d. Consistency
Question 2 Pernyataan yang tepat terkait data mining and knowledge discovery
Correct
b. lebih heuristik
d. lebih teori
Question 3 Karakteristik Big Data yang terus bertambah dengan cepat secara real-time dinamakan
Correct
b. variety
c. Volume
d. Value
Question 4 Metode klasifikasi pada fungsi data mining yang menggunakan nilai estimasi dari probabilitas bersyarat dinamakan
Correct metode
Marked out of
5.00 Select one:
a. Eliminasi
b. Regresi
c. Naive Bayessian
d. Mean
1
Online
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2765364&cmid=517284 1/5
4/5/2021 Kuis M5 : Introduction Data Mining: Attempt review
Question 5 Untuk menghindari set pengujian yang tumpang tindih, data dibagi menjadi k himpunan bagian dengan ukuran yang
Correct sama kemudiansetiap subset secara bergantian digunakan untuk pengujian dan sisanya untuk pelatihan
Marked out of
5.00 Select one:
a. Direct Marketing Paradigm
b. k-fold cross-validation
Question 6 Metode untuk mengelompokkan secara "alami" dari instance yang diberi data tanpa label
Correct
b. Asosiasi
c. Klasifikasi
d. Klasterisasi
Question 7 Metode untuk memprediksi kelas instance dari instance yang diberi label sebelumnya
Correct
b. Asosiasi
c. Klasterisasi
d. Visualisasi
b. Buat model pada set pelatihan, pilih secara acak jumlah instance kelas minoritas yang diinginkan, Evaluasi pada set
pengujian
c. Evaluasi pada set pengujian, Buat model pada set pelatihan, Pisahkan data menjadi set pelatihan dan pengujian
d. Pisahkan data menjadi set pelatihan dan pengujian, Buat model pada set pelatihan, Evaluasi pada set pengujian
Question 9 Attributes yang berisi informasi seperti item_ID, name, brand, category, supplier, place_made and price, merupakaan salah
Correct satu contoh jenis database
Marked out of
5.00 Select one:
a. Penyewaan
b. Social media
c. Penjualan
d. Marketing
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2765364&cmid=517284 2/5
4/5/2021 Kuis M5 : Introduction Data Mining: Attempt review
Question 11 Metode untuk mempresentasikan hasil yang ditemukan dengan cara yang "bagus" secara visual
Correct
b. Visualisasi
c. Klasifikasi
d. Asosiasi
Question 12 Proses pencarian konten baru dan konten yang perlu diperbaharui dengan mengirimkan crawler ke seluruh konten yang
Correct ditemukan dari tautan halaman merupakan Salah satu konsep data mining pada Search Engine yang dinamakan
Marked out of
5.00 Select one:
a. Rank
b. Searching
c. Index
d. Crawl
Question 13 Melihat suatu objek data yang tidak sesuai dengan perilaku umum data, sering digunakan dalam deteksi penipuan atau
Correct analisis kejadian langka
Marked out of
5.00 Select one:
a. Analisis Outlier
c. Klasifikasi
d. Klasterisasi
Question 14 Regression, Decision Trees, Bayesian, Neural Networks, Naïve Bayes Rules, Support Vector Machines, Genetic Algorithms
Correct adalah pendekatan yang digunakan untuk
Marked out of
5.00 Select one:
a. Asosiasi
b. Klasterisasi
c. Visualisasi
d. Klasifikasi
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2765364&cmid=517284 3/5
4/5/2021 Kuis M5 : Introduction Data Mining: Attempt review
b. Klasifikasi
c. Asosiasi
d. Klasterisasi
Question 16 Pernyataan yang tepat terkait data mining and knowledge discovery
Correct
Question 17 Fungsi dari data mining adalah salah satunya dapat mengetahui pola yang sering (atau kumpulan item yang sering)
Correct misalnya item apa yang sering dibeli bersama di Walmart Anda. Ini dikenal dengan istilah
Marked out of
5.00 Select one:
a. Asosiasi dan Analisis Korelasi
b. Outlier Analysis
c. Klasifikasi
d. Klasterisasi
d. Decision Tree
c. Data pengujian tidak digunakan dengan cara apa pun untuk membuat pengklasifikasi
d. Skema pembelajaran beroperasi dalam dua tahap yaitu membangun struktur dasar dan mengoptimalkan
pengaturan parameter
Question 20 Jenis tugas data mining yang menfasilitasi penerimaan / penelusuran informasi bagi pengguna
Correct
b. Klasifikasi
c. Asosiasi
d. Klasterisasi
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2765364&cmid=517284 4/5
4/5/2021 Kuis M5 : Introduction Data Mining: Attempt review
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2765364&cmid=517284 5/5
4/19/2021 Kuis M6 : Introduction to Machine Learning (Supervised): Attempt review
Dashboard / My courses / ATA 2020/2021 | 2-FTI | Komputasi Big Data | TEAM TEACHING
/ Pertemuan 6 : Introduction to Machine Learning (Supervised) / Kuis M6 : Introduction to Machine Learning (Supervised)
Question 1 Jika variabel keluaran adalah berupa kategori misalnya “apel”, “jeruk” termasuk pada machine learning bertipe
Correct
b. Reinfocement
c. Unsupervised
d. Supervised -Regresion
c. Neural Networks
Question 3 Sebuah proses yg mempersiapkan data sehingga data tsb bisa kita extract cirinya menjadi suatu vektor
Correct
b. Feature Extraction
c. Training Set
d. Instance
Question 4 Tujuan pembelajaran unsupervised adalah membagun model yang dapat menemukan komponen / variabel / fitur
Correct tersembunyi pada data pelatihan, yang dapat digunakan untuk hal berikut, kecuali
Marked out of
5.00 Select one:
a. Reduksi dimensi (dimension reduction)
b. Pengelompokan (clustering) 1
c. Rekomendasi Online
d. Pengklasifikasian (classification)
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2886503&cmid=530930 1/5
4/19/2021 Kuis M6 : Introduction to Machine Learning (Supervised): Attempt review
Question 5
Correct
Marked out of
5.00
Gambar pada representasi di atas adalah Pola-pola struktur yang ada pada suatu koleksi data (knowledge) dalam bentuk
Select one:
a. Pohon
b. Aturan
c. Instance
d. Tabel
Question 6 Saat Anda ingin mengungkap pengelompokan yang melekat dalam data, seperti mengelompokkan hewan berdasarkan
Correct beberapa karakteristik / fitur, mis. jumlah kaki maka model pembelajaran yang sesuai
Marked out of
5.00 Select one:
a. Reinfocement Learning
Question 7 Model Pembelajaran yang mempelajari bagaimana sistem dapat menyimpulkan suatu fungsi untuk mendeskripsikan
Correct struktur tersembunyi dari data yang tidak berlabel. Sistem ini tidak memprediksi keluaran yang benar, tetapi
Marked out of mengeksplorasi data dan dapat menarik kesimpulan dari kumpulan data untuk mendeskripsikan struktur tersembunyi dari
5.00 data yang tidak berlabel.
Select one:
a. Semi Supervised Learning
b. Reinfocement Learning
c. Unsupervised Learning
d. Supervised Learning
Question 8 Model pembelajaran yang menggunakan data berlabel dan tidak berlabel untuk pelatihan.
Correct
c. Supervised Learning
d. Unsupervised Learning
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2886503&cmid=530930 2/5
4/19/2021 Kuis M6 : Introduction to Machine Learning (Supervised): Attempt review
Question 10 Ciri-ciri dari masing-masing sample data misalnya Smartphone. ciri: memiliki ...
Correct
Marked out of
5.00 Select one:
a. Feature Extraction
b. Training Set
c. Feature/ atribut
d. Instance
Question 11 Pola-pola struktur yang ada pada suatu koleksi data (knowledge) dapat direpresentasi dalam bentuk if then rules :
Correct
b. Instance
c. Aturan
d. Tabel
b. Generalisasi
c. Regressi
d. Klasterisasi
Question 14 Kumpulan data yg sudah dipastikan kebenarannya, dr sisi label, data awal, komponen2 data yg akan dijadikan kunci,
Correct
b. Instance
c. Feature Extraction
d. Training Set
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2886503&cmid=530930 3/5
4/19/2021 Kuis M6 : Introduction to Machine Learning (Supervised): Attempt review
Question 15 Pembelajaran yang bertujuan memprediksi output dengan akurat untuk data baru dan output ti bernilai kontinu (riil),
Correct contoh untuk Prediksi kinerja CPU
Marked out of
5.00 Select one:
a. Regressi
b. Klasifikasi
c. Klasterisasi
d. Generalisasi
Question 16 Yang bukan tujuan supervised learning untuk membangun model yang dapat menghasilkan output yang benar untuk
Correct suatu data input dapat digunakan untuk
Marked out of
5.00 Select one:
a. Regresi (regression)
b. Klasterisasi (clustering)
c. Ranking
d. Pengklasifikasian (classification)
Question 17
Correct
Marked out of
5.00
Gambar pada representasi di atas adalah Pola-pola struktur yang ada pada suatu koleksi data (knowledge) dalam bentuk
Select one:
a. Instance
b. Tabel
c. Pohon
d. Aturan
Question 18 Salah satu teknik yang digunakan untuk mengkontrol fenomena over-fitting adalah dengan cara menambah finalti ke
Correct fungsi error.
Marked out of
5.00 Select one:
a. prediction
b. model selection
c. regularization
d. generalization
Question 19 Model ini belajar dari kumpulan data berlabel dan kemudian digunakan untuk memprediksi peristiwa di masa depan.
Correct
b. Reinfocement Learning
d. Supervised Learning
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2886503&cmid=530930 4/5
4/19/2021 Kuis M6 : Introduction to Machine Learning (Supervised): Attempt review
Question 20
Correct
Marked out of
5.00
Gambar pada representasi di atas adalah Pola-pola struktur yang ada pada suatu koleksi data (knowledge) dalam bentuk
Select one:
a. Instance
b. Pohon
c. Aturan
d. Tabel
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2886503&cmid=530930 5/5
Dashboard / My courses / ATA 2020/2021 | 2-FTI | Komputasi Big Data | TEAM TEACHING
/ Pertemuan 7 : Introduction to Machine Learning (Unsupervised) / Kuis M7 : Unsupervised Learning
Question 1 Metode berbasis aturan untuk menemukan hubungan antara variabel dalam kumpulan data tertentu. Metode ini sering
Correct digunakan untuk analisis keranjang pasar, memungkinkan perusahaan untuk lebih memahami hubungan antara produk
Marked out of yang berbeda. Memahami kebiasaan konsumsi pelanggan memungkinkan bisnis untuk mengembangkan strategi
5.00 penjualan silang dan mesin rekomendasi yang lebih baik.
Select one:
a. Dimensionality reduction
b. clustering
c. Regression
d. Association
Question 2 Jenis algoritme pengurangan dimensi yang digunakan untuk mengurangi redundansi dan mengompresi kumpulan data
Correct melalui ekstraksi fitur. Metode ini menggunakan transformasi linier untuk membuat representasi data baru, menghasilkan
Marked out of sekumpulan "komponen utama". Komponen utama pertama adalah arah yang memaksimalkan varians dari dataset.
5.00 Sementara komponen utama kedua juga menemukan varians maksimum dalam data, itu sama sekali tidak berkorelasi
dengan komponen utama pertama, menghasilkan arah yang tegak lurus, atau ortogonal, ke komponen pertama. Proses
ini berulang berdasarkan jumlah dimensi, dimana komponen utama berikutnya adalah arah ortogonal ke komponen
sebelumnya dengan varians terbanyak.
Select one:
a. Singular value decomposition
b. FP-Growth
d. Autoencoders
Question 3 Teknik yang memanfaatkan jaringan neural untuk mengompresi data dan kemudian membuat ulang representasi baru
Correct dari input data asli. Terdapat lapisan tersembunyi secara khusus bertindak sebagai penghambat untuk memampatkan
Marked out of lapisan masukan sebelum merekonstruksi di dalam lapisan keluaran.
5.00
Select one:
a. Autoencoders
c. FP-Growth
1
Online
Question 4 Pengelompokan yang mengambil pendekatan "top-down". Dalam hal ini, satu cluster data dibagi berdasarkan perbedaan
Correct antara titik data. Pengelompokan dengan cara ini tidak umum digunakan, tetapi masih perlu diperhatikan dalam konteks
Marked out of pengelompokan hierarkis. Proses pengelompokan ini biasanya divisualisasikan menggunakan dendrogram, diagram mirip
5.00 pohon yang mendokumentasikan penggabungan atau pemisahan titik data pada setiap iterasi.
Select one:
a. Pendekatan Overlapping
b. Pendekatan Aglomeratif
c. Pendekatan Probabilistic
d. Pendekatan Divisive
b. clustering
c. Dimensionality reduction
d. Association
Question 6 Algoritma yang paling banyak digunakan untuk task Association rules
Incorrect
b. Apriori
c. Apriori
d. FP-Growth
Question 7 Teknik tanpa pengawasan yang membantu menyelesaikan estimasi kepadatan atau masalah pengelompokan "lunak".
Correct Dalam hal ini, titik data dikelompokkan berdasarkan kemungkinannya termasuk dalam distribusi tertentu. Teknik yang
Marked out of paling umum digunakan adalah Gaussian Mixture Model (GMM)
5.00
Select one:
a. Pendekatan Divisive
b. Pendekatan Aglomeratif
c. Pendekatan Probabilistic
d. Pendekatan Overlapping
Question 8 Teknik yang digunakan ketika jumlah fitur, atau dimensi, dalam kumpulan data tertentu terlalu tinggi. Teknik ini
Correct mengurangi jumlah input data ke ukuran yang dapat dikelola sambil juga menjaga integritas set data sebanyak mungkin,
Marked out of biasanya digunakan dalam tahap data praproses
5.00
Select one:
a. clustering
b. Association
c. Dimensionality reduction
d. Regression
Question 9 Algoritme yang berusaha menemukan pola tersembunyi atau pengelompokan data tanpa perlu campur tangan manusia.
Correct
b. Unsupervised Learning
c. Deep Learning
d. Supervised Learning
Question 10 Algoritme yang menggunakan pohon hash untuk menghitung kumpulan item, menavigasi kumpulan data dengan cara
Correct yang pertama. Algoritma ini telah dipopulerkan melalui analisis keranjang pasar, yang mengarah ke mesin rekomendasi
Marked out of yang berbeda untuk platform musik dan pengecer online.Misalnya, jika saya memutar radio Black Sabbath di Spotify,
5.00 dimulai dengan lagu mereka "Anggrek", salah satu lagu lain di saluran ini kemungkinan besar adalah lagu Led Zeppelin,
seperti "Over the Hills dan Far Away." Ini didasarkan pada kebiasaan mendengarkan saya sebelumnya serta kebiasaan
orang lain.
Select one:
a. Apriori
b. Apriori
c. Eclat
d. FP-Growth
b. Auto Encoder
Question 12 Salah satu bentuk pengelompokan yang menetapkan bahwa suatu titik data hanya dapat ada dalam satu cluster. Ini juga
Correct bisa disebut sebagai pengelompokan "keras". Algoritma yang digunakan salah satunya adalah K-means clustering
Marked out of
5.00 Select one:
a. Hierarkis ( hierarchical)
Question 13 Pendekatan reduksi dimensi lain yang memfaktorkan matriks, A, menjadi tiga matriks peringkat rendah. SVD
Incorrect dilambangkan dengan rumus, A = USVT, di mana U dan V adalah matriks ortogonal. S adalah matriks diagonal, dan nilai S
Marked out of dianggap sebagai nilai tunggal matriks A. Principal component analysis
5.00
Select one:
a. FP-Growth
c. Autoencoders
Question 14 Teknik yang mengelompokkan data yang tidak berlabel berdasarkan persamaan atau perbedaannya. Algoritma ini
Correct digunakan untuk memproses objek data mentah dan tidak terklasifikasi menjadi grup yang diwakili oleh struktur atau
Marked out of pola dalam informasi.
5.00
Select one:
a. Dimensionality reduction
b. Association
c. Clustering
d. Regression
Question 15 Pembelajaran mesin tanpa pengawasan, menggunakan algoritme pembelajaran mesin untuk menganalisis dan
Correct mengelompokkan set data tak berlabel
Marked out of
5.00 Select one:
a. Unsupervised Learning
b. Supervised Learning
c. Deep Learning
Question 16 Pengelompokan yang sebagai "pendekatan bottom-up". Di mana titik datanya diisolasi sebagai pengelompokan terpisah
Correct pada awalnya, dan kemudian digabungkan bersama secara iteratif atas dasar kesamaan hingga satu cluster tercapai.
Marked out of
5.00 Select one:
a. Pendekatan Aglomeratif
b. Pendekatan Overlapping
c. Pendekatan Probabilistic
d. Pendekatan Divisive
Question 17 Kemampuannya untuk menemukan persamaan dan perbedaan informasi menjadikannya unsupervised learning sebagai
Correct solusi ideal tugas tugas di bawah ini, kecuali
Marked out of
5.00 Select one:
a. Analisis data eksplorasi
c. Segmentasi pelanggan
Question 18 Salah satu bentuk pengelompokan yang memungkinkan titik data menjadi bagian dari beberapa kluster dengan derajat
Correct keanggotaan terpisah. Ini disebut juga Pengelompokan "lembut" atau fuzzy k-means
Marked out of
5.00 Select one:
a. Clustering Eksklusif (specifically exclusive)
b. Hierarkis ( hierarchical)
Question 20 Algoritme yang menggunakan pohon hash untuk menghitung kumpulan item, menavigasi kumpulan data dengan cara
Correct yang pertama. Algoritma ini telah dipopulerkan melalui analisis keranjang pasar, yang mengarah ke mesin rekomendasi
Marked out of yang berbeda untuk platform musik dan pengecer online.Misalnya, jika saya memutar radio Black Sabbath di Spotify,
5.00 dimulai dengan lagu mereka "Anggrek", salah satu lagu lain di saluran ini kemungkinan besar adalah lagu Led Zeppelin,
seperti "Over the Hills dan Far Away." Ini didasarkan pada kebiasaan mendengarkan saya sebelumnya serta kebiasaan
orang lain. Ini termasuk task
Select one:
a. Regression
b. Association
c. Dimensionality reduction
d. clustering
Question 1 Efek dari suatu aksi yang dipilih dari suatu state yang bergantung hanya pada state tersebut saja bukan pada state-state
Correct sebelumnya dikenal sebagai sifat:
Marked out of
5.00 Select one:
a. Stokastik
b. Markov
c. Bellman
d. Transisi
Question 2 Pada Markov Decision Process, pemilihan ruas jalan dalam permasalahan shortest path merupakan bagian dari:
Correct
b. Value
c. Action
d. Reward
Question 3 Reinforcement learning tepat digunakan untuk menyelesaikan permasalahan utama dalam:
Correct
b. Pengenalan objek
c. Segmentasi pelanggan
d. Peramalan cuaca
Question 4 Berikut ini merupakan pernyataan yang salah terkait Markov Decision Process:
Correct
b. 5
c. 4
d. 3
c. Dynamic Programming
d. Machine learning
b. Policy
c. Model
d. Action
Question 8 Fungsi reward dalam Markov Decision Process dapat bernilai bilangan:
Correct
b. Bulat
c. Semua benar
d. Riil
b. Semua benar
Question 10 Sifat Markov dalam Markov Decision Process diperlukan langsung dalam menentukan:
Correct
c. Fungsi reward
c. Navigasi robot
d. Supervised learning
Question 12 Sekumpulan token yang mewakili setiap kemungkinan keadaan dari agen disebut sebagai:
Correct
b. Action
c. Semua salah
d. State
Question 13 Dalam memilih aksi pada suatu state perlu diperhatikan hal-hal berikut ini:
Correct
b. Semua benar
Question 14 Berikut ini merupakan contoh permasalahan yang dapat diselesaikan dengan reinforcement learning:
Correct
b. Sistem percakapan
c. Bermain Game
d. Semua benar
Question 15 Reward dalam permasalahan shortest path yang dimodelkan dengan Markov Decision Process ditandai dengan:
Correct
d. Semua salah
b. State-Action-Reward-State-Action (SARSA)
c. Q-learning
d. RL yang diselesaikan dengan Markov Decision Process memerlukan data latih dalam menentukan probabilitas
transisinya
Question 18 Pemilihan suatu aksi pada suatu state tertentu didalam Markov Decision Process ditentukan oleh:
Correct
b. Policy
c. Model
d. Value
c. Semua benar
d. Input yang diterima oleh agen berupa state, action dan reward
Question 20 Efek dari suatu pilihan aksi pada suatu state ditentukan oleh:
Correct
b. Fungsi reward
c. Policy
d. Semua salah
Dashboard / Courses / Program Sarjana / ATA 2020/2021 | 2-FTI | Komputasi Big Data | TEAM TEACHING
/ Pertemuan 9 : Introduction to Machine Learning (Deep) / Kuis M9 : Introduction to Deep Learning
∑IGMA
Question 1 18 Dalam Algoritma Convolutional Neural Network, ReLU seringkali digunakan pada:
Correct
b. Input layer
c. Output layer
d. Classification layer
Response history
Step Time Action State Marks
file:///D:/College (On Going)/SEMESTER 4/3. Komputasi Big Data Team Teaching/Pertemuan 9 (M9)/M9_KBD.html 1/11
5/4/2021 Kuis M9 : Introduction to Deep Learning: Attempt review
Question 2 Untuk memperbanyak feature yang berhasil diekstrak dalam Algoritma Convolutional Neural Network digunakan:
Correct
b. Epoch
c. Max Pooling
d. Stride
Response history
Step Time Action State Marks
Question 3 Parameter dalam Algoritma Convolutional Neural Network yang menentukan berapa jumlah pergeseran filter disebut
Correct sebagai:
Mark 5.00 out of
5.00 Select one:
a. Stride
b. Epoch
c. Dropout
d. Padding
Response history
Step Time Action State Marks
file:///D:/College (On Going)/SEMESTER 4/3. Komputasi Big Data Team Teaching/Pertemuan 9 (M9)/M9_KBD.html 2/11
5/4/2021 Kuis M9 : Introduction to Deep Learning: Attempt review
Question 4 Berikut ini adalah efek dari mengecilnya nilai stride dalam Algoritma Convolutional Neural Network:
Incorrect
b. Semua benar
Response history
Step Time Action State Marks
d. Semua benar
Response history
Step Time Action State Marks
file:///D:/College (On Going)/SEMESTER 4/3. Komputasi Big Data Team Teaching/Pertemuan 9 (M9)/M9_KBD.html 3/11
5/4/2021 Kuis M9 : Introduction to Deep Learning: Attempt review
Question 6 Berikut ini merupakan loss function dalam algoritma berbasis Neural Network:
Incorrect
b. ReLu
c. Semua benar
d. Cross entropy
Response history
Step Time Action State Marks
Question 7 10 Tahapan feature extraction pada Algoritma Convolutional Neural Network terdiri dari beberapa lapisan (layer) berikut
Correct ini, kecuali:
Mark 5.00 out of
5.00 Select one:
a. Fully-connected layer
b. Convolutional layer
c. Pooling layer
d. Semua salah
Response history
Step Time Action State Marks
file:///D:/College (On Going)/SEMESTER 4/3. Komputasi Big Data Team Teaching/Pertemuan 9 (M9)/M9_KBD.html 4/11
5/4/2021 Kuis M9 : Introduction to Deep Learning: Attempt review
Question 8 Berikut ini merupakan library Python untuk Algoritma Deep Learning:
Incorrect
b. PyTorch
c. Semua benar
d. Tensorflow
Response history
Step Time Action State Marks
Question 9 Hasil dari proses flatten pada Algoritma Convolutional Neural Network menjadi masukan dalam:
Incorrect
b. Fully-connected layer
c. Semua salah
d. Pooling layer
Response history
Step Time Action State Marks
file:///D:/College (On Going)/SEMESTER 4/3. Komputasi Big Data Team Teaching/Pertemuan 9 (M9)/M9_KBD.html 5/11
5/4/2021 Kuis M9 : Introduction to Deep Learning: Attempt review
Question 10 16 Berikut ini adalah teknik yang dapat digunakan pada pooling layer dalam Algoritma Convolutional Neural Network:
Correct
b. Min pooling
c. Max pooling
d. Average pooling
Response history
Step Time Action State Marks
Question 11 Untuk mencegah terjadinya overfitting dalam Algoritma Convolutional Neural Network dilakukan:
Incorrect
c. Dropout regularization
d. Perkecil stride
Response history
Step Time Action State Marks
file:///D:/College (On Going)/SEMESTER 4/3. Komputasi Big Data Team Teaching/Pertemuan 9 (M9)/M9_KBD.html 6/11
5/4/2021 Kuis M9 : Introduction to Deep Learning: Attempt review
Question 12 Sebuah citra berdimensi 5x5 dengan filter 3x3 dan stride sebesar 2 akan menghasilkan feature map berdimensi:
Incorrect
b. 2x2
c. 4x4
d. Semua salah
Response history
Step Time Action State Marks
Question 13 Salah satu ukuran dari confusion matrix yang dapat digunakan dalam mengukur tingkat keberhasilan sistem dalam
Correct menemukan kembali sebuah informasi adalah:
Mark 5.00 out of
5.00 Select one:
a. Recall
b. Semua salah
c. Accuracy
d. Precision
Response history
Step Time Action State Marks
file:///D:/College (On Going)/SEMESTER 4/3. Komputasi Big Data Team Teaching/Pertemuan 9 (M9)/M9_KBD.html 7/11
5/4/2021 Kuis M9 : Introduction to Deep Learning: Attempt review
Question 14 Untuk menyelesaikan permasalahan klasifikasi biner menggunakan algoritma berbasis Neural Network lebih tepat
Incorrect digunakan fungsi aktivasi:
Mark 0.00 out of
5.00 Select one:
a. ReLU
b. Sigmoid
c. Semua salah
d. Softmax
Response history
Step Time Action State Marks
b. Pengenalan suara
c. Deteksi objek
d. Semua benar
Response history
Step Time Action State Marks
file:///D:/College (On Going)/SEMESTER 4/3. Komputasi Big Data Team Teaching/Pertemuan 9 (M9)/M9_KBD.html 8/11
5/4/2021 Kuis M9 : Introduction to Deep Learning: Attempt review
Response history
Step Time Action State Marks
Question 17 Dimensi dari feature map dalam Algoritma Convolutional Neural Network bergantung pada:
Incorrect
c. Semua benar
d. Stride
Response history
Step Time Action State Marks
file:///D:/College (On Going)/SEMESTER 4/3. Komputasi Big Data Team Teaching/Pertemuan 9 (M9)/M9_KBD.html 9/11
5/4/2021 Kuis M9 : Introduction to Deep Learning: Attempt review
b. Neural network
c. Machine learning
d. Artificial Intelligence
Response history
Step Time Action State Marks
Question 19 Berikut ini merupakan fungsi aktivasi dalam Algoritma Convolutional Neural Network:
Incorrect
b. ReLU
c. Semua benar
d. Sigmoid
Response history
Step Time Action State Marks
file:///D:/College (On Going)/SEMESTER 4/3. Komputasi Big Data Team Teaching/Pertemuan 9 (M9)/M9_KBD.html 10/11
5/4/2021 Kuis M9 : Introduction to Deep Learning: Attempt review
Question 20 Pooling layer pada Algoritma Convolutional Neural Network terdapat pada:
Incorrect
b. Input layer
c. Output layer
d. Hidden layer
Response history
Step Time Action State Marks
file:///D:/College (On Going)/SEMESTER 4/3. Komputasi Big Data Team Teaching/Pertemuan 9 (M9)/M9_KBD.html 11/11
TEAM TEACHING M13
Select one:
a. Semua salah
b. Biologi Farmasi, Kimia Farmasi, Teknologi Farmasi, Farmasi Klinik
c. Biologi Farmasi, Kimia Farmasi, Teknologi Farmasi, Kebidanan
d. Biologi Farmasi, Kimia Farmasi, Teknologi Farmasi, Farmakologi, Farmasi Klinik dan
Komunitas
Visi 2022 Program Studi Kebidanan dan Pendidikan Profesi Bidan UG:
Select one:
a. Meyelenggarakan kerjasama dengan berbagai industry, baik didalam maupun diluar
negeri dengan dilandasi kesetraan dan demi kepentingan nasional
b. Menciptakan suasana akademik yang mendukung terselenggaranya proses pembelajaran
yang inofatof agar dapat menghasilkan lulusan yang cerdas, kompetitif dan berkarakter
c. Menyelenggarakan program studi Pendidikan profesi bidan yang berkualitas dalam
rangka meningkatkan kontribusi pada peningkatan kualitas hidup masyarakat Indonesia
d. Menjadi Program Studi Pendidikan Profesi Bidan terkemuka di Indonesia berbasis
Teknologi Informasi dan Komunikasi dengan jejaring nasional dan internasional dalam
kegiatan tridharma perguruan tinggi yang holistik dan integratif dalam rangka
meningkatkan kualitas hidup masyarakat
Peran Big Data dalam bidang farmasi khususnya Farmasi Klinik dan Komunitas :
Select one:
a. Penentuan kebijakan
b. Penemuan senyawa obat baru
c. Optimalisasi pelayanan kesehatan
d. Inovasi obat dan Alat kesehatan
Select one:
a. Puskesmas Cimanggis, Pancoran Mas, Sukmajaya, Cinere dan Beji
b. Puskesmas Cimanggis, Pancoran Mas, Sawangan, Cinere dan Beji
c. Puskesmas Cimanggis, Cipayung, Sawangan, Cinere dan Beji
d. Puskesmas Cimanggis, Pancoran Mas, Cipayung, Cinere dan Beji
Select one:
a. Semua benar
b. Melahirkan dan Bayi Baru lahir
c. Kehamilan
d. Anak, pra sekolah, remaja
Peran Big Data dalam bidang farmasi khususnya Biologi dan Kimia Farmasi:
Select one:
a. Penemuan senyawa obat baru
b. Penentuan kebijakan
c. Optimalisasi pelayanan kesehatan
d. Inovasi obat dan Alat kesehatan
Select one:
a. Memprediksi prevalensi penyakit
b. Penentuan kebijakan
c. Optimalisasi pelayanan kesehatan
d. Inovasi obat dan Alat kesehatan
UTS KOMPUTASI BIG DATA SMT 3
Select one:
a. Decision Tree
b. Deterministic vs. probabilistic
c. Exclusive vs. overlapping
d. Hierarchical vs. flat
Select one:
a. Dataset
b. Nilai
c. Objek
d. Fitur/atribut
Select one:
a. T = 1959, P = Arthur Samuel
b. T = 1999, P = Bill Gates
c. T = 1989, P = Tom M. Mitchell
d. T = 1969, P = Yann LeCun
Select one:
a. Klasifikasi
b. Klasterisasi
c. Visualisasi
d. Asosiasi
Model pembelajaran yang menggunakan data berlabel dan tidak berlabel untuk pelatihan.
Select one:
a. Semi Supervised Learning
b. Reinfocement Learning
c. Supervised Learning
d. Unsupervised Learning
Karakteristik Big Data yang terus bertambah dengan cepat secara real-time dinamakan
Select one:
a. Volume
b. Value
c. variety
d. Velocity
Select one:
a. Image Features - Training With Labeled Data – Prediction
b. Image Features - Training With Labeled Data - Learned Model
c. Image Features - Learned Model - Prediction
d. Image Features - Training With Unlabel Data -Learned Model - Prediction
Metode untuk memprediksi kelas instance dari instance yang diberi label sebelumnya
Select one:
a. Asosiasi
b. Visualisasi
c. Klasifikasi
d. Klasterisasi
Dalam ekosistem teknologi Data Engineering Link Aja! Apache Airflow berfungsi sebagai:
Select one:
a. Streaming Infrastructure
b. Monitoring
c. Data Sources Gathering
d. Batching Infratructure
Teknologi yang dibutuhkan pada era Analytic 3.0:
Select one:
a. Ketergantungan yang tinggi pada Machine Learning
b. Keduanya salah
c. Keduanya benar
d. Berpusat pada Data Warehouse
Pada saat memodelkan mesin learning dalam menganalisa data transaksi keuangan,
melakukan perankingan adalah tahapan pada
Select one:
a. data engineering
b. prediction modelling
c. data exploration
d. data visualization
Salah satu agen intelligence yang bertugas saat mengumpulkan data melalui sumber Web
seperti HTML dokumen, gambar, file teksadalah:
Select one:
a. Compiler
b. Chat Box
c. parser
d. web crawler
Studi tentang bagaimana menganalisis data dan membersihkan data merupakan salah satu
tujuan dari
Select one:
a. Data validation
b. Data training
c. Data cleansing
d. Data testing
Select one:
a. Data historis
b. Machine Learning
c. Validator
d. Hadoop
Select one:
a. Business Analyst
b. Data Architect
c. Data Manager
d. Statistician
Select one:
a. Yet another resource negotiator
b. Yet another resource need
c. Yahoo’s archived Resource names
d. Yahoo’s another resource name
Proses pencarian konten baru dan konten yang perlu diperbaharui dengan mengirimkan
crawler ke seluruh konten yang ditemukan dari tautan halaman merupakan Salah satu
konsep data mining pada Search Engine yang dinamakan
Select one:
a. Index
b. Crawl
c. Searching
d. Rank
Ciri-ciri dari masing-masing sample data misalnya Smartphone. ciri: memiliki layar, kamera,
tombol dan lain-lain
Select one:
a. Feature Extraction
b. Training Set
c. Instance
d. Feature/ atribut
Dalam ekosistem Big Data, proses pre-prosesing data dapat dilakukan menggunakan:
Select one:
a. Tableu
b. Facebook
c. Sqoop
d. HDFS
Metode klasifikasi pada fungsi data mining yang menggunakan nilai estimasi dari
probabilitas bersyarat dinamakan metode
Select one:
a. Eliminasi
b. Mean
c. Naive Bayessian
d. Regresi
Regression, Decision Trees, Bayesian, Neural Networks, Naïve Bayes Rules, Support Vector
Machines, Genetic Algorithms adalah pendekatan yang digunakan untuk
Select one:
a. Klasifikasi
b. Klasterisasi
c. Asosiasi
d. Visualisasi
Select one:
a. data transformation
b. data Integration
c. data cleaning
d. data reduction
Select one:
a. Deteksi Penipuan
b. Input Nilai Mahasiswa
c. Mesin rekomendasi
d. Semua jawaban benar
Select one:
a. Machine Learning
b. Data historis
c. Validator
d. Hadoop
Hadoop adalah framework yang bekerja bersama tools lain yang beragam. Kelompok yang
umum bekerja bersama Hadoop adalah
Select one:
a. MapReduce, Heron and Trumpet
b. MapReduce, Hive and Hbase
c. MapReduce, Hummer and Iguana
d. MapReduce, MySQL and Google Apps
Jika variabel keluaran adalah berupa kategori misalnya “apel”, “jeruk” termasuk pada
machine learning bertipe
Select one:
a. Supervised – Classification
b. Unsupervised
c. Supervised -Regresion
d. Reinfocement
Dalam computer vision, contoh penerapan Machine Learning adalah, kecuali:
Select one:
a. Deteksi suhu tubuh
b. Pengenalan objek
c. Analitik Rute
d. Pengenalan wajah
Membuat grafik box plot adalah salah satu tahapan dalam implementasi mesin learning,
yaitu tahap
Select one:
a. verifikasi model
b. validasi model
c. eksplorasi data
d. modelling
Select one:
a. Storage layer, Service Layer, Application Layer
b. Storage layer, Resource Management Layer, Application Layer
c. Data layer, Processing Layer, Service Layer
d. Storage layer, Processing Layer, Application Layer
Select one:
a. Combined Computer
b. Ignore
c. Regression
d. Clustering
Saat Anda ingin mengungkap pengelompokan yang melekat dalam data, seperti
mengelompokkan hewan berdasarkan beberapa karakteristik / fitur, mis. jumlah kaki maka
model pembelajaran yang sesuai
Select one:
a. Reinfocement Learning
b. Supervised Learning - Classification
c. Supervised Learning - Regression
d. Unsupervised Learning - Clustering
Salah satu teknologi yang dapat digunakan pada bagian Serving Layer dalam Arsitektur
lambda adalah:
Select one:
a. Hive
b. Spark
c. HDFS
d. Flume
Select one:
a. Speed, consistency, dan volume
b. MapReduce, HDFS, dan YARN
c. SQL, NoSQL, Cluster
d. ClickStream, Sensor, dan Sentiment
Pada saat memodelkan mesin learning dalam menganalisa data transaksi keuangan,
melakukan perankingan adalah tahapan pada
Select one:
a. prediction modelling
b. data visualization
c. data engineering
d. data exploration
Select one:
a. Fitur/atribut
b. Nilai
c. Objek
d. Dataset
Clear my choice
Select one:
a. Transformasi data
b. Semua benar
c. Integrasi data
d. Pembersihan data
Dataset dibentuk dari:
Select one:
a. Sekumpulan objek yang memiliki fitur yang sama
b. Semua salah
c. Sekumpulan fitur yang memiliki objek yang sama
d. Sekumpulan fitur yang memiliki nilai yang sama
Clear my choice
Kumpulan data yang disusun dalam tabel berformat persegi panjang yang terdiri dari baris
dan kolom disebut sebagai:
Select one:
a. Flat files
b. Data Warehouse
c. Semua salah
d. Database
Sumber data yang digunakan dalam aplikasi Big Data dapat berupa:
Select one:
a. Data Finansial
b. Data Media Sosial
c. Data Asuransi Kesehatan
d. Semua benar
Tempat penyimpanan data yang dikumpulkan di lokasi berbeda (basis data relasional) dan
disimpan menggunakan skema terpadu:
Select one:
a. Data Warehouse
b. Spatial Database
c. Transactional database
d. Semua benar
Dalam ekosistem Big Data, proses pre-prosesing data dapat dilakukan menggunakan:
Select one:
a. Sqoop
b. Facebook
c. Tableu
d. HDFS
Dalam arsitektur Big Data, solusi berupa rekomendasi, berada pada posisi sebagai:
Select one:
a. Data Computing & Analysis
b. End Result
c. Data Format
d. Data Storage Layer
Semakin banyak data hingga mencapai ukuran Peta Byte atau bahkan lebih, merupakan
penjelasan dari dimensi Big Data dalam hal:
Select one:
a. Variety
b. Velocity
c. Veracity
d. Volume
Select one:
a. Unit
b. Semua benar
c. Record
d. Data points
Select one:
a. Semua salah
b. Numerik
c. Fitur
d. Object
Contoh solusi Big Data, kecuali:
Select one:
a. Mesin rekomendasi
b. Deteksi Penipuan
c. Semua benar
d. Input Nilai Mahasiswa
Select one:
a. Resource Layer
b. SDK Layer
c. Semua benar
d. Interface Layer
Sekumpulan tabel dimana bentuk setiap tabel analog dengan flat file, disebut:
Select one:
a. Database
b. Data Warehouse
c. Semua salah
d. DBMS
Select one:
a. Semua benar
b. Azure ML
c. Apache Spark MLlib
d. Amazon ML
Beragamnya jenis data di dalam Big Data yang meliputi data terstruktur, semi terstruktur
dan bahkan data tidak terstruktur, merupakan penjelasan dari dimensi Big Data dalam hal:
Select one:
a. Velocity
b. Variety
c. Veracity
d. Volume
PERTEMUAN 2 TEAM TEACHING BIG DATA
Select one:
Select one:
c. Semua benar
d. Mulailah dengan kemampuan yang ada untuk manajemen data dan analitik
Select one:
a. Membuat analitik dan keputusan berbasis fakta elemen kunci dari hubungan pelanggan, produk dan
layanan, strategi, dan persaingan
Select one:
b. Semua benar
Select one:
a. Semua benar
c. Prediksi Cashflow
Select one:
a. Data pegawai
c. Semua benar
Select one:
a. Semua benar
b. Procter & Gamble melakukan Analisis sentimen media sosial real time untuk "Pulsa Konsumen"
c. Sistem Manajemen Inventaris Cerdas pada perusahaan Ford, menyarankan pesanan mingguan untuk
dealer dan telah meningkatkan pendapatan sebesar $ 100 juta / tahun
d. Monsanto membayar hampir $ 1 miliar untuk The Climate Company, yang mengumpulkan dan
menganalisis data cuaca untuk pertanian
Select one:
a. Analitik Rute
d. Pengenalan objek
Select one:
Select one:
a. HDFS
b. YARN
c. MapReduce
d. Semua benar
Select one:
a. MapReduce
b. YARN
c. Semua benar
d. HDFS
Select one:
Select one:
c. Semua benar
Select one:
a. 1.0
b. Semua benar
c. 3.0
d. 2.0
Select one:
a. Semua benar
b. Static vs Dynamic
c. Relational vs Non-Relational
Select one:
b. Semua benar
d. Mahal vs Terjangkau
Salah satu bentuk data tidak terstruktur:
Select one:
a. Graph
b. Semua benar
c. Key-Value
d. Document
Salah satu fakta yang menunjukkan aspek Velocity dari Big Data:
Select one:
a. Mobil modern memiliki 100 sensor yang memantau berbagai item pada mobil
c. Semua benar
d. 27% responden dalam satu survei tidak yakin dengan banyaknya data mereka yang tidak akurat
Salah satu tonggak penting dalam Big Data Analytic dalam aspek pengadaan infrastruktur:
Select one:
a. Dapatkan infrastruktur yang tepat yang dibutuhkan berdasarkan arsitektur solusi Anda termasuk
penyimpanan data dan unit pemrosesan, platform, dan aplikasi
b. Adaptasi dan ubah organisasi Anda menuju teknologi big data dan implementasi analitik baru
c. Kembangkan arsitektur Solusi untuk kasus bisnis Anda termasuk proses pengumpulan data, arsitektur
teknologi dan metode analitik serta visualisasi data
d. Analisis data untuk setiap kasus bisnis spesifik Anda dan visualisasikan dengan cara yang bermakna
Select one:
c. Keduanya benar
d. Keduanya salah
BIG DATA PERTEMUAN 3
Select one:
a. Kumpulan server atau node digabungkan secara erat, dengan spesifikasi perangkat keras yang sama.
Serta terhubung melalui jaringan dan bekerja sebagai satu kesatuan
b. Penyimpanan dan pengaturan data pada perangkat penyimpanan harddisk atau flashdisk, dan
menyediakan logical view dari data yang disimpan dalam struktur hirakis direktori file.
c. Menyimpan data dengan mempartisi secara horizontal dan pecahan horizontal tersebut di simpan
secara terpisah pada node server.
d. Data disimpan dengan cara menyalin dataset dan meyimpan Salinan tersebut pada beberapa node
Berikut yang dimaksud dengan menganalisa data dalam konteks big data adalah:
Select one:
Properti Big data yang penting, salah satunya adalah aviability, yaitu:
Select one:
b. Handal
c. Kemampuan untuk terus beroperasi walaupun terjadi kegagalan pada beberapa komponen
Select one:
c. Fully-Distributed mode
Select one:
a. membagi masalah besar menjadi masalah kecil yang dapat diselesaikan dengan cepat
b. memproses data besar secara parallel dalam cluster pada commodity hardware
c. semua benar
Select one:
Select one:
Select one:
Hadoop adalah framework yang bekerja bersama tools lain yang beragam. Kelompok yang umum
bekerja bersama Hadoop adalah
Select one:
Properti Big data yang penting, salah satunya adalah reliability, yaitu:
Select one:
a. Kemampuan untuk terus beroperasi walaupun terjadi kegagalan pada beberapa komponen
b. Handal
Properti Big data yang penting, salah satunya adalah fault tolerance, yaitu:
Select one:
b. Handal
c. Kemampuan untuk terus beroperasi walaupun terjadi kegagalan pada beberapa komponen
Database NoSQL menggunakan beragam model data untuk mengakses dan mengelola data. Jenis
database ini dioptimalkan secara khusus untuk aplikasi yang memerlukan…., yang dicapai dengan
mengurangi pembatasan konsistensi data dari database lainnya.
Select one:
Select one:
a. yang menerapkan divide and conquer dalam fisik terpisah, namun terhunung Bersama dalam satu
cluster
c. yang melibatkan pelaksanaan sub-tugas secara bersamaan secara kolektif membentuk tugas yang
besar melalui beberapa processor
d. yang membagi pemrosesan dalam beberapa batch dan dilakukan secara offline
Select one:
c. Semua benar
Select one:
a. Semua benar
b. Tidak terstuktur
c. Terstruktur
d. Semi – terstruktur
Hadoop adalah platform pemrosesan big data yaitu data yang mempunyai karakteristik kecuali:
Select one:
b. Volume besar, struktur data yang beragam (variety), dan nilai data yang diperlukan (useful value)
Select one:
Select one:
Jenis database NoSQL apa yang membuat dan menjalankan aplikasi yang berjalan dengan dataset yang
selalu terhubung menjadi lebih mudah dan sering digunakan untuk jaringan media sosial.
Select one:
a. Dokumen
b. Primary key
c. Pencarian
d. Grafik
Properti Big data yang penting, salah satunya adalah scalability, yaitu:
Select one:
c. Kemampuan untuk terus beroperasi walaupun terjadi kegagalan pada beberapa komponen
d. Handal
27/03/22 22.57 Kuis M4 : Data Preprocessing: Attempt review
Dashboard / My courses /
ATA 2021/2022 | 2-FTI | Kompuasi Big Data | TEAM TEACHING /
Pertemuan 4 : Data Preprocessing
/
Kuis M4 : Data Preprocessing
Dibiarkan
A,B,dan C benar
Record
Sample
Instance
Combined Computer
Regression
Ignore
Question 4 Data berupa image, video bahkan suara termasuk jenis data
Correct
Graf
Multimedia
Ordered
1
Online
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=5681404&cmid=856415 1/4
27/03/22 22.57 Kuis M4 : Data Preprocessing: Attempt review
Question 6 Data Cleansing merupakan tahapan untuk membersihkan data kotor sehingga menjadi dataset yang siap diolah. Data
Correct kotor tersebut berupa
Mark 5.00 out of
5.00 Select one:
duplicate data
A,B,C benar
missing value
outlier
Question 7 Data-data yang saling berhubungan, yang biasanya ditemukan pada jaringan internet termasuk dalam jenis data
Correct
Record
Ordered
Multimedia
Question 8 Imputasi nilai secara otomatis saat menangani incomplete data tidak dapat dilakukan menggunakan
Correct
Nilai tertinggi
Median
Rata-rata
Numerik
Ordinal
Rasio
Data sample
Data objek
Atribut
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=5681404&cmid=856415 2/4
27/03/22 22.57 Kuis M4 : Data Preprocessing: Attempt review
Question 11 Nilai yang merepresentasikan urutan seperti nilai mata kuliah termasuk dalam atribut data type..
Correct
Numerik
Ordinal
Nominal
data reduction
data Integration
data transformation
Question 13 Penanganan missing value dapat dilakukan menggunakan nilai estimasi dari probabilitas bersyarat menggunakan metode
Correct
Eliminasi
Regresi
Bayessian
Question 14 Salah satu jenis data record yang diekstrak menjadi kumpulan term dan ditulis berdasarkan frekuensi kemunculan data,
Correct termasuk pada jenis data
Mark 5.00 out of
5.00 Select one:
Transaksi
Matriks
Sosial network
Dokumen
Question 15 Seberapa mudah data dapat dipahami merupakan kualitas data dari..
Correct
Consistency
Interpretability
Completeness
Question 16 Statistik dasar untuk mengukur sebaran data salah satunya adalah
Correct
Mean
Modus
Variance
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=5681404&cmid=856415 3/4
27/03/22 22.57 Kuis M4 : Data Preprocessing: Attempt review
Question 17 Studi tentang bagaimana menganalisis data dan membersihkan data merupakan salah satu tujuan dari
Correct
Data cleansing
Data testing
Data training
data cleaning
data Integration
data transformation
Question 19 Tanggal penjualan, nama pelanggan, nama barang, jumlah penjualan merupakan contoh dari
Correct
Dataset penjualan
Atribut penjualan
Question 20 Tinggi badan, berat badan, usia, dan jenis kelamin merupakan contoh representasi karakteristik dari
Correct
Data objek
Atribut
Data sample
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=5681404&cmid=856415 4/4
04/04/22 13.35 Kuis M5: Implementasi BigData pada Fintech: Attempt review
Dashboard / My courses /
ATA 2021/2022 | 2-FTI | Kompuasi Big Data | TEAM TEACHING /
Pertemuan 5: Implementasi Big Data pada Fintech
/
Kuis M5: Implementasi BigData pada Fintech
b. Data Manager
c. Business Analyst
d. Statistician
b. Semua benar
d. Gambar
1
Online
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=5791856&cmid=867269 1/5
04/04/22 13.35 Kuis M5: Implementasi BigData pada Fintech: Attempt review
b. Nomor telepon
c. Email
d. Nama pelanggan
Question 6 Salah satu teknologi yang dapat digunakan pada bagian Serving Layer dalam Arsitektur lambda adalah:
Correct
b. Flume
c. Spark
d. HDFS
Question 7 Salah satu aktivitas yang dilakukan oleh Link Aja! dalam mengadopsi alat-alat bantu untuk pengelolaan data adalah:
Correct
b. 2008
c. 2020
d. 2016
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=5791856&cmid=867269 2/5
04/04/22 13.35 Kuis M5: Implementasi BigData pada Fintech: Attempt review
Question 9 Berikut ini urutan proses yang dilakukan dalam Arsitektur Kappa adalah:
Correct
b. Data Sources, Streaming/Real-Time Ingestion, Analytical Data Store, Streaming/Real-Time Processing, Analytics
& Reporting
c. Data Sources, Analytical Data Store, Streaming/Real-Time Ingestion, Streaming/Real-Time Processing, Analytics
& Reporting
d. Data Sources, Streaming/Real-Time Ingestion, Streaming/Real-Time Processing, Analytical Data Store, Analytics
& Reporting
The correct answer is: Data Sources, Streaming/Real-Time Ingestion, Streaming/Real-Time Processing, Analytical Data
Store, Analytics & Reporting
Question 10 Pembayaran Kartu prakerja merupakan salah satu proyek yang dikerjakan oleh Link Aja bersama dengan:
Correct
b. Semua salah
c. Bank Indonesia
d. Pemerintah
Question 11 Dalam ekosistem teknologi Data Engineering Link Aja! Apache Airflow berfungsi sebagai:
Correct
b. Streaming Infrastructure
c. Monitoring
d. Batching Infratructure
Question 12 Ukuran kualitas citra merupakan salah satu luaran yang dihasilkan oleh AI/ML Scientist Link Aja! pada proyek:
Correct
c. eKYC Improvement
1
Online
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=5791856&cmid=867269 3/5
04/04/22 13.35 Kuis M5: Implementasi BigData pada Fintech: Attempt review
b. Yahoo
c. Google
d. Facebook
b. Volume
c. Veracity
d. Variety
Question 15 Berikut ini merupakan komponen-kompone produksi dalam implementasi big data, kecuali:
Correct
b. Presto
c. Spark
d. MongoDB
Question 16 Menjadi platform teknologi keuangan nasional terdepan dan terpercaya merupakan ... dari Link Aja!:
Correct
b. Misi
c. Tujuan
d. Visi
1
Online
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=5791856&cmid=867269 4/5
04/04/22 13.35 Kuis M5: Implementasi BigData pada Fintech: Attempt review
Question 17 Berikut ini adalah teknologi yang digunakan oleh Link Aja! pada bagian Persistence Layer, kecuali:
Correct
d. PostgreSQL
b. Tidak Terstruktur
c. Semi Terstruktur
b. Beam
c. Hadoop
d. Hive
Question 20 Berikut ini yang bukan termasuk kedalam peran Tim Data di Link Aja! adalah:
Correct
b. Data Analyst
c. Data Scientist
d. Data Engineer
◄ Materi M5: Implementasi Big Data Kuis M5: Implementasi BigData pada
Jump to...
pada Fintech Fintech (Khusus KELAS MALAM) ►
1
Online
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=5791856&cmid=867269 5/5
QUIZ M7 KOMPUTASI BIG DATA
Metode untuk memprediksi kelas instance dari instance yang diberi label sebelumnya
Select one:
a. Asosiasi
b. Klasterisasi
c. Klasifikasi
d. Visualisasi
Proses pencarian konten baru dan konten yang perlu diperbaharui dengan mengirimkan crawler ke
seluruh konten yang ditemukan dari tautan halaman merupakan Salah satu konsep data mining pada
Search Engine yang dinamakan
Select one:
a. Rank
b. Searching
c. Index
d. Crawl
Metode untuk mempresentasikan hasil yang ditemukan dengan cara yang "bagus" secara visual
Select one:
a. Asosiasi
b. Visualisasi
c. Klasterisasi
d. Klasifikasi
Untuk menghindari set pengujian yang tumpang tindih, data dibagi menjadi k himpunan bagian dengan
ukuran yang sama kemudiansetiap subset secara bergantian digunakan untuk pengujian dan sisanya
untuk pelatihan
Select one:
d. k-fold cross-validation
Attributes yang berisi informasi seperti item_ID, name, brand, category, supplier, place_made and price,
merupakaan salah satu contoh jenis database
Select one:
a. Penjualan
b. Marketing
c. Penyewaan
d. Social media
Select one:
a. Pisahkan data menjadi set pelatihan dan pengujian, Buat model pada set pelatihan, Evaluasi pada set
pengujian
b. Buat model pada set pelatihan, pilih secara acak jumlah instance kelas minoritas yang diinginkan,
Evaluasi pada set pengujian
c. Buat model pada set pelatihan, Evaluasi pada set pengujian (Latih ulang?), Pisahkan data menjadi set
pelatihan dan pengujian
d. Evaluasi pada set pengujian, Buat model pada set pelatihan, Pisahkan data menjadi set pelatihan dan
pengujian
Select one:
Select one:
a. Asosiasi
b. Klasifikasi
c. Visualisasi
d. Klasterisasi
Fungsi dari data mining adalah salah satunya dapat mengetahui pola yang sering (atau kumpulan item
yang sering) misalnya item apa yang sering dibeli bersama di Walmart Anda. Ini dikenal dengan istilah
Select one:
a. Klasifikasi
b. Klasterisasi
c. Outlier Analysis
Metode untuk mengelompokkan secara "alami" dari instance yang diberi data tanpa label
Select one:
a. Asosiasi
b. Klasifikasi
c. Klasterisasi
d. Visualisasi
Select one:
a. lebih teori
d. lebih heuristik
Yang bukan Metode clusterisasi
Select one:
b. Decision Tree
Select one:
a. Completeness
b. Interpretability
c. Consistency
d. Believability
Jenis tugas data mining yang menfasilitasi penerimaan / penelusuran informasi bagi pengguna
Select one:
a. Visualisasi
b. Klasifikasi
c. Klasterisasi
d. Asosiasi
Karakteristik Big Data yang terus bertambah dengan cepat secara real-time dinamakan
Select one:
a. Value
b. Volume
c. variety
d. Velocity
Pernyataan yang kurang sesuai dengan metode peringkasan
Select one:
Metode klasifikasi pada fungsi data mining yang menggunakan nilai estimasi dari probabilitas bersyarat
dinamakan metode
Select one:
a. Regresi
b. Eliminasi
c. Mean
d. Naive Bayessian
Select one:
a. Klasifikasi
b. Visualisasi
c. Klasterisasi
d. Asosiasi
Melihat suatu objek data yang tidak sesuai dengan perilaku umum data, sering digunakan dalam deteksi
penipuan atau analisis kejadian langka
Select one:
a. Analisis Outlier
b. Klasifikasi
d. Klasterisasi
Acuan yang tidak tepat ketika melakukan pengaturan parameter
Select one:
a. Data pengujian tidak digunakan dengan cara apa pun untuk membuat pengklasifikasi
c. Skema pembelajaran beroperasi dalam dua tahap yaitu membangun struktur dasar dan
mengoptimalkan pengaturan parameter
Dashboard / My courses /
ATA 2021/2022 | 2-FTI | Kompuasi Big Data | TEAM TEACHING
/
Pertemuan 8: Introduction to Machine Learning (Supervised) /
Kuis M6 : Introduction to Machine Learning (Supervised)
b. Regressi
c. Generalisasi
d. Klasterisasi
1
Question 2 Yang tidak digunakan pada Model Supervised Learning Online
Correct
d. Neural Networks
Question 3 Jika variabel keluaran adalah berupa kategori misalnya “apel”, “jeruk” termasuk pada machine learning bertipe
Correct
b. Reinfocement
c. Unsupervised
d. Supervised – Classification
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=6197464&cmid=906733 1/5
09/05/22 13.58 1 pesan baru
Question 5 Model ini belajar dari kumpulan data berlabel dan kemudian digunakan untuk memprediksi peristiwa di masa depan.
Correct
b. Reinfocement Learning
d. Supervised Learning
Question 6 Model pembelajaran yang menggunakan data berlabel dan tidak berlabel untuk pelatihan.
Correct
b. Reinfocement Learning
d. Supervised Learning
Question 8 Yang bukan tujuan supervised learning untuk membangun model yang dapat menghasilkan output yang benar untuk
Correct suatu data input dapat digunakan untuk
Marked out of
5.00 Select one:
a. Klasterisasi (clustering)
b. Pengklasifikasian (classification)
c. Ranking
d. Regresi (regression)
Question 9 Saat Anda ingin mengungkap pengelompokan yang melekat dalam data, seperti mengelompokkan hewan berdasarkan
Correct beberapa karakteristik / fitur, mis. jumlah kaki maka model pembelajaran yang sesuai
Marked out of
5.00 Select one:
a. Supervised Learning - Regression
c. Reinfocement Learning
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=6197464&cmid=906733 2/5
09/05/22 13.58 1 pesan baru
Question 10 Kumpulan data yg sudah dipastikan kebenarannya, dr sisi label, data awal, komponen2 data yg akan dijadikan kunci,
Correct
b. Training Set
c. Feature Extraction
d. Feature/ atribut
Question 11 Pola-pola struktur yang ada pada suatu koleksi data (knowledge) dapat direpresentasi dalam bentuk if then rules :
Correct
b. Instance
c. Aturan
d. Pohon
Question 12
Correct
Marked out of 1
5.00
Online
Gambar pada representasi di atas adalah Pola-pola struktur yang ada pada suatu koleksi data (knowledge) dalam bentuk
Select one:
a. Pohon
b. Tabel
c. Aturan
d. Instance
Question 13 Sebuah proses yg mempersiapkan data sehingga data tsb bisa kita extract cirinya menjadi suatu vektor
Correct
b. Feature/ atribut
c. Feature Extraction
d. Training Set
Question 14 Salah satu teknik yang digunakan untuk mengkontrol fenomena over-fitting adalah dengan cara menambah finalti ke
Correct fungsi error.
Marked out of
5.00 Select one:
a. model selection
b. prediction
c. regularization
d. generalization
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=6197464&cmid=906733 3/5
09/05/22 13.58 1 pesan baru
Question 15 Model Pembelajaran yang mempelajari bagaimana sistem dapat menyimpulkan suatu fungsi untuk mendeskripsikan
Correct struktur tersembunyi dari data yang tidak berlabel. Sistem ini tidak memprediksi keluaran yang benar, tetapi
Marked out of mengeksplorasi data dan dapat menarik kesimpulan dari kumpulan data untuk mendeskripsikan struktur tersembunyi dari
5.00 data yang tidak berlabel.
Select one:
a. Reinfocement Learning
b. Supervised Learning
c. Unsupervised Learning
Question 16 Pembelajaran yang bertujuan memprediksi output dengan akurat untuk data baru dan output ti bernilai kontinu (riil),
Correct contoh untuk Prediksi kinerja CPU
Marked out of
5.00 Select one:
a. Regressi
b. Klasifikasi
c. Generalisasi
d. Klasterisasi
1
Online
Question 17 Ciri-ciri dari masing-masing sample data misalnya Smartphone. ciri: memiliki ...
Correct
Marked out of
5.00 Select one:
a. Feature Extraction
b. Feature/ atribut
c. Training Set
d. Instance
Question 18
Correct
Marked out of
5.00
Gambar pada representasi di atas adalah Pola-pola struktur yang ada pada suatu koleksi data (knowledge) dalam bentuk
Select one:
a. Tabel
b. Pohon
c. Instance
d. Aturan
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=6197464&cmid=906733 4/5
09/05/22 13.58 1 pesan baru
Question 19
Correct
Marked out of
5.00
Gambar pada representasi di atas adalah Pola-pola struktur yang ada pada suatu koleksi data (knowledge) dalam bentuk
Select one:
a. Pohon
b. Aturan
c. Instance
d. Tabel
Question 20 Tujuan pembelajaran unsupervised adalah membagun model yang dapat menemukan komponen / variabel / fitur
Correct tersembunyi pada data pelatihan, yang dapat digunakan untuk hal berikut, kecuali
Marked out of
5.00 Select one:
a. Pengelompokan (clustering)
c. Rekomendasi
d. Pengklasifikasian (classification)
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=6197464&cmid=906733 5/5
3/8/2021 Kuis M1 : Big Data Computing Overview: Attempt review
Dashboard / My courses / ATA 2020/2021 | 2-FIKTI | Komputasi Big Data | TEAM TEACHING / Pertemuan 1 : Big Data Computing Overview
/ Kuis M1 : Big Data Computing Overview
Question 1 Beragamnya jenis data di dalam Big Data yang meliputi data terstruktur, semi terstruktur dan bahkan data tidak
Correct terstruktur, merupakan penjelasan dari dimensi Big Data dalam hal:
Mark 5.00 out of
5.00 Select one:
Velocity
Volume
Variety
Veracity
Semua benar
Deteksi Penipuan
Question 3 Dalam arsitektur Big Data, solusi berupa rekomendasi, berada pada posisi sebagai:
Correct
Data Format
End Result
1
Online
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2403724&cmid=491419 1/6
3/8/2021 Kuis M1 : Big Data Computing Overview: Attempt review
Question 4 Dalam ekosistem Big Data, proses pre-prosesing data dapat dilakukan menggunakan:
Correct
Sqoop
Tableu
Question 5 Data Warehouse dibuat dengan menerapkan serangkaian langkah pemrosesan terhadap data yang berasal dari beberapa
Incorrect basis data. Berikut ini adalah yang termasuk dalam pemrosesan data tersebut:
Mark 0.00 out of
5.00 Select one:
Pembersihan data
Semua benar
Integrasi data
Transformasi data
The correct answer is: Sekumpulan objek yang memiliki fitur yang sama
Semua benar
Resource Layer
Interface Layer
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2403724&cmid=491419 2/6
3/8/2021 Kuis M1 : Big Data Computing Overview: Attempt review
Question 8 Kumpulan data yang disusun dalam tabel berformat persegi panjang yang terdiri dari baris dan kolom disebut sebagai:
Correct
Data Warehouse
Database
Flat files
The correct answer is: Memperkirakan puncak dari kasus positif Covid-19, adalah contoh analisis prediktif.
Question 10 Model basis data yang berupa deret waktu (time series):
Correct
Text database
Semua salah
Spatial database
Unit
Data points
Record
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2403724&cmid=491419 3/6
3/8/2021 Kuis M1 : Big Data Computing Overview: Attempt review
Semua benar
Question 13 Sekumpulan tabel dimana bentuk setiap tabel analog dengan flat file, disebut:
Correct
Data Warehouse
DBMS
Database
Question 14 Semakin banyak data hingga mencapai ukuran Peta Byte atau bahkan lebih, merupakan penjelasan dari dimensi Big Data
Correct dalam hal:
Mark 5.00 out of
5.00 Select one:
Variety
Volume
Velocity
Veracity
Question 15 Sumber data yang digunakan dalam aplikasi Big Data dapat berupa:
Correct
Data Finansial
Semua benar
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2403724&cmid=491419 4/6
3/8/2021 Kuis M1 : Big Data Computing Overview: Attempt review
Question 16 Tempat penyimpanan data yang dikumpulkan di lokasi berbeda (basis data relasional) dan disimpan menggunakan skema
Correct terpadu:
Mark 5.00 out of
5.00 Select one:
Data Warehouse
Transactional database
Semua benar
Spatial Database
Fitur
Semua salah
Numerik
Dataset
Nilai
Objek
Tabel
Grafik 3D
Plot
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2403724&cmid=491419 5/6
3/8/2021 Kuis M1 : Big Data Computing Overview: Attempt review
Amazon ML
Semua benar
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2403724&cmid=491419 6/6
3/15/2021 1 pesan baru
Dashboard / My courses / ATA 2020/2021 | 2-FIKTI | Komputasi Big Data | TEAM TEACHING
/ Pertemuan 2 : Big Data Computing, Applications and Technologies / Kuis M2 : Big Data Computing, Applications and Technologies
The correct answer is: Storage layer, Resource Management Layer, Application Layer
Question 2 Berikut ini adalah saran untuk memasuki era Analytic 3.0:
Correct
c. Semua benar
Question 3 Berikut ini yang harus dilakukan oleh perusahaan 1.0, kecuali:
Correct
The correct answer is: Membuat analitik dan keputusan berbasis fakta elemen kunci dari hubungan pelanggan, produk
dan layanan, strategi, dan persaingan
1
Online
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2476785&cmid=491949 1/6
3/15/2021 1 pesan baru
b. Semua benar
d. Prediksi Cashflow
c. Data pegawai
d. Semua benar
b. Procter & Gamble melakukan Analisis sentimen media sosial real time untuk "Pulsa Konsumen"
c. Semua benar
d. Monsanto membayar hampir $ 1 miliar untuk The Climate Company, yang mengumpulkan dan menganalisis data
cuaca untuk pertanian
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2476785&cmid=491949 2/6
3/15/2021 1 pesan baru
Question 8 Dalam computer vision, contoh penerapan Machine Learning adalah, kecuali:
Correct
b. Pengenalan wajah
d. Pengenalan objek
Question 9 Istilah 'Machine Learning' diciptakan pada tahun <T> oleh <P>:
Correct
b. HDFS
c. Semua benar
d. MapReduce
b. MapReduce
c. YARN
d. HDFS
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2476785&cmid=491949 3/6
3/15/2021 1 pesan baru
d. Sumber data dari internal, relatif kecil dan data terstruktur dari pelanggan
The correct answer is: Perpaduan antara analitik tradisional dengan Big Data
d. Semua benar
The correct answer is: Hadoop merupakan framework untuk bekerja dengan Big Data
b. Semua benar
c. 2.0
d. 3.0
b. Relational vs Non-Relational
c. Semua benar
d. Static vs Dynamic
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2476785&cmid=491949 4/6
3/15/2021 1 pesan baru
b. Mahal vs Terjangkau
d. Semua benar
b. Graph
c. Key-Value
d. Semua benar
Question 18 Salah satu fakta yang menunjukkan aspek Velocity dari Big Data:
Correct
b. Semua benar
c. Mobil modern memiliki 100 sensor yang memantau berbagai item pada mobil
The correct answer is: Mobil modern memiliki 100 sensor yang memantau berbagai item pada mobil
Question 19 Salah satu tonggak penting dalam Big Data Analytic dalam aspek pengadaan infrastruktur:
Correct
b. Dapatkan infrastruktur yang tepat yang dibutuhkan berdasarkan arsitektur solusi Anda termasuk penyimpanan
data dan unit pemrosesan, platform, dan aplikasi
c. Adaptasi dan ubah organisasi Anda menuju teknologi big data dan implementasi analitik baru
d. Kembangkan arsitektur Solusi untuk kasus bisnis Anda termasuk proses pengumpulan data, arsitektur teknologi
dan metode analitik serta visualisasi data
The correct answer is: Dapatkan infrastruktur yang tepat yang dibutuhkan berdasarkan arsitektur solusi Anda termasuk
penyimpanan data dan unit pemrosesan, platform, dan aplikasi
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2476785&cmid=491949 5/6
3/15/2021 1 pesan baru
d. Keduanya salah
The correct answer is: Ketergantungan yang tinggi pada Machine Learning
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2476785&cmid=491949 6/6
3/22/2021 Kuis M3 : Introduction to Hadoop: Attempt review
Dashboard / My courses / ATA 2020/2021 | 2-FIKTI | Komputasi Big Data | TEAM TEACHING / Pertemuan 3 : Introduction to Apache Hadoop
/ Kuis M3 : Introduction to Hadoop
Question 1 Jenis database NoSQL apa yang membuat dan menjalankan aplikasi yang berjalan dengan dataset yang selalu terhubung
Correct menjadi lebih mudah dan sering digunakan untuk jaringan media sosial.
Mark 5.00 out of
5.00 Select one:
a. Primary key
b. Grafik
c. Dokumen
d. Pencarian
1
Online
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2564953&cmid=499213 1/6
3/22/2021 Kuis M3 : Introduction to Hadoop: Attempt review
Question 4 Database NoSQL menggunakan beragam model data untuk mengakses dan mengelola data. Jenis database ini
Incorrect dioptimalkan secara khusus untuk aplikasi yang memerlukan…., yang dicapai dengan mengurangi pembatasan konsistensi
Mark 0.00 out of data dari database lainnya.
5.00
Select one:
a. volume data besar, latensi rendah, dan model data fleksibel
The correct answer is: volume data besar, latensi rendah, dan model data fleksibel
Question 5 Type data berikut yang dapat ditangani oleh Hadoop adalah
Correct
b. Semi – terstruktur
c. Terstruktur
d. Semua benar
b. semua benar
d. membagi masalah besar menjadi masalah kecil yang dapat diselesaikan dengan cepat
b. Data disimpan dengan cara menyalin dataset dan meyimpan Salinan tersebut pada beberapa node
c. Penyimpanan dan pengaturan data pada perangkat penyimpanan harddisk atau flashdisk, dan menyediakan logical
view dari data yang disimpan dalam struktur hirakis direktori file.
d. Kumpulan server atau node digabungkan secara erat, dengan spesifikasi perangkat keras yang sama. Serta
terhubung melalui jaringan dan bekerja sebagai satu kesatuan
The correct answer is: Kumpulan server atau node digabungkan secara erat, dengan spesifikasi perangkat keras yang
sama. Serta terhubung melalui jaringan dan bekerja sebagai satu kesatuan
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2564953&cmid=499213 2/6
3/22/2021 Kuis M3 : Introduction to Hadoop: Attempt review
The correct answer is: On Disk Storage Devices dan In Memory Storage Devices
Question 9 Berikut yang dimaksud dengan menganalisa data dalam konteks big data adalah:
Correct
The correct answer is: Descriptive analytics, diagnostic analytics, predictive analytics, dan prescriptive analytics
Question 10 Berikut ini yang bukan merupakan Hadoop operation mode, adalah
Correct
c. Fully-Distributed mode
Question 11 Properti Big data yang penting, salah satunya adalah scalability, yaitu:
Correct
c. Handal
d. Kemampuan untuk terus beroperasi walaupun terjadi kegagalan pada beberapa komponen
The correct answer is: Kemampuan menanganai penambahan bebab yang diberikan tanpa penurunan kinerja
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2564953&cmid=499213 3/6
3/22/2021 Kuis M3 : Introduction to Hadoop: Attempt review
b. Semua benar
Question 13 Hadoop adalah platform pemrosesan big data yaitu data yang mempunyai karakteristik kecuali:
Correct
d. Volume besar, struktur data yang beragam (variety), dan nilai data yang diperlukan (useful value)
Question 14 Properti Big data yang penting, salah satunya adalah reliability, yaitu:
Correct
c. Handal
Question 15 Properti Big data yang penting, salah satunya adalah fault tolerance, yaitu:
Correct
c. Handal
The correct answer is: Kemampuan untuk terus beroperasi walaupun terjadi kegagalan pada beberapa komponen
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2564953&cmid=499213 4/6
3/22/2021 Kuis M3 : Introduction to Hadoop: Attempt review
Question 17 Hadoop adalah framework yang bekerja bersama tools lain yang beragam. Kelompok yang umum bekerja bersama
Correct Hadoop adalah
Mark 5.00 out of
5.00 Select one:
a. MapReduce, Hummer and Iguana
b. yang menerapkan divide and conquer dalam fisik terpisah, namun terhunung Bersama dalam satu cluster
c. yang melibatkan pelaksanaan sub-tugas secara bersamaan secara kolektif membentuk tugas yang besar melalui
beberapa processor
The correct answer is: yang menerapkan divide and conquer dalam fisik terpisah, namun terhunung Bersama dalam satu
cluster
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2564953&cmid=499213 5/6
3/22/2021 Kuis M3 : Introduction to Hadoop: Attempt review
Question 20 Properti Big data yang penting, salah satunya adalah aviability, yaitu:
Correct
b. Handal
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2564953&cmid=499213 6/6
3/29/2021 1 pesan baru
Dashboard / My courses / ATA 2020/2021 | 2-FIKTI | Komputasi Big Data | TEAM TEACHING / Pertemuan 4 : Data Preprocessing
/ Kuis M4 : Data Preprocessing
Dibiarkan
Record
Instance
Sample
Combined Computer
Ignore
Clustering
Question 4 Data berupa image, video bahkan suara termasuk jenis data
Correct
Ordered
Graf
Multimedia
1
Online
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2645316&cmid=502729 1/4
3/29/2021 1 pesan baru
Question 6 Data Cleansing merupakan tahapan untuk membersihkan data kotor sehingga menjadi dataset yang siap diolah. Data
Correct kotor tersebut berupa
Mark 5.00 out of
5.00 Select one:
missing value
duplicate data
outlier
A,B,C benar
Question 7 Data-data yang saling berhubungan, yang biasanya ditemukan pada jaringan internet termasuk dalam jenis data
Correct
Graf
Record
Ordered
Question 8 Imputasi nilai secara otomatis saat menangani incomplete data tidak dapat dilakukan menggunakan
Correct
Nilai tertinggi
Rata-rata
Median
Ordinal
Nominal
Rasio
Data objek
Data sample
Atribut
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2645316&cmid=502729 2/4
3/29/2021 1 pesan baru
Question 11 Nilai yang merepresentasikan urutan seperti nilai mata kuliah termasuk dalam atribut data type..
Correct
Ordinal
Numerik
Nominal
data Integration
data cleaning
data reduction
Question 13 Penanganan missing value dapat dilakukan menggunakan nilai estimasi dari probabilitas bersyarat menggunakan metode
Correct
Mean
Bayessian
Regresi
Question 14 Salah satu jenis data record yang diekstrak menjadi kumpulan term dan ditulis berdasarkan frekuensi kemunculan data,
Correct termasuk pada jenis data
Mark 5.00 out of
5.00 Select one:
Dokumen
Matriks
Sosial network
Transaksi
Question 15 Seberapa mudah data dapat dipahami merupakan kualitas data dari..
Correct
Believability
Completeness
Consistency
Question 16 Statistik dasar untuk mengukur sebaran data salah satunya adalah
Correct
Median
Mean
Modus
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2645316&cmid=502729 3/4
3/29/2021 1 pesan baru
Question 17 Studi tentang bagaimana menganalisis data dan membersihkan data merupakan salah satu tujuan dari
Correct
Data cleansing
Data validation
Data training
data transformation
data reduction
data cleaning
Question 19 Tanggal penjualan, nama pelanggan, nama barang, jumlah penjualan merupakan contoh dari
Correct
Dataset penjualan
Question 20 Tinggi badan, berat badan, usia, dan jenis kelamin merupakan contoh representasi karakteristik dari
Correct
Atribut
Dataset
Data objek
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2645316&cmid=502729 4/4
4/5/2021 1 pesan baru
Dashboard / My courses / ATA 2020/2021 | 2-FIKTI | Komputasi Big Data | TEAM TEACHING / Pertemuan 5 : Introduction to Data Mining
/ Kuis M5 : Introduction Data Mining
Question 1 Metode untuk mempresentasikan hasil yang ditemukan dengan cara yang "bagus" secara visual
Correct
b. Visualisasi
c. Klasterisasi
d. Klasifikasi
Question 2 Untuk menghindari set pengujian yang tumpang tindih, data dibagi menjadi k himpunan bagian dengan ukuran yang
Correct sama kemudiansetiap subset secara bergantian digunakan untuk pengujian dan sisanya untuk pelatihan
Marked out of
5.00 Select one:
a. k-fold cross-validation
Question 3 Metode untuk mengelompokkan secara "alami" dari instance yang diberi data tanpa label
Correct
b. Klasterisasi
c. Klasifikasi
d. Visualisasi
1
Online
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2763658&cmid=517239 1/5
4/5/2021 1 pesan baru
c. Data pengujian tidak digunakan dengan cara apa pun untuk membuat pengklasifikasi
d. Skema pembelajaran beroperasi dalam dua tahap yaitu membangun struktur dasar dan mengoptimalkan
pengaturan parameter
Question 6 Jenis tugas data mining yang menfasilitasi penerimaan / penelusuran informasi bagi pengguna
Correct
b. Klasterisasi
c. Klasifikasi
d. Visualisasi
Question 7 Karakteristik Big Data yang terus bertambah dengan cepat secara real-time dinamakan
Correct
b. variety
c. Velocity
d. Value
Question 8 Fungsi dari data mining adalah salah satunya dapat mengetahui pola yang sering (atau kumpulan item yang sering)
Correct misalnya item apa yang sering dibeli bersama di Walmart Anda. Ini dikenal dengan istilah
Marked out of
5.00 Select one:
a. Klasterisasi
b. Outlier Analysis
c. Klasifikasi
Question 9 Proses pencarian konten baru dan konten yang perlu diperbaharui dengan mengirimkan crawler ke seluruh konten yang
Correct ditemukan dari tautan halaman merupakan Salah satu konsep data mining pada Search Engine yang dinamakan
Marked out of
5.00 Select one:
a. Index
b. Crawl
c. Rank
d. Searching
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2763658&cmid=517239 2/5
4/5/2021 1 pesan baru
Question 10 Metode untuk memprediksi kelas instance dari instance yang diberi label sebelumnya
Correct
b. Klasterisasi
c. Asosiasi
d. Klasifikasi
Question 11 Melihat suatu objek data yang tidak sesuai dengan perilaku umum data, sering digunakan dalam deteksi penipuan atau
Correct analisis kejadian langka
Marked out of
5.00 Select one:
a. Analisis Outlier
b. Klasifikasi
c. Klasterisasi
Question 12 Seberapa mudah data dapat dipahami merupakan kualitas data dari..
Correct
b. Believability
c. Completeness
d. Interpretability
Question 13 Regression, Decision Trees, Bayesian, Neural Networks, Naïve Bayes Rules, Support Vector Machines, Genetic Algorithms
Correct adalah pendekatan yang digunakan untuk
Marked out of
5.00 Select one:
a. Asosiasi
b. Klasifikasi
c. Visualisasi
d. Klasterisasi
b. Pisahkan data menjadi set pelatihan dan pengujian, Buat model pada set pelatihan, Evaluasi pada set pengujian
c. Buat model pada set pelatihan, pilih secara acak jumlah instance kelas minoritas yang diinginkan, Evaluasi pada set
pengujian
d. Evaluasi pada set pengujian, Buat model pada set pelatihan, Pisahkan data menjadi set pelatihan dan pengujian
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2763658&cmid=517239 3/5
4/5/2021 1 pesan baru
Question 15 Pernyataan yang tepat terkait data mining and knowledge discovery
Correct
c. lebih teori
b. Visualisasi
c. Klasifikasi
d. Asosiasi
Question 17 Pernyataan yang tepat terkait data mining and knowledge discovery
Correct
Question 18 Attributes yang berisi informasi seperti item_ID, name, brand, category, supplier, place_made and price, merupakaan salah
Correct satu contoh jenis database
Marked out of
5.00 Select one:
a. Social media
b. Penjualan
c. Penyewaan
d. Marketing
Question 19 Metode klasifikasi pada fungsi data mining yang menggunakan nilai estimasi dari probabilitas bersyarat dinamakan
Correct metode
Marked out of
5.00 Select one:
a. Naive Bayessian
b. Mean
c. Regresi
d. Eliminasi
b. Decision Tree
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2763658&cmid=517239 4/5
4/5/2021 1 pesan baru
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2763658&cmid=517239 5/5
4/12/2021 1 pesan baru
Dashboard / My courses / ATA 2020/2021 | 2-FIKTI | Komputasi Big Data | TEAM TEACHING
/ Pertemuan 6 : Introduction to Machine Learning (Supervised) / Kuis M6 : Introduction to Machine Learning (Supervised)
Question 1 Model Pembelajaran yang mempelajari bagaimana sistem dapat menyimpulkan suatu fungsi untuk mendeskripsikan
Correct struktur tersembunyi dari data yang tidak berlabel. Sistem ini tidak memprediksi keluaran yang benar, tetapi
Marked out of mengeksplorasi data dan dapat menarik kesimpulan dari kumpulan data untuk mendeskripsikan struktur tersembunyi dari
5.00 data yang tidak berlabel.
Select one:
a. Reinfocement Learning
b. Supervised Learning
d. Unsupervised Learning
Question 3 Jika variabel keluaran adalah berupa kategori misalnya “apel”, “jeruk” termasuk pada machine learning bertipe
Correct
b. Supervised -Regresion
c. Reinfocement
d. Supervised – Classification
Question 4
Correct
Marked out of
5.00
Gambar pada representasi di atas adalah Pola-pola struktur yang ada pada suatu koleksi data (knowledge) dalam bentuk
Select one:
a. Pohon
b. Aturan
c. Tabel
d. Instance
1
Online
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2888103&cmid=530886 1/5
4/12/2021 1 pesan baru
Question 5 Saat Anda ingin mengungkap pengelompokan yang melekat dalam data, seperti mengelompokkan hewan berdasarkan
Correct beberapa karakteristik / fitur, mis. jumlah kaki maka model pembelajaran yang sesuai
Marked out of
5.00 Select one:
a. Reinfocement Learning
Question 6 Pola-pola struktur yang ada pada suatu koleksi data (knowledge) dapat direpresentasi dalam bentuk if then rules :
Correct
b. Instance
c. Pohon
d. Aturan
Question 7 Model pembelajaran yang menggunakan data berlabel dan tidak berlabel untuk pelatihan.
Correct
b. Unsupervised Learning
c. Supervised Learning
d. Reinfocement Learning
Question 8 Pembelajaran yang bertujuan memprediksi output dengan akurat untuk data baru dan output ti bernilai kontinu (riil),
Correct contoh untuk Prediksi kinerja CPU
Marked out of
5.00 Select one:
a. Klasifikasi
b. Klasterisasi
c. Generalisasi
d. Regressi
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2888103&cmid=530886 2/5
4/12/2021 1 pesan baru
Question 10 Salah satu teknik yang digunakan untuk mengkontrol fenomena over-fitting adalah dengan cara menambah finalti ke
Correct fungsi error.
Marked out of
5.00 Select one:
a. regularization
b. generalization
c. model selection
d. prediction
Question 11 Tujuan pembelajaran unsupervised adalah membagun model yang dapat menemukan komponen / variabel / fitur
Correct tersembunyi pada data pelatihan, yang dapat digunakan untuk hal berikut, kecuali
Marked out of
5.00 Select one:
a. Reduksi dimensi (dimension reduction)
b. Pengklasifikasian (classification)
c. Pengelompokan (clustering)
d. Rekomendasi
Question 12
Correct
Marked out of
5.00
Gambar pada representasi di atas adalah Pola-pola struktur yang ada pada suatu koleksi data (knowledge) dalam bentuk
Select one:
a. Aturan
b. Instance
c. Pohon
d. Tabel
Question 13 Model ini belajar dari kumpulan data berlabel dan kemudian digunakan untuk memprediksi peristiwa di masa depan.
Correct
b. Reinfocement Learning
c. Unsupervised Learning
d. Supervised Learning
b. Klasterisasi
c. Regressi
d. Klasifikasi
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2888103&cmid=530886 3/5
4/12/2021 1 pesan baru
Question 15 Yang bukan tujuan supervised learning untuk membangun model yang dapat menghasilkan output yang benar untuk
Correct suatu data input dapat digunakan untuk
Marked out of
5.00 Select one:
a. Pengklasifikasian (classification)
b. Ranking
c. Klasterisasi (clustering)
d. Regresi (regression)
b. Linear Model
Question 17
Correct
Marked out of
5.00
Gambar pada representasi di atas adalah Pola-pola struktur yang ada pada suatu koleksi data (knowledge) dalam bentuk
Select one:
a. Aturan
b. Pohon
c. Tabel
d. Instance
Question 18 Kumpulan data yg sudah dipastikan kebenarannya, dr sisi label, data awal, komponen2 data yg akan dijadikan kunci,
Correct
b. Instance
c. Feature/ atribut
d. Training Set
Question 19 Sebuah proses yg mempersiapkan data sehingga data tsb bisa kita extract cirinya menjadi suatu vektor
Correct
b. Instance
c. Feature Extraction
d. Feature/ atribut
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2888103&cmid=530886 4/5
4/12/2021 1 pesan baru
Question 20 Ciri-ciri dari masing-masing sample data misalnya Smartphone. ciri: memiliki ...
Correct
Marked out of
5.00 Select one:
a. Training Set
b. Feature/ atribut
c. Instance
d. Feature Extraction
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=2888103&cmid=530886 5/5
4/19/2021 Kuis M7 : Unsupervised Learning: Attempt review
Dashboard / My courses / ATA 2020/2021 | 2-FIKTI | Komputasi Big Data | TEAM TEACHING
/ Pertemuan 7 : Introduction to Machine Learning (Unsupervised) / Kuis M7 : Unsupervised Learning
Question 1 Pengelompokan yang sebagai "pendekatan bottom-up". Di mana titik datanya diisolasi sebagai pengelompokan terpisah
Correct pada awalnya, dan kemudian digabungkan bersama secara iteratif atas dasar kesamaan hingga satu cluster tercapai.
Marked out of
5.00 Select one:
a. Pendekatan Overlapping
b. Pendekatan Aglomeratif
c. Pendekatan Divisive
d. Pendekatan Probabilistic
Question 2 Teknik yang digunakan ketika jumlah fitur, atau dimensi, dalam kumpulan data tertentu terlalu tinggi. Teknik ini
Correct mengurangi jumlah input data ke ukuran yang dapat dikelola sambil juga menjaga integritas set data sebanyak mungkin,
Marked out of biasanya digunakan dalam tahap data praproses
5.00
Select one:
a. Dimensionality reduction
b. Association
c. clustering
d. Regression
Question 3 Algoritme yang menggunakan pohon hash untuk menghitung kumpulan item, menavigasi kumpulan data dengan cara
Incorrect yang pertama. Algoritma ini telah dipopulerkan melalui analisis keranjang pasar, yang mengarah ke mesin rekomendasi
Marked out of yang berbeda untuk platform musik dan pengecer online.Misalnya, jika saya memutar radio Black Sabbath di Spotify,
5.00 dimulai dengan lagu mereka "Anggrek", salah satu lagu lain di saluran ini kemungkinan besar adalah lagu Led Zeppelin,
seperti "Over the Hills dan Far Away." Ini didasarkan pada kebiasaan mendengarkan saya sebelumnya serta kebiasaan
orang lain.
Select one:
a. Eclat
b. Apriori
c. Apriori
d. FP-Growth
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=3027952&cmid=549345 1/5
4/19/2021 Kuis M7 : Unsupervised Learning: Attempt review
Question 4 Algoritme yang menggunakan pohon hash untuk menghitung kumpulan item, menavigasi kumpulan data dengan cara
Correct yang pertama. Algoritma ini telah dipopulerkan melalui analisis keranjang pasar, yang mengarah ke mesin rekomendasi
Marked out of yang berbeda untuk platform musik dan pengecer online.Misalnya, jika saya memutar radio Black Sabbath di Spotify,
5.00 dimulai dengan lagu mereka "Anggrek", salah satu lagu lain di saluran ini kemungkinan besar adalah lagu Led Zeppelin,
seperti "Over the Hills dan Far Away." Ini didasarkan pada kebiasaan mendengarkan saya sebelumnya serta kebiasaan
orang lain. Ini termasuk task
Select one:
a. Dimensionality reduction
b. Regression
c. clustering
d. Association
Question 5 Algoritme yang berusaha menemukan pola tersembunyi atau pengelompokan data tanpa perlu campur tangan manusia.
Correct
b. Deep Learning
c. Unsupervised Learning
Question 6 Metode berbasis aturan untuk menemukan hubungan antara variabel dalam kumpulan data tertentu. Metode ini sering
Correct digunakan untuk analisis keranjang pasar, memungkinkan perusahaan untuk lebih memahami hubungan antara produk
Marked out of yang berbeda. Memahami kebiasaan konsumsi pelanggan memungkinkan bisnis untuk mengembangkan strategi
5.00 penjualan silang dan mesin rekomendasi yang lebih baik.
Select one:
a. Association
b. clustering
c. Regression
d. Dimensionality reduction
Question 7 Jenis algoritme pengurangan dimensi yang digunakan untuk mengurangi redundansi dan mengompresi kumpulan data
Correct melalui ekstraksi fitur. Metode ini menggunakan transformasi linier untuk membuat representasi data baru, menghasilkan
Marked out of sekumpulan "komponen utama". Komponen utama pertama adalah arah yang memaksimalkan varians dari dataset.
5.00 Sementara komponen utama kedua juga menemukan varians maksimum dalam data, itu sama sekali tidak berkorelasi
dengan komponen utama pertama, menghasilkan arah yang tegak lurus, atau ortogonal, ke komponen pertama. Proses
ini berulang berdasarkan jumlah dimensi, dimana komponen utama berikutnya adalah arah ortogonal ke komponen
sebelumnya dengan varians terbanyak.
Select one:
a. Singular value decomposition
b. FP-Growth
c. Autoencoders
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=3027952&cmid=549345 2/5
4/19/2021 Kuis M7 : Unsupervised Learning: Attempt review
Question 8 Pendekatan reduksi dimensi lain yang memfaktorkan matriks, A, menjadi tiga matriks peringkat rendah. SVD
Correct dilambangkan dengan rumus, A = USVT, di mana U dan V adalah matriks ortogonal. S adalah matriks diagonal, dan nilai S
Marked out of dianggap sebagai nilai tunggal matriks A. Principal component analysis
5.00
Select one:
a. Singular value decomposition
b. FP-Growth
c. Autoencoders
Question 9 Pengelompokan yang mengambil pendekatan "top-down". Dalam hal ini, satu cluster data dibagi berdasarkan perbedaan
Correct antara titik data. Pengelompokan dengan cara ini tidak umum digunakan, tetapi masih perlu diperhatikan dalam konteks
Marked out of pengelompokan hierarkis. Proses pengelompokan ini biasanya divisualisasikan menggunakan dendrogram, diagram mirip
5.00 pohon yang mendokumentasikan penggabungan atau pemisahan titik data pada setiap iterasi.
Select one:
a. Pendekatan Aglomeratif
b. Pendekatan Probabilistic
c. Pendekatan Overlapping
d. Pendekatan Divisive
Question 10 Algoritma yang paling banyak digunakan untuk task Association rules
Correct
b. Apriori
c. Apriori
d. Eclat
Question 11 Salah satu bentuk pengelompokan yang memungkinkan titik data menjadi bagian dari beberapa kluster dengan derajat
Correct keanggotaan terpisah. Ini disebut juga Pengelompokan "lembut" atau fuzzy k-means
Marked out of
5.00 Select one:
a. Memecah belah (Divisive)
d. Hierarkis ( hierarchical)
b. Dimensionality reduction
c. Regression
d. clustering
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=3027952&cmid=549345 3/5
4/19/2021 Kuis M7 : Unsupervised Learning: Attempt review
Question 13 Salah satu bentuk pengelompokan yang menetapkan bahwa suatu titik data hanya dapat ada dalam satu cluster. Ini juga
Correct bisa disebut sebagai pengelompokan "keras". Algoritma yang digunakan salah satunya adalah K-means clustering
Marked out of
5.00 Select one:
a. Memecah belah (Divisive)
c. Hierarkis ( hierarchical)
b. Mempelajari bagaimana cara kerja pembelajaran tanpa pengawasan dan dengan pengawasan
Question 15 Teknik tanpa pengawasan yang membantu menyelesaikan estimasi kepadatan atau masalah pengelompokan "lunak".
Correct Dalam hal ini, titik data dikelompokkan berdasarkan kemungkinannya termasuk dalam distribusi tertentu. Teknik yang
Marked out of paling umum digunakan adalah Gaussian Mixture Model (GMM)
5.00
Select one:
a. Pendekatan Probabilistic
b. Pendekatan Aglomeratif
c. Pendekatan Overlapping
d. Pendekatan Divisive
Question 16 Pembelajaran mesin tanpa pengawasan, menggunakan algoritme pembelajaran mesin untuk menganalisis dan
Correct mengelompokkan set data tak berlabel
Marked out of
5.00 Select one:
a. Supervised Learning
b. Deep Learning
c. Unsupervised Learning
Question 17 Kemampuannya untuk menemukan persamaan dan perbedaan informasi menjadikannya unsupervised learning sebagai
Correct solusi ideal tugas tugas di bawah ini, kecuali
Marked out of
5.00 Select one:
a. strategi penjualan silang
d. Segmentasi pelanggan
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=3027952&cmid=549345 4/5
4/19/2021 Kuis M7 : Unsupervised Learning: Attempt review
c. Hierarkis ( hierarchical)
d. Auto Encoder
Question 19 Teknik yang mengelompokkan data yang tidak berlabel berdasarkan persamaan atau perbedaannya. Algoritma ini
Correct digunakan untuk memproses objek data mentah dan tidak terklasifikasi menjadi grup yang diwakili oleh struktur atau
Marked out of pola dalam informasi.
5.00
Select one:
a. Clustering
b. Dimensionality reduction
c. Regression
d. Association
Question 20 Teknik yang memanfaatkan jaringan neural untuk mengompresi data dan kemudian membuat ulang representasi baru
Correct dari input data asli. Terdapat lapisan tersembunyi secara khusus bertindak sebagai penghambat untuk memampatkan
Marked out of lapisan masukan sebelum merekonstruksi di dalam lapisan keluaran.
5.00
Select one:
a. Singular value decomposition
c. Autoencoders
d. FP-Growth
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=3027952&cmid=549345 5/5
4/26/2021 Kuis M8 : Reinforcement: Attempt review
Dashboard / My courses / ATA 2020/2021 | 2-FIKTI | Komputasi Big Data | TEAM TEACHING
/ Pertemuan 8 : Introduction to Machine Learning (Reinforcement) / Kuis M8 : Reinforcement
Question 1 Reinforcement learning tepat digunakan untuk menyelesaikan permasalahan utama dalam:
Correct
b. Permainan catur
c. Peramalan cuaca
d. Pengenalan objek
Question 2 Berikut ini merupakan contoh permasalahan yang dapat diselesaikan dengan reinforcement learning:
Correct
b. Self-driving car
c. Semua benar
d. Bermain Game
Question 3 Markov Decision Process dapat didefinisikan kedalam n-tuple, dimana bernilai:
Correct
b. 3
c. 6
d. 5
Question 4 Efek dari suatu aksi yang dipilih dari suatu state yang bergantung hanya pada state tersebut saja bukan pada state-state
Correct sebelumnya dikenal sebagai sifat:
Marked out of
5.00 Select one:
a. Markov
b. Bellman
c. Transisi
d. Stokastik
1
Online
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=3172841&cmid=564465 1/4
4/26/2021 Kuis M8 : Reinforcement: Attempt review
c. Input yang diterima oleh agen berupa state, action dan reward
b. Reward
c. Model
d. Action
Question 7 Fungsi reward dalam Markov Decision Process dapat bernilai bilangan:
Correct
b. Riil
c. Bulat
d. Asli
Question 8 Sifat Markov dalam Markov Decision Process diperlukan langsung dalam menentukan:
Correct
b. Supervised learning
c. Semua benar
d. Navigasi robot
Question 10 Pemilihan suatu aksi pada suatu state tertentu didalam Markov Decision Process ditentukan oleh:
Correct
b. Reward
c. Value
d. Policy
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=3172841&cmid=564465 2/4
4/26/2021 Kuis M8 : Reinforcement: Attempt review
Question 11 Berikut ini merupakan pernyataan yang salah terkait Markov Decision Process:
Correct
c. Semua benar
d. Machine learning
b. State-Action-Reward-State-Action (SARSA)
d. Q-learning
Question 14 Efek dari suatu pilihan aksi pada suatu state ditentukan oleh:
Correct
b. Model transisi
c. Policy
d. Fungsi reward
Question 15 Reward dalam permasalahan shortest path yang dimodelkan dengan Markov Decision Process ditandai dengan:
Correct
d. Semua salah
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=3172841&cmid=564465 3/4
4/26/2021 Kuis M8 : Reinforcement: Attempt review
Question 17 Berikut ini merupakan pernyataan yang kurang tepat terkait reinforcement learning (RL):
Correct
b. RL yang diselesaikan dengan Markov Decision Process memerlukan data latih dalam menentukan probabilitas
transisinya
c. RL dapat digunakan dalam menciptakan sistem pelatihan untuk siswa yang bersifat kustom
Question 18 Pada Markov Decision Process, pemilihan ruas jalan dalam permasalahan shortest path merupakan bagian dari:
Correct
b. Reward
c. State
d. Action
Question 19 Dalam memilih aksi pada suatu state perlu diperhatikan hal-hal berikut ini:
Correct
c. Semua benar
Question 20 Sekumpulan token yang mewakili setiap kemungkinan keadaan dari agen disebut sebagai:
Correct
b. Action
c. Semua salah
d. Reward
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=3172841&cmid=564465 4/4
M10 Team Teaching
1. Salah satu library data science yang digunakan untuk pemrosesan sinyal, gambar, dan rumus
statistik adalah.. Semua Benar
2. Beragamnya jenis data di dalam Big Data yang meliputi data terstruktur, semi terstruktur
dan tidak terstruktur, merupakan dimensi Big Data dalam hal: Variety
3. Pilihan yang dapat menciptakan hasil yang paling optimal merupakan pendekatan analitik
dari.. Preskriptif
4. Sumber data yang digunakan dalam aplikasi Big Data dapat berupa: Semua Benar
5. Keuntungan menggunakan Mobile Positioning data (MPD) adalah… Semua Benar
6. Metode untuk memprediksi kelas instance dari instance yang diberi label sebelumnya…
Klasifikasi
7. Visualisasi pada hasil analisis Big Data dapat disajikan dalam bentuk.. Semua Benar
8. Data yang dikumpulkan secara aktif dari sensor, misalnya melalui penginderaan jauh dan
gambar satelit merupakan sumber big data dalam hal…. Sensing data
9. Contoh solusi Big Data, kecuali: Semua Benar
10. Contoh Aplikasi Machine Learning dan Analitik Prediktif: Semua Benar
11. Semakin banyak data hingga dapat melebihi terabyte merupakan penjelasan dari dimensi
Big Data dalam hal: Volume
12. Karakteristik Big Data yang cepat sekali berubah baik dari sisi variabel maupun tipe data
dinamakan… Velocity
13. Data Warehouse dibuat dengan menerapkan serangkaian langkah pemrosesan terhadap
data yang berasal dari beberapa basis data. Berikut ini adalah yang termasuk dalam
pemrosesan data tersebut: Semua Benar
14. Manakah yang benar dari pernyataan berikut ini: Deskriptif, perkiraan berdasarkan data
yang tersedia
15. Data Mobile Positioning data (MPD) berupa… Semua Benar
16. Dataset dibentuk dari: Sekumpulan fitur yang memiliki objek yang sama
17. Tools Bahasa Pemograman yang dapat digunakan dalam ilmu data science adalah… Semua
Benar
18. Social Media termasuk dalam sumber data..Digital Content
19. Cara yang dapat dilakukan untuk meningkatkan analisis bigdata genome bioinformatics
adalah.. Semua Benar
20. Proses menganalisis tulisan untuk menentukan nada emosional penulisnya merupakan salah
satu implementasi machine learning dalam… Principal Component Analysis
Team Teaching Big Data M9
1. Berikut ini adalah efek dari mengecilnya nilai stride dalam Algoritma Convolutional Neural Network
2. Hasil dari proses flatten pada Algoritma Convolutional Neural Network menjadi masukan dalam
Fully-connected layer
4. Berikut ini merupakan loss function dalam algoritma berbasis Neural Network
Cross entropy
6. Berikut ini adalah teknik yang dapat digunakan pada pooling layer dalam Algoritma Convolutional
Neural Network
Hidden layer
8. Sebuah citra berdimensi 5x5 dengan filter 3x3 dan stride sebesar 2 akan menghasilkan feature map
berdimensi
4x4
Hidden layer
10. Berikut ini merupakan fungsi aktivasi dalam Algoritma Convolutional Neural Network
11. Tahapan feature extraction pada Algoritma Convolutional Neural Network terdiri dari beberapa
lapisan (layer) berikut ini, kecuali
Fully-connected layer
12. Untuk memperbanyak feature yang berhasil diekstrak dalam Algoritma Convolutional Neural
Network digunakan
Padding
15. Untuk menyelesaikan permasalahan klasifikasi biner menggunakan algoritma berbasis Neural
Network lebih tepat digunakan fungsi aktivasi
ReLU
16. Salah satu ukuran dari confusion matrix yang dapat digunakan dalam mengukur tingkat keberhasilan
sistem dalam menemukan kembali sebuah informasi adalah
Recall
17. Untuk mencegah terjadinya overfitting dalam Algoritma Convolutional Neural Network dilakukan
Dropout regularization
18. Dimensi dari feature map dalam Algoritma Convolutional Neural Network bergantung pada
Semua benar
Stride
Padding
19. Parameter dalam Algoritma Convolutional Neural Network yang menentukan berapa jumlah
pergeseran filter disebut sebagai
Stride
20. Berikut ini merupakan library Python untuk Algoritma Deep Learning
1. Berikut ini yang bukan merupakan karakteristik dari Apache Spark adalah
2. Berapa banyak Spark Context yang dapat aktif per Java Virtual Machine
Hanya 1
3. Berikut ini yang bukan merupakan fungsi dari Spark Context adalah
6. Berikut ini yang bukan operasi transformasi pada Resilient Distributed Data adalah
Flatmap
2010
8. Berikut ini yang bukan operasi action pada Resilient Distributed Data adalah
Top()
9. Berikut ini adalah pernyataan yang salah mengenai Resilient Distributed Data (RDD), kecuali
Scala
Spark SQL
Spark Core
DataFrame
16. Apache Spark berpotensi … lebih cepat untuk menjalankan program pemrosesan batch didalam
memori jika dibandingkan dengan MapReduce
100 kali
17. Komponen berikut ini yang tidak terdapat diatas Spark Core adalah
18. Spark SQL menerjemahkan perintah kedalam bentuk kode yang diproses oleh
19. Pernyataan berikut ini yang salah mengenai Spark dan Hadoop adalah
Satu
Team Teaching Big Data M12
1. Algoritma untuk menentukan jumlah segitia yang melewati setiap simpul dalam graf
Triangle Count
2. Urutan edge yang memungkinkan Anda berpindah dari vertex A ke vertex B disebut
Path
Page Rank
Visualisasi Grafik
5. Manakah urutan yang benar untuk menjelaskan cara kerja Spark Streaming:
2. Batch input data / RDD tersebut diproses oleh Spark Engine menggunakan operasi RDD.,
3. Hasilnya adalah batch data yang telah diproses didorong keluar ke sistem eksternal,
4. Oleh Spark Streaming data dibagi menjadi kumpulan / batch input data (diperlakukan sebagai RDD).
1-4-2-3
1. Pembuatan grafik,
2. Pengolahan pasca,
4. Analisis
3-1-4-2
Connected Components
Neo4j
Netflix
11. Operasi Jendela membutuhkan parameter
window length
12. Framework yang dapat digunakan untuk memproses data grafik dan menjalankan analisis prediktif
pada data
Spark GraphX
Semua Benar (Film baru yang paling direkomendasikan orang-orang 1 minggu terakhir, Orang-orang
yang sama-sama mensitasi suatu artikel, Teman toni di facebook yang paling banyak pengikutnya)
Semua benar (Graph terdiri dari simpul dan sisi, Semua yang ada di Facebook adalah contoh
penggunaan struktur data graph, Edge menunjukan relasi antar simpul)
17. Yang diperlukan untuk menangani data besar dalam bentuk grafik
Semua benar (Analisis Data Grafikm Visualisasi data grafik, Database grafik)
DStream
Abstraksi memori terdistribusi untuk komputasi dalam memori pada klaster besar yang toleran terhadap
kesalahan
Semua benar (Memproses menggunakan algoritma kompleks dengan fungsi seperti map, reduce, join,
window, Dapat menyerap data dari berbagai sumber, Data yang diproses dapat dikirim ke sistem file,
database, dan live dashboard)
Team Teaching Big Data M13
Langkah ke-1 Salin input data dari CPU memory ke GPU memory
Langkah-2 Muat program GPU dan eksekusi, caching (simpan) data pada chip untuk kinerja
3. Arsitektur CUDA menerapkan pendekatan berupa kumpulan streaming multiprocessors (SM) yang
Mengeksekusi sejumlah instruksi yang sama pada beberapa thread pada berbagai wilayah data,
sehingga dikenal dengan istilah single instruction, multiple threads (SIMT)
Melibatkan banyak unit computer untuk memecahkan masalah yang berbeda-beda untuk masing-
masing unit computer, namun dalam waktu yang sama
5. Tujuan utama dari pemrograman paralel adalah untuk meningkatkan performa komputasi. Performa
dalam pemrograman paralel diukur dari
Berapa banyak peningkatan kecepatan (speed up) yang diperoleh dalam menggunakan tehnik paralel
6. CUDA C++ adalah perluasan C++ sehingga programmer dapat mendefinisikan fungsi C++ yang ketika
dipanggil, akan dieksekusi sebanyak N kali secara paralel dan N CUDA thread yang berbeda. Fungsi ini
dikenal dengan istilah
Kernel
7. Kernel pada pemrograman CUDA agar dieksekusi pada device, dideklarasi menggunakan
__global__
Komputer yang digunakan secara bersamaan dalam melakukan komputasi dilakukan oleh computer-
komputer terpisah yang terhubung dalam suatu jaringan komputer
Satuan pemrosesan sekuensial yang dikumpulkan dalam satu grup yang disebut sebagai thread block
11. Dua kata istilah penting yang digunakan dalam CUDA, yaitu: host dan device. Istilah host pada CUDA
mengacu pada
CPU
12. Dua kata istilah penting yang digunakan dalam CUDA, yaitu: host dan device. Istilah device pada
CUDA mengacu
GPU
Beberapa block dihimpun dalam satu thread, yang kemudian beberapa thread dihimpun dalam satu
kesatuan grid
16. CUDA adalah platform komputasi paralel dengan arsitektur komputasi masuk dalam
CUDA adalah suatu platform untuk komputasi paralel, dan memanfaatkan GPU untuk komputasi
20. Perintah kernel < <N, M> >(…) menunjukkan device untuk
Semua benar
Dapat diinterpretasikan
5. Banyaknya operasi-operasi kecil yang berulang merupakan salah satu penyebab bahasa pemrograman
Python
Tergolong lambat
7. Elemen dalam RDD dikelompokkan kedalam beberapa partisi dan hanya dapat disimpan pada sebuah
node yang berbeda merupakan konsep RDD dalam hal
Distributed
Semua jawaban benar (Penyalinan data dari dan ke host jika diperlukan, Alokasi data dari dan ke host
jika diperlukan)
Semua salah
14. Berikut ini adalah komputasi primitive yang tersedia pada Spark untuk melakukan parelelisme dan
meminimumkan komunikasi antar workers
Open-source
16. Modul kompilasi tepat waktu pada Python untuk GPU adalah
17. API Spark memiliki dukungan yang terbatas pada bahasa pemrograman
18. Permasalahan alokasi memori dalam komputasi pada GPU terdapat pada tugas yang berskala
Kecil
Dashboard / My courses /
ATA 2021/2022 | 2-FTI | Kompuasi Big Data | TEAM TEACHING /
Pertemuan 5: Implementasi Big Data pada Fintech
/
Kuis M5: Implementasi BigData pada Fintech
b. Veracity
c. Volume
d. Variety
b. Semi Terstruktur
c. Terstruktur
Question 3 Pembayaran Kartu prakerja merupakan salah satu proyek yang dikerjakan oleh Link Aja bersama dengan:
Correct
b. BPJS
c. Bank Indonesia
d. Semua salah
1
Online
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=5786711&cmid=867269 1/6
4/4/22, 11:44 AM 1 pesan baru
Question 4 Dalam ekosistem teknologi Data Engineering Link Aja! Apache Airflow berfungsi sebagai:
Incorrect
b. Streaming Infrastructure
c. Monitoring
d. Batching Infratructure
b. Yahoo
c. Facebook
d. Google
b. Nomor KTP
c. Email
d. Nomor telepon
1
Online
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=5786711&cmid=867269 2/6
4/4/22, 11:44 AM 1 pesan baru
Question 8 Berikut ini merupakan komponen-kompone produksi dalam implementasi big data, kecuali:
Correct
b. Presto
c. Spark
d. Kafka
b. Abstrak
c. Semua benar
b. Data Architect
c. Business Analyst
d. Data Manager
Question 11 Menjadi platform teknologi keuangan nasional terdepan dan terpercaya merupakan ... dari Link Aja!:
Incorrect
b. Visi
c. SLogan
d. Tujuan
1
Online
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=5786711&cmid=867269 3/6
4/4/22, 11:44 AM 1 pesan baru
Question 12 Berikut ini urutan proses yang dilakukan dalam Arsitektur Kappa adalah:
Incorrect
b. Data Sources, Analytical Data Store, Streaming/Real-Time Ingestion, Streaming/Real-Time Processing, Analytics
& Reporting
c. Data Sources, Streaming/Real-Time Processing, Streaming/Real-Time Ingestion, Analytical Data Store, Analytics
& Reporting
d. Data Sources, Streaming/Real-Time Ingestion, Analytical Data Store, Streaming/Real-Time Processing, Analytics
& Reporting
The correct answer is: Data Sources, Streaming/Real-Time Ingestion, Streaming/Real-Time Processing, Analytical Data
Store, Analytics & Reporting
Question 13 Salah satu aktivitas yang dilakukan oleh Link Aja! dalam mengadopsi alat-alat bantu untuk pengelolaan data adalah:
Incorrect
Question 14 Berikut ini yang bukan termasuk kedalam peran Tim Data di Link Aja! adalah:
Correct
b. Data Intelligent
c. Data Scientist
d. Data Engineer
Question 15 Berikut ini adalah teknologi yang digunakan oleh Link Aja! pada bagian Persistence Layer, kecuali:
Incorrect
b. Grafana
c. PostgreSQL
1
Online
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=5786711&cmid=867269 4/6
4/4/22, 11:44 AM 1 pesan baru
Question 16 Salah satu teknologi yang dapat digunakan pada bagian Serving Layer dalam Arsitektur lambda adalah:
Incorrect
b. Flume
c. HDFS
d. Hive
b. 2015
c. 2016
d. 2020
b. Beam
c. Hadoop
d. Hive
Question 19 Ukuran kualitas citra merupakan salah satu luaran yang dihasilkan oleh AI/ML Scientist Link Aja! pada proyek:
Incorrect
d. eKYC Improvement
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=5786711&cmid=867269 5/6
4/4/22, 11:44 AM 1 pesan baru
◄ Materi M5: Implementasi Big Data Kuis M5: Implementasi BigData pada
Jump to...
pada Fintech Fintech (Khusus KELAS MALAM) ►
1
Online
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=5786711&cmid=867269 6/6
4/11/22, 8:00 PM Kuis M6: BigData di PPATK: Attempt review
Dashboard / My courses /
ATA 2021/2022 | 2-FIKTI | Kompuasi Big Data | TEAM TEACHING /
Pertemuan 6: Big Data di PPATK
/
Kuis M6: BigData di PPATK
Question 1 Splitting data set dalam pemodelan mesin learning untuk menganalisa data transaksi keuangan adalah
Correct
b. membagi data set menjadi dua bagian, yaitu data training dan data test
The correct answer is: membagi data set menjadi dua bagian, yaitu data training dan data test
Question 2 Agen Kecerdasan Artifisial menerima dan bertindak berdasrkan lingkungan (environment) menggunakan
Correct
b. Sensor
d. Actuator
Question 3 Berikut ini yang merupakan tahapan data engineering dalam big data analytics adalah
Correct
The correct answer is: data architecure, data acquisition, data cleaning, dan cloud computation
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=5910173&cmid=881829 1/6
4/11/22, 8:00 PM Kuis M6: BigData di PPATK: Attempt review
c. yang memerlukan contoh masalah, basis pengetahuan, dan memerlukan input, untuk memecahkan masalah
d. yang memerlukan contoh masalah dan basis pengetahuannya dalam memecahkan masalah
The correct answer is: yang dapat memecahkan masalah tanpa intervensi manusia
Question 5 Pusat Pelaporan dan Analisis Transaksi Keuangan (PPATK) merupakan lembaga sentral (focal point) yang
Correct mengkoordinasikan pelaksanaan upaya pencegahan dan pemberantasan tindak pidana pencucian uang di Indonesia.
Mark 5.00 out of PPATK dalam tugasnya menerapkan AI (Artificial Intelligence)
5.00
Select one:
a. di bidang: Kepegawaian, Kepatuhan Pelaporan, Analisis Transaksi, Pelaporan, Sentimen Analisis, dan Keamanan
Data
The correct answer is: di bidang: Kepegawaian, Kepatuhan Pelaporan, Analisis Transaksi, Pelaporan, Sentimen Analisis, dan
Keamanan Data
Question 6 Salah satu agen intelligence yang bertugas saat mengumpulkan data melalui sumber Web seperti HTML dokumen,
Correct gambar, file teksadalah:
Mark 5.00 out of
5.00 Select one:
a. Chat Box
b. Compiler
c. web crawler
d. parser
Question 7 Berikut sistem intelligent yang dapat difungsikan pada bidang Pelaporan pada Pusat Pelaporan dan Analisis Transaksi
Correct Keuangan (PPATK) adalah
Mark 5.00 out of
5.00 Select one:
a. dapat keduanya, chat Box untuk layanan bantuan dan evaluasi laporan
d. evaluasi laporan
The correct answer is: dapat keduanya, chat Box untuk layanan bantuan dan evaluasi laporan
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=5910173&cmid=881829 2/6
4/11/22, 8:00 PM Kuis M6: BigData di PPATK: Attempt review
Question 8 Jika dalam memodelkan klasifikasi transaksi keuangan, diperoleh nilai akurasi untuk model logistic regression adalah 0,62,
Correct model K-NN adalah 0,91, dan model random forest adalah 0,98, maka berarti:
Mark 5.00 out of
5.00 Select one:
a. random forest memprediksi transaksi wajar paling banyak dibandingkan model K-NN dan logistic regression, yaitu
sebesar 98%
The correct answer is: random forest lebih akurat dibanding k-NN dan logistic regression
Question 9 Proses rekursif yang meranking fitur berdasarkan tingkat pentingnya terhadap proses prediksi, salah satunya adalah
Correct
Question 10 Salah sata tahapan big data analytics adalah data mining, yang memperkerjakan machine learning, yaitu melakukan
Correct
d. estimasi atau prediksi, atau mengklasifikasi, atau meng-cluter, atau menentukan asosiasi
The correct answer is: estimasi atau prediksi, atau mengklasifikasi, atau meng-cluter, atau menentukan asosiasi
Question 11 Berikut teknik Kecerdasan Artifisial yang membuat komputer dapat memahamai asosiasi dan relasi antara object dan
Correct kejadian adalah
Mark 5.00 out of
5.00 Select one:
a. Cognitive Science
b. Relative Symbolism
c. Heuristic Processing
d. Pattern Matching
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=5910173&cmid=881829 3/6
4/11/22, 8:00 PM Kuis M6: BigData di PPATK: Attempt review
Question 12 Bagian dari sistem Kecerdasan Artifisial yang mengolah pengetahuan adalah
Correct
b. Validator
c. Machine Learning
d. Data historis
b. jumlah nilai true positive dan true negative dibagi total data
The correct answer is: jumlah nilai true positive dan true negative dibagi total data
Question 14 Pada saat memodelkan mesin learning dalam menganalisa data transaksi keuangan, melakukan perankingan adalah
Correct tahapan pada
Mark 5.00 out of
5.00 Select one:
a. data engineering
b. data exploration
c. prediction modelling
d. data visualization
Question 15 Membuat grafik box plot adalah salah satu tahapan dalam implementasi mesin learning, yaitu tahap
Correct
b. eksplorasi data
c. modelling
d. validasi model
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=5910173&cmid=881829 4/6
4/11/22, 8:00 PM Kuis M6: BigData di PPATK: Attempt review
Question 16 Maksud pernyataan "Pemodelan Machine Learning untuk memprediksi data transaksi keuangan merupakan transaksi
Correct wajar atau mencurigakan", adalah
Mark 5.00 out of
5.00 Select one:
a. memvalidasi data historis agar data baru menjadi data transaksi wajar
b. menentukan statistik data historis, untuk input data baru dalam meprediksinya apakah data tersebut berada pada
nilai transaksi wajar atau transaksi mencurigakan
d. membangun model terbaik, berdasarkan data historis, untuk input data baru dalam meprediksinya apakah data
tersebut suatu transaksi wajar atau transaksi mencurigakan
The correct answer is: membangun model terbaik, berdasarkan data historis, untuk input data baru dalam meprediksinya
apakah data tersebut suatu transaksi wajar atau transaksi mencurigakan
Question 17 Pusat Pelaporan dan Analisis Transaksi Keuangan (PPATK) merupakan lembaga sentral (focal point) yang
Correct mengkoordinasikan pelaksanaan upaya pencegahan dan pemberantasan tindak pidana pencucian uang di Indonesia.
Mark 5.00 out of PPATK dalam tugasnya menerapkan AI (Artificial Intelligence). Pernyataan berikut yang benar mengenai AI adalah
5.00
Select one:
a. cabang ilmu dari machine learning
c. cabang dari ilmu komputer yang menenkankan pada pengembangan mesin cerdas (intelligence), berpikir dan
bekerja seperti manusia
The correct answer is: cabang dari ilmu komputer yang menenkankan pada pengembangan mesin cerdas (intelligence),
berpikir dan bekerja seperti manusia
The correct answer is: Data engineering, data exploration, data mining, data visualization
Question 19 Berikut yang merupakan algoritma yang dapat digunakan untuk model klasifikasi transaksi keuangan adalah
Correct
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=5910173&cmid=881829 5/6
4/11/22, 8:00 PM Kuis M6: BigData di PPATK: Attempt review
d. 4 tipe, yaitu: Supervised Learning, Unsupervised Learning, Reinforcement Learning, dan Deep Learning
The correct answer is: 3 tipe: Supervised Learning, Unsupervised Learning, dan Reinforcement Learning
https://v-class.gunadarma.ac.id/mod/quiz/review.php?attempt=5910173&cmid=881829 6/6