Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 9

INSTRUCTIONS:

1. Read the tasks carefully.


2. Click the links that contain videos to address the tasks.
3. Discuss the tasks and your group responses to the tasks. Write your group initial responses to the tasks in English or Bahasa Indonesia using effective language.
4. Discuss your group responses with other 3 group, at least. Improve your responses based on the intergroup discussions.
5. Submit the responses in a assigned folder at LMS.

https://www.coursera.org/learn/big-data-introduction/home/week/2

TASKS: Characteristics of Big Data


 Describe, explain, elaborate, and discuss on six characteristics that represent the vast dimension on big data

1. Introduction: 6-V
2. Volume: ukuran
3. Variety: tipe
4. Velocity: kecepatan
5. Veracity: ketidakpastian
6. Valence: keterkaitan
7. Value: nilai
1 Introduction: 6-V Pendahuluan: 6-V
Introduction: Getting started, characteristics of big data Pendahuluan: Memulai, karakteristik Big Data
By now you have seen that big data is a blanket term that is used to refer to any collection Sekarang Anda telah melihat bahwa Big Data adalah istilah lain yang digunakan untuk merujuk
of data so large and complex that it exceeds the processing capability of conventional data pada kumpulan data apa pun yang begitu besar dan kompleks sehingga melebihi kemampuan
management systems and techniques. The applications of big data are endless. Every part pemrosesan sistem dan teknik manajemen data konvensional. Aplikasi big data tidak ada
of business and society are changing in front our eyes due to that fact that we now have so habisnya. Setiap bagian dari bisnis dan masyarakat berubah di depan mata kita karena fakta
much more data and the ability for analyzing. But how can we characterize big data? You bahwa kita sekarang memiliki lebih banyak data dan kemampuan untuk menganalisis. Tapi
can say, I know it when i see it. But there are easier ways to do it. Big data is commonly bagaimana kita bisa mengkarakterisasi Big Data? Anda dapat mengatakan, saya tahu itu ketika
characterized using a number of V's. The first three are volume, velocity, and variety. saya melihatnya. Tetapi ada cara yang lebih mudah untuk melakukannya. Big Data biasanya
Volume refers to the vast amounts of data that is generated every second, minutes, hour, dicirikan menggunakan sejumlah V. Tiga yang pertama adalah volume, kecepatan, dan variasi.
and day in our digitized world. Variety refers to the ever increasing different forms that data Volume mengacu pada sejumlah besar data yang dihasilkan setiap detik, menit, jam, dan hari di
can come in such as text, images, voice, and geospatial data. Velocity refers to the speed at dunia digital kita.
which data is being generated and the pace at which data moves from one point to the Variety mengacu pada berbagai bentuk data yang semakin meningkat seperti teks, gambar, suara,
next. Volume, variety, and velocity are the three main dimensions that characterize big dan data geospasial.
data. And describe its challenges. We have huge amounts of data in different formats, and Velocity mengacu pada kecepatan di mana data yang dihasilkan dan kecepatan di mana data
bergerak dari satu titik ke titik berikutnya.
varying quality which must be processed quickly. More Vs have been introduced to the big
Volume, variasi, dan kecepatan adalah tiga dimensi utama yang menjadi ciri Big Data. Dan
data community as we discover new challenges and ways to define big data. Veracity and
jelaskan tantangannya. Kami memiliki sejumlah besar data dalam format yang berbeda, dan
valence are two of these additional V's we will pay special attention to as a part of this
specialization. Veracity refers to the biases, noise, and abnormality in data. Or, better yet, It kualitas yang bervariasi yang harus diproses dengan cepat. Lebih banyak V telah diperkenalkan ke
refers to the often unmeasurable uncertainties and truthfulness and trustworthiness of komunitas big data saat kami menemukan tantangan dan cara baru untuk mendefinisikan big
data. Valence refers to the connectedness of big data in the form of graphs, just like atoms. data. Kebenaran dan valensi adalah dua dari V tambahan ini yang akan kami beri perhatian
Moreover, we must be sure to never forget our sixth V, value. How do big data benefit you khusus sebagai bagian dari spesialisasi ini.
and your organization? Without a clear strategy and an objective with the value they are Veracity mengacu pada bias, noise, dan abnormalitas dalam data. Atau, lebih baik lagi, Ini
getting from big data. It is easy to imagine that organizations will be side-tracked by all mengacu pada ketidakpastian dan kebenaran serta kepercayaan data yang seringkali tidak
these challenges of big data, and not be able to turn them into opportunities. Now let's terukur.
start looking into the first five of these V's in detail. Valensi mengacu pada keterhubungan Big Data dalam bentuk grafik, seperti atom. Selain itu, kita
harus yakin untuk tidak pernah melupakan nilai V keenam kita.
Value = Bagaimana big data bermanfaat bagi Anda dan organisasi Anda? Tanpa strategi dan
tujuan yang jelas dengan nilai yang mereka peroleh dari big data. Sangat mudah untuk
membayangkan bahwa organisasi akan dikesampingkan oleh semua tantangan Big Data ini, dan
tidak dapat mengubahnya menjadi peluang. Sekarang mari kita mulai melihat kelima V ini secara
mendetail.
2 Volume: ukuran Volume: ukuran
Characteristics of Big Data- Volume Karakteristik Big Data- Volume
Volume is the big data dimension that relates to the sheer size of big data. This volume can Volume adalah dimensi Big Data yang berhubungan dengan ukuran Big Data. Volume ini dapat
come from large datasets being shared or many small data pieces and events being berasal dari kumpulan Big Data yang dibagikan atau banyak potongan data kecil dan peristiwa
collected over time. yang dikumpulkan dari waktu ke waktu.
Every minute 204 million emails are sent, 200,000 photos are uploaded, and 1.8 million Setiap menit 204 juta email dikirim, 200.000 foto diunggah, dan 1,8 juta suka dihasilkan di
likes are generated on Facebook. On YouTube, 1.3 million videos are viewed and 72 hours Facebook. Di YouTube, 1,3 juta video dilihat dan 72 jam video diunggah. Tapi berapa banyak data
of video are uploaded. But how much data are we talking about? The size and the scale of yang kita bicarakan? Ukuran dan skala penyimpanan untuk Big Data bisa sangat besar. Anda
storage for big data can be massive. You heard me say words that start with peta, exa and mendengar saya mengucapkan kata-kata yang dimulai dengan peta, exa dan yotta, untuk
yotta, to define size, but what does all that really mean? For comparison, 100 megabytes menentukan ukuran, tetapi apa arti sebenarnya dari semua itu? Sebagai perbandingan, 100
will hold a couple of encyclopedias. A DVD is around 5 GBs, and 1 TB would hold around 300 megabyte akan menampung beberapa ensiklopedia. DVD berukuran sekitar 5 GB, dan 1 TB akan
hours of good quality video. A data-oriented business currently collects data in the order of menampung sekitar 300 jam video berkualitas baik. Bisnis berorientasi data saat ini
terabytes, but petabytes are becoming more common to our daily lives. CERN's large mengumpulkan data dalam urutan terabyte, tetapi petabyte menjadi lebih umum dalam
hadron collider generates 15 petabytes a year. According to predictions by an IDC report kehidupan kita sehari-hari. Collider hadron besar CERN menghasilkan 15 petabyte per tahun.
sponsored by a big data company called EMC, digital data, will grow by a factor of 44 until Menurut prediksi laporan IDC yang disponsori oleh perusahaan Big Data bernama EMC, data
digital, akan tumbuh dengan faktor 44 hingga tahun 2020. Ini adalah pertumbuhan dari 0,8
the year 2020. This is a growth from 0.8 zetabytes, In 2009 to 35.2 zettabytes in 2020. A
zetabyte, Pada 2009 menjadi 35,2 zettabyte pada 2020. Satu zettabyte adalah 1 triliun gigabyte,
zettabyte is 1 trillion gigabytes, that's 10 to the power of 21. The effects of it will be huge!
itu 10 pangkat 21. Efeknya akan sangat besar! Pikirkan semua waktu, biaya, energi yang akan
Think of all the time, cost, energy that will be used to store and make sense of such an
digunakan untuk menyimpan dan memahami data sebanyak itu.
amount of data.
Era berikutnya adalah yottabytes. Sepuluh pangkat 24 dan brontobytes, sepuluh pangkat 27. Yang
The next era will be yottabytes. Ten to the power of 24 and brontobytes, ten to the power of
sangat sulit dibayangkan bagi kebanyakan dari kita saat ini. Ini juga yang kita sebut data pada
27. Which is really hard to imagine for most of us at this time. This is also what we call data skala astronomi. Pilihan menempatkan Galaksi Bima Sakti di tengah lingkaran bukan hanya untuk
at an astronomical scale. The choice of putting the Milky Way Galaxy in the middle of the estetika. Inilah yang akan kita lihat jika kita memperbesar 10 hingga 21 kali ke alam semesta.
circle is not just for aesthetics. This is what we would see if we were to scale up 10 to the 21 Keren, bukan? Silakan lihat bacaan dalam modul ini yang disebut, apa arti skala astronomi, untuk
times into the universe. Cool, isn't it? Please refer to the reading in this module called, what video yang bagus tentang pangkat sepuluh. Semua ini menunjukkan pertumbuhan eksponensial
does astronomical scale mean, for a nice video on the powers of ten. All of these point to an dalam volume dan penyimpanan data. Apa relevansi data sebanyak ini di dunia kita? Ingat
exponential growth in data volume and storage. What is the relevance of this much data in pesawat yang mengumpulkan Big Data? Harapan kami, sebagai penumpang, adalah data berarti
our world? Remember the planes collecting big data? Our hope, as passengers, is data keselamatan penerbangan yang lebih baik.
means better flight safety.
Idenya adalah untuk memahami bahwa bisnis dan organisasi mengumpulkan dan memanfaatkan
The idea is to understand that businesses and organizations are collecting and leveraging data dalam jumlah besar untuk meningkatkan produk akhir mereka, baik itu keamanan,
large volumes of data to improve their end products, whether it is safety, reliability, keandalan, perawatan kesehatan, atau tata kelola.
healthcare, or governance. Secara umum, dalam bisnis, tujuannya adalah untuk mengubah data sebanyak ini menjadi
In general, in business the goal is to turn this much data into some form of business beberapa bentuk keuntungan bisnis. Pertanyaannya adalah bagaimana kita memanfaatkan
advantage. The question is how do we utilize larger volumes of data to improve our end volume data yang lebih besar untuk meningkatkan kualitas produk akhir kita? Terlepas dari
product's quality? Despite a number of challenges related to it. sejumlah tantangan yang terkait dengannya.

There are a number of challenges related to the massive volumes of big data. The most Ada sejumlah tantangan terkait dengan volume besar Big Data. Yang paling jelas tentu saja
obvious one is of course storage. As the size of the data increases so does the amount of penyimpanan. Dengan bertambahnya ukuran data, demikian juga jumlah ruang penyimpanan
yang diperlukan untuk menyimpan data tersebut secara efisien. Namun, kami juga harus dapat
storage space required to store that data efficiently. However, we also need to be able to
mengambil data dalam jumlah besar itu dengan cukup cepat, dan memindahkannya ke unit
retrieve that large amount of data fast enough, and move it to processing units in a timely
pemrosesan secara tepat waktu untuk mendapatkan hasil saat kami membutuhkannya.
fashion to get results when we need them.
Ini membawa tantangan tambahan seperti jaringan, bandwidth, biaya penyimpanan data.
This brings additional challenges such as networking, bandwidth, cost of storing data. In-
Penyimpanan internal versus penyimpanan cloud dan hal-hal seperti itu. Tantangan tambahan
house versus cloud storage and things like that. Additional challenges arise during
muncul selama pemrosesan data sebesar itu. Sebagian besar metode analitik yang ada tidak akan
processing of such large data. Most existing analytical methods won't scale to such sums of menskalakan jumlah data seperti itu dalam hal memori, pemrosesan, atau kebutuhan IO. Ini
data in terms of memory, processing, or IO needs. This means their performance will drop. berarti kinerja mereka akan turun. Anda mungkin bisa mendapatkan kinerja yang baik untuk data
You might be able to get good performance for data from hundreds of customers. But how dari ratusan pelanggan. Tetapi bagaimana dengan menskalakan solusi Anda ke 1.000 atau 10.000
about scaling your solution to 1,000 or 10,000 customers? As the volume increases pelanggan? Ketika volume meningkat, kinerja dan biaya mulai menjadi tantangan. Bisnis
performance and cost start becoming a challenge. Businesses need a holistic strategy to memerlukan strategi holistik untuk menangani pemrosesan data skala besar untuk keuntungan
handle processing of large scale data to their benefit in the most cost effective manner. mereka dengan cara yang paling hemat biaya. Mengevaluasi opsi di seluruh dimensi yang
Evaluating the options across the dimensions mentioned here, is the first step when it disebutkan di sini, adalah langkah pertama untuk terus meningkatkan ukuran data. Kami akan
comes to continuously increasing data size. We will revisit this topic later on in this course. meninjau kembali topik ini nanti dalam kursus ini.

As a summary volume is the dimension of big data related to its size and its exponential Sebagai ringkasan volume adalah dimensi Big Data yang terkait dengan ukuran dan pertumbuhan
growth. eksponensialnya.
The challenges with working with volumes of big data include cost, scalability, and Tantangan dalam bekerja dengan volume Big Data meliputi biaya, skalabilitas, dan kinerja yang
performance related to their storage, access, and processing. terkait dengan penyimpanan, akses, dan pemrosesannya.
3 Variety: tipe Varietas: tipe
Now we'll talk about a form of scalability called variety. Sekarang kita akan berbicara tentang bentuk skalabilitas yang disebut variasi.
In this case, scale does not refer to the largeness of data. It refers to increased diversity. Dalam hal ini, skala tidak mengacu pada besar kecilnya data. Ini mengacu pada peningkatan
Here is an important mantra you need to think about. When we, as data scientists, think of keragaman. Inilah mantra penting yang perlu Anda pikirkan. Ketika kita, sebagai ilmuwan data,
data variety, we think of the additional complexity that results from more kinds of data that memikirkan variasi data, kita memikirkan kompleksitas tambahan yang dihasilkan dari lebih
we need to store, process, and combine. Now, many years ago when I started studying data banyak jenis data yang perlu kita simpan, proses, dan gabungkan. Sekarang, bertahun-tahun yang
management, we always thought of data as tables. These tables could be in spreadsheets lalu ketika saya mulai mempelajari manajemen data, kami selalu menganggap data sebagai tabel.
or databases or just files, but somehow they will be modeled and manipulated as rows and Tabel ini bisa dalam spreadsheet atau database atau hanya file, tapi entah bagaimana mereka
columns of tables. Now, tables are still really important and dominant, however today a akan dimodelkan dan dimanipulasi sebagai baris dan kolom tabel.
much wider variety of data are collected, stored, and analyzed to solve real world Sekarang, tabel masih sangat penting dan dominan, namun saat ini lebih banyak variasi data yang
problems. Image data, text data, network data, geographic maps, computer generated dikumpulkan, disimpan, dan dianalisis untuk memecahkan masalah dunia nyata.
simulations are only a few of the types of data we encounter every day. The heterogeneity Data gambar, data teks, data jaringan, peta geografis, simulasi yang dihasilkan komputer
of data can be characterized along several dimensions. We mentioned four such axes here. hanyalah beberapa dari jenis data yang kita temui setiap hari. Heterogenitas data dapat dicirikan
Structural variety refers to the difference in the representation of the data. For example, an sepanjang beberapa dimensi.
EKG signal is very different from a newspaper article. A satellite image of wildfires from Kami menyebutkan empat sumbu seperti itu di sini.
NASA is very different from tweets sent out by people who are seeing the fire spread. Media
variety refers to the medium in which the data gets delivered. The audio of a speech versus Keragaman struktural mengacu pada perbedaan dalam representasi data. Misalnya, sinyal EKG
the transcript of the speech may represent the same information in two different media. sangat berbeda dari artikel surat kabar. Citra satelit kebakaran hutan dari NASA sangat berbeda
Data objects like news video may have multiple media. An image sequence, an audio, and dengan tweet yang dikirim oleh orang-orang yang melihat api menyebar.
closed captioned text, all time synchronized to each other. Semantic variety is best
described two examples. We often use different units for quantities we measure. Variasi media mengacu pada media di mana data akan disampaikan. Audio pidato versus
transkrip pidato dapat mewakili informasi yang sama di dua media yang berbeda. Objek data
Sometimes we also use qualitative versus quantitative measures. For example, age can be
seperti video berita mungkin memiliki beberapa media. Urutan gambar, audio, dan teks teks
a number or we represent it by terms like infant, juvenile, or adult. Another kind of
tertutup, sepanjang waktu disinkronkan satu sama lain.
semantic variety comes from different assumptions of conditions on the data. For example,
if we conduct two income surveys on two different groups of people, we may not be able to
Variasi semantik paling baik dijelaskan dua contoh. Kita sering menggunakan satuan yang berbeda
compare or combine them without knowing more about the populations themselves. The
untuk besaran yang kita ukur. Terkadang kami juga menggunakan ukuran kualitatif versus
variation and availability takes many forms. For one, data can be available real time, like
kuantitatif. Misalnya, usia dapat berupa angka atau kita merepresentasikannya dengan istilah
sensor data, or it can be stored, like patient records. Similarly data can be accessible seperti bayi, remaja, atau dewasa. Variasi semantik jenis lain berasal dari asumsi kondisi yang
continuously, for example from a traffic cam. Versus intermittently, for example, only when berbeda pada data. Misalnya, jika kita melakukan dua survei pendapatan pada dua kelompok
the satellite is over the region of interest. This makes a difference between what operations orang yang berbeda, kita mungkin tidak dapat membandingkan atau menggabungkannya tanpa
one can do with data, especially if the volume of the data is large. We'll cover this in more mengetahui lebih banyak tentang populasi itu sendiri.
detail in course two when we explore the different genres of data and how we model them.
We should not think that a single data object, or a collection of similar data objects, will be Variasi dan ketersediaan mengambil banyak bentuk.
all uniform in themselves. Emails, for example, is a hybrid entity. Some of this information Pertama, data dapat tersedia secara real time, seperti data sensor, atau dapat disimpan, seperti
can be a table, like shown here. Now, the body of the email usually has text in it. However, catatan pasien.
some of the text may have ornaments around them. For example, the part highlighted in Demikian pula data dapat diakses terus menerus, misalnya dari kamera lalu lintas.
yellow represents something called a markup on text. We'll get to markups later in the Versus sebentar-sebentar, misalnya, hanya ketika satelit berada di atas wilayah yang diinginkan.
course. Emails contain attachments. These are files, or embedded images, or other Ini membuat perbedaan antara operasi apa yang dapat dilakukan seseorang dengan data,
multimedia objects that the mailer allows. This screenshot from my Outlook shows the terutama jika volume datanya besar.
image of a scanned image of a handwritten note. When you take a collection of all emails Kami akan membahas ini secara lebih rinci dalam kursus dua ketika kami menjelajahi berbagai
from your mailbox, or that from an organization, you will see that senders and receivers genre data dan bagaimana kami memodelkannya.
form a communication network. In 2001, there was a famous scandal around a company Kita tidak boleh berpikir bahwa satu objek data, atau kumpulan objek data serupa, semuanya
called Enron that engaged in fraudulent financial reporting practices. Their email network, seragam.
partly shown here, has been studied by data scientist to find usual and unusual patterns of Email, misalnya, adalah entitas hibrida. Beberapa informasi ini dapat berupa tabel, seperti yang
connections among the people in the organization. An email collection can also have it's ditunjukkan di sini. Sekarang, badan email biasanya memiliki teks di dalamnya. Namun, beberapa
own semantics. For example, an email cannot refer to, that means cannot copy or forward, teks mungkin memiliki ornamen di sekitarnya. Misalnya, bagian yang disorot dengan warna
a previous email. Finally, an email server is a real-time data source. But an email repository kuning mewakili sesuatu yang disebut markup pada teks. Kita akan membahas markup nanti di
is not. Does email, and email collections, demonstrate significant internal variation in kursus. Email berisi lampiran. Ini adalah file, atau gambar yang disematkan, atau objek
structure, media, semantics, and availability? multimedia lainnya yang diizinkan oleh pengirim. Tangkapan layar dari Outlook saya ini
menunjukkan gambar gambar pindaian dari catatan tulisan tangan. Saat Anda mengambil
kumpulan semua email dari kotak surat Anda, atau dari organisasi, Anda akan melihat bahwa
pengirim dan penerima membentuk jaringan komunikasi.
Pada tahun 2001, terjadi skandal terkenal di sekitar perusahaan bernama Enron yang terlibat
dalam praktik pelaporan keuangan yang curang. Jaringan email mereka, sebagian ditampilkan di
sini, telah dipelajari oleh ilmuwan data untuk menemukan pola koneksi yang biasa dan tidak biasa
di antara orang-orang dalam organisasi.
Kumpulan email juga dapat memiliki semantiknya sendiri. Misalnya, email tidak dapat merujuk,
itu berarti tidak dapat menyalin atau meneruskan, email sebelumnya.
Terakhir, server email adalah sumber data waktu nyata. Tapi repositori email tidak. Apakah email,
dan koleksi email, menunjukkan variasi internal yang signifikan dalam struktur, media, semantik,
dan ketersediaan?
4 Velocity: kecepatan Kecepatan: kecepatan
Characteristics of Big Data- Velocity. Karakteristik Big Data- Velocity.
Velocity refers to the increasing speed at which big data is created and the increasing speed Velocity mengacu pada peningkatan kecepatan di mana Big Data dibuat dan peningkatan
at which the data needs to be stored and analyzed. Processing of data in real-time to match kecepatan di mana data perlu disimpan dan dianalisis. Pemrosesan data secara real-time agar
its production rate as it gets generated is a particular goal of big data analytics. For sesuai dengan tingkat produksinya saat dihasilkan adalah tujuan khusus analitik Big Data.
example, this type of capability allows for personalization of advertisement on the web Misalnya, jenis kemampuan ini memungkinkan personalisasi iklan di halaman web yang Anda
pages you visit based on your recent search, viewing, and purchase history. If a business kunjungi berdasarkan penelusuran, tampilan, dan riwayat pembelian terakhir Anda. Jika bisnis
cannot take advantage of the data as it gets generated, or at the speed analysis of it is tidak dapat mengambil keuntungan dari data yang dihasilkan, atau dengan analisis kecepatan
needed, they often miss opportunities. In order to build a case for the importance of this yang diperlukan, mereka sering kehilangan peluang. Untuk membangun sebuah kasus tentang
dimension of big data, let's imagine we are taking a road trip. You're looking for some pentingnya dimensi Big Data ini, mari kita bayangkan kita sedang melakukan perjalanan. Anda
better information to start packing. In this case, the newer the information, the higher its sedang mencari beberapa informasi yang lebih baik untuk mulai berkemas. Dalam hal ini, semakin
relevance in deciding what to pack. Would you use last month's weather information or baru informasi, semakin tinggi relevansinya dalam memutuskan apa yang akan dikemas. Apakah
data from last year at this time? Or, would you use the weather information from this week, Anda akan menggunakan informasi cuaca bulan lalu atau data tahun lalu saat ini? Atau, apakah
yesterday or better, today? It makes sense to obtain the latest information about weather Anda akan menggunakan informasi cuaca dari minggu ini, kemarin atau lebih baik, hari ini? Masuk
and process it in a way that makes your decisions easier. If the information is old, it doesn't akal untuk mendapatkan informasi terbaru tentang cuaca dan memprosesnya dengan cara yang
membuat keputusan Anda lebih mudah. Jika informasinya sudah tua, tidak masalah seberapa
matter how accurate it is. Being able to catch up with the velocity of big data and analyzing
akuratnya itu. Mampu mengejar kecepatan Big Data dan menganalisisnya saat dihasilkan bahkan
it as it gets generated can even impact the quality of human life. Sensors and smart devices
dapat berdampak pada kualitas hidup manusia. Sensor dan perangkat pintar yang memantau
monitoring the human body can detect abnormalities in real time and trigger immediate
tubuh manusia dapat mendeteksi kelainan secara real time dan memicu tindakan segera, yang
action, potentially saving lives. This type of processing is what we call real time processing.
berpotensi menyelamatkan nyawa. Jenis pemrosesan ini adalah apa yang kami sebut pemrosesan
Real-time processing is quite different from its remote relative, batch processing. Batch
waktu nyata. Pemrosesan waktu nyata sangat berbeda dari kerabat jauhnya, pemrosesan batch.
processing was the norm until a couple of years ago. Large amounts of data would be fed
Pemrosesan batch adalah norma sampai beberapa tahun yang lalu. Sejumlah besar data akan
into large machines and processed for days at a time. While this type of processing is still dimasukkan ke dalam mesin besar dan diproses selama berhari-hari. Meskipun jenis pemrosesan
very common today, decisions based on information that is even few days old can be ini masih sangat umum hingga saat ini, keputusan berdasarkan informasi yang bahkan berumur
catastrophic to some businesses. Organizations which make decisions on latest data are beberapa hari dapat menjadi bencana besar bagi beberapa bisnis. Organisasi yang membuat
more likely to hit the target. For this reason it's important to match the speed of processing keputusan tentang data terbaru lebih mungkin mencapai target. Untuk alasan ini, penting untuk
with the speed of information generation, and get real time decision making power. In mencocokkan kecepatan pemrosesan dengan kecepatan pembuatan informasi, dan mendapatkan
addition, today's sensor-powered socioeconomic climate requires faster decisions. Hence, kekuatan pengambilan keputusan waktu nyata. Selain itu, iklim sosial ekonomi yang didukung
we can not wait for all the data to be first produced, then fed into a machine. There are sensor saat ini membutuhkan keputusan yang lebih cepat. Oleh karena itu, kita tidak bisa
many applications where new information is streaming and needs to be integrated with menunggu semua data pertama kali diproduksi, kemudian dimasukkan ke dalam mesin. Ada
existing data to produce decisions such as emergency response planning in a tornado, or banyak aplikasi di mana informasi baru mengalir dan perlu diintegrasikan dengan data yang ada
deciding trading strategies in real time, or getting estimates in advertising. We have to untuk menghasilkan keputusan seperti perencanaan tanggap darurat di tornado, atau
digest chunks of data as they are produced and give meaningful results. As more data memutuskan strategi perdagangan secara real time, atau mendapatkan perkiraan dalam iklan.
comes in, your results will need to adapt to reflect this change in the input. Decisions based Kita harus mencerna potongan data saat diproduksi dan memberikan hasil yang berarti. Semakin
on processing of already acquired data such as batch processing, may give an incomplete banyak data yang masuk, hasil Anda perlu beradaptasi untuk mencerminkan perubahan input ini.
picture. And hence, the applications need real time status of the context at hand. That is, Keputusan berdasarkan pemrosesan data yang sudah diperoleh seperti pemrosesan batch, dapat
streaming analysis. Fortunately, with the event of cheap sensors technology, mobile memberikan gambaran yang tidak lengkap. Dan karenanya, aplikasi membutuhkan status waktu
phones, and social media, we can obtain the latest information at a much rapid rate and in nyata dari konteks yang ada. Yaitu, analisis streaming. Untungnya, dengan adanya teknologi
real time in comparison with the past. So how do you make sure we match the velocity of sensor murah, ponsel, dan media sosial, kita dapat memperoleh informasi terbaru dengan
the expectations to gain insights from big data? With the velocity of the big data. Rate of kecepatan yang jauh lebih cepat dan real time dibandingkan dengan masa lalu. Jadi, bagaimana
generation, retrieval, or processing of data is application specific. The need for real time Anda memastikan kami sesuai dengan kecepatan harapan untuk mendapatkan wawasan dari Big
Data? Dengan kecepatan Big Data. Tingkat generasi, pengambilan, atau pengolahan data adalah
data-driven actions within a business case is what in the end dictates the velocity of
aplikasi khusus. Kebutuhan akan tindakan berbasis data waktu nyata dalam kasus bisnis adalah
analytics over big data. Sometimes precision of a minute is needed. Sometimes half a day.
apa yang pada akhirnya menentukan kecepatan analitik atas Big Data. Terkadang ketepatan satu
Let's look at these four paths and discuss when to pick the right one for your analysis. The
menit dibutuhkan. Kadang setengah hari. Mari kita lihat keempat jalur ini dan diskusikan kapan
dollar signs next to the numbers in this example indicate how costly the operation is. The
harus memilih yang tepat untuk analisis Anda. Tanda dolar di sebelah angka dalam contoh ini
more dollars, the higher the cost. When the timeliness of processed information plays no
menunjukkan betapa mahal biaya operasinya. Semakin banyak dolar, semakin tinggi biayanya.
role in decision making, the speed at which data is generated becomes irrelevant. In other
Ketika ketepatan waktu dari informasi yang diproses tidak berperan dalam pengambilan
words, you can wait for as long as it takes to process data. Days, months, weeks. And once keputusan, kecepatan data yang dihasilkan menjadi tidak relevan. Dengan kata lain, Anda bisa
processing is over, you will look at the results and probably share them with someone. menunggu selama yang dibutuhkan untuk memproses data. Hari, bulan, minggu. Dan setelah
When timeliness is not an issue, you can choose any of the four paths. You will likely pick pemrosesan selesai, Anda akan melihat hasilnya dan mungkin membagikannya dengan seseorang.
the cheapest one. When timeliness of end result is an issue deciding which of the four paths Ketika ketepatan waktu tidak menjadi masalah, Anda dapat memilih salah satu dari empat jalur.
to choose is not so simple. You will have to make a decision based on cost of hardware, Anda mungkin akan memilih yang termurah. Ketika ketepatan waktu hasil akhir adalah masalah
time sensitivity of information, future scenarios. In other words, this becomes a business memutuskan mana dari empat jalan untuk memilih tidak begitu sederhana. Anda harus membuat
driven question. For example, if speed is really important at all costs, you will pick path keputusan berdasarkan biaya perangkat keras, sensitivitas waktu informasi, skenario masa depan.
four. As a summary, we need to pay attention to the velocity of big data. Streaming data Dengan kata lain, ini menjadi pertanyaan yang didorong oleh bisnis. Misalnya, jika kecepatan
gives information on what's going on right now. Streaming data has velocity, meaning it sangat penting, Anda akan memilih jalur empat. Singkatnya, kita perlu memperhatikan kecepatan
gets generated at various rates. And analysis of such data in real time gives agility and Big Data. Data streaming memberikan informasi tentang apa yang terjadi saat ini. Streaming data
adaptability to maximize benefits you want to extract. memiliki kecepatan, artinya dihasilkan pada berbagai tingkat. Dan analisis data tersebut secara
real time memberikan kelincahan dan kemampuan beradaptasi untuk memaksimalkan manfaat
yang ingin Anda ekstrak.
5 Veracity: ketidakpastian Kebenaran: ketidakpastian
Characteristics of Big Data, Veracity. Karakteristik Big Data, Kebenaran.
Veracity of Big Data refers to the quality of the data. It sometimes gets referred to as validity Veracity of Big Data mengacu pada kualitas data. Kadang-kadang disebut sebagai validitas atau
or volatility referring to the lifetime of the data. Veracity is very important for making big volatilitas yang mengacu pada masa pakai data. Kejujuran sangat penting untuk membuat Big
data operational. Because big data can be noisy and uncertain. It can be full of biases, Data operasional. Karena Big Data bisa berisik dan tidak pasti. Itu bisa penuh dengan bias,
abnormalities and it can be imprecise. Data is of no value if it's not accurate, the results of kelainan, dan bisa juga tidak tepat. Data tidak ada nilainya jika tidak akurat, hasil analisis big data
big data analysis are only as good as the data being analyzed. This is often described in hanya sebaik data yang dianalisis. Ini sering digambarkan dalam analitik sebagai sampah masuk
analytics as junk in equals junk out. So we can say although big data provides many sama dengan sampah keluar. Jadi kita dapat mengatakan meskipun Big Data memberikan banyak
opportunities to make data enabled decisions, the evidence provided by data is only peluang untuk membuat keputusan yang memungkinkan data, bukti yang diberikan oleh data
valuable if the data is of a satisfactory quality. There are many different ways to define data hanya berharga jika data memiliki kualitas yang memuaskan. Ada banyak cara berbeda untuk
quality. In the context of big data, quality can be defined as a function of a couple of mendefinisikan kualitas data. Dalam konteks Big Data, kualitas dapat didefinisikan sebagai fungsi
different variables. Accuracy of the data, the trustworthiness or reliability of the data dari beberapa variabel yang berbeda. Akurasi data, keterpercayaan atau keandalan sumber data.
source. And how the data was generated are all important factors that affect the quality of Dan bagaimana data dihasilkan merupakan faktor penting yang mempengaruhi kualitas data.
data. Additionally how meaningful the data is with respect to the program that analyzes it, Selain itu, seberapa berartinya data sehubungan dengan program yang menganalisisnya,
is an important factor, and makes context a part of the quality. In this chart from 2015, we merupakan faktor penting, dan menjadikan konteks sebagai bagian dari kualitas. Dalam bagan ini
see the volumes of data increasing, starting with small amounts of enterprise data to dari tahun 2015, kami melihat volume data meningkat, dimulai dengan sejumlah kecil data
larger, people generated voice over IP and social media data and even larger machine perusahaan hingga yang lebih besar, orang-orang menghasilkan data voice over IP dan media
generated sensor data. We also see that the uncertainty of the data increases as we go from sosial dan bahkan data sensor yang dihasilkan mesin yang lebih besar. Kami juga melihat bahwa
enterprise data to sensor data. This is as we would expect it to be. Traditional enterprise ketidakpastian data meningkat saat kami beralih dari data perusahaan ke data sensor. Ini seperti
data in warehouses have standardized quality solutions like master processes for extract, yang kita harapkan. Data perusahaan tradisional di gudang memiliki solusi kualitas standar seperti
transform and load of the data which we referred to as before as ETL. As enterprises started proses master untuk mengekstrak, mengubah, dan memuat data yang sebelumnya kami sebut
sebagai ETL. Ketika perusahaan mulai memasukkan orang dan data mesin yang kurang terstruktur
incorporating less structured and unstructured people and machine data into their big data
dan tidak terstruktur ke dalam solusi big data mereka, data menjadi lebih berantakan dan lebih
solutions, the data become messier and more uncertain. There are many reasons for this.
tidak pasti. Ada banyak alasan untuk ini. Pertama, data tidak terstruktur di internet tidak tepat
First, unstructured data on the internet is imprecise and uncertain. In addition, high
dan tidak pasti. Selain itu, Big Data berkecepatan tinggi hanya menyisakan sedikit atau tidak ada
velocity big data leaves very little or no time for ETL, and in turn hindering the quality
waktu untuk ETL, dan pada gilirannya menghambat proses penjaminan kualitas data. Yuk simak
assurance processes of the data. Let's look at these product reviews for a banana slicer on
ulasan produk alat pengiris pisang ini di amazon.com. Salah satu dari lima ulasan bintang
amazon.com. One of the five star reviews say that it saved her marriage and compared it to
mengatakan bahwa itu menyelamatkan pernikahannya dan membandingkannya dengan
the greatest inventions in history. Another five star reviewer said that his parole officer penemuan terbesar dalam sejarah. Pengulas bintang lima lainnya mengatakan bahwa petugas
recommended the slicer as he is not allowed to be around knives. These are obviously fake pembebasan bersyaratnya merekomendasikan alat pengiris karena dia tidak diperbolehkan
reviewers. Now think of an automated product assessment going through such splendid berada di sekitar pisau. Ini jelas pengulas palsu. Sekarang pikirkan penilaian produk otomatis
reviews and estimating lots of sales for the banana slicer and in turn suggesting stocking melalui ulasan yang sangat bagus dan memperkirakan banyak penjualan untuk alat pengiris
more of the slicer in the inventory. Amazon will have problems. For a more serious case pisang dan pada gilirannya menyarankan untuk menyimpan lebih banyak alat pengiris dalam
let's look at the Google flu trends case from 2013. For January 2013, the Google Friends inventaris. Amazon akan memiliki masalah. Untuk kasus yang lebih serius mari kita lihat kasus
actually estimated almost twice as many flu cases as was reported by CDC, the Centers for tren flu Google dari tahun 2013. Untuk Januari 2013, Google Friends sebenarnya memperkirakan
Disease Control and Prevention. The primary reason behind this was that Google Flu hampir dua kali lebih banyak kasus flu seperti yang dilaporkan oleh CDC, Pusat Pengendalian dan
Trends used a big data on the internet and did not account properly for uncertainties about Pencegahan Penyakit. Alasan utama di balik ini adalah bahwa Google Pantau Flu Dunia
the data. Maybe the news and social media attention paid to the particularly serious level menggunakan Big Data di internet dan tidak memperhitungkan ketidakpastian data dengan
of flu that year effected the estimate. And resulted in what we call an over estimation. This benar. Mungkin berita dan perhatian media sosial yang diberikan pada tingkat flu yang sangat
is a perfect example for how inaccurate the results can be if only big data is used in the serius tahun itu mempengaruhi perkiraan tersebut. Dan menghasilkan apa yang kita sebut
analysis. Imagine the economic impact of making health care preparations for twice the perkiraan berlebihan. Ini adalah contoh sempurna tentang betapa tidak akuratnya hasil jika hanya
amount of flu cases. That would be huge. The Google flu trends example also brings up the Big Data yang digunakan dalam analisis. Bayangkan dampak ekonomi dari membuat persiapan
need for being able to identify where exactly the big data they used comes from. What perawatan kesehatan dua kali lipat jumlah kasus flu. Itu akan sangat besar. Contoh tren flu
transformation did big data go through up until the moment it was used for an estimate? Google juga memunculkan kebutuhan untuk dapat mengidentifikasi dari mana tepatnya Big Data
This is what we refer to as data providence. Just like we refer to an artifacts provenance. As yang mereka gunakan berasal. Transformasi apa yang dialami big data hingga saat digunakan
a summary, the growing torrents of big data pushes for fast solutions to utilize it in untuk perkiraan? Inilah yang kami sebut sebagai penyedia data. Sama seperti kita mengacu pada
analytical solutions. This creates challenges on keeping track of data quality. What has asal artefak. Singkatnya, aliran Big Data yang terus meningkat mendorong solusi cepat untuk
been collected, where it came from, and how it was analyzed prior to its use. This is akin to menggunakannya dalam solusi analitis. Ini menciptakan tantangan dalam melacak kualitas data.
an art artifact having providence of everything it has gone through. But even more Apa yang telah dikumpulkan, dari mana asalnya, dan bagaimana ia dianalisis sebelum digunakan.
complicated to achieve with large volumes of data coming in varieties and velocities. Ini mirip dengan artefak seni yang memiliki pemeliharaan atas semua yang telah dilaluinya. Tetapi
bahkan lebih rumit untuk dicapai dengan volume besar data yang datang dalam varietas dan
kecepatan.
6 Valence: keterkaitan Valensi: keterkaitan
In this video, we'll talk about a new that is usually not covered much. It's called Dalam video ini, kita akan berbicara tentang hal baru yang biasanya tidak banyak dibahas. Itu
valence. disebut valensi.
Simply put Valence refers to Connectedness. The more connected data is, the higher it's Sederhananya Valence mengacu pada Keterhubungan. Semakin banyak data yang terhubung,
valences. The term valence comes from chemistry. In chemistry, we talk about core semakin tinggi valensinya. Istilah valensi berasal dari kimia. Dalam kimia, kita berbicara tentang
electrons and valence electrons of an atom. Valence electrons are in the outer most shell, elektron inti dan elektron valensi atom. Elektron valensi berada di kulit terluar, memiliki tingkat
have the highest energy level and are responsible for bonding with other atoms. That energi tertinggi dan bertanggung jawab untuk berikatan dengan atom lain. Hasil valensi yang
higher valence results in greater boding, that is greater connectedness. This idea is carried lebih tinggi dalam balutan yang lebih besar, yaitu keterhubungan yang lebih besar. Ide ini terbawa
over into our definition of the term valence in the context of big data. Data items are often ke dalam definisi kami tentang istilah valensi dalam konteks Big Data. Item data sering langsung
directly connected to one another. A city is connected to the country it belongs to. Two terhubung satu sama lain. Sebuah kota terhubung dengan negara yang dimilikinya. Dua pengguna
Facebook users are connected because they are friends. An employee is connected to his Facebook terhubung karena mereka berteman. Seorang karyawan terhubung ke tempat kerjanya.
work place. Data could also be indirectly connected. Two scientists are connected, because Data juga bisa terhubung secara tidak langsung. Dua ilmuwan terhubung, karena keduanya adalah
they are both physicists. For a data collection valence measures the ratio of actually fisikawan. Untuk valensi pengumpulan data mengukur rasio item data yang benar-benar
connected data items to the possible number of connections that could occur within the terhubung dengan kemungkinan jumlah koneksi yang dapat terjadi dalam koleksi. Aspek yang
collection. The most important aspect of valence is that the data connectivity increases paling penting dari valensi adalah bahwa konektivitas data meningkat dari waktu ke waktu.
Rangkaian grafik jaringan berasal dari eksperimen sosial di mana para ilmuwan yang menghadiri
over time. The series of network graphs comes from a social experiment where scientists
konferensi diminta untuk bertemu dengan ilmuwan lain yang tidak mereka kenal sebelumnya.
attending a conference were asked to meet other scientists they did not know before. After
Setelah beberapa putaran pertemuan, mereka menemukan koneksi baru yang ditunjukkan oleh
several rounds of meetings, they found new connections shown by their red edges.
tepi merah mereka. Peningkatan valensi dapat menyebabkan munculnya perilaku kelompok
Increase in valence can lead to emergent group behavior in people networks, like creation
dalam jaringan orang, seperti pembentukan kelompok dan koalisi baru yang memiliki nilai dan
of new groups and coalitions that have shared values and goals. A high valence data set is
tujuan bersama. Kumpulan data valensi tinggi lebih padat. Hal ini membuat banyak kritik analitik
denser. This makes many regular, analytic critiques very inefficient. More complex
reguler menjadi sangat tidak efisien. Metode analisis yang lebih kompleks harus diadopsi untuk
analytical methods must be adopted to account for the increasing density. More interesting memperhitungkan peningkatan densitas. Tantangan yang lebih menarik muncul karena perilaku
challenges arise due to the dynamic behavior of the data. Now there is a need to model and dinamis data. Sekarang ada kebutuhan untuk memodelkan dan memprediksi bagaimana valensi
predict how valence of a connected data set may change with time and volume. The dari kumpulan data yang terhubung dapat berubah dengan waktu dan volume. Perilaku dinamis
dynamic behavior also leads to the problem of event detection, such as bursts in the local juga mengarah pada masalah deteksi peristiwa, seperti ledakan dalam kohesi lokal di bagian data.
cohesion in parts of the data. And emergent behavior in the whole data set, such as Dan perilaku yang muncul di seluruh kumpulan data, seperti peningkatan polarisasi dalam suatu
increased polarization in a community. komunitas.

7 Value: nilai Nilai: nilai


The Sixth V, Value. V Keenam, Nilai.
In this module, we described the five ways which are considered to be dimensions of big Dalam modul ini, kami menjelaskan lima cara yang dianggap sebagai dimensi Big Data. Setiap cara
data. Each way presented a challenging dimension of big data namely, size, complexity, menghadirkan dimensi big data yang menantang yaitu, ukuran, kompleksitas, kecepatan, kualitas,
speed, quality, and connectedness. Although we can list some other rays base on the dan keterhubungan. Meskipun kami dapat membuat daftar beberapa sinar lain berdasarkan
context, we prefer to list these five s fundamental dimensions that this big data konteksnya, kami lebih memilih untuk membuat daftar lima dimensi dasar yang membantu Anda
specialization helps you work on. However, at the heart of the big data challenge is turning mengerjakan spesialisasi Big Data ini. Namun, inti dari tantangan big data adalah mengubah
all of the other dimensions into truly useful business value. The idea behind processing all semua dimensi lain menjadi nilai bisnis yang benar-benar bermanfaat. Ide di balik pemrosesan
this big data in the first place is to bring value to the problem at hand. In week two we will semua Big Data ini pada awalnya adalah untuk memberi nilai pada masalah yang dihadapi. Di
explore how to take the first steps into starting to generate value out of big data. Now that minggu kedua, kita akan mengeksplorasi bagaimana mengambil langkah pertama untuk mulai
we saw all the ways, let's focus on an example of a big data challenge. Let's imagine now menghasilkan nilai dari Big Data. Sekarang setelah kita melihat semua caranya, mari kita fokus
that you're part of a company called Eglence Inc. One of the products of Eglence Inc is a pada contoh tantangan Big Data. Bayangkan sekarang Anda adalah bagian dari perusahaan
highly popular mobile game called Catch the Pink Flamingo. It's a multi-user game where bernama Eglence Inc. Salah satu produk dari Eglence Inc adalah game seluler yang sangat populer
the users have to catch special types of pink flamingos that randomly pop up on the world bernama Catch the Pink Flamingo. Ini adalah permainan multi-pengguna di mana pengguna harus
map on their screens based on the mission that gets updated randomly. The game is menangkap jenis flamingo merah muda khusus yang muncul secara acak di peta dunia di layar
played by millions of people online throughout the world. One of the goals of the game is to mereka berdasarkan misi yang diperbarui secara acak. Permainan ini dimainkan oleh jutaan orang
form a network of players to collectively cover the world map with pink flamingo sightings secara online di seluruh dunia. Salah satu tujuan dari permainan ini adalah untuk membentuk
and compete other groups. Users can pick their groups based on player stats. The game's jaringan pemain untuk secara kolektif menutupi peta dunia dengan penampakan flamingo merah
website sends free cool stuff to registered users. Registration requires users to enter muda dan bersaing dengan kelompok lain. Pengguna dapat memilih grup mereka berdasarkan
demographic information such gender, year of birth, city, highest education, and things like statistik pemain. Situs web game mengirimkan hal-hal keren gratis ke pengguna terdaftar.
that. However, most of the users enter inaccurate information about themselves, just like Pendaftaran mengharuskan pengguna untuk memasukkan informasi demografis seperti jenis
most of us do. To help improve the game, the game collects real time usage activity data kelamin, tahun lahir, kota, pendidikan tertinggi, dan hal-hal seperti itu. Namun, sebagian besar
pengguna memasukkan informasi yang tidak akurat tentang diri mereka sendiri, seperti
from each player and feeds them to it's data servers. The players of this game are
kebanyakan dari kita. Untuk membantu meningkatkan game, game mengumpulkan data aktivitas
enthusiastically active on social media, and have strong associations with the game. A
penggunaan waktu nyata dari setiap pemain dan memasukkannya ke server datanya. Para
popular Twitter hashtag for this game is, CatchThePinkFlamingo, which gets more than
pemain game ini sangat antusias aktif di media sosial, dan memiliki asosiasi yang kuat dengan
200,000 mentions worldwide per day. There are strong communities of users who meet via
game tersebut. Tagar Twitter populer untuk game ini adalah, CatchThePinkFlamingo, yang
social media and get together to play the game. Now, imagine yourself as the big data
mendapat lebih dari 200.000 sebutan di seluruh dunia per hari. Ada komunitas pengguna yang
solutions architect for Fun Games Inc. There are definitely examples of all three types of
kuat yang bertemu melalui media sosial dan berkumpul untuk bermain game. Sekarang,
data sources in this example. The mobile app generates data for the analysis of user bayangkan diri Anda sebagai arsitek solusi Big Data untuk Fun Games Inc. Pasti ada contoh dari
activity. Twitter conversations of players form a rich source of unstructured data from ketiga jenis sumber data dalam contoh ini. Aplikasi seluler menghasilkan data untuk analisis
people. And the customer and game records are examples of data that this organization aktivitas pengguna. Percakapan pemain di Twitter membentuk sumber yang kaya akan data tidak
collects. This is a challenging big data example where all characteristics of big data are terstruktur dari orang-orang. Dan catatan pelanggan dan permainan adalah contoh data yang
represented. There are high volumes of player, game and Twitter data, which also speaks dikumpulkan oleh organisasi ini. Ini adalah contoh Big Data yang menantang di mana semua
to the variety of data. The data streams from the mobile app, website, and social media in karakteristik Big Data diwakili. Ada volume data pemain, game, dan Twitter yang tinggi, yang juga
real-time, which can be defined as high velocity data. The quality of demographic data menunjukkan keragaman data. Aliran data dari aplikasi seluler, situs web, dan media sosial secara
users enter is not clear, and there are networks of players which are related to the balance real-time, yang dapat didefinisikan sebagai data berkecepatan tinggi. Kualitas data demografis
of big data. yang dimasukkan pengguna tidak jelas, dan ada jaringan pemain yang terkait dengan
keseimbangan big data.

You might also like