Download as pdf or txt
Download as pdf or txt
You are on page 1of 54

Presentation

A Look Into Data Engineering


1
Capítulos
PRESENTATION

A LOOK INTO DATA ENGINEERING

Lesson Transcript 03
Transcript + Translation 11
Vocabulary 30
Grammar 39
Mistakes 51

Inglês para Devs


Lesson Transcript A Look Into Data Engineering

Today we are going to talk about Data Engineering. Data Engineering is one of the
most in-demand job titles, and Data Engineering skills are one of the most in-
demand skills at the moment. The demand for Data Engineering skills is surpassing
the demand for Data Science skills. So, what is Data Engineering?

Data Engineering is a very broad discipline. The ultimate goal of Data Engineering is
to provide a consistent data flow to enable data-driven applications. To better
understand what Data Engineering is all about in practice, let’s talk about some
common tasks that Data Engineers do.

Number one: data scouting. Scouting means “searching for”. There is a significant
number of data vendors or data providers out there. They provide various kinds of
data: financial data; supermarket footfall data, so, how many people enter a store at
any given time; weather data, and many other kinds of data. The examples are endless.

But various data vendors might have a varying data availability or data frequency,
for example, in terms of geographic breakdown, geographic coverage, or in terms
of...you know, how often the data is collected. So, some vendors might offer daily
data, and some other vendors might offer weekly data. Some vendors might offer data
from the US, some vendors might offer data from, let’s say, Europe, or some other
places.

Various data vendors might also have completely different pricing strategies.

3
Lesson Transcript A Look Into Data Engineering

So, the task of a Data Scout, or a Data Engineer wearing a Data Scout’s hat, is
to understand what kind of data is the best solution, or the best value-for-money.
You know, for example, what kind of data will allow the company that the Data
Engineer is working for to generate the best investment insights, for example. So,
all in all, a Data Engineer will choose the best data vendor based on the most suitable
offering.

Task number two is creating data pipelines. Once it is agreed what kind of data the
company needs to onboard, the Data Engineer’s task is to actually onboard it and
to facilitate that data flow. So, let’s say we’re dealing with daily stock market data. A
Data Engineer’s role is to ensure that the data is coming in daily and gets saved in the
databases, so that Data Scientists or Data Analysts can use it on everyday basis.
That data flow is referred to as a “data pipeline”.

So, a data pipeline is basically a program or a script that downloads the data, then
transforms it in any necessary way, and then saves it, loads it to a database. Another
name for the process is “ETL process”, which stands for “extract, transform and load”.

Extraction stage means downloading the data. The data might be provided in
various ways, for example, it might be exposed as an API, or it can be provided on
the FTP server - FTP standing for “file transfer protocol”. The data can also be web
scraped, which means that the Data Engineer will download the data that is exposed on
a website, for example, downloading the pricing of cinema tickets on a cinema booking
website. The data might also come in various formats, for example, it might come as
CSV files, JSON objects, XML files, and so on, and so on.
4
Lesson Transcript A Look Into Data Engineering

Transform stage is the next stage in the ETL process. In this stage the data is
transformed. So, for example, the data might be downloaded in a compressed format,
but it obviously needs to be decompressed. So, that’s what a Data Engineer would
do at this stage. It might be worth mentioning that there are various compression
formats: ZIP, TAR, and more, so again, a Data Engineer needs to be comfortable with
multiple options here.

The data also needs to be validated. So, it needs to be checked for any duplicates,
or any missing values. So, at this stage, a Data Engineer will also write a couple of
functions that validate if the data is of high quality. You know, because it might be the
case that one table is split across many different files, or it might be the case that
the same table is contained in multiple files, so we have duplicates, and there might
be some other edge cases that we want to prevent from happening or from
landing in our databases. So, a Data Engineer will have to detect them.

Lastly, the Load stage is all about saving the data in databases. There are multiple
databases out there, or multiple file storage systems. The data might be stored “on
premise”, which means it is stored on the servers owned by the company; it can also
be stored in a special file storage system called “Hadoop”, which allows for distributed
processing of large data sets across clusters of computers. This is particularly useful
when we’re dealing with large amounts of data. Alternatively, the data can also be stored
in the cloud. So, for example, in S3 buckets using Amazon’s AWS, or some other cloud
provider like Google or Azure; and there are obviously pros and cons of this approach.

5
Lesson Transcript A Look Into Data Engineering

The definite advantage of storing data in the cloud is obviously the scalability of
that. So, whenever you need to add a little bit of more data, the storage is easily
available. This is not the case with the “on prem” or “on premise” storage, because
that requires a large upfront investment in the servers. However, depending on the
amount of data and the frequency with which you are querying the data, it might
work out to be cheaper to store the data “on premise”.

Data pipelines are written in programming languages such as Python or Java. Python
is currently the most popular language for this task. This is because it is easy to use,
easy to learn, and there is a number of available libraries that are very well
suited for Machine Learning and Data Engineering applications. The whole data flow
or the whole pipeline needs to be scheduled to run on a given basis, for example,
daily; and there are multiple tools which allow for scheduling of data pipelines,
for example, Jenkins or Airflow.

Once the data pipeline is scheduled and the data comes in daily, a Data Engineer’s
role is to monitor the data pipelines for any failures. On any given day, a data
vendor might send a file with missing values, or with duplicates, or with any other
nasty things that we don’t want in our data. But also, it doesn’t necessarily have to
be data vendor’s fault if a data pipeline is failing, it might simply be due to the fact
that, for example, we are running out of storage on one of our servers, in which case
we also have to intervene.

6
Lesson Transcript A Look Into Data Engineering

In addition to monitoring data pipelines, a Data Engineer also has to support business
users on everyday basis. This help might take two forms: ad hoc help, which means
assisting people when and if they say they need help; and project-based work.

When it comes to the “ad hoc” help, Data Engineers might, for example, need to
support a business user when they don’t know how to connect to the database.
For example, they are new to the company and they just don’t know how to log in to
the server, how to install the necessary drivers, or they face any other issue that is data
related. Then, your job as a Data Engineer is to assist them.

Project-based work takes a slightly different shape. For example, imagine that there is
a Data Analyst querying five different tables, joining them in SQL on everyday basis.
Well, that’s annoying.

So, what you might be working on as a Data Engineer is creating a view on those
tables, so that it is way easier for the Data Analyst to query the data, a view which
joins those five tables under the hood, but only presents an abstraction layer for
the business user, so that they don’t have to worry about the details of how those
tables are joined together. So, basically, you might be just making other people’s
lives easier by helping them to deal with the data in this way.

Now let’s see how this might look like in practice. So, let’s pretend that I’m a Data
Engineer and my boss is calling me to discuss the new Data Engineering project:

7
Lesson Transcript A Look Into Data Engineering

• Boss: Hi, Karolina. We’ve just received a request from the Data Science team.
They need us to onboard the MSCI index data for their new project. You’ll be
working on building a data feed for that data. Does that sound good?

• Karolina: Sure, sounds good. Where would they like us to store the data?

• Boss: They don’t mind, so we might either store it “on prem”, on HDFS, in our
Hadoop ecosystem, or we might store it in the cloud, in AWS. What do you think?

• Karolina: How much data is it? And what’s the frequency?

• Boss: It’s going to be a daily feed. Each day takes up roughly five gigs.

• Karolina: Are we going to have to backfill the history?

• Boss: No. Fortunately, no backfilling will be necessary now, just for an MVP. They
might need it later, but I’ll put it in the backlog. For now, we just want to onboard
the data and just start from... from today’s date.

• Karolina: Cool. Sounds good. But that’s still plenty of data going forward, so I
suggest we store it on HDFS, that is, on premise, because otherwise we’re going
to end up paying a lot for the cloud.

8
Lesson Transcript A Look Into Data Engineering

• Boss: Perfect! That’s exactly what I was thinking myself. Can you give me an idea
of how long this is going to take you, and what technologies are you going
to use? Just so that I can have an idea of what you’re working on.

• Karolina: Well, I’ll need to have a look at the data first, to assess the quality and
see whether this is going to be a difficult project or not, but judging by
previous projects with financial data and no backfilling, I think that this is going
to take roughly two weeks. I’m probably just going to write some Python ETL
scripts, and then, create some Hive tables for our HDFS storage, and then, I’ll just
schedule the data pipeline in Jenkins, and… yeah… we should be good.

• Boss: Yeah. Sounds like you know what you’re talking about. I’ll leave you to it,
bye.

• Like I mentioned in the beginning, Data Engineering is one of the most sought-
after careers in the IT industry. So, how do you become a Data Engineer? The
most necessary skill is knowledge of a data programming language, for example,
Python or Java. The second most important skill is the knowledge of databases
and database language: SQL. Lastly, a Data Engineer should be familiar with some
Computer Science concepts, such as networking or some basic algorithms.

In terms of learning how to develop data pipelines in the cloud, various companies
might use various providers. So, it doesn’t necessarily have to be AWS. Other
companies might use Google Cloud, and other companies might use Microsoft Azure.

9
Lesson Transcript A Look Into Data Engineering

So, I wouldn’t worry about committing yourself to one cloud provider, it’s just
more about understanding the concept and the general idea of being able to store
the data in the cloud. However, it might be quite useful to learn at least one data
provider of your choice, so that... you know, you can have those transferable skills
that you can then apply to another data provider, if need be.

How can you find a Junior Data Engineering role? Well, there are a few routes. The
first route is, you might simply apply for Data Engineering… Junior Data Engineering
positions at various companies, if you learn the necessary skills to apply.

Two: you might apply for graduate schemes for university graduates. Such schemes
are run by a majority of large corporations, such as investment banks or telecom
companies. The advantage of this route is that fresh graduates don’t have to have
great technical skills, you’re hired for your potential.

And three: you might apply for data consultancies. Such companies train you up and
equip you with all the necessary skills, and then, they place you with a client. You are
paid throughout the whole training and the placement with the client. However,
your rate might be below the market rate, because, obviously, the consultancy has to
make money on you. So, it is a good route of entering the Data Engineering world, but
it’s just worth remembering this point.

So, that’s Data Engineering in the nutshell.

10
Transcript + Translation A Look Into Data Engineering

English Português

Today we are going to talk about Data Hoje nós vamos falar sobre Engenharia
Engineering. Data Engineering is one of de Dados. Engenharia de Dados é um dos
the most in-demand job titles, and cargos mais requisitados, e habilidades
Data Engineering skills are one of the em Engenharia de Dados são algumas
most in-demand skills at the moment. das habilidades mais requisitadas no
The demand for Data Engineering skills is momento. A demanda por habilidades
surpassing the demand for Data Science em Engenharia de Dados está superando
skills. So, what is Data Engineering? a demanda por habilidades em Ciência
de Dados. Então, o que é Engenharia de
Dados?

Data Engineering is a very broad discipline. Engenharia de Dados é uma disciplina

The ultimate goal of Data Engineering is to muito ampla. O objetivo final da

provide a consistent data flow to enable Engenharia de Dados é fornecer um fluxo

data-driven applications. To better de dados consistente para possibilitar

understand what Data Engineering aplicações orientadas por dados. Para

is all about in practice, let’s talk about entender melhor do que se trata a

some common tasks that Data Engineers Engenharia de Dados na prática, vamos

do. falar sobre algumas tarefas comuns que


Engenheiros de Dados fazem.

Number one: data scouting. Scouting Número um: prospecção de dados.


means “searching for”. Prospecção significa “procurar por”.

11
Transcript + Translation A Look Into Data Engineering

English Português

There is a significant number of data Existe um número significativo de


vendors or data providers out there. fornecedores de dados ou provedores de
dados por aí.

They provide various kinds of data: Eles fornecem vários tipos de dados:
financial data; supermarket footfall data, dados financeiros; dados de tráfego de
so, how many people enter a store at any supermercados, então, quantas pessoas
given time; weather data, and many other entram em uma loja em um determinado
kinds of data. The examples are endless. momento; dados meteorológicos e muitos
outros tipos de dados. Os exemplos são
intermináveis.

But various data vendors might Mas vários fornecedores de dados podem
have a varying data availability or ter disponibilidade de dados ou frequência
data frequency, for example, in terms of de dados variável, por exemplo, em
geographic breakdown, geographic termos de divisão geográfica, cobertura
coverage, or in terms of...you know, geográfica ou em termos de... sabe, com
how often the data is collected. que frequência os dados são coletados.

So, some vendors might offer daily data, Então, alguns fornecedores podem
and some other vendors might offer oferecer dados diários, e alguns outros
weekly data. fornecedores podem oferecer dados
semanais.

12
Transcript + Translation A Look Into Data Engineering

English Português

Some vendors might offer data from the Alguns fornecedores podem oferecer
US, some vendors might offer data from, dados dos Estados Unidos, alguns
let’s say, Europe, or some other places. fornecedores podem oferecer dados da,
Various data vendors might also have digamos, Europa, ou de alguns outros
completely different pricing strategies. lugares. Vários fornecedores de dados
também podem ter estratégias de
precificação completamente diferentes.

So, the task of a Data Scout, or a Data Então, a tarefa de um Data Scout, ou
Engineer wearing a Data Scout’s hat, de um Engenheiro de Dados no papel
is to understand what kind of data is de Data Scout, é entender que tipo de
the best solution, or the best value-for- dados é a melhor solução ou o melhor
money. You know, for example, what custo-benefício. Sabe, por exemplo, que
kind of data will allow the company that tipo de dados vão permitir à empresa
the Data Engineer is working for to para a qual o Engenheiro de Dados está
generate the best investment insights, trabalhando gerar os melhores insights
for example. So, all in all, a Data Engineer de investimento, por exemplo. Então,
will choose the best data vendor based em suma, um Engenheiro de Dados vai
on the most suitable offering. escolher o melhor fornecedor de dados
baseado na oferta mais adequada.

Task number two is creating A tarefa número dois é criar pipelines


data pipelines. Once it is agreed de dados. Uma vez que seja acordado

13
Transcript + Translation A Look Into Data Engineering

English Português

what kind of data the company needs que tipo de dados a empresa precisa
to onboard, the Data Engineer’s task incorporar, a tarefa do Engenheiro de
is to actually onboard it and to facilitate Dados é efetivamente incorporá-lo e
that data flow. So, let’s say we’re dealing facilitar esse fluxo de dados. Então,
with daily stock market data. A Data digamos que nós estamos lidando com
Engineer’s role is to ensure that the data dados diários do mercado de ações. A
is coming in daily and gets saved in the função de um Engenheiro de Dados é
databases, so that Data Scientists or garantir que os dados estejam chegando
Data Analysts can use it on everyday diariamente e sejam salvos nos bancos
basis. That data flow is referred to as de dados, para que Cientistas e Dados ou
a “data pipeline”. Analistas de Dados possam usá-los em
uma base diária. A esse fluxo de dados nos
referimos como um “pipeline de dados”.

So, a data pipeline is basically a program Então, um pipeline de dados é


or a script that downloads the data, then basicamente um programa ou um script
transforms it in any necessary way, que baixa os dados, daí os transforma de
and then saves it, loads it to a database. qualquer maneira necessária, e aí os salva,
Another name for the process is “ETL os carrega para um banco de dados. Um
process”, which stands for “extract, outro nome para o processo é “processo
transform and load”. ETL”, que é sigla para “extrair, transformar
e carregar”

14
Transcript + Translation A Look Into Data Engineering

English Português

Extraction stage means downloading O estágio de Extração significa baixar os


the data. The data might be provided dados. Os dados podem ser fornecidos
in various ways, for example, it might be de várias maneiras, por exemplo, eles
exposed as an API, or it can be provided podem ser expostos como uma API, ou
on the FTP server - FTP standing for eles podem ser fornecidos no servidor
“file transfer protocol”. The data can also FTP - FTP é sigla para “protocolo de
be web scraped, which means that the transferência de arquivos”. Os dados
Data Engineer will download the data that também podem ser coletados na web, o
is exposed on a website, for example, que significa que o Engenheiro de Dados
downloading the pricing of cinema tickets vai baixar os dados que estão expostos
on a cinema booking website. The data em um site, por exemplo, baixando os
might also come in various formats, for preços de ingressos de cinema em um site
example, it might come as CSV files, JSON de reserva de cinema. Os dados também
objects, XML files, and so on, and so on. podem vir em vários formatos, por
exemplo, eles podem vir como arquivos
CSV, objetos JSON, arquivos XML, e assim
por diante.

Transform stage is the next stage in O estágio de Transformação é o próximo


the ETL process. In this stage the data is estágio no processo ETL. Nesse estágio,
transformed. os dados são transformados.

15
Transcript + Translation A Look Into Data Engineering

English Português

So, for example, the data might be Então, por exemplo, os dados podem ser
downloaded in a compressed format, but baixados em um formato compactado,
it obviously needs to be decompressed. mas eles obviamente precisam ser
So, that’s what a Data Engineer would do at descompactados. Então, isso é o que um
this stage. It might be worth mentioning Engenheiro de Dados faria nesse estágio.
that there are various compression Pode valer a pena mencionar que existem
formats: ZIP, TAR, and more, so again, a vários formatos de compactação: ZIP, TAR
Data Engineer needs to be comfortable e mais, então novamente, um Engenheiro
with multiple options here. de Dados precisa estar confortável com
múltiplas opções aqui.

The data also needs to be validated. So, it Os dados também precisam ser validados.
needs to be checked for any duplicates, Então, eles precisam ser verificados
or any missing values. So, at this stage, para quaisquer duplicatas ou quaisquer
a Data Engineer will also write a couple valores faltantes. Então, nesse estágio,
of functions that validate if the data is of um Engenheiro de Dados também vai
high quality. You know, because it might escrever algumas funções que validam
be the case that one table is split across se os dados são de alta qualidade. Sabe,
many different files, or it might be the porque pode ser o caso de que uma
case that the same table is contained tabela esteja dividida em muitos arquivos
in multiple files, so we have duplicates, diferentes, ou pode ser o caso de que a
mesma tabela esteja contida em vários
arquivos, então nós temos duplicatas,

16
Transcript + Translation A Look Into Data Engineering

English Português

and there might be some other edge e pode ser que haja alguns outros casos
cases that we want to prevent from limite que nós queiramos evitar que
happening or from landing in our aconteçam ou que caiam nos nossos
databases. So, a Data Engineer will have bancos de dados. Então, um Engenheiro
to detect them. de Dados vai ter que detectá-los.

Lastly, the Load stage is all about Por último, o estágio de Carregamento

saving the data in databases. There are se trata de salvar os dados em bancos

multiple databases out there, or multiple de dados. Existem múltiplos bancos de

file storage systems. The data might be dados por aí, ou múltiplos sistemas de

stored “on premise”, which means it armazenamento de arquivos. Os dados

is stored on the servers owned by the podem ser armazenados “on premise”, o

company; it can also be stored in a special que significa que eles são armazenados

file storage system called “Hadoop”, which nos servidores de propriedade da

allows for distributed processing of large empresa; eles também podem ser

data sets across clusters of computers. armazenados em um sistema especial de


armazenamento de arquivos chamado
“Hadoop”, que permite o processamento
distribuído de grandes conjuntos de dados
através de clusters de computadores.

17
Transcript + Translation A Look Into Data Engineering

English Português

This is particularly useful when we’re Isso é particularmente útil quando


dealing with large amounts of data. nós estamos lidando com grandes
Alternatively, the data can also be stored quantidades de dados. Como alternativa,
in the cloud. So, for example, in S3 buckets os dados também podem ser armazenados
using Amazon’s AWS, or some other cloud na nuvem. Então, por exemplo, em buckets
provider like Google or Azure; and there do S3 usando a AWS da Amazon, ou algum
are obviously pros and cons of this outro provedor de nuvem como o Google
approach. ou o Azure; e existem, obviamente, prós e
contras dessa abordagem.

The definite advantage of storing data A vantagem definitiva de armazenar


in the cloud is obviously the scalability of dados na nuvem é, obviamente, a
that. So, whenever you need to add a escalabilidade disso. Então, sempre
little bit of more data, the storage is easily que você precisar adicionar um pouco
available. This is not the case with the “on mais de dados, o armazenamento está
prem” or “on premise” storage, because facilmente disponível. Esse não é o caso
that requires a large upfront investment com o armazenamento “on prem” ou “on
in the servers. However, depending on premise”, porque isso requer um grande
the amount of data and the frequency investimento adiantado nos servidores.
with which you are querying the data, it No entanto, dependendo da quantidade
might work out to be cheaper to store de dados e da frequência com a qual
the data “on premise”. você for consultar os dados, pode acabar
sendo mais barato armazenar os dados
“on premise”.
18
Transcript + Translation A Look Into Data Engineering

English Português

Data pipelines are written in Pipelines de dados são escritos em


programming languages such as Python linguagens de programação como Python
or Java. Python is currently the most ou Java. Python é atualmente a linguagem
popular language for this task. This is mais popular para esta tarefa. Isso ocorre
because it is easy to use, easy to learn, porque é fácil de usar, fácil de aprender,
and there is a number of available e há uma série de bibliotecas disponíveis
libraries that are very well suited for que são muito adequadas para aplicações
Machine Learning and Data Engineering de Aprendizado de Máquina e Engenharia
applications. The whole data flow or the de Dados. Todo o fluxo de dados ou todo
whole pipeline needs to be scheduled to o pipeline precisam ser agendados para
run on a given basis, for example, daily; executarem em uma determinada base,
and there are multiple tools which por exemplo, diariamente; e existem
allow for scheduling of data pipelines, múltiplas ferramentas que permitem o
for example, Jenkins or Airflow. agendamento de pipelines de dados, por
exemplo, Jenkins ou Airflow.

Once the data pipeline is scheduled and Uma vez que o pipeline de dados
the data comes in daily, a Data Engineer’s esteja agendado e os dados cheguem
role is to monitor the data pipelines diariamente, o papel do Engenheiro de
for any failures. Dados é monitorar os pipelines de dados
em busca de quaisquer falhas.

19
Transcript + Translation A Look Into Data Engineering

English Português

On any given day, a data vendor Em um dia qualquer, um fornecedor


might send a file with missing values, de dados pode enviar um arquivo com
or with duplicates, or with any other nasty valores faltantes, ou com duplicatas, ou
things that we don’t want in our data. com qualquer outra coisa desagradável
que nós não queremos nos nossos dados.

But also, it doesn’t necessarily have Mas também, não necessariamente tem
to be data vendor’s fault if a data que ser culpa do fornecedor de dados se
pipeline is failing, it might simply be due um pipeline de dados estiver falhando,
to the fact that, for example, we are pode ser simplesmente devido ao fato de
running out of storage on one of our que, por exemplo, nós estamos ficando
servers, in which case we also have to sem armazenamento em um de nossos
intervene. servidores, caso no qual nós também
temos que intervir.

In addition to monitoring data pipelines, Além de monitorar pipelines de dados,


a Data Engineer also has to support um Engenheiro de Dados também tem
business users on everyday basis. This que dar suporte aos usuários de negócios
help might take two forms: ad hoc help, em uma base diária. Essa ajuda pode
which means assisting people when and assumir duas formas: ajuda “ad hoc”, que
if they say they need help; and project- significa ajudar as pessoas quando e se
based work. elas disserem que precisam de ajuda; e
trabalho baseado em projetos.

20
Transcript + Translation A Look Into Data Engineering

English Português

When it comes to the “ad hoc” help, Quando se tratar de ajuda “ad hoc”,
Data Engineers might, for example, os Engenheiros de Dados podem, por
need to support a business user when exemplo, precisar dar suporte a um
they don’t know how to connect to usuário de negócios quando ele não
the database. For example, they are new souber como se conectar ao banco
to the company and they just don’t know de dados. Por exemplo, ele é novo na
how to log in to the server, how to install empresa e ele simplesmente não sabe
the necessary drivers, or they face any como fazer login no servidor, como
other issue that is data related. Then, instalar os drivers necessários, ou ele se
your job as a Data Engineer is to assist depara com qualquer outro problema
them. que for relacionado a dados. Aí, o seu
trabalho como Engenheiro de Dados é
ajudá-lo.

Project-based work takes a slightly O trabalho baseado em projetos assume


different shape. For example, imagine uma forma ligeiramente diferente. Por
that there is a Data Analyst querying exemplo, imagine que haja um Analista
five different tables, joining them in SQL de Dados consultando cinco tabelas
on everyday basis. Well, that’s diferentes, unindo-as em SQL em uma
annoying. base diária. Bem, isso é irritante.

21
Transcript + Translation A Look Into Data Engineering

English Português

So, what you might be working on as a Então, uma coisa na qual você pode estar
Data Engineer is creating a view on those trabalhando como Engenheiro de Dados
tables, so that it is way easier for the é criar uma view nessas tabelas, para que
Data Analyst to query the data, a view seja mais fácil para o Analista de Dados
which joins those five tables under the consultar os dados, uma view que una
hood, but only presents an abstraction essas cinco tabelas debaixo dos panos,
layer for the business user, so that mas que só apresente um camada de
they don’t have to worry about the abstração para o usuário de negócios,
details of how those tables are joined para que ele não precise se preocupar
together. So, basically, you might be sobre os detalhes de como essas tabelas
just making other people’s lives easier são unidas. Então, basicamente, você pode
by helping them to deal with the data in simplesmente estar tornando mais fáceis
this way. as vidas de outras pessoas, ajudando-as a
lidar com os dados dessa maneira.

Now let’s see how this might look like Agora vamos ver como isso pode parecer
in practice. So, let’s pretend that I’m a na prática. Então, vamos fingir que sou
Data Engineer and my boss is calling me to uma Engenheira de Dados e o meu chefe
discuss the new Data Engineering project: está me ligando para discutir o novo
projeto de Engenharia de Dados:

Boss: Hi, Karolina. We’ve just received a Chefe: Oi, Karolina. Nós acabamos de
request from the Data Science team. receber uma solicitação do time de
Ciência de Dados.
22
Transcript + Translation A Look Into Data Engineering

English Português

They need us to onboard the MSCI Eles precisam que nós incorporemos
index data for their new project. You’ll os dados do índice MSCI para o novo
be working on building a data feed projeto deles. Você vai trabalhar na
for that data. Does that sound good? construção de um feed de dados
para esses dados. Isso parece bom?

Karolina: Sure, sounds good. Where Karolina: Claro, parece bom. Onde eles
would they like us to store the data? gostariam que nós armazenássemos os
dados?

Boss: They don’t mind, so we might Chefe: Eles não se importam, então nós
either store it “on prem”, on HDFS, in our podemos armazená-los “on prem”, no
Hadoop ecosystem, or we might store it HDFS, em nosso ecossistema Hadoop, ou
in the cloud, in AWS. What do you think? nós podemos armazená-los na nuvem, na
AWS. O que você acha?

Karolina: How much data is it? And what’s Karolina: Qual é a quantidade de dados?
the frequency? E qual é a frequência?

Boss: It’s going to be a daily feed. Each Chefe: Será um feed diário. Cada dia
day takes up roughly five gigs. ocupa aproximadamente cinco gigas.

Karolina: Are we going to have to Karolina: Nós vamos ter que preencher o
backfill the history? histórico?

23
Transcript + Translation A Look Into Data Engineering

English Português

Boss: No. Fortunately, no backfilling Chefe: Não. Felizmente, nenhum


will be necessary now, just for an MVP. preenchimento será necessário agora,
They might need it later, but I’ll put it in apenas para um MVP. Eles podem precisar
the backlog. For now, we just want to disso mais tarde, mas eu vou colocar isso
onboard the data and just start from... no backlog. Por enquanto, nós queremos
from today’s date. apenas incorporar os dados e começar
a partir de... a partir da data de hoje.

Karolina: Cool. Sounds good. But that’s Karolina: Legal. Parece bom. Mas
still plenty of data going forward, so I ainda tem muitos dados sendo
suggest we store it on HDFS, that is, on transmitidos, então eu sugiro que nós
premise, because otherwise we’re going os armazenemos no HDFS, ou seja, on
to end up paying a lot for the cloud. premise, porque do contrário nós vamos
acabar pagando muito pela nuvem.

Boss: Perfect! That’s exactly what I was Chefe: Perfeito! Isso é exatamente o que
thinking myself. Can you give me an eu mesmo estava pensando. Você pode
idea of how long this is going to take me dar uma ideia de quanto tempo isso
you, and what technologies are you vai levar, e quais tecnologias você vai
going to use? Just so that I can have usar? Só para que eu possa ter uma ideia
an idea of what you’re working on. daquilo no que você está trabalhando.

24
Transcript + Translation A Look Into Data Engineering

English Português

Karolina: Well, I’ll need to have a look Karolina: Bem, eu vou precisar dar uma
at the data first, to assess the quality olhada nos dados primeiro, para avaliar a
and see whether this is going to be qualidade e ver se esse vai ser um projeto
a difficult project or not, but judging difícil ou não, mas julgando por projetos
by previous projects with financial data anteriores com dados financeiros e sem
and no backfilling, I think that this is preenchimento, eu acho que isso vai
going to take roughly two weeks. I’m levar aproximadamente duas semanas.
probably just going to write some Python Eu provavelmente só vou escrever
ETL scripts, and then, create some Hive alguns scripts ETL em Python, e aí, criar
tables for our HDFS storage, and then, algumas tabelas no Hive para o nosso
I’ll just schedule the data pipeline in armazenamento HDFS, e aí, eu só vou
Jenkins, and… yeah… we should be good. agendar o pipeline de dados no Jenkins e...
sim... isso deve ser o bastante para nós.

Boss: Yeah. Sounds like you know what Chefe: Sim. Parece que você sabe do que
you’re talking about. I’ll leave you você está falando. Eu vou deixar você com
to it, bye. isso, tchau.

Like I mentioned in the beginning, Data Como eu mencionei no começo,


Engineering is one of the most sought- Engenharia de Dados é uma das carreiras
after careers in the IT industry. So, how mais procuradas na indústria de TI. Então,
do you become a Data Engineer? como você se torna um Engenheiro de
Dados?

25
Transcript + Translation A Look Into Data Engineering

English Português

The most necessary skill is knowledge A habilidade mais necessária é o


of a data programming language, conhecimento de uma linguagem de
for example, Python or Java. programação de dados, por exemplo,
The second most important skill is the Python ou Java. A segunda habilidade
knowledge of databases and database mais importante é o conhecimento de
language: SQL. Lastly, a Data Engineer bancos de dados e linguagem de banco
should be familiar with some Computer de dados: SQL. Por último, um Engenheiro
Science concepts, such as networking or de Dados deve estar familiarizado
some basic algorithms. com alguns conceitos de Ciência da
Computação, como ligação em rede ou
alguns algoritmos básicos.

In terms of learning how to develop Em termos de aprender como desenvolver


data pipelines in the cloud, various pipelines de dados na nuvem, várias
companies might use various providers. empresas podem usar vários provedores.
So, it doesn’t necessarily have to be AWS. Então, não precisa necessariamente ser
Other companies might use Google a AWS. Outras empresas podem usar o
Cloud, and other companies might use Google Cloud, e outras empresas podem
Microsoft Azure. usar o Microsoft Azure.

26
Transcript + Translation A Look Into Data Engineering

English Português

So, I wouldn’t worry about committing Então, eu não me preocuparia em me


yourself to one cloud provider, it’s comprometer com um provedor de
just more about understanding the nuvem, é mais uma questão de entender
concept and the general idea of being able o conceito e a ideia geral de ser capaz
to store the data in the cloud. However, de armazenar os dados na nuvem. No
it might be quite useful to learn at least entanto, pode ser bem útil aprender pelo
one data provider of your choice, so menos um provedor de dados de sua
that... you know, you can have those escolha, para que... sabe, você possa ter
transferable skills that you can then apply essas habilidades transferíveis que daí
to another data provider, if need be. você pode aplicar a outro provedor de
dados, se necessário.

How can you find a Junior Data Engineering Como você pode encontrar uma posição
role? Well, there are a few routes. The first de Engenheiro de Dados Júnior? Bem,
route is, you might simply apply for Data existem alguns caminhos O primeiro
Engineering… Junior Data Engineering caminho é, você pode simplesmente se
positions at various companies, if you candidatar para Engenharia de Dados...
learn the necessary skills to apply. posições Júnior em Engenharia de Dados
em várias empresas, se você aprender
as habilidades necessárias para se
candidatar.

27
Transcript + Translation A Look Into Data Engineering

English Português

Two: you might apply for graduate Dois: você pode se candidatar para
schemes for university graduates. Such programas de formação para graduados
schemes are run by a majority of large universitários. Tais esquemas são
corporations, such as investment banks administrados por uma maioria de
or telecom companies. The advantage of grandes corporações, como bancos
this route is that fresh graduates don’t de investimento ou empresas de
have to have great technical skills, you’re telecomunicações. A vantagem desse
hired for your potential. caminho é que recém-graduados não
têm que ter grandes habilidades técnicas,
você é contratado pelo seu potencial.

And three: you might apply for data E três: você pode se candidatar para
consultancies. Such companies train you consultorias de dados. Tais empresas
up and equip you with all the necessary te treinam e te equipam com todas as
skills, and then, they place you with a client. habilidades necessárias, e aí, te alocam
You are paid throughout the whole com um cliente. Você é pago ao longo de
training and the placement with the client. todo o treinamento e da alocação com o
cliente.

However, your rate might be below the No entanto, o seu salário pode estar
market rate, because, obviously, the abaixo do salário do mercado, porque,
consultancy has to make money on you. obviamente, a consultoria tem que fazer
dinheiro com você.

28
Transcript + Translation A Look Into Data Engineering

English Português

So, it is a good route of entering the Data Então, é um bom caminho para entrar
Engineering world, but it’s just worth no mundo da Engenharia de Dados,
remembering this point. mas vale a pena lembrar desse ponto.

So, that’s Data Engineering in the Então, isso é Engenharia de Dados em


nutshell. poucas palavras.

29
Vocabulary A Look Into Data Engineering

one of the most (+ adjective) data flow


Expressão usada quando queremos A palavra “flow” significa “fluxo”. Assim, um
destacar uma pessoa ou coisa dentre “data flow” é um “fluxo de dados”.
muitas, dizendo que ela é uma dentre
as mais (altas, bonitas, grandes, etc.).
application
Exemplos:
• This car is one of the most expensive Aplicação, aplicativo.
here. (Esse carro é um dos mais caros
aqui.) data-driven application
• He is one of the most handsome guys
here. (Ele é um dos caras mais bonitos A locução “data-driven” é formada
aqui.) pelo substantivo “data” (dados) e pelo
particípio “driven” (orientado a). Dessa
forma, uma “data-driven application” seria
in-demand uma “aplicação orientada a dados”.
Requisitado, em demanda.
to better understand (something)
job title Frase fixa que significa “Para entender
Cargo. melhor (algo)”.

demand in practice
Demanda. Na prática.

to surpass task
Superar. Tarefa.

broad data scouting


Amplo Prospecção de dados. O substantivo
“scouting” tem algumas traduções
ultimate diferentes, mas nesse contexto podemos
traduzir como “prospecção”, “mineração”,
Final, derradeiro. “busca”.

30
Vocabulary A Look Into Data Engineering

significant geographic breakdown


Significativo, expressivo. O substantivo “breakdown” pode ter
diversas traduções diferentes, mas nesse
contexto ele pode ser traduzido como
data vendor
“divisão”, “separação” ou “discriminação”.
Fornecedor de dados. Um “data vendor” Assim, podemos traduzir essa expressão
é geralmente uma entidade contratada como “(a) divisão geográfica”.
para realizar a coleta, processamento,
agregação, extrações, análises e relatórios
coverage
de dados.
Cobertura. Pode ser usado no sentido
de uma cobertura jornalística, da área de
data provider
cobertura de certo equipamento ou de
Provedor de dados. Nesse contexto, pode certa pesquisa, cobertura médica contra
ser considerado um sinônimo de “data acidentes, etc.
vendor”.
you know
out there “Fillers” são palavras que não têm
Por aí. Expressão informal muito usada. realmente muito significado, mas são
muito usadas, principalmente na fala,
para deixá-la mais natural e fluida. A
footfall expressão “you know” é um desses
Expressão sinônima de “foot traffic”. Pode “fillers”, e é equivalente ao nosso “sabe…?”
ser traduzida como “tráfego de pessoas”, do português. Ele costuma ser usado
e é usada em um contexto de analisar o no começo ou meio de frases quando
número de pessoas que entram em uma hesitamos, ou no final de frases, para
loja, mercado ou similar em um certo buscarmos confirmação de que a outra
período de tempo. pessoa entendeu ou está nos escutando.

availability how often

Disponibilidade. Expressão que significa “com que


frequência”. A palavra “often” sozinha
significa “frequentemente” iou “com
weekly frequência”.
Semanalmente.

31
Vocabulary A Look Into Data Engineering

Let’s say… pipeline


Expressão usada quando queremos No contexto mais do dia a dia, significa
propor uma suposição ou hipótese, “tubulação”, “duto” (oleoduto ou gasoduto,
Podemos traduzir como “Digamos…”. por exemplo). Porém, usamos muitas
vezes essa mesma palavra no contexto
de tecnologia, sem tradução, para nos
pricing
referirmos a um conjunto de elementos
Preço, precificação. de processamento de dados conectados
em série, onde a saída de um elemento é
Data Scout a entrada do próximo. Os elementos de
um pipeline são geralmente executados
Cargo que não tem exatamente uma em paralelo ou com um espaço de tempo
tradução em português. Literalmente, entre eles.
seria algo como “Prospector de Dados” ou
“Minerador de Dados”.
data pipeline

value-for-money Pipeline de dados. Sinônimo da palavra


anterior, mas agora especificando que
Expressão importante usada como os elementos são dados (de clientes,
adjetivo, que geralmente tem um sentido do mercado financeiro, de uso de uma
positivo embutido, e podemos traduzir plataforma, etc.)
como “de bom custo-benefício” ou “de
boa relação qualidade/preço”.
to onboard

insight Incorporar, integrar. Expressão que vem


da marinha, muito usada para indicar o
Expressão muito usada na sua forma em processo de incorporação de um novo
inglês, mas que podemos traduzir como funcionário a uma empresa ou equipe, ou
“ideia”, “percepção”, “visão”, dependendo também de algum tipo de elemento, de
do contexto. dado, de tecnologia, etc.

suitable to ensure
Adequado. Garantir, certificar-se de. Sinônimo de “to
make sure”.
stock market
Mercado de ações.

32
Vocabulary A Look Into Data Engineering

to allow for (something) web scraped


Permitir, possibilitar, “planejar”, “deixar Particípio que vem do termo “web
disponível”. scraping”, que podemos traduzir como
“coleta de dados web”, ou “raspagem
web”, e se refere a uma técnica de
to come in
extração de dados utilizada para coletar
Entrar, vir para dentro, chegar. dados de sites, por meio de processos
automatizados, copiando essas
informações para um banco de dados ou
so that
planilha para posterior recuperação ou
Para que, a fim de que. Alguns exemplos análise.
que vimos:
• so that Data Scientists or Data Analysts
and so on
can use...
• so that it is way easier... E assim por diante.
• so that they don’t have to worry...
• so that I can have an idea... compressed
Compactado, comprimido.
script
No contexto de tecnologia, se refere a decompressed
um programa ou conjunto de instruções
para que uma determinada função seja Descompactado, descomprimido.
executada.
to be worth (doing)
to stand for (something) Valer a pena (fazer algo). Você pode
Verbo usado geralmente com siglas e estranhar essa estrutura, mas ela é muito
acrônimos. Exemplo: usada e muito fácil - basta usar o verbo
• ETL stands for “Extract, Transform and “to be” com o adjetivo “worth”, seguido de
Load”. um verbo na forma “-ing”. Exemplos:
• It might be worth mentioning… (Pode
valer a pena mencionar…)
booking • It’s worth remembering… (Vale a pena
Reserva. O verbo “to book” significa lembrar…)
“reservar”.

33
Vocabulary A Look Into Data Engineering

checked to prevent
Vimos na frase “it needs to be checked”. Apesar de “to prevent” também significar
Particípio do verbo “to check”, que “prevenir” às vezes, ele muitas vezes
significa “verificar”. significa “evitar” ou “impedir”.

missing values lastly


O adjetivo “missing” vem do verbo “to Por último, para terminar.
miss”, que pode ser traduzido como
“faltar”. Ou seja, “missing” é algo como
storage
“faltante”, “ausente”, e “missing values”
seriam os “valores faltantes”. Armazenamento.

to be split across stored


(many different files) Armazenado.
Quando algo está “split”, ele está
“separado” ou “dividido”. Aqui usamos on premise, on prem
a preposição “across”, que podemos
No contexto de servidores, se trata de
traduzir como “através de”, “em” ou
um servidor físico local que uma empresa
“por”, para indicar como as tabelas estão
gerencia e mantém.
separadas ou divididas.

edge case owned (by)

Caso limite, caso extremo. Conceito Propriedade (de), pertencente (a). Vem do
usado em testes de software para tentar verbo “to own”, que significa “possuir”.
identificar erros ou bugs que podem
ocorrer para os parâmetros limítrofes ou cluster
extremos de seu domínio. Exemplo: você
No sentido de estrelas, geralmente
vende álcool online, apenas para maiores
traduzimos como “aglomerado”. No
de 18 anos. Alguns “edge cases” seriam o
sentido de computadores, geralmente
dia antes de a pessoa completar 18 anos,
usamos a própria palavra inglesa
o dia que ela completou, o dia seguinte.
“cluster” para nos referir a um grupo
de computadores que trabalham em
conjunto.

34
Vocabulary A Look Into Data Engineering

data set well suited for (something)


Conjunto de dados. Bem adequado para (algo).

pros and cons scheduled


Prós e contras. Agendado.

scalability on a given basis


Escalabilidade. Em uma certa base, em uma dada base.
A palavra “given” é o particípio do verbo
whenever “to give” (dar). Vimos no contexto de uma
base de tempo, ou seja, semanal, mensal,
Pode significar “sempre que”, “seja lá etc.
quando” ou simplesmente “quando” em
um contexto mais amplo.
to monitor (something)
for (something)
upfront Monitorar (algo) em busca de (algo).
Como adjetivo, significa “antecipado”,
“adiantado”. Como advérbio, significa nasty
“antecipadamente”, “de antemão”.
Esse adjetivo tem muitas traduções
possíveis. Pode ser algo “desagradável”,
to query “nojento”, “sujo”, “ruim”, “indecente”,
Consultar. Porém, muitas vezes dependendo do contexto.
traduzimos como “fazer uma query”, onde
“query” seria uma “consulta”, geralmente due to the fact that…
em um contexto de bancos de dados.
Devido ao fato de que...

easy to (+ verb) to support


Fácil de (verbo). Vimos essa estrutura nas
Apoiar, sustentar. No contexto de
frases “easy to use” (fácil de usar) e “easy
informática, é comum traduzir como “dar
to learn” (fácil de aprender).
suporte”.

35
Vocabulary A Look Into Data Engineering

to run out of (something) under the hood


Expressão muito usada que significa Por debaixo dos panos, às escondidas.
“ficar sem (algo)”, “(algo) estar acabando”.
Outros exemplos: joined together
• My car ran out of fuel in the middle of
the road. (O combustível do meu carro Vimos a frase “...those tables are joined
acabou no meio da estrada.) together”, indicando que essas tabelas
• We have to go to the supermarket. estão unidas, juntas. Em português não
We’re running out of milk. (Precisamos usaríamos o “together”, porque seria um
ir ao supermercado. O leite está pleonasmo; já em inglês, podemos usá-lo
acabando.) para dar ênfase que são essas duas (ou
mais) coisas que serão unidas.

When it comes to (something)


data feed
No que diz respeito a (algo), quanto a
(algo), no que toca a (algo). No contexto de tecnologia, “feed” é uma
palavra muito usada na sua forma em
inglês, sem tradução, para se referir a
to face uma página ou tela que é atualizada com
Encarar, confrontar, enfrentar. frequência para mostrar as informações
mais recentes (um feed de notícias, um
feed de um podcast). Aqui, “data feed”
data related
seria um “feed de dados”.
Relacionado a dados.
to take up
Project-based work
Phrasal verb que pode significar “começar
Trabalho baseado em projetos. a fazer (uma nova atividade)”, “aceitar
(algo)”, mas que nesse contexto podemos
Well… traduzir como “ocupar” (falando de
quanto espaço ou tempo algo ocupa).
“Well…” é outro desses “fillers”, e é
equivalente ao nosso “Bem…” ou “Bom…”
do português. Ele costuma ser usado no gigs
começo de frases, quando hesitamos
Gíria para gigabytes ou gigas.
antes de começar a falar sobre um
assunto.

36
Vocabulary A Look Into Data Engineering

to backfill, backfilling to end up (doing something)


No dia a dia, se refere ao ato de Acabar (fazendo algo), (fazer algo) no final
preencher uma escavação ou buraco, das contas. Phrasal verb muito usado.
muitas vezes usando o próprio material Mais exemplos:
que foi retirado (como terra, pedras, • The tickets to that movie were sold
etc.). Já no contexto de Ciência de Dados, out, so we ended up watching a
se refere ao ato de preencher dados different one. (Os ingressos para
anteriores que haviam ficado faltando, aquele filme estavam esgotados,
para ter a certeza de ter uma tabela então nós acabamos assistindo um
completa, sem vazios. diferente.)
• We liked the casino, but we ended
(an) MVP up losing money. (Nós gostamos do
cassino, mas nós acabamos perdendo
“MVP” é uma sigla que significa “minimum dinheiro.)
viable product” (mínimo produto viável),
ou seja, seria uma aplicação criada para
ser funcional, mas usando o mínimo
sought after
possível de recursos (tempo e dinheiro) A forma “sought” é o particípio do
possível. É geralmente a primeira versão verbo “to seek”, que significa “procurar”,
lançada. “buscar”. Quando dizemos que algo é
“sought after”, quer dizer que é algo muito
Sounds good! “procurado”, muito “desejado”.

Expressão muito usada


Hive
to go forward Apache Hive é um software de Data
O phrasal verb “to go forward” pode ser Warehouse desenvolvido em cima do
traduzido como “ir adiante”, “continuar Apache Hadoop para consulta e análise
a fazer algo”, mas vimos ele no contexto de dados.
de “data going forward”, “dados sendo
transmitidos” ou “dados passando”. It’s more about (something)
Expressão muito usada para fazer uma
to assess comparação, que pode ser traduzida
como “se trata mais de (algo)” ou “diz mais
Avaliar (geralmente falando sobre a
respeito a (algo)” (do que a outra coisa).
qualidade de algo).

37
Vocabulary A Look Into Data Engineering

if need be throughout (something)


Expressão fixa que significa “se for Ao longo de (algo). Vimos na frase
necessário” ou “caso seja necessário”. “throughout the whole training”, que
podemos traduzir como “ao longo de
todo o treinamento”.
graduate schemes
Escolhemos a tradução “programa de
rate
formação”. Um “graduate scheme” é um
programa de treinamento baseado em A palavra “rate” tem diversos sentidos.
“aprender trabalhando”, que permite que Pode ser traduzida como “taxa”,
os recém-formados ganhem experiência “frequência”, “proporção” e outros
prática com uma empresa. É organizado dependendo do contexto. Nesse
pela própria empresa para desenvolver contexto, quando falamos do “rate” de
futuros líderes de sua organização. Seria alguém, nos referimos a quanto essa
similar a um programa de “trainee”, mas pessoa cobra de salário.
não apenas para áreas de negócios,
mas também áreas técnicas, como
programação.

fresh graduates
O adjetivo “fresh” pode significar “fresco”,
mas também pode ser traduzido como
“recém”, no contexto de algo recém feito
ou recém terminado. Os “fresh graduates”
seriam os “recém-graduados”.

to place
Colocar, pôr.

38
Grammar A Look Into Data Engineering

To better understand what Data Engineering is all about in


practice. / The Load stage is all about saving the data.

A expressão “(something) is about” ou “(something) is all about” é


equivalente em português a “trata-se de (algo)”. Outro exemplo
possível:
• This case is (all) about politics. (Esse caso se trata de política.)

A Data Engineer wearing a Data Scout’s hat.

Frase interessante. A palavra “hat” significa “chapéu”, mas é muito


usada de forma metafórica para indicar algo como “no papel de”,
“na posição de”. Ou seja, essa frase quer dizer “Um Engenheiro de
Dados no papel de Data Scout”.

There might be some other edge cases.

Para dizer que “há” ou “existe” algo, usamos as estruturas “there


is” e “there are”, certo? Note que dentro dessa estrutura existe o
verbo “to be” (is, are).
Na frase da aula, vemos a estrutura “there might be”, traduzindo,
“pode haver” ou “pode ser que haja”, com o verbo “to be” no
infinitivo.

39
Grammar A Look Into Data Engineering

...will allow the company that the Data Engineer is working


for to generate…

Diferentemente do português, em inglês é correto e muito comum


terminar certas frases com preposições. Tomando a frase acima
como exemplo, trabalhar para alguém ou alguma empresa seria “to
work for (a company)”.
Assim, seria correto dizer essa mesma frase com a preposição no
meio, como em português: “...will allow the company for which the
Data Engineer is working to generate…”, mas isso pode soar um
pouco formal demais ou não natural. Dessa forma, na fala é mais
comum usar a forma com a preposição no final: “...will allow the
company that the Data Engineer is working for to generate…”.

That data flow is referred to as a “data pipeline”.

A expressão “to be referred to as” é muito usada assim, na voz


passiva. Em português, se quisermos usar o verbo cognato, que
seria “referir-se a”, teríamos que usar a voz ativa:
• A esse fluxo de dados nos referimos como um “pipeline de
dados”.

Mas podemos usar um sinônimo na voz passiva também:


• Esse fluxo de dados é conhecido como um “pipeline de dados”.

40
Grammar A Look Into Data Engineering

...that we want to prevent from happening or from landing


in our databases.

Já vimos na seção Vocabulary que “to prevent” pode significar


“evitar” ou “impedir”, e ele é muito usado com a preposição “from”.
Além disso, lembremos que quando usamos um verbo depois
de uma preposição (como “from” acima), ele sempre estará na
forma “-ing”. Por isso o verbo “to happen” se transforma em “from
happening”. Outros exemplos:
• I thought of going there.
• He’s thinking about leaving.

Ou seja, “evitar/impedir que algo aconteça” seria “to prevent


(something) from happening”.

The definite advantage of storing data.

Vemos novamente um verbo sendo usado depois de uma


preposição (como “of” acima), e por isso ele está na forma “-ing”.
Por isso, o verbo “to store” se transforma em “of storing”.

41
Grammar A Look Into Data Engineering

It might work out to be cheaper.

O phrasal verb “to work out” tem diversas traduções, como


“malhar”, “dar certo”, mas quando usado com o verbo “to be”, ele
geralmente é praticamente um sinônimo de “to end up”, ou seja
“acabar sendo (algo)”.

There are multiple tools which allow for scheduling.

Como vimos na seção Vocabulary, o phrasal verb “to allow for” tem
um significado um pouco diferente de “to allow”, apesar de ambas
poderem ter a mesma tradução. Enquanto que “to allow” significa
“permitir” no sentido de dar uma permissão, uma causa e efeito; “to
allow for” significa “permitir” no sentido de “possibilitar”, “planejar”,
“deixar disponível”. Exemplo:
• The design of the system allows for easy upgrades. (O design do
sistema permite/possibilita melhorias fáceis.)

E como “for” é uma preposição, o verbo que vier depois dela estará
na forma “-ing”. Por isso o verbo “to schedule” se transforma em
“for scheduling”.

42
Grammar A Look Into Data Engineering

Data Engineers might (...) need to support a business user


when they don’t know how to connect to the database.

Em inglês é comum usar os pronomes do plural (they/them) para


se referir a uma pessoa indefinida, quando falamos em geral. Ele é
chamado de “singular they”, ou seja, “o they no singular”.

Peguemos como exemplo a frase “Data Engineers might (...) need


to support a business user when they don’t know”. Você pode
estranhar que “a business user” está no singular, mas “they” é um
pronome do plural, né?

Então, esse “a business user” poderia ser tanto “um usuário”


quanto “uma usuária”, não sabemos ao certo, é algo indefinido.
Teoricamente, você poderia simplesmente dizer “...when he doesn’t
know...” ou “...when she doesn’t know...”, mas em certo momento,
antes mesmo de Shakespeare, os falantes da língua perceberam
que isso excluiria ou homens ou mulheres (lembre-se que
substantivos não têm gênero em inglês). Eles também se cansaram
de usar “he or she” o tempo todo. Dessa forma, foi aceito o
pronome “they” (e suas outras formas como “them”, “themselves”,
etc) para suprir esse problema.

43
Grammar A Look Into Data Engineering

Outros exemplos do “singular they”:


• If anyone isn’t happy, they can go away. (Se alguém não estiver
feliz, esse alguém pode ir embora.)
• Whoever ate this cake, they must pay me back. (Seja lá quem
comeu esse bolo, esse alguém deve me pagar de volta.)

What you might be working on…

Vemos novamente o uso da preposição no final da frase. Para dizer


que estamos “trabalhando em (algo)”, usamos em inglês “to work
on (something)”.

...presents an abstraction layer for the business user,


so that they don’t have to worry.

Vemos novamente o uso do “singular they”, como já vimos acima


na frase “Data Engineers might (...) need to support a business user
when they don’t know how to connect to the database.”

44
Grammar A Look Into Data Engineering

You might be just making other people’s lives easier


by helping them.

Usamos a preposição “by” com um verbo na forma “-ing” para dizer


o método ou a maneira pela qual algo é feito.

• Como você pode tornar mais fáceis as vidas de outras pessoas?


(How can you make other people’s lives easier?)
• Ajudando-as (By helping them.)

Em português, usaríamos apenas o gerúndio, sem nenhuma


preposição.

We’ve just received a request.

Nessa frase vemos o uso do tempo verbal Present Perfect. Ele é


formado usando:

verbo “to have” como auxiliar + verbo principal no Past Participle

Em verbos regulares, a forma do Past Participle é igual à forma do


Simple Past. Já em verbos irregulares, teremos que memorizá-las
ou consultá-las naquelas famosas tabelas de verbos irregulares
em inglês.

45
Grammar A Look Into Data Engineering

Para o verbo “to receive” (receber), que é regular, a forma no


Simple Past e no Past Participle é “received”. Assim, obtemos “we
have received” ou, abreviando, “we’ve received”.

Esse tempo verbal é usado em algumas situações, mas como o


próprio nome diz, tem a ver com algo que ocorreu no passado,
mas que ainda tem alguma relação com o presente. A combinação
de do Present Perfect com o advérbio “just” geralmente indica algo
que você “acabou de fazer”, por isso se encaixa nesse conceito de
algo do passado que tem relação com o presente.

They need us to onboard...

Para construir estruturas como “Eu quero que você faça…” ou


“Ele precisa que ela vá…” em inglês, não é exatamente como em
português. Não podemos fazer a tradução direta do português
para o inglês, que ficaria algo como “I want that you...”, pois seria
incorreto.

A construção correta é “I want you to do...” ou “He needs her to


go…”, ou seja, a pessoa que quer/precisa usa o subject pronoun
(I, he), e a pessoa que irá efetuar a ação usa o object pronoun
(you, her).

46
Grammar A Look Into Data Engineering

Na sequência, o verbo a ação estará na forma do infinitivo. Bem


fácil!

Note que em português precisaríamos ainda usar o verbo no


presente do subjuntivo (ex.: “Eu quero que você FAÇA.”), mas em
inglês é bem mais simples, basta o verbo na forma do infinitivo.
Exemplos:
• I want you to go. (Eu quero que você vá.)
• I want you to die. (Eu quero que você morra.)
• He wants me to stay. (Ele quer que eu fique.)

Na aula, vimos também essa mesma construção com outro verbo:


• Where would they like us to store the data? (Onde eles
gostariam que nós armazenássemos os dados?)

...so that I can have an idea of what you’re working on.

Vemos novamente o uso da preposição no final da frase. Para dizer


que estamos “trabalhando em (algo)”, usamos em inglês “to work
on (something)”.

47
Grammar A Look Into Data Engineering

You’ll be working on building a data feed.

Acima vemos o tempo verbal Future Continuous, que é usado para


falar sobre alguma coisa que estará ocorrendo no futuro, por si
mesma ou simultânea a outra ação. Ele é formado usando:

“will be” + verbo principal na forma “-ing”

Porém, ele também é muito usado simplesmente como um


sinônimo do Futuro simples, o que causa um problema comum
em português: o gerundismo, que é o uso do gerúndio para falar
sobre o futuro onde o mesmo não era necessário, geralmente uma
tradução direta do Future Continuous do inglês, muito usado por
empresas de telemarketing.

Como exemplo, a frase “Eu vou te mandar os documentos em


breve” pode ser expressa em inglês usando o Futuro simples (“I’ll
send you the documents soon”), mas também seria correta no
Future Continuous (“I’ll be sending you the documents soon”). Já em
português, seria considerado gerundismo o uso da frase “Eu vou
estar te mandando os documentos em breve”.

Além disso, como temos a preposição “on” de “to work on”, o verbo
depois dela está na forma “-ing”. Por isso, o verbo “to build” se
transforma em “on building”.
48
Grammar A Look Into Data Engineering

Does that sound good?

Frase muito usada em inglês para perguntar se algo que você


disse faz sentido ou parece razoável para uma outra pessoa.
Literalmente, significa “Isso soa bem?”, com o verbo “to sound”
(soar).

Essa frase é muitas vezes abreviada para “Sound good?”.

...whether this is going to be a difficult project or not.

O “whether” é uma conjunção que causa bastante confusão,


pois assim como o “if”, ela também pode ser traduzida como “se”.
Porém, elas são usadas em situações diferentes.
O “if” é usado, como já estamos acostumados, em condições e
suposições. Ele também é usado nas Conditional Sentences. Já o
“whether” é usado quando estamos falando de opções distintas,
depois de preposições ou quando houver um verbo no infinitivo.
Em alguns casos podemos usar qualquer uma das duas, porém,
com condições e suposições, apenas o “if” pode ser usado.
Exemplos:
• I don’t know whether/if I’ll go tomorrow. (Eu não sei se eu irei
amanhã.)

49
Grammar A Look Into Data Engineering

- opções, ambos servem


• If I get a promotion, I’ll travel to Europe. (Se eu tiver uma
promoção, eu vou viajar para a Europa.)
- condição ou suposição, apenas “if” serve
• It depends on whether I get home early. (Depende se eu
chegar em casa cedo.)
- após preposição, apenas “whether” serve
• I don’t know whether to go to the party or not. (Eu não sei se ir
à festa ou não.)
- junto com infinitivo, apenas “whether” serve

I’ll leave you to it

O verbo “to leave” significa “deixar”, “abandonar”, “largar”, mas


também “ir embora”, “partir”, dependendo do contexto. Neste
contexto, indica que uma pessoa vai deixar a outra sozinha para
fazer algo, como as tarefas combinadas.

I wouldn’t worry about committing


yourself to one cloud provider.

Vemos novamente um verbo sendo usado depois de uma


preposição (como “about” acima), e por isso ele está na forma
“-ing”. Por isso, o verbo “to commit” se transforma em “about
commiting”.
50
Mistakes A Look Into Data Engineering

Neste curso, você talvez já tenha notado que nem todos os professores são
falantes nativos de inglês. Isso foi proposital, para te mostrar que é possível ser
extremamente fluente em inglês, a nível de trabalhar e fazer apresentações no
idioma, e mesmo assim cometer pequenos errinhos.

Nesta seção, vamos explicar quais foram esses errinhos cometidos durante a
aula e como corrigi-los.

Data Engineering skills are one of the most in-demand skills


Frase correta: Data Engineering skills are some of the most in-demand skills

Explicação: Como na primeira frase temos algo no plural (“skills”), não podemos usar
“one of the most”, que seria para algo no singular. Basta substituir o “one” por “some of
the most”.

Various data vendors might have a varying data availability


Frase correta: Various data vendors might have varying data availability.

Explicação: Foram dois erros. O primeiro é que não havia a necessidade do artigo
definido “a”, já que a palavra “availability” é incontável. O outro foi a pronúncia de
“varying”, que deve ser pronunciada com a sílaba tônica na primeira sílaba, e deve soar
mais ou menos como /VÉ-ry-ing/.

on everyday basis
Frase correta: on an everyday basis

Explicação: Expressão usada muitas vezes, mas o correto é sempre ter o artigo
definido. Esse e outros erros com artigos são provavelmente causados pelo fato de a
instrutora dessa aula ter como língua nativa uma língua eslava, na qual não existem
artigos.

51
Mistakes A Look Into Data Engineering

in any necessary way


Frase correta: in any way necessary

Explicação: Não é exatamente um erro, mas essa frase é mais comum com essas duas
palavras invertidas, “necessary” no final.

Extraction stage means downloading the data


Frase correta: The extraction stage means downloading the data

Explicação: Faltou o artigo definido “the”, já que estamos falando de um estágio


específico.

Transform stage is the next stage


Frase correta: The transform stage is the next stage

Explicação: Também faltou o artigo definido “the”, já que estamos falando de um


estágio específico.

There is a number of available libraries


Frase correta: There are a number of available libraries

Explicação: A expressão “a number of (something)” significa “uma série de”, “um grande
número de”, e apesar de parecer ser algo no singular por causa do artigo “a”, pede que
o verbo tenha a concordância no plural. Por isso, precisamos dizer sempre “there are a
number of (something)”.

It doesn’t necessarily have to be data vendor’s fault


Frase correta: It doesn’t necessarily have to be the data vendor’s fault

Explicação: Também faltou o artigo definido “the”, já que estamos falando de um


fornecedor de dados específico.

52
Mistakes A Look Into Data Engineering

under the hood


Explicação: Um pequeno erro de pronúncia. A palavra “hood” é pronunciada com o
“oo” curto, não o longo.

Let’s see how this might look like in practice


Frase correta: “Let’s see how this might look in practice” ou “Let’s see what this
might look like in practice”

Explicação: Erro muito comum. Os verbos “to look” e “to look like” em inglês podem
ambos ser traduzidos como “parecer”, “aparentar”, “ter a aparência de”, mas não podem
ser combinados com as mesmas palavras. A palavra “how” vai com o verbo “to look”
(nunca com “to look like”); já a palavra “what” vai com “to look like”.

They don’t mind


Frase correta: “They don’t care” ou “They don’t mind either way”

Explicação: Não é exatamente um erro, mas nesse contexto específico, seria muito
mais comum a frase “They don’t care”, ou então complementar com “They don’t mind
either way”.

in the nutshell
Frase correta: in a nutshell

Explicação: Aqui ocorreu uma confusão com os artigos. Essa frase é muito usada, e
apesar de “nutshell” significar literalmente “casca de noz”, a expressão “in a nutshell”
significa na verdade algo como “em poucas palavras” ou “resumidamente”.

53
Mistakes A Look Into Data Engineering

Can you give me an idea of how long this is going to take you, and
what technologies are you going to use?
Frase correta: Can you give me an idea of how long this is going to take you, and what
technologies you are going to use?

Explicação: Outro erro muito comum cometido até por alunos muito avançados. Isso
é uma questão de “embedded questions”, as perguntas indiretas. Nesse tipo de frase,
temos geralmente uma pergunta dentro de outra, e o que acontece é que não existe
mais aquela inversão do sujeito com o verbo (comum em perguntas normais) para a
pergunta “interna”, e até o auxiliar “do” não é mais necessário. Exemplos:

• Pergunta normal: Where does he live?


• Pergunta indireta: Can you tell me where he lives?

• Pergunta normal: What are you going to use?


• Pergunta indireta: Do you know what you are going to use?

Entendeu? A primeira pergunta (“Can you tell..?” e “Do you know…?”) engloba a pergunta
interna, e dessa forma, a pergunta interna se comporta como uma frase afirmativa,
perdendo as características de pergunta.

54

You might also like