Professional Documents
Culture Documents
Presentation: A Look Into Data Engineering
Presentation: A Look Into Data Engineering
Lesson Transcript 03
Transcript + Translation 11
Vocabulary 30
Grammar 39
Mistakes 51
Today we are going to talk about Data Engineering. Data Engineering is one of the
most in-demand job titles, and Data Engineering skills are one of the most in-
demand skills at the moment. The demand for Data Engineering skills is surpassing
the demand for Data Science skills. So, what is Data Engineering?
Data Engineering is a very broad discipline. The ultimate goal of Data Engineering is
to provide a consistent data flow to enable data-driven applications. To better
understand what Data Engineering is all about in practice, let’s talk about some
common tasks that Data Engineers do.
Number one: data scouting. Scouting means “searching for”. There is a significant
number of data vendors or data providers out there. They provide various kinds of
data: financial data; supermarket footfall data, so, how many people enter a store at
any given time; weather data, and many other kinds of data. The examples are endless.
But various data vendors might have a varying data availability or data frequency,
for example, in terms of geographic breakdown, geographic coverage, or in terms
of...you know, how often the data is collected. So, some vendors might offer daily
data, and some other vendors might offer weekly data. Some vendors might offer data
from the US, some vendors might offer data from, let’s say, Europe, or some other
places.
Various data vendors might also have completely different pricing strategies.
3
Lesson Transcript A Look Into Data Engineering
So, the task of a Data Scout, or a Data Engineer wearing a Data Scout’s hat, is
to understand what kind of data is the best solution, or the best value-for-money.
You know, for example, what kind of data will allow the company that the Data
Engineer is working for to generate the best investment insights, for example. So,
all in all, a Data Engineer will choose the best data vendor based on the most suitable
offering.
Task number two is creating data pipelines. Once it is agreed what kind of data the
company needs to onboard, the Data Engineer’s task is to actually onboard it and
to facilitate that data flow. So, let’s say we’re dealing with daily stock market data. A
Data Engineer’s role is to ensure that the data is coming in daily and gets saved in the
databases, so that Data Scientists or Data Analysts can use it on everyday basis.
That data flow is referred to as a “data pipeline”.
So, a data pipeline is basically a program or a script that downloads the data, then
transforms it in any necessary way, and then saves it, loads it to a database. Another
name for the process is “ETL process”, which stands for “extract, transform and load”.
Extraction stage means downloading the data. The data might be provided in
various ways, for example, it might be exposed as an API, or it can be provided on
the FTP server - FTP standing for “file transfer protocol”. The data can also be web
scraped, which means that the Data Engineer will download the data that is exposed on
a website, for example, downloading the pricing of cinema tickets on a cinema booking
website. The data might also come in various formats, for example, it might come as
CSV files, JSON objects, XML files, and so on, and so on.
4
Lesson Transcript A Look Into Data Engineering
Transform stage is the next stage in the ETL process. In this stage the data is
transformed. So, for example, the data might be downloaded in a compressed format,
but it obviously needs to be decompressed. So, that’s what a Data Engineer would
do at this stage. It might be worth mentioning that there are various compression
formats: ZIP, TAR, and more, so again, a Data Engineer needs to be comfortable with
multiple options here.
The data also needs to be validated. So, it needs to be checked for any duplicates,
or any missing values. So, at this stage, a Data Engineer will also write a couple of
functions that validate if the data is of high quality. You know, because it might be the
case that one table is split across many different files, or it might be the case that
the same table is contained in multiple files, so we have duplicates, and there might
be some other edge cases that we want to prevent from happening or from
landing in our databases. So, a Data Engineer will have to detect them.
Lastly, the Load stage is all about saving the data in databases. There are multiple
databases out there, or multiple file storage systems. The data might be stored “on
premise”, which means it is stored on the servers owned by the company; it can also
be stored in a special file storage system called “Hadoop”, which allows for distributed
processing of large data sets across clusters of computers. This is particularly useful
when we’re dealing with large amounts of data. Alternatively, the data can also be stored
in the cloud. So, for example, in S3 buckets using Amazon’s AWS, or some other cloud
provider like Google or Azure; and there are obviously pros and cons of this approach.
5
Lesson Transcript A Look Into Data Engineering
The definite advantage of storing data in the cloud is obviously the scalability of
that. So, whenever you need to add a little bit of more data, the storage is easily
available. This is not the case with the “on prem” or “on premise” storage, because
that requires a large upfront investment in the servers. However, depending on the
amount of data and the frequency with which you are querying the data, it might
work out to be cheaper to store the data “on premise”.
Data pipelines are written in programming languages such as Python or Java. Python
is currently the most popular language for this task. This is because it is easy to use,
easy to learn, and there is a number of available libraries that are very well
suited for Machine Learning and Data Engineering applications. The whole data flow
or the whole pipeline needs to be scheduled to run on a given basis, for example,
daily; and there are multiple tools which allow for scheduling of data pipelines,
for example, Jenkins or Airflow.
Once the data pipeline is scheduled and the data comes in daily, a Data Engineer’s
role is to monitor the data pipelines for any failures. On any given day, a data
vendor might send a file with missing values, or with duplicates, or with any other
nasty things that we don’t want in our data. But also, it doesn’t necessarily have to
be data vendor’s fault if a data pipeline is failing, it might simply be due to the fact
that, for example, we are running out of storage on one of our servers, in which case
we also have to intervene.
6
Lesson Transcript A Look Into Data Engineering
In addition to monitoring data pipelines, a Data Engineer also has to support business
users on everyday basis. This help might take two forms: ad hoc help, which means
assisting people when and if they say they need help; and project-based work.
When it comes to the “ad hoc” help, Data Engineers might, for example, need to
support a business user when they don’t know how to connect to the database.
For example, they are new to the company and they just don’t know how to log in to
the server, how to install the necessary drivers, or they face any other issue that is data
related. Then, your job as a Data Engineer is to assist them.
Project-based work takes a slightly different shape. For example, imagine that there is
a Data Analyst querying five different tables, joining them in SQL on everyday basis.
Well, that’s annoying.
So, what you might be working on as a Data Engineer is creating a view on those
tables, so that it is way easier for the Data Analyst to query the data, a view which
joins those five tables under the hood, but only presents an abstraction layer for
the business user, so that they don’t have to worry about the details of how those
tables are joined together. So, basically, you might be just making other people’s
lives easier by helping them to deal with the data in this way.
Now let’s see how this might look like in practice. So, let’s pretend that I’m a Data
Engineer and my boss is calling me to discuss the new Data Engineering project:
7
Lesson Transcript A Look Into Data Engineering
• Boss: Hi, Karolina. We’ve just received a request from the Data Science team.
They need us to onboard the MSCI index data for their new project. You’ll be
working on building a data feed for that data. Does that sound good?
• Karolina: Sure, sounds good. Where would they like us to store the data?
• Boss: They don’t mind, so we might either store it “on prem”, on HDFS, in our
Hadoop ecosystem, or we might store it in the cloud, in AWS. What do you think?
• Boss: It’s going to be a daily feed. Each day takes up roughly five gigs.
• Boss: No. Fortunately, no backfilling will be necessary now, just for an MVP. They
might need it later, but I’ll put it in the backlog. For now, we just want to onboard
the data and just start from... from today’s date.
• Karolina: Cool. Sounds good. But that’s still plenty of data going forward, so I
suggest we store it on HDFS, that is, on premise, because otherwise we’re going
to end up paying a lot for the cloud.
8
Lesson Transcript A Look Into Data Engineering
• Boss: Perfect! That’s exactly what I was thinking myself. Can you give me an idea
of how long this is going to take you, and what technologies are you going
to use? Just so that I can have an idea of what you’re working on.
• Karolina: Well, I’ll need to have a look at the data first, to assess the quality and
see whether this is going to be a difficult project or not, but judging by
previous projects with financial data and no backfilling, I think that this is going
to take roughly two weeks. I’m probably just going to write some Python ETL
scripts, and then, create some Hive tables for our HDFS storage, and then, I’ll just
schedule the data pipeline in Jenkins, and… yeah… we should be good.
• Boss: Yeah. Sounds like you know what you’re talking about. I’ll leave you to it,
bye.
• Like I mentioned in the beginning, Data Engineering is one of the most sought-
after careers in the IT industry. So, how do you become a Data Engineer? The
most necessary skill is knowledge of a data programming language, for example,
Python or Java. The second most important skill is the knowledge of databases
and database language: SQL. Lastly, a Data Engineer should be familiar with some
Computer Science concepts, such as networking or some basic algorithms.
In terms of learning how to develop data pipelines in the cloud, various companies
might use various providers. So, it doesn’t necessarily have to be AWS. Other
companies might use Google Cloud, and other companies might use Microsoft Azure.
9
Lesson Transcript A Look Into Data Engineering
So, I wouldn’t worry about committing yourself to one cloud provider, it’s just
more about understanding the concept and the general idea of being able to store
the data in the cloud. However, it might be quite useful to learn at least one data
provider of your choice, so that... you know, you can have those transferable skills
that you can then apply to another data provider, if need be.
How can you find a Junior Data Engineering role? Well, there are a few routes. The
first route is, you might simply apply for Data Engineering… Junior Data Engineering
positions at various companies, if you learn the necessary skills to apply.
Two: you might apply for graduate schemes for university graduates. Such schemes
are run by a majority of large corporations, such as investment banks or telecom
companies. The advantage of this route is that fresh graduates don’t have to have
great technical skills, you’re hired for your potential.
And three: you might apply for data consultancies. Such companies train you up and
equip you with all the necessary skills, and then, they place you with a client. You are
paid throughout the whole training and the placement with the client. However,
your rate might be below the market rate, because, obviously, the consultancy has to
make money on you. So, it is a good route of entering the Data Engineering world, but
it’s just worth remembering this point.
10
Transcript + Translation A Look Into Data Engineering
English Português
Today we are going to talk about Data Hoje nós vamos falar sobre Engenharia
Engineering. Data Engineering is one of de Dados. Engenharia de Dados é um dos
the most in-demand job titles, and cargos mais requisitados, e habilidades
Data Engineering skills are one of the em Engenharia de Dados são algumas
most in-demand skills at the moment. das habilidades mais requisitadas no
The demand for Data Engineering skills is momento. A demanda por habilidades
surpassing the demand for Data Science em Engenharia de Dados está superando
skills. So, what is Data Engineering? a demanda por habilidades em Ciência
de Dados. Então, o que é Engenharia de
Dados?
is all about in practice, let’s talk about entender melhor do que se trata a
some common tasks that Data Engineers Engenharia de Dados na prática, vamos
11
Transcript + Translation A Look Into Data Engineering
English Português
They provide various kinds of data: Eles fornecem vários tipos de dados:
financial data; supermarket footfall data, dados financeiros; dados de tráfego de
so, how many people enter a store at any supermercados, então, quantas pessoas
given time; weather data, and many other entram em uma loja em um determinado
kinds of data. The examples are endless. momento; dados meteorológicos e muitos
outros tipos de dados. Os exemplos são
intermináveis.
But various data vendors might Mas vários fornecedores de dados podem
have a varying data availability or ter disponibilidade de dados ou frequência
data frequency, for example, in terms of de dados variável, por exemplo, em
geographic breakdown, geographic termos de divisão geográfica, cobertura
coverage, or in terms of...you know, geográfica ou em termos de... sabe, com
how often the data is collected. que frequência os dados são coletados.
So, some vendors might offer daily data, Então, alguns fornecedores podem
and some other vendors might offer oferecer dados diários, e alguns outros
weekly data. fornecedores podem oferecer dados
semanais.
12
Transcript + Translation A Look Into Data Engineering
English Português
Some vendors might offer data from the Alguns fornecedores podem oferecer
US, some vendors might offer data from, dados dos Estados Unidos, alguns
let’s say, Europe, or some other places. fornecedores podem oferecer dados da,
Various data vendors might also have digamos, Europa, ou de alguns outros
completely different pricing strategies. lugares. Vários fornecedores de dados
também podem ter estratégias de
precificação completamente diferentes.
So, the task of a Data Scout, or a Data Então, a tarefa de um Data Scout, ou
Engineer wearing a Data Scout’s hat, de um Engenheiro de Dados no papel
is to understand what kind of data is de Data Scout, é entender que tipo de
the best solution, or the best value-for- dados é a melhor solução ou o melhor
money. You know, for example, what custo-benefício. Sabe, por exemplo, que
kind of data will allow the company that tipo de dados vão permitir à empresa
the Data Engineer is working for to para a qual o Engenheiro de Dados está
generate the best investment insights, trabalhando gerar os melhores insights
for example. So, all in all, a Data Engineer de investimento, por exemplo. Então,
will choose the best data vendor based em suma, um Engenheiro de Dados vai
on the most suitable offering. escolher o melhor fornecedor de dados
baseado na oferta mais adequada.
13
Transcript + Translation A Look Into Data Engineering
English Português
what kind of data the company needs que tipo de dados a empresa precisa
to onboard, the Data Engineer’s task incorporar, a tarefa do Engenheiro de
is to actually onboard it and to facilitate Dados é efetivamente incorporá-lo e
that data flow. So, let’s say we’re dealing facilitar esse fluxo de dados. Então,
with daily stock market data. A Data digamos que nós estamos lidando com
Engineer’s role is to ensure that the data dados diários do mercado de ações. A
is coming in daily and gets saved in the função de um Engenheiro de Dados é
databases, so that Data Scientists or garantir que os dados estejam chegando
Data Analysts can use it on everyday diariamente e sejam salvos nos bancos
basis. That data flow is referred to as de dados, para que Cientistas e Dados ou
a “data pipeline”. Analistas de Dados possam usá-los em
uma base diária. A esse fluxo de dados nos
referimos como um “pipeline de dados”.
14
Transcript + Translation A Look Into Data Engineering
English Português
15
Transcript + Translation A Look Into Data Engineering
English Português
So, for example, the data might be Então, por exemplo, os dados podem ser
downloaded in a compressed format, but baixados em um formato compactado,
it obviously needs to be decompressed. mas eles obviamente precisam ser
So, that’s what a Data Engineer would do at descompactados. Então, isso é o que um
this stage. It might be worth mentioning Engenheiro de Dados faria nesse estágio.
that there are various compression Pode valer a pena mencionar que existem
formats: ZIP, TAR, and more, so again, a vários formatos de compactação: ZIP, TAR
Data Engineer needs to be comfortable e mais, então novamente, um Engenheiro
with multiple options here. de Dados precisa estar confortável com
múltiplas opções aqui.
The data also needs to be validated. So, it Os dados também precisam ser validados.
needs to be checked for any duplicates, Então, eles precisam ser verificados
or any missing values. So, at this stage, para quaisquer duplicatas ou quaisquer
a Data Engineer will also write a couple valores faltantes. Então, nesse estágio,
of functions that validate if the data is of um Engenheiro de Dados também vai
high quality. You know, because it might escrever algumas funções que validam
be the case that one table is split across se os dados são de alta qualidade. Sabe,
many different files, or it might be the porque pode ser o caso de que uma
case that the same table is contained tabela esteja dividida em muitos arquivos
in multiple files, so we have duplicates, diferentes, ou pode ser o caso de que a
mesma tabela esteja contida em vários
arquivos, então nós temos duplicatas,
16
Transcript + Translation A Look Into Data Engineering
English Português
and there might be some other edge e pode ser que haja alguns outros casos
cases that we want to prevent from limite que nós queiramos evitar que
happening or from landing in our aconteçam ou que caiam nos nossos
databases. So, a Data Engineer will have bancos de dados. Então, um Engenheiro
to detect them. de Dados vai ter que detectá-los.
Lastly, the Load stage is all about Por último, o estágio de Carregamento
saving the data in databases. There are se trata de salvar os dados em bancos
file storage systems. The data might be dados por aí, ou múltiplos sistemas de
is stored on the servers owned by the podem ser armazenados “on premise”, o
company; it can also be stored in a special que significa que eles são armazenados
allows for distributed processing of large empresa; eles também podem ser
17
Transcript + Translation A Look Into Data Engineering
English Português
English Português
Once the data pipeline is scheduled and Uma vez que o pipeline de dados
the data comes in daily, a Data Engineer’s esteja agendado e os dados cheguem
role is to monitor the data pipelines diariamente, o papel do Engenheiro de
for any failures. Dados é monitorar os pipelines de dados
em busca de quaisquer falhas.
19
Transcript + Translation A Look Into Data Engineering
English Português
But also, it doesn’t necessarily have Mas também, não necessariamente tem
to be data vendor’s fault if a data que ser culpa do fornecedor de dados se
pipeline is failing, it might simply be due um pipeline de dados estiver falhando,
to the fact that, for example, we are pode ser simplesmente devido ao fato de
running out of storage on one of our que, por exemplo, nós estamos ficando
servers, in which case we also have to sem armazenamento em um de nossos
intervene. servidores, caso no qual nós também
temos que intervir.
20
Transcript + Translation A Look Into Data Engineering
English Português
When it comes to the “ad hoc” help, Quando se tratar de ajuda “ad hoc”,
Data Engineers might, for example, os Engenheiros de Dados podem, por
need to support a business user when exemplo, precisar dar suporte a um
they don’t know how to connect to usuário de negócios quando ele não
the database. For example, they are new souber como se conectar ao banco
to the company and they just don’t know de dados. Por exemplo, ele é novo na
how to log in to the server, how to install empresa e ele simplesmente não sabe
the necessary drivers, or they face any como fazer login no servidor, como
other issue that is data related. Then, instalar os drivers necessários, ou ele se
your job as a Data Engineer is to assist depara com qualquer outro problema
them. que for relacionado a dados. Aí, o seu
trabalho como Engenheiro de Dados é
ajudá-lo.
21
Transcript + Translation A Look Into Data Engineering
English Português
So, what you might be working on as a Então, uma coisa na qual você pode estar
Data Engineer is creating a view on those trabalhando como Engenheiro de Dados
tables, so that it is way easier for the é criar uma view nessas tabelas, para que
Data Analyst to query the data, a view seja mais fácil para o Analista de Dados
which joins those five tables under the consultar os dados, uma view que una
hood, but only presents an abstraction essas cinco tabelas debaixo dos panos,
layer for the business user, so that mas que só apresente um camada de
they don’t have to worry about the abstração para o usuário de negócios,
details of how those tables are joined para que ele não precise se preocupar
together. So, basically, you might be sobre os detalhes de como essas tabelas
just making other people’s lives easier são unidas. Então, basicamente, você pode
by helping them to deal with the data in simplesmente estar tornando mais fáceis
this way. as vidas de outras pessoas, ajudando-as a
lidar com os dados dessa maneira.
Now let’s see how this might look like Agora vamos ver como isso pode parecer
in practice. So, let’s pretend that I’m a na prática. Então, vamos fingir que sou
Data Engineer and my boss is calling me to uma Engenheira de Dados e o meu chefe
discuss the new Data Engineering project: está me ligando para discutir o novo
projeto de Engenharia de Dados:
Boss: Hi, Karolina. We’ve just received a Chefe: Oi, Karolina. Nós acabamos de
request from the Data Science team. receber uma solicitação do time de
Ciência de Dados.
22
Transcript + Translation A Look Into Data Engineering
English Português
They need us to onboard the MSCI Eles precisam que nós incorporemos
index data for their new project. You’ll os dados do índice MSCI para o novo
be working on building a data feed projeto deles. Você vai trabalhar na
for that data. Does that sound good? construção de um feed de dados
para esses dados. Isso parece bom?
Karolina: Sure, sounds good. Where Karolina: Claro, parece bom. Onde eles
would they like us to store the data? gostariam que nós armazenássemos os
dados?
Boss: They don’t mind, so we might Chefe: Eles não se importam, então nós
either store it “on prem”, on HDFS, in our podemos armazená-los “on prem”, no
Hadoop ecosystem, or we might store it HDFS, em nosso ecossistema Hadoop, ou
in the cloud, in AWS. What do you think? nós podemos armazená-los na nuvem, na
AWS. O que você acha?
Karolina: How much data is it? And what’s Karolina: Qual é a quantidade de dados?
the frequency? E qual é a frequência?
Boss: It’s going to be a daily feed. Each Chefe: Será um feed diário. Cada dia
day takes up roughly five gigs. ocupa aproximadamente cinco gigas.
Karolina: Are we going to have to Karolina: Nós vamos ter que preencher o
backfill the history? histórico?
23
Transcript + Translation A Look Into Data Engineering
English Português
Karolina: Cool. Sounds good. But that’s Karolina: Legal. Parece bom. Mas
still plenty of data going forward, so I ainda tem muitos dados sendo
suggest we store it on HDFS, that is, on transmitidos, então eu sugiro que nós
premise, because otherwise we’re going os armazenemos no HDFS, ou seja, on
to end up paying a lot for the cloud. premise, porque do contrário nós vamos
acabar pagando muito pela nuvem.
Boss: Perfect! That’s exactly what I was Chefe: Perfeito! Isso é exatamente o que
thinking myself. Can you give me an eu mesmo estava pensando. Você pode
idea of how long this is going to take me dar uma ideia de quanto tempo isso
you, and what technologies are you vai levar, e quais tecnologias você vai
going to use? Just so that I can have usar? Só para que eu possa ter uma ideia
an idea of what you’re working on. daquilo no que você está trabalhando.
24
Transcript + Translation A Look Into Data Engineering
English Português
Karolina: Well, I’ll need to have a look Karolina: Bem, eu vou precisar dar uma
at the data first, to assess the quality olhada nos dados primeiro, para avaliar a
and see whether this is going to be qualidade e ver se esse vai ser um projeto
a difficult project or not, but judging difícil ou não, mas julgando por projetos
by previous projects with financial data anteriores com dados financeiros e sem
and no backfilling, I think that this is preenchimento, eu acho que isso vai
going to take roughly two weeks. I’m levar aproximadamente duas semanas.
probably just going to write some Python Eu provavelmente só vou escrever
ETL scripts, and then, create some Hive alguns scripts ETL em Python, e aí, criar
tables for our HDFS storage, and then, algumas tabelas no Hive para o nosso
I’ll just schedule the data pipeline in armazenamento HDFS, e aí, eu só vou
Jenkins, and… yeah… we should be good. agendar o pipeline de dados no Jenkins e...
sim... isso deve ser o bastante para nós.
Boss: Yeah. Sounds like you know what Chefe: Sim. Parece que você sabe do que
you’re talking about. I’ll leave you você está falando. Eu vou deixar você com
to it, bye. isso, tchau.
25
Transcript + Translation A Look Into Data Engineering
English Português
26
Transcript + Translation A Look Into Data Engineering
English Português
How can you find a Junior Data Engineering Como você pode encontrar uma posição
role? Well, there are a few routes. The first de Engenheiro de Dados Júnior? Bem,
route is, you might simply apply for Data existem alguns caminhos O primeiro
Engineering… Junior Data Engineering caminho é, você pode simplesmente se
positions at various companies, if you candidatar para Engenharia de Dados...
learn the necessary skills to apply. posições Júnior em Engenharia de Dados
em várias empresas, se você aprender
as habilidades necessárias para se
candidatar.
27
Transcript + Translation A Look Into Data Engineering
English Português
Two: you might apply for graduate Dois: você pode se candidatar para
schemes for university graduates. Such programas de formação para graduados
schemes are run by a majority of large universitários. Tais esquemas são
corporations, such as investment banks administrados por uma maioria de
or telecom companies. The advantage of grandes corporações, como bancos
this route is that fresh graduates don’t de investimento ou empresas de
have to have great technical skills, you’re telecomunicações. A vantagem desse
hired for your potential. caminho é que recém-graduados não
têm que ter grandes habilidades técnicas,
você é contratado pelo seu potencial.
And three: you might apply for data E três: você pode se candidatar para
consultancies. Such companies train you consultorias de dados. Tais empresas
up and equip you with all the necessary te treinam e te equipam com todas as
skills, and then, they place you with a client. habilidades necessárias, e aí, te alocam
You are paid throughout the whole com um cliente. Você é pago ao longo de
training and the placement with the client. todo o treinamento e da alocação com o
cliente.
However, your rate might be below the No entanto, o seu salário pode estar
market rate, because, obviously, the abaixo do salário do mercado, porque,
consultancy has to make money on you. obviamente, a consultoria tem que fazer
dinheiro com você.
28
Transcript + Translation A Look Into Data Engineering
English Português
So, it is a good route of entering the Data Então, é um bom caminho para entrar
Engineering world, but it’s just worth no mundo da Engenharia de Dados,
remembering this point. mas vale a pena lembrar desse ponto.
29
Vocabulary A Look Into Data Engineering
demand in practice
Demanda. Na prática.
to surpass task
Superar. Tarefa.
30
Vocabulary A Look Into Data Engineering
31
Vocabulary A Look Into Data Engineering
suitable to ensure
Adequado. Garantir, certificar-se de. Sinônimo de “to
make sure”.
stock market
Mercado de ações.
32
Vocabulary A Look Into Data Engineering
33
Vocabulary A Look Into Data Engineering
checked to prevent
Vimos na frase “it needs to be checked”. Apesar de “to prevent” também significar
Particípio do verbo “to check”, que “prevenir” às vezes, ele muitas vezes
significa “verificar”. significa “evitar” ou “impedir”.
Caso limite, caso extremo. Conceito Propriedade (de), pertencente (a). Vem do
usado em testes de software para tentar verbo “to own”, que significa “possuir”.
identificar erros ou bugs que podem
ocorrer para os parâmetros limítrofes ou cluster
extremos de seu domínio. Exemplo: você
No sentido de estrelas, geralmente
vende álcool online, apenas para maiores
traduzimos como “aglomerado”. No
de 18 anos. Alguns “edge cases” seriam o
sentido de computadores, geralmente
dia antes de a pessoa completar 18 anos,
usamos a própria palavra inglesa
o dia que ela completou, o dia seguinte.
“cluster” para nos referir a um grupo
de computadores que trabalham em
conjunto.
34
Vocabulary A Look Into Data Engineering
35
Vocabulary A Look Into Data Engineering
36
Vocabulary A Look Into Data Engineering
37
Vocabulary A Look Into Data Engineering
fresh graduates
O adjetivo “fresh” pode significar “fresco”,
mas também pode ser traduzido como
“recém”, no contexto de algo recém feito
ou recém terminado. Os “fresh graduates”
seriam os “recém-graduados”.
to place
Colocar, pôr.
38
Grammar A Look Into Data Engineering
39
Grammar A Look Into Data Engineering
40
Grammar A Look Into Data Engineering
41
Grammar A Look Into Data Engineering
Como vimos na seção Vocabulary, o phrasal verb “to allow for” tem
um significado um pouco diferente de “to allow”, apesar de ambas
poderem ter a mesma tradução. Enquanto que “to allow” significa
“permitir” no sentido de dar uma permissão, uma causa e efeito; “to
allow for” significa “permitir” no sentido de “possibilitar”, “planejar”,
“deixar disponível”. Exemplo:
• The design of the system allows for easy upgrades. (O design do
sistema permite/possibilita melhorias fáceis.)
E como “for” é uma preposição, o verbo que vier depois dela estará
na forma “-ing”. Por isso o verbo “to schedule” se transforma em
“for scheduling”.
42
Grammar A Look Into Data Engineering
43
Grammar A Look Into Data Engineering
44
Grammar A Look Into Data Engineering
45
Grammar A Look Into Data Engineering
46
Grammar A Look Into Data Engineering
47
Grammar A Look Into Data Engineering
Além disso, como temos a preposição “on” de “to work on”, o verbo
depois dela está na forma “-ing”. Por isso, o verbo “to build” se
transforma em “on building”.
48
Grammar A Look Into Data Engineering
49
Grammar A Look Into Data Engineering
Neste curso, você talvez já tenha notado que nem todos os professores são
falantes nativos de inglês. Isso foi proposital, para te mostrar que é possível ser
extremamente fluente em inglês, a nível de trabalhar e fazer apresentações no
idioma, e mesmo assim cometer pequenos errinhos.
Nesta seção, vamos explicar quais foram esses errinhos cometidos durante a
aula e como corrigi-los.
Explicação: Como na primeira frase temos algo no plural (“skills”), não podemos usar
“one of the most”, que seria para algo no singular. Basta substituir o “one” por “some of
the most”.
Explicação: Foram dois erros. O primeiro é que não havia a necessidade do artigo
definido “a”, já que a palavra “availability” é incontável. O outro foi a pronúncia de
“varying”, que deve ser pronunciada com a sílaba tônica na primeira sílaba, e deve soar
mais ou menos como /VÉ-ry-ing/.
on everyday basis
Frase correta: on an everyday basis
Explicação: Expressão usada muitas vezes, mas o correto é sempre ter o artigo
definido. Esse e outros erros com artigos são provavelmente causados pelo fato de a
instrutora dessa aula ter como língua nativa uma língua eslava, na qual não existem
artigos.
51
Mistakes A Look Into Data Engineering
Explicação: Não é exatamente um erro, mas essa frase é mais comum com essas duas
palavras invertidas, “necessary” no final.
Explicação: A expressão “a number of (something)” significa “uma série de”, “um grande
número de”, e apesar de parecer ser algo no singular por causa do artigo “a”, pede que
o verbo tenha a concordância no plural. Por isso, precisamos dizer sempre “there are a
number of (something)”.
52
Mistakes A Look Into Data Engineering
Explicação: Erro muito comum. Os verbos “to look” e “to look like” em inglês podem
ambos ser traduzidos como “parecer”, “aparentar”, “ter a aparência de”, mas não podem
ser combinados com as mesmas palavras. A palavra “how” vai com o verbo “to look”
(nunca com “to look like”); já a palavra “what” vai com “to look like”.
Explicação: Não é exatamente um erro, mas nesse contexto específico, seria muito
mais comum a frase “They don’t care”, ou então complementar com “They don’t mind
either way”.
in the nutshell
Frase correta: in a nutshell
Explicação: Aqui ocorreu uma confusão com os artigos. Essa frase é muito usada, e
apesar de “nutshell” significar literalmente “casca de noz”, a expressão “in a nutshell”
significa na verdade algo como “em poucas palavras” ou “resumidamente”.
53
Mistakes A Look Into Data Engineering
Can you give me an idea of how long this is going to take you, and
what technologies are you going to use?
Frase correta: Can you give me an idea of how long this is going to take you, and what
technologies you are going to use?
Explicação: Outro erro muito comum cometido até por alunos muito avançados. Isso
é uma questão de “embedded questions”, as perguntas indiretas. Nesse tipo de frase,
temos geralmente uma pergunta dentro de outra, e o que acontece é que não existe
mais aquela inversão do sujeito com o verbo (comum em perguntas normais) para a
pergunta “interna”, e até o auxiliar “do” não é mais necessário. Exemplos:
Entendeu? A primeira pergunta (“Can you tell..?” e “Do you know…?”) engloba a pergunta
interna, e dessa forma, a pergunta interna se comporta como uma frase afirmativa,
perdendo as características de pergunta.
54