Professional Documents
Culture Documents
Digital Version Archive
Digital Version Archive
UNIVERZITA
FAKULTA INFORMATIKY
Diplomová práca
MILOŠ FERENČÍK
Diplomová práca
MILOŠ FERENČÍK
Miloš Ferenčík
iii
Poďakovanie
iv
Zhrnutie
Klučové slová
v
Obsah
Úvod 1
3 Apache Parquet 15
3.1 Štruktúra parquet súboru 15
3.2 Metadáta 16
3.3 Kódovanie 17
3.4 Kompresia 18
4 Google BigQuery 19
4.1 Architektúra 19
4.1.1 Dremel 19
4.1.2 Colossus 21
4.1.3 Jupiter 21
4.1.4 Borg 22
4.2 Dopytovanie 22
4.3 Uloženie dát 23
4.3.1 Organizácia dát 23
4.3.2 Nahrávanie dát 23
4.3.3 Export dát 25
4.3.4 Formát uloženia 26
4.3.5 Optimalizácie pre zlepšenie výkonu dopytovania 26
4.4 Integrácia v G C P 29
vi
4.5 Bezpečnosť 30
4.6 Poplatky 30
6 Metodológia 35
6.1 Dátové súbory 35
7 Výsledky 38
8 Záver 45
Bibliografia 4 6
vii
Úvod
1
Čo sa týka štruktúry zvyšku tejto práce, tak v kapitole 1 je popí
sané, v akých oblastiach môžu byť aplikované sieťové toky. Kapitola 2
objasňuje celý proces od získavania sieťových tokov až po ich analýzu.
Formát Apache Parquet je popísaný v kapitole 3. Cieľom kapitoly 4
je priblížiť fungovanie nástroja Google BigQuery. Kapitola 5 popisuje
dátový súbor sieťových tokov použitý v následných porovnaniach.
Metódy použité v našich porovnaniach sú vysvetlené v kapitole 6.
V kapitole 7 sú uvedené výsledky porovnaní. Nakoniec tento doku
ment uzavrieme v kapitole 8, kde vyvodíme naše závery.
2
1 Využitie sieťových tokov
3
i . VYUŽITIE SIEŤOVÝCH TOKOV
4
i . VYUŽITIE SIEŤOVÝCH TOKOV
• Skenovanie portov
Skenovanie portov je útok, ktorý priamo neničí cieľový systém,
ale získa otvorené porty systému, ktoré sú použité v ďalších
útokoch v budúcnosti. Skenovanie je zvyčajne vykonávané syste
maticky pomocou zasielania malých paketov.
• Červa (Worm)
Červ je samostatný škodlivý program. Využíva zraniteľnosť soft-
véru alebo sociálne inžinierstvo na oklamanie používateľov k re-
plikácii naprieč sieťou. Spektrum následkov po infiltrácii červa
zahŕňa rôzne nepríjemné efekty ako poškodenie údajov alebo
softvéru, DoS, krádež údajov atď. Detekcia skenovania portov
je jedným z dôležitých krokov p r i detekcii červov, a preto sa
v oboch typoch detekcie používa veľa podobných prístupov. Prí
stupy založené na sieťových tokoch zahŕňajú: analýzu správania
hostiteľa na základe prichádzajúcich a odchádzajúcich pripojení,
koreláciu medzi údajmi zo sieťových tokov a údajmi z honeypot,
a detekciu hit-list červov pomocou grafovej analýzy.
5
i . VYUŽITIE SIEŤOVÝCH TOKOV
• Botnet
Botnet je malvér v infikovanom zariadení, ktorý je ovládaný
vzdialene. Je považovaný za veľkú bezpečnostnú hrozbu, pre
tože prostredníctvom neho sú vykonávané ďalšie kybernetické
zločiny ako DDoS útoky, spamovanie, phishing, krádež identity
a iné. N a ovládanie botnetov sa používajú komunikačné kanály
od centralizovaných IRC a H T T P po decentralizované P2P siete.
Detekcia botnetu je relatívne náročnejšia ako detekcia červov
či skenovanie portov. Najnovšie prístupy využívajú pokročilé
metodológie a kombinujú informácie na úrovni hostiteľa a siete.
6
2 Architektúra monitorovania sieťových tokov
7
2. ARCHITEKTÚRA MONITOROVANIA SIEŤOVÝCH TOKOV
•značenie časovou
Vzorkovanie
známkou
8
2. ARCHITEKTÚRA MONITOROVANIA SIEŤOVÝCH TOKOV
9
2. ARCHITEKTÚRA MONITOROVANIA SIEŤOVÝCH TOKOV
10
2. ARCHITEKTÚRA MONITOROVANIA SIEŤOVÝCH TOKOV
s
Množina \ Čas Exportu
\
Množina
11
2. ARCHITEKTÚRA MONITOROVANIA SIEŤOVÝCH TOKOV
12
2. ARCHITEKTÚRA MONITOROVANIA SIEŤOVÝCH TOKOV
13
2. ARCHITEKTÚRA MONITOROVANIA SIEŤOVÝCH TOKOV
14
3 Apache Parquet
15
3- A P A C H E PARQUET
nie
Magic Number (4 bytes): "PARI"
Row group 0
Column a Footer
PageG F i l e M e t a D a t a (ThriftCompactProtocol)
Column b
3.2 Metadáta
16
3- A P A C H E PARQUET
I exportDate»2021 -08-07
3.3 Kódovanie
17
3- A P A C H E PARQUET
KeylBils] Value
00 257
inarv H
dine 01 259
10 262
templatelD | 00 •o Ol 00 0 03
3.4 Kompresia
18
4 Google BigQuery
4.1 Architektúra
4.1.1 Dremel
19
4- G O O G L E B I G Q U E R Y
20
4- G O O G L E B I G Q U E R Y
4.1.2 Colossus
4.1.3 Jupiter
21
4- G O O G L E B I G Q U E R Y
4.1.4 Borg
4.2 Dopytovanie
22
4- G O O G L E B I G Q U E R Y
Nahrávanie po dávkach
23
4- G O O G L E B I G Q U E R Y
Faster
Avro (Compressed)
A v r o (Uncompressed)
Parquet/ORC
O
•
CSV/
UKÍ:
JSON BigQuery
CSV ( C o m p r e s s e d )
JSON ( C o m p r e s s e d )
Slower
Obr. 4.2: Výkon nahrávania dát pre podporované formáty. Zdroj: [23].
24
4- G O O G L E B I G Q U E R Y
Export job
Export S Q L príkaz
25
4- G O O G L E B I G Q U E R Y
26
4- G O O G L E B I G Q U E R Y
Partitioning
27
4- G O O G L E B I G Q U E R Y
2021 - 0 6 - 0 7 147.251.48.3 31
Partitioning padl'a\
exportDate
2021 -OB-OB 147251.402 15 2021-OB-OB 147.251.48.1
20210808
2021 oe-09 147.251.48.1 5 2021-06-03 147.251.48.2
Clustering
28
4- G O O G L E B I G Q U E R Y
Clustering p o d ľ a \
2021-0B-07 147.251.48.3 31 147.251.48.1 2021-08-09 5
srclPv4
29
4- G O O G L E B I G Q U E R Y
4.5 Bezpečnosť
4.6 Poplatky
30
4- G O O G L E B I G Q U E R Y
31
4- G O O G L E B I G Q U E R Y
32
5 Proces generovania a uloženia dát
M
^•expor:Dale=2G2l-03-07 exportDate=2Q21 - W. - Q 6 expo rtDate=2021-08-09
33
5- PROCES GENEROVANIA A ULOŽENIA DÁT
34
6 Metodológia
35
6. M E T O D O L Ó G I A
36
6. M E T O D O L Ó G I A
37
7 Výsledky
38
7- VÝSLEDKY
výpočet, avšak tým viac času sa strávi čakaním, keďže zdroje nemusia
byť ihneď k dispozícii.
39
7- VÝSLEDKY
— 1 — dataset-Big Query
— 1 — dataset-GCS-1
—\— dataset-GCS-5
—I— dataset-GCS-60-B
• I
/VvV A.
i, ..a i -
^\
N e t w o r k d a t a [hours]
40
7- VÝSLEDKY
N e t w o r k d a t a [hours]
dataset-Big Query
dataset-GCS-1
dataset-GCS-5
dataset-GCS-60-B
dataset-GCS-60
41
7- VÝSLEDKY
42
7- VÝSLEDKY
.Á f 1
-4 HA
Str
T |
43
7- VÝSLEDKY
• 12 24 36 48 60 72
N e t w o r k d a t a [hours]
44
8 Záver
45
Bibliografia
46
BIBLIOGRAFIA
47
BIBLIOGRAFIA
48
BIBLIOGRAFIA
49
A Obsah priloženého archívu
• /LICENSE
• /README.md
50