Download as pdf or txt
Download as pdf or txt
You are on page 1of 7

DETEKCIJA ANOMALIJA

UČENJE SA NADZOROM (supervised learning)

Kod učenja sa nadzorom, pretpostavlja se dostupnost skupa podataka o obuci. Skup podataka sadrži
slučajeve označene kao normalne ili koje pripadaju poznatim klasama anomalija. Tipičan pristup je
izgraditi klasni prediktivni model za normalno ponašanje, nasuprot abnormalnom ponašanju. Nove
instance podataka se testiraju na ovom modelu da bi se utvrdila pripadnost klasi. Dva glavna pitanja
javljaju se u otkrivanju anomalija koriste i nad ledani pristup:
 roj normalni slučajeva je o ično ve i od roja abnormalnih slučajeva u trening podacima.
 Do ijanje tačni i reprezentativni oznaka klasa, posebno za abnomalan slučaj, je vrlo teško.

a) Parametarska metoda (parametric method) pretpostavlja da se normalni podaci stvaraju koriš enjem
parametarske raspodele i funkcijom gustine verovatno e (probability density function - pdf). Parametri
potiču od dati podataka.

b) Kod neparametarskih statističkih metoda detekcije anomalija, model nije definisan unapred, ve se
odre uje iz da podataka. va klasa metoda ne pretpostavlja osnovni model, ve prila o ava svoj
mehanizam detekcije podacima. ično ovakve metode koriste manje pretpostavki o podacima u
pore enju sa parametarskim metodama. Jednostavna statistička neparametarska tehnika za pra enje
normalnog profila podataka je isto ram. Metoda isto rama je tako e poznata i kao metoda
zasnovana na frekvenciji ili brojanju. Takve metode su se pokazale efikasnim u detekciji mrežni
anomalija.
Prednosti parametarskih i neparametarskih metoda:
 Imaju sposo nost da nauče očekivano ponašanje sistema iz posmatranja.
 Mogu da pruže tačno o aveštenje o zlonamernim aktivnostima koje se javljaju tokom duže
vremenskog perioda pomo u postavljanja od ovaraju ih pragova.
 Analiziraju sao ra aj na osnovu teorije naglih promena, tj. prate sao ra aj duže vreme i
izveštavaju o alarmu ako do e do na li promena
Nedostaci:
 Osetljivi su ako i napadači o uče na način da se mrežni sao ra aj generisan tokom napada
smatra normalnim.
 Postavljanje vrednosti različiti parametara ili metrika je težak zadatak, pose no zato što je
ravnoteža izme u lažni pozitiva i lažnih negativa problematična. Štaviše, pretpostavlja se
statistička raspodela po varija li, ali ne mo u sva ponašanja da se modeluju koriste i sto as čke
metode. ored to a, ve ina šema se oslanja na pretpostavku kvazi-stacionarnog procesa, koji
nije uvek realan.
 Treba dosta vremena da se izvesti o anomaliji u prvom trenutku, jer izgradnja modela zahteva
duže vreme.
 Nekoliko statistika za testiranje hipoteza se primenjuje za otkrivanje anomalija. Izbor najbolje
statistike često nije direktan. Konkretno, konstruisanje testova ipoteza za složene distri ucije
koje su potrebne za skupove podataka velikih dimenzija nije trivijalan posao.
 Tehnike zasnovane na histogramu relativno su jednostavne za primenu, ali ključni nedostatak
ovih tehnika za multi-varijabilne podatke je da ne mogu da uhvate interakcije izme u atri uta.

NENADZIRANO UČENJE (unsupervised learning)

a) Metode klasterizacije rupišu podatke u klastere na osnovu mere sličnosti ili računanja udaljenosti.
Postupak koji se najčeš e koris za klasterizaciju počinje izborom reprezentativne tačke za svaki klaster.
Svaka testna tačka iz skupa podataka grupisana je po pripadnosti klasteru kome je tačka reprezentativni
predstavnik naj liža. vaj proces se o ično ponavlja. Klasterizacija ima mo u nost učenja i otkrivanja
anomalija ez traženja eksplicitni o jašnjenja klasa ili tipova anomalija od strane sistemskih
administratora. Prema tome, za otkrivanje anomalija na bazi klasterizacije nisu potrebni trening podaci
(obuka). Klasterizacija se široko primenjuje za detekciju mrežni anomalija.
b) Metode rudarenja (traženja) tačaka izvan neke rupe (outlier mining) pretražuju o jekte koji ne
od ovaraju pravilima i očekivanjima koja od ovaraju ve ini podataka. U kontekstu klasterizacije, outlier-
objekti u jednom skupu podataka su objekti izvan klastera. U odnosu na otkrivanje anomalije, outlier-i se
mogu smatrati napadima. Postoji mnogo pristupa detekciji outlier-a. Detekcija outlier-a često zavisi od
metoda koje se koriste, koriš eni pretpostavki i koriš enih struktura podataka. Metode detekcije
pomo u outlier-a se mogu klasifikovati na one zasnovane na rastojanju, na gustini i soft computing
pristupu. Rastojanja me u o jektima u skupu podataka se izračunavaju eometrijskim merama kod
detekcije outlier-a baziranoj na udaljenosti. U detekciji outlier-a zasnovanoj na gustini, gustina susednih
objekata se procenjuje za svaki podatak. Predmet koji leži u okruženju (susedstvu) niske gustine smatra
se outlier-om. Sa druge strane, o jekat koji leži u okruženju velike ustine smatra se normalnim.

c) Traženje (rudarenje) asocijativni pravila (association mining) je još jedna važna tehnika rudarenja
podataka. va te nika identifikuje do a aje koji se do a aju zajedno.

Prednosti metoda nenadzirano učenja za detekciju anomalija:


 Kod klasterizacije zasnovane na particijama, ako se k može proceniti tačno, zadatak postaje lak.
 Detekcija anomalija pomo u klasterizacije na bazi gustine ili rudarenja outlier-a je efikasna, jer se
čini prirodnim uklapanje u problem detekcije upada.
 Korisno je grupisati velike skupove podataka u više klasa za otkrivanje anomalija mreže, jer to
smanjuje složenost izračunavanja tokom detekcije upada.
 Kada su profili korisnika i normalno ponašanja sistema pravilno iz ra eni i enerisana pravila
pridruživanja (asocijacije), jednostavno je o učiti engine klasifikacije i zatim jedan po jedan
otkrivati poznate vrste napada.
Nedostaci:
 e ina te nika je u stanju da o ra uje samo kontinuirane atribute.
 detekciji upada zasnovanoj na klasteru, pretpostavka je da su ve i klasteri normalni, a manji su
napad ili upad. Bez ove pretpostavke, teško je koristiti ovu tehniku.
 Upotreba neod ovaraju e mere sličnosti može ne ativno da utiče na brzinu detekcije.
 Dinamičko ažuriranje profila za teva mno o vremena.
 Primena samo jednog oblika asocijativnog rudarenja je po rešan pristup, kada je u pitanju
identifikacija retkih klasa napada.

PROBABILISTIČKO UČENJE (probabilistic learning)

Glavna karakteristika pro a ilističko učenja je nje ova sposo nost da ažurira prethodne procene
ishoda, uslovljavaju i i novonastalim dokazima.
Kategorije: metode koje koriste HMM (Hidden Markov Model - skriveni Markovljev model), metode koje
koriste BN (Bayesian networks - ajesove mreže), naivne ayes-ove metode, Gausov model (Gaussian
Mixture Model (GMM)), metode koje koriste al oritam očekivanje - maksimizacija (Expectation -
Maximization (EM)).
rednosti pro a ilistički metoda:
 Obuka i testiranje ovim metodama su fleksibilni. Lako je ažurirati strate ije izvršenja ovim
metodama.
 Mogu precizno i na vreme da detektuju poznate napade, ako se obezbedi od ovaraju a obuka.
Nedostaci:
 One su u velikoj meri zavisne od niza pretpostavki generisanih od strane sistema.
 Često su ove metode osetljive na ulazne parametre. Neznatna promena vrednosti parametara
može veoma da utiče na performanse detekcije.
 e ina pro a ilistički metoda učenja troši više resursa ne o dru e metode.
 Ove metode nisu u stanju da otkriju ili predvide nepoznate napade ili do a aje ez od ovaraju e
obuke.

MEKO RAČUNARSTVO (soft computing)

Meko računarstvo se naziva mekim kako i se razlikovalo od tvrdog (hard) računarstva, koje
podrazumeva tačnu komunikaciju i od ovor. Neke karakteristike soft računarstva su upotre a
verovatno e, kao što su slučajnosti u ajesovom rezonovanju i nepreciznost u fuzzy skupovima. Soft
računarske te nike su pogodne za detekciju mrežni anomalija, jer primena samo jedne metode često
ne može da prona e tačna rešenja. Pod soft računarstvom se o ično misli na metode poput enetički
algoritama, veštački neuronski mreža, nejasni (fuzzy) skupovi, grubi skupovi, algoritmi kolonija mrava i
veštački imunološki sistemi.
a) Rad na veštačkim neuronskim mrežama (ANN - Artificial Neural Networks) motivisan je od strane
prihvatanja da mozak čoveka računa na potpuno dru ačiji način od klasično računara. ANN predstavlja
uspostavljene alate za razne aplikacije, kao što su klasterizacija podataka, ekstrakcija karakteristika i
identifikacija uzoraka u mreži. Cannadijev pristup autonomno i brzo uči nove napade, koriste i
modifikovano ojačano učenje. Neuronske mreže se o učavaju (treniraju) koriste i podatke koji
obuhvataju ceo normalni prostor i mogu da prepoznaju nepoznate napade.
b) Genetički algoritmi (GA) predstavljaju računski model, baziran na principima evolucije i prirodne
selekcije. Kod ovog pristupa, problem se pretvara u okvir koji koristi strukturu podataka sličnu
romozomima. Hromozomi su evoluirali kroz mno e eneracije, koriste i operacije kao što su selekcija,
rekombinacija i mutacija. U bezbednosnim aplikacijama računarski mreža evoluciono računanje se
koristi u lavnom za pronalaženje rešenja za pro leme optimizacije. Kod problema detekcije mrežni
anomalija, romozom za pojedinačni slučaj sadrži ene koji od ovaraju atri utima kao što su usluge,
zastave (flag-ovi), prijavljenost / neprijavljenost i broj pokušaja superuser-a.
c) Fuzzy sistemi za otkrivanje upada u mrežu koriste fuzzy (nejasna) pravila za odre ivanje verovatno e
specifični ili opšti mrežni napada. Set fuzy ulaza može se definisati sa ciljem da opiše sao ra aj u
odre enoj mreži. Taj ak s et al. opisuju novi metod za iz radnju klasi katora pomo u pravila fuzzy
asocijacija i koriste a za otkrivanje upada u mrežu. Skupovi pravila fuzzy asocijacija koriste se za
opisivanje normalnih i abnomalnih klasa. Takva fuzzy pravila udruživanja su klasna asocijativna pravila u
kojima su konsekvence klase. Da li neki primer za o uku pripada odre enoj klasi, odre uje se pomo u
podudaranja metrika. Fuzzy asocijativna pravila enerišu se koriste i uo ičajene trening-uzorke. Test
uzorak je klasifikovan kao normalan ako je kompatibilnost generisanog skupa pravila iznad odre eno
praga. Uzorci sa nižom kompa ilnoš u smatraju se abnormalnim.
d) Grubi skup (rough set) je aproksimacija pojedinačno skupa (crisp tj. regularnog skupa) u smislu para
skupova koji su njegova donja i gornja aproksimacija. U standardnim i originalnim verzijama teorije
grubih skupova, dve aproksimacije su crisp-skupovi, dok u dru im varijacijama pri ližni skupovi mogu
biti fuzzy-skupovi. Matematički okvir teorije ru i skupova omo u ava modelovanje veza sa
minimalnim broj pravila. Grubi skupovi imaju dve korisne osobine (i) omo u avaju učenje sa malim
skupovima trening podataka i (ii) sveukupna jednostavnost. Mogu se primeniti na detekciju anomalija
modelovanjem normalno ponašanja mrežno sao ra aja.
e) Optimizacija kolonije mrava (ant colony optimization) i srodni al oritmi su pro a ilističke te nike za
rešavanje računskih problema koji se mogu reformulisati tako da prona u optimalne putanje kroz
grafove. Ovi algoritmi su zasnovani na ponašanju mrava koji traže put izme u svoje kolonije i izvora
hrane. Gao et al. koriste optimizaciju kolonije mrava za izbor karakteristika za SVM (Support-Vector
Machine) klasifikator za detekciju mrežni upada. Ove karakteristike su predstavljene kao čvorovi rafa
sa ivicama izme u nji , označavaju i dodavanje slede e funkcije. Mravi prelaze preko grafa i dodaju
čvorove, sve dok se ne primeni kriterijum zaustavljanja.
Prednosti soft computing metoda za detekciju anomalija:
 Nisu kruti. Dru im rečima, mo u da reše pro leme koji nemaju tačne od ovore.
 Metode inspirisane prirodom kao što su enetički algoritmi, enetičko pro ramiranje, sistemi
kolonije mrava i veštački imunološki sistemi su ve pokazali svoju efikasnost u rešavanju vrlo
složenih problema optimizacije.
 Sistem učenja otkriva ili kate oriše stalne karakteristike, bez povratnih informacija iz okruženja.
 Zbog adaptivne prirode ANN-ova, mo u e je trenira i tes ra primere, postupno koriste i
odre ene al oritme.
 Nenadzirano učenje je vrlo efikasno u fuzzy klasterovanju, kao i ekstrakciji i selekciji
karakteristika baziranim na grubom skupu.
 Te nike zasnovane na više-nivoskim neuralnim mrežama su efikasnije od jedno-nivoskih
neuralni mreža.
 Sa ciljem razrešenja nedoslednosti u skupu podataka i generisanja minimalnog neredundantnog
skupa pravila, pristup sa grubim skupom je koristan.
Nedostaci:
 rekomerno uklapanje, koje se može do oditi tokom trenin a neuronske mreže, je problem.
 Ako nije dostupna kredi ilna količina podataka normalno sao ra aja, trening ovih tehnika
postaje veoma težak.
 e ina metoda ima pro lem sa skala ilnoš u.
 Nepotpunost koja garantuje enerisanje svi mo u i pravila je glavni nedostatak pristupa
grubog skupa.
 U tehnici zasnovanoj na fuzzy asocijativnim pravilima, dinamičko ažuriranje pravila je težak
zadatak.

ZNANJE U DETEKCIJI ANOMALIJA (knowledge based anomaly detection)

Metodama baziranim na znanju proveravaju se mrežni do a aji ili do a aji na hostu u odnosu na
unapred definisana pravila ili obrasce napada. Primeri metoda baziranih na znanju su ekspertni sistemi,
sistemi bazirani na pravilima, na ontologiji i logici i sistemi bazirani na analizi tranzicije stanja. Takve
te nike traže slučajeve poznati napada podudaranjem sa unapred odre enim napadačkim
reprezentacijama. Pretra a počinje, kao što počinju sve te nike detekcije upada, sa potpunim
nepoznavanjem bilo kog napada. Naknadno podudaranje aktivnosti sa poznatim napadima pomaže
sticanju znanja. U praksi, novi napadi ili dovoljno različite varijacije poznatih napada mogu biti
propušteni.

a) Ekspertni sistemi - Pristup ekspertnog sistema jedan je od najčeš e koriš eni metoda zasnovani na
znanju. Ekspertni sistem, u tradicionalni smislu, je sistem zasnovan na pravilima, sa ili ez pridružene
baze znanja. Ekspertni sistem ima mehanizam pravila koji odgovara pravilima protiv trenutnog stanja
sistema i koji u zavisnos od rezultata podudaranja, pokre e jedno ili više pravila. Ekspertni sistem
razdvaja specifikaciju pravila od obrade pravila. Snort je popularan IDS zasnovan na pravilima.

b) Pristupi bazirani na ontologiji (nauka o opštim svojstvima) i logici - Mo u e je modelova potpise


napada koriste i ekspresivnu lo ičku strukturu u realnom vremenu, uklapaju i o raničenja, pa čak i
statističke svojstva. Na primer, Naldurg et al. predstavljaju okvir za otkrivanje upada na osnovu
vremenske specifikacije logike. Paterni upada su specificirani kao formule u izrazito bogatoj i efikasnoj
nadgledljivoj logici pod nazivom EAGLE, koje podržavaju vrednosti podataka i parametrizovane
rekurzivne jednačine. ni razvijaju al oritam za monitoring koji odgovara specifikaciji odsustva napada
sa pra enjem sistemski izvršavanja i eneriše alarm kada se specifikacija prekrši.
Hung i Liu koriste ontolo iju kao način opisivanja znanja domena. To im omo u ava da opišu sistem za
detekciju upada u smislu domena krajnje korisnika. Tako e se koriste i ontolo ije kao konceptualno
sredstvo za modelovanje, omo u avaju i nestručnoj oso i da modeluje aplikacije za otkrivanje upada,
intuitivnije koriste i koncepte detekcije upada. Naravno, koriste se i pojedinci koji poseduju stručnost u
nekom odre enom domenu.
Prednosti metoda za detekciju anomalija na bazi znanja:
 ično imaju fleksibilne i robusne performanse.
 Mogu posti i visok stepen detekcije, ako se za teva od ovaraju e znanje o napadu, kao i rad sa
normalnim instancama tokom identifikacije anomalije.
Nedostaci:
 Sticanje i razvijanje visokokvalitetno znanja je često teško i du otrajno.
 Zbog nedostatka nepristrasnih i potpunih znanja o normalnim i mo u im slučajeva napada, ove
metode često enerišu veliki roj lažni alarma.
 Oni su uglavnom nesposobni za rukovanje nepoznatim napadima.
 Dinamičko ažuriranje pravila ili baze znanja je skupo.

KOMBINOVANO UČENJE (combination learners)

Radi se o metodama koje primenjuju kombinaciju višestruki te nika učenja. Glavni cilj ovih metoda je
postizanje visoke tačnosti otkrivanja i nizak količnik lažni alarma. Metode su podeljene u tri osnovne
kategorije: ansambl, fuzija i hibrid.

a) Metode ansambla - Ideja koja stoji iza metodologije ansambla jeste odmeravanje nekoliko
individualnih klasifikatora i njihovo kombinovanje, sa ciljem dobijanja opšte klasifikatora koji
nadmašuje svako od njih pojedinačno. stvari, ljudska i a su sklona da traže nekoliko mišljenja pre
ne o što donesu neku važnu odluku. ve te nike odmeravaju pojedinačna mišljenja i kom inuju i kako
bi doneli konačnu odluku. Tri su glavna pristupa u razvoju metoda ansambla: pakovanje, poticanje i
generalizacija steka.
b) Metode fuzije - Ove tehnike se mogu klasifikovati kao nivo podataka, nivo karakteristika i nivo odluka.
Neke metode deluju u prostorima značajni dimenzija u cilju izdvajanja i spajanja različiti semantički
značenja. Dru e pokušavaju da kombinuju klasifikatore trenirane na različitim karakteristikama i
podeljene na osnovu ijerar ijski nivoa apstrakcije ili vrste informacija koje sadrže. Primenjuje se i
pristup prepoznavanju uzoraka u detekciji mrežni upada aziran na fuziji više klasifikatora.
c) Hibridne metode - e ina trenutni mrežni sistema za detekciju upada koristi bilo detekciju
zloupotreba ili detekciju anomalija. Me utim, otkrivanje zloupotreba ne može da otkrije nepoznate
upade, dok detekcija anomalija o ično ima visok količnik lažnih pozitiva. Da i se prevazišla ova
o raničenja, hibridne metode koriste osobine nekoliko pristupa u detekciji mrežni anomalija. Hibridna
metoda učenja ima za cilj da o u vati i poznate i nepoznate instance sa visokom preciznoš u.
Prednosti hibridne detekcije mrežni anomalija uključuju
 Ove metode pokazuju bolje rezultate u smislu detekcije napada, ne o pojedinačne metode
zasnovane na potpisu i NIDS-ovi zasnovani na anomalijama.
 Od ovaraju a i ridizacija omo u ava otkrivanje i poznatih i nepoznatih napada.
Nedostaci uključuju
 Neod ovaraju a i ridizacija može dovesti do velikih troškova i niske efikasnosti.
 Ažuriranje pravila ili potpisa ez kon ikta sa postoje im pravilima, a bez ljudske intervencije i
dalje je složen pro lem.

You might also like