Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 6

Week 1

Supervised learning: je werkt met een dataset die het beoogde voorspellingsresultaat bevat en
hiermee kan je het model begeleid trainen. Bij unsupervised learning voorkomt het beoogde
voorspellingsresultaat niet in de trainingsdataset.

Bij machine learning wordt een machine getraind om verbanden te zien. Dit gebeurt vaak middel
supervised leren oftewel gecontroleerd leren. De computer krijgt voorbeeldinput waarbij de
gewenste output eveneens gepresenteerd wordt. Het doel is een algemene regel te leren die de
gegeven input vertaalt naar deze gewenste output. Het systeem leert hiermee verbanden te zien
tussen de input en de output. Als het ML proces goed wordt doorlopen, maakt het systeem steeds
minder fouten en kan deze uiteindelijk op basis van nieuwe input de juiste output produceren.

Supervised learning-algoritmen worden getraind met behulp van gelabelde voorbeelden: input
waarvan de gewenste output bekend is. Het algoritme leert door te vergelijken met de juiste output,
zodat het model waar nodig aangepast wordt. Dit model wordt vervolgens ingezet de output( de
waarde van het label) te voorspellen voor niet-gelabelde input. Supervised algoritmen kunnen
hetgeen in het verleden is geleerd op nieuwe gegevens toepassen.

Je weet eigenlijk de antwoord al waar je naar op zoek bent en je gebruikt zowel de verklarende
variabele als responsvariabele(het juiste antwoord) om het model te trainen en dan kun je daarna
het model gebruiken voorbeeld voor regressie/classificatie problemen.

Unsupervised learning: geen labels gegeven aan de input . Het gaat hierbij om ongecontroleerd leren
waarbij geen sturing wordt geboden door voorbeelden in te voeren met een gewenste output. Het
algoritme zal op den duur zelf een structuur vinden in de input en met de juiste output komen. Het
algoritme moet zonder labels(de juiste output) achter komen wat er wordt getoond. Tijdens dit
proces zal de computer zelf de input verdelen in categorieen. Hierin worden dan elementen geplaats
met gegevens die sterk op elkaar lijken.

Je weet niet wat je goede antwoord is en je model waar je alle verklarende variabele inpropt (alle
data die je hebt) kijken wat er uit komt. Clustering is een gebruikelijk voorbeeld. Je weet niet wat de
groepjes zijn waarop je wilt gaan indelen, maar er zijn wel groepjes in ieder geval. En dan kijk je
straks wat computer oplevert (antwoord). Je krijgt een output en hierbij moet je dus als eerst
verklaren waarom deze output gegenereerd wordt en dan nadenken of dit gepast is( is dit wat je
hoopte te zien). Op basis van clustering ( data op basis van kenmerken in te delen in groepen) en
dimensiereductie.
Semi-supervised learning: zit er tussenin. Bijvoorbeeld je hebt een dataset waar geen
labels/response variabelen in zitten. Het is heel duur om dataset te labelen. Bijvoorbeeld je hebt 1
miljoen foto’s van google gedownload met welke kat of een hond. Het grote ungelabelde dataset,
hiervan pak je een kleine stukje die laat je labelen. Dat is heel duur maar omdat klein groepje is zijn
de kosten beperkt en overzichtelijk. Model trainen op je gelabelde data en de rest van de dataset
daarmee labelen.

Self-supervised learning: De computer heeft op basis van de dataset waarvan de


verklarende/response door elkaar lopen, voldoende informatie om zelf te bedenken of de antwoord
die je geeft correct is.

Reinforcement learning: Je kunt modellen mbv een mens of een ander model bestraffen op belonen
als ze goed of fout doen. En hierop het model laten verbeteren.

Deze periode kijken we naar supervised learning en in het bijzonder classificatie. Zijn begonnen met
logistische regressie. We hebben bedacht dat hiervoor lineare regressie heel goed werkt als je
continue verklarende variabelen en response hebt. Of eventueel categorische verklarende variabelen
maar dan moet je dummies aanmaken en lineaire regressie model opstellen en kun je continue
variatie in je continue response variabelen te proberen verklaren.

Wij kijken voorlopig naar binair 0 of 1. Lineaire modellen zijn allemaal gemaakt om continue
variabelen te modelleren. Iets anders op verzinnen bijvoorbeeld logistische regressie. Om logistische
regressie(1 van de twee modellen) te gebruiken gebruik je de logic functie (slide 13). X in het model
ken je allemaal. De onbekende zijn b0 en b1. Net als bij lineaire regressie

Maximum Likelihood: het doel van maximale waarschijnlijkheid is de optimale manier te vinden om
een verdeling aan de gegevens aan te passen. Er zijn veel verschillende soorten verdelingen voor
verschillende soorten gegevens. Bijvoorbeeld normale, gamma of exponentieel. De reden waarom u
een verdeling wilt toepassen op uw gegevens is dat deze gemakkelijker te hanteren is en ook
algemener. Hij geldt voor elk experiment van hetzelfde type.
Week 2

Gekeken naar het logistische model. Gebaseerd op kansfunctie die voorkomt uit logit. Geleerd hoe je
parameters zou kunnen schatten op basis van likelihood estimation.

Je maximaliseert om de parameters b0 en b1 te schatten voor je logistsiche model. Waar komen die


vandaan? Het logistische model is geen lineair model. Een uitbreiding van een lineair mdoel. Komt
van logit functie. Wat rechts tussen de haakjes staat, dat deel is kansfunctie voor logistsich mdoel.
Dat wordt odds genoemd. Odds laat zich lezen als een breuk ( boven kans op succes / onder kans op
niet succes).

Als je de odds neemt en je neemt de logaritme hiervan dan krijg je een lineair model. De logit noem
je een linkedc fucntie. Je linkt een lineair model aan wat feitelijk de uitkomsten niet lineair zijn.
Namelijk die 0 en 1 uitkomsten.

De kans hebben op een disease. Modelleren op basis van de leeftijd x. Tel het aantal personen van
een gegeven leeftijd die disease hebben(boven) en die niet hebben(onder). Waarom zou je met odds
willen rekenen of met log odds. Het probleem is dat als je kijkt naar de uitkomsten van wel of niet
hebben van disease, lineair model gaat niet werken. Kans zou tussen 0 en 1 zitten. Toen we
probeerden dit te modelelren dat de lineaire regressie lijn niet passen bij de uitkomsten 0 en 1. Als
we categorizeren en de kans gingen uitrekenen (dat je disease zou hebben gegeven de leeftijd) dat
dit beter modelleert. Maar de puntenwolk geeft nogsteeds slingertje. Als je met odds zou werken en
je zou de logaritme nemen, dan krijg je een mooie passende rechte lijn. In tegenstellin g tot kansen
ligt odds niet tussen 0 en 1. Zijn niet negatief, maar verder niet te veel over zeggen. Log van odds
hebben oneindig bereik.

Je kan je model nu interpreteren. Net zoals je van lineaire regressie gewend bent. X neem met 1 toe
dan neemt y toe met a. Wat betekent het op een verandering te krijgen op je variabele x. Als je je
model in odds uitdrukt dan werkt de truc ook bij logistsoche regerfessie. Odds ratio bepalen.
Bovenakt van de deekstreep berekenje odds voor x+1. De odds die je dan krijgt, is afgeleide eb1. Nu
heb je een intepretatie voor die b1 voor je logistsiche mdoel.

Als we x veranderen met 1 dan nemen de odds( het hebben van diase) neemt toe met e&b1. Nu heb
je zinnige inteprretatie awat het voor je modelbetekent als je 1 jaar ouder wordt

Als de likelihoood hoog is( dichtbij 1 ligt) dan heb je een goed model. Het is gebruikelijk om de
kwaliteit van je model te meten bijvoorbeeld in deviantie. Gedefinieerde functie. 2 keer de log van
likelihood. Deviantie is groter gelijk aan 0 en hoe kleiner, hoe beter je model. Hoe lager de deviantie
hoe beter jemodel.

Als je de significatie van een logistsiche model willen toetsen -> deviantie Eentje zonder verklarende
variabelen en eentje met verklarende variabelen.

Als je parameter b1 in logistsiche mdoel 0 zou zijn dan zou je net zo goed geen x kunnen gebruiken.
Je hebt een significante mdoel als b1 significsnt niet 0 zou zijn.

Eerste manier om dit te doen is likelihood-ratio test. Met de hand kunnen uitvoeren. Berekningen
kunnen reproduceren. De output van de tool die je gebruikt kunnen intepretreren. Dus dat je de
toets begrijpt.
Geen verklarende variabele gebruiken: wat is de kans op succes. 5 waarnemingen de kans op succes
3/5. Pi is de kans op succes. In alle gevallen is die 3/5. We gebruiken geen verklarende variabelen.
Dus ongeacht wat x is is de kans 3/5.

Als je de product hebt uitgerekend , deviantie bepalen. Er is geen eenheid. Maar zinnig om twee
modellen met elkaar te vergelijken.

In een tool zou je dit ook kunnen doen.

Vergelijken met een model met verklarende variabele. Maximum likelhood estiamtion meest
passende parameters in logistsiche model bepalen. Zou je zelf parameters kunnen bepalen om in de
buurt te komen.

Parameters variëren om inzicht te krijgen in de werking van het model.

Likelihood opnieuw uitrekenen en deviantie bepalen gegeven die likelihood. Je berektn het product
van kans op succes en kans op failure.

Lager deviantie beter model.

Model ogesteld waarbij y wordt verklaard door x. Succes rate ook wel accuracy genoemd.

Overschrijdingskans (p_value) > 0.05 dan H0 verwerpen want er is voldoende bewijs.


Week 6

Week 5 gehad over ROC curve waarbij je specifity uitzet tegen de sensitivity voor verschillende
tresholds. Krijg je mooie curve die je zou kunnen gebruiken om een afweging te maken voor treshold.
Wat je wil is dat sensitivity en specifitiy zo hoog mogelijk is. Dit met de hand kunnen maken voor
gegeven tresholds.

We hebben ook gekeken naar multinomiale logistisch regressie. De derde variant. Meervoudige
logistische regressie. Meerdere modellen opstellen voor iedere extra waarde van de response
variabelen in je model. Dan kun je de significantie van het model toetsen. De loklikeratio test?.

Voor vandaag LDA. Wat we bij logistische regressie deden was: we proberen een model op te stellen
dat een kans produceert. De kans po succes. Wat bij LDA anders doen , dus niet de kans op succes
maar kans op een specifieke klasse modelleren. Mbv theorie van bayes.

We modelleren de kansverdeling van de response variabele voor iedere klasse.

We zoeken de kans op een specifieke klasse k gegeven waarnemingen van de verklarende variabelen.
Mbv Bayes draaien we die om. Waarbij pk(x) kans op specifieke klassen. Fk verdeling van response
variabelen binnen specifieke klasse namelijk.

Raden wat pi_k en f_k zijn. De kans op een speicifeke klassen schatten: binnen de waarnemingen
tellen hoevaak de klasse voorkomt en delen door de totale waarnemingen.

F_k: welke verdelingsfucntie je kiest levert andere discrimant modellen op. Gberuikelijke keuze is:
gegeven dat continu vv hebben s door normale verdeling te kiezen. F_k kiezen we
kansdichtheidsfunctie van de normale verdeling. Het idee is nu , we denken dat de response
variabelen normaal verdeeld is. Dan kennen we de kansdichtheids funcite. De kansdichtheid voor een
speicifeke waarde va nrespons. Daarvan moet je wel de std en gem van de normale verdeling weten.
Dat doen we per klasse als parameetrs oor de normale verdeling.

Dit invullen in Bayes theorie.De kans op klasse k voor gegeven x is gelijk aan

Nu kan je van iedere klasse de kans uitrekenen , dat een specifiek waarneming(setje van x waarde)
behoort tot die specifieke klasse. De kans op klasse 1 is zoveel % enzv. De klasse die hoogste kans
heeft wordt de klasse die je gaat vorospellen.

Waarom doen we dit? -> denk aan tomaten. Hoe groen en hoe rood ze zijn. Het plan is om een lijn op
te trekken waarvan we zeggen, alles boven de lijn rood en alles wat onder ligt groen. De vraag is kun
je de lijn opstellen? Dat kan mbv LDA. Als we basetheory hebben ingevuld dan kan je met kunst en
vliegwerk reduceren naar de discrmantn functie. Deze gebruiken om een waarde uit te rekenen en
mbv van die waarde kunnen we bepalen de klasse voor die waarde grootste is

Je hebt de onderste formule op dia 12 nodig om te berekenen waar maximale kans bereikt wordt.

Schatter bepalen voor mu sigam en pi k. Mu_k nemen als gemiddelde over de response per klasse.
Sigma : geworden ge
Week 7

LDA met meerdere voorspellers niet met de hand te hoeven uitrekenen. Maar standaard
ingebouwde functies kunne toepassen.

Aannames kennen en kunnen controleren

Week 6 was het ideee om lda te doen theorie van bayes

Pi_k

De kans die jeuitrekt binne lda waar bij pi_k a priori kans is en f_kx is de verdelingsfunctie de
kansdichtheidsfunctie van de veklarende variabelen gegeven de speciefice klasse.

Je kan dit uitrekenen als je data hebt aanname doet. Aanname van normaal verdeelde verklarende
variabelen. Je bent geinteresseerd in maximum van die funcite. Bij welke klasse geeft dit een
maximum.

Je moet wel gemiddelde per klasse schatten en schatter voor variantie(over alle klassen heen)

Je moet die functie soort van kennen dia 5

Deze week heb jemeerdere verklarende variabalen. Je kunt discirmant functie berekenen waarbij.

Mu_k is klassen gemiddelde en pi_k is kans op een specifieke klassen. Sigma is nieuw. Het idee
hiervan is als de variantie . Dus als je een normale verdeling hebt dan x is normaal verdeeld met een
mu en std. Maar als die x nu meerdere variabele is dan proberen te veranderen. Normale functies
met co variantie van die variabelen.

Enkel voudige lineaire discriminant analyse schatters kunnen

Gegeven een data set aannames kunnen controleren. Dia 8 Visuele controle histogram en qq pliot. Je
ordentd e meetpunten van klien naaar groot. Je gaat tehoeretiseren en verwachtwaarde uitzetten
tegen verwachte meetwaarde. Als ze op rechte lijn liggen zijn ze normaal verdeeld. Ingebowude
functies gebruiken.

H0 data is normaal verdeeld

You might also like