this dir | view | cards | source | edit | dark top

Přednáška

neuronová síť je model popisující výpočet výstupů na základě vstupů
- vrací pravděpodobnostní distribuci
https://ufal.mff.cuni.cz/courses/npfl138/2526-summer
když se nám nedaří vyřešit úlohu, potřebujeme prodloužit termín apod., tak můžeme napsat na Piazzu
- očekává se, že s úlohami budeme mít potíže – to je to učení, že jo
- jsou připravení kdykoliv nám poradit, navést nás
když vyřešíme všechny úlohy, tak nemusíme na zkoušku
- ale možná je jednodušší se naučit na zkoušku
konzultace jsou další možnost, jak získat zpětnou vazbu
self-information
- míra překvapení, když se dozvíme hodnotu náhodné veličiny (když ji samplujeme)
- měla by být nulová pro jevy s pravděpodobností 1
- méně pravděpodobné jevy by měly mít větší míru překvapení
- překvapení u nezávislých jevů by se mělo sčítat
- $I(x)=-\log P(x)$
rozšíříme to na celou náhodnou veličinu
- spočteme střední hodnotu self-information
- tak dostaneme (Shannonovu) entropii
- $H(P)=\mathbb E_{x\sim P}[I(x)]=-\mathbb E[\log P(x)]$
- „kolik budeme potřebovat komunikační kapacity, abychom dokázali přenést informace samplované z dané distribuce“
- pro $P(x)=0$ uvažujeme $P(x)\log P(x)=0$
cross-entropy (křížová entropie)
- $H(P,Q)=-\mathbb E_{x\sim P}[\log Q(x)]$
- Gibbsova nerovnost
  - $H(P,Q)\geq H(P)$
  - $H(P)=H(P,Q)\iff P=Q$
- cross-entropy není symetrická
Kullback-Leibler Divergence
- „relativní entropie“
- $D_{KL}(P\|Q)=H(P,Q)-H(P)=\mathbb E_{x\sim P}[\log P(x)-\log Q(x)]$
- taky není symetrická
- má nějakou horní mez – z té se dá někdy vykoukat, jak se model chová (že třeba vůbec netrénuje)
normální distribuce
- platí CLV (viz opilci před hospodou)
- princip maximální entropie
  - když máme sadu omezujících podmínek a chceme řešení, které je co nejobecnější, tak to bude distribuce s největší entropií
  - např. když známe část náhodného rozdělení a neznáme zbytek, tak nejobecnější je tu distribuci doplnit pomocí uniformní distribuce
  - no a když známe střední hodnotu a rozptyl, tak ze spojitých distribucí je nejobecnější ta normální
strojové učení
- základní úlohy: klasifikace (u diskrétních veličin), regrese (u spojitých veličin)
  - název regrese vychází z paperu Regression Towards Mediocrity in Hereditary Stature
- učení s učitelem, bez učitele, …
- datasety
  - obrázkové: MNIST, CIFAR-10, CIFAR-100, ImageNet, ImageNet-ILSVRC, COCO (obsahuje segmentaci)
  - řeč: TIMIT, CommonVoice
  - text: Penn Treebank, Prague Dependency Treebank, Universal Dependencies
neuron
- aktivační funkce, která dostane součet vstupů a rozhodne, jaký bude výstup
- bias – hodnota, která na vstupu neuronu je pořád (dovolí mi posouvat, kdy k té aktivaci dojde)
optimalizace vs. ML
- cíl optimalizace: co nejlíp popsat trénovací data
- cíl ML: zároveň zajistit, abychom uměli generalizovat
No free lunch theorem
- kdybychom uvažovali všechny možné distribuce, které existujou, tak všechny klasifikátory budou stejně úspěšné (v průměru)
co se může pokazit
- underfitting – máme slabý model, už ta optimalizace selže
  - extrémně silný model si může zapamatovat data a jejich odpovídající výsledky
- overfitting (přeučení) – model se naučí příliš specifická pravidla
  - např. při klasifikaci obrázků se naučí první řádky testovací sady nazpaměť
jak s tím pracovat – měníme kapacitu modelu
- reprezentační kapacita – co model vůbec může zachytit (např. přímka vs. polynom; závisí na velikosti modelu)
- efektivní kapacita – co se model reálně naučí (závisí na tréninku, regularizaci, …)
jak bojovat s overfittingem
- mít víc dat
- regularizovat
ztrátové funkce
- MSE pro regresi
- obecně – maximum likelihood principle (princip maximální věrohodnosti)
  - maximum likelihood estimation (MLE) je postup, který nám řekne, jak by ta funkce měla vypadat
MLE
- máme empiric data distribution
- model nám pro fixní parametry $\theta$ dává taky nějakou distribuci
- když místo toho zafixujeme $x$ $x$ (přičemž s $\theta$ $θ$ se dá hýbat), dostaneme likelihood
  - není to distribuce, nenasčítá se na jedna
  - „jak moc se modelu líbí trénovací data“
  - vede na NLL / cross-entropy / KL divergence
    - je to vlastně to samé (všechno se to odvozuje stejně)
estimator („odhadce“)
- má systematickou chybu? / je vychýlený? (biased)
- je nevychýlený (unbiased), když jeho střední hodnota odpovídá hodnotě, co má říct
- vychýlení … $\text{bias}(\hat\theta)=\mathbb E(\hat\theta)-\theta$
- MLE je konzistentní odhadce (konverguje v pravděpodobnosti k $\theta$ )
- taky je statisticky efektivní
MSE jako MLE
- ze sítě padá nějaká hodnota $f(x;\theta)$ , my ji interpretujeme jako normální distribuci se střední hodnotou v $f(x;\theta)$ a nějakým fixním rozptylem
- všude stejně velký rozptyl je docela silný předpoklad
SGD s Nesterovým momentem je lepší