indický lingvista Pānini ve 4. století př.n.l. formuloval pravidla morfologie sanskrtu
jeden ze zakladatelů moderní lingvisitky, Ferdinand de Saussure, byl profesorem sanskrtu
morfém – nejmenší znaková jednotka jazyka nesoucí význam
další pojmy
morfologická typologie jazyků
přístupy ke zpracování morfologie
Two-Level Morphology
česká morfologie
činnosti využívající morfologii
skryté Markovovy modely (HMM)
HMM se skládají z následujících komponent
tři základní úlohy s HMM
…
měření úspěšnosti
kontrola překlepů
komerční řešení
kontextové metody kontroly překlepů
příklady využití pravidelnosti české morfologie
závislostní strom
přibližně to, co se učí ve škole (akorát klíčové je sloveso, pod něj se všechno napojuje)
anglosaská tradice používá trochu jiný strom než ta naše, která se učí ve škole
složkový strom
závislostní strom je pětice
závislostní strom vytvořený podle této definice má přesně tolik uzlů, kolik je prvků (tokenů) ve větě (slova, interpunkční znaménka)
strom nedává informace o postupu vytváření
složkový strom
závislostní strom
složkový strom
neprojektivní konstrukce
nástroje pro syntaktickou analýzu
gramatické formalismy
valence
kontrola gramatické správnosti
studium jazyka
jazykový korpus
sbírka textů, vzorek jazyka
charakteristika moderních korpusů
typy korpusů
konzistence korpusových anotací
Brown korpus
Penn Treebank
Český národní korpus
Pražský závislostní korpus (PDT)
iniciativa Universal Dependencies
proč je to tak těžké?
první generace
první úspěšný komerční systém
strojem podporovaný překlad
překladová paměť
české experimenty
PC Translator 2003 – asi nejlepší český komerční systém
dlouho byl lepší než Google Translate
statistický překlad
evaluace systémů automatického překladu
sémantika