Anotované korpusy představují důležitý zdroj dat pro řadu úloh počítačové lingvistiky i počítačového zpracování přirozeného jazyka. Dnes už jsou k dispozici pro celou řadu jazyků, byť pro některé jazyky jen v malém množství. Bohužel tyto korpusy byly vyvíjeny mnoha různými týmy za rozdílných podmínek, případně i s odlišnými cíli. Vzájemně neslučitelná rozhodnutí učiněná při návrhu anotačních schémat velmi komplikují až znemožňují jakákoli mezijazyková srovnání nebo zpracování vícejazyčných dat. Tento problém se rozhodl vyřešit tým pod vedením RNDr. Daniela Zemana, Ph.D. V rámci projektu GA ČR „Morfologicky a syntakticky anotované korpusy mnoha jazyků“ se zaměřil 1) na zkoumání jevů zachycených v existujících korpusech pro desítky různých jazyků; 2) hledání univerzálně použitelné anotace pro jednotné zachycení všech těchto jevů a 3) posouzení vhodnosti alternativních závislostních struktur pro počítačové zpracování přirozených jazyků, zejména pro syntaktickou analýzu.
Když si laik přečte název projektu, příliš mu to neřekne – můžete popsat, o co v projektu šlo? Co jste chtěli zjistit?
Obor, ve kterém pracuji, se nazývá „počítačová lingvistika“. Jak už název napovídá, leží na pomezí jazykovědy a informačních technologií. Práce, které se věnoval náš tým, je důležitá jednak pro výzkum přirozených jazyků jako takových, tedy pro lingvistické bádání, a jednak pro návrh počítačových algoritmů, které pracují s textem v přirozeném jazyce a do určité míry mu „rozumí“. V obou případech je hlavním materiálem takzvaný korpus, tedy velké množství autentických jazykových dat, v našem případě hlavně textových, do kterých byly přidány lingvistické anotace, tedy například informace o základním tvaru slova, slovním druhu nebo o stavbě věty. Příprava korpusů je náročná činnost, takže jsou k dispozici jen pro malé množství jazyků. To v důsledku brzdí i nasazování jazykových technologií na nové jazyky. Kromě toho, a to byl hlavní předmět našeho zájmu, anotace nejsou nijak standardizované, takže existující korpusy se jeden od druhého velmi lišily v tom, jaké informace o jazyku z nich zjistíme a jak jsou tyto informace uspořádány. Nás tedy zajímalo, zda lze nalézt jeden systém, kterým by bylo možné popsat všechny jazyky světa, tak aby vynikly jejich podobnosti i rozdíly.
Jak práce na projektu probíhala?
Pro vnějšího pozorovatele bychom poskytovali dost nudný obraz. Člověk sedící u počítače, případně hledící do knihy nebo diskutující s jiným člověkem, nejčastěji ale to první. Při zpracování elektronických dat a při testování jazykových technologií jsme se neobešli bez programování, což pro členy řešitelského týmu nebyl problém. Pro mě osobně však bylo mnohem zajímavější zjistit, jak pestrá je škála prostředků, které používají různé světové jazyky ke komunikaci. Tady jsme museli leccos nastudovat z literatury – i když všichni zvládáme několik jazyků, záběr projektu byl mnohem širší. Poslední a nejdůležitější, chcete-li, „pracovní postup“ tedy spočíval v mezinárodní spolupráci. S kolegy ze zahraničí jsme zorganizovali celosvětovou síť výzkumníků, kteří stejně jako my chtěli dosáhnout jednotného popisu jazykového systému a aplikovat ho na co možná největší počet jazyků. Dnes máme data pro více než 80 jazyků, včetně některých vymřelých nebo relativně exotických, a to číslo nadále roste.
Proč jste se rozhodli pustit právě do tohoto tématu?
V oblasti strojového porozumění lidské řeči se dlouhou dobu dělaly pokusy pouze s angličtinou, což někdy vedlo k postupům, které příliš spoléhají na některá specifika tohoto jazyka. A každý Čech, který se učil anglicky, zná nejméně jeden jazyk, jehož specifika jsou dost odlišná – totiž svůj vlastní. My máme sedm pádů a o dost volnější slovosled, zato máme jen tři slovesné časy a nemáme členy. Mohli bychom tedy navrhovat metody, které budou optimalizované pro češtinu, mnohem zajímavější a efektivnější však je hledat obecný model jazyka, který nebude zvýhodňovat ani češtinu ani angličtinu a teprve z dat – tedy z korpusu – se naučí, jak který jazyk funguje. Jak jsem ale už zmínil, existující korpusy byly „každý pes jiná ves“ a pro většinu jazyků neexistovaly vůbec. S tím jsme se rozhodli něco udělat.
RNDr. Daniel Zeman, Ph.D. (uprostřed) při přebírání ocenění organizace META-NET za příspěvek k multilingvální informační společnosti v Evropě, Lisabon červen 2016.
Zdroj: archiv Daniela Zemana
Jaké metody jste použili?
Začínali jsme s korpusy, které už existovaly, a snažili jsme se jejich anotace sjednotit. Přitom jsme se museli poprat s tím, že lingvistická tradice a terminologie se v jednotlivých zemích liší. Když vám dejme tomu Bulhar řekne, že nějaké slovo je zájmeno, nemusí to ještě znamenat, že český ekvivalent toho slova bude zájmeno podle našich pravidel. Tohle byla asi největší výzva, která se v různých obměnách opakovala: podle čeho určím, že určitý jazykový jev je shodný s jevem v jiném jazyce, přestože je tradiční gramatiky těchto jazyků označují různými termíny? Na takové otázky neexistuje jedna exaktní odpověď, kterou by šlo „vypočítat“. Proto jsme opakovaně diskutovali s našimi zahraničními kolegy, znalci různých jazyků, zkoumali jsme lingvistickou literaturu i příklady v datech a tyto poznatky konfrontovali. Výsledkem je určitý kompromis, zažité národní termíny musely někdy ustoupit termínům převzatým z jiných jazyků.
Překvapilo vás něco v průběhu projektu?
Určitě jsme nepředvídali takovou míru mezinárodní spolupráce, netušili jsme, že se podaří vytvořit tak velkou komunitu. Když se rozkřiklo, že máme velkou sbírku jazyků anotovaných jednotným způsobem, vznikl jakýsi lavinový efekt. Sami se nám hlásí další lidé, kteří chtějí přispět. Přijde třeba e-mail od doktoranda v Norsku, který říká: „Pocházím ze Senegalu a všiml jsem si, že ještě nemáte data pro můj rodný jazyk, wolofštinu. Když mi poradíte, kde začít, rád bych vytvořil wolofský korpus.“ Tohle obohacuje obě strany. My se díky němu dozvíme o vlastnostech wolofštiny, které mimochodem zrovna dost vybočují z toho, co jsme doposud viděli u jiných jazyků. On má díky naší předchozí práci mnohem snadnější pozici, než kdyby začínal od nuly, protože může využít existující nástroje a postupy. A na digitální scénu se takhle dostávají jazyky, kterým bych před pěti lety nedával moc šancí.
Jak dlouho jste na projektu pracovali a kolik lidí se na něm podílelo?
Projekt oficiálně běžel tři roky, a ještě další rok jsem pracoval na knize, která shrnovala jeho výsledky. Celá ta myšlenka je ale starší, částečně jsme na ní pracovali už v době, kdy jsme poprvé žádali GA ČR o podporu, tedy o rok a půl dříve. Pokud jde o počet lidí, pražský tým měl tři členy, kteří na tomto projektu měli dohromady 1,1 úvazku. To je ale jen ta „účetní“ odpověď. Jak už jsem řekl, vtáhli jsme do děje spoustu dalších lidí, lingvistů, informatiků, profesorů i studentů ze všech koutů světa. Lidí, kteří tak či onak přispěli, je dnes více než 300.
V čem pro vás byla hlavní výzva?
Asi to, co už jsem zmínil výše: rozpoznat, že dva jevy v různých jazycích jsou si dostatečně podobné, abychom mohli mluvit o stejném jevu. Dohodnout se se znalci jiného jazyka na společné terminologii. A současně nezajít příliš daleko, aby to nakonec nevypadalo, že všechny jazyky jsou stejné, protože to rozhodně nejsou a ani pro lingvisty by takový materiál nebyl ničím zajímavý.
Jak finančně byl projekt náročný? Je těžké na podobné projekty získat finanční prostředky?
Celková podpora činila něco přes 3 milióny korun na 3 roky. Není to mnoho, počítačové vybavení už jsme měli, pokryli jsme tím část svých úvazků, odbornou literaturu a cesty na konference, kde jsme se mohli potkávat s kolegy ze zahraničí. Přesto získání grantu není úplně jednoduché, my jsme podávali návrh dva roky po sobě, a i když posudky byly už první rok velmi pozitivní, na financování jsme dosáhli až druhý rok. Konkurence je prostě veliká a není mnoho míst, kde lze o podporu takového projektu žádat. Mluvíme tu o základním výzkumu, kdybychom místo toho vyvíjeli produkt, který by se přímo prodával zákazníkům, asi by potenciálních zdrojů financí bylo víc.
Jak mohou být získané informace využity v praxi? Můžete uvést nějaké konkrétní příklady, které by to přiblížily laikovi?
Tak třeba kontrola gramatiky v textovém editoru. Aby vám počítač mohl vynadat, že „ženy přišli“ je špatně, nestačí mu slovník, protože obě ta slova existují a sama o sobě jsou v pořádku. Musí rozumět stavbě věty. A existují algoritmy, které ho to dokážou „naučit“ pomocí právě takových korpusů, na které jsme se zaměřili v našem projektu. Jiným příkladem je vyhledávání informací na internetu, a teď nemám na mysli pouze zadávání dotazů do vyhledávače, ale třeba bezpečnostní nebo finanční analytiky. Pokud se makléř doslechne, že saúdský princ upadl v nemilost, dost možná z toho vyvodí nějaký budoucí vliv na ceny ropy a přizpůsobí tomu své obchody. Pokud ale jeho počítač monitoruje arabský tisk, tuto informaci zachytí a zareaguje na ni v reálném čase, může pro dotyčného makléře realizovat obchody dříve, než podobné závěry udělá konkurence.
Podařilo se v projektu naplnit cíle, které jste si stanovil?
Řekl bych, že nejen naplnit, ale i výrazně překonat.
Jakou roli v projektu hrál GA ČR?
Významnou. Sice bychom se tomuto tématu asi snažili věnovat i bez cílené finanční podpory, ale musíme z něčeho živit rodiny, takže bychom pravděpodobně pracovali na něčem jiném a na tento projekt by zbývalo minimum času. Určitě bychom nebyli tam, kde jsme dnes.
Na čem dalším zajímavém nyní pracujete? Jaké další výzvy/mety máte před sebou?
I nadále pracuji s daty, která jsme v rámci zmiňovaného projektu sesbírali. Ale zatímco v projektu šlo především o gramatickou stavbu věty, teď se snažím jít více do hloubky a sledovat, jak se gramatika promítá do skutečného významu sdělení. Jeden jednoduchý příklad za všechny: když řeknu věty „Pes kousl mého syna“ a „Můj syn byl kousnut psem“, gramatika nám řekne, že podmět první věty je „pes“ a podmět druhé věty je „můj syn“. Jenže v obou případech to byl pes, kdo kousal, nikoli můj syn. Pokud mají stroje rozumět přirozenému jazyku, musí si poradit i s tímhle.