Pražský korpus chorvatštiny

 

·        Pražský korpus chorvatštiny PKH 2006 byl vytvořen ve Slovanském ústavu AV ČR v Praze v letech 2005 - 2006.

 

·        Korpus je určen jako základní zdroj Velkého chorvatsko-českého slovníku, který vzniká v oddělení lingvistiky a lexikografie Slovanského ústavu AV ČR.

 

·        Velikost korpusu je 120,6 miliónů textových slov (do tohoto počtu jsou zahrnuta pouze slova složená z alfabetických znaků neobsahující číslice). Ve srovnání s Chorvatským národním korpusem HNK v 2.0 je ke konci roku 2006 větší přibližně o 44% a má proporcionálně vyrovnanější strukturu (podstatně více novější beletrie a odborných textů, než HNK.)

 

·        Korpus PKH 2006 funguje prozatím pouze jako interní nástroj lingvistického výzkumu ve Slovanském ústavu AV ČR. Po dohodě jej mohou využívat i studenti kroatistiky z FF UK. Uzpůsobení korpusu pro přístup širší veřejnosti se zvažuje. Publikovány budou zatím alespoň zpracované dílčí výstupy z tohoto korpusu.

 

·        Složení korpusu je dáno jeho lexikografickým určením a snahou zachytit veškerou slovní zásobu chorvatštiny, kterou by měl obsahovat připravovaný slovník. Tedy především současnou chorvatštinu v její spisovné i hovorové podobě, odbornou terminologii, ale i frekventovaná slova obsažená v literárních dílech 20. a konce 19. století.

 

·        Pražský korpus chorvatštiny je nekomerční projekt, který slouží vědeckým účelům. Byl sestaven v rámci grantového projektu GA ČR pod číslem 405/03/H048 jako součást práce na Velkém chorvatsko-českém slovníku

 

Korpus PKH 2006 obsahuje 4 podkorpusy:

P - publicistika               68,3 %        (chorvatský tisk z let 1996 - 2005)

B - beletrie                      9,3 %        (rozdělena ještě na část 19. stol. a 20. stol.)

O - odborné publikace     9,2%         (internetové publikace z let 1998-2006)

Z - sbírka zákonů           13,2%         (Narodne novine 1999 - 2003)

 

Podkorpus publicistiky je nejrozsáhlejší, tvoří přibližně 68,3%. Největší zastoupení v něm mají periodika Vjesnik (46 mil.), Glas Slavonije (17 mil.), Nacional (7 mil.), dále pak v menším zastoupení Slobodna Dalmacija, Večernji list, Feral, Fokus, Hrvatska revija, Dubrovački vjesnik, Vijenac, Glorija atd.

 

Při jeho sestavování jsme sledovali jak závislost počtu výskytů slovních tvarů na velikosti korpusu, tak i spolehlivost údajů o frekvenci slov v korpusu. To mělo velký přínos pro budování ostatních podkorpusů a pro posouzení relevantnosti frekvenčních údajů a možnosti jejich zobecnění.

 

Podkorpus beletrie          obsahuje 232 literárních děl a skládá se ze dvou částí - beletrie autorů narozených před rokem 1900 (96 děl) a po roce 1900 (136 děl). Většinu textů z 20. století jsme skenovali  a následně převáděli do textového formátu. V podkorpusu jsou texty řazeny podle roku narození autora a dále podle roku vydání díla. Snažili jsme se o celkovou vyváženost a rovnoměrné zastoupení autorů všech generací s tendencí postupného zvyšování počtu a objemu textů u novější beletrie. Dalším kritériem pro výběr textů bylo zastoupení autorů ze všech oblastí Chorvatska (Záhřeb, Split, Rijeka, Slavonie, Istrie, Dalmácie, Záhoří), zařadili jsme i několik textů z oblasti Bosny a Hercegoviny, odkud rovněž pochází řada chorvatských spisovatelů. Snažili jsme se tím zohlednit různé nářeční prvky, které do beletrie pronikají. Rovněž žánrová různorodost byla pro nás důležitá. Zařazeny byly kratší i delší prózy a divadelní hry. Pamatovali jsme i na zastoupení literatury pro děti a mládež, tzv. „ženskou“ literaturu, historické i detektivní romány atd.

 

 

 

 

Podkorpus odborných textů  zahrnuje texty publikované v odborných periodikách, sbornících a studiích z různých oborů (např. technika, stavebnictví, medicína, ekonomie, ekologie, ...).

 

 

 

Podkorpus sbírky zákonů     Jako samostatný podkorpus jsme vyčlenili texty z chorvatské sbírky zákonů za roky 1999-2001. Tyto texty jsou  z lexikografického hlediska velmi přínosné, protože zahrnují odbornou terminologii z téměř všech oblastí života, ale současně se vyznačují specifickým metajazykem. Proto byly vyčleněny z ostatních odborných textů.

 

 

Na základě Pražského korpusu chorvatského jazyka jsme sestavili frekvenční slovník všech slovních tvarů, které se v korpusu vyskytly. Ten obsahuje u všech tvarů nejen jejich absolutní frekvenci (počet výskytů), ale i tzv. redukovanou frekvenci, kterou jsme vypočítali podle metodiky, jaká byla použita u Frekvenčního slovníku češtiny (Čermák, František a kol.: Frekvenční slovník češtiny, Praha 2004). Redukovaná frekvence umožňuje zohlednit rovnoměrnost výskytu slovního tvaru v korpusu a je jedním z hlavních kritérií pro zařazení slova do hesláře slovníku.

 

Současně jsme sledovali vzájemné vztahy lexikálních jednotek v korpusu. K tomu jsme využili statistických funkcí a charakteristik, které jsou rozpracovány v korpusové lingvistice. Konkrétně šlo o Mi-score - míru asociace a T-score - míru kontrastu. (Metodika je popsána např. ve sborníku Studie z korpusové lingvistiky, UK v Praze, 2000, str. 455-474.) Tyto charakteristiky umožňují odhalit  typický kontext výskytu slov, vhodné příklady a ustálená spojení z terminologie a frazeologie. Proto jsme tyto charakteristiky spočítali pro všechny v korpusu se opakující bigramy a trigramy (dvojice a trojice slov), a zařadili je pak do naší  databáze. Při zpracování hesel slovníku to umožní vybrat vhodnou exemplifikaci a podle potřeby a rozsahu slovníku postupovat od nejobvyklejších slovních spojení k těm méně obvyklým. Potenciálně velmi významné je využití těchto charakteristik při výběru materiálu pro učební texty jazyků.

 

Aby bylo možno frekvenční údaje z PKH 2006 srovnávat s jinými korpusy, byl pro něj vytvořen tzv. srovnávací frekvenční seznam z korpusu PKH 2006.

 

Obsah těchto stránek je teprve připravován a bude zveřejněn v dubnu - květnu 2007.

Cílem stránek je seznámit širší odbornou i laickou veřejnost s oborem kroatistika, prezentovat výsledky výzkumu který probíhá v tomto oboru a také publikovat vědecké i studentské práce, u kterých k tomu dá jejich autor souhlas.

 

Za obsah těchto stránek odpovídá osobně a výhradně

Mgr. Karel Jirásek