Přínos jazykových korpusů
pro komparativní výzkum
chorvatského a českého jazyka

 

Mgr. Karel Jirásek:, Praha 2006

(příspěvek byl přednesen na Konferenci mladých slavistů konané na FFUK v Praze v říjnu 2006)

 

Lingvistický výzkum bez použití jazykových korpusů je dnes již nemyslitelný. Dnešní korpusy přesahující 100 miliónů textových slov mají poprvé v historii dostatek dat, aby mohly zvrátit dosavadní pohled na jazyk. Přitom je ale nesmírně důležité, jak je korpus velký a jaké je jeho složení. Každý korpus je trochu jiný, proto údaje získané z různých korpusů nemůžeme automaticky srovnávat. Takové srovnání umožňují například teprve srovnávací frekvenční seznamy z korpusů. Interpretace výsledků získaných z korpusu také není věcí zcela triviální, vyžaduje alespoň základní poznatky o korpusové lingvistice, jejích přednostech i hranicích, o spolehlivosti statistických metod používaných pro vyhledávání kolokací, stejně jako o možných chybách, které jsou obsaženy v každém korpusu.

 

Pro češtinu dnes existuje několik samostatný různě pojatých korpusů v rámci Českého národního korpusu.

 

Pro chorvatštinu byl vytvořen doposud (k roku 2006) největší jazykový korpus v Praze ve Slovanském ústavu AV ČR, je to tzv. Pražský korpus chorvatštiny PKH 2006. Další dva rozsáhlé korpusy existují v Chorvatsku, nemají však zatím reprezentativní složení - obsahují převážně publicistiku, z velmi malé části je v nich zatím zastoupena literatura, a to ještě převážně z 19. století, téměř vůbec pak nezahrnují texty odborného charakteru. Jsou to:

 

Hrvatski nacionalni korpus

 

Hrvatska jezična riznica

 

 

 

 

 

Obsah těchto stránek je teprve připravován a bude zveřejněn v dubnu - květnu 2007.

Cílem stránek je seznámit širší odbornou i laickou veřejnost s oborem kroatistika, prezentovat výsledky výzkumu který probíhá v tomto oboru a také publikovat vědecké i studentské práce, u kterých k tomu dá jejich autor souhlas.

 

Za obsah těchto stránek odpovídá osobně a výhradně

Mgr. Karel Jirásek