Srovnávací frekvenční seznamy z korpusů PKH2006, SYN2000 a SYN2005

 

Karel Jirásek

(převzatý, doplněný a částečně upravený text původního článku Michala Křena z Českého národního korpusu, adresa: http://ucnk.ff.cuni.cz/srovnani.html).

 

Download

 

SYN2000 a SYN2005 jsou synchronní reprezentativní korpusy současné psané češtiny, z nichž každý obsahuje 100 milionů textových slov (tokens), PKH2006 je převážně synchronní korpus současné psané chorvatštiny o rozsahu cca 120 milionů textových slov. Uvedené korpusy však mají kromě shodných rysů také celou řadu rysů rozdílných, které se týkají zejména složení textů. Tyto rozdíly je třeba vzít v úvahu zejména v případě, kdy chceme srovnávat frekvence jednotlivých slov v jednotlivých korpusech a vyvozovat z tohoto srovnání závěry o jazykovém vývoji v češtině, nebo porovnávat frekvenci lexikálních jednotek mezi češtinou a chorvatštinou. Hodnoty absolutní frekvence (tedy prostý součet všech výskytů daného slovního tvaru nebo lemmatu v korpusu) totiž mohou být výrazně ovlivněny rozdílem ve složení a zpracování jednotlivých korpusů. V ústavu Českého národního korpusu proto byly vytvořeny srovnávací frekvenční seznamy z obou korpusů češtiny (SYN2000 a SYN2005). Ty uvádějí kromě absolutní frekvence i další údaje, které přímé srovnání umožňují. Jejich podstatu přesně popsal Michal Křen v článku publikovaném na internetu (ČNK, adresa: http://ucnk.ff.cuni.cz/srovnani.html).

 

Na základě tohoto vyčerpávajícího popisu, který na tomto místě jen mírně parafrázuji, jsem vytvořil stejný srovnávací seznam i pro Pražský korpus chorvatštiny, který vznikl ve Slovanském ústavu AV ČR. Potřeba srovnávání frekvencí mezi češtinou a chorvatštinou vychází ze základního určení Pražského korpusu chorvatštiny, který tvoří základ připravovaného Velkého chorvatsko-českého slovníku. Při hledání odpovídajících českých ekvivalentů je nutné brát v úvahu frekvenční charakteristiku, která by měla být v češtině i chorvatštině přibližně srovnatelná. Příliš velký rozdíl by napovídal, že výrazu jednoho jazyka odpovídá ve druhém jazyce více výrazů, případně by naznačoval možnost asymetrické polysémie, eventuelně výraznější stylovou, dobovou či regionální příznakovost na jedné či druhé straně.

 

Odlišný způsob tokenizace (rozdělení korpusu na jednotlivé slovní tvary - tokens) a segmentace (rozdělení korpusu na věty) způsobují, že v každém kosu byl počet slovních tvarů počítán původně trochu jiným způsobem. Po přepočítání podle stejných pravidel byla např. u korpusu SYN2000 zjištěna velikost 96,23 mil. slov, zatímco velikost SYN2005 "zůstala" 100 milionů slov. Rozdílnou velikost obou srovnávaných korpusů vzít v úvahu také při přípravě srovnávacích frekvenčních seznamů. Stejně tak u PKH2006, který je ještě o něco větší a trochu se liší i svým složením.

 

Patrně nejpodstatnějším rozdílem mezi všemi korpusy je odlišné pojetí jejich reprezentativnosti a z toho plynoucí rozdíl v jejich složení, díky němuž je používání absolutní frekvence pro srovnání obou korpusů nevhodné. Vedle absolutní frekvence proto pro každé slovo v příslušném korpusu (SYN2000, SYN2005 PKH2006) jsou uvedeny čtyři frekvence přepočítané, a to tři parciální (oborové) a jedna celková, která je vždy součtem parciálních (až na možný malý rozdíl daný zaokrouhlením). Celková přepočítaná frekvence udává, jaká by byla absolutní frekvence daného slova ve 100 milionovém srovnávacím korpusu, ve kterém by byly všechny tři hlavní obory (beletrie, odborná literatura, publicistika) zastoupeny rovnoměrně (tj. každý přesně jednou třetinou) při zachování takové průměrné četnosti v rámci každého hlavního oboru, která odpovídá příslušnému korpusu. Každá z parciálních přepočítaných frekvencí potom udává absolutní frekvenci daného slova v příslušném hlavním oboru takového srovnávacího korpusu. Jde o podobné řešení jako v případě Frekvenčního slovníku češtiny, který pro každé heslo uvádí mimo jiné i údaje o tom, jaké by bylo procentuální rozložení výskytů daného hesla v jednotlivých hlavních oborech, pokud by tyto hlavní obory byly v korpusu zastoupeny rovnoměrně, tj. každý jednou třetinou. Tyto procentuální údaje jsou proto mezi sebou přímo srovnatelné, aniž by uživatel musel brát v úvahu složení korpusu. Na rozdíl od FSČ však ve srovnávacích frekvenčních seznamech není toto rozložení vyjádřené v procentech, ale pomocí přepočítaných frekvencí. Ty jsou pro tento účel vhodnější, protože jsou srovnatelné nejenom v rámci jednoho korpusu, ale také mezi korpusy SYN2000, SYN2005 a PKH2006 navzájem.

 

Popis údajů ve srovnávacích frekvenčních seznamech

Výsledné frekvenční seznamy jsou ČNK zveřejnil v textových souborech, já je pro praktičtější využití převedl do formátu databáze MS Access, která umožňuje rychlé řazení dle jednotlivých sloupců a filtrování dle vybrané části slova. Odkazy na tyto soubory můžete najít na konci tohoto textu. Každý z nich se skládá ze sedmi sloupců oddělených tabelátory a zahrnuje v pořadí podle absolutní frekvence všechna slova, jejichž absolutní frekvence v příslušném korpusu byla větší nebo rovna deseti. Slovem je zde míněna taková pozice (slovní tvar), která obsahuje alespoň jeden alfabetický znak a neobsahuje žádnou číslici; to znamená, že v těchto frekvenčních seznamech nenajdeme např. interpunkční znaménka.

1. sloupec - rank (pořadí podle absolutní frekvence)

2. sloupec - slovo

3. sloupec - absolutní frekvence

4. sloupec - celková přepočítaná frekvence

5. sloupec - parciální přepočítaná frekvence pro beletrii

6. sloupec - parciální přepočítaná frekvence pro odbornou literaturu

7. sloupec - parciální přepočítaná frekvence pro publicistiku

 

Přesný způsob výpočtu je popsán na výše uvedené adrese v ČNK.

 

Závěrem této části textu považujeme za důležité zdůraznit, že celkové i parciální přepočítané frekvence jsou skutečné frekvence, byť v reálně neexistujícím srovnávacím korpusu, a je s nimi tedy možné pracovat podobně jako s frekvencemi absolutními. Například platí stejně jako pro absolutní frekvenci, že součet hodnot celkové přepočítané frekvence pro všechna slova v korpusu by měl být roven jeho velikosti, tedy v tomto případě 100 milionům (součet všech čísel ve 4. sloupci každého ze souborů však dává jenom něco přes 96 milionů, což je způsobené tím, že v těchto souborech nejsou uvedena slova s frekvencí menší než 10). Analogicky by součet hodnot parciálních přepočítaných frekvencí pro všechna slova v korpusu měl být 33,33 milionů, součet všech čísel v 5., 6. nebo 7. sloupci každého ze souborů však ze stejného důvodu dává jenom okolo 32 milionů. Dále lze zjistit přepočítanou frekvenci celého lemmatu součtem příslušných přepočítaných frekvencí všech jeho tvarů; přitom je ovšem třeba dát pozor na možnou homonymii, která často nemusí být na první pohled zřejmá.

 

Příklady jejich použití a interpretace

Ve srovnávacích frekvenčních seznamech slovních tvarů najdeme následující řádky:

 

 

 rank 

slovo

F absolutní

F přepočítaná

B

O

P

syn2000

  2043

tebe

4592

8702

7875

513

314

syn2005

897

tebe

9751

8300

7571

337

393

PKH2006

2123

tebe

5680

13615

13078

56

481

 

Tyto údaje nám říkají, že absolutní frekvence tvaru tebe v korpusu SYN2000 je 4592, což je 2043. nejvyšší hodnota absolutní frekvence v korpusu SYN2000 (všechny tvary se stejnou absolutní frekvencí mají týž rank). Absolutní frekvence tvaru tebe v korpusu SYN2005 je přitom 9751, tedy více než dvojnásobná, což odráží také rank - jde o 897. nejčastější tvar v tomto korpusu. Z toho by mohl nepoučený uživatel vyvodit závěr, že se frekvence užívání tohoto tvaru v poslední době výrazně zvýšila. Po srovnání přepočítaných frekvencí, které jsou pro nový korpus spíše nižší (i když nepříliš výrazně), se však ukáže, že tomu tak ve skutečnosti není. Největší rozdíl v parciální přepočítané frekvenci nacházíme v odborné literatuře, kde jde o pokles o 176 výskytů, tedy cca o 34 %, přičemž celková přepočítaná frekvence zaznamenala pokles pouze o necelých 5 % (8300 oproti 8702). Vidíme tedy, že původní závěr, vyvozený pouze na základě srovnání absolutních frekvencí, by byl chybný.

Rozdíl mezi hodnotami frekvence absolutní a přepočítané je v tomto případě způsoben zejména odlišným složením obou korpusů (40% beletrie v korpusu SYN2005 oproti 15% beletrie v korpusu SYN2000) a nerovnoměrným rozložením výskytů tvaru tebe v nich. Tato nerovnoměrnost je na první pohled zřejmá při srovnání posledních tří sloupců mezi sebou: vidíme, že tvar tebe je zhruba dvacetkrát častější v beletrii než v ostatních oborech, což platí pro oba české korpusy. Protože je tedy pro frekvenci tvaru tebe rozhodující podíl beletrie a ten je v korpusu SYN2005 ve srovnání s korpusem SYN2000 více než dvojnásobný, vysvětlení rozdílu v absolutní frekvenci mezi oběma korpusy je zřejmé. Naproti tomu přepočítaná frekvence bere rozdíl ve složení korpusů v úvahu, a proto je rozdíl v celkové přepočítané frekvenci mezi oběma korpusy poměrně malý.

To samé platí i pro srovnání s chorvatským korpusem PKH2006. Ten je svým složením podobá více SYN2000, neboť zastoupení beletrie je také poměrně malé, pouhých 9,3%. Přesto můžeme díky přepočítané frekvenci konstatovat, že zastoupení tvaru tebe je v chorvatské beletrii je zhruba o 70 % větší, než v české beletrii. Výrazně nižší je zastoupení tvaru tebe v odborných textech, které tvoří 22,4 % PKH2006, velkou část z nich představují texty právního charakteru, kde se tento tvar nevyskytuje vůbec.

 

Ještě výraznější rozdíly než v předchozím případě vidíme u slovního tvaru Moskva:

 

 rank 

slovo

F absolutní

F přepočítaná

B

O

P

syn2000

2465

Moskva

3724

2184

114

227

1843

syn2005

4612

Moskva

1089

1097

150

161

786

PKH2006

3698

Moskva

2795

1131

36

7

1089

 

Kdybychom vycházeli pouze z absolutní frekvence, mohli bychom dospět k mylnému závěru, že došlo v češtině k poklesu užívání tvaru Moskva 3,5 krát a že také dnes čeština užívá tohoto tvaru téměř 3 krát méně, než chorvatština. To je způsobeno faktem, že se tento tvar vyskytuje v drtivé většině případů právě v publicistice. Pokud se podíváme na celkovou přepočítanou frekvenci, vidíme, že u češtiny sice došlo k poklesu, ale pouze 2 x, přičemž  nejvýraznější pokles byl skutečně v publicistice. srovnáme-li dnešní situaci češtiny s chorvatštinou, pak je zřejmé, že je frekvence užívání tvaru Moskva téměř stejná (rozdíl činí jen 3%). Rozdíl je ale v žánrovém rozložení - v české beletrii se Moskva vyskytuje dokonce s větší frekvencí než dříve, v chorvatské však 4 krát méně než v české. V odborné literatuře je u češtiny patrný odklon od tvaru Moskva o 30%, zatímco chorvatská odborná literatura tento tvar téměř nepoužívá. Sociologicky to může vysvětlit faktem, že Chorvatsko nebylo ani v minulosti orientováno na ruskou kulturu a vědu, zájem novinářů o Moskvu pak není dán bilaterálními vztahy ani zatížen minulostí, pouze reflektuje globální postavení Ruska ve světové politice. Česká publicistika si v současnosti všímá Ruska jen když jde o nepřehlédnutelné události, o kterých referuje i západní tisk. Naopak v kulturní oblasti a částečně i vědecké sféře mají české vazby na Rusko větší setrvačnost, česká beletrie je také stále poznamenána vyrovnáváním se s minulostí.

 

Vidíme tedy, že přestože nám přepočítané frekvence umožňují snadno srovnávat frekvenci užívání slov v jednotlivých oborech psaných textů v různých časových obdobích, nejsou ani tato čísla samospasitelná a nestačí je jenom mechanicky přejímat. Samozřejmostí by proto měla být jejich obezřetná interpretace, v případě potřeby doplněná konfrontací s korpusem.

 

Jak citovat srovnávací frekvenční seznamy

Frekvenční seznamy uveřejněné na této stránce byly vytvořeny především s cílem umožnit široké odborné veřejnosti nový způsob práce s korpusy. Podobně jako jednotlivé korpusy jsou i tyto frekvenční seznamy výsledkem vědecké práce. Proto v bibliografii prosím uvádějte citace následujícím způsobem:

 

Český národní korpus: Srovnávací frekvenční seznamy z korpusů SYN2000 a SYN2005. Ústav Českého národního korpusu FF UK, Praha 2006. Dostupné z WWW: http://ucnk.ff.cuni.cz/srovnani.html

 

Pražský korpus chorvatštiny: Srovnávací frekvenční seznam z korpusu PKH2006, vytvořený v rámci grantového projektu GA ČR 405/03/H048 ve Slovanském ústavu AV ČR, Praha 2006. Dostupný z WWW: http://kroatistika.cz/frekvence/srovnani.htm

 

Pokud budete chtít kdekoli citovat tento text, citujte prosím vždy i původní článek Michala Křena, neboť tento text je pouze jeho obměnou. Stejně tak idea i postup vytvoření srovnávacích seznamů pochází z dílny Ústavu Českého národního korpusu. Srovnávací seznam vytvořený pro chorvatštinu ve Slovanském ústavu je jeho pouhou aplikací.

 

Download

Popisované srovnávací frekvenční seznamy si můžete stáhnout jako databázi programu MS Access (má velikost 90 Mb), seznam pro chorvatský korpus také jako soubor txt (o velikosti 8 Mb). Na stránkách Českého národního korpusu jsou pak pro české korpusy k dispozici také seznamy s lemmaty a verze pro Linux. (viz: http://ucnk.ff.cuni.cz/srovnani.html.)

 

Srovnávací frekvenční seznamy: CNK_PKH.mdb          PKH2006.txt