Čísla vypovídající o češtině

22. září 2010

Regionální stanice Českého rozhlasu|foto:Aleš Vavřík

Pokud si myslíte, že veřejnost se jazykovědců obvykle ptá jen na to, jak se co má správně psát, skloňovat, co je vhodné použít, jak správně formulovat apod., pak vás téma dnešního jazykového koutku možná překvapí. Kromě toho všeho uživatele češtiny totiž často zajímají také nejrůznější přesné číselné údaje o češtině.

Dotazy na nejrůznější počty určitých jazykových prostředků v češtině bývají nejčastěji obecné: kolik má čeština slov, kolik má podstatných jmen/přídavných jmen/sloves atd., kolik slov se v průměru vyskytuje v jedné větě, která slova jsou nejfrekventovanější, kolik slov obvykle zahrnuje slovní zásoba dospělého člověka apod.

Na dotaz, kolik má čeština celkem slov, se dá odpovědět vždy jen přibližně, nikdy ne úplně přesně. A platí to také o odpovědích na ostatní uvedené otázky. Slovní zásoba nejen jazyka jako takového, ale i slovní zásoba jednotlivce je dynamický útvar, neustále se vyvíjí, v žádném okamžiku není zcela stejná. Alespoň přibližnou představu o tom, kolik má jaký jazyk slov, si však lze utvořit například podle rozsahu jeho největších slovníků. Podle našich zatím nejrozsáhlejších slovníků češtiny, tedy Slovníku spisovného jazyka českého (1960-1971) a Příručního slovníku jazyka českého (1935-1957), odhadujeme slovní zásobu češtiny přibližně na 250 000 slov. Kromě celkového počtu slov ale jsou známy i jiné údaje, o kterých jsme hovořili, tj. počet jednotlivých slovních druhů, průměrný počet slov ve větě a v souvětí apod. Souhrnné poučení o těchto počtech podává práce Marie Těšitelové nazvaná O češtině v číslech.

Individuální slovní zásobu dospělého člověka je třeba dělit na aktivní a pasivní. Aktivní slovní zásoba, tedy slovní fond, který člověk sám aktivně zná a používá, se odhaduje asi na 3000 - 10 000 slov, průměr je asi 5000 slov. Pasivní slovní zásoba je asi 3- až 6krát větší než aktivní slovní zásoba. Rozdíly v rozsahu slovní zásoby jednotlivce jsou dány vzděláním, zájmy apod. Počet slov jednotlivých slovních druhů nemáme přesně zjištěn, takový údaj by kromě prostého udání počtu neřekl mnoho zajímavého, výmluvnější jsou čísla o větě. Víme, že poměr jednoduchých vět a souvětí v textu jakéhokoli stylu je průměrně 1:1, věta jednoduchá má v odborném stylu průměrně 20 slov, v publicistice 16 slov a v administrativních textech 14 slov. Souvětí se vyskytují nejčastěji krátká, o dvou větách. Taková souvětí spolu s větami jednoduchými pokrývají 90 % textu.

O frekvenci slov, o tom, která slova se v češtině používají nejčastěji se můžeme poučit ve frekvenčních slovnících češtiny, které za tímto účelem vycházejí. Náš nejnovější Frekvenční slovník češtiny je poměrně nový, vyšel v roce 2004 a uvádí frekvence u 50 000 českých slov. Jeho hlavní výhodou je, že neuvádí pouze prostou frekvenci výskytu, takový údaj by vlastně byl jen málo informačně hodnotný, ale můžeme se z něj poučit i o tom, v jakém typu textu se dané slovo vyskytuje, takže známe i jeho slohové zabarvení. Tak například takové slovo konkurenceschopný se nejčastěji vyskytuje v odborných textech, méně často v publicistice a vůbec ho nenajdeme v umělecké literatuře nebo naopak slovo luna je nejfrekventovanější v umělecké literatuře a jen poměrně málo je zastoupeno v beletrii a v publicistice, přičemž v publicistice je o málo častější.

Na prvních pěti místech žebříčku nejčastějších slov v českých textech jsou: spojka a, předložka v/ve, předložka nebo částice se, sloveso být a předložka na. I na dalších místech jsou tzv. neplnovýznamové slovní druhy, jako jsou zájmena a předložky. První nejfrekventovanější podstatné jméno stojí až na dvaadvacátém místě a je to podst. jm. rok. Z frekvenčního slovníku lze vyčíst nejen, ve kterých textech se dané slovo nejčastěji vyskytuje, ale také která slova jsou nejčastější v jednotlivých typech textů.

DOTAZY

Chtěla jsem se zeptat na spojení šengenský prostor - zda ho psát s malým š (jako odvozeninu od místa), nebo se jedná o oficiální označení s velkým Š. Dále se chci zeptat, zda je správné v textu užívat také označení šengen, nebo jen spojení šengenský prostor.

V češtině se zachovává původní podoba, počeštěná šengen se neužívá; schengenský prostor není název v pravém slova smyslu, jde o přenesné pojmenování prostoru vymezeného Schengenskou smlouvou, proto doporučujeme psát malé písmeno. Malé písmeno by se mělo zachovávat i u zkráceného označení schengen (na rozdíl od místního jména Schengem, podle něhož je smlouva nazvána).

Nevíte prosím, co znamená polévkový ústav? Nikde jsem význam tohoto slovního spojení nenašla. Tento výraz se zřejmě užíval za první republiky, ale víc jsem nevypátrala. Nemyslí se tím nějaký sociální ústav, útulek pro chudé?

Odhad posluchačky je správný. Podle Příručního slovníku spisovného jazyka českého (konkrétně podle 4. dílu, 1941 - 1943) jde o pojem veřejné správy, který znamená ústav, ve kterém dostávají chudí lidé zdarma polévku.

USTÁLENÉ SPOJENÍ

...být z přízně

Význam tohoto spojení bude asi všeobecně znám, přesto jej připomeneme. Být z přízně znamená být s někým příbuzný. Toto spojení není ustáleno rovnoměrně na celém území našeho státu, jako živý jazykový prostředek se užívá především na české části republiky. Slovo přízeň pochází od slovesa přát, stejně jako např. slova přátelství a přítel. Už v dávnověku mělo slovo přátelství význam "vlastní" nebo "milý", odtud tedy i význam slova přízeň v tomto spojení.

autor: Martin Prošek