Popisná a matematická statistika

Statistika

Statistika je vědní obor zabývající se zkoumáním jevů, které mají hromadný charakter. Zkoumaný jev E tedy musí příslušet určité části velkého množství prvků (předmětů, osob, událostí apod.), nebo musí být dána možnost opakovaně získat požadované informace o zkoumaném jevu za podmínek, za nichž jev může nastat. Statistika se pak zabývá zjišťováním, zpracováním, rozborem, hodnocením a výkladem údajů o jevu E shromažďovaných buď za účelem popisu rozsáhlých souborů, nebo k redukci rušivých odchylek způsobovaných jevy jinými než je jev E - nezkoumanými nebo nezkoumatelnými - a mají tedy charakter náhodného činitele.

Popisná statistika

Popisná statistika (deskriptivní statistika) se zabývá popisem stavu nebo vývoje hromadných jevů. Nejprve se vymezí soubor prvků, na nichž se bude uvažovaný jev zkoumat. Následně se všechny prvky vyšetří z hlediska studovaného jevu. Výsledky šetření - kvalitativní i kvantitativní, vyjádřeny především číselným popisem - tvoří obraz studovaného hromadného jevu vzhledem k vyšetřovanému souboru.

Statistický soubor

je množina všech prvků, které jsou předmětem daného statistického zkoumání. Každý z prvků je statistickou jednotkou. Prvky tvořící statistický soubor mají určité společné vlastnosti - tzv. identifikační znaky - umožňující určit, zda prvek do daného statistického souboru patří nebo nepatří. Identifikační znaky tedy statistický soubor vymezují.

Z hlediska cílů statistického zkoumání sledujeme na prvcích statistického souboru jednu nebo více vlastností - sledované znaky. Je-li vlastnost měřitelná v nějakých jednotkách, jde o kvantitativní znak, jinak jde o kvalitativní znak.

Příklad: Statisticky zkoumáme, jaký účinek má boj proti znečišťování životního prostředí, specielně proti znečišťování povrchových toků rozpustnými anorganickými solemi (RAS), v regionu Ostrava - Karviná. Povrchové toky jsou znečišťovány především odpadními vodami vypouštěnými do nich znečišťovateli (zákon 58/1999 Sb.).

Identifikační znaky, vymezující statistický soubor, jsou tři. Hodnoty těchto znaků určujících, že prvek náleží souboru, lze vymezit následovně:

  1. Je to výpusť znečišťovatele

  2. Ústí do povrchového toku

  3. Nachází se v regionu Ostrava - Karviná.

Statistickou jednotkou je tedy každá konkrétní výpusť do povrchového toku v regionu Ostrava - Karviná.

Příslušnými (zde především chemickými) metodami zjistíme množství znečištění vypouštěného průměrně každou statistickou jednotkou měsíčně. Sledovaným znakem je množství RAS za měsíc. Protože jde o něco, co lze číselně změřit, je tento znak kvantitativním znakem. Z hodnoty tohoto znaku lze odvodit znak další: konkrétní výpusť je - není (nehodící se škrtněte) zdrojem znečištění. Tento znak (býti zdrojem znečištění) je znakem kvalitativním.

Bylo zjištěno, že:

 

Znečišťovatel Výpusť RAS [kg/měsíc]
Důl Odra A. Ostravice Přívoz 718
Ferona B. Ostravice Frýdlant 188
Biocel C. Ostravice Paskov 1344
Důl ČSM D. Olše Karviná 2445
Koksovna E. Odra Svinov 1877
Elektrárna F. Opava Třebovice 544

Tab. 3.1: Příklad hodnot sledovaného znaku

Výsledkem statistického šetření (viz poslední sloupec) je závěr, že boj za čistotu vodních toků je zřejmě zcela marný.

Poznámka 1: Kvalitativní znak “býti zdrojem znečištění” rozděluje statistický soubor na třídy, v tomto případě na dvě (obecně tolik, kolik je různých hodnot kvalitativního znaku). Třída “zdrojem znečištění je” má šest prvků, třída “zdrojem znečištění není” je prázdná. Rovněž kvantitativní znaky (např. množství znečištění) determinují rozklad statistického souboru na třídy; z praktického hlediska se však nepoužívá rozkladu na třídy daného celou množinou, z níž pochází hodnoty kvantitativního znaku (v tomto případě nekonečnou množinou nezáporných celých čísel), ale pouze její podmnožinou definované jako různé hodnoty sledovaného znaku (v tomto případě podmnožinou {718, 188, 1344, 2445, 1877, 544}).

Zde je předvedena častá situace, kdy se závěr zdá jednoznačný. Otázkou však je, jak přesně byl definován původní statistický záměr. Viz shora ... jaký účinek má ... : na takový vágní dotaz asi vždy bude první odpověď “žádný”, zvláště předloží-li se k tomuto závěru pečlivě vypracovaná tabulka (jako nahoře), divukrásné grafy apod. Zcela jinak by však vypadal závěr, pokud by zpracovatel předložil tabulku takto:
 

Znečišťovatel Výpusť RAS-1998 [kg/měsíc] RAS-1999 [kg/měsíc]
Důl Odra A. Ostravice Přívoz 3542 718
Ferona B. Ostravice Frýdlant 798 188
Biocel C. Ostravice Paskov 7455 1344
Důl ČSM D. Olše Karviná 6722 2445
Koksovna E. Odra Svinov 5318 1877
Elektrárna F. Opava Třebovice 1221 544

Tab. 3.2: Rozšířený příklad sledovaného znaku

Na tomto příkladě je vidět, jakou důležitost má přesná formulace cílů statistického výzkumu a příprava podkladů pro jeho vyhodnocení.

Matematická statistika

Matematická statistika se vyvinula z popisné statistiky a jejím základem je teorie pravděpodobnosti. Zatímco popisná statistika zkoumá soubory prvků přímo, matematická statistika zkoumá tyto soubory nepřímo prostřednictvím výběrů. Na získané údaje se pohlíží jako na výsledek určitého náhodného pokusu, který mohl dát i jiné výsledky. Tím se do zkoumání dostává určitý prvek náhodnosti, což má za následek, že všechny závěry matematické statistiky mají náhodný charakter. Matematická statistika je založena na počtu pravděpodobnosti a používá jeho pojmů jako pravděpodobnost, střední hodnota, nezávislost, rozptyl, rozdělení pravděpodobnosti apod..

Základní soubor je množina všech prvků uvažované množiny. Z hlediska matematické statistiky lze tedy na základní soubor pohlížet jako na množinu všech prvků, které mohou být vybrány při výběrovém šetření do statistického výběrového souboru. O tento základní soubor se zajímáme a celého tohoto základního souboru se mají týkat všechny úsudky, vytvořené na základě výběrového statistického souboru. Termín znak a jeho dělení se zavádí stejně jako shora u popisné statistiky.

Počet prvků základního souboru bývá buď principielně nekonečný, nebo je tak velký, že - z hlediska prozkoumatelnosti všech prvků - se na něj jako na nekonečný pohlíží.

V teoretických úvahách se velmi často nahrazuje původní základní soubor (tj. množina konkrétních prvků) souborem hodnot sledovaného znaku na prvcích základního souboru. Při statistickém vyšetřování výsledků boje proti znečišťování toků jsou zajímavá a důležitá čísla vyjadřující množství znečištění, nikoliv to, že Nová Huť je větším znečišťovatelem než Ferona - to bude zajímavé až při udělování pokut. Proto při šetření ohledně znečištění rozpustnými anorganickými solemi netvoří základní soubor znečišťovatelé jako takoví, ale množství RAS - tedy hodnoty sledovaného znaku.