Jednorozměrný statistický soubor

Doc. Dr. Vladimír Homola, Ph.D.

Zpracování jednorozměrného statistického souboru

Jednorozměrný statistický (též výběrový) soubor (viz kapitolu "Základní pojmy matematické statistiky") obsahuje hodnoty jediného argumentu (sledovaného znaku, jediné veličiny). Následující text se výhradně zabývá nejčastějším případem, kdy argumentem je číselná hodnota; sledovaný znak je tedy kvantitativní.

Dále bude X = {x1, x2, ... , xn} značit nějaký jednorozměrný statistický (výběrový) soubor rozsahu n.

Motivační příklady

Nechť je sledovaným znakem váha pekařského výrobku označovaného jako rohlík. Vážením pěti náhodně vybraných rohlíků v [g] byl získán následující statistický soubor: {40, 44, 42, 41, 43}. Průměrná váha jednoho rohlíku je pak 41,8 [g], což je v celkem dobré shodě s váhou 42 [g] deklarované výrobcem. Průměr je zde rozumně použitelný ukazatel dobře vypovídající o poctivosti pekaře.

Mějme na druhé straně dvouhektarový pozemek kategorie Orná půda. Zkoumejme jeho vhodnost pro výsev z hlediska znečištění. Odeberme proto 100 vzorků a nechme provést analýzy např. na olovo. Výsledky z laboratoře v [ppm] tvoří následující statistický soubor: 99x hodnota 0.0, 1x hodnota 100 000. Průměrná hodnota znečištění celého dvouhektarového pole je tedy 1 000 [ppm]. Protože hygienická norma stanoví pro olovo limit koncentrace pro lehké půdy 100 [ppm], vyplývá z toho jednoznačný závěr: tento pozemek je předurčen ke stejné asanaci jako pozemek pod nynějším centrem Nová Karolina v Ostravě.

Rozumné použití průměru v případě rohlíků a nesmyslné použití v případě pole vede k závěru: pro hodnocení některých statistických dat má smysl použít průměr, pro některá však ne. Takový závěr hned indukuje dvě otázky:

Základní pojmy počtu pravděpodobnosti

Teorie pravděpodobnosti se zabývá studiem náhodných událostí, jevů, náhodných veličin a zákonitostmi, které pro ně platí. Zkoumá metody výpočtu pravděpodobností, problémy stochastické závislosti a nezávislosti, problémy náhodných procesů probíhajících v čase apod. Do kapitoly o zpracování jednorozměrného statistického souboru jsou zařazeny alespoň základní pojmy teorie pravděpodobnosti pro úzkou souvislost mezi hodnotami dat a pravděpodobností jejich výskytu - a to případně až do úrovně reálně existující veličiny jako takové.

Diskrétní a spojitá náhodná veličina

Definice: Diskrétní náhodná veličina x je taková, která nabývá jen spočetně mnoha hodnot (pozn.: spočetné množiny jsou konečné i nekonečné!), každé obecně (viz dále) s jinou pravděpodobností (např. x = 0, 1, 2, ... nebo x = 1, 3, 5). Je-li tedy xÎX, je X spočetná množina.

Příklad: Diskrétní náhodná veličina je např. známka, kterou studenti obdrží z konkrétního předmětu. Může nabývat jakékoliv hodnoty z množiny {1, 2, 3}.

Definice: Spojitá náhodná veličina je taková, která nabývá nespočetně mnoha hodnot (pozn.: jakýkoliv interval reálných čísel obsahující alespoň dvě různé hodnoty je nespočetná množina). Je-li tedy xÎX, je X nespočetná množina.

Příklad: Spojitá náhodná veličina je např. obsah síranů podle ČSN 75 7221 a navazujících norem, konkrétně v profilu řeky Odry v Jakubčovicích. Může nabývat jakékoliv hodnoty větší nebo rovny nule a menší nebo rovny 100 (udává-li se v %).

Náhodný jev, náhodný pokus

Definice: Náhodný jev je vlastnost nebo systém vlastností prvků nějakého základního souboru Z. Má-li prvek x Î Z vlastnost A, řekneme, že při pozorování tohoto prvku x nastává jev A. Různým vymezením vlastností prvků základního souboru Z získáváme systém náhodných jevů, který tvoří jevové pole (v moderním pojetí tzv. s-algebru jevů). Do jevového pole patří vždy jev nemožný (odpovídá vlastnosti, kterou nevykazuje žádný prvek základního souboru) a jev jistý (odpovídá vlastnosti, kterou naopak mají všechny prvky základního souboru).

Definice: Náhodný pokus je jakákoliv procedura, která se uskutečňuje za určitého systému Y podmínek, a jejíž realizace za tohoto systému podmínek může být - alespoň teoreticky nekonečně - opakována. Označme symbolem W množinu všech možných výsledků náhodného pokusu. Určité podmnožiny množiny W výsledků náhodných pokusů - totiž ty, při kterých si všímáme pouze jedné vlastnosti A - tvoří pak náhodné jevy z předchozí definice.

Poznámka: Je důležité si uvědomit, že systém Y podmínek neurčuje jednoznačně výsledek náhodného pokusu, ale rozložení pravděpodobnosti na množině všech možných výsledků (viz dále).

Pojem pravděpodobnosti

Sám pojem pravděpodobnost je definován různě; v minulosti bylo navrženo několik způsobů definice pravděpodobnosti podle záměru použití pravděpodobnosti (klasická pravděpodobnost, statistická pravděpodobnost, geometrická pravděpodobnost a jiné). Tyto definice však především nepokrývaly celou oblast náhodných jevů, nebo byly nepřesné a dokonce logicky sporné. V současné době se používá axiomatická definice pravděpodobnosti.

Klasické pojetí pravděpodobnosti

Historicky nejstarší pokus o definici pravděpodobnosti, definice klasické pravděpodobnosti, převádí problém na pojem stejné možnosti výskytu dvou jevů, ten považuje za základní a dále ho nezkoumá. Předpokládá, že výsledkem náhodného pokusu (generujícího stav jevu A) může být jen konečně mnoho - např. n - stejně pravděpodobných elementárních stavů (viz házení kostkou). Zavádí pojem příznivého stavu jevu A; všech příznivých stavů (označme jejich počet m) není rozhodně více než n, nemusí však být žádný. Pravděpodobnost p(A) jevu A pak definuje jako podíl počtu příznivých stavů a počtu všech stavů:

p(A)=m/n.

Klasické pojetí pravděpodobnosti je dodnes nejčastěji používané pro řešení rozsáhlé řady úloh především z oblasti technických a přírodních věd. Nedává však návod, jak postupovat při nesplnění podmínky stejné možnosti výskytu dvou jevů.

Geometrické pojetí pravděpodobnosti

Jedním z prvních pokusů o rozšíření klasické teorie pravděpodobnosti i na případ nekonečné množiny elementárních stavů je zavedení geometrické pravděpodobnosti. Základní myšlenka, která dala takto chápané pravděpodobnosti název, je tato: Mějme nějakou oblast (např. v rovině) G a v ní jako její podmnožinu jinou oblast g. Vybíráme náhodně z oblasti G bod a zkoumáme, s jakou pravděpodobností p patří tento bod i do oblasti g. V geometrickém pojetí pravděpodobnosti se tato pravděpodobnost p klade rovna hodnotě

p = m(g)/m(G)

kde m je míra oblasti - v rovině např. plošný obsah.

Geometrické pojetí pravděpodobnosti řeší úspěšně řadu úloh, postupem času však byla ukázána nemožnost jeho obecné aplikace.

Axiomatická definice pravděpodobnosti

Nechť je W neprázdná množina elementárních stavů nějakého jevu. Označme L neprázdný systém podmnožin množiny W a symboly A, B  resp. Ai libovolné prvky množiny L (A, B resp. Ai jsou tedy libovolné podmnožiny množiny W). Nechť L splňuje tyto podmínky:

  1. Č Ai    Î L     pro i = 1, 2, ..., Ą
  2. W - Ai   Î L  

Pak se L nazývá jevové pole, s-algebra jevů nebo také pole náhodných jevů.

Nechť je nad W dáno jevové pole L. Nechť je na L definována reálná množinová funkce P(A) taková, že platí

  1. P(A) ł 0
  2. P(W) = 1
  3. Jsou-li A a B disjunktní, je P(A Č B) = P(A) + P(B)

 Pak se číslo P(A) nazývá pravděpodobnost jevu A.

Vlastnosti pravděpodobnosti

Z definice pravděpodobnosti podané předchozím odstavcem plyne (symbol Ø označuje prázdnou množinu):

Je-li A Ě B, je P(A) Ł P(B)

Je-li A Ě B, je P(B-A) = P(B) - P(A)

P(W-A) = 1 - P(A)

P(Ø) = 0

0 Ł P(A) Ł 1

Poznámka: Pravděpodobnost je podle definic hodnota z uzavřeného intervalu <0, 1>: 0=nemožnost, 1=jistota. Stonásobek takto definované pravděpodobnosti ji vyjadřuje v procentech a je z intervalu <0,100>: 0% - nic nesplňuje = nemožnost, 100% - všechny splňují - jistota. Vyjádření oběma způsoby se běžně používá a protože jeden je jednoznačně převoditelný na druhý a naopak, bez dalšího vysvětlování se podle kontextu použije libovolný z nich. Výrok .. s pravděpodobností 72% ... a ... s pravděpodobností 0.72 ... jsou tedy totožné.

Zákon rozdělení pravděpodobnosti náhodné veličiny

Zákon rozdělení pravděpodobnosti náhodné veličiny V je pravidlo, který udává pravděpodobnost jevu, který lze touto veličinou popsat. Je číselně vyjádřen hodnotami funkce, která se nazývá hustota pravděpodobnosti. V dalším ji budeme označovat fV(x), množinu možných hodnot x veličiny V symbolem X.

Obecně se definuje hustota pravděpodobnosti náhodné veličiny jako

fV(a,b) = p(a Ł x Ł b)

- tedy pravděpodobnost, že veličina V nabude hodnoty z intervalu <a,b> Ě X.

Pro diskrétní náhodné veličiny se nejčastěji klade a=b. Hustota pravděpodobnosti fV(a) je tedy rovna

fV(a) = p(x=a)

V návaznosti na hustotu pravděpodobnosti se zavádí distribuční funkce definovaná vztahem

FV(b) = p(x Ł b)

- tedy pravděpodobnost, že náhodná veličina V získá hodnotu nanejvýš b.

Distribuční funkce F(a) pro diskrétní náhodné veličiny  je rovna součtu pravděpodobností fV(x) pro x Ł a a je tedy rovna

FV(a) = S p(xi)

kde se sčítá přes všechna i, pro něž je xi Ł a.

Pro spojité náhodné veličiny platí mezi hustotou pravděpodobnosti f(x) a distribuční funkcí F(x) vztah

resp.

Inverzní funkce K(p) k funkci distribuční F(x) se nazývá kvantilová funkce. Je-li tedy F(a)=p, je K(p)=a. Z toho plyne, že kvantilová funkce je vždy vázána na určité konkrétní rozdělení pravděpodobnosti.Ovšem F(a) je pravděpodobnost, že veličina x získá hodnotu nanejvýše a. Naopak tedy K(p)=a je hodnota, kterou s pravděpodobností p získají prvky xŁa. Pro diskrétní veličiny lze říci i jinak: a udává takovou hodnotu sledované veličiny, že všechny hodnoty menší nebo rovny tomuto a se vyskytnou v datech s pravděpodobností p. Funkční hodnota a=K(p) pro konkrétní p se označuje jako p-kvantil nebo také p%-kvantil (viz poznámka v odstavci "Vlastnosti pravděpodobnosti"). Zde je ovšem drobný matematický problém: inverzní funkce existuje ke spojité funkci rostoucí; distribuční funkce je však obecně pouze neklesající. Pro diskrétní rozdělení to odpovídá situaci, kdy nemusí vždy existovat jednoznačně takové xi, že F(xi) = p - může jich existovat více. V praxi pak bývá používáno několik způsobů, jak kvantil stanovit - nejčastěji jako nejmenší z možných hodnot: K(a) = inf {xÎR: F(x)ła}.

 

Příklad: Mějme dány pravděpodobnosti, že třída jakosti vody nějaké imaginární řeky v nějakém profilu nabude hodnoty T, následující tabulkou vycházející z dlouhodobého pozorování a měření správci povodí:

 

 Třída jakosti T 1 2 3 4 5
Pravděpodobnost = hustota f(T) 0,05 0,20 0,35 0,30 0,10

Tab. 1: Příklad hustoty pravděpodobnosti

Hustota pravděpodobnosti je tedy definována takto (jde o diskrétní funkci): f(1)=0,05; f(2)=0,20; f(3)=0,35; f(4)=0,30; f(5)=0,10. Hustota pravděpodobnosti jako funkce má i své grafické vyjádření, např. následujícím grafem:

 

Obr. 1: Graf hustoty pravděpodobnosti

Obdobně distribuční funkce na týchž datech dá následující tabulku:

 

 Třída jakosti T 1 2 3 4 5
Hodnota distribuční funkce F(T) 0,05 0,25 0,60 0,90 1,00

Tab. 2: Příklad hodnot distribuční funkce

a příslušný graf:

 

Obr. 2: Graf distribuční funkce

 

Nyní např. 0.35-kvantil: je to podle definice nejmenší z hodnot x množiny {1, 2, 3, 4, 5}, pro kterou platí F(x)ł0.35. To platí pro x=3 (F(3)=0.6), pro x=4 (F(4)=0.9) a pro x=5 (F(5)=1.0). Nejmenší z těchto čísel je 3 a tedy 0.35-kvantil=3.

Střední hodnota, rozptyl

Hodnota vyjadřující střed, centrální tendenci, těžiště, průměrnou velikost apod. je definována jako střední hodnota:

Definice: Střední hodnota E(x) diskrétní náhodné veličiny x je rovna

E(x) = S xi . p(xi)

kde se sčítá přes všechna i.

Příklad: Třídy jakosti vody ve shora uvedeném profilu hypotetické řeky mají střední hodnotu 1.0,05+2.0,20+3.0,35+4.0,30+5.0,10=3,20.

Definice: Střední hodnota E(x) spojité náhodné veličiny je rovna

Hodnota, jistým způsobem vyjadřující rozptýlení kolem střední hodnoty, souhrnnou odchylku od střední hodnoty, je definována jako rozptyl:

Definice: Rozptyl D(x) diskrétní náhodné veličiny x je roven

D(x) = S((xi - m)2 . pi) =  ( S xi2 . pi ) - m2

kde symbolem m je označena střední hodnota E(x) a kde se sčítá přes všechna i.

Příklad: Třídy jakosti ve shora uvedeném profilu hypotetické řeky mají rozptyl 12.0,05+22.0,20+32.0,35+42.0,30+52.0,10-3,202=1,06.

Definice: Rozptyl D(x) spojité náhodné veličiny x je definován takto:

kde symbolem m je označena stejně jako v předchozím vztahu střední hodnota E(x).

Normální rozdělení

Bezesporu nejdůležitějším rozdělením pravděpodobnosti náhodné veličiny (viz výše) v teorii pravděpodobnosti a matematické statistice je normální rozdělení. Jeho význam udává např. centrální limitní věta, která za velmi obecných podmínek zaručuje, že součet nezávislých náhodných veličin má přibližně normální rozdělení bez ohledu na rozložení jednotlivých sčítanců. Další význam spočívá v tom, že jím lze aproximovat mnohá jiná rozdělení včetně diskrétních. Normální rozdělený bývá také nazýváno Gaussovým rozdělením a graf jeho hustoty Gaussovou křivkou.

Nejprve zaveďme normované normální rozdělení:

Definice: Normované normální rozdělení je takové, jehož hustota pravděpodobnosti - bývá zvykem ji označovat j(x) namísto obecného f(x) - má tvar

Lze ukázat, že střední hodnota normovaného normálního rozdělení je 0 a jeho rozptyl je 1. Graf hustoty je symetrický kolem nuly, funkce j má dva inflexní body {-1;+1}.

Distribuční funkce normovaného normálního rozdělení má tvar

Obecně se pak zavádí normální rozdělení takto:

Definice: Normální rozdělení je takové, jehož hustota pravděpodobnosti f(x) má tvar

kde parametrem m je reálné číslo a parametrem s reálné číslo, s > 0. Graf hustoty f(x) je symetrický kolem přímky x=m, přičemž hodnota m je zároveň střední hodnotou. Funkce má dva inflexní body {m-s;m+s}, přičemž hodnota s2 je zároveň rozptylem.

Distribuční funkce obecného normálního rozdělení pak má tvar

Příklad: Hustota pravděpodobnosti normálního rozdělení s m=3 a s=2 má graf

 

Obr. 3: Gaussova křivka pro m=3 a s=2

Inflexními body jsou tedy [1,f(1)] a [5,f(3)].

 

Četnostní (frekvenční) analýza

Modelový příklad

V rámci šetření environmentálních dopadů na genetické schopnosti flóry, konkrétně reprodukčních schopností jedle, byla zkoumána semena jedlí v delší časové řadě. Následující tabulka obsahuje datový element výzkumu - náhodně vybraných 400 vah semen jedlí v [g] v jednom vegetačním období jedné konkrétní oblasti:

 

4.717 4.411 4.549 4.432 4.186 4.402 4.529 4.841 4.501 4.384 4.451 4.343 4.599 4.230 4.407 4.149
4.471 4.169 4.465 4.596 4.235 4.534 4.328 4.393 4.458 4.220 4.431 4.570 4.618 4.225 4.792 4.450
4.615 4.092 4.731 4.293 4.456 4.620 4.369 4.749 4.377 4.816 4.477 4.254 4.343 4.586 4.378 4.588
4.508 4.510 4.416 4.626 4.990 4.459 4.574 4.601 4.334 4.380 4.658 4.713 4.698 4.627 4.579 4.634
4.461 4.489 4.486 4.712 4.836 4.377 4.439 4.377 4.791 4.569 4.258 4.099 4.200 4.479 4.482 4.577
4.837 4.443 4.049 4.409 4.523 4.601 4.325 4.461 4.347 4.714 4.497 4.332 4.679 4.768 4.453 4.662
4.427 4.999 4.697 4.392 4.450 4.709 4.628 4.737 4.414 4.793 4.577 4.536 4.014 4.901 4.515 4.471
4.726 4.729 4.379 4.579 4.356 4.374 4.640 4.531 4.382 4.654 4.297 4.309 4.057 4.584 4.911 4.275
4.528 4.527 4.600 4.522 4.392 4.674 4.745 4.751 4.225 4.645 4.318 4.187 4.657 4.598 4.346 4.523
4.339 4.220 4.701 4.340 4.489 4.386 4.664 4.519 4.264 4.591 4.796 4.430 4.586 4.708 4.583 4.493
4.745 4.579 4.462 4.714 4.684 4.649 4.919 4.552 4.290 4.393 4.817 4.799 4.195 4.360 4.716 4.191
4.475 4.908 4.474 4.694 4.277 4.147 4.403 4.470 4.250 4.441 4.692 4.650 4.344 4.241 4.417 4.606
4.481 4.510 4.238 4.512 4.557 4.061 4.573 4.440 4.839 4.386 4.928 4.279 4.638 4.430 4.472 4.490
4.159 4.283 4.325 4.721 4.575 4.356 4.618 4.434 4.595 4.607 4.582 4.500 4.396 4.329 4.174 4.297
4.915 4.360 4.339 4.407 4.511 4.492 4.502 4.562 4.538 4.498 4.607 4.746 4.529 4.325 4.758 4.514
4.527 4.491 4.617 4.412 4.648 4.577 4.387 4.681 4.617 4.334 4.547 4.398 4.462 4.996 4.482 4.508
4.501 4.579 4.258 4.615 4.406 4.595 4.086 4.446 4.712 4.193 4.790 4.536 4.425 4.599 4.723 4.453
4.397 4.625 4.024 4.561 4.455 4.470 4.367 4.656 4.480 4.483 4.430 4.466 4.571 4.569 4.689 4.690
4.795 4.415 4.379 4.642 4.839 4.761 4.543 4.596 4.451 4.531 4.260 4.790 4.430 4.837 4.861 4.434
4.381 4.275 4.199 4.640 4.737 4.299 4.521 4.635 4.001 4.771 4.186 4.473 4.425 4.640 4.437 4.657
4.431 4.514 4.461 4.779 4.283 4.583 4.349 4.414 4.628 4.296 4.679 4.527 4.293 4.422 4.260 4.637
4.316 4.621 4.738 4.554 4.361 4.342 4.688 4.563 4.236 4.507 4.502 4.333 4.538 4.290 4.503 4.435
4.825 4.456 4.592 4.854 4.512 4.316 4.846 4.527 4.991 4.727 4.569 4.333 4.433 4.467 4.429 4.631
4.718 4.598 4.446 4.920 4.778 4.734 4.371 4.376 4.273 4.265 4.147 4.388 4.307 4.509 4.737 4.807
4.732 4.328 4.330 4.294 4.440 4.712 4.927 4.348 4.374 4.575 4.690 4.497 4.535 4.111 4.403 4.683

 Tab 3: Experimentálně zjištěné váhy semen jedle

Argumentem (sledovaným znakem) souboru je váha semene jedle v [g]. Rozsah souboru je 400. Rozměr souboru je 1.

Četnostní (frekvenční) tabulka dat

Zápis dat souboru, který obsahuje jednotlivé hodnoty (tak, jako např. tabulka experimentálně zjištěných vah semen jedle v příkladu nahoře), je někdy objemný - zvláště v případech dat, v nichž se hodnoty opakují. V uvedeném příkladu se např. hodnota 4,430 opakuje 4x - stejně jako hodnoty 4,527 a 4,579. Osm jiných hodnot se opakuje 3x, 74 jiných hodnot 2x a zbývajících 148 hodnot je v souboru jen jednou. Data namísto prostého vyjmenování lze zapsat do tzv. četnostní nebo také frekvenční tabulky s obsahem a formátem zřejmým z následujícího příkladu:

Příklad: Četnostní (frekvenční) tabulka shora uvedených experimentálně zjištěných vah semen jedle může mít následující začátek:

 

 Hodnota Četnost (frekvence) výskytu hodnoty
4,430 4x
4,527 4x
4,579 4x
4,325 3x
... ...

Tab. 4: Četnostní tabulka dat

Četnostní (frekvenční) tabulka tříd

U mnohých souborů - právě jako v příkladu semen jedlí - se sice o něco zmenší počet (nyní již neopakujících se) hodnot, ale ne o moc. V příkladu nahoře je místo 400 (i opakujících se hodnot) hodnot 301 (ale neopakujících se). To je sice úspora 25%, ale stále je 300 hodnot špatně celkově hodnotitelných.

Případ semen jedlí navíc ukazuje na velmi podstatný v praxi uplatňovaný aspekt. Mějme neustále na paměti, že základní statistický soubor tvoří náhodný výběr ze základního souboru. Proto i hodnoty jsou náhodné s nějakým rozložením. Jestliže je rozlišení 0,001 [mm], v podstatě se stejnou pravděpodobností se místo hodnoty 4,521 mohla ve výběru ocitnout hodnota 4,520 nebo 4,522. V praxi se tedy obvykle stanoví nějaký interval, který je z hlediska rozlišení zkoumaného problému významný. U semen jedlí by to mohlo být např. 0,050 [mm] - tedy 50tinásobek minimálního rozlišení. Označme tuto hodnotu d.

Pak lze interval <xmin,xmax> "překrýt" intervalem <a0,ak> takovým, že a0 Ł xmin, xmax Ł ak a (ak-a0)=d.k - interval <a0,ak> je tedy možno rozložit na třídy, z nichž každá je intervalem tvaru <a0+(i-1).d , a0+i.d) pro i=1, 2, ... , k (poslední interval není polootevřený, ale uzavřený).

Poznámka: Ze statistického hlediska je jedno, zda volíme třídy tvaru <ai,ai+1) nebo tvaru (ai,ai+1> - v literatuře i v praxi se používá obou způsobů. Důležité je, že každá statistická jednotka padne právě do jednoho intervalu.

Příklad: Interval dat ze shora uvedeného příkladu jedlových semen je <4,001,4,999>. Pro d=0,050 může být "překrývající" interval např. <4,000,5,000> a jednotlivé podintervaly tvořící rozklad po řadě <4,000,4,050), <4,505,4,100), ... , <4,950,5,000>.

Četnostní (frekvenční) tabulka tříd pak udává, kolik hodnot výběrového souboru padne do toho kterého třídního intervalu.

Příklad: Pro shora uvedený rozklad intervalu <4,5> má četnostní (frekvenční) tabulka tříd tvar

 

i ai-1 ai Četnost
1 4.00 4.05 4
2 4.05 4.10 5
3 4.10 4.15 4
4 4.15 4.20 10
5 4.20 4.25 11
6 4.25 4.30 23
7 4.30 4.35 28
8 4.35 4.40 32
9 4.40 4.45 39
10 4.45 4.50 43
11 4.50 4.55 41
12 4.55 4.60 40
13 4.60 4.65 31
14 4.65 4.70 21
15 4.70 4.75 28
16 4.75 4.80 15
17 4.80 4.85 11
18 4.85 4.90 2
19 4.90 4.95 8
20 4.95 5.00 4

 Tab. 5. Četnostní tabulka tříd

Četnostní (frekvenční) histogram

Názorným grafickým znázorněním rozložení četnosti ve výběrovém souboru je četnostní histogram. Na osu X je vynášena horní hranice třídy, na osu Y četnost hodnot výběrového souboru v intervalu. Jde o sloupcový graf posledních dvou sloupců předchozí tabulky

Příklad: Četnostní histogram velikostí semen jedle z příkladu dat shora s třídami 0,050 [mm] ukazuje následující obrázek:

 

Obr. 4: Četnostní histogram

Plynulá křivka na obrázku vypovídá o tzv. kumulativních četnostech: kolik hodnot výběrového souboru je menších než uvedená hranice třídy. Na grafu jsou kumulativní četnosti vyjádřeny v procentech; je tedy možno alespoň přibližně zkontrolovat polohy dolního kvartilu (X pro četnost do 25%), mediánu (do 50%) a horního kvartilu (do 75%) - viz dále.

Pro názornost byla do dalšího obrázku přidána křivka aproximující rovnici normální rozdělení pro data z příkladu: Je zřejmé, že data s velkou pravděpodobností nají normální rozdělení.

 

Obr. 5: Četnostní histogram s křivkou normálního rozdělení

 

Parametrické statistiky

Průměr x' je číselně roven aritmetickému průměru. Je tedy

x' = ( ĺ xi ) / n

kde n je rozsah souboru.

Příklad: Průměr souboru s vahami semen jedle je (4,717 + 4,411 + ... + 4,403 + 4,683) / 400 = 1802,521 / 400 = 4,50629.

Rozptyl s2 je číselně roven průměrné kvadratické odchylce od průměru, tj.

s2 = ĺ (xi-x')2 / n

kde x' je shora definovaný průměr. Uvedený vztah lze po úpravách psát také jako

s2 = ( ĺ xi2 - (ĺxi)2/n ) / n

přičemž tento druhý tvar je lépe využitelný při rutinních výpočtech (rozptyl se spočte jediným průchodem).

Příklad: Rozptyl souboru s vahami semen jedle je podle prvního vztahu ((4,717-4,50629)2 + (4,411-4,50629)2 + ... + (4,403-4,50629)2 + (4,683-4,50629)2)  / 400 = 0,036676.
K hodnotě rozptylu lze dojít také takto: Součet xi spočtený při zjišťování průměru je 1802,521. Součet xi2 je 8137,375. Počet je 400. Rozptyl je tedy podle druhého vztahu roven (8137,366 - 1802,5202/400) / 400 = 0,036676.

Směrodatná odchylka s je číselně rovna druhé odmocnině z rozptylu:

s = Ö s2

Jde-li o hodnoty veličiny s normálním rozdělením četnosti, pak [x'-s] a [x'+s] jsou ty hodnoty xf, pro která má křivka f(xf) inflexní body. Vypovídací schopnost směrodatné odchylky jako takové spočívá v možnosti její interpretace při popisu odlišností zkoumaných hodnot: čím menší je směrodatná odchylka, tím více jsou hodnoty "podobné" střední hodnotě i sobě navzájem.

Neparametrické statistiky

q-Kvantil

Základní ideou q-kvantilu pro statistické charakteristiky jednorozměrného datového souboru o N prvcích je rozdělení seřazených dat na q zhruba stejně početných podmnožin. Kvantily jsou pak hraniční hodnoty mezi dvěma sousedními podmnožinami. Přesně se k-tý q-kvantil náhodné proměnné V definuje jako taková hodnota v, pro kterou je pravděpodobnost, že hodnota náhodné veličiny je

Jinak řečeno, k-tý q-kvantil je ta hodnota (dat), kde kumulativní distribuční funkce nabude nebo překročí hodnotu k/q.

Existuje tedy q-1 q-kvantilů, a to pro každé celé číslo k Î (0, q). Pro množinu seřazených N dat, indexovaných od 1 do N, k-tý q-kvantil je prvek dat s indexem Ikq = éN . k / qů. Z hlediska definice však v případě, že I=N.k/q je celé číslo, pak všechny hodnoty počínaje hodnotou dat s tímto indexem (XI) až do hodnoty dat s následujícím indexem (XI+1) mohou být kvantilem. V tomto případě bývá zvykem za kvantil považovat střed mezi těmito dvěma hodnotami. Není to však povinnost; za kvantil lze vzít např. menší z obou hodnot nebo mezi nimi interpolovat. Protože z q-kvantilu se odvozuje řada dalších statistik (viz dále), je právě zmíněná situace kritickým místem při jejich určení. Statistici sami se neshodnou už ani na tom, zda kvantily mají být pouze hodnoty datového souboru (viz výše určení jejich indexu), nebo to mohou být i hodnoty zkoumané veličiny v datech však neobsažené (viz výše např. střed mezi dvěma hodnotami).

Poznámka: é X ů je "horní celá část" X: je-li X celé, výsledkem je X, není-li celé, je výsledkem nejbližší vyšší celé číslo - viz kapitola o zaokrouhlování níže.

Percentil

Percentil pP je P-tý 100-kvantil. Z definice q-kvantilu pro q=100 se odvozuje i jiná definice: percentil pP je nejmenší hodnota x veličiny X, pro níž platí, že pro P% dat {xi} je splněna podmínka xi Ł pP.

Příklad: Mějme soubor s váhami semen jedle (viz výše). Percentil p5 je tedy taková váha, pro níž platí, že nejvýše 5% vah je Ł p5. Protože celkem má datový soubor N = 400 hodnot, q = 100, k = 5, je Ikq = é 400 . 5 / 100 ů = 20. 20. hodnota seřazeného souboru dat je rovna 4.191, je tedy p5 = 4.191.

Shora uvedená definice percentilu pomocí kvantilu je sice jednou z velmi často používaných, při jeho určení není však jednoznačná. Viz právě uvedený příklad: 21. hodnota v seřazeném souboru je rovna 4.193. To ovšem znamená, že všechny hodnoty x < 4.193 splňují shora uvedenou definici percentilu, tedy p5 může být např. i 4.19256.

Medián

Medián xm je definován jako 1-ní 2-kvantil, pomocí percentilu jako p50, tj. hodnota, "pod kterou" leží nejvýš polovina hodnot souboru a "nad kterou" leží nejvýš polovina hodnot souboru. Při jeho určení se v praxi postupuje podle definice q-kvantilu: jeho index i = Ikq = é N . 1 / 2ů, což je N/2 pro N sudé, (N+1)/2 pro N liché. Je-li tedy N liché, je mediánem hodnota Xi; je-li N sudé, nejčastěji se za medián přijímá hodnota hodnota (Xi+Xi+1)/2. V jednotlivých krocích:

  1. Soubor se uspořádá podle velikosti. Označme takto uspořádaný soubor Y = {y1, y2, ... , yn}; každé yi je tedy nějaké xk.
  2. Nechť m je celá část podílu n/2: m = [n/2]. Je-li n sudé, je n=2.m, je-li n liché, je n=2.m+1.
  3. Je-li n liché, je mediánem hodnota ym+1. Je-li n sudé, je mediánem hodnota (ym+ym++)/2.

Příklad: Medián souboru s váhami semen jedle se zjistí postupem popsaným výše. Nejprve se hodnoty seřadí podle velikosti. Získá se následující posloupnost hodnot:

 

Pořadí 1. 2. ... 199. 200. 201. 202. ... 399. 400.
Hodnota  4,001 4,014 ... 4,498 4,500 4,501 4,501 ... 4,996 4,999

Tab. 6: Tabulka pro určení mediánu

"Polovinou" souboru je hranice mezi 200.tým a 201.ním prvkem (prvků je sudý počet). Medián je tedy polovina mezi 4,500 a 4,501, tj. 4,5005.

Kvartily

Dolní a horní kvartil qD a qH jsou definovány jako 1-ní a 3-tí 4-kvantil, pomocí percentilu jako p25 resp. p75. Nepřesně ale názorně řečeno, jsou to hodnoty, "pod kterými" leží nejvýš čtvrtina resp. tři čtvrtiny hodnot souboru a "nad kterými" leží nejvýš tři čtvrtiny resp. čtvrtina hodnot souboru. Indexy dolního resp. horního kvartilu jsou podle definice Ikq = é N . 1 / 4ů resp. Ikq = é N . 3 / 4ů.

Pro určení hodnot kvartilů však není stanoven žádný jednotný postup. Jednak sami statističtí odborníci používají několik metod, jednak autoři statistického software aplikují různé algoritmy (a pohříchu ani přesně neřeknou jaké). Zhruba lze vidět následující metodiky při určování kvartilů (všechny splňují definici a medián naštěstí všechny určují pro sudý počet dat stejně, jako střed mezi prostředními hodnotami):

  1. Soubor se uspořádá podle velikosti. Mediánem se rozdělí na dvě části, ale medián se nezařadí do žádné z nich. Dolní kvartil je pak medián dolní poloviny dat, horní kvartil je medián horní poloviny dat. Metodu popsali např. Moore a McCabe a často se užívá v software statistických kalkulátorů nebo jiné výpočetní techniky.
  2. Soubor se uspořádá podle velikosti. Mediánem se rozdělí na dvě části. Je-li mediánem prostřední datová hodnota (rozsah souboru je liché číslo), pak se zařadí do obou polovin. Dolní kvartil je pak medián dolní poloviny dat, horní kvartil je medián horní poloviny dat. Pro sudý počet dat je tedy tato metoda totožná s předchozí. Metodu popsal např. Tukey.
  3. Pro sudý počet dat se aplikuje předchozí metoda. Je-li počet N dat lichý, pak existuje celé číslo n takové, že N=4.n+1 nebo N=4.n+3 (4.n+0 a 4.n+2 jsou sudá). Je-li N=4.n+1, je dolní kvartil qD = 1/4.Xn+3/4.Xn+1 a horní kvartil qH = 3/4.X3n+1+1/4.X3n+2. Je-li N=4.n+3, je dolní kvartil qD = 3/4.Xn+1+1/4.Xn+2 a horní kvartil qH = 1/4.X3n+2+3/4.X3n+3.
  4. Určí se hodnota iD = (N+1)/4 a zaokrouhlí se na nejbližší celé číslo. Pokud je iD přesně mezi dvěmi celými čísly, zaokrouhlí se nahoru. Prvek dat s takto zaokrouhleným indexem iD je dolním kvartilem. Určí se dále hodnota iH = 3.(N+1)/4 a zaokrouhlí se na nejbližší celé číslo. Pokud je iH přesně mezi dvěmi celými čísly, zaokrouhlí se dolů. Prvek dat s takto zaokrouhleným indexem iH je horním kvartilem. Takto určené kvartily jsou tedy vždy prvky datového souboru. Metodu popsali např. Mendenhall a Sincich.
  5. Určí se hodnota i = (N+1)/4. Je-li i celé číslo, je dolním kvartilem prvek dat s indexem i, tj. xi. Není-li i celé číslo, položí se k = [i] a interpoluje se mezi prvky xk a xk+1. Dolním kvartilem je pak hodnota xk + (xk+1 - xk).(i-k). Určí se hodnota j = 3.(N+1)/4. Je-li j celé číslo, je horním kvartilem prvek dat s indexem j, tj. xj. Není-li j celé číslo, položí se k = [j] a interpoluje se mezi prvky xk a xk+1. Horním kvartilem je pak hodnota xk + (xk+1 - xk).(j-k). Metodu používají některé statistické aplikace, např. Minitab.
  6. Určí se hodnota i = (N+3)/4. Je-li i celé číslo, je dolním kvartilem prvek dat s indexem i, tj. xi. Není-li i celé číslo, položí se k = [i] a interpoluje se mezi prvky xk a xk+1. Dolním kvartilem je pak hodnota xk + (xk+1 - xk).(i-k). Určí se hodnota j = (3.N+1)/4. Je-li j celé číslo, je horním kvartilem prvek dat s indexem j, tj. xj. Není-li j celé číslo, položí se k = [j] a interpoluje se mezi prvky xk a xk+1. Horním kvartilem je pak hodnota xk + (xk+1 - xk).(j-k). Metodu popsali např. Freund a Perles a používá ji např. Excel.

 

Příklad - Dolní kvartil souboru s vahami semen jedle metodikou A: Nejprve se hodnoty seřadí podle velikosti. Získá se posloupnost hodnot, jejíž důležitá část je v následující tabulce:

 

Pořadí 1. 2. ... 100. 101. ... 199. 200.
Hodnota  4,001 4,014 ... 4,378 4,379 ... 4,498 4,500

Tab. 7: Tabulka pro určení dolního kvartilu

Počet prvků souboru je 400, tedy sudé číslo. Dolní polovinu prvků tvoří prvky s indexy z intervalu <1,200>. Dolní kvartil je roven jejich mediánu, a protože jich je sudý počet, je roven
      4,379 - 0,25 . (4,739 - 4,738) = 4,37875.

Horní kvartil souboru s vahami semen jedle metodikou A:  Nejprve se hodnoty seřadí podle velikosti. Získá se posloupnost hodnot, jejíž důležitá část je v následující tabulce:

 

Pořadí 201. 202. ... 300. 301. ... 399. 400.
Hodnota  4,501 4,501 ... 4,634 4,635 ... 4,996 4,999

Tab. 8: Tabulka pro určení horního kvartilu

Počet prvků souboru je 400, tedy sudé číslo. Horní polovinu prvků tvoří prvky s indexy z intervalu <201,400>. Horní kvartil je roven jejich mediánu, a protože jich je sudý počet, je roven
      4,635 - 0,75 . (4,635 - 4,634) = 4,63425.

Mezikvartilové rozpětí, odlehlé hodnoty

Mezikvartilové rozpětí (interquartile range - IQR) je v popisné statistice jednou z měr statistické variability. Je definován jako rozdíl horního a dolního kvartilu:

IQR = qH - qD

Určuje tedy rozpětí, ve kterém se nachází polovina všech dat statistického souboru.

Odlehlé hodnoty jsou ty hodnoty statistického souboru, které jsou "hodně vzdálené" od ostatních hodnot. Je zřejmé, že vágní pojem "být hodně vzdálený" je nutno definovat přesně; v matematice však žádná pevná definice stanovena není. V konečném důsledku je posouzení významu a velikosti odchylky subjektivní záležitostí a závisí na řešené úloze. Existují proto různé metody pro stanovení odlehlých hodnot.

V tomto odstavci se zmiňují odlehlé hodnoty proto, že často používaným kriteriem je použití právě mezikvartilového rozpětí. Za odlehlé hodnoty se pak prohlásí ta data, která jsou mimo interval

<qD - k.IQR; qH + k.IQR>

kde k je nějaká nezáporná konstanta, např. 3/2.

Krabicový graf

Velmi populární (protože jednoduchý a přitom s rozumnou vypovídací schopností) je tzv. krabicový graf, jehož autorem byl roku 1969 americký matematik John W. Tukey. Jeho nejjednodušší podoba vypovídá o percentilech na úrovni 0%, 25%, 50%, 75% a 100%, tedy o minimu, dolním kvartilu, mediánu, horním kvartilu a maximu:

 

Obr. 6: Příklad krabicového grafu

Na krabicovém grafu jsou podstatné nejen polohy popsaných hodnot, ale i výšky jednotlivých částí grafu. Je vhodné si uvědomit, že např. v intervalu vymezeném dolní úsečkou (tj. od minima k dolnímu kvartilu) se nachází 25% všech dat výběrového souboru. Protože dolní úsečka je vyšší než výška spodního (v barvě modrého) obdélníka, mají data od minima k dolnímu kvartilu větší rozptyl než data od dolního kvartilu k mediánu - těch je také 25%!

Příklad na krabicový graf

Vypovídací schopnost krabicového grafu je poměrně značná, pokud je správně chápána jeho podstata. Právě pro pochopení vypovídací schopnosti krabicového grafu vymyslel autor tohoto článku před lety a do dneška celkem s úspěchem používá tento příklad:

V dnešní bio- době, kdy výrobci označují s oblibou své potraviny právě předponou bio-, máme bio- snad všechny druhy potravin. Krkonošské, Beskydské a jiné bio-krávy žerou jen bio-trávu, produkují bio-hnůj - ale také bio-mléko. Konkurence je veliká, bio-farmáři soupeří o bio-zákazníka nejrůznějším způsobem: od mléčných (samozřejmě bio) automatů na mléko až po osobní odběr snad rovnou od bio-vemene. Máme-li v rozumném perimetru několik takových producentů mléka, jak vybrat toho nejlepšího? Běžný zákazník rozhodně nebude porovnávat kvalitu, protože už jen fyzikální a mikrobiologické analýzy by ho finančně zruinovaly - navíc celkem oprávněně tuší, že výsledky u všech určitě budou splňovat přísné normy EU.

Zákazník se tedy zaměří na poctivost prodejce. Začne odebírat a pečlivě měřit půllitrové dávky a hodnotit je metodami, kterým se naučil přečtením tohoto článku. Vybere dva jemu nejbližší prodejce A a B, odebere od každého 100 dávek deklarovaných jako půllitrové a z naměřených skutečných objemů nechá sestavit krabicové grafy. Získá následující:

 

Obr. 7: Krabicový graf půllitrových dávek bio-mléka

Otázkou tedy je: který z obou je poctivější, ke kterému raději chodit?

Stejnou otázku klade autor tohoto článku svým studentům po vyslechnutí přednášky o kvartilech, mediánu a krabicovém grafu. Přibližně 20% se jich přiklání v prodejci A, aniž však dovedou popsat důvod. 80% prohlásí za lepšího prodejce B a zdůvodňují to tím, že mnoho jeho prodejů je téměř přesně půl litru (to, že oba nám alespoň jednou deci ubrali, ale na druhé straně alespoň jednou nám deci přidali - to obě skupiny studentů shodně potvrzují). Ovšem na otázku druhé skupině - kolik nám tedy ze 100 dávek prodali skoro přesně - se ozývají tipy od 90, 94 - a co třeba 96? Třeba i to!

Teprve po několikerém připomenutí konstrukce krabicového grafu začnou posluchači chápat, že ony dva nizoučké obdélníky v případě B reprezentují 25% + 25% = 50 naměřených hodnot. Tedy krabicový graf sděluje, že prodejce B nám nejméně z poloviny naměřil skoro úplně přesně. Dále zobrazuje skutečnost, že nejméně jednou nám prodal o deci méně a nejméně jednou o deci více. Jak je to ovšem se zbývajícími 24 prodeji pod správnou míru a 24 prodeji nad správnou míru - o tom už tento tvar krabicového grafu nevypovídá. Mohou nastat krajní případy, z nich dva jsou schematicky znázorněny jako B1 a B2:

 

Obr. 8: Krajní případy datových souborů B

V případě B1 jen jediná hodnota je extrémně odlehlá směrem k minimu, zatímco zbývajících 24 je velmi blízko "středním" 50 hodnotám; analogicky směrem k maximu. V případě B2 je tomu naopak: všech 24 nízkých hodnot je téměř u minima a všech 24 vysokých hodnot je téměř u maxima. Příklady dat odpovídajících grafům B1 a B2 jsou v následujících dvou četnostních tabulkách:

 

0.600 1x
0.510 24x
0.500 50x
0.490 24x
0.400 1x
     
0.600 1x
0.595 23x
0.510 1x
0.500 50x
0.490 1x
0.405 23x
0.400 1x
Tab. 9: Data, jejichž krabicový graf je B1       Tab. 10: Data, jejichž krabicový graf je B2

 

Pokud v praxi dávají data krabicový graf podobný případu B, pak následujícím krokem by měl být rozbor datového souboru. Nejčastěji se zjistí, že jen nepatrné množství dat tvoří odlehlé hodnoty (případ B1: stačí zjistit příčinu a tyto hodnoty ze souboru vyloučit), nebo že došlo ke smíchání dat třech různých souborů do jednoho (případ B2: stačí zpracovat tři soubory samostatně).

Ovšem i případ A stojí za pozornost. Krabicový graf A totiž vypovídá o tom, že nejméně 25x nás téměř o deci ošidili - ovšem na druhé straně nám nejméně 25x téměř deci přidali. Jak je to však ve zbývajících 50 případech, o tom krabicový graf už nevypovídá. Mohou nastat krajní případy, z nich dva jsou schematicky znázorněny jako A1 a A2:

 

Obr. 9: Krabicový graf

V případě A1 je dalších 25 hodnot téměř rovných velmi malým hodnotám poblíž minima, a zbývajících 25 hodnot téměř rovných velmi velkým hodnotám poblíž maxima. V případě A2 je všech zbývajících 50 hodnot velmi podobných někde v okolí prostřední hodnoty.

Příklady dat odpovídajících grafům A1 a A2 jsou v následujících dvou četnostních tabulkách:

 

0.600 1x
0.595 49x
0.405 49x
0.400 1x
     
0.600 25x
0.590 1x
0.500 48x
0.410 1x
0.400 25x
Tab. 11: Data, jejichž krabicový graf je A1       Tab. 12: Data, jejichž krabicový graf je A2

 

Pokud v praxi dávají data krabicový graf podobný případu A, pak následujícím krokem by měl být rozbor datového souboru. Nejčastěji se zjistí, že došlo ke smíchání dat dvou různých souborů do jednoho (případ A1: stačí zpracovat dva soubory samostatně), nebo že došlo ke smíchání dat třech různých souborů do jednoho (případ A2: stačí zpracovat tři soubory samostatně).

 

Zaokrouhlování

Při přípravě dat jednorozměrného datového souboru je začasté kladena podmínka na nějakou formalizaci dat, např. na počet desetinných míst, na rovnost násobku nějakého čísla, na náhradu zlomku desetinným zápisem apod. I shora uvedené odstavce pracují s pojmem "zaokrouhlení". Přitom osoby data připravující používají zcela automaticky jejich úpravu - de facto aproximují číslem "velmi podobným". Tento odstavec velmi stručně popisuje věc zdánlivě zcela jasnou, ale při pečlivějším studiu lze ukázat, že je většinou populace nazírána velmi zjednodušeně. Nejčastější a stěžejní úlohou je zaokrouhlení na celé číslo (tj. aproximace celým číslem). Není to však jediná úloha - viz dále.

Pokud nebude výslovně řečeno jinak, bude v této kapitole X značit zaokrouhlované číslo, A pak zaokrouhlení čísla X.

Zaokrouhlení na celé číslo

Zaokrouhlení na nejbližší celé číslo

Jde zřejmě o nejznámější a nejčastější úlohu zaokrouhlování. Právě tak nám byla problematika zaokrouhlování prezentována počínaje základní školou. Zní: Nahraďte hodnotu reálného čísla X celočíselnou hodnotou. Obvykle je řešena následovně:

  1. Pro každé reálné číslo X existuje jediné celé číslo A, pro které platí: X Î <A-0.5; A+0.5).
  2. Toto číslo A nazvěme zaokrouhlením čísla X.

Pro potřeby kapitoly o zaokrouhlování budeme značit A = [X].

Postup je často označován jako "zaokrouhlení na nejbližší" (round to nearest). Většina software obsahují funkci Round(X), jejímž parametrem je obecně reálné číslo a výsledkem celočíselná hodnota (nebo reálná hodnota s nulovou desetinnou částí) rovna zaokrouhlené hodnotě podle popisu výše. Např. [2.4] = Round(2.4) = 2, [3.9] = Round(3.9) = 4, [7.5] = Round(7.5) = 8.

Při nezaujatém pohledu (a zvláště při pohledu zaujatém naší peněženkou po zrušení desetníků, dvacetníků a padesátníků) se však musíme ptát: hodnoty rovny celočíselné hodnotě plus 0.5 jsou evidentně ve výjimečném postavení - vždy se popisovanou definicí zaokrouhlují "nahoru". Touto problematikou se zabývá samostatný odstavec níže.

Zaokrouhlení nahoru

V anglosaské literatuře se používá také termín "zaokrouhlení ke kladnému nekonečnu". Zaokrouhlení A čísla X je nejmenší celé číslo, které není menší než X. Je-li číslo A rovno takovému zaokrouhlení čísla X, značí se A =  é X ů.

V programovacích jazycích a statistickém software je pro toto zaokrouhlení používána funkce pojmenovaná Ceiling: A = Ceiling (X) nebo také RoundUp: A = RoundUp(X). Platí:

é X ů = - ë -X ű

Zaokrouhlení dolů

V anglosaské literatuře se používá také termín "zaokrouhlení k zápornému nekonečnu". Zaokrouhlení A čísla X je největší celé číslo, které hodnotou nepřesáhne X. Je-li číslo A rovno takovému zaokrouhlení čísla X, značí se A =  ë X ű.

V programovacích jazycích a statistickém software je pro toto zaokrouhlení používána funkce pojmenovaná Floor: A = Floor (X) nebo také RoundDown: A = RoundDown(X). Platí:

ë X ű = - é -X ů

Zaokrouhlení k nule

V anglosaské literatuře se používá také termín "zaokrouhlení od nekonečna". Zaokrouhlení A čísla X je to celé číslo, které vznikne odstraněním zlomková části X.

V programovacích jazycích a statistickém software je pro toto zaokrouhlení používána funkce pojmenovaná Truncate: A = Truncate (X), nebo také Fix: A = Fix (X). Platí:

Truncate (X) = Sgn(X) . ë |X| ű = -Sgn (X) . é -|X| ů

kde funkce Sgn je funkce "znaménka" (signum): vrací +1 pro kladná, -1 pro záporná čísla, a 0 pro nulu.

Zaokrouhlení od nuly

V anglosaské literatuře se používá také termín "zaokrouhlení k nekonečnu". Zaokrouhlení A čísla X je číslo X, je-li X celé. Není-li X celé, pak je to největší celé číslo A, pro něž je A < X (pro kladná X) nebo nejmenší celé číslo A, pro něž je X < A (pro záporná X).

Platí:

A = Sgn(X) . é |X| ů = -Sgn (X) . ë -|X| ű

kde funkce Sgn je funkce "znaménka" (signum): vrací +1 pro kladná, -1 pro záporná čísla, a 0 pro nulu.

Zaokrouhlení poloviny

Odstavec popisuje možné postupy zaokrouhlení reálného čísla X na celé číslo A, je-li zlomková část X rovna přesně 1/2.

Zaokrouhlení poloviny nahoru

Je-li zlomková část čísla X rovna přesně 1/2, je zaokrouhlení A = X + 0.5. Je tedy zaokrouhlení čísla 17.5 rovno 18 a zaokrouhlení -17.5 rovno -17. Platí:

A = ë X + 0.5 ű = - é -X - 0.5 ů

Tento typ zaokrouhlení není symetrický, přesněji: způsobuje kladné zešikmení zaokrouhlovací chyby.

Zaokrouhlení poloviny dolů

Je-li zlomková část čísla X rovna přesně 1/2, je zaokrouhlení A = X - 0.5. Je tedy zaokrouhlení čísla 17.5 rovno 17 a zaokrouhlení -17.5 rovno -18. Platí:

A = é X - 0.5 ů = - ë -X + 0.5 ű

Tento typ zaokrouhlení podobně jako předchozí není symetrický, přesněji: způsobuje záporné zešikmení zaokrouhlovací chyby.

Zaokrouhlení poloviny od nuly

V anglosaské literatuře se používá také termín "zaokrouhlení k nekonečnu". Je-li zlomková část čísla X rovna přesně 1/2, je zaokrouhlení A = X + 0.5 (pro kladná X) resp. A = X - 0.5 (pro záporná X). Je tedy zaokrouhlení čísla 17.5 rovno 18 a zaokrouhlení -17.5 rovno -18. Platí:

A = Sgn(X) . ë |X| + 0.5 ű = - Sgn(X) . é -|X| - 0.5 ů

Tento typ zaokrouhlení zohledňuje kladné a záporné hodnoty symetricky a je bez celkového vychýlení, pokud jsou původní čísla kladná nebo záporná se stejnou pravděpodobností.

Zaokrouhlení poloviny k nule

V anglosaské literatuře se používá také termín "zaokrouhlení od nekonečna". Je-li zlomková část čísla X rovna přesně 1/2, je zaokrouhlení A = X - 0.5 (pro kladná X) resp. A = X + 0.5 (pro záporná X). Je tedy zaokrouhlení čísla 17.5 rovno 17 a zaokrouhlení -17.5 rovno -17. Platí:

A = Sgn(X) . é |X| - 0.5 ů = - Sgn(X) . ë -|X| + 0.5 ű

Tento typ zaokrouhlení stejně jako předchozí zohledňuje kladné a záporné hodnoty symetricky.

Zaokrouhlení poloviny k sudé

Je-li zlomková část čísla X rovna přesně 1/2, je zaokrouhlení A rovno nejbližšímu sudému celému číslu. Je tedy zaokrouhlení čísla 17.5 rovno 18 (stejně jako zaokrouhlení 18.5), a zaokrouhlení -17.5 rovno -18 (stejně jako zaokrouhlení -18.5).

Tento typ zaokrouhlení stejně jako předchozí zohledňuje kladné a záporné hodnoty symetricky. Navíc pro rozumnou distribuci hodnot veličiny X je průměrná hodnota zaokrouhlených čísel stejná jako čísel původních. Tento typ zaokrouhlení je označován také jako nestranné, konvergentní, statistické, Holandské (Dutch), Gausovo, licho-sudé, bankéřské nebo přerušované (broken). Toto zaokrouhlení je také výchozím typem zaokrouhlení v "Normách pro aritmetiku pohyblivé řádové čárky" - IEEE-754.

Zaokrouhlení poloviny k liché

Je-li zlomková část čísla X rovna přesně 1/2, je zaokrouhlení A rovno nejbližšímu lichému celému číslu. Je tedy zaokrouhlení čísla 17.5 rovno 17 (stejně jako zaokrouhlení 16.5), a zaokrouhlení -17.5 rovno -17 (stejně jako zaokrouhlení -16.5).

Tento typ zaokrouhlení má stejné vlastnosti jako předchozí.

Stochastické zaokrouhlení poloviny

Je-li zlomková část čísla X rovna přesně 1/2, je zaokrouhlení A rovno náhodně stanovené hodnotě X+0.5 a X-0.5, a to se stejnou pravděpodobností.

Tento typ zaokrouhlení je v podstatě rovněž bez celkového zkreslení, navíc je "spravedlivé" k lichým i sudým hodnotám A. Na druhé straně do výsledku vnáší náhodnou komponentu: Opakovaný výpočet na stejných datech může mít jiné výsledky.

Alternativní zaokrouhlení poloviny

Jsou-li zlomkové části čísel X rovny přesně 1/2, použije se pro první takovou hodnotu zaokrouhlení nahoru, pro druhou zaokrouhlení dolů, pro třetí opět nahoru atd. Tato metoda sice odstraňuje náhodnou komponentu, při opakovaných výpočtech na datech sice stejných, ale v jiném pořadí může dávat odlišné výsledky.

Zaokrouhlení na daný krok

Obecnější úlohou je zaokrouhlování na daný krok - např. na jednu setinu, na celé stovky, ale i na čtvrtminuty (= násobky 15 sec). Jedna z možností je využití výše popsané definice zaokrouhlení na celé číslo potažmo funkce Round:

Označme q daný krok (např. 100 pro zaokrouhlení na celé stovky, 0.001 pro zaokrouhlení na tisíciny). Zaokrouhlení reálného čísla X na krok q je pak hodnota

B = [X/q] . q

Zaokrouhlení hodnoty 123 456.789 na celé stovky je pak rovno součinu [1 234.56789]=1235 a 100, tj.ve výsledku 123 500.

Funkci Round z předchozího odstavce lze pak rozšířit přidáním druhého nepovinného parametru (není-li zadán, je roven 1):

  1. Round (X, 1) = Round (X)
  2. Round (X, q) = Round (X/q, 1) . q

Zaokrouhlení na definovaný počet m (desetinných) míst je pak rovno hodnotě funkce Round s druhým parametrem rovným 10-m (tedy pro zaokrouhlení na tisíciny je m=-3, na celé stovky rovno 2).

 

 

 

Literatura

The Math Forum: Defining Quartiles. Dostupné na http://mathforum.org/library/drmath/view/60969.html [cit. 3/6/2016].

Wikipedia: Quantile. Dostupné na: http://en.wikipedia.org/wiki/Quantile [cit. 3/6/2016].

Wikipedia: Quartile. Dostupné na: http://en.wikipedia.org/wiki/Quartile [cit. 3/6/2016].

 

 

Rev: 6 / 2016