Jednorozměrný statistický soubor
Doc. Dr. Vladimír Homola, Ph.D.
Jednorozměrný statistický (též výběrový) soubor (viz kapitolu "Základní pojmy matematické statistiky") obsahuje hodnoty jediného argumentu (sledovaného znaku, jediné veličiny). Následující text se výhradně zabývá nejčastějším případem, kdy argumentem je číselná hodnota; sledovaný znak je tedy kvantitativní.
Dále bude X = {x1, x2, ... , xn} značit nějaký jednorozměrný statistický (výběrový) soubor rozsahu n.
Nechť je sledovaným znakem váha pekařského výrobku označovaného jako rohlík. Vážením pěti náhodně vybraných rohlíků v [g] byl získán následující statistický soubor: {40, 44, 42, 41, 43}. Průměrná váha jednoho rohlíku je pak 41,8 [g], což je v celkem dobré shodě s váhou 42 [g] deklarované výrobcem. Průměr je zde rozumně použitelný ukazatel dobře vypovídající o poctivosti pekaře.
Mějme na druhé straně dvouhektarový pozemek kategorie Orná půda. Zkoumejme jeho vhodnost pro výsev z hlediska znečištění. Odeberme proto 100 vzorků a nechme provést analýzy např. na olovo. Výsledky z laboratoře v [ppm] tvoří následující statistický soubor: 99x hodnota 0.0, 1x hodnota 100 000. Průměrná hodnota znečištění celého dvouhektarového pole je tedy 1 000 [ppm]. Protože hygienická norma stanoví pro olovo limit koncentrace pro lehké půdy 100 [ppm], vyplývá z toho jednoznačný závěr: tento pozemek je předurčen ke stejné asanaci jako pozemek pod nynějším centrem Nová Karolina v Ostravě.
Rozumné použití průměru v případě rohlíků a nesmyslné použití v případě pole vede k závěru: pro hodnocení některých statistických dat má smysl použít průměr, pro některá však ne. Takový závěr hned indukuje dvě otázky:
Teorie pravděpodobnosti se zabývá studiem náhodných událostí, jevů, náhodných veličin a zákonitostmi, které pro ně platí. Zkoumá metody výpočtu pravděpodobností, problémy stochastické závislosti a nezávislosti, problémy náhodných procesů probíhajících v čase apod. Do kapitoly o zpracování jednorozměrného statistického souboru jsou zařazeny alespoň základní pojmy teorie pravděpodobnosti pro úzkou souvislost mezi hodnotami dat a pravděpodobností jejich výskytu - a to případně až do úrovně reálně existující veličiny jako takové.
Definice: Diskrétní náhodná veličina x je taková, která nabývá jen spočetně mnoha hodnot (pozn.: spočetné množiny jsou konečné i nekonečné!), každé obecně (viz dále) s jinou pravděpodobností (např. x = 0, 1, 2, ... nebo x = 1, 3, 5). Je-li tedy xÎX, je X spočetná množina.
Příklad: Diskrétní náhodná veličina je např. známka, kterou studenti obdrží z konkrétního předmětu. Může nabývat jakékoliv hodnoty z množiny {1, 2, 3}.
Definice: Spojitá náhodná veličina je taková, která nabývá nespočetně mnoha hodnot (pozn.: jakýkoliv interval reálných čísel obsahující alespoň dvě různé hodnoty je nespočetná množina). Je-li tedy xÎX, je X nespočetná množina.
Příklad: Spojitá náhodná veličina je např. obsah síranů podle ČSN 75 7221 a navazujících norem, konkrétně v profilu řeky Odry v Jakubčovicích. Může nabývat jakékoliv hodnoty větší nebo rovny nule a menší nebo rovny 100 (udává-li se v %).
Definice: Náhodný jev je vlastnost nebo systém vlastností prvků nějakého základního souboru Z. Má-li prvek x Î Z vlastnost A, řekneme, že při pozorování tohoto prvku x nastává jev A. Různým vymezením vlastností prvků základního souboru Z získáváme systém náhodných jevů, který tvoří jevové pole (v moderním pojetí tzv. s-algebru jevů). Do jevového pole patří vždy jev nemožný (odpovídá vlastnosti, kterou nevykazuje žádný prvek základního souboru) a jev jistý (odpovídá vlastnosti, kterou naopak mají všechny prvky základního souboru).
Definice: Náhodný pokus je jakákoliv procedura, která se uskutečňuje za určitého systému Y podmínek, a jejíž realizace za tohoto systému podmínek může být - alespoň teoreticky nekonečně - opakována. Označme symbolem W množinu všech možných výsledků náhodného pokusu. Určité podmnožiny množiny W výsledků náhodných pokusů - totiž ty, při kterých si všímáme pouze jedné vlastnosti A - tvoří pak náhodné jevy z předchozí definice.
Poznámka: Je důležité si uvědomit, že systém Y podmínek neurčuje jednoznačně výsledek náhodného pokusu, ale rozložení pravděpodobnosti na množině všech možných výsledků (viz dále).
Sám pojem pravděpodobnost je definován různě; v minulosti bylo navrženo několik způsobů definice pravděpodobnosti podle záměru použití pravděpodobnosti (klasická pravděpodobnost, statistická pravděpodobnost, geometrická pravděpodobnost a jiné). Tyto definice však především nepokrývaly celou oblast náhodných jevů, nebo byly nepřesné a dokonce logicky sporné. V současné době se používá axiomatická definice pravděpodobnosti.
Historicky nejstarší pokus o definici pravděpodobnosti, definice klasické pravděpodobnosti, převádí problém na pojem stejné možnosti výskytu dvou jevů, ten považuje za základní a dále ho nezkoumá. Předpokládá, že výsledkem náhodného pokusu (generujícího stav jevu A) může být jen konečně mnoho - např. n - stejně pravděpodobných elementárních stavů (viz házení kostkou). Zavádí pojem příznivého stavu jevu A; všech příznivých stavů (označme jejich počet m) není rozhodně více než n, nemusí však být žádný. Pravděpodobnost p(A) jevu A pak definuje jako podíl počtu příznivých stavů a počtu všech stavů:
p(A)=m/n.
Klasické pojetí pravděpodobnosti je dodnes nejčastěji používané pro řešení rozsáhlé řady úloh především z oblasti technických a přírodních věd. Nedává však návod, jak postupovat při nesplnění podmínky stejné možnosti výskytu dvou jevů.
Jedním z prvních pokusů o rozšíření klasické teorie pravděpodobnosti i na případ nekonečné množiny elementárních stavů je zavedení geometrické pravděpodobnosti. Základní myšlenka, která dala takto chápané pravděpodobnosti název, je tato: Mějme nějakou oblast (např. v rovině) G a v ní jako její podmnožinu jinou oblast g. Vybíráme náhodně z oblasti G bod a zkoumáme, s jakou pravděpodobností p patří tento bod i do oblasti g. V geometrickém pojetí pravděpodobnosti se tato pravděpodobnost p klade rovna hodnotě
p = m(g)/m(G)
kde m je míra oblasti - v rovině např. plošný obsah.
Geometrické pojetí pravděpodobnosti řeší úspěšně řadu úloh, postupem času však byla ukázána nemožnost jeho obecné aplikace.
Nechť je W neprázdná množina elementárních stavů nějakého jevu. Označme L neprázdný systém podmnožin množiny W a symboly A, B resp. Ai libovolné prvky množiny L (A, B resp. Ai jsou tedy libovolné podmnožiny množiny W). Nechť L splňuje tyto podmínky:
Pak se L nazývá jevové pole, s-algebra jevů nebo také pole náhodných jevů.
Nechť je nad W dáno jevové pole L. Nechť je na L definována reálná množinová funkce P(A) taková, že platí
Pak se číslo P(A) nazývá pravděpodobnost jevu A.
Z definice pravděpodobnosti podané předchozím odstavcem plyne (symbol Ø označuje prázdnou množinu):
Je-li A Ě B, je P(A) Ł P(B)
Je-li A Ě B, je P(B-A) = P(B) - P(A)
P(W-A) = 1 - P(A)
P(Ø) = 0
0 Ł P(A) Ł 1
Poznámka: Pravděpodobnost je podle definic hodnota z uzavřeného intervalu <0, 1>: 0=nemožnost, 1=jistota. Stonásobek takto definované pravděpodobnosti ji vyjadřuje v procentech a je z intervalu <0,100>: 0% - nic nesplňuje = nemožnost, 100% - všechny splňují - jistota. Vyjádření oběma způsoby se běžně používá a protože jeden je jednoznačně převoditelný na druhý a naopak, bez dalšího vysvětlování se podle kontextu použije libovolný z nich. Výrok .. s pravděpodobností 72% ... a ... s pravděpodobností 0.72 ... jsou tedy totožné.
Zákon rozdělení pravděpodobnosti náhodné veličiny V je pravidlo, který udává pravděpodobnost jevu, který lze touto veličinou popsat. Je číselně vyjádřen hodnotami funkce, která se nazývá hustota pravděpodobnosti. V dalším ji budeme označovat fV(x), množinu možných hodnot x veličiny V symbolem X.
Obecně se definuje hustota pravděpodobnosti náhodné veličiny jako
fV(a,b) = p(a Ł x Ł b)
- tedy pravděpodobnost, že veličina V nabude hodnoty z intervalu <a,b> Ě X.
Pro diskrétní náhodné veličiny se nejčastěji klade a=b. Hustota pravděpodobnosti fV(a) je tedy rovna
fV(a) = p(x=a)
V návaznosti na hustotu pravděpodobnosti se zavádí distribuční funkce definovaná vztahem
FV(b) = p(x Ł b)
- tedy pravděpodobnost, že náhodná veličina V získá hodnotu nanejvýš b.
Distribuční funkce F(a) pro diskrétní náhodné veličiny je rovna součtu pravděpodobností fV(x) pro x Ł a a je tedy rovna
FV(a) = S p(xi)
kde se sčítá přes všechna i, pro něž je xi Ł a.
Pro spojité náhodné veličiny platí mezi hustotou pravděpodobnosti f(x) a distribuční funkcí F(x) vztah
resp.
Inverzní funkce K(p) k funkci distribuční F(x) se nazývá kvantilová funkce. Je-li tedy F(a)=p, je K(p)=a. Z toho plyne, že kvantilová funkce je vždy vázána na určité konkrétní rozdělení pravděpodobnosti.Ovšem F(a) je pravděpodobnost, že veličina x získá hodnotu nanejvýše a. Naopak tedy K(p)=a je hodnota, kterou s pravděpodobností p získají prvky xŁa. Pro diskrétní veličiny lze říci i jinak: a udává takovou hodnotu sledované veličiny, že všechny hodnoty menší nebo rovny tomuto a se vyskytnou v datech s pravděpodobností p. Funkční hodnota a=K(p) pro konkrétní p se označuje jako p-kvantil nebo také p%-kvantil (viz poznámka v odstavci "Vlastnosti pravděpodobnosti"). Zde je ovšem drobný matematický problém: inverzní funkce existuje ke spojité funkci rostoucí; distribuční funkce je však obecně pouze neklesající. Pro diskrétní rozdělení to odpovídá situaci, kdy nemusí vždy existovat jednoznačně takové xi, že F(xi) = p - může jich existovat více. V praxi pak bývá používáno několik způsobů, jak kvantil stanovit - nejčastěji jako nejmenší z možných hodnot: K(a) = inf {xÎR: F(x)ła}.
Příklad: Mějme dány pravděpodobnosti, že třída jakosti vody nějaké imaginární řeky v nějakém profilu nabude hodnoty T, následující tabulkou vycházející z dlouhodobého pozorování a měření správci povodí:
Třída jakosti T | 1 | 2 | 3 | 4 | 5 |
Pravděpodobnost = hustota f(T) | 0,05 | 0,20 | 0,35 | 0,30 | 0,10 |
Tab. 1: Příklad hustoty pravděpodobnosti
Hustota pravděpodobnosti je tedy definována takto (jde o diskrétní funkci): f(1)=0,05; f(2)=0,20; f(3)=0,35; f(4)=0,30; f(5)=0,10. Hustota pravděpodobnosti jako funkce má i své grafické vyjádření, např. následujícím grafem:
Obr. 1: Graf hustoty pravděpodobnosti
Obdobně distribuční funkce na týchž datech dá následující tabulku:
Třída jakosti T | 1 | 2 | 3 | 4 | 5 |
Hodnota distribuční funkce F(T) | 0,05 | 0,25 | 0,60 | 0,90 | 1,00 |
Tab. 2: Příklad hodnot distribuční funkce
a příslušný graf:
Obr. 2: Graf distribuční funkce
Nyní např. 0.35-kvantil: je to podle definice nejmenší z hodnot x množiny {1, 2, 3, 4, 5}, pro kterou platí F(x)ł0.35. To platí pro x=3 (F(3)=0.6), pro x=4 (F(4)=0.9) a pro x=5 (F(5)=1.0). Nejmenší z těchto čísel je 3 a tedy 0.35-kvantil=3.
Hodnota vyjadřující střed, centrální tendenci, těžiště, průměrnou velikost apod. je definována jako střední hodnota:
Definice: Střední hodnota E(x) diskrétní náhodné veličiny x je rovna
E(x) = S xi . p(xi)
kde se sčítá přes všechna i.
Příklad: Třídy jakosti vody ve shora uvedeném profilu hypotetické řeky mají střední hodnotu 1.0,05+2.0,20+3.0,35+4.0,30+5.0,10=3,20.
Definice: Střední hodnota E(x) spojité náhodné veličiny je rovna
Hodnota, jistým způsobem vyjadřující rozptýlení kolem střední hodnoty, souhrnnou odchylku od střední hodnoty, je definována jako rozptyl:
Definice: Rozptyl D(x) diskrétní náhodné veličiny x je roven
D(x) = S((xi - m)2 . pi) = ( S xi2 . pi ) - m2
kde symbolem m je označena střední hodnota E(x) a kde se sčítá přes všechna i.
Příklad: Třídy jakosti ve shora uvedeném profilu hypotetické řeky mají rozptyl 12.0,05+22.0,20+32.0,35+42.0,30+52.0,10-3,202=1,06.
Definice: Rozptyl D(x) spojité náhodné veličiny x je definován takto:
kde symbolem m je označena stejně jako v předchozím vztahu střední hodnota E(x).
Bezesporu nejdůležitějším rozdělením pravděpodobnosti náhodné veličiny (viz výše) v teorii pravděpodobnosti a matematické statistice je normální rozdělení. Jeho význam udává např. centrální limitní věta, která za velmi obecných podmínek zaručuje, že součet nezávislých náhodných veličin má přibližně normální rozdělení bez ohledu na rozložení jednotlivých sčítanců. Další význam spočívá v tom, že jím lze aproximovat mnohá jiná rozdělení včetně diskrétních. Normální rozdělený bývá také nazýváno Gaussovým rozdělením a graf jeho hustoty Gaussovou křivkou.
Nejprve zaveďme normované normální rozdělení:
Definice: Normované normální rozdělení je takové, jehož hustota pravděpodobnosti - bývá zvykem ji označovat j(x) namísto obecného f(x) - má tvar
Lze ukázat, že střední hodnota normovaného normálního rozdělení je 0 a jeho rozptyl je 1. Graf hustoty je symetrický kolem nuly, funkce j má dva inflexní body {-1;+1}.
Distribuční funkce normovaného normálního rozdělení má tvar
Obecně se pak zavádí normální rozdělení takto:
Definice: Normální rozdělení je takové, jehož hustota pravděpodobnosti f(x) má tvar
kde parametrem m je reálné číslo a parametrem s reálné číslo, s > 0. Graf hustoty f(x) je symetrický kolem přímky x=m, přičemž hodnota m je zároveň střední hodnotou. Funkce má dva inflexní body {m-s;m+s}, přičemž hodnota s2 je zároveň rozptylem.
Distribuční funkce obecného normálního rozdělení pak má tvar
Příklad: Hustota pravděpodobnosti normálního rozdělení s m=3 a s=2 má graf
Obr. 3: Gaussova křivka pro m=3 a s=2
Inflexními body jsou tedy [1,f(1)] a [5,f(3)].
V rámci šetření environmentálních dopadů na genetické schopnosti flóry, konkrétně reprodukčních schopností jedle, byla zkoumána semena jedlí v delší časové řadě. Následující tabulka obsahuje datový element výzkumu - náhodně vybraných 400 vah semen jedlí v [g] v jednom vegetačním období jedné konkrétní oblasti:
4.717 | 4.411 | 4.549 | 4.432 | 4.186 | 4.402 | 4.529 | 4.841 | 4.501 | 4.384 | 4.451 | 4.343 | 4.599 | 4.230 | 4.407 | 4.149 |
4.471 | 4.169 | 4.465 | 4.596 | 4.235 | 4.534 | 4.328 | 4.393 | 4.458 | 4.220 | 4.431 | 4.570 | 4.618 | 4.225 | 4.792 | 4.450 |
4.615 | 4.092 | 4.731 | 4.293 | 4.456 | 4.620 | 4.369 | 4.749 | 4.377 | 4.816 | 4.477 | 4.254 | 4.343 | 4.586 | 4.378 | 4.588 |
4.508 | 4.510 | 4.416 | 4.626 | 4.990 | 4.459 | 4.574 | 4.601 | 4.334 | 4.380 | 4.658 | 4.713 | 4.698 | 4.627 | 4.579 | 4.634 |
4.461 | 4.489 | 4.486 | 4.712 | 4.836 | 4.377 | 4.439 | 4.377 | 4.791 | 4.569 | 4.258 | 4.099 | 4.200 | 4.479 | 4.482 | 4.577 |
4.837 | 4.443 | 4.049 | 4.409 | 4.523 | 4.601 | 4.325 | 4.461 | 4.347 | 4.714 | 4.497 | 4.332 | 4.679 | 4.768 | 4.453 | 4.662 |
4.427 | 4.999 | 4.697 | 4.392 | 4.450 | 4.709 | 4.628 | 4.737 | 4.414 | 4.793 | 4.577 | 4.536 | 4.014 | 4.901 | 4.515 | 4.471 |
4.726 | 4.729 | 4.379 | 4.579 | 4.356 | 4.374 | 4.640 | 4.531 | 4.382 | 4.654 | 4.297 | 4.309 | 4.057 | 4.584 | 4.911 | 4.275 |
4.528 | 4.527 | 4.600 | 4.522 | 4.392 | 4.674 | 4.745 | 4.751 | 4.225 | 4.645 | 4.318 | 4.187 | 4.657 | 4.598 | 4.346 | 4.523 |
4.339 | 4.220 | 4.701 | 4.340 | 4.489 | 4.386 | 4.664 | 4.519 | 4.264 | 4.591 | 4.796 | 4.430 | 4.586 | 4.708 | 4.583 | 4.493 |
4.745 | 4.579 | 4.462 | 4.714 | 4.684 | 4.649 | 4.919 | 4.552 | 4.290 | 4.393 | 4.817 | 4.799 | 4.195 | 4.360 | 4.716 | 4.191 |
4.475 | 4.908 | 4.474 | 4.694 | 4.277 | 4.147 | 4.403 | 4.470 | 4.250 | 4.441 | 4.692 | 4.650 | 4.344 | 4.241 | 4.417 | 4.606 |
4.481 | 4.510 | 4.238 | 4.512 | 4.557 | 4.061 | 4.573 | 4.440 | 4.839 | 4.386 | 4.928 | 4.279 | 4.638 | 4.430 | 4.472 | 4.490 |
4.159 | 4.283 | 4.325 | 4.721 | 4.575 | 4.356 | 4.618 | 4.434 | 4.595 | 4.607 | 4.582 | 4.500 | 4.396 | 4.329 | 4.174 | 4.297 |
4.915 | 4.360 | 4.339 | 4.407 | 4.511 | 4.492 | 4.502 | 4.562 | 4.538 | 4.498 | 4.607 | 4.746 | 4.529 | 4.325 | 4.758 | 4.514 |
4.527 | 4.491 | 4.617 | 4.412 | 4.648 | 4.577 | 4.387 | 4.681 | 4.617 | 4.334 | 4.547 | 4.398 | 4.462 | 4.996 | 4.482 | 4.508 |
4.501 | 4.579 | 4.258 | 4.615 | 4.406 | 4.595 | 4.086 | 4.446 | 4.712 | 4.193 | 4.790 | 4.536 | 4.425 | 4.599 | 4.723 | 4.453 |
4.397 | 4.625 | 4.024 | 4.561 | 4.455 | 4.470 | 4.367 | 4.656 | 4.480 | 4.483 | 4.430 | 4.466 | 4.571 | 4.569 | 4.689 | 4.690 |
4.795 | 4.415 | 4.379 | 4.642 | 4.839 | 4.761 | 4.543 | 4.596 | 4.451 | 4.531 | 4.260 | 4.790 | 4.430 | 4.837 | 4.861 | 4.434 |
4.381 | 4.275 | 4.199 | 4.640 | 4.737 | 4.299 | 4.521 | 4.635 | 4.001 | 4.771 | 4.186 | 4.473 | 4.425 | 4.640 | 4.437 | 4.657 |
4.431 | 4.514 | 4.461 | 4.779 | 4.283 | 4.583 | 4.349 | 4.414 | 4.628 | 4.296 | 4.679 | 4.527 | 4.293 | 4.422 | 4.260 | 4.637 |
4.316 | 4.621 | 4.738 | 4.554 | 4.361 | 4.342 | 4.688 | 4.563 | 4.236 | 4.507 | 4.502 | 4.333 | 4.538 | 4.290 | 4.503 | 4.435 |
4.825 | 4.456 | 4.592 | 4.854 | 4.512 | 4.316 | 4.846 | 4.527 | 4.991 | 4.727 | 4.569 | 4.333 | 4.433 | 4.467 | 4.429 | 4.631 |
4.718 | 4.598 | 4.446 | 4.920 | 4.778 | 4.734 | 4.371 | 4.376 | 4.273 | 4.265 | 4.147 | 4.388 | 4.307 | 4.509 | 4.737 | 4.807 |
4.732 | 4.328 | 4.330 | 4.294 | 4.440 | 4.712 | 4.927 | 4.348 | 4.374 | 4.575 | 4.690 | 4.497 | 4.535 | 4.111 | 4.403 | 4.683 |
Tab 3: Experimentálně zjištěné váhy semen jedle
Argumentem (sledovaným znakem) souboru je váha semene jedle v [g]. Rozsah souboru je 400. Rozměr souboru je 1.
Zápis dat souboru, který obsahuje jednotlivé hodnoty (tak, jako např. tabulka experimentálně zjištěných vah semen jedle v příkladu nahoře), je někdy objemný - zvláště v případech dat, v nichž se hodnoty opakují. V uvedeném příkladu se např. hodnota 4,430 opakuje 4x - stejně jako hodnoty 4,527 a 4,579. Osm jiných hodnot se opakuje 3x, 74 jiných hodnot 2x a zbývajících 148 hodnot je v souboru jen jednou. Data namísto prostého vyjmenování lze zapsat do tzv. četnostní nebo také frekvenční tabulky s obsahem a formátem zřejmým z následujícího příkladu:
Příklad: Četnostní (frekvenční) tabulka shora uvedených experimentálně zjištěných vah semen jedle může mít následující začátek:
Hodnota | Četnost (frekvence) výskytu hodnoty |
4,430 | 4x |
4,527 | 4x |
4,579 | 4x |
4,325 | 3x |
... | ... |
Tab. 4: Četnostní tabulka dat
U mnohých souborů - právě jako v příkladu semen jedlí - se sice o něco zmenší počet (nyní již neopakujících se) hodnot, ale ne o moc. V příkladu nahoře je místo 400 (i opakujících se hodnot) hodnot 301 (ale neopakujících se). To je sice úspora 25%, ale stále je 300 hodnot špatně celkově hodnotitelných.
Případ semen jedlí navíc ukazuje na velmi podstatný v praxi uplatňovaný aspekt. Mějme neustále na paměti, že základní statistický soubor tvoří náhodný výběr ze základního souboru. Proto i hodnoty jsou náhodné s nějakým rozložením. Jestliže je rozlišení 0,001 [mm], v podstatě se stejnou pravděpodobností se místo hodnoty 4,521 mohla ve výběru ocitnout hodnota 4,520 nebo 4,522. V praxi se tedy obvykle stanoví nějaký interval, který je z hlediska rozlišení zkoumaného problému významný. U semen jedlí by to mohlo být např. 0,050 [mm] - tedy 50tinásobek minimálního rozlišení. Označme tuto hodnotu d.
Pak lze interval <xmin,xmax> "překrýt" intervalem <a0,ak> takovým, že a0 Ł xmin, xmax Ł ak a (ak-a0)=d.k - interval <a0,ak> je tedy možno rozložit na třídy, z nichž každá je intervalem tvaru <a0+(i-1).d , a0+i.d) pro i=1, 2, ... , k (poslední interval není polootevřený, ale uzavřený).
Poznámka: Ze statistického hlediska je jedno, zda volíme třídy tvaru <ai,ai+1) nebo tvaru (ai,ai+1> - v literatuře i v praxi se používá obou způsobů. Důležité je, že každá statistická jednotka padne právě do jednoho intervalu.
Příklad: Interval dat ze shora uvedeného příkladu jedlových semen je <4,001,4,999>. Pro d=0,050 může být "překrývající" interval např. <4,000,5,000> a jednotlivé podintervaly tvořící rozklad po řadě <4,000,4,050), <4,505,4,100), ... , <4,950,5,000>.
Četnostní (frekvenční) tabulka tříd pak udává, kolik hodnot výběrového souboru padne do toho kterého třídního intervalu.
Příklad: Pro shora uvedený rozklad intervalu <4,5> má četnostní (frekvenční) tabulka tříd tvar
i | ai-1 | ai | Četnost |
---|---|---|---|
1 | 4.00 | 4.05 | 4 |
2 | 4.05 | 4.10 | 5 |
3 | 4.10 | 4.15 | 4 |
4 | 4.15 | 4.20 | 10 |
5 | 4.20 | 4.25 | 11 |
6 | 4.25 | 4.30 | 23 |
7 | 4.30 | 4.35 | 28 |
8 | 4.35 | 4.40 | 32 |
9 | 4.40 | 4.45 | 39 |
10 | 4.45 | 4.50 | 43 |
11 | 4.50 | 4.55 | 41 |
12 | 4.55 | 4.60 | 40 |
13 | 4.60 | 4.65 | 31 |
14 | 4.65 | 4.70 | 21 |
15 | 4.70 | 4.75 | 28 |
16 | 4.75 | 4.80 | 15 |
17 | 4.80 | 4.85 | 11 |
18 | 4.85 | 4.90 | 2 |
19 | 4.90 | 4.95 | 8 |
20 | 4.95 | 5.00 | 4 |
Tab. 5. Četnostní tabulka tříd
Názorným grafickým znázorněním rozložení četnosti ve výběrovém souboru je četnostní histogram. Na osu X je vynášena horní hranice třídy, na osu Y četnost hodnot výběrového souboru v intervalu. Jde o sloupcový graf posledních dvou sloupců předchozí tabulky
Příklad: Četnostní histogram velikostí semen jedle z příkladu dat shora s třídami 0,050 [mm] ukazuje následující obrázek:
Obr. 4: Četnostní histogram
Plynulá křivka na obrázku vypovídá o tzv. kumulativních četnostech: kolik hodnot výběrového souboru je menších než uvedená hranice třídy. Na grafu jsou kumulativní četnosti vyjádřeny v procentech; je tedy možno alespoň přibližně zkontrolovat polohy dolního kvartilu (X pro četnost do 25%), mediánu (do 50%) a horního kvartilu (do 75%) - viz dále.
Pro názornost byla do dalšího obrázku přidána křivka aproximující rovnici normální rozdělení pro data z příkladu: Je zřejmé, že data s velkou pravděpodobností nají normální rozdělení.
Obr. 5: Četnostní histogram s křivkou normálního rozdělení
Průměr x' je číselně roven aritmetickému průměru. Je tedy
x' = ( ĺ xi ) / n
kde n je rozsah souboru.
Příklad: Průměr souboru s vahami semen jedle je (4,717 + 4,411 + ... + 4,403 + 4,683) / 400 = 1802,521 / 400 = 4,50629.
Rozptyl s2 je číselně roven průměrné kvadratické odchylce od průměru, tj.
s2 = ĺ (xi-x')2 / n
kde x' je shora definovaný průměr. Uvedený vztah lze po úpravách psát také jako
s2 = ( ĺ xi2 - (ĺxi)2/n ) / n
přičemž tento druhý tvar je lépe využitelný při rutinních výpočtech (rozptyl se spočte jediným průchodem).
Příklad: Rozptyl souboru s
vahami semen jedle je podle prvního vztahu ((4,717-4,50629)2
+ (4,411-4,50629)2 + ... + (4,403-4,50629)2 +
(4,683-4,50629)2) / 400 = 0,036676.
K hodnotě rozptylu lze dojít také takto: Součet xi spočtený
při zjišťování průměru je 1802,521. Součet xi2
je 8137,375. Počet je 400. Rozptyl je tedy podle druhého vztahu roven
(8137,366 - 1802,5202/400) / 400 = 0,036676.
Směrodatná odchylka s je číselně rovna druhé odmocnině z rozptylu:
s = Ö s2
Jde-li o hodnoty veličiny s normálním rozdělením četnosti, pak [x'-s] a [x'+s] jsou ty hodnoty xf, pro která má křivka f(xf) inflexní body. Vypovídací schopnost směrodatné odchylky jako takové spočívá v možnosti její interpretace při popisu odlišností zkoumaných hodnot: čím menší je směrodatná odchylka, tím více jsou hodnoty "podobné" střední hodnotě i sobě navzájem.
Základní ideou q-kvantilu pro statistické charakteristiky jednorozměrného datového souboru o N prvcích je rozdělení seřazených dat na q zhruba stejně početných podmnožin. Kvantily jsou pak hraniční hodnoty mezi dvěma sousedními podmnožinami. Přesně se k-tý q-kvantil náhodné proměnné V definuje jako taková hodnota v, pro kterou je pravděpodobnost, že hodnota náhodné veličiny je
Jinak řečeno, k-tý q-kvantil je ta hodnota (dat), kde kumulativní distribuční funkce nabude nebo překročí hodnotu k/q.
Existuje tedy q-1 q-kvantilů, a to pro každé celé číslo k Î (0, q). Pro množinu seřazených N dat, indexovaných od 1 do N, k-tý q-kvantil je prvek dat s indexem Ikq = éN . k / qů. Z hlediska definice však v případě, že I=N.k/q je celé číslo, pak všechny hodnoty počínaje hodnotou dat s tímto indexem (XI) až do hodnoty dat s následujícím indexem (XI+1) mohou být kvantilem. V tomto případě bývá zvykem za kvantil považovat střed mezi těmito dvěma hodnotami. Není to však povinnost; za kvantil lze vzít např. menší z obou hodnot nebo mezi nimi interpolovat. Protože z q-kvantilu se odvozuje řada dalších statistik (viz dále), je právě zmíněná situace kritickým místem při jejich určení. Statistici sami se neshodnou už ani na tom, zda kvantily mají být pouze hodnoty datového souboru (viz výše určení jejich indexu), nebo to mohou být i hodnoty zkoumané veličiny v datech však neobsažené (viz výše např. střed mezi dvěma hodnotami).
Poznámka: é X ů je "horní celá část" X: je-li X celé, výsledkem je X, není-li celé, je výsledkem nejbližší vyšší celé číslo - viz kapitola o zaokrouhlování níže.
Percentil pP je P-tý 100-kvantil. Z definice q-kvantilu pro q=100 se odvozuje i jiná definice: percentil pP je nejmenší hodnota x veličiny X, pro níž platí, že pro P% dat {xi} je splněna podmínka xi Ł pP.
Příklad: Mějme soubor s váhami semen jedle (viz výše). Percentil p5 je tedy taková váha, pro níž platí, že nejvýše 5% vah je Ł p5. Protože celkem má datový soubor N = 400 hodnot, q = 100, k = 5, je Ikq = é 400 . 5 / 100 ů = 20. 20. hodnota seřazeného souboru dat je rovna 4.191, je tedy p5 = 4.191.
Shora uvedená definice percentilu pomocí kvantilu je sice jednou z velmi často používaných, při jeho určení není však jednoznačná. Viz právě uvedený příklad: 21. hodnota v seřazeném souboru je rovna 4.193. To ovšem znamená, že všechny hodnoty x < 4.193 splňují shora uvedenou definici percentilu, tedy p5 může být např. i 4.19256.
Medián xm je definován jako 1-ní 2-kvantil, pomocí percentilu jako p50, tj. hodnota, "pod kterou" leží nejvýš polovina hodnot souboru a "nad kterou" leží nejvýš polovina hodnot souboru. Při jeho určení se v praxi postupuje podle definice q-kvantilu: jeho index i = Ikq = é N . 1 / 2ů, což je N/2 pro N sudé, (N+1)/2 pro N liché. Je-li tedy N liché, je mediánem hodnota Xi; je-li N sudé, nejčastěji se za medián přijímá hodnota hodnota (Xi+Xi+1)/2. V jednotlivých krocích:
Příklad: Medián souboru s váhami semen jedle se zjistí postupem popsaným výše. Nejprve se hodnoty seřadí podle velikosti. Získá se následující posloupnost hodnot:
Pořadí | 1. | 2. | ... | 199. | 200. | 201. | 202. | ... | 399. | 400. |
Hodnota | 4,001 | 4,014 | ... | 4,498 | 4,500 | 4,501 | 4,501 | ... | 4,996 | 4,999 |
Tab. 6: Tabulka pro určení mediánu
"Polovinou" souboru je hranice mezi 200.tým a 201.ním prvkem (prvků je sudý počet). Medián je tedy polovina mezi 4,500 a 4,501, tj. 4,5005.
Dolní a horní kvartil qD a qH jsou definovány jako 1-ní a 3-tí 4-kvantil, pomocí percentilu jako p25 resp. p75. Nepřesně ale názorně řečeno, jsou to hodnoty, "pod kterými" leží nejvýš čtvrtina resp. tři čtvrtiny hodnot souboru a "nad kterými" leží nejvýš tři čtvrtiny resp. čtvrtina hodnot souboru. Indexy dolního resp. horního kvartilu jsou podle definice Ikq = é N . 1 / 4ů resp. Ikq = é N . 3 / 4ů.
Pro určení hodnot kvartilů však není stanoven žádný jednotný postup. Jednak sami statističtí odborníci používají několik metod, jednak autoři statistického software aplikují různé algoritmy (a pohříchu ani přesně neřeknou jaké). Zhruba lze vidět následující metodiky při určování kvartilů (všechny splňují definici a medián naštěstí všechny určují pro sudý počet dat stejně, jako střed mezi prostředními hodnotami):
Příklad - Dolní kvartil souboru s vahami semen jedle metodikou A: Nejprve se hodnoty seřadí podle velikosti. Získá se posloupnost hodnot, jejíž důležitá část je v následující tabulce:
Pořadí | 1. | 2. | ... | 100. | 101. | ... | 199. | 200. |
Hodnota | 4,001 | 4,014 | ... | 4,378 | 4,379 | ... | 4,498 | 4,500 |
Tab. 7: Tabulka pro určení dolního kvartilu
Počet prvků souboru je 400, tedy sudé číslo.
Dolní polovinu prvků tvoří prvky s indexy z intervalu <1,200>. Dolní kvartil je roven
jejich mediánu, a protože jich je sudý počet, je roven
4,379 - 0,25 . (4,739 - 4,738) = 4,37875.
Horní kvartil souboru s vahami semen jedle metodikou A: Nejprve se hodnoty seřadí podle velikosti. Získá se posloupnost hodnot, jejíž důležitá část je v následující tabulce:
Pořadí | 201. | 202. | ... | 300. | 301. | ... | 399. | 400. |
Hodnota | 4,501 | 4,501 | ... | 4,634 | 4,635 | ... | 4,996 | 4,999 |
Tab. 8: Tabulka pro určení horního kvartilu
Počet prvků souboru je 400, tedy sudé číslo. Horní polovinu prvků
tvoří prvky s indexy z intervalu <201,400>. Horní kvartil je roven jejich
mediánu, a protože jich je sudý počet, je roven
4,635 - 0,75 . (4,635 - 4,634) = 4,63425.
Mezikvartilové rozpětí (interquartile range - IQR) je v popisné statistice jednou z měr statistické variability. Je definován jako rozdíl horního a dolního kvartilu:
IQR = qH - qD
Určuje tedy rozpětí, ve kterém se nachází polovina všech dat statistického souboru.
Odlehlé hodnoty jsou ty hodnoty statistického souboru, které jsou "hodně vzdálené" od ostatních hodnot. Je zřejmé, že vágní pojem "být hodně vzdálený" je nutno definovat přesně; v matematice však žádná pevná definice stanovena není. V konečném důsledku je posouzení významu a velikosti odchylky subjektivní záležitostí a závisí na řešené úloze. Existují proto různé metody pro stanovení odlehlých hodnot.
V tomto odstavci se zmiňují odlehlé hodnoty proto, že často používaným kriteriem je použití právě mezikvartilového rozpětí. Za odlehlé hodnoty se pak prohlásí ta data, která jsou mimo interval
<qD - k.IQR; qH + k.IQR>
kde k je nějaká nezáporná konstanta, např. 3/2.
Velmi populární (protože jednoduchý a přitom s rozumnou vypovídací schopností) je tzv. krabicový graf, jehož autorem byl roku 1969 americký matematik John W. Tukey. Jeho nejjednodušší podoba vypovídá o percentilech na úrovni 0%, 25%, 50%, 75% a 100%, tedy o minimu, dolním kvartilu, mediánu, horním kvartilu a maximu:
Obr. 6: Příklad krabicového grafu
Na krabicovém grafu jsou podstatné nejen polohy popsaných hodnot, ale i výšky jednotlivých částí grafu. Je vhodné si uvědomit, že např. v intervalu vymezeném dolní úsečkou (tj. od minima k dolnímu kvartilu) se nachází 25% všech dat výběrového souboru. Protože dolní úsečka je vyšší než výška spodního (v barvě modrého) obdélníka, mají data od minima k dolnímu kvartilu větší rozptyl než data od dolního kvartilu k mediánu - těch je také 25%!
Vypovídací schopnost krabicového grafu je poměrně značná, pokud je správně chápána jeho podstata. Právě pro pochopení vypovídací schopnosti krabicového grafu vymyslel autor tohoto článku před lety a do dneška celkem s úspěchem používá tento příklad:
V dnešní bio- době, kdy výrobci označují s oblibou své potraviny právě předponou bio-, máme bio- snad všechny druhy potravin. Krkonošské, Beskydské a jiné bio-krávy žerou jen bio-trávu, produkují bio-hnůj - ale také bio-mléko. Konkurence je veliká, bio-farmáři soupeří o bio-zákazníka nejrůznějším způsobem: od mléčných (samozřejmě bio) automatů na mléko až po osobní odběr snad rovnou od bio-vemene. Máme-li v rozumném perimetru několik takových producentů mléka, jak vybrat toho nejlepšího? Běžný zákazník rozhodně nebude porovnávat kvalitu, protože už jen fyzikální a mikrobiologické analýzy by ho finančně zruinovaly - navíc celkem oprávněně tuší, že výsledky u všech určitě budou splňovat přísné normy EU.
Zákazník se tedy zaměří na poctivost prodejce. Začne odebírat a pečlivě měřit půllitrové dávky a hodnotit je metodami, kterým se naučil přečtením tohoto článku. Vybere dva jemu nejbližší prodejce A a B, odebere od každého 100 dávek deklarovaných jako půllitrové a z naměřených skutečných objemů nechá sestavit krabicové grafy. Získá následující:
Obr. 7: Krabicový graf půllitrových dávek bio-mléka
Otázkou tedy je: který z obou je poctivější, ke kterému raději chodit?
Stejnou otázku klade autor tohoto článku svým studentům po vyslechnutí přednášky o kvartilech, mediánu a krabicovém grafu. Přibližně 20% se jich přiklání v prodejci A, aniž však dovedou popsat důvod. 80% prohlásí za lepšího prodejce B a zdůvodňují to tím, že mnoho jeho prodejů je téměř přesně půl litru (to, že oba nám alespoň jednou deci ubrali, ale na druhé straně alespoň jednou nám deci přidali - to obě skupiny studentů shodně potvrzují). Ovšem na otázku druhé skupině - kolik nám tedy ze 100 dávek prodali skoro přesně - se ozývají tipy od 90, 94 - a co třeba 96? Třeba i to!
Teprve po několikerém připomenutí konstrukce krabicového grafu začnou posluchači chápat, že ony dva nizoučké obdélníky v případě B reprezentují 25% + 25% = 50 naměřených hodnot. Tedy krabicový graf sděluje, že prodejce B nám nejméně z poloviny naměřil skoro úplně přesně. Dále zobrazuje skutečnost, že nejméně jednou nám prodal o deci méně a nejméně jednou o deci více. Jak je to ovšem se zbývajícími 24 prodeji pod správnou míru a 24 prodeji nad správnou míru - o tom už tento tvar krabicového grafu nevypovídá. Mohou nastat krajní případy, z nich dva jsou schematicky znázorněny jako B1 a B2:
Obr. 8: Krajní případy datových souborů B
V případě B1 jen jediná hodnota je extrémně odlehlá směrem k minimu, zatímco zbývajících 24 je velmi blízko "středním" 50 hodnotám; analogicky směrem k maximu. V případě B2 je tomu naopak: všech 24 nízkých hodnot je téměř u minima a všech 24 vysokých hodnot je téměř u maxima. Příklady dat odpovídajících grafům B1 a B2 jsou v následujících dvou četnostních tabulkách:
|
|
|||||||||||||||||||||||||
Tab. 9: Data, jejichž krabicový graf je B1 | Tab. 10: Data, jejichž krabicový graf je B2 |
Pokud v praxi dávají data krabicový graf podobný případu B, pak následujícím krokem by měl být rozbor datového souboru. Nejčastěji se zjistí, že jen nepatrné množství dat tvoří odlehlé hodnoty (případ B1: stačí zjistit příčinu a tyto hodnoty ze souboru vyloučit), nebo že došlo ke smíchání dat třech různých souborů do jednoho (případ B2: stačí zpracovat tři soubory samostatně).
Ovšem i případ A stojí za pozornost. Krabicový graf A totiž vypovídá o tom, že nejméně 25x nás téměř o deci ošidili - ovšem na druhé straně nám nejméně 25x téměř deci přidali. Jak je to však ve zbývajících 50 případech, o tom krabicový graf už nevypovídá. Mohou nastat krajní případy, z nich dva jsou schematicky znázorněny jako A1 a A2:
Obr. 9: Krabicový graf
V případě A1 je dalších 25 hodnot téměř rovných velmi malým hodnotám poblíž minima, a zbývajících 25 hodnot téměř rovných velmi velkým hodnotám poblíž maxima. V případě A2 je všech zbývajících 50 hodnot velmi podobných někde v okolí prostřední hodnoty.
Příklady dat odpovídajících grafům A1 a A2 jsou v následujících dvou četnostních tabulkách:
|
|
|||||||||||||||||||
Tab. 11: Data, jejichž krabicový graf je A1 | Tab. 12: Data, jejichž krabicový graf je A2 |
Pokud v praxi dávají data krabicový graf podobný případu A, pak následujícím krokem by měl být rozbor datového souboru. Nejčastěji se zjistí, že došlo ke smíchání dat dvou různých souborů do jednoho (případ A1: stačí zpracovat dva soubory samostatně), nebo že došlo ke smíchání dat třech různých souborů do jednoho (případ A2: stačí zpracovat tři soubory samostatně).
Při přípravě dat jednorozměrného datového souboru je začasté kladena podmínka na nějakou formalizaci dat, např. na počet desetinných míst, na rovnost násobku nějakého čísla, na náhradu zlomku desetinným zápisem apod. I shora uvedené odstavce pracují s pojmem "zaokrouhlení". Přitom osoby data připravující používají zcela automaticky jejich úpravu - de facto aproximují číslem "velmi podobným". Tento odstavec velmi stručně popisuje věc zdánlivě zcela jasnou, ale při pečlivějším studiu lze ukázat, že je většinou populace nazírána velmi zjednodušeně. Nejčastější a stěžejní úlohou je zaokrouhlení na celé číslo (tj. aproximace celým číslem). Není to však jediná úloha - viz dále.
Pokud nebude výslovně řečeno jinak, bude v této kapitole X značit zaokrouhlované číslo, A pak zaokrouhlení čísla X.
Jde zřejmě o nejznámější a nejčastější úlohu zaokrouhlování. Právě tak nám byla problematika zaokrouhlování prezentována počínaje základní školou. Zní: Nahraďte hodnotu reálného čísla X celočíselnou hodnotou. Obvykle je řešena následovně:
Pro potřeby kapitoly o zaokrouhlování budeme značit A = [X].
Postup je často označován jako "zaokrouhlení na nejbližší" (round to nearest). Většina software obsahují funkci Round(X), jejímž parametrem je obecně reálné číslo a výsledkem celočíselná hodnota (nebo reálná hodnota s nulovou desetinnou částí) rovna zaokrouhlené hodnotě podle popisu výše. Např. [2.4] = Round(2.4) = 2, [3.9] = Round(3.9) = 4, [7.5] = Round(7.5) = 8.
Při nezaujatém pohledu (a zvláště při pohledu zaujatém naší peněženkou po zrušení desetníků, dvacetníků a padesátníků) se však musíme ptát: hodnoty rovny celočíselné hodnotě plus 0.5 jsou evidentně ve výjimečném postavení - vždy se popisovanou definicí zaokrouhlují "nahoru". Touto problematikou se zabývá samostatný odstavec níže.
V anglosaské literatuře se používá také termín "zaokrouhlení ke kladnému nekonečnu". Zaokrouhlení A čísla X je nejmenší celé číslo, které není menší než X. Je-li číslo A rovno takovému zaokrouhlení čísla X, značí se A = é X ů.
V programovacích jazycích a statistickém software je pro toto zaokrouhlení používána funkce pojmenovaná Ceiling: A = Ceiling (X) nebo také RoundUp: A = RoundUp(X). Platí:
é X ů = - ë -X ű
V anglosaské literatuře se používá také termín "zaokrouhlení k zápornému nekonečnu". Zaokrouhlení A čísla X je největší celé číslo, které hodnotou nepřesáhne X. Je-li číslo A rovno takovému zaokrouhlení čísla X, značí se A = ë X ű.
V programovacích jazycích a statistickém software je pro toto zaokrouhlení používána funkce pojmenovaná Floor: A = Floor (X) nebo také RoundDown: A = RoundDown(X). Platí:
ë X ű = - é -X ů
V anglosaské literatuře se používá také termín "zaokrouhlení od nekonečna". Zaokrouhlení A čísla X je to celé číslo, které vznikne odstraněním zlomková části X.
V programovacích jazycích a statistickém software je pro toto zaokrouhlení používána funkce pojmenovaná Truncate: A = Truncate (X), nebo také Fix: A = Fix (X). Platí:
Truncate (X) = Sgn(X) . ë |X| ű = -Sgn (X) . é -|X| ů
kde funkce Sgn je funkce "znaménka" (signum): vrací +1 pro kladná, -1 pro záporná čísla, a 0 pro nulu.
V anglosaské literatuře se používá také termín "zaokrouhlení k nekonečnu". Zaokrouhlení A čísla X je číslo X, je-li X celé. Není-li X celé, pak je to největší celé číslo A, pro něž je A < X (pro kladná X) nebo nejmenší celé číslo A, pro něž je X < A (pro záporná X).
Platí:
A = Sgn(X) . é |X| ů = -Sgn (X) . ë -|X| ű
kde funkce Sgn je funkce "znaménka" (signum): vrací +1 pro kladná, -1 pro záporná čísla, a 0 pro nulu.
Odstavec popisuje možné postupy zaokrouhlení reálného čísla X na celé číslo A, je-li zlomková část X rovna přesně 1/2.
Je-li zlomková část čísla X rovna přesně 1/2, je zaokrouhlení A = X + 0.5. Je tedy zaokrouhlení čísla 17.5 rovno 18 a zaokrouhlení -17.5 rovno -17. Platí:
A = ë X + 0.5 ű = - é -X - 0.5 ů
Tento typ zaokrouhlení není symetrický, přesněji: způsobuje kladné zešikmení zaokrouhlovací chyby.
Je-li zlomková část čísla X rovna přesně 1/2, je zaokrouhlení A = X - 0.5. Je tedy zaokrouhlení čísla 17.5 rovno 17 a zaokrouhlení -17.5 rovno -18. Platí:
A = é X - 0.5 ů = - ë -X + 0.5 ű
Tento typ zaokrouhlení podobně jako předchozí není symetrický, přesněji: způsobuje záporné zešikmení zaokrouhlovací chyby.
V anglosaské literatuře se používá také termín "zaokrouhlení k nekonečnu". Je-li zlomková část čísla X rovna přesně 1/2, je zaokrouhlení A = X + 0.5 (pro kladná X) resp. A = X - 0.5 (pro záporná X). Je tedy zaokrouhlení čísla 17.5 rovno 18 a zaokrouhlení -17.5 rovno -18. Platí:
A = Sgn(X) . ë |X| + 0.5 ű = - Sgn(X) . é -|X| - 0.5 ů
Tento typ zaokrouhlení zohledňuje kladné a záporné hodnoty symetricky a je bez celkového vychýlení, pokud jsou původní čísla kladná nebo záporná se stejnou pravděpodobností.
V anglosaské literatuře se používá také termín "zaokrouhlení od nekonečna". Je-li zlomková část čísla X rovna přesně 1/2, je zaokrouhlení A = X - 0.5 (pro kladná X) resp. A = X + 0.5 (pro záporná X). Je tedy zaokrouhlení čísla 17.5 rovno 17 a zaokrouhlení -17.5 rovno -17. Platí:
A = Sgn(X) . é |X| - 0.5 ů = - Sgn(X) . ë -|X| + 0.5 ű
Tento typ zaokrouhlení stejně jako předchozí zohledňuje kladné a záporné hodnoty symetricky.
Je-li zlomková část čísla X rovna přesně 1/2, je zaokrouhlení A rovno nejbližšímu sudému celému číslu. Je tedy zaokrouhlení čísla 17.5 rovno 18 (stejně jako zaokrouhlení 18.5), a zaokrouhlení -17.5 rovno -18 (stejně jako zaokrouhlení -18.5).
Tento typ zaokrouhlení stejně jako předchozí zohledňuje kladné a záporné hodnoty symetricky. Navíc pro rozumnou distribuci hodnot veličiny X je průměrná hodnota zaokrouhlených čísel stejná jako čísel původních. Tento typ zaokrouhlení je označován také jako nestranné, konvergentní, statistické, Holandské (Dutch), Gausovo, licho-sudé, bankéřské nebo přerušované (broken). Toto zaokrouhlení je také výchozím typem zaokrouhlení v "Normách pro aritmetiku pohyblivé řádové čárky" - IEEE-754.
Je-li zlomková část čísla X rovna přesně 1/2, je zaokrouhlení A rovno nejbližšímu lichému celému číslu. Je tedy zaokrouhlení čísla 17.5 rovno 17 (stejně jako zaokrouhlení 16.5), a zaokrouhlení -17.5 rovno -17 (stejně jako zaokrouhlení -16.5).
Tento typ zaokrouhlení má stejné vlastnosti jako předchozí.
Je-li zlomková část čísla X rovna přesně 1/2, je zaokrouhlení A rovno náhodně stanovené hodnotě X+0.5 a X-0.5, a to se stejnou pravděpodobností.
Tento typ zaokrouhlení je v podstatě rovněž bez celkového zkreslení, navíc je "spravedlivé" k lichým i sudým hodnotám A. Na druhé straně do výsledku vnáší náhodnou komponentu: Opakovaný výpočet na stejných datech může mít jiné výsledky.
Jsou-li zlomkové části čísel X rovny přesně 1/2, použije se pro první takovou hodnotu zaokrouhlení nahoru, pro druhou zaokrouhlení dolů, pro třetí opět nahoru atd. Tato metoda sice odstraňuje náhodnou komponentu, při opakovaných výpočtech na datech sice stejných, ale v jiném pořadí může dávat odlišné výsledky.
Obecnější úlohou je zaokrouhlování na daný krok - např. na jednu setinu, na celé stovky, ale i na čtvrtminuty (= násobky 15 sec). Jedna z možností je využití výše popsané definice zaokrouhlení na celé číslo potažmo funkce Round:
Označme q daný krok (např. 100 pro zaokrouhlení na celé stovky, 0.001 pro zaokrouhlení na tisíciny). Zaokrouhlení reálného čísla X na krok q je pak hodnota
B = [X/q] . q
Zaokrouhlení hodnoty 123 456.789 na celé stovky je pak rovno součinu [1 234.56789]=1235 a 100, tj.ve výsledku 123 500.
Funkci Round z předchozího odstavce lze pak rozšířit přidáním druhého nepovinného parametru (není-li zadán, je roven 1):
Zaokrouhlení na definovaný počet m (desetinných) míst je pak rovno hodnotě funkce Round s druhým parametrem rovným 10-m (tedy pro zaokrouhlení na tisíciny je m=-3, na celé stovky rovno 2).
The Math Forum: Defining Quartiles. Dostupné na http://mathforum.org/library/drmath/view/60969.html [cit. 3/6/2016].
Wikipedia: Quantile. Dostupné na: http://en.wikipedia.org/wiki/Quantile [cit. 3/6/2016].
Wikipedia: Quartile. Dostupné na: http://en.wikipedia.org/wiki/Quartile [cit. 3/6/2016].
Rev: 6 / 2016