Lineární regrese

Doc. Dr. Vladimír Homola, Ph.D.

Základní pojmy

Náhodná veličina

Náhodná veličina (náhodná proměnná, stochastická veličina, stochastická proměnná) je jedním ze základních pojmů teorie pravděpodobnosti. Je to veličina, která může obecně nabývat více hodnot, každé s nějakou pravděpodobností. To, které hodnoty veličina nabude, je určeno náhodnými vlivy.

Distribuční funkce náhodné veličiny

Distribuční funkce náhodné veličiny je jednou z charakteristik náhodné veličiny. Je-li X náhodná veličina, je její distribuční funkce FX definována jako

Je to funkce neklesající, zleva spojitá a platí pro ni

Hodnota distribuční funkce "v bodě" u tedy je - zhruba řečeno - pravděpodobnost, že náhodná veličina dosáhne hodnoty nanejvýš u. Pro diskrétní veličiny s konečným počtem hodnot {xi}, i=1 ... n, se distribuční funkce "v bodě" u definuje jako.normovaný počet hodnot z {xi}, nanejvýš rovných u; normou je počet všech hodnot n.

Střední hodnota náhodné veličiny

Střední hodnota náhodné veličiny je nejdůležitější charakteristika náhodné veličiny. Značí se E(X) nebo také jen EX a je definována vztahem

(pokud tento integrál existuje) pro spojité náhodné veličiny, a vztahem

(pokud tato řada absolutně konverguje) pro diskrétní náhodné veličiny. V těchto vztazích je F distribuční funkce náhodné veličiny X, pi je pravděpodobnost hodnoty xi. V případě konečného počtu n hodnot náhodné veličiny je jejich střední hodnota rovna

V případě rovnoměrného rozložení náhodné veličiny je pravděpodobnost výskytu každé hodnoty stejná; protože hodnot je n a protože součet pravděpodobností je 1, je tedy pi=1/n pro všechna i a tedy

Tato hodnota je známa pod pojmem aritmetický průměr. Z uvedeného vyplývá, že střední hodnota (resp. vztah pro její určení) je závislá na rozložení pravděpodobnosti náhodné veličiny. Proto se přesněji mluví o střední hodnotě příslušného rozložení pravděpodobnosti.

Rozptyl náhodné veličiny

Rozptyl náhodné veličiny je nejvýznamnější charakteristikou její variability. Označíme-li symbolem m střední hodnotu distribuční funkce F,

pak je rozptyl s2 definován jako

Pro diskrétní veličinu X s konečným počtem prvků je

a její rozptyl je

jinak řečeno jde o průměrnou kvadratickou odchylku od střední hodnoty (=průměru).

Regrese

Regresí se rozumí jednostranná závislost (nikoliv nutně náhodná) na jiné veličině nebo jiných veličinách. Při zkoumání regrese se pozornost zaměřuje na nalezení (střední kvadratické) regresní funkce, která vystihuje průběh této závislosti, a výpočet reziduálního rozptylu, který vystihuje těsnost této závislosti.

Pro jednoduchost je následující text zaměřen převážně na diskrétní náhodné veličiny, které jsou pro praktické aplikace nejdůležitější.

Regresní funkce

Jsou-li X a Y dvě náhodné veličiny mající střední hodnoty, pak regresní funkcí náhodné veličiny Y na náhodné veličině X je podmíněná střední hodnota E(Y|X) jako funkce podmínky:

kde pij = P (X=xi, Y=yj) a

Regresní funkce mají důležitou minimalizační vlastnost. Platí pro ně totiž

kde se minimum bere přes všechny měřitelné funkce g jedné proměnné.

Jestliže náhodné veličiny X a Y jsou nezávislé, je E(Y|X) = EY, takže regresní funkce je konstantou. Jestliže sdružené rozložení náhodných veličin X a Y je normální, pak E(Y|X=x) = EY + b.(x-EX), kde

je tzv. regresní koeficient Y na X, takže regresní funkce je lineární. DX je rozptyl veličiny X, cov je kovariance.

Střední kvadratická regresní funkce

Regresní funkce mohou být značně složité. Proto se často aproximují jednoduššími funkcemi; přitom se vychází z minimalizační vlastnosti regresní funkce. Funkci g, která minimalizuje střední kvadratickou odchylku Sg=E(Y-g(X))2, hledáme nikoliv ve třídě všech měřitelných funkcí jedné proměnné, ale jen v nějaké podtřídě všech měřitelných funkcí jedné proměnné (např. mezi všemi lineárními funkcemi, polynomy apod).

Funkce získaná touto cestou se nazývá střední kvadratická regresní funkce. Není-li možná záměna se shora definovanou regresní funkcí, pak se přívlastek střední kvadratická vynechává.

Lineární střední kvadratická regresní funkce

Nejjednodušší střední kvadratická regresní funkce je lineární střední kvadratická regresní funkce. V tomto případě je obecný tvar minimalizační funkce g(x)=a.x+b, ovšem jen pro jedinou dvojici koeficientů [a,b] nabývá střední kvadratická odchylka Sg minima. Jinými slovy jen pro jedinou dvojici koeficientů [a,b] je střední hodnota E(Y-a.X-b)2 minimální. Tato dvojice koeficientů určuje nejlepší lineární odhad náhodné veličiny Y prostřednictvím náhodné veličiny X. Proces nalezení zmíněných koeficientů se nazývá často regrese přímkou a používá se při něm metody nejmenších čtverců.

Je-li v tomto případě DX ą 0, pak koeficienty [a,b] jsou jednoznačně určeny a platí

Je tedy vidět, že v případě dvourozměrného normálního rozložení je lineární střední kvadratická regresní funkce rovna regresní funkci, a koeficient b=b se nazývá regresní koeficient Y na X.

Jsou-li náhodné veličiny X a Y nezávislé, pak b = 0, takže nejlepším lineárním odhadem náhodné veličiny Y je její střední hodnota EY. Obráceně, může být b = 0 i když náhodné veličiny X a Y jsou závislé. V tomto případě může být absence náhodné veličiny X v odhadu způsobena předpokladem lineárnosti odhadu.

Metoda nejmenších čtverců

Princip metody

Pojmy zavedené v předchozím odstavci budeme aplikovat na konečnou množinu náhodných veličin X a Y. Nechť tedy je dána množina dvojic { [xi, yi] } pro i=1, 2, .., n. V praxi je nejčastěji reprezentována tabulkou, např.

 

i xi yi
1 1,2 3,2
2 2,4 8,2
3 3,5 9,6
4 4,2 11,0
5 5,6 18,1

 

Velmi dobrou názornou pomůckou je geometrická interpretace. Dvojice [xi,yi] je možno chápat jako souřadnice bodů v rovině; pokud nebude moci dojít k záměně, budou dvojice dat nazývány body a lineární funkce y=a.x+b přímkou. Za těchto předpokladů lze data ze shora uvedené tabulky zobrazit v rovině známým způsobem:

 

 

Zde je na místě uvést, jaký je nejčastější případ praktického použití popisovaného aparátu. Data jsou sice (z hlediska matematické teorie) náhodné veličiny; jsou však zároveň hodnotami, které nesou informaci o stavu nějakého procesu, objektu, fyzikální nebo chemické veličiny apod. Dvojice dat tedy nese informaci o současném stavu dvou objektů, veličin apod. Označíme-li tyto objekty, veličiny apod. X a Y, pak zápis dvojice [xi, yi] do tabulky vznikl jako záznam této skutečnosti: v okamžiku, kdy byla veličina X ve stavu xi, byla veličina Y ve stavu yi. Už v tom je implicitně vyjádřeno, že Y je pokládáno za veličinu závislou na veličině X: změní-li se X na nějakou hodnotu, změní se i Y na nějakou hodnotu. Tedy první závěr: vytvoří-li se např. shora uvedená tabulka, už v tom okamžiku se data pokládají za závislá.

Za druhé: závislost Y na X je

a) známa přesně nebo
b) známa na úrovni analytického předpisu nebo
c) neznáma.

V případě ad a) není z hlediska popisovaných metod co řešit. Je-li tou známou závislostí např. y=3.x+4, pak tabulka dat může sloužit např. ke zkoumání přesnosti měření apod.

Případ ad c) je častým úvodem řešení vědeckých nebo technických problémů; snahou je tento případ převést na případ uvedený pod bodem b) nalezením vhodného tvaru obecné funkce.

Případ ad b) je nejčastější a k jeho řešení směřuje tato kapitola. Je známa funkční závislost daná svým obecným funkčním předpisem (např. y=a.x+b). Pro některé hodnoty x byly zjištěny příslušné hodnoty y. Sledovaný konkrétní děj se zcela jistě řídil nějakým konkrétním funkčním předpisem (např. y=3.x+4), ale v okamžiku zjišťování [xi, yi] ještě skutečnost a=3 a b=4 nebyla známa. Tyto hodnoty jsou ale většinou cílem výzkumu.

Situace je tedy tato: ví se, že Y=f(X) a předpis pro f je obecně znám; ví se, že pro některá xi byla naměřena nějaká yi; cílem je nalézt takové hodnoty koeficientů ve funkčním předpise f, aby pro všechna i bylo yi=f(xi).

Problém je však v tom, že v praxi téměř nikdy neplatí přesně yi=f(xi), ale jen yi»f(xi). Vždy dochází k nepřesnostem při získávání hodnot, např. díky nepřesnosti měřidla, nedokonalosti lidského vnímání, ale i díky nezaznamenávaným vlivům okolí apod. Proto je vhodné předchozí odstavec přeformulovat takto:

Ví se, že Y=f(X) a předpis pro f je obecně znám; ví se, že pro některá xi byla naměřena nějaká yi; ví se, že toto měření nebylo zcela přesné; cílem je nalézt takové hodnoty koeficientů ve funkčním předpise f, ze kterého - podrobíce se jistým chybám - původně yi vzešly, tedy aby pro všechna i bylo yi pokud možno co nejblíže f(xi).

Na dokreslení uveďme následující obrázek a příklad pro lineární závislost:

 

 

Ví se, že původní funkční závislostí byla lineární závislost (přímka) y=a.x+b. Přímek v rovině je však nekonečně mnoho; každá je jednoznačně dána konkrétní dvojicí koeficientů [ a,b] (např. [ 3,4] ). Z obrázku je zřejmé, že vyznačené body nejsou "moc blízko" tečkované přímce. Obě čerchované přímky jsou na tom v tomto ohledu daleko lépe. Ale která z nich?

Především je nutno přesně definovat poněkud vágní pojem "být blízko" resp. "co nejblíže". Obecně je přesná definice podána v popisu minimalizační vlastnosti regresní funkce (viz). Zde se zaměřme pouze na lineární závislost (přímku).

Jako míru přesnosti bývá zvykem chápat odchylku bodu od přímky. Za tuto odchylku je možno brát vzdálenost bodu od přímky - rozumí se běžnou, kolmou vzdálenost. To však by působilo při zjišťování koeficientů "nejlepší" přímky značné potíže: musely by se spouštět kolmice na neznámou přímku, neznámé koeficienty by byly (Pythagorova věta) pod odmocninou aj. Proto se v tomto případě chápe odchylka jako "svislá" odchylka - ve směru osy y, tj. hodnota yi-f(xi), pro přímku yi-a.xi-b.

Při posuzování, zda body jsou "dost blízko" funkci (např. přímky), se hodnotí ne odchylka každého bodu zvlášť, ale je nutno jakýmsi způsobem zohlednit všechny body najednou. Jako kriterium se nabízí součet odchylek všech bodů. Jsou-li body "hodně rozházené okolo" funkce (např. přímky), zdá se být součet jejich odchylek velký, jsou-li "málo rozházené", zdá se být menší. Pokud je však odchylka skutečně definována jako yi-f(xi) (pro přímku yi-a.xi-b), jsou některé odchylky kladné a některé záporné. Ve svém důsledku to znamená, že čtyři body mající odchylky po řadě (100, -100, 100, -100) perfektně vyhovují, protože součet jejich odchylek je nula - nejmenší možný!

Tato závada by šla obejít zavedením ne součtu odchylek, ale součtu absolutních hodnot odchylek. To by však při určování konkrétních hodnot koeficientů a, b přímky působilo obdobné problémy jako odmocnina u shora zmíněné kolmé odchylky. Proto se jako kriterium (jehož nejmenší hodnota se hledá) přijímá součet kvadrátů odchylek, tj. výraz

Lineární regrese přímkou

Je-li funkcí f(x) lineární funkce y = a.x + b, pak má poslední vzorec předchozího odstavce tvar

Hodnota S se liší přímka od přímky; závisí na koeficientech a a b a v tomto smyslu je tedy S funkcí a, b:

Základní úlohou je pak nalézt taková am, bm, aby

Hledání extrémů funkcí více proměnných je jednou z úloh diferenciálního počtu (viz); v našem případě se redukuje na řešení soustavy

Je tedy

po vytknutí konstant

a proto také

po úpravě

Sčítá se přes i (do n); na něm a ani b nezávisí, lze je tedy vytknout. Po prohození stran je

To je konečná tzv. soustava normálních rovnic. Protože všechna xi i yi jsou známa, jsou známy i všechny S a soustava normálních rovnic je tedy běžná soustava dvou lineárních rovnic o dvou neznámých a a b Řešením této soustavy (pokud existuje) jsou dvě hodnoty am a bm takové, že S (am,bm) = min.

Postup demonstrujme na datech ve shora uvedené tabulce. Je S xi = 16.9, S yi = 50.1, S xi2 = 68.45, S xiyi = 204.68. Protože bodů je 5, má soustava normálních rovnic tvar

68.45 a + 16.9 b = 204.68

16.9 a + 5 b = 50.1

Řešením je am = 3.1199, bm = -0.5252. Průběh funkce y = amx + bm vzhledem k zadaným [xi,yi] je na následujícím obrázku.

 

 

 

Rev. 10 / 2002