Interpolace a extrapolace v prostoru

Doc. Dr. Vladimír Homola, Ph.D.

Obecné úvahy

Mějme statistický soubor S s rozsahem N, přičemž každému prvku s Î S je přiřazena uspořádaná trojice [x,y,z] tří argumentů X, Y, Z. Mluvíme pak o statistickém souboru se třemi argumenty X, Y, Z, nebo také o trojrozměrném statistickém souboru s argumenty X, Y a Z.

Takový statistický soubor bývá nejčastěji dán tabulkou mající tři sloupce X, Y, Z a N řádků (=jednotlivých trojic). Lze jej samozřejmě zkoumat metodami jednorozměrných statistik, tj. samostatně “sloupec” X, samostatně “sloupec” Y a samostatně “sloupec” Z. Trojrozměrné statistické soubory se však vytváří právě za účelem zkoumání X, Y a Z “dohromady”: ví se nebo se předpokládá, že X, Y a Z nějak spolu souvisí a úkolem je tuto souvislost co nejpravděpodobněji popsat. Příkladem může být následující tabulka:

 

 

Z tohoto hlediska jsou zřejmé pojmy nezávisle a závisle statistické proměnné. Předpokládá se, že např. Z závisí na X i Y, a naopak X nezávisí na Z (ale ani na Y). Jest tedy Z závisle proměnná, X a Y nezávisle proměnné.

Takové pojetí má výhodu snadného grafického znázornění. Trojice [x,y,z] lze totiž chápat také jako souřadnice bodů v prostoru, ve kterém je zavedena (např. kartézská) soustava souřadná. Vizualizací trojrozměrného statistického souboru je pak prostorový graf:

 

 

V praxi se v souvislosti s trojrozměrnými statistickými soubory vyskytují dva typy úloh: A. Zjištění závislosti Z na X a Y
B. Zjištění hodnoty zk Î Z pro takové xk Î X a yk Î Y, která nejsou v tabulce dat.

Zjištění (nejlépe funkční) závislosti Z na X a Y umožní současně i zjišťování neznámých hodnot – např. pouhým dosazením xk a yk do rovnice funkční závislosti. Naopak zjištění hodnoty zk pro “nezadané” xk a yk nemusí být vázáno na zjištění závislosti.

Problém ad A. řeší úlohy interpolace a extrapolace, problém ad B. řeší úlohy lokálních a globálních odhadů.

Interpolace a extrapolace

Obecná úloha interpolace:

Pro statistické účely se úloha interpolace definuje ve zjednodušeném tvaru; jest při tom xi Î X, yi ÎY, zi Î Z:

Pokud je při zjišťování z podle předchozího odstavce [x,y] Î < min{xi}, min{yi}> x < max{xi}, max{yi}>, jedná se o interpolaci. Není-li, jedná se o extrapolaci. Funkce g(x,y) z obecné úlohy interpolace bývá nazývána funkcí, která aproximuje funkci f(x,y) na zadaném intervalu.

Polynomická interpolace

Prostorová polynomická funkce stupně n má obecný tvar

Má (n+1)2 koeficientů ai,j.

Je-li tedy dáno (n+1)2 trojic [xi,yi,zi], pak - až na případy singulární matice soustavy - existuje jediná (n+1)2-tice [an,n, ..., a0,0] koeficientů toho (jediného) prostorového polynomu, který danými “body přesně prochází”.

Pozn.: Je-li trojic m a není to přesně (n+1)2, jistě existuje takové největší přirozené k, že k2 < m < (k+1)2. Danými m “body přesně prochází polynom” stupně k, který však má ((k+1)2-m) koeficientů nulových. Které z nich to jsou, to záleží na konkrétní aplikaci, charakteru dat, podstatě řešeného problému apod. Tak lze získat např. polynom, který je stupně p v proměnné x a stupně q v proměnné y, přitom p ą q.

Interpolace prostorovou polynomickou funkcí však v mnoha případech pro účely odhadu hodnot naprosto nevyhovuje. Uvažujme 25 bodů s kladnými hodnotami blízkými nule, “mírně rostoucí” s kladnými hodnotami x i y. Těmito body je jednoznačně dána polynomická funkce stupně 4 v x i y. Ta však může mít diametrálně odlišné chování od zadaných bodů reprezentujících např. určitý fyzikální nebo chemický děj neslučitelný s polynomickým modelem.

Příkladem je následující obrázek. Plnými barevnými ploškami je naznačena poloha některých “tabulkových” bodů:

 

 

Polynomická prostorová interpolace je proto použitelná jen pro malou třídu úloh.

Regrese v prostoru

Touto metodou lze úlohy interpolace splnit jen částečně. Předpokladem je, že je znám funkční předpis

určující vztah mezi X, Y a Z. Funkční předpis má (n+1) neznámých koeficientů ai. Jest pak zjistit takové hodnoty koeficientů, aby funkce f právě s takovými koeficienty byla ze všech funkcí se stejným funkčním předpisem “co nejlepší” – vyhovovala zvolenému optimalizačnímu kriteriu.

Takovým kriteriem je např. součet kvadrátů (=čtverců) odchylek zadaných bodů od plochy f(x,y). Minimalizací tohoto součtu (odtud metoda nejmenších čtverců) se získá soustava tzv. normálních rovnic, jejichž řešením jsou hledané koeficienty ai. Pokud je tato soustava lineární, jde o lineární regresi, jinak o nelineární regresi.

O lineárních regresích pojednávají samostatné kapitoly.

Úlohy interpolace z pohledu prostorové regrese:

Splain plochy

Splain plochy v prostoru jsou analogií splain křivek v rovině. Jsou sjednocením mnoha funkčních předpisů na mnoha rovinných oblastech a dávají “rozumné výsledky na rozumných datech”. Přitom pojmem “rozumná data” se rozumí data pokud možno rovnoměrně rozmístěná, s pokud možno malými hodnotovými odchylkami sousedních bodů. Pro náročnost matematické podstaty přichází jejich praktické využití do úvahy jen v počítačovém prostředí; tato metoda zde nebude podrobněji rozebírána.

Gridování

Tímto zajímavým češtinářským novotvarem je označována skupina metod, které mají společný základ: převádí základní problém interpolace s danými hodnotami v daných bodech na zástupný problém interpolace v náhradních bodech s náhradními hodnotami.

Tyto náhradní body tvoří v rovině XY (většinou rovnoměrnou) síť (angl. grid - odtud ono gridování). Ukažme podstatu problému tak, že znázorníme pohled na data “shora” – ve směru osy Z (tj. vidíme “půdorys”):

 

 

Je dáno (např. tabulkově) několik bodů [xi,yi,zi] - na obrázku jsou plnými body znázorněny jejich půdorysy [xi,yi], hodnoty zi jsou připsány ke každému z bodů. Oblast našeho zájmu pokryjeme obdélníkovou sítí (na obrázku 8 linek rovnoběžných s osou x, 8 linek rovnoběžných s osou y). Průsečík jedné vodorovné a jedné svislé linky nazvěme uzel. Sítí je tedy dána soustava uzlů (v našem případě 8x8=64 uzlů, na obrázku jsou zvýrazněny malými kroužky).

Dalším krokem je pokus dopočítat hodnoty ZU do uzlů sítě, a to na základě hodnot Zi daných. Způsobů a metod, jak tak učinit, je několik a budou probrány v samostatných kapitolách.

Jsou-li známy hodnoty v uzlech sítě, je možno především zobrazit prostorový model poměrně názorným způsobem jako “drátěný model”:

 

 

Dále je možno odhadnout hodnotu v neznámém bodě X. Protože je nyní zájmová plocha pokryta pravidelnou sítí, leží každý (půdorysný) bod X buď na některé hraně, nebo v jediném obdélníku. Leží-li na hraně, je to buď uzel (a v něm je známa dopočtená hodnota), nebo leží na úsečce spojující dva uzly - pak lze odhad hodnoty zjistit nejrychleji např. lineární interpolací.

Jestliže bod X leží uvnitř (jediného) obdélníka, jsou především známé čtyři hodnoty ve vrcholech tohoto obdélníka. Hodnotu v bodě X nelze sice nyní odhadnout “čistou” lineární interpolací (za použití roviny; ta je ale určena jen třemi body), lze však použít některou jednoduchou funkci se čtyřmi koeficienty a ty určit řešením čtyř rovnic o čtyřech neznámých.

Takovou funkcí je např.

z = a . x + b . x . y + c . y + d

“Obdélníkovou” část funkční plochy lze zobrazit následovně:

 

 

Pro kterýkoliv svislý řez funkční plochou rovnoběžný s osou X – tj. y = konst - platí:

z = a . x + b . x . konst + c . konst + d

tj.

z = (a + b . konst) . x + (c . konst + d)

Řezem je tedy přímka s danou rovnicí. Obdobně pro kterýkoliv svislý řez funkční plochou rovnoběžný s osou Y – tj. x = konst - platí

z = a . konst + b . konst . y + c . y + d

tj.

z = (a . konst + d) + (b . konst + c) . y

Řezem je opět přímka s danou rovnicí.

Pro kterýkoliv svislý řez funkční plochou (tj. řez rovinou kolmou na rovinu XY, kterou protíná v přímce y=k.x+q) - platí:

z = a . x + b . x . (k.x+q) + c . (k.x+q) + d

tj.

z = b.k.x2 + (a+b.q+c.k).x + (c.q+d)

Řezem je tedy parabola s danou rovnicí.

Pro kterýkoliv vodorovný řez funkční plochou (tj. rovinou rovnoběžnou s rovinou XY) platí

z = konst

a tedy

konst = a . x + b . x . y + c . y + d

tj. po úpravě

y = (konst - a.x - d) / (b.x + c)

Řezem je tedy hyperbola s danou rovnicí.

Je vidět, že s uvedenou funkcí lze pracovat velmi jednoduše. Zvláště z poslední rovnice je zřejmé, že pro zjištění souřadnice y bodu ležícího na izolinii z=z0 stačí pouhé tři multiplikativní a tři aditivní operace. Právě toto zjišťování je důležité pro vykreslování zkonstruovaných ploch ve formátu topografické mapy:

 

 

 

Rev. 10 / 2002