Titelleiste www.testudolinks.de
Übersetzungen dieser Seite:
 

Regression

Lineare Regressionsanalyse

Bei der Linearen Regressionsanalyse wird die Gerade f(x) = a + bx gesucht, die am besten mit den Messwerten (x_i,y_i) übereinstimmt. Die x_i werden dabei als fehlerfrei angenommen und die Gerade so angepasst, dass die Abweichung (Residuen) \epsilon_i = y_i - f(x_i) im Quadrat in der Summe minimal werden.

Formeln

„Standard“ Regressionsanalyse. Alle y haben den selben Fehler, x ist fehlerfrei.

Für den Fall dass die Fehler \sigma_i der y_i identisch sind1) erhält man

a = \frac{1}{\Delta}\left( \sum_i x_i^2\sum_i y_i - \sum_i x_i \sum_i x_iy_i \right) \qquad b = \frac{1}{\Delta}\left( N\sum_i x_iy_i - \sum_i x_i \sum_i y_i \right)
\Delta = N\sum_i x_i^2 - \left(\sum_i x_i\right)^2

Der Fehler der Schätzung (Standard Error of the Estimate, Mean Square Error) 2)

\sigma_y^2 = \frac{1}{N-2}\sum\limits_{i=1}^N\left(f(x_i)-y_i\right)^2 = \frac{1}{N-2}\chi^2

gibt an, wie stark die Messwerte y_i um die Gerade f schwanken.

Die Koeffizienten a und b sind ebenfalls mit einer Unsicherheit behaftet

\sigma_a^2 = \frac{\sigma_y^2}{\Delta}\sum_ix_i^2 \qquad \sigma_b^2 = N\frac{\sigma_y^2}{\Delta}

Das Bestimmungsmaß R^2 ist das Quadrat des

Korrelationskoeffizienten R:

R^2 = 1 - \frac{\chi^2}{\sum_i \left( y_i - \overline y\right)^2}

R^2 kann auf zwei Arten interpretiert werden:

  • R^2 gibt an, wie groß die Abweichung der Messwerte von der Gerade f im Vergleich zur Varianz der Messwerte ist.
  • R^2 gibt an wie stark die Abweichung der Messwerte von der Geraden f im Vergleich zur Abweichung von einer Geraden parallel zur x-Achse ist.

Daraus folgt, dass R^2 um so näher bei 1 ist

  • je kleiner die quadratische Abweichung der Messwerte von der Geraden f ist
    und/oder
  • je stärker die Steigung der Geraden f von einer Geraden parallel zur x-Achse abweicht, d.h. je steiler die Gerade f ist3).

Herleitung / Berücksichtigung von Fehlern in y

y hat einen Fehler proportional zur Wurzel der Intensität, x ist fehlerfrei

Die einzelnen Messwerte y_i weichen um einen Fehler (Residuum) \epsilon_i von der Gerade ab.

y_i = f(x_i) + \epsilon_i

Das Maß der Übereinstimmung wird durch den quadratischen Fehler4) für jeden einzelnen Messwert bestimmt. Dabei wird angenommen, dass der Fehler der x_i verschwindend gering ist und der Fehler \sigma_i der y_i einer Gaußschen Statistik folgt. [485] (Kapitel 6).

Die Abweichungen von der Gerade werden mit der jeweiligen Streuung der Messwerte gewichtet und aufsummiert.

\chi^2 = \sum_i\left(\frac{\epsilon_i}{\sigma_i}\right)^2 = \sum_i\left(\frac{f(x_i)-y_i}{\sigma_i}\right)^2 = \sum_i\left(\frac{ax_i+b-y_i}{\sigma_i}\right)^2

Die Parameter a und b werden so gewählt, dass \chi^2 minimal wird, d.h.

\frac{\partial \chi^2}{\partial b} = 0 \quad\Rightarrow\quad \sum_i2\left(ax_i+b-y_i\right) = 0 \qquad\qquad \frac{\partial \chi^2}{\partial a} = 0 \quad\Rightarrow\quad \sum_i2\left(ax_i+b-y_i\right)x_i = 0

Das lineare Gleichungssystem

\left( \begin{array}{cc} \sum_i\frac{1}{\sigma_i^2} & \sum_i\frac{x_i}{\sigma_i^2} \\
\sum_i\frac{x_i}{\sigma_i^2} & \sum_i\frac{x_i^2}{\sigma_i^2} \end{array} \right) \left( \begin{array}{c} a \\
b \end{array} \right) = \left( \begin{array}{c} \sum_i\frac{y_i}{\sigma_i^2} \\
\sum_i\frac{x_iy_i}{\sigma_i^2} \end{array} \right)

kann nach a und b aufgelöst werden.

a = \frac{1}{\Delta}\left( \sum_i\frac{x_i^2}{\sigma_i^2}\sum_i\frac{y_i}{\sigma_i^2} -\sum_i\frac{x_i}{\sigma_i^2}\sum_i\frac{x_iy_i}{\sigma_i^2} \right) \qquad b = \frac{1}{\Delta}\left( \sum_i\frac{1}{\sigma_i^2}\sum_i\frac{x_iy_i}{\sigma_i^2} -\sum_i\frac{x_i}{\sigma_i^2}\sum_i\frac{y_i}{\sigma_i^2} \right)

\Delta = \sum_i\frac{1}{\sigma_i^2} \sum_i\frac{x_i^2}{\sigma_i^2} - \left(\sum_i\frac{x_i}{\sigma_i^2}\right)^2

Nimmt man für alle y_i den selben absoluten Fehler an, so lässt sich dieser aus dem Fit bestimmen:

\sigma^2 = \frac{1}{N-2}\sum_i\left(y_i-f(x_i)\right)^2

Die Fehler von a und b ergeben sich mit den üblichen Methoden der Fehlerfortpflanzung aus den \sigma_i bzw. \sigma:

\sigma_a^2 = \sum_i \sigma_i^2\left(\frac{\partial a}{\partial y_i}\right)^2 = \sum_i \sigma_i^2\left(\frac{1}{\Delta}\left( \frac{1}{\sigma_i^2}\sum_j\frac{x_j^2}{\sigma_j^2}-\frac{x_i^2}{\sigma_i^2}\sum_j\frac{x_j}{\sigma_j^2} \right)\right)^2 =\frac{1}{\Delta}\sum_i\frac{x_i^2}{\sigma_i^2}
\sigma_b^2 = \sum_i \sigma_i^2\left(\frac{\partial b}{\partial y_i}\right)^2 = \sum_i \sigma_i^2\left( \frac{1}{\Delta}\left( \frac{x_i}{\sigma_i^2}\sum_j\frac{1}{\sigma_j^2}-\frac{1}{\sigma_i^2}\sum_j\frac{x_j}{\sigma_j^2} \right) \right)^2 =\frac{1}{\Delta}\sum_i\frac{1}{\sigma_i^2}

Variante: Nullpunktsgerade

Nullpunktsgerade, alle y haben den selben Fehler, x ist Fehlerfrei

Setzt man f(x) = mx an erhält man

m = \sum_i\frac{x_iy_i}{\sigma_i^2} / \sum_i\frac{x_i^2}{\sigma_i^2} \qquad \qquad m = \frac{\sum_i x_iy_i}{\sum_i x_i^2} \quad(\sigma_i=\sigma)

\sigma_y^2 = \frac{1}{N-1}\sum_i\left(y_i-mx_i\right)^2

\sigma_m^2 = \frac{1}{\sum_i\frac{x_i^2}{\sigma_i^2}}

Nullpunktsgerade, alle y/x haben den selben Fehler (Fehler nicht skaliert)

Alternativ kann man für jedes Wertepaar (x_i,y_i) das Verhältnis

m_i = \frac{y_i}{x_i}

bestimmen. Der Fehler der m_i ist

\sigma_{m_i}^2 = \frac{y_i^2}{x_i^2}\left(\frac{\sigma_{y_i}^2}{y_i^2}-\frac{\sigma_{x_i}^2}{x_i^2}\right) = \frac{1}{k w_i}

Der Mittelwert der m_i gewichtet mit den Fehlern \sigma_i (wobei nur der relative Wert w_i relevant ist) lautet ([489],S65ff)

\overline m = \frac{\sum_i w_i m_i}{\sum_i w_i}

Aus der Streuung der Punkte um die Gerade lässt sich der unkannte Faktor k und somit der absolute Fehler von m_i und \overline m bestimmen:

\sigma = \left(\frac{\sum_i w_i m_i^2}{\sum_i w_i}-m_i^2\right)\frac{N}{N-1}

\sigma_{\overline m}^2 = \frac{\sigma^2}{N} \qquad \sigma_{m_i}^2 = \frac{1}{w_i}\frac{\sigma^2\sum_iw_i}{N} \qquad

Variante: sowohl x als auch y fehlerbehaftet

Um Daten zu behandeln die sowohl in x als auch y fehlerbehaftet sind, kann der kürzeste Abstand der Punkte zur Gerade minimiert werden (Wolfram Mathworld).

a = -A\pm\sqrt{A^2+1} \qquad A = \frac{1}{2} \frac{\frac{1}{N}\sum_iy_i^2 - \overline y^2 - \frac{1}{N}\sum_ix_i^2 + \overline x^2}{\overline x\overline y - \frac{1}{N}\sum_ix_iy_i}
b = \overline y - a\overline x

Oder die vertikalen Abstände gewichtet mit den Fehlern in x und y minimiert werden [489]

\chi^2 = \sum\limits_{i=1}^N\frac{(y_i-ax_i - b)^2}{\sigma_{y,i}^2+a^2\sigma_{x,i}^2}

Hintergrund: Statistischer Fehler

Ein Gruppe von Werten w_i schwankt um ihren Mittelwert

\overline w = \frac{1}{N}\sum\limits_i^N w_i \qquad \overline w = \sum\limits_i\frac{w_i}{\sigma_i^2} / \sum\limits_i\frac{1}{\sigma_i^2}

Wobei der Mittelwert so definiert ist, dass der mittlere quadratische Abstand zum Mittelwert minimal wird: \sum_i(w_i-\overline w)^2= minimal \Rightarrow \frac{\mathrm{d}}{\mathrm{d}\overline w}\sum_i (w_i-\overline w)^2=0.

Die Stärke der Schwankung wird durch die Varianz gegeben5)

\mathrm{Var} = \frac{1}{N-1}\sum\limits_i^N \left(w_i - \overline w\right)^2

wobei die Standardabweichung (der Einzelwerte)

\sigma_N = \sqrt{\mathrm{Var}} = \sqrt{\frac{1}{N-1}\sum\limits_i^N \left(w_i - \overline w\right)^2}

das Intervall um \overline w angibt, in dem (sofern eine Normalverteilung der Messwerte vorliegt) 68% der Messwerte w_i verteilt sind.

  • 68,3% der w_i \in [\overline w - \sigma,\overline w + \sigma]
  • 95,4% der w_i \in [\overline w - 2\sigma,\overline w + 2\sigma]
  • 99,7% der w_i \in [\overline w - 3\sigma,\overline w + 3\sigma]

Neben der Definition von \sigma_N gibt es auch die Definitionen \sigma_{N-1} und \sigma_{N-2} bei denen N im Nenner jeweils durch N-1 bzw. N-2 ersetzt wird. Es gilt \sigma_{N-2}\geq\sigma_{N-1}\geq\sigma_N. Diese Standardabweichungen werden verwendet wenn nur eine Stichprobe anstelle der Grundgesamheit betracht werden.

Die Standardabweichung des Mittelwerts, auch mittlerer quadratischer Fehler genannt,

\sigma_\mathrm{MW} = \frac{\sigma}{\sqrt{N}}
gibt an wie sich die statistische Streuung der Messwerte als Fehler auf den Mittelwert auswirkt. Die Standardabweichung des Mittelwerts ist deutlich kleiner als die Standardabweichung der Einzelwerte, da sich durch Mittelung über viele Messungen die Unsicherheit verringert.

Hintergrund: Fehlerfortpflanzung

Rechnet man aus zwei (oder mehrere) Messwerten x\pm\sigma_x und y\pm\sigma_y einen neuen Wert f(x,y) aus, so pflanzen sich die Fehler von x und y auf f fort. Der Fehler von f ist6):

\sigma_f^2 = \left(\frac{\partial f}{\partial x}\right)^2\sigma_x^2 + \left(\frac{\partial f}{\partial y}\right)^2\sigma_y^2
\begin{array}{ll} f = x + y & \Rightarrow \sigma_f^2 = \sigma_x^2 + \sigma_y^2 \\
f = x - y & \Rightarrow \sigma_f^2 = \sigma_x^2 - \sigma_y^2 \\
f = x \cdot y & \Rightarrow \left(\frac{\sigma_f}{f}\right)^2 = \left(\frac{\sigma_x}{x}\right)^2 + \left(\frac{\sigma_y}{y}\right)^2 \\
f = \frac{x}{y} & \Rightarrow \left(\frac{\sigma_f}{f}\right)^2 = \left(\frac{\sigma_x}{x}\right)^2 + \left(\frac{\sigma_y}{y}\right)^2 \end{array}

Literatur

[485] PHILIP R. BEVINGTON & KEITH D. ROBINSON. 2002. Data Reduction and Error Analysis for the Physical Sciences. 3rd ed. Mcgraw-Hill Higher Education No. pages: 336. 0072472278
[489] WILLIAM H. PRESS, SAUL A. TEUKOLSKY, WILLIAM T. VETTERLING & BRIAN P. FLANNERY. 2007. Numerical Recipes: The Art of Scientific Computing. 3rd ed. Cambridge University Press No. pages: 1256. 0521880688

1) bei Daten die auf einem Zählprozess basieren nimmt man häufig vereinfacht \sigma_i \propto \sqrt{y_i} an, die Annahme konstanter \sigma_i=\sigma ist also in diesem Fall nicht gerechtfertigt. Siehe nächster Abschnitt für den allgemeineren Fall
2) N-2, da zwei Freiheitsgrade bereits durch die Gerade „aufgebraucht“ sind. Wird von Anfang an eine Nullpunktsgerade eingesetzt: N-1
3) Ersetzt man y_i durch 2y_i erhöht man zwar die Steitung, vergrößert aber gleichzeitig den absoluten Fehler, so dass dies gerade keine Auswirkung auf R² hat, da der relative Fehler gleich bleibt
4) Diese Methode wurde 1795 von Gauß entwickelt. Gegenüber der zu diesem Zeitpunkt bereits bestehenden Methode von Laplace, bei der die Beträge der Fehler minimiert werden, hat diese Methode den Vorteil, dass die Residuen mathematisch als kontinuierliche Variable behandelt werden können nach denen abgeleitet werden kann. Als Folge werden jedoch „Ausreißer“ - Messwerte die stark von der Gerade abweichen - stärker gewichtet als Messwerte die nahe an der Gerade liegen.
5) N-1 da ein Freiheitsgrad bereits durch die Mittelwertbildung „aufgebraucht“ ist
6) Näherung für den Fall, dass die Fehler von x und y unkorreliert sind

Fragen, Kommentare, Hinweise, Korrekturen:

Geben Sie Ihren Kommentar ein
NITGY
 
 
licht/uv/regression.txt · Zuletzt geändert: 2010/08/05 15:02 von sarina
 
Recent changes RSS feed Creative Commons License Donate Powered by PHP Valid XHTML 1.0 Valid CSS Driven by DokuWiki