Inhaltsverzeichnis

Regression

Lineare Regressionsanalyse

Bei der Linearen Regressionsanalyse wird die Gerade gesucht, die am besten mit den Messwerten übereinstimmt. Die werden dabei als fehlerfrei angenommen und die Gerade so angepasst, dass die Abweichung (Residuen) im Quadrat in der Summe minimal werden.

Formeln

„Standard“ Regressionsanalyse. Alle y haben den selben Fehler, x ist fehlerfrei.

Für den Fall dass die Fehler der identisch sind1) erhält man

Der Fehler der Schätzung (Standard Error of the Estimate, Mean Square Error) 2)

gibt an, wie stark die Messwerte um die Gerade schwanken.

Die Koeffizienten und sind ebenfalls mit einer Unsicherheit behaftet

Das Bestimmungsmaß ist das Quadrat des

Korrelationskoeffizienten :

kann auf zwei Arten interpretiert werden:

Daraus folgt, dass um so näher bei 1 ist

Herleitung / Berücksichtigung von Fehlern in y

y hat einen Fehler proportional zur Wurzel der Intensität, x ist fehlerfrei

Die einzelnen Messwerte weichen um einen Fehler (Residuum) von der Gerade ab.

Das Maß der Übereinstimmung wird durch den quadratischen Fehler4) für jeden einzelnen Messwert bestimmt. Dabei wird angenommen, dass der Fehler der verschwindend gering ist und der Fehler der einer Gaußschen Statistik folgt. [485] (Kapitel 6).

Die Abweichungen von der Gerade werden mit der jeweiligen Streuung der Messwerte gewichtet und aufsummiert.

Die Parameter und werden so gewählt, dass minimal wird, d.h.

Das lineare Gleichungssystem

kann nach und aufgelöst werden.

Nimmt man für alle den selben absoluten Fehler an, so lässt sich dieser aus dem Fit bestimmen:

Die Fehler von und ergeben sich mit den üblichen Methoden der Fehlerfortpflanzung aus den bzw. :

Variante: Nullpunktsgerade

Nullpunktsgerade, alle y haben den selben Fehler, x ist Fehlerfrei

Setzt man an erhält man

Nullpunktsgerade, alle y/x haben den selben Fehler (Fehler nicht skaliert)

Alternativ kann man für jedes Wertepaar das Verhältnis

bestimmen. Der Fehler der ist

Der Mittelwert der gewichtet mit den Fehlern (wobei nur der relative Wert relevant ist) lautet ([489],S65ff)

Aus der Streuung der Punkte um die Gerade lässt sich der unkannte Faktor und somit der absolute Fehler von und bestimmen:

Variante: sowohl x als auch y fehlerbehaftet

Um Daten zu behandeln die sowohl in als auch fehlerbehaftet sind, kann der kürzeste Abstand der Punkte zur Gerade minimiert werden (Wolfram Mathworld).

Oder die vertikalen Abstände gewichtet mit den Fehlern in und minimiert werden [489]

Hintergrund: Statistischer Fehler

Ein Gruppe von Werten schwankt um ihren Mittelwert

Wobei der Mittelwert so definiert ist, dass der mittlere quadratische Abstand zum Mittelwert minimal wird: minimal .

Die Stärke der Schwankung wird durch die Varianz gegeben5)

wobei die Standardabweichung (der Einzelwerte)

das Intervall um angibt, in dem (sofern eine Normalverteilung der Messwerte vorliegt) 68% der Messwerte verteilt sind.

Neben der Definition von gibt es auch die Definitionen und bei denen im Nenner jeweils durch bzw. ersetzt wird. Es gilt . Diese Standardabweichungen werden verwendet wenn nur eine Stichprobe anstelle der Grundgesamheit betracht werden.

Die Standardabweichung des Mittelwerts, auch mittlerer quadratischer Fehler genannt, gibt an wie sich die statistische Streuung der Messwerte als Fehler auf den Mittelwert auswirkt. Die Standardabweichung des Mittelwerts ist deutlich kleiner als die Standardabweichung der Einzelwerte, da sich durch Mittelung über viele Messungen die Unsicherheit verringert.

Hintergrund: Fehlerfortpflanzung

Rechnet man aus zwei (oder mehrere) Messwerten und einen neuen Wert aus, so pflanzen sich die Fehler von und auf fort. Der Fehler von ist6):

Literatur

[485] PHILIP R. BEVINGTON & KEITH D. ROBINSON. 2002. Data Reduction and Error Analysis for the Physical Sciences. 3rd ed. Mcgraw-Hill Higher Education No. pages: 336. 0072472278
[489] WILLIAM H. PRESS, SAUL A. TEUKOLSKY, WILLIAM T. VETTERLING & BRIAN P. FLANNERY. 2007. Numerical Recipes: The Art of Scientific Computing. 3rd ed. Cambridge University Press No. pages: 1256. 0521880688

1) bei Daten die auf einem Zählprozess basieren nimmt man häufig vereinfacht an, die Annahme konstanter ist also in diesem Fall nicht gerechtfertigt. Siehe nächster Abschnitt für den allgemeineren Fall
2) , da zwei Freiheitsgrade bereits durch die Gerade „aufgebraucht“ sind. Wird von Anfang an eine Nullpunktsgerade eingesetzt:
3) Ersetzt man durch erhöht man zwar die Steitung, vergrößert aber gleichzeitig den absoluten Fehler, so dass dies gerade keine Auswirkung auf R² hat, da der relative Fehler gleich bleibt
4) Diese Methode wurde 1795 von Gauß entwickelt. Gegenüber der zu diesem Zeitpunkt bereits bestehenden Methode von Laplace, bei der die Beträge der Fehler minimiert werden, hat diese Methode den Vorteil, dass die Residuen mathematisch als kontinuierliche Variable behandelt werden können nach denen abgeleitet werden kann. Als Folge werden jedoch „Ausreißer“ - Messwerte die stark von der Gerade abweichen - stärker gewichtet als Messwerte die nahe an der Gerade liegen.
5) da ein Freiheitsgrad bereits durch die Mittelwertbildung „aufgebraucht“ ist
6) Näherung für den Fall, dass die Fehler von und unkorreliert sind