Mittelwerte

Mittelwerte, Glättung, Ausgleichsgerade, Interpolation, Extrapolation, ...

Dieses Thema umfasst einige Kapitel, in denen mehrere Zahlenwerte zusammengefasst werden. Die Anwendung erstreckt sich auf viele technische und kommerzielle Gebiete.
Kalkulation Zahlen-Werkzeug, Profi- Tipps und Tricks
Arithmetisch Arithmetischer Mittelwert, Abstand, Abstandsquadrat
Mittelwerte Geometrisch, Harmonisch, Quadratisch, ...
Gleitend Gleitende Mittelwert-Funktionen
Gewichtung Gewichtete Mittelwerte zur Betonung bestimmter Daten
Glättung Beruhigung von gestreuten Daten
Trend Die Berechnung der Ausgleichsgeraden - Lineare Regression
Ausgleichsgerade Die Methode der 'Linearen Regression'
Interpolation Berechnung von Daten zwischen bekannten Stützpunkten
Extrapolation Berechnung von Prognosen
Saisonen Berücksichtigung vorhersehbarer Schwankungen

Arithmetisches Mittel, Abstand, Abstandsquadrat

Das arithmetische Mittel aus n Datenpunkten x ist definiert mit
x(ma) = (x1 + x2 + x3 + ... + xn) / n
als Algorithmus in der IT wird diese Variante verwendet:
x(ma) = x1/n + x2/n + x3/n + ... + xn/ n
Eigenschaft: Jeder Datenpunkt hat das gleiche "Gewicht", d.h. trägt gleich viel zum gemeinsamen Mittelwert bei.
Berechnung mit den Standardfunktionen:
x(ma) = MITTELWERT(Bereich)
x(ma) = SUMME(Bereich) / ANZAHL(Bereich)

Algorihtmus (VBA):

Rechts eine Visual Basic (VBA) Funktion zur Berechnung des Arithmetischen Mittels. Die Funktion hat nur didaktischen Wert, man verwendet die Standard-Funktion =MITTELWERT
Allerdings lässt sich demonstrieren, dass man einen Algorithmus finden muss, der die Anhäufung großer Summen oder Produkte verhindert. Hier wird ausdrücklich nicht die Gesamtsumme aller xi berechnet und danach durch die Anzahl n dividiert, sondern der Anfangswert m=0 des Mittelwerts in jeder Schleife um den Betrag xi/n verändert.
Function mean_arithmetic(x As Range) As Double
Dim n, m, xi
n = x.Count
m = 0
For Each xi In x
m = m + xi / n
Next xi
mean_arithmetic = m
End Function

Abstand:

Der Abstand eines Datenpunkts x(i) vom Mittelwert x(ma) ist die Differenz
x(i) - x(ma)
Die Summe aller Abstände ergibt (nur) beim arithmetischen Mittelwert immer die Zahl Null. Der Abstand ist daher ein Maß für die individuelle Abweichung eines Datenpunktes nach Richtung (+ oder -) und Betrag (Zahlenwert).

Abstandquadrat

Das Abstandsquadrat eines Datenpunktes vom Mittelwert ist
((x(i) - x(ma))^2
Dieser Wert ist immer positiv.
Die Summe aller Abstandsquadrate ist ein Maß für die Streuung aller Datenpunkte um den Mittelwert.
Wenn ihr Wert=0, dann liegen alle Datenpunkte genau am Mittelwert, bei Wert>0 streuen sie um den Mittelwert.
Das Abstandsquadrat ist u.a. ein wichtiges Maß für Iterationen: Man führt einen Algorithmus so lange aus, bis die Summe der Abstandsquadrate zwischen Soll-Werten und Ist-Werten ein Minimum erreicht hat.
Varianz und Standardabweichung sind Begriffe aus der Statistik:
Sie haben unter bestimmten Voraussetzungen mit der Verteilung (Streuung) von Daten um einen Mittelwert zu tun.
 

Andere Mittelwerte: Geometrisch, Harmonisch, Quadratisch, ...

Die 3 'Pythagoräischen Mittelwerte' sind das Arithmetische, das Geometrische und das Harmonische Mittel.
Besondere Bedeutung haben die Mittelwerte für n=2 , da die Mittelwerte eine besondere Rolle im ästethischen Empfinden einnehmen.
Für positive Werte xi ist
x(min) <= m(har) <= m(geo) <= m(ar) <= x(max)

Geometrisches Mittel:

Dieser Mittelwert entspricht der n-ten Wurzel aus dem Produkt aller Werte
x(mg) = (x1 * x2 * x3 * .. *xn)^(1/n)
für VBA wird hier verwendet
x(mg) = x1^(1/n) * x2^(1/n) * .. * xn^(1/n)

Das Geometrische Mittel spielt eine Rolle bei der Beschreibung relativer Differenzen (z.B. Wachstum)
Algorithmus für das Geometrische Mittel (VBA):
Diese Form der Berechnung vermeidet die Anhäufig großer Zahlen und berechnet daher nicht das Produkt aller Zahlen.
Statt dessen wird das Produkt vom Anfangswert m=1 in jeder Schleife mit xi^(1/n) multipliziert.
Da VBA keine Potenz-Funktion kennt, werden die n-tenWurzeln über den Logarithmus berechnet.
Function mean_geometric(x As Range) As Double
n = 1 / x.Count
m = 1
For Each xi In x
m = m * Exp(n * Log(xi))
Next xi
mean_geometric = m
End Function

Harmonisches Mittel:

Dieser Mittelwert ist definiert als
x(mh) = n / (1/x1 + 1/x2 + ... + 1/xn)
Dieser Mittelwert spielt u.a. eine Rolle bei der Geschwindigkeit: Wenn ein Fahrzeug auf einer Bahn n Runden mit den Geschwindigkeiten x1,x2,x3...x3 dreht, dann ist seine Durchschnittsgeschwindigkeit das Harmonische Mittel der einzelnen Runden-Geschwindigkeiten.

Einige US-Schulen verwenden das Harmonische Mittel zur Ermittlung von Gesamtnoten aus Einzelnoten. Dafür werden positive Leistungspunkte verwendet (d.h. keine Leistung ->0 Punkte). Das Harmonische Mittel gewichtet in diesem Fall schwache Leistungen stärker als das Arithmetische Mittel.
Algorithmus für das Harmonische Mittel (VBA):
Der Algorithmus dieser Function beginnt mit dem Anfangswert m=0 und addiert in jeder Schleife den Betrag 1/xi
Zuletzt wird die Anzahl n durch m dividiert.
Function mean_harmonic(x As Range) As Double
n = x.Count
m = 0
For Each xi In x
m = m + 1 / xi
Next xi
mean_harmonic = n / m
End Function

Quadratisches Mittel:

Dieser Mittelwert (Root mean square, RMS) ist definiert als
x(mq) = wurzel( 1/n * (x1^2 + x2^2 + ... + xn^2) )
für den Algorithmus wird verwendet
x(mq) = wurzel( x1^2/n + x2^2/n + .. + xn^2/n)

Dieser Mittelwert ist größer als alle anderen hier erwähnten Mittelwerte und immer positiv.
Algorithmus für das Quadratische Mittel (VBA):
Der Algorithmus dieser Funktion vermeidet die Anhäufung einer großen Summe, und addiert in jeder Schleife den Betrag xi^2/n
Zuletzt wird die Quadratwurzel gezogen.
Function mean_quadratic(x As Range) As Double
n = x.Count
m = 0
For Each xi In x
m = m + xi * xi / n
Next xi
mean_quadratic = Sqr(m)
End Function
Weitere verwandte Begriffe werden in der Statistik verwendet:
Median (Zentralwert), Modus (Dichtester Wert), Perzentile (Wertebereiche von Variablen, z.B. Quartile), usw.
 

Gleitender Mittelwert

Wenn längere Datenreihen (z.B. Zeitreihen) vorliegen, dann besteht oft der Bedarf, langfristige Entwicklungen hervorzuheben, kurzfristige Schwankungen ('Streuung') jedoch zu unterdrücken.

In diesem Beispiel wurden die "Gestreuten" Daten x (gelbe Punkte) durch 2 verschiedene 'Gleitende' Funktionen ersetzt:
x(m3) = x(i-1)/3 + x(i)/3 + x(i+1)/3
x(m4) = x(i-3)/4 + x(i-2)/4 + x(i-1)/4 + x(i)/4

Symmetrischer Mittelwert aus 3 Datenpunkten:

Zelle C3 enthält die Formel
=MITTELWERT(B2:B4)
Diese Formel wird bis C10 ausgefüllt. Jeder Datenwert x (gelbe Punkte) wird durch den Mittelwert von sich selbst und seinen beiden Nachbarpunkten ersetzt (violette Punkte). Diese Linie gleicht bereits die meisten Schwankungen aus, spiegelt aber dennoch längerfristige Entwicklungen. Für den ersten und letzten Datenpunkt (n=1,11) kann keine Glättungs-Funktion angegeben werden. Symmetrische Funktionen enthalten immer eine ungerade Anzahl (3,5,...) von Stützpunkten.

Asymmetrischer Mittelwert aus 4 Datenpunkten:

Zelle D5 enthält die Formel
=MITTELWERT(B2:B5)
Diese Funktion (rote Linie) kann erst ab n>3 angegeben werden, reicht jedoch bis zum letzten (aktuellsten) Datenpunkt.
Demo für Gleitende Funktionen
Demo für Gleitende Funktionen
Das wesentliche Merkmal gleitender Funktionen ist, dass sie sich auf eine "lokale Umgebung" von Datenpunkten stützen. In der Regel überschneiden sich die Stützpunkte, d.h. jeder Datenpunkt trägt zu mehreren "Gleitenden Funktionen" bei. Eine Weiterentwicklung dieser Methode ist die Gewichtung (s.u.)

Gewichtete gleitende Funktionen

Der Grundgedanke besteht darin, gleitende Funktionen anzuwenden, die Stützpunkte jedoch unterschiedlich zu bewerten.
Dafür gibt es keine fixen Regeln, meist gilt jedoch:
Die Gewichtung erfolgt umso geringer, je weiter ein Stützpunkt vom zentralen Datenpunkt entfernt ist. In der Wirtschaft bedeutet das meist: hohes Gewicht für neuere Daten, geringeres für ältere Daten.
Die Summe aller Gewichtungs-Faktoren muss =1 ergeben.

Gewichteter gleitender Mittelwert:
Anwendung auf 3 symmetrische Stützpunkte
x(m3*) = x(i-1)*1/4 + x(i)*1/2 + x(i+1)*1/4
oder mit 4 asymmetrischen Stützpunkten:
x(m4*) = x(i-3)*1/15 + x(i-2)*2/15 + x(i-1)*4/15 + x(i)*8/15
Die Gewichtungs-Faktoren sind meist linear oder progressiv fallend.
Wieviele Stützpunkte, und welche Gewichtungs-Faktoren verwendet werden, richtet sich nach der jeweiligen Anwendung. Wenn es keine Vorgaben oder Gewohnheits-Daten gibt, dann probieren sie verschiedene Möglichkeiten aus.
 

Glättung (smoothing)

Wenn man (zufällige) kurzfristige Schwankungen von Daten ausgleichen will, dann werden Gleitende Funktionen angewendet.

Lineare Glättung ohne Gewichtung:

x(m*) = x(i-1)/3 + x(i)/3 + x(i+1)/3

Lineare Glättung mit Gewichtung:

x(m*) = x(i-1)/4 + x(i)/2 + x(i)/4
 

Exponentielle Glättung:

x(i+1) = x(i) + a * (x(i)-x(m))
Diese Methode wird zur kurzfristigen Prognose (Extrapolation) verwendet. Sie bewertet Trends höher als Lineare Verfahren und wird daher bei steigenden und fallenden Datenreihen bevorzugt.
Zunächst wird die Datenreihe geglättet und an der Stelle x(i) ein gewichteter Mittelwert x(m) berechnet. Die Differenz zwischen x(m) und dem Datenwert x(i) wird mit einem Faktor 0..a..1 bewertet und daraus der voraussichtliche Wert des nächsten Datenpunkts x(i+1) berechnet.
 

Ausgleichsgerade - Lineare Regression

Beim Verfahren der 'Linearen Regression' legt man eine Gerade so durch die bekannten Datenpunkte, dass die Summe der Abstands-Quadrate (loss function) ein Minimum wird.
Für eine Gerade der Form
y = k * x + d
ergibt sich
k = summe( (x(i)-x(m)) * (y(i)-y(m)) ) / summe ( (x(i)-x(m))^2 )
Der Abstand jedes Punktes von der Geraden wird auf seiner 'Normalen' gemessen, d.h. auf einer Geraden, die durch den Punkt geht und rechtwinkelig auf die Ausgleichsgerade steht. Das Quadrat der Abstände ist vom Vorzeichen unabhängig, für die Optimierung zählt daher nur der Betrag des Abstands, nicht seine Richtung (Vorzeichen).

Details zum Thema Lineare Regression (Algorithmen)