Wer gewinnt die Bundesliga 2025/26?
Die vergangene Bundesliga Saison war eine außergewöhnlich spannende: Drei Spieltage vor Schluss hatten noch vier Teams eine Chance auf den Titel. In dieser Phase hat der ORF uns am Institut für Statistik um eine Prognose gebeten. Zum Glück hatten wir im Sommer davor Andreas Groll zu Gast, der uns im Kontext der EURO 2024 erklärt hat, wie man solche Prognosen modellbasiert erstellen kann. Wir haben also eilig nach verfügbaren Daten gesucht, ein Modell zusammengezimmert und die Titelchancen wie folgt angegeben: “Die Wahrscheinlichkeit, dass Salzburg Meister wird, ist bei ca. 5%, für die Austria bei 15%, für den WAC bei 25% und Sturm ist laut unserem Modell der Favorit mit 55% Wahrscheinlichkeit.”
Weil mir der Fußball in der Bundesliga-Pause gefehlt hat, habe ich die Zeit genutzt und an unserem Modell gearbeitet, um zum Start der neuen Saison eine fundierte Prognose zu haben. Hier ist sie:
Wer wird Meister?
Heißt das, dass Salzburg Meister wird? Nein. In einer Saison gibt es unzählige Situationen, deren Ausgang man unmöglich vorhersehen kann:
- Springt der Ball bei einer Ecke in der 93. Minute in einem entscheidenden Spiel vom Pfosten ins Tor und bringt den ersehnten Auswärtssieg – oder springt er heraus, sodass es beim Unentschieden bleibt?
- Führt ein Streit im Training dazu, dass der Teamgeist leidet und sich die Ergebnisse verschlechtern – oder findet der Trainer genau die richtigen Worte, um das Team zusammenzuschweißen, sodass es einen unerwarteten Lauf über mehrere Wochen startet?
- Schleppt das Kind eines Leistungsträgers einen Magen-Darm-Virus aus dem Kindergarten ein, sodass er für zwei wichtige Spiele ausfällt – oder hat er Glück und bleibt gesund?
Da jede dieser Situationen die Meisterschaft in die eine oder andere Richtung entscheiden könnte, kann auch niemand vorhersagen, wer am Ende gewinnt. Wir können also nur über Wahrscheinlichkeiten sprechen. Und man sollte sich klar machen: Salzburg ist mit 35% zwar der Favorit, aber 35% bedeuten auch, dass die Chance, dass eine der anderen Mannschaften Meister wird, mit 65% fast doppelt so groß ist.
Die detaillierte Vorhersage
Mit einem solchen wahrscheinlichkeitsbasierten Ansatz, kann man sich natürlich nicht nur anschauen, wie wahrscheinlich es ist, dass ein bestimmtes Team Meister wird, sondern auch, wie wahrscheinlich es ist, das es unter die Top 3 kommt, dass es absteigt usw. Man kann auch ausrechnen, was die erwartete Tabellenposition oder die erwartete Anzahl an Punkten oder Toren für ein Team am Ende der Saison ist. Diese detaillierteren Vorhersagen gibt es in der nächsten Tabelle:
Die Spalten Meister, Top 3, Meistergruppe und Abstieg geben die Wahrscheinlichkeiten für das entsprechende Ereignis an.
Wie funktioniert das eigentlich?
Um die Ungewissheit, die im Fußball immer dazugehört (sonst wäre es ja auch sehr langweilig), abzubilden, müssen wir die Ergebnisse einzelner Spiele als zufällig ansehen – aber nicht willkürlich. Die Zufallsmechanismen sollen Informationen über die beteiligten Teams berücksichtigen. Wenn etwa ein Team mit einer starken Offensive auf eine Mannschaft mit schwächerer Defensive trifft, ist es plausibel, dass im Durchschnitt mehr Tore fallen. Wenn ein Team die gleiche Begegnung in der Vergangenheit immer sehr klar für sich entschieden hat, ist es wohl auch beim nächsten Aufeinandertreffen der Favorit – aber das Ergebnis ist natürlich trotzdem offen.
Wie simuliert man ein einzelnes Spiel?
Unser Ziel ist es also, für jedes Spiel realistische, aber zufällige Ergebnisse zu simulieren. Dazu schätzen wir für jede Partie, wie viele Tore die beiden Teams im Durchschnitt erzielen dürften, und generieren anschließend konkrete Spielergebnisse zufällig – aber unter Berücksichtigung dieser Erwartungswerte. Als Wahrscheinlichkeitsverteilung für die Anzahl an Toren verwenden wir die Poisson-Verteilung, die sich für seltene Ereignisse (wie Tore) gut eignet.
Um die erwarteten Tore berechnen zu können, haben wir ein Random-Forest-Modell trainiert. Dieses Modell lernt auf Basis vergangener Spiele, wie viele Tore ein Team im Durchschnitt erzielt, wenn bestimmte Einflussgrößen (Prädiktoren) gegeben sind. Konkret wird eine Funktion geschätzt, die jedem Spiel – beschrieben durch Prädiktoren für Heim- und Auswärtsteam – eine erwartete Toranzahl zuordnet.
Da Heim- und Auswärtsteams unterschiedliche Bedingungen haben (z.B. Heimvorteil), schätzen wir zwei getrennte Funktionen:
- \(f\) für das Heimteam,
- \(g\) für das Auswärtsteam.
Die erwartete Toranzahl des Heimteams ergibt sich dann als: \[\lambda_\text{Heim} = f(\mathrm{Tore_5}, \mathrm{Tore}_\mathrm{Saison}, \mathrm{LetzteDuelle}, \mathrm{Elo})\] und entsprechend für das Auswärtsteam: \[\lambda_\text{Auswärts} = g(\mathrm{Tore_5}, \mathrm{Tore}_\mathrm{Saison}, \mathrm{LetzteDuelle}, \mathrm{Elo})\] Diese Funktionen basieren auf den folgenden Prädiktoren, die jeweils sowohl für das Heim- als auch das Auswärtsteam verwendet werden:
- \(\mathrm{Tore_5}\): durchschnittliche Anzahl an Toren (geschossen/zugelassen) in den letzten fünf Spielen
- \(\mathrm{Tore}_\mathrm{Saison}\): durchschnittliche Anzahl an Toren in der gesamten aktuellen Saison
- \(\mathrm{LetzteDuelle}\): durchschnittliche Anzahl an Toren in den letzten zwei Begegnungen zwischen diesen Teams
- \(\mathrm{Elo}\): Die Elo-Zahlen der beiden Teams (laut clubelo.com). Elo ist ein Bewertungssystem für die Spielstärke von Teams, bei dem nach jeder Partie Punkte vom Verlierer- zum Gewinnerteam übertragen werden. Ursprünglich aus dem Schach bekannt, lässt es sich grundsätzlich auf alle Wettkampfsysteme mit direkten Begegnungen anwenden – also auch auf Fußballligen.
Das Modell ist so aufgebaut, dass es aus vielen historischen Spielen lernt: Welche Ergebnisse sind bei bestimmten Kombinationen von Prädiktoren typisch? Dabei schätzt es die Funktionen \(f\) und \(g\) so, dass die beobachteten Tore der Vergangenheit möglichst gut durch die Prädiktoren erklärt werden. Die geschätzten Erwartungswerte \(\lambda_\text{Heim}\) und \(\lambda_\text{Auswärts}\) werden dann als Mittelwerte zweier Poisson-Verteilungen verwendet, aus denen wir die simulierten Tore für das Spiel ziehen.
Wie simuliert man eine ganze Saison?
Um nun eine Ligasaison bis zum Ende zu simulieren, gehen wir folgendermaßen vor:
- Für jedes Spiel des nächsten Spieltags, der noch nicht gespielt ist, berechnet das Modell auf Basis der aktuellen Daten die erwarteten Tore für Heim- und Auswärtsteam.
- Dann werden für jedes Spiel zufällige Ergebnisse generiert: Die Anzahl der Tore wird jeweils aus einer passenden Poisson-Verteilung gezogen, deren Mittelwert der erwarteten Toranzahl entspricht.
- Aus diesen Ergebnissen werden die Prädiktoren aktualisiert: Die durchschnittlichen Anzahlen an Toren etc. werden angepasst, damit sie bei der Simulation des nächsten Spieltags verwendet werden können.
- Der Prozess wiederholt sich für alle weiteren Spieltage. Wenn das Ende des Grunddurchgangs erreicht ist, wird die Tabelle berechnet und die Einteilung in Meister- und Relegationsgruppe vorgenommen. Dabei werden natürlich nicht nur die simulierten Ergebnisse, sondern auch die bereits tatsächlich gespielten berücksichtigt. Die beiden Gruppen werden dann auf die gleiche Weise simuliert.
Am Ende erhält man eine mögliche Entwicklung der Liga, also einen von vielen realistischen Verläufen – mit Punkteständen, Torverhältnissen und einer Abschlusstabelle.
Die Tabelle am Schluss hängt natürlich davon ab, welche Ergebnisse für die einzelnen Spiele zufällig generiert wurden. Wenn man die Simulation neu beginnt und neue Ergebnisse generiert, kann die Tabelle ganz anders aussehen. Deshalb wird die Simulation 100.000 Mal wiederholt. So lässt sich zum Beispiel für jedes Team berechnen
- Wie oft es Meister wird, absteigt oder die Top 3 kommt,
- Wie viele Punkte und Tore es im Durchschnitt erzielt,
- Welche Tabellenposition es im Mittel am Ende erreicht.
Diese relativen Häufigkeiten und Durchschnittswerte bilden die Grundlage der Wahrscheinlichkeiten und Prognosen, die oben dargestellt sind. Sie zeigen nicht, wie die Saison genau verlaufen wird – das kann niemand wissen – aber sie zeigen, welche Szenarien plausibel sind und wie wahrscheinlich bestimmte Entwicklungen unter realistischen Annahmen eintreten könnten.