Kun asiasta on olemassa ihan aineistoakin, niin täytyihän sitä sohaista. Innoittajana toimi myös jatkoajan artikkeli
Analyysi: Onko harjoituskauden mestari tuleva suomenmestari?
Ensin kaivoin samat datat mitä on käytetty em. jutussa liigadata.fi-sivulta ja tarkastin että ne ovat samankaltaisia. Sitten aloin piirtelemään kuvaajia. Kaikissa kuvaajissa vaaka-akselilla on selittävänä tekijänä harjoituskausi, ja pystyakselilla runkosarja. Ensin piirsin scatter plitin jutun datoista (kuva 1). Hyvältä näyttää, harjoitusottelut ennustavat todella hyvin runkosarjamenestystä! Seuraavaksi otin SaiPan pois, koska se poikkeaa selvästi muusta aineistosta (kuva 2). Selitysasteet senkun paranivat!
Asia on loppuunkäsitelty, vai onko? Kuvissa on sellainen ongelma, että regressioanalyysissa asioiden välisen riippuvuuden saa näyttämään huomattavasti todellista suuremmalta, kun datasta lasketaan ensin sopivia keskiarvoja. Juuri näin on tässäkin tapauksessa tehty. Sekä harjoituskauden että runkosarjan menestys laskettu usean kauden keskiarvona. Olisi järkevämpää tarkastella sitä, miten harjoituskauden menestys ennustaa runkosarjamenestystä yksittäisinä kausina. Tätä varten kaivoin datat liiga.fi-sivulta.
Kuvassa 3 on esitetty voittoprosentit yksittäisillä jokaiselle joukkueelle jokaisena kautena 2016-2017 kaudesta viime kevääseen (2023-2024 kausi). Kun kausia on 8 ja joukkeita 15, saadaan 120 pisteen parvi. Oranssi katkoviiva kuvaa täydellistä 1:1 yhteyttä. Kuvaajassa on ihan yksinkertaisesti laskettu voittoprosentti, kokeilin myös ottaa tasapelit huomioon mutta se ei parantanut yhteyttä vaan itseasiassa huononsi sitä hieman. Kuvassa 4 SaiPa on otettu pois ja selitysaste (R^2) vahvistuu merkittävästi. Joka tapauksessa harjoitusotteluiden voittoprosentti edelleenkin ennustaa menestystä myös runkosarjassa, mutta vain pieneltä osin.
Parhaiten runkosarjamenestystä selitti harjoituskauden keskimääräinen maaliero (kuvat 5 ja 6). Harjoituskauden keskimääräinen maaliero 2 ennustaa parempaa n. 0,5 korkeampaa pistekeskiarvoa kuin maaliero -2. Tarkastelujaksolla ei keskimääräisellä maalierolla 0 tai huonommalla ole koskaan päästy runkosarjassa yli 2 pisteen pistekeskiarvoon ja vastaavasti harjoituskauden 1,5 keskimääräisellä maalierolla ei tarkastelujaksolla ole kertaakaan jääty alle 1,6 pistekeskiarvon runkosarjassa.
Kokeilin ottaa pois analyysistä ne joukkueet niiltä kausilta kun harjoituspelejä oli kertynyt alle 5. Tämä ei yllätyksekseni parantanut harjoituskauden ja runkosarjan menestyksen yhteyttä, vaan huononsi sitä hieman. Laskuissa ja kuvaajissa saattaa olla virheitä, niinkuin aina kaikessa.
Yhteenvetona todettakoon että harjoituskausi ennustaa jonkin verran runkosarjamenestystä. Voittoprosentin sijasta maaliero ennustaa menestystä paremmin. Tilastollisten analyysien avulla voi huijata itseään, jos ei tiedä mitä tekee ja muita, jos tietää mitä tekee.
TLDR; Kuva 5.