Aivan ensiksi huomio kaikille ja pahoittelut, minulla oli pieni fiba kulman laskemisessa joka himpun verran vääristi tuloksia. Tulos päivitetty alkup. viestiin. Ikävä kyllä IFK:n sijoitus näyttää nyt entistäkin huonommalta.
Kiitos propseista ja mielenkiintoisista kysymyksistä! Vastailen nyt ainakin jotain.
A: Vetojen "vaarallisuus" määräytyy seuraavasti: Ensin määritellään laukausten kulma tolppiin nähden ja etäisyys maalin keskipisteestä, jonka jälkeen lähestyn asiaa melko suoraviivaisesti logistisella regressiolla joka sopii tilanteeseen jossa tulos on joko 1 tai 0 jokaisella kokeella. Pyrin siis arvioimaan todennäköisyyttä (tai "oddseja") laukauksen maaliinmenemiselle kun tiedetään sen kulma ja etäisyys maalista. Aiheesta enempään kiinnostukseen: Logistic regression - Wikipedia
Etäisyyden ja kulman vaikutus ei siis ole lineaarinen. Niin ja todettakoon että tilastollisen merkitsevyyden osalta p-arvossa liikutaan etäisyyden kohdalla aikaisintaan 15. desimaalissa ja kulman kahdeksannessa. Siis molemmat ovat tilastollisesti merkitseviä 99,9999...% luottamustasolla. Näin ei luulisi asian olevan jos @obi-wan :n väitteen mukaisesti data olisi lähes nolla-arvoista.
B: No otetaan esimerkiksi laukaus jonka etäisyys maalista on 5 yksikköä (~3 metriä) ja 10 yksikköä. Todennäköisyydet maalille seuraavilla kulmilla ovat samassa järjestyksessä:
45: 33%, 25%
30: 25%, 19%
15: 18%, 13%
Huom. että tässä katsotaan vain vetoja joiden jo tiedetään menevän maalia kohti. Siksi prosentti tulee verrattain korkeaksi.
C:Ks. a-kohdan vastaus. Ei ole lineaarinen.
D: En tee painotuksia vaan estimoin mallin aineiston perusteella.
E: Periaatteessa kaikki luettelemasi seikat olisivat huomioitavissa viitseliäältä analyysintekijältä. Veikkaan monen niistä olevan kuitenkin lähinnä mitättömiä vaikutukseltaan ja tuossa mentävän helposti ylisovittamisen puolelle. Jotain lisätekijöitä saatan kuitenkin testata.
Lähtökohtaisesti ei ole tarkoitus muokata raakadataa jaettavaan muotoon. Eikä minulla sen julkiseen levitykseen oikeuksia kai olisikaan.
Ikävä kyllä ainakin minun käytettävissä olevillani tiedoilla ja taidoilla maskipelaajat ym. ovat tämän analyysin ulottumattomissa. Jos dataa pelaajien sijoittumisesta olisi, asia olisi toki toinen. Tässä joudutaan turvaamaan isoon otoskokoon (maalia kohti yli 15 000 vetoa) ja eri sijaintien todennäköisyyksien keskimääräiseen arviointiin.
Ylivoiman osalta jonkinlaista kontrollointia voisi hyvin olla mahdollista lisävaivalla tehdä ja se kieltämättä lienisi hyödyllistä.
Ensinnäkin kiitos mielenkiintoisesta keskustelunaloituksesta ja vaikuttaa siltä, että olet tehnyt datan keräämisessä jokseenkin ison duunin. Propsit sille. Metodologiasta haluaisin käydä läpi muutamia pointteja, joita haluaisin sinun avaavan:
Kiitos propseista ja mielenkiintoisista kysymyksistä! Vastailen nyt ainakin jotain.
1. A. Miten arvotat, määrittelet ja painotat nuo odotusarvot, todennäköisyydet ja suotuisat paikat eli vetojen vaarallisuuden?
B. Mikä on siis numeraalinen ero suoraan maalin edestä ja esim. 45/30/15 asteen kulmasta tulleella vedolla?
C. Miten todennäköisyys tippuu per metri maalista, ja onko tämä arvo lineaarinen? Onko esim. 50cm maalista tullut veto välttämättä vaarallisempi kuin esim. 200cm maalista tullut veto?
D. Oletko painottanut kulmaa enemmän kuin etäisyyttä?
E. Mitä muuta voisi ottaa huomioon - Laukojan kätisyys? Maalivahdin kätisyys? Laukojan kätisyys suhteessa kentän puolikkaaseen, josta veto tulee? Pelipaikka? Laukojan L%?
A: Vetojen "vaarallisuus" määräytyy seuraavasti: Ensin määritellään laukausten kulma tolppiin nähden ja etäisyys maalin keskipisteestä, jonka jälkeen lähestyn asiaa melko suoraviivaisesti logistisella regressiolla joka sopii tilanteeseen jossa tulos on joko 1 tai 0 jokaisella kokeella. Pyrin siis arvioimaan todennäköisyyttä (tai "oddseja") laukauksen maaliinmenemiselle kun tiedetään sen kulma ja etäisyys maalista. Aiheesta enempään kiinnostukseen: Logistic regression - Wikipedia
Etäisyyden ja kulman vaikutus ei siis ole lineaarinen. Niin ja todettakoon että tilastollisen merkitsevyyden osalta p-arvossa liikutaan etäisyyden kohdalla aikaisintaan 15. desimaalissa ja kulman kahdeksannessa. Siis molemmat ovat tilastollisesti merkitseviä 99,9999...% luottamustasolla. Näin ei luulisi asian olevan jos @obi-wan :n väitteen mukaisesti data olisi lähes nolla-arvoista.
B: No otetaan esimerkiksi laukaus jonka etäisyys maalista on 5 yksikköä (~3 metriä) ja 10 yksikköä. Todennäköisyydet maalille seuraavilla kulmilla ovat samassa järjestyksessä:
45: 33%, 25%
30: 25%, 19%
15: 18%, 13%
Huom. että tässä katsotaan vain vetoja joiden jo tiedetään menevän maalia kohti. Siksi prosentti tulee verrattain korkeaksi.
C:Ks. a-kohdan vastaus. Ei ole lineaarinen.
D: En tee painotuksia vaan estimoin mallin aineiston perusteella.
E: Periaatteessa kaikki luettelemasi seikat olisivat huomioitavissa viitseliäältä analyysintekijältä. Veikkaan monen niistä olevan kuitenkin lähinnä mitättömiä vaikutukseltaan ja tuossa mentävän helposti ylisovittamisen puolelle. Jotain lisätekijöitä saatan kuitenkin testata.
2. Kun saat datasetin järjesteltyä esitettävään muotoon, voitko jakaa myös nämä raakadatasi?
Lähtökohtaisesti ei ole tarkoitus muokata raakadataa jaettavaan muotoon. Eikä minulla sen julkiseen levitykseen oikeuksia kai olisikaan.
3. Blokkausten lisäksi hyökkäävän joukkueen maskipelaaminen (0, 1 vai 2 pelaajaa maskissa) ja puolustavan joukkueen sijoittuminen (aluepuolustus, merkkaus vai näiden hybridi sekä pyritäänkö ensisijaisesti blokkaamaan vai ohjaamaan vedot huonompiin kulmiin, mistä kulmista päästetään vedot suosiolla jne) vaikuttaa merkitsevästi totetumiin. Näihin toki tarvitaan dataa mitä ei pelkistä laukaisukartoista voi lukea, ja varmasti on muitakin variaabeleja joita olisi hyvä ottaa huomioon. Mitä ajatuksia sinulle on tullut siitä, miten näitä erinäisiä muuttujia voisi kontrolloida?
Ikävä kyllä ainakin minun käytettävissä olevillani tiedoilla ja taidoilla maskipelaajat ym. ovat tämän analyysin ulottumattomissa. Jos dataa pelaajien sijoittumisesta olisi, asia olisi toki toinen. Tässä joudutaan turvaamaan isoon otoskokoon (maalia kohti yli 15 000 vetoa) ja eri sijaintien todennäköisyyksien keskimääräiseen arviointiin.
4. Ymmärrän, että siivoat pois tilanteet, joissa puolustava joukkue on ilman maalivahtia, mutta jos siivoat myös ne joissa hyökkäävä joukkue hakee tasoitusta ilman maalivahtia, eikö tämä olisi aika lailla verrannollinen ylivoimaan? Siivoatko myös ylivoimat/alivoimat pois kerätystä datasetistä?
Ylivoiman osalta jonkinlaista kontrollointia voisi hyvin olla mahdollista lisävaivalla tehdä ja se kieltämättä lienisi hyödyllistä.