Työkaluja luokittamisen tueksi#
- Euroopan go-tietokannasta löytyvät kaikkien eurooppalaisten pelaajien EGF-tulokset viimeiseltä kymmeneltä vuodelta
- Paavon turnaustilastopulautin Linkki taitaa olla vanha, onkos uutta paikaa saatu kasaan?
- TTgoK:n WWW-sivuilta luokittamista helpottava Luokituskuvaaja Java-appletti.
- TTgoK:n WWW-sivuilta GoR-laskuri.
- GOR datan pohjalta tehtyjä tilastoja
- Suunnitelmaa pelaajien vahvuuden arviointisysteemiksi.
Kari TTgoK:n sivujen tarjonnasta: Ohjelmia (varsinkin GOR-laskuri) ei ole pahemmin testattu, joten teen microsoftit ja toivoisin, että käyttäjät testaavat ohjelmat ja valittavat sitten vaikka tänne sivulle.
Luokituskuvaaja antaa outoja jakaumia esimerkiksi rivillä 1k- 1k- 1k- 1k- 1k- 1k- 1k- 1k- 1d+ kun käytetään asetusta "EGF:n tilastollinen voitto%". Todennäköisyyskuoppa 5k kohdalla ei oikein vastaa tervettä järkeä.
-- Lauri Paatero 8.4.2005
Epäilen, että tuo "bugi" johtuu siitä, että käytin turnaustilaston voittoprosentteja aina neljän kiven erotukseen saakka, mutta koska tilastoja ei ollut saatavilla suuremmista eroista, arvioin suuremmat vahvuuserot samoiksi kuin laskennallinen voittoprosentti. Tämä aiheuttaa ohjelman käyttämiin voittoprosentteihin epäjatkuvuuskohdan juuri tuohon neljän/viiden kiven kohdalle (esimerkin tapauksessa 1k vs. 5k). Ongelman saisi pois siten, että ekstrapoloisi noita voittoprosentteja suuremmille taitoeroille jotenkin paremmin.
-- Kari
Sitä vähän rupesin epäilemään.
Pelkkä extrapolointi laitimmaisten pisteiden nojalla ei ole erityisen terveellinen teko, koska tuolloin extrapoloidaan kohinaisen datan eniten kohinaisita pisteistä.
Kyseisen datan sellaisenaan käyttö on sinänsä jo aika kyseenalainen ratkaisu, koska data on aika kohinaista (osassa soluista on varsin vähän pelejä). Prosessi helposti vahvistaa kohinaa.
Paremman tuloksen saisi, kun sovittaa (oletetun mallin mukaisen) funktion dataan. Tällöin saadaan osa kohinasta suodatettua pois. Samalla saa kohtuullisen luonnollisen extrapolaation. Sovitusta ei kannattane tehdä joka luokituksen osalta erikseen, vaan olettamalla että voittosuhde muuttuu "tasaisesti". Tällöin estimoitavien parametrien määrä pysyy kohtuudessa ja ylisovituksen riski ei ole kovin iso.
-- Lauri
Voipi olla huomionarvoista, että tällaisten epäjatkuvuuksien analysointi on kaukana helposta. Siitä johtuvien huonojebn analyysien takia tilastotieteellä on huono maine, kuten sanontakin sanoo: "valhe, emävalhe, tilasto."
Nytkin taidetaan olla kovaa vauhtia syyllistymässä datan käyttöön tavalla johon aineisto ei anna oikeutusta. Kaikkinainen aineiston muuntaminen ja muokkaaminen kovin usein hukkaa sen, että mikä datan merkitys itse asiassa olisi. Tässä yritetään datasta ekstrapoloida mielivaltaisella tavalla tietoa, eikä tästä tavasta ilmeisesti tiedetä kuin että "siltä nyt tuntuu." Nimenomaan, niin kauan kuin ei tutkita että mikä on tällaisen ekstrapoloinnin vaikutus saatujen uusien datapisteiden uskottavuuteen, ollaan esittämässä sellaisia johtopäätöksiä, joiden oikeutuksesta ei ole harmainta haisuakaan. Ja koska ei ole datapisteitä joilla validoida tämä ekstrapolointi, ei voida edes arvioida tätä vaikutusta.
Tällaisten datapisteiden esittäminen oikean datan joukossa on erityisen vaarallista, koska katsojalla ei ole edes mahdollisuutta saada selville että mikä osa on analysoijan arvausta ja mikä dataa. Johtopäätös oikean tilastotieteen puolella olisi ilman muuta että tällainen ekstrapoloidut datapisteet ekstrapoloimattomiin rinnastava aineisto on kokonaan menettänyt käyttökelpoisuutensa. Toisin sanoen, jo pelkkä ekstrapolointi on vaarallista, mutta datan esittäminen siten että ekstrapoloitu rinnastuu aitoon dataan, on (vaikkakin tahatonta) harhaan johtamista.
Laurin esittämä datan mallintaminen voi hyvinkin olla vähemmän vääristelevää, mutta se on yhtä lailla perusteetonta; edelleenkään ei tiedetä kuinka hyvin malli sopii alueelle josta ei ole dataa, ja että miten vastaava oikea data käyttäytyisi. Tämän lisäksi tulee itseään tukeva lähestymistapa; koska mallin antamia arvoja käytetään ekstrapolointiin, ekstrapoloidut arvot vastaavat erinomaisesti mallia (ennustavuus on täydellinen). Tällöin kaikki mallin hyvyyttä kuvaavat mittarit muuttuvat harhaisiksi, toisin sanoen malli itse on jatkoa varten hyödytön. Ja tätä taas ei monestikaan tulla ajatelleeksi.
Todennäköinen oikea tapa käsitellä tuo ekstrapolointi on sulkea ne poikkeavina arvoina pois siitä analyysista jossa Karin mainitsemia voittoprosentteja ei enään ole käytettävissä. Tämä voi vihlaista ilkeästi kun kovin arvokasta dataa joudutaan sulkemaan pois, mutta jos mallin perustana oleva data ei taivu, niin sitten ekstrapolointi vain johtaa harhaan. Vähin mitä tehdä, on esittää ekstrapoloitu data siten, että se ei estä muun datan arviointia, ja dokumentoida ekstrapolointi sekä siihen liittyvät riskit.
-- DonOlli