!Työkaluja luokittamisen tueksi

* [Euroopan go-tietokannasta|http://www.europeangodatabase.eu/] löytyvät kaikkien eurooppalaisten pelaajien EGF-tulokset viimeiseltä kymmeneltä vuodelta
* [Paavon turnaustilastopulautin|http://pulautin.delic.iki.fi/voittotilastot.cgi] [Paavon pulauttimen suunnittelua]. 
* TTgoK:n WWW-sivuilta luokittamista helpottava [Luokituskuvaaja|http://www.students.tut.fi/~ttgok/rankprob.html] Java-appletti.
* TTgoK:n WWW-sivuilta [GoR-laskuri| http://www.students.tut.fi/~ttgok/gorcalc.html].


----

Kari TTgoK:n sivujen tarjonnasta: Ohjelmia (varsinkin GOR-laskuri) ei ole pahemmin testattu, joten teen microsoftit ja toivoisin, että käyttäjät testaavat ohjelmat ja valittavat sitten vaikka tänne sivulle.

----

Luokituskuvaaja antaa outoja jakaumia esimerkiksi rivillä
1k- 1k- 1k- 1k- 1k- 1k- 1k- 1k- 1d+
kun käytetään asetusta "EGF:n tilastollinen voitto%". 
Todennäköisyyskuoppa 5k kohdalla ei oikein vastaa tervettä järkeä.

-- [Lauri Paatero] 8.4.2005

Epäilen, että tuo "bugi" johtuu siitä, että käytin turnaustilaston voittoprosentteja aina neljän kiven erotukseen saakka, mutta
koska tilastoja ei ollut saatavilla suuremmista eroista, arvioin suuremmat vahvuuserot samoiksi kuin laskennallinen voittoprosentti.
Tämä aiheuttaa ohjelman käyttämiin voittoprosentteihin epäjatkuvuuskohdan juuri tuohon neljän/viiden kiven kohdalle (esimerkin tapauksessa 1k vs. 5k). Ongelman saisi pois siten, että ekstrapoloisi noita voittoprosentteja suuremmille taitoeroille jotenkin paremmin. 

-- Kari

Sitä vähän rupesin epäilemään. 

Pelkkä extrapolointi laitimmaisten pisteiden nojalla ei ole erityisen 
terveellinen teko, koska tuolloin extrapoloidaan kohinaisen datan 
eniten kohinaisita pisteistä.

Kyseisen datan sellaisenaan käyttö on sinänsä jo aika kyseenalainen ratkaisu, 
koska data on aika kohinaista (osassa soluista on varsin vähän pelejä). 
Prosessi helposti vahvistaa kohinaa.

Paremman tuloksen saisi, kun sovittaa (oletetun mallin mukaisen) funktion dataan. 
Tällöin saadaan osa kohinasta suodatettua pois. Samalla saa kohtuullisen luonnollisen
extrapolaation. Sovitusta ei kannattane tehdä joka luokituksen osalta erikseen,
vaan olettamalla että voittosuhde muuttuu "tasaisesti". Tällöin estimoitavien 
parametrien määrä pysyy kohtuudessa ja ylisovituksen riski ei ole kovin iso.

-- Lauri

Voipi olla huomionarvoista, että tällaisten epäjatkuvuuksien analysointi on kaukana
helposta. Siitä johtuvien huonojebn analyysien takia tilastotieteellä on huono maine, 
kuten sanontakin sanoo: "valhe, emävalhe, tilasto."

Nytkin taidetaan olla kovaa vauhtia syyllistymässä datan käyttöön tavalla 
johon aineisto ei anna oikeutusta. Kaikkinainen aineiston muuntaminen ja muokkaaminen 
kovin usein hukkaa sen, että mikä datan merkitys itse asiassa olisi. Tässä yritetään 
datasta  ekstrapoloida mielivaltaisella tavalla tietoa, eikä tästä tavasta ilmeisesti 
tiedetä kuin että "siltä nyt tuntuu." Nimenomaan, niin kauan kuin ei tutkita että mikä 
on tällaisen ekstrapoloinnin vaikutus saatujen uusien datapisteiden uskottavuuteen, 
ollaan esittämässä sellaisia johtopäätöksiä, joiden oikeutuksesta ei ole harmainta 
haisuakaan. Ja koska ei ole datapisteitä joilla validoida tämä ekstrapolointi, ei 
voida edes arvioida tätä vaikutusta.

Tällaisten datapisteiden esittäminen oikean datan joukossa on erityisen vaarallista, 
koska katsojalla ei ole edes mahdollisuutta saada selville että mikä osa on analysoijan 
arvausta ja mikä dataa. Johtopäätös oikean tilastotieteen puolella olisi ilman muuta 
että tällainen ekstrapoloidut datapisteet ekstrapoloimattomiin rinnastava aineisto 
on kokonaan menettänyt käyttökelpoisuutensa. Toisin sanoen, jo pelkkä ekstrapolointi 
on vaarallista, mutta datan esittäminen siten että ekstrapoloitu rinnastuu aitoon 
dataan, on (vaikkakin tahatonta) harhaan johtamista. 

Laurin esittämä datan mallintaminen voi hyvinkin olla vähemmän vääristelevää, mutta se on 
yhtä lailla perusteetonta; edelleenkään ei tiedetä kuinka hyvin malli sopii alueelle josta 
ei ole dataa, ja että miten vastaava oikea data käyttäytyisi. Tämän lisäksi tulee itseään 
tukeva lähestymistapa; koska mallin antamia arvoja käytetään ekstrapolointiin, ekstrapoloidut
arvot vastaavat erinomaisesti mallia (ennustavuus on täydellinen). Tällöin kaikki mallin
hyvyyttä kuvaavat mittarit muuttuvat harhaisiksi, toisin sanoen malli itse on jatkoa varten 
hyödytön. Ja tätä taas ei monestikaan tulla ajatelleeksi.

Todennäköinen oikea tapa käsitellä tuo ekstrapolointi on sulkea ne poikkeavina arvoina pois
siitä analyysista jossa Karin mainitsemia voittoprosentteja ei enään ole käytettävissä. Tämä
voi vihlaista ilkeästi kun kovin arvokasta dataa joudutaan sulkemaan pois, mutta jos mallin
perustana oleva data ei taivu, niin sitten ekstrapolointi vain johtaa harhaan. Vähin mitä tehdä, 
on esittää ekstrapoloitu data siten, että se ei estä muun datan arviointia, ja dokumentoida
ekstrapolointi sekä siihen liittyvät riskit.

-- DonOlli