At line 1 changed one line |
TTgoK:n uusilta WWW-sivuilta löytyy luokittamista helpottava Java-appletti. |
!Työkaluja luokittamisen tueksi |
At line 3 changed one line |
Katso [Luokituskuvaaja | http://www.students.tut.fi/~ttgok/rankprob.html] |
* [Euroopan go-tietokannasta|http://www.europeangodatabase.eu/] löytyvät kaikkien eurooppalaisten pelaajien EGF-tulokset viimeiseltä kymmeneltä vuodelta |
* [Paavon turnaustilastopulautin|http://pulautin.delic.iki.fi/voittotilastot.cgi] [Paavon pulauttimen suunnittelua]. |
* TTgoK:n WWW-sivuilta luokittamista helpottava [Luokituskuvaaja|http://www.students.tut.fi/~ttgok/rankprob.html] Java-appletti. |
* TTgoK:n WWW-sivuilta [GoR-laskuri| http://www.students.tut.fi/~ttgok/gorcalc.html]. |
|
|
---- |
|
Kari TTgoK:n sivujen tarjonnasta: Ohjelmia (varsinkin GOR-laskuri) ei ole pahemmin testattu, joten teen microsoftit ja toivoisin, että käyttäjät testaavat ohjelmat ja valittavat sitten vaikka tänne sivulle. |
|
---- |
|
Luokituskuvaaja antaa outoja jakaumia esimerkiksi rivillä |
1k- 1k- 1k- 1k- 1k- 1k- 1k- 1k- 1d+ |
kun käytetään asetusta "EGF:n tilastollinen voitto%". |
Todennäköisyyskuoppa 5k kohdalla ei oikein vastaa tervettä järkeä. |
|
-- [Lauri Paatero] 8.4.2005 |
|
Epäilen, että tuo "bugi" johtuu siitä, että käytin turnaustilaston voittoprosentteja aina neljän kiven erotukseen saakka, mutta |
koska tilastoja ei ollut saatavilla suuremmista eroista, arvioin suuremmat vahvuuserot samoiksi kuin laskennallinen voittoprosentti. |
Tämä aiheuttaa ohjelman käyttämiin voittoprosentteihin epäjatkuvuuskohdan juuri tuohon neljän/viiden kiven kohdalle (esimerkin tapauksessa 1k vs. 5k). Ongelman saisi pois siten, että ekstrapoloisi noita voittoprosentteja suuremmille taitoeroille jotenkin paremmin. |
|
-- Kari |
|
Sitä vähän rupesin epäilemään. |
|
Pelkkä extrapolointi laitimmaisten pisteiden nojalla ei ole erityisen |
terveellinen teko, koska tuolloin extrapoloidaan kohinaisen datan |
eniten kohinaisita pisteistä. |
|
Kyseisen datan sellaisenaan käyttö on sinänsä jo aika kyseenalainen ratkaisu, |
koska data on aika kohinaista (osassa soluista on varsin vähän pelejä). |
Prosessi helposti vahvistaa kohinaa. |
|
Paremman tuloksen saisi, kun sovittaa (oletetun mallin mukaisen) funktion dataan. |
Tällöin saadaan osa kohinasta suodatettua pois. Samalla saa kohtuullisen luonnollisen |
extrapolaation. Sovitusta ei kannattane tehdä joka luokituksen osalta erikseen, |
vaan olettamalla että voittosuhde muuttuu "tasaisesti". Tällöin estimoitavien |
parametrien määrä pysyy kohtuudessa ja ylisovituksen riski ei ole kovin iso. |
|
-- Lauri |
|
Voipi olla huomionarvoista, että tällaisten epäjatkuvuuksien analysointi on kaukana |
helposta. Siitä johtuvien huonojebn analyysien takia tilastotieteellä on huono maine, |
kuten sanontakin sanoo: "valhe, emävalhe, tilasto." |
|
Nytkin taidetaan olla kovaa vauhtia syyllistymässä datan käyttöön tavalla |
johon aineisto ei anna oikeutusta. Kaikkinainen aineiston muuntaminen ja muokkaaminen |
kovin usein hukkaa sen, että mikä datan merkitys itse asiassa olisi. Tässä yritetään |
datasta ekstrapoloida mielivaltaisella tavalla tietoa, eikä tästä tavasta ilmeisesti |
tiedetä kuin että "siltä nyt tuntuu." Nimenomaan, niin kauan kuin ei tutkita että mikä |
on tällaisen ekstrapoloinnin vaikutus saatujen uusien datapisteiden uskottavuuteen, |
ollaan esittämässä sellaisia johtopäätöksiä, joiden oikeutuksesta ei ole harmainta |
haisuakaan. Ja koska ei ole datapisteitä joilla validoida tämä ekstrapolointi, ei |
voida edes arvioida tätä vaikutusta. |
|
Tällaisten datapisteiden esittäminen oikean datan joukossa on erityisen vaarallista, |
koska katsojalla ei ole edes mahdollisuutta saada selville että mikä osa on analysoijan |
arvausta ja mikä dataa. Johtopäätös oikean tilastotieteen puolella olisi ilman muuta |
että tällainen ekstrapoloidut datapisteet ekstrapoloimattomiin rinnastava aineisto |
on kokonaan menettänyt käyttökelpoisuutensa. Toisin sanoen, jo pelkkä ekstrapolointi |
on vaarallista, mutta datan esittäminen siten että ekstrapoloitu rinnastuu aitoon |
dataan, on (vaikkakin tahatonta) harhaan johtamista. |
|
Laurin esittämä datan mallintaminen voi hyvinkin olla vähemmän vääristelevää, mutta se on |
yhtä lailla perusteetonta; edelleenkään ei tiedetä kuinka hyvin malli sopii alueelle josta |
ei ole dataa, ja että miten vastaava oikea data käyttäytyisi. Tämän lisäksi tulee itseään |
tukeva lähestymistapa; koska mallin antamia arvoja käytetään ekstrapolointiin, ekstrapoloidut |
arvot vastaavat erinomaisesti mallia (ennustavuus on täydellinen). Tällöin kaikki mallin |
hyvyyttä kuvaavat mittarit muuttuvat harhaisiksi, toisin sanoen malli itse on jatkoa varten |
hyödytön. Ja tätä taas ei monestikaan tulla ajatelleeksi. |
|
Todennäköinen oikea tapa käsitellä tuo ekstrapolointi on sulkea ne poikkeavina arvoina pois |
siitä analyysista jossa Karin mainitsemia voittoprosentteja ei enään ole käytettävissä. Tämä |
voi vihlaista ilkeästi kun kovin arvokasta dataa joudutaan sulkemaan pois, mutta jos mallin |
perustana oleva data ei taivu, niin sitten ekstrapolointi vain johtaa harhaan. Vähin mitä tehdä, |
on esittää ekstrapoloitu data siten, että se ei estä muun datan arviointia, ja dokumentoida |
ekstrapolointi sekä siihen liittyvät riskit. |
|
-- DonOlli |