At line 3 changed one line |
* [Paavon turnaustilastopulautin|http://www.ee.oulu.fi/~paavo/go/voittotilastot/voittotilastot.cgi] |
* [Euroopan go-tietokannasta|http://www.europeangodatabase.eu/] löytyvät kaikkien eurooppalaisten pelaajien EGF-tulokset viimeiseltä kymmeneltä vuodelta |
* [Paavon turnaustilastopulautin|http://pulautin.delic.iki.fi/voittotilastot.cgi] [Paavon pulauttimen suunnittelua]. |
At line 8 added one line |
|
At line 26 changed 2 lines |
Sitä vähän rupesin epäilemään. Eli tuo kuoppa johtuu lähtödatassa olevasta |
kohinasta (==satunnaisesta epätarkuudesta). |
Sitä vähän rupesin epäilemään. |
At line 35 changed one line |
Prosessi helposti vahvistaa kohinaa, niin kuin tuossa esimerkkitapauksessa. |
Prosessi helposti vahvistaa kohinaa. |
At line 38 changed one line |
Tällöin saadaan osa kohinasta suodatettua pois. |
Tällöin saadaan osa kohinasta suodatettua pois. Samalla saa kohtuullisen luonnollisen |
extrapolaation. Sovitusta ei kannattane tehdä joka luokituksen osalta erikseen, |
vaan olettamalla että voittosuhde muuttuu "tasaisesti". Tällöin estimoitavien |
parametrien määrä pysyy kohtuudessa ja ylisovituksen riski ei ole kovin iso. |
At line 45 added 39 lines |
|
Voipi olla huomionarvoista, että tällaisten epäjatkuvuuksien analysointi on kaukana |
helposta. Siitä johtuvien huonojebn analyysien takia tilastotieteellä on huono maine, |
kuten sanontakin sanoo: "valhe, emävalhe, tilasto." |
|
Nytkin taidetaan olla kovaa vauhtia syyllistymässä datan käyttöön tavalla |
johon aineisto ei anna oikeutusta. Kaikkinainen aineiston muuntaminen ja muokkaaminen |
kovin usein hukkaa sen, että mikä datan merkitys itse asiassa olisi. Tässä yritetään |
datasta ekstrapoloida mielivaltaisella tavalla tietoa, eikä tästä tavasta ilmeisesti |
tiedetä kuin että "siltä nyt tuntuu." Nimenomaan, niin kauan kuin ei tutkita että mikä |
on tällaisen ekstrapoloinnin vaikutus saatujen uusien datapisteiden uskottavuuteen, |
ollaan esittämässä sellaisia johtopäätöksiä, joiden oikeutuksesta ei ole harmainta |
haisuakaan. Ja koska ei ole datapisteitä joilla validoida tämä ekstrapolointi, ei |
voida edes arvioida tätä vaikutusta. |
|
Tällaisten datapisteiden esittäminen oikean datan joukossa on erityisen vaarallista, |
koska katsojalla ei ole edes mahdollisuutta saada selville että mikä osa on analysoijan |
arvausta ja mikä dataa. Johtopäätös oikean tilastotieteen puolella olisi ilman muuta |
että tällainen ekstrapoloidut datapisteet ekstrapoloimattomiin rinnastava aineisto |
on kokonaan menettänyt käyttökelpoisuutensa. Toisin sanoen, jo pelkkä ekstrapolointi |
on vaarallista, mutta datan esittäminen siten että ekstrapoloitu rinnastuu aitoon |
dataan, on (vaikkakin tahatonta) harhaan johtamista. |
|
Laurin esittämä datan mallintaminen voi hyvinkin olla vähemmän vääristelevää, mutta se on |
yhtä lailla perusteetonta; edelleenkään ei tiedetä kuinka hyvin malli sopii alueelle josta |
ei ole dataa, ja että miten vastaava oikea data käyttäytyisi. Tämän lisäksi tulee itseään |
tukeva lähestymistapa; koska mallin antamia arvoja käytetään ekstrapolointiin, ekstrapoloidut |
arvot vastaavat erinomaisesti mallia (ennustavuus on täydellinen). Tällöin kaikki mallin |
hyvyyttä kuvaavat mittarit muuttuvat harhaisiksi, toisin sanoen malli itse on jatkoa varten |
hyödytön. Ja tätä taas ei monestikaan tulla ajatelleeksi. |
|
Todennäköinen oikea tapa käsitellä tuo ekstrapolointi on sulkea ne poikkeavina arvoina pois |
siitä analyysista jossa Karin mainitsemia voittoprosentteja ei enään ole käytettävissä. Tämä |
voi vihlaista ilkeästi kun kovin arvokasta dataa joudutaan sulkemaan pois, mutta jos mallin |
perustana oleva data ei taivu, niin sitten ekstrapolointi vain johtaa harhaan. Vähin mitä tehdä, |
on esittää ekstrapoloitu data siten, että se ei estä muun datan arviointia, ja dokumentoida |
ekstrapolointi sekä siihen liittyvät riskit. |
|
-- DonOlli |