This is version . It is not the current version, and thus it cannot be edited.
[Back to current version]   [Restore this version]

Työkaluja luokittamisen tueksi#


Kari TTgoK:n sivujen tarjonnasta: Ohjelmia (varsinkin GOR-laskuri) ei ole pahemmin testattu, joten teen microsoftit ja toivoisin, että käyttäjät testaavat ohjelmat ja valittavat sitten vaikka tänne sivulle.


Luokituskuvaaja antaa outoja jakaumia esimerkiksi rivillä 1k- 1k- 1k- 1k- 1k- 1k- 1k- 1k- 1d+ kun käytetään asetusta "EGF:n tilastollinen voitto%". Todennäköisyyskuoppa 5k kohdalla ei oikein vastaa tervettä järkeä.

-- Lauri Paatero 8.4.2005

Epäilen, että tuo "bugi" johtuu siitä, että käytin turnaustilaston voittoprosentteja aina neljän kiven erotukseen saakka, mutta koska tilastoja ei ollut saatavilla suuremmista eroista, arvioin suuremmat vahvuuserot samoiksi kuin laskennallinen voittoprosentti. Tämä aiheuttaa ohjelman käyttämiin voittoprosentteihin epäjatkuvuuskohdan juuri tuohon neljän/viiden kiven kohdalle (esimerkin tapauksessa 1k vs. 5k). Ongelman saisi pois siten, että ekstrapoloisi noita voittoprosentteja suuremmille taitoeroille jotenkin paremmin.

-- Kari

Sitä vähän rupesin epäilemään.

Pelkkä extrapolointi laitimmaisten pisteiden nojalla ei ole erityisen terveellinen teko, koska tuolloin extrapoloidaan kohinaisen datan eniten kohinaisita pisteistä.

Kyseisen datan sellaisenaan käyttö on sinänsä jo aika kyseenalainen ratkaisu, koska data on aika kohinaista (osassa soluista on varsin vähän pelejä). Prosessi helposti vahvistaa kohinaa.

Paremman tuloksen saisi, kun sovittaa (oletetun mallin mukaisen) funktion dataan. Tällöin saadaan osa kohinasta suodatettua pois. Samalla saa kohtuullisen luonnollisen extrapolaation. Sovitusta ei kannattane tehdä joka luokituksen osalta erikseen, vaan olettamalla että voittosuhde muuttuu "tasaisesti". Tällöin estimoitavien parametrien määrä pysyy kohtuudessa ja ylisovituksen riski ei ole kovin iso.

-- Lauri

Voipi olla huomionarvoista, että tällaisten epäjatkuvuuksien analysointi on kaukana helposta. Siitä johtuvien huonojebn analyysien takia tilastotieteellä on huono maine, kuten sanontakin sanoo: "valhe, emävalhe, tilasto."

Nytkin taidetaan olla kovaa vauhtia syyllistymässä datan käyttöön tavalla johon aineisto ei anna oikeutusta. Kaikkinainen aineiston muuntaminen ja muokkaaminen kovin usein hukkaa sen, että mikä datan merkitys itse asiassa olisi. Tässä yritetään datasta ekstrapoloida mielivaltaisella tavalla tietoa, eikä tästä tavasta ilmeisesti tiedetä kuin että "siltä nyt tuntuu." Nimenomaan, niin kauan kuin ei tutkita että mikä on tällaisen ekstrapoloinnin vaikutus saatujen uusien datapisteiden uskottavuuteen, ollaan esittämässä sellaisia johtopäätöksiä, joiden oikeutuksesta ei ole harmainta haisuakaan. Ja koska ei ole datapisteitä joilla validoida tämä ekstrapolointi, ei voida edes arvioida tätä vaikutusta.

Tällaisten datapisteiden esittäminen oikean datan joukossa on erityisen vaarallista, koska katsojalla ei ole edes mahdollisuutta saada selville että mikä osa on analysoijan arvausta ja mikä dataa. Johtopäätös oikean tilastotieteen puolella olisi ilman muuta että tällainen ekstrapoloidut datapisteet ekstrapoloimattomiin rinnastava aineisto on kokonaan menettänyt käyttökelpoisuutensa. Toisin sanoen, jo pelkkä ekstrapolointi on vaarallista, mutta datan esittäminen siten että ekstrapoloitu rinnastuu aitoon dataan, on (vaikkakin tahatonta) harhaan johtamista.

Laurin esittämä datan mallintaminen voi hyvinkin olla vähemmän vääristelevää, mutta se on yhtä lailla perusteetonta; edelleenkään ei tiedetä kuinka hyvin malli sopii alueelle josta ei ole dataa, ja että miten vastaava oikea data käyttäytyisi. Tämän lisäksi tulee itseään tukeva lähestymistapa; koska mallin antamia arvoja käytetään ekstrapolointiin, ekstrapoloidut arvot vastaavat erinomaisesti mallia (ennustavuus on täydellinen). Tällöin kaikki mallin hyvyyttä kuvaavat mittarit muuttuvat harhaisiksi, toisin sanoen malli itse on jatkoa varten hyödytön. Ja tätä taas ei monestikaan tulla ajatelleeksi.

Todennäköinen oikea tapa käsitellä tuo ekstrapolointi on sulkea ne poikkeavina arvoina pois siitä analyysista jossa Karin mainitsemia voittoprosentteja ei enään ole käytettävissä. Tämä voi vihlaista ilkeästi kun kovin arvokasta dataa joudutaan sulkemaan pois, mutta jos mallin perustana oleva data ei taivu, niin sitten ekstrapolointi vain johtaa harhaan. Vähin mitä tehdä, on esittää ekstrapoloitu data siten, että se ei estä muun datan arviointia, ja dokumentoida ekstrapolointi sekä siihen liittyvät riskit.

-- DonOlli

Add new attachment

Only authorized users are allowed to upload new attachments.
« This particular version was published on 05-Sep-2005 00:16 by PaavoPietarila.