This is version . It is not the current version, and thus it cannot be edited.
[Back to current version]   [Restore this version]

Dokumentoin tässä TTgoK:n luokitushärvelin toiminnan (olen muistaakseni myös laittanut sorsatkin jakeluun, eli ohjelman oikeellisuuden voi sitten tarkistaa niistä): Oletetaan, että pelaajat ovat mustia laatikoita, joihin on sisällytetty ominaisuus ”pelaajan pelitasoa vastaava luokitus”. Mikäli pelaajat A ja B pelaavat keskenään ja käyttäjä käyttää pullauttimen toimintoa ”EGF:n laskennallinen voittoprosentti”, oletetaan, että pelaaja A voittaa B:n todennäköisyydellä, jota käytetään EGF:n GOR-mallissa (http://gemma.ujf.cas.cz/~cieply/GO/gor.html) kun A:n ja B: luokituksilla varustetut pelaajat kohtaavat. Oletetaan myös, että satunnaisesti valitussa populaatiossa kaikki luokitukset ovat yhtä todennäköisiä (tämä ei pidä paikkaansa, mutta ohjelman voisi suhteellisen helposti korjata käyttämään esim. tämän hetkistä luokitusjakaumaa). Kun nyt pullauttimelle annetaan pelaajan X tulosrivi, jonka ajatellaan syntyneen edelläkuvatun kaltaisten mustien laatikoiden välisten pelien lopputuloksena ja oletetaan että X:n vastustajien luokitukset ovat tiedossa, niin pullautin palauttaa likelihood-funktion estimoitavalle parametrille, joka on pelaajan X luokitus (tuntematon, toisin sanoen tulosrivin ajatellaan olevan otos jakaumasta, jonka parametri X:n luokitus on). Näissäkin keskusteluissa usein mainittu maximum likelihood tarkoittaa ko. likelihood-funktion maksimia.

Jesse, Suomesta löytyy pelaajia, jotka ovat saaneet odottaa dan-korotustaan pisteeseen, jossa sen virhemarginaali on promilleluokassa. Sinun korottamattomuutesi ei ole vielä mitenkään poikkeuksellista, koska tulosrivisisihän antaa vielä esim. 6% mahdollisuuden, että olet 1 dan ko. mallilla.

-- Kari 26.2.2007

Tuossa Karin mallissa oletetaan, että sekä pelaajalla että hänen vastustajillaan oli heidän nimellistä luokitustaan vastaava GoR, kun valitaan "laskennallinen voitto%". Siitä eteenpäin kussakin pelissä voittamistodennäköisyyksien laskenta tehdään täsmälleen GoR-mallin mukaisella tavalla.

-- Markku, 27.2. 2007

Muutama pikainen kommentti (vaikka tämä muualle kuuluisikin.)

  • Miten perustellaan vastustajan vahvuustiedon analysoimattomuus? (Pelkkä nominaali(!)luokitus aiheuttaa sen, että pelituloksia tarvitaan moninkertainen määrä! Onko tätä vaikutusta arvioitu/laskettu?!?)
  • Mikä on oletettu luokituksen sisäinen vahvuushajonta? (ELO olettaa normaaliutta, joka asettaa GOR <-> luokitus -muunnokselle melkoisen määrän oletuksia, josta ensimmäistäkään en ole nähnyt tutkitun saati oikeaksi osoitetun.)
  • Miten huomioidaan maiden ja mahdollisesti turnaustenkin väliset systemaattiset erot?
  • Onko asiasta tehty minkäänlaista virhemallia saati luotettavuusanalyysiä?

Kaikki ovat sellaisia, että ellei niitä ole huomioitu, ne vaikuttavat tulosten virhealttiutta lisäävästi -- paitsi viimeinen joka kertoo ettei asiaa ole edes ajateltu. Virhealttius kasvaa jopa siinä määrin, että pelejä tarvitaan moninkertainen aineisto että päästään samalle uskottavuustasolle. Silloin ero saattaa olla noin 10 pelistä -> 100 peliä, joten mainitut laskennalliset luvut, vaikkeivät sinänsä vääriä olekaan, ovat vain yhden mallin antamia laskennallisia lukuja, ja niiden oikeana pitäminen on vähintäänkin epäilyttävää. Näin niiden luonne on lähinnä suuntaa-antava tyyliin "kiinnitäs huomiota tähän," sen sijaan käyttö (varmana) korotusindikaattorina on huomattavan suurella tödennäköisyydellä väärin.

Mainittakoon että en myöskään ole nähnyt Cieplyltä minkäänlaista tekstiä joka indikoisi että hän on kiinnittänyt huomiota näihin. ELO-malli ei sinänsä ole väärä, mutta esmes jo sen sitominen dan/kyu -luokituksiin sekä näistä johtuvaan kivi/pykälä tasoeroihin perustuu tietääkseni Stetson-Harrison -analyysiin. (Huom. tiedän kyllä että on tehty joitakin ML-analyyseja EGF-aineistoista luokitus<->tulos, mutta tietääkseni analyyseja GORrin osalta ei.)

-- DonOlli, 28.2.

Osittain vastauksena esittämäsikaltaiselle kritiikille lisäsin ohjelmaan alunperin toisen moodin, joka käyttää voittoprosentteina toteutuneita tuloksia EGF:n turnauksista eikä näin ollen tee oletusta todellisesta vahvuudesta. Se siis ottaa mukaan "virheellisesti" luokitetut pelaajat, koska he ovat mukana tilastoissa. Ko. moodi antaa kuitenkin hieman hassuja käyriä, koska ekstrapoloin voittoprosentit aika karulla tavalla datan puuttuessa yli neljän kiven luokituseroille. Vastustajista on vaikea olettaa muuta kuin heidän luokituksensa tai GOR:nsa tällaisessa automaatissa ja maakohtaisia eroja jne. on hankala ottaa mukaan eikä mielestäni välttämättä pitäisikään. Väittämäsi kymmenestä pelistä sataan ei ole oikein, koska esim. normaalijakautuneet virheet kumoavat aika nopeasti toisensa, sillä virheitä tulee molempiin suuntiin. Ohjelmalla on myös suhteellisen helppo tehdä virheanalyysiä käsin kokeilemalla muuttaa luokituksia.

En yritä väittää, että yksinkertainen laskennallinen malli antaisi tarkempia tuloksia kuin ahkera, valistunut ja puolueeton luokittaja. Onko tällaisia olemassa ja mistä heidät tunnistaa onkin sitten vaikeampi juttu.

-- Kari 28.2.

Puuttuvan tiedon ekstrapolointi on aina ongelma, ja kieltämättä tilastollisia asioita tarkemmin tuntemattomat näkevät sekavana sen, että puuttuva data esitetään todellakin puuttuvana. Silti ekstrapolointi on yksi hatusta vedetty olettama lisää.

"Virheellisesti" luokitetut pelaajat ovat erityisen hankalia sen takia, että he (outliereina) aiheuttavat huomattavasti isommat virheet kaikkiin tilastollisiin mittareihin ja suureisiin kuin muut; olettaessasi normaalijakaumaa, näiden vääntövoima on suuri. Melkein poikkeuksetta yhden vahvasti jakauma-olettamaa vastaan olevan datapisteen kompensointiin vaaditaan suurikin määrä olettamaa noudattavia. Tähän perustuu se, että väitettyihin prosenttilukuihin luotettavasti pääsemiseksi tarvitaan moninkertainen, pahimmillaan monikymmenkertainen aineisto. Siispä väläyttämäni virheen kasvu (10x) ei välttämättä ole väärä, vaikka sitä oletettuun normaalijakaumaan nojautuen sellaiseksi väitätkin.

Jälleen siis perustelet normaalijakautuneella aineistolla, ja on kehäpäätelmä perustella aineiston normaaliutta sen normaaliudella. Tämä on kuitenkin hatusta vedetty olettama, joka analyysissasi pitäisi näyttää toteen aivan ensimmäiseksi, jos aiot mitään asiasta väittää. On jopa olemassa tilastollisia testejä jolla sitä voi tutkia. Jakauman tuntemattomuus tarkoittaa että suuri osa ns. parametrisista menetelmistä on hyvin epäilyttäviä, ja niiden käyttö sokkona saa aikaan juurikin niitä tilastoja, jotka valehtelevat enemmän kuin kymmenen tuhatta sanaa.

Kerran vielä: sinäkään et tiedä kuinka epätarkkoja lukusi ovat, ja niiden esittäminen tarkkoina on erittäin väärin -- ihmiset voivat jopa uskoa niitä. Esmes 6% ennustettu tappioprosentti shodanille, sehän saattaa sopivalla aineistolla hyvinkin olla vaikkapa (1%,55%) joka on huomattava hajonta. Kieltämättä laskurisi sana "laskennallinen" kiertää tätä, mutta joka tapauksessa luvuissa on mahdollisesti hyvinkin suuri määrä suuria mutta tuntemattomia virheitä. Nämä virheet heijastuvat sitten siten, että uskottaviin lukuihin tarvitaan moninkertainen määrä pelejä.

Summa summarum: TTgoKin tilastohärveli antaa laskennallisia lukuja, ja vaikkeivät ne sinänsä vääriä olekaan, ovat vain yhden mallin antamia laskennallisia lukuja, ja niiden oikeana pitäminen on vähintäänkin epäilyttävää.

-- DonOlli, 1.3.

Olisi myös joskus mielenkiintoista tutkia ihmisluokittajien ajatusketjuja, jotka johtavat luokituspäätöksiin. Myös niissä voi tapahtua suuria virheitä. Jos luokittaminen perustuu dokumentoimattomaan mutu-analyysiin, ei pelaajille jää muuta kuin usko aikaisemmin vahvoiksi luokitettujen moraaliseen ja älylliseen ylivertaisuuteen.

-- Kari 1.3.

Add new attachment

Only authorized users are allowed to upload new attachments.
« This particular version was published on 01-Mar-2007 13:06 by Antti Holappa.