Dokumentoin tässä TTgoK:n luokitushärvelin toiminnan (olen muistaakseni myös laittanut sorsatkin jakeluun, eli ohjelman oikeellisuuden voi sitten tarkistaa niistä): Oletetaan, että pelaajat ovat mustia laatikoita, joihin on sisällytetty ominaisuus ”pelaajan pelitasoa vastaava luokitus”. Mikäli pelaajat A ja B pelaavat keskenään ja käyttäjä käyttää pullauttimen toimintoa ”EGF:n laskennallinen voittoprosentti”, oletetaan, että pelaaja A voittaa B:n todennäköisyydellä, jota käytetään EGF:n GOR-mallissa (http://gemma.ujf.cas.cz/~cieply/GO/gor.html) kun A:n ja B: luokituksilla varustetut pelaajat kohtaavat. Oletetaan myös, että satunnaisesti valitussa populaatiossa kaikki luokitukset ovat yhtä todennäköisiä (tämä ei pidä paikkaansa, mutta ohjelman voisi suhteellisen helposti korjata käyttämään esim. tämän hetkistä luokitusjakaumaa). Kun nyt pullauttimelle annetaan pelaajan X tulosrivi, jonka ajatellaan syntyneen edelläkuvatun kaltaisten mustien laatikoiden välisten pelien lopputuloksena ja oletetaan että X:n vastustajien luokitukset ovat tiedossa, niin pullautin palauttaa likelihood-funktion estimoitavalle parametrille, joka on pelaajan X luokitus (tuntematon, toisin sanoen tulosrivin ajatellaan olevan otos jakaumasta, jonka parametri X:n luokitus on). Näissäkin keskusteluissa usein mainittu maximum likelihood tarkoittaa ko. likelihood-funktion maksimia.
Jesse, Suomesta löytyy pelaajia, jotka ovat saaneet odottaa dan-korotustaan pisteeseen, jossa sen virhemarginaali on promilleluokassa. Sinun korottamattomuutesi ei ole vielä mitenkään poikkeuksellista, koska tulosrivisisihän antaa vielä esim. 6% mahdollisuuden, että olet 1 dan ko. mallilla.
-- Kari 26.2.2007
Tuossa Karin mallissa oletetaan, että sekä pelaajalla että hänen vastustajillaan oli heidän nimellistä luokitustaan vastaava GoR, kun valitaan "laskennallinen voitto%". Siitä eteenpäin kussakin pelissä voittamistodennäköisyyksien laskenta tehdään täsmälleen GoR-mallin mukaisella tavalla.
-- Markku, 27.2. 2007
Muutama pikainen kommentti (vaikka tämä muualle kuuluisikin.)
- Miten perustellaan vastustajan vahvuustiedon analysoimattomuus? (Pelkkä nominaali(!)luokitus aiheuttaa sen, että pelituloksia tarvitaan moninkertainen määrä! Onko tätä vaikutusta arvioitu/laskettu?!?)
- Mikä on oletettu luokituksen sisäinen vahvuushajonta? (ELO olettaa normaaliutta, joka asettaa GOR <-> luokitus -muunnokselle melkoisen määrän oletuksia, josta ensimmäistäkään en ole nähnyt tutkitun saati oikeaksi osoitetun.)
- Miten huomioidaan maiden ja mahdollisesti turnaustenkin väliset systemaattiset erot?
- Onko asiasta tehty minkäänlaista virhemallia saati luotettavuusanalyysiä?
Kaikki ovat sellaisia, että ellei niitä ole huomioitu, ne vaikuttavat tulosten virhealttiutta lisäävästi -- paitsi viimeinen joka kertoo ettei asiaa ole edes ajateltu. Virhealttius kasvaa jopa siinä määrin, että pelejä tarvitaan moninkertainen aineisto että päästään samalle uskottavuustasolle. Silloin ero saattaa olla noin 10 pelistä -> 100 peliä, joten mainitut laskennalliset luvut, vaikkeivät sinänsä vääriä olekaan, ovat vain yhden mallin antamia laskennallisia lukuja, ja niiden oikeana pitäminen on vähintäänkin epäilyttävää. Näin niiden luonne on lähinnä suuntaa-antava tyyliin "kiinnitäs huomiota tähän," sen sijaan käyttö (varmana) korotusindikaattorina on huomattavan suurella tödennäköisyydellä väärin.
Mainittakoon että en myöskään ole nähnyt Cieplyltä minkäänlaista tekstiä joka indikoisi että hän on kiinnittänyt huomiota näihin. ELO-malli ei sinänsä ole väärä, mutta esmes jo sen sitominen dan/kyu -luokituksiin sekä näistä johtuvaan kivi/pykälä tasoeroihin perustuu tietääkseni Stetson-Harrison -analyysiin. (Huom. tiedän kyllä että on tehty joitakin ML-analyyseja EGF-aineistoista luokitus<->tulos, mutta tietääkseni analyyseja GORrin osalta ei.)
-- DonOlli, 28.2.
Osittain vastauksena esittämäsikaltaiselle kritiikille lisäsin ohjelmaan alunperin toisen moodin, joka käyttää voittoprosentteina toteutuneita tuloksia EGF:n turnauksista eikä näin ollen tee oletusta todellisesta vahvuudesta. Se siis ottaa mukaan "virheellisesti" luokitetut pelaajat, koska he ovat mukana tilastoissa. Ko. moodi antaa kuitenkin hieman hassuja käyriä, koska ekstrapoloin voittoprosentit aika karulla tavalla datan puuttuessa yli neljän kiven luokituseroille. Vastustajista on vaikea olettaa muuta kuin heidän luokituksensa tai GOR:nsa tällaisessa automaatissa ja maakohtaisia eroja jne. on hankala ottaa mukaan eikä mielestäni välttämättä pitäisikään. Väittämäsi kymmenestä pelistä sataan ei ole oikein, koska esim. normaalijakautuneet virheet kumoavat aika nopeasti toisensa, sillä virheitä tulee molempiin suuntiin. Ohjelmalla on myös suhteellisen helppo tehdä virheanalyysiä käsin kokeilemalla muuttaa luokituksia.
En yritä väittää, että yksinkertainen laskennallinen malli antaisi tarkempia tuloksia kuin ahkera, valistunut ja puolueeton luokittaja. Onko tällaisia olemassa ja mistä heidät tunnistaa onkin sitten vaikeampi juttu.
-- Kari 28.2.
Puuttuvan tiedon ekstrapolointi on aina ongelma, ja kieltämättä tilastollisia asioita tarkemmin tuntemattomat näkevät sekavana sen, että puuttuva data esitetään todellakin puuttuvana. Silti ekstrapolointi on yksi hatusta vedetty olettama lisää.
"Virheellisesti" luokitetut pelaajat ovat erityisen hankalia sen takia, että he (outliereina) aiheuttavat huomattavasti isommat virheet kaikkiin tilastollisiin mittareihin ja suureisiin kuin muut; olettaessasi normaalijakaumaa, näiden vääntövoima on suuri. Melkein poikkeuksetta yhden vahvasti jakauma-olettamaa vastaan olevan datapisteen kompensointiin vaaditaan suurikin määrä olettamaa noudattavia. Tähän perustuu se, että väitettyihin prosenttilukuihin luotettavasti pääsemiseksi tarvitaan moninkertainen, pahimmillaan monikymmenkertainen aineisto. Siispä väläyttämäni virheen kasvu (10x) ei välttämättä ole väärä, vaikka sitä oletettuun normaalijakaumaan nojautuen sellaiseksi väitätkin.
Jälleen siis perustelet normaalijakautuneella aineistolla, ja on kehäpäätelmä perustella aineiston normaaliutta sen normaaliudella. Tämä on kuitenkin hatusta vedetty olettama, joka analyysissasi pitäisi näyttää toteen aivan ensimmäiseksi, jos aiot mitään asiasta väittää. On jopa olemassa tilastollisia testejä jolla sitä voi tutkia. Jakauman tuntemattomuus tarkoittaa että suuri osa ns. parametrisista menetelmistä on hyvin epäilyttäviä, ja niiden käyttö sokkona saa aikaan juurikin niitä tilastoja, jotka valehtelevat enemmän kuin kymmenen tuhatta sanaa.
Kerran vielä: sinäkään et tiedä kuinka epätarkkoja lukusi ovat, ja niiden esittäminen tarkkoina on erittäin väärin -- ihmiset voivat jopa uskoa niitä. Esmes 6% ennustettu tappioprosentti shodanille, sehän saattaa sopivalla aineistolla hyvinkin olla vaikkapa (1%,55%) joka on huomattava hajonta. Kieltämättä laskurisi sana "laskennallinen" kiertää tätä, mutta joka tapauksessa luvuissa on mahdollisesti hyvinkin suuri määrä suuria mutta tuntemattomia virheitä. Nämä virheet heijastuvat sitten siten, että uskottaviin lukuihin tarvitaan moninkertainen määrä pelejä.
Summa summarum: TTgoKin tilastohärveli antaa laskennallisia lukuja, ja vaikkeivät ne sinänsä vääriä olekaan, ovat vain yhden mallin antamia laskennallisia lukuja, ja niiden oikeana pitäminen on vähintäänkin epäilyttävää.
-- DonOlli, 1.3.
Olisi myös joskus mielenkiintoista tutkia ihmisluokittajien ajatusketjuja, jotka johtavat luokituspäätöksiin. Myös niissä voi tapahtua suuria virheitä. Jos luokittaminen perustuu dokumentoimattomaan mutu-analyysiin, ei pelaajille jää muuta kuin usko aikaisemmin vahvoiksi luokitettujen moraaliseen ja älylliseen ylivertaisuuteen.
-- Kari 1.3.
Tähän mennessä on selvä, että on konservatiivisia luokittajia, jotka eivät halua perustella tarkkaan tekemisiään, koska tätä tietoa voisi käyttää "korotusautomaattina". Sitten on luokittajia, jotka perustelevat asioita tietyn mallin tuloksella (ja edelliset vastustavat tätä "automaattina").
Jos nyt puretaan luokittaminen perusosiin, niin käsittääkseni korotuksia annetaan, kun voittaa hyvässä turnauksessa 4/5, 5/6, 7/10 (tai enemmän). Kyu-tasolla riittää yksikin turnaus, dan-tasolla tarvitaan yleensä hyvä pohjamenestys, jonka päälle mielellään yksi onnistunut turnaus.
Ongelmana on siis pelaajat, jotka menestyvät pitkään tasaisesti, mutta eivät koskaan saa parempaa kuin 3/5 (samantasoisilla vastustajilla). Jos jostain pitää keskustella, niin minun mielestäni heistä.
-- dantti-san 1.3.
Keskustellaanpa tosiaankin luokittajien päänsisäisestä toiminnasta. Kuinkahan suuret virhemahdollisuudet mahtavat piiloutua sellaisten korotusperusteita kuvaavien ilmausten alle, kuten "sattui huvittamaan".
-- Markku, 1.3.
- Pitäisin tuollaisia kommentteja lähinnä vitseinä, tosin huonoina sellaisina: niillä vahvistetaan käsitystä vahvempien pelaajien yli(mieli)vallasta heikompiin pelaajiin nähden luokitusasioissa ja ehkä muutenkin. -- JaakkoSärelä, 1.3.
Tässä kirjoittamani pitkä teksti joka meinasi hukkua ihmisten pikakommentteihin:
Silloin kun luokituskomitea vielä oli, käytin tuollaista "sokko"analyysia juurikin huomion herättävänä tekijänä, eli perusteluna tarkempiin tarkasteluihin. Sitä varten siis riitti numeerinen turnaustulostulos (n/m,) vastustajien nimellisvahvuudet (esmes voitti 3 luokitusta vahvemman,) tai pitkän ajan menestys -- nämä taitavat olla juuri sama mitä tilastohärvelistäsi saadaan, ja silloin joskus tuo härveli olisi ollut huomattavan arvokas apu olettaen että sen saisi automaatisoitua ilmoittamaan että katso tätä pelaajaa. Jos korotus ei ollut itsestään selvä, tyyliin 1 dan menee ja voittaa 5/5 joukossa (tunnetut) 4d, 5d ja 6d, tein tarkemman tarkastelun. Siinä huomioin vastustajat, heidän GORrinsa (siihen aikaan kun GOR jo oli käytettävissä,) heidän menestyksensä tässä turnauksessa, ja aina myös korotuskandidaatin pitempiaikaisen turnausmenestyksen (tämän vielä paljon enemmän Puawon pullauttimen saatuani kun siinä ei ollut niin valtaisa työ,) ja päälle muut mahdolliset pitemmän ajan menestykseen vaikuttavat tekijät, tosin ei kuitenkaan välttämättä tässä järjestyksessä. Lisäksi, kun vastustajia kerran syynäsin, huomion mahdolliset vastustajien kansallisuudet (esmes romanialaiset olivat yhdessä vaiheessa systemaattisesti selvästi yli kiven nimellisvahvuutta vahvempia) sekä erilaisista taskuuntumista tietämäni asiat (esmes Pogo ja Oulu olivat ainakin aikoinaan vahvasti taskuuntuneita.) Jos pidin toteen näytettynä että pelaaja on tasoa jolla korotus tulee antaa, niin järjestin asian tai valtuuksien puuttuessa esitin korotusta jollekin toiselle jäsenelle. Jos olin epävarma, tein aina lisää tutkimusta, kysyin joltain muulta jäseneltä vahvistusta, tai jätin asian lepäämään kunnes saadaan lisänäyttöä. Homma ei ollut aivan pieni, jos korotus ei ollut täysin itsestään selvä.
Yllä nähdään että ainakin itse tein melkoisen usein juuri sen analyysityön vastustajista, jonka härvelisi jättää tekemättä. Matemaattisia lukuja siitä tarkemmasta analyysista tai muiden huomioon ottamieni seikkojen tarkkaa vaikutusta on tietty näin jälkeen päin varsin vaikea saada selville. Ja olisi ollut varsin iso homma pitää kirjaa päätökseen vaikuttavista vaiheista sekä luvuista joita arvioin tai laskin, ja analysoida ne. En ole ollenkaan varma että se olisi ollut fiksua, koska se olisi selvästi rajoittanut itse korotuksia. Tämä sen lisäksi ettei päätöstä kuvaavien lukujen analysointiin kuluva työ/aika ainakaan minua olisi kiinnostanut.
Mutta virheitä tulee ihmiselle aina, tekevälle sattuu. Ainoastaan sillä voi välttää virheet ettei mitään tee, on tosin hyvä kysymys että onko tekemättä jätttäminen sittenkin se kaikkein suurin virhe. Korotuksissa on toki mahdollista yrittää korjata virheitä myöhemmin mahdollisuuksien mukaan, paitsi että korotuksen takaisin ottaminen ei liene erityisen mahdollista. Paras yritys on juurikin sitä, se ei ole mikään automaatti joka aina antaa (satunnaisen henkilön mielestä) järkeviä tuloksia. Mutta on toisaalta hyvä kysymys että onko myöskään varsin vaillinaiseksi tiedetty härveli jotenkin parempi kuin ihmisen tekemä huolellinen mutta vihealtis analyysi.
Jessen mahdollisen korotuksen aiheellisuuteen en sinänsä halua puuttua, en ole hänen osaltaan tehnyt yllämainittua työtä. Eikä meikäläisellä sitä paitsi enään ole velvollisuutta saati erityistä valtaa vaikuttaa asiaan, ainakaan sen suuremmalti kuin satunnaisella muulla 3 danilla. Tämä sen lisäksi että esmes Puawon pullautin on ainakin omalta osaltani hukkunut jonnekin, eli käytettävissäni ei edes ole kaikkia niitä välineitä jotka katson tarpeellisiksi.
-- DonOlli, 1.3.
Turnausdataa löytyy Paavon pulautinta paljon paremmin saatavana ja järjestettynä European Go Databasesta. Kaikkein ajantasaisimmat GoRit löytyy EGF Official ratings sivulta linkin "Database of European players" takaa. Juuri nyt viimeisimmät luvut noin viikon vanhat.
-- Markku, 1.3.
Muuten, maakohtaisia eroja luokitusten kovuudessa on vaikeampi osoittaa turnaustulosten perusteella kuin asiaa tutkimatta voisi arvata. Laskin viimeisen parin vuoden ajalta suoritusvahvuuslukuja (=GoR, joka ei muuttuisi turnaussuorituksen tuloksena), merkittäköön ao. suuretta PGoR, eri maalaisille pelaajille muissa kuin heidän kotimaissaan pelatuissa turnauksissa. Vertasin heidän suoritusvahvuuslukujaan heidän turnauksia edeltäneisiin vahvuuslukuihinsa, merkittäköön EGoR.
Keskiarvoissa suureelle PGoR-EGoR laskettuna eri maiden sisällä yllätyksiä ei kauheasti ollut. (Suomalaiset pelasivat keskimäärin hieman alle 50 pistettä lähtötasoaan korkeammalla tasolla, ja suomalaiset, joilla oli yli 2000 lähtöpistettä, noin 90 pistettä lähtötasoaan korkeammalla tasolla). Mutta keskihajonnat yksilöllisissä turnaussuorituksissa maiden sisällä olivat hyvin suuria, tyypillisesti noin 100-200 pistettä. Suurin osa tuosta hajonnasta lienee ihan normaalia vaihtelua turnaussuorituksissa eikä liity mitenkään siihen, että turnaukset pelattiin ulkomailla. (Vaihteluväli oli vieläkin suurempi.)
Silti aineistosta näkyy aivan selvästi, ettei ole juuri mitään perusteita ottaa muutaman turnauksen perusteella annettavaa korotusta harkittaessa huomioon yksittäisen vastustajan kansallisuutta. Keskimäärin muita maita heikommin ulkomailla pärjäävästä maasta kotoisin oleva voi aivan hyvin pelata hyvän turnauksen tai vahvemmasta maasta tuleva voi pelata heikon turnauksen - melko todennäköisesti näin käykin.
-- Markku, 1.3. 2007
Muille maille nykyään varmastikin, mutta mitenkä japanilaiset?
-- dantti-san
Ei-eurooppalaisten tuloksia en ollut laskenutkaan aiemmin. Tässä japanilaisille, korealaisille ja kiinalaisille:
Aikaväli: '2005-01-01' -> '2007-01-02', alin GoR: '0', ylin GoR: '3000'
Maa: 'JP': keskiarvo: -160, keskihajonta: 185, n=324
Maa: 'CN': keskiarvo: 18, keskihajonta: 122, n=47
Maa: 'KR': keskiarvo: -57, keskihajonta: 151, n=186
-- Markku, 1.3. 2007
Nämä lukemat ilmeisesti tukevat väitettä, että japanilaisille vastustajille kannattaa tehdä kiven verran korjausta? Hajontahan syntyy siitä, että kaikki japanilaiset eivät ole pelanneet tarpeeksi monta turnausta. :-p
-- dantti-san