Edellinen osa: Luokituskeskustelu II.
Mutuun luottaminen luokituksissa yleisenä asiana sinänsä, luotettavan aineiston puutteessa on hyvin hankala käyttää muutakaan. Enkä minä ainakaan ole vielä nähnyt ensimmäistäkään realistista syytä uskoa että muusta kuin turnaustuloksista olisi saatavissa luotettavaa materiaalia.
Erityisenä ongelmana ovat materiaalin vertailukelpoisuus (turnaukset vastaan muu data) ja pelaajien luokitusten muutokset ajan funktiona. Vertailukelpoisuusvaatimuksen pitäisi olla itsestään selvyys, mutta niin kauan kuin aikatekijä jätetään huomiotta -- ja se pitää huomioida kaikin osin joka osa-aineistossa -- meikäläinen pitää materiaalia riittävän epäluotettavana ettei siitä olisi kuin viitteiksi.
Lisäviitteitä taas ei erityisesti tarvita, koska turnaustulokset itse antavat runsaasti viitteitä siihen, että ketä pitää tarkkailla. Saattaa hämmästyttää asiaa tuntemattomia, mutta vastustaja-analyysi ja tulosanalyysi useamman turnauksen yli ovat rutiinitoimenpiteitä luokituskomitean arvioidessa korotustarpeita, erityisesti vahvimpien pelaajien oslta. Ja ovat olleet sitä jo vuosikausia.
Sinänsä kehottaisin Markkua varovaisuuteen, kun tutkaillaan eri turnausten parituksia, ja erityisesti Takapotkun kanssa. Nykypäivänä kaikki turnaukset joita meikäläinen parittaa sisältävät ainakin joitakin kommervenkkejä ja käsiparituksia, joiden takoitus on joko paritusten optimointi samanlaisia turnauksia silmällä pitäen tai jonkun muun sekundääripäämäärän saavuttaminen kuten esimerkiksi luokitusdatan maksimointi. Näitä en ole kuitenkaan koskaan tullut dokumentoineeksi, eikä niistä juuri tule julkisesti kerrottuakaan. Tosiasia kuitenkin on, että meikäläinen on tyypillisesti virittänyt paritusta hieman, etenkin kun en oikein pidä Gerlachin ohjelmaansa koodamista piilopäämääristä. Täynnee vielä huomauttaa, että nämä peukaloidut paritukset eivät yleensä huononna paritusta sinänsä, vaan pikemminkin tarpeen osuessa meikäläinen yliajaa Gerlachin piilopäämäärät joiltain osin omillaan.
Samoin olisin Markkuna varovainen yleistämään EGC:n voittotodennäköisyystaulukkoa, joka toki on sekä luotettava että tilastollisesti vahva aineisto, koska on tuntematonta että kuinka realistisia ovat pelaajien luokitukset heidän tullessaan turnaukseen. Outlierien määrän ollessa tuntematon, erityisesti aineiston rajatapauksista (isot luokituserot peleissä) tehdyt väitteet ovat hyvin riskialttiita.
Toki on huomattava että ainakin kaksi markun arvauksista/väitteistä osui oikeaan: Petri on ollut pitkään pelaamatta, ja että korotusten selvittäminen kiireellä huonontaa tuloksia, erityisesti koska/jos/kun turnauspaikalla ei ole käytettävissä turnaustuloshistoriaa (esmes Internet-yhteyttä.) Itse asiassa ei ollut ollenkaan hullumpi asia etten PoGo Openissa julistanut korotuksia paikan päällä, vaan ne löytyivät vasta tänne viedystä tuloslistasta.
Huomautan vielä, että katson aiemman väitteeni tasoitusturnausten luokitusmateriaalia huonontavasta luonteesta oikeaksi ja PoGo Openin sekä Jaakko Munkin vahvistamiksi -- mutten vielä suinkaan toteen näytetyksi. Esmes PoGo Openissa kahden kiven alitasoitus teki 50% peleistä luokitusmateriaaliksi kelpaamatonta, koska olivat valkeina alitasoituksella pelattuja. Kaiva siitä nyt sitten jotain, kun pelaajat pelasivat pääsääntöisesti 3-4 peliä joilla oli jotain väliä tältä kannalta. Asia tietty heijastui korotusten määrään ja suuruuksiin.
-- DonOlli, 7.4.
Olet varmaankin oikeassa siinä, että suurten (neljä kiveä?) luokituserojen peleistä tehdyt niissä voittamisen todennäköisyyteen perustuvat päätelmät sisältävät virhelähteenään sen, että EGF:n voittamistodennäköisyystilastoissa on saattaa olla poikkeavilla yksittäistapauksilla (outlyerit) liikaa vaikutusta. Toisaalta yli neljän kiven luokituseroilla voittamistodennäköisyysdataa ei ole edes EGF:n tilastoissa annettu.
Mielestäni ei kannata kantaa liikaa huolta siitä, ovatko vastustajien luokitukset oikeita vaiko eivät. Luokituksien sisällä on joka tapauksessa jonkin verran vaihtelua. Jos ne asetetaan voimakkaasti kyseenalaiseksi, tullaan samalla asettaneeksi voimakkaasti kyseenalaiseksi metodi, jolla ne on annettu - tässä tapauksessa mutu-menetelmä itse.
Jos kerran vastustaja analyysi on nykyään rutiinitoimenpide turnaustuloksia tarkasteltaessa sekä juuri päättyneen että menneiden, samalla luokituksella pelattujen turnausten osalta, olisi vähintäänkin kohtuullista valottaa kuinka se tehdään.
Mitä mutuun yleensä ottaen tulee, olisi äärimmäisen mielenkiintoista tietää, kuinka luotettavaa mutu itsessään on. On totta, että hyvin pienillä aineistoilla mutulla ei ole vaihtoehtoja, mutta kysymys on olennainen päätettäessä, mikä on optimaalinen tasapaino mutun ja laskennallisten menetelmien välillä minkäkinlaisissa olosuhteissa.
Yksi näkökohta, joka puoltaa laskennallisten menetelmien käytön varhaisempaa käyttöönottoa, on puolueettomuus. Ihmisluokittajat tekevät inhimillisiä virheitä.
-- Markku Jantunen, 7.4. 2003
No meikäläisen arvio perustuu aina siihen, että onko pelaaja osoittanut pelaavansa sillä tasolla johon olisin korottamassa. Tarkka voittoprosentti eritasoisia vastustajia vastaan on tietty epämääräinen, koska sitä ei kukaan oikeasti tiedä. Ja se tietty riippuu myös siitä että minkätasoista palaajaa arvioin.
Mainittakoon että siitä, kuinka paljon on yhden pykälän ero voittoprosenttina, liikkuu hyvin monenlaisia teorioita. Esmes EGC:n tulokset antavat yhden, Elo-systeemi antaa 67% (normaalijakauma) ja AGA:n Bayesilainen malli muistaakseni peräti 87%. Ja WAGC antaa epäilemättä kokonaan oman lukunsa. Yritä siinä sitten tietää asia kuinka asia oikeasti on. WAGC:n tai EGC:n pelaaja-aineisto saattaa hyvin olla normaalista pelaajapopulaatiosta poikkeava ("ketkä siellä käyvät? edustavatko he tavallisia pelaajia?",) ja sekä Elon että Matthewsin sinänsä oikeelliset matemaattiset mallit ovat vieläkin tässä yhteydessä oikeaksi todistamttamattomia. Asian tutkiminen matemaattisesti saattaisi antaa edes jotain arvoa sille, että mihin pitäisi luottaa, nykyisellään on ihan turha edes yrittää.
Mutun luotettavuuden tutkimiseksi voidaan kuitenkin seurata suomalaispelaajien menestystä EGC:ssä, joka kuitenkin on ehkä kaikkein tärkein mittari. Jos pelaajat siellä voittavat yleensä 8/10 tai enemmän, on jo vahva syy huolestua. 6/10 taas on täysin normaalia, ja 7/10 rajatapaus (mahtunee normaalijakauman virherajoihin, ellei aineisto ole suuri!) Tähän mennessä ei ole nähty todisteita siitä, että suomalaiset olisivat pärjänneet merkittävästi ulkomaalaisia paremmin.
Numeeristen työkalujen käyttöä haittaa siis se, ettei tiedetä mitä ne kertovat. Kaikilla luokituskomitean jäsenillä on erittäin huonoja kokemuksia numeeristen systeemien toimivuudesta. Näin ollen luotetaan siis ihmisten arvioihin. Tarvittaessa sitten konsultoidaan muita, tai jopa äänestetään. Niin kauan kuin kaikilla on halu hoitaa asia hyvin, kuten asia on tähän saakka ollut, erityisiä ongelmia ei tunnu esiintyvän.
Yhtä kaikki, itse ainakin pidän Paavon tulospulautinta erinomaisen arvokkaana välineenä turnausten analyysiin; kaikki mikä säästää vaivaa on pop. Se ei kuitenkaan osaa arvioida eri vastustajien päänahka-arvoja -- nimiä mainitsematta -- joten ei se mikään autuaaksitekevä ole. Tämä puoli kuitenkin asiaa tuntuu ainakin teikäläiseltä joka käänteessä unohtuvan.
Mainittkoon kuitenkin että luokituskomitealla on päämääränä pitää Suomen luokitus hyvällä eurooppalaisella tasolla. Maita joiden tasolle ei haluta vajota on vaikea nimetä, katsoen pikaisesti viime EGC:n tuloksia näyttää siltä että vaikkapa Itävalta ja Unkari kelpaisivat, mutta niin kauan kun ei Romaniaa ja Hollantia ohiteta ollaan kuitenkin vielä selvillä vesillä. Pohjoismaat eivät siis välttämättä ole se referenssitaso mitä haetaan.
Ja tähän täynnee meikäläisen lopettaa tilasto-opetus, todeten että ellet vieläkään hahmota luotettavuudeltaan tuntemattomaan aineistoon perustumisen ongelmallisuuksia, en varmaankaan pysty sitä teikäläiselle tänä keväänä tämän paremmin kertomaankaan.
-- DonOlli
Olen samoilla linjoilla siinä, että itsekin arvioin, onko pelaaja kykenevä pelaamaan tasolla, jolle olisin korottamassa. Minua kiinnostaisi tietää, miten sinä ja muut päättelevät turnaustuloksista, että pelaaja kykenee pelaamaan jollakin tasolla. (Yksinkertaisuuden vuoksi voitaneen tässä olettaa, että vastustajien päänahka-arvot on arvioitu jo.)
On muuten aika hassua puhua yhden pykälän merkityksestä voittamistodennäköisyyksien kannalta ikäänkuin kyseessä olisi luonnontieteellinen tosiseikka, jonka "todellinen" arvo voitaisiin selvittää tilastollisella tutkimuksella. Todellisuudessa yhden pykälän merkitys voittamistodennäköisyyksien kannalta on mielivaltainen (samalla tavalla kuin konventio jakaa vuorokausi 24 tuntiin) ja yleensä ääneenlausumaton sopimus.
Jos tarkoitus on pitää suomalaiset luokitukset eurooppalaisia vastaavina, kuten itse sanoit, en tiedä parempaakaan referenssiä kuin mainitsemani EGF:n voittamistodennäköisyystilasto. Sen lähdemateriaalina on valtaenemmistö kaikista Euroopassa pelatuista turnauksista vuoden 1996 alusta lähtien, ei siis vain Euroopan go kongresseista (EGC). Nuo voittamistodennäköisyydet kertovat, mitä luokitukset de facto tarkoittavat Euroopassa. En tiedä, miten WAGC (amatöörien MM-kisat) AGA (USA:n go-liitto tähän kuuluvat.
Lähtökohta, että merkittävällä osalla pelaajapopulaatiosta pelaajien päänahka-arvot poikkeavat merkittävästi heidän virallisista luokituksistaan, aiheuttaa mielenkiintoisia ongelmia muutenkin kuin siten, että se hyväksyttynä johtaa päätelmään, että luokitustoiminta on epäonnistutta. Miten päänahka-arvot arvioidaan? Turnaustuloksistako? Siis samaan tapaan kuin viralliset luokitukset?
Jos ne arvioidaan samaan tapaan kuin viralliset luokitukset, sinun mukaasi tässäkin tulee käyttää ensisijaisena lähteenä turnaustuloksia, koska sanoit, ettet tiedä "ainuttakaan realistista syytä että muusta kuin turnaustuloksista olisi saatavissa luotettavaa materiaalia". Pysäytetäänkö päänahka-analyysi tähän vai mennäänkö rekursiivisesti vieläkin syvemmälle? Tietysti rekursiossa tulee pohja vastaan, jos ei tarkastella juuri päättynyttä turnausta. Silloin rekursion pohjana ovat Suomen ensimmäiset luokitukset. (Ilmeisesti ulkomaalaisten luokitukset otetaan sellaisinaan?) Mistä tiedetään, että ne olivat kohdallaan?
Perusteellista päänahka-analyysiä ei tee nykypäivästä 70-luvun lopulle päässälaskuna Sademieskään, joten joko rekursio pysäytetään johonkin jollain perusteilla valittuun ajanhetkeen tai sitten siitä on olemassa laskelmia.
-- Markku Jantunen, 7.4. 2003
Kun pelaajia korotetaan, mutta ei alenneta, tulee väistämättä tapauksia, joissa pelaaja päätyy liian korkealle. Jos ilmiötä ei tunnusteta, niin siinä on kylvetty inflaation siemen. Tämän ilmiön olemassaolo ei riipu korotusmekanismista. Argumenttisi, että menetelmä X (mutu) ei toimi, koska kaikkia sen tuottamia luokituksia ei myöhemmin voi käyttää referenssinä, on sama, oli menetelmä mikä tahansa.
-- Matti_Siivola 8.4.2003
Argumenttini oli, että jos merkittävä osa pelaajista on merkittävästi luokituksistaan poikkeavia pelitaidoiltaan, systeemi on epäonnistunut ja kaipaa ainakin jossain määrin säätämistä. Jos tällaisten tapauksien vaikutus populaatiossa ei merkittävästi erotu normaalista satunnaisvaihtelusta, päänahka-analyyseihin ei ole syytä kuin poikkeuksellisissa tapauksissa. Mikään rutiininomainen toimenpide ei silloin päänahka-analyysin tule olla.
Mihin tahansa luokitusjärjestelmään vaikuttaa monia paitsi inflatorisia, myös deflatorisia tekijöitä. Toisin sanoen on myös pelaajia, joiden luokitus on liian alhaalla. Näissä pelaajissa on deflaation siemen. Lihavien maailmanmestarien vastapainoksi on aina myös nuoria, aliluokitettuja nälkäisiä leijonia. Toinen asia on, että osa heikkenemisestä omaan luokitukseen nähden, saattaa olla näennäistä johtuen deflaatiosta.
Inflaatio- ja deflaatiokorjausten tarpeellisuus on muuten tunnustettu shakkipiireissä, joissa käytetään Elo-järjestelmää, jossa kaikki turnaukset ovat nollasummapelejä luokitusten muutoksien suhteen, joten päänahka-analyysi ei ole välttämättä takaa systeemin vapautta inflaatiosta tai deflaatiosta.
Joidenkin pelaajien käyttäminen tasapainottamaan päänahkavajauksesta kärsivien inflatoivaa vaikutusta, on ristiriidassa tasapuolisuusperiaatteen kanssa. Kysymyksessä on tradeoff tasapuolisuuden ja toisaalta suomalaisten luokitusten yleisen tason säätelemisen välillä.
Ihmisillä näyttäisi olevan erilaisia mielipiteitä siitä, mikä on paras tasapaino noiden kahden periaatteen soveltamisen välillä.
-- Markku Jantunen, 7.4. 2003
Mistä ihmeestä tempaisit jonkun tasapuolisuusperiaatteen tähän? Minä en sellaista tunnusta, jos se tarkoittaa, että kun yksi pelaaja on korotettu liian ylös, niin muutkin pitää korottaa.
-- Matti_Siivola 8.4.2003
Jos tasapuolisuusperiaate olisi ainoa luokituskäytäntöihin sovellettu periaate, niin silloin ei suvaittaisi yhtään enempää kuin vaihtelua kunkin luokituksen sisällä kuin niissä luonnostaan on (pelaajien vahvuusjakauma on todellisuudessa jatkuva jakauma eikä diskreetti jakauma kuten luokitusjakauma). Jos lähtökohtana on, ettei ketään alenneta, se tosiaankin tarkoittaisi, että jos yksi on korotettu liian ylös, kaikki muutkin pitäisi korottaa yhtä ylös suhteessa luokituksiinsa. Minä en ainakaan ole missään vaiheessa ehdottanut, ettei myös muita näkökohtia tulisi ottaa huomioon.
Tasapuolisuusperiaate tarkoittaa sitä, että pyritään pitämään huolta, että pelitaidon vaihtelu luokitusten sisällä ei ylitä luonnollista vaihtelua. Siitä ei ole kuitenkaan järkevää pitää sataprosenttisesti kiinni. Sen hylkääminen kokonaan olisi kuitenkin sekä väärin että järjetöntä. Ymmärtääkseni sellaista ei kukaan ole ehdottanutkaan. Sen sijaan on erimielisyyksiä siitä, missä suhteissa eri periaatteita tulisi soveltaa luokittamiseen.
-- Markku Jantunen, 8.4. 2003
Koska Suomen go:n pelaajien määrä on näin nopeasti kasvamassa ja toiminnasta pitäisi saada mahdollisimman mallikelpoista, itse henkilökohtaisesti olisin tyytyväinen järjestelmään näiden kahden muutoksen jälkeen:
- Mutun lisäksi tulisi olla jotain objektiivisia/läpinäkyviä periaatteita luokittamiseen. Tämä voisi olla esimerkiksi minimi- ja maksimitulosrajat, jotka korotuksilta toisaalta vähintään vaaditaan ja millä ainakin pitää saada korotus. Näitä rajoja voitaisiin kyllä vaihtaa aina yleisen tilanteen mukaan etukäteispäätöksellä ja ne voisivat riippua ko. luokituksesta. Tässä jäisi mutulle myös tilaa. Tämä muutos esim. lisäisi go:n uskottavuutta urheilulajina ja toimisi myös motivaationa joillekin pelaajille.
- Luokituskomiteaan pitäisi saada parempi kattavuus koko Suomesta/kerhoista. Mielestäni perusteluvelvollisuus tässä kysymyksessä on päinvastaisella väitteellä.
-- Kari Visala, 8.4.2003
Lopetatteko wikinänä, jos periaatteita tulee?
Miksi perusteluvelvollisuus olisi päinvastaisella väitteellä?
-- Matti_Siivola 8.4.2003
Jos halutaan korotusautomaatti, niin sitten pitää saada vastapainksi alennusautmaatti.
Tai sitten shakissa käytetty erottelu ranking:in ja ansaittujen arvonimien välille. Tämä sopisi minulle mainiosti.
Se, että luokituskomiteaan kuuluisi muitakin kuin yhden alueen pelaajia, varmistaisi omalta osaltaan komitean tasapuolisuutta, läpinäkyvyyttä ja objektiivisuutta.
-- Kari 8.4.
Olen samaa mieltä Karin kanssa siitä, että gossa luokitukset ovat samanaikaisesti sekä paritustyökaluja että ansiomitaleita, on erittäin negatiivinen seikka. Sille meidän on täällä Suomessa yksinään vaikea tehdä yhtään mitään. Shakissakin on muuten kansalliset ja kansainväliset Elo-luokitukset erikseen, mikä on osoituksena siitä, että kansallisille ja alueellisille taskuuntumisiin alennusautomaattikaan auta paljon mitään.
Sitähän voisi huvikseen kehittää täysin epävirallisen ja viitteellisen Elo-pohjaisen luokitussysteemin, jota ei sotkettaisi resettikorotuksilla ei muilla kommervenkeilla. Systeemin tarkoituksena voisi olla ihan Suomen pelaajien keskinäisten paremmuuserojen mittaaminen ilman mitään aikomustakaan suhteuttaa sitä kansainväliseen tasoon.
-- Markku Jantunen, 8.4. 2003
Arvostaisin Markku teikäläistä huomattavasti enemmän ellet laittaisi meikäläisen suuhun sellaista mitä en ole sanonut. Se ei ole erityisen rakentava tapa yrittää keskustella, pikemminkin se vain jatkaa teikäläisen loukkaavaa linjaa muita kohtaan. En missään vaiheessa sanonut että turnauspelit olisvat ainoa käyttökelpoinen mitta.
Yhden luokituspykälän eroon on olemassa selkeä mittari: tasoituskivet. Niin kauan kuin pykälän tasoitusero katsotaan olevan yhden (lisä)tasoituskiven arvoinen, on tasoerolla jokin arvo. Se, ettei ko. arvoa välttämättä tunneta, ei muuta tätä tosiseikkaa. On haihattelua kuvitella että asia olisi toisin, ja yhtä lailla haihattelua että tuon arvon tuntemattomuus tekisi siitä olemattoman. Pikemmminkin, se arvo on laskettavissa ja analysoitavissa, mutta tuossa on niin iso työ ettei kukaan sitä tietääkseni ole vielä tehnyt.
Muilta osin, aiemmin mainituin perusteluin, ainakin meikäläinen haluaa nähdä että miksi jokion numeerinen kilke on niin hyvä. Ilman muuta, jos kilke osoittautuu hyväksi, se epäilemättä otetaan harkintaan käyttöönotettavaksi, siitäkin huolimatta mitä kokemus kertoo sellaisen kilkkeen olemassaolon epätodennäköisyydestä. Ja jos ei todistusaineistoa sen hyvyydestä saada, on kovin vaikea uskoa että se mitään parannusta tekisi.
Sen sijaan en vieläkään ole nähnyt niitä, jo puolen vuotta kuuluttamiani analyyseja että miksi jokin muu systeemi olisi parempi kuin nykyinen. Onko sellasia, ja miten jokin muu systeemi perustellaan paremmaksi? Vai eikö wikisijöissä ole munaa analysoimaan systeemejä ja niiden puutteita? Eikö systeemejä osata mallintaa ja/tai kokeilla jotta tieto niiden toimivuudesta olisi saatavilla?
Ja toki, ansiomitaleitahan voidaan aina jakaa. Tosin olen itse kuvitellut luokitusjärjestelmän tarkoituksen olleen saada ihmisten väliset pelit realistisiksi jonkin tasoituksen kanssa. Mtta toki, jos arvonimiä halutaan, ainahan niitä voidaan myöntää, kunhan tehdään ero luokituksen (meriitit) ja arvonimen (kunnia) välillä. Ikävä kyllä, sitä kautta ollaan kovaa vauhtia menossa Japanilaisten luokitusdiplomien suuntaan, ja onkin tunnettua että luokitusdiplomin arvo ei kauhean kova ole. Mutta kuka mitäkin haluaa.
Tarkoittaako tämä siis sitä, että wikisijät haluavat arvonimiä, sen sijaan että olisivat ihan oikeasti huolestuneita luokitusten oikeellisuudesta? En tiedä, mutta ei ainakaan hyvältä näytä. Itse olen kuvitellut että luokituksissa on ihan jokin muu päämäärä kuin ego, mutta ehkäpä olen ollut väärässä.
-- DonOlli
Itse en täysin ole saanut selville, mikä se nykyinen järjestelmä tarkkaan ottaen on. Siksi olen Karin kanssa täysin samaa mieltä siitä, että luokituskomitean tms. pitäisi julkistaa ne minimi- ja maksimimeriitit, joilla luokitus voidaan myöntää. Tämän ei luulisi olevan kovin suuri vaiva?
En ota lainkaan kantaa siihen, kuinka hyvä tai huono nykyinen järjestelmä on. En ole nähnyt muidenkaan juuri kritisoivan nykyistä järjestelmää. Outoa se olisikin, kun kerran mitään järjestelmää ei edes vaikuttaisi olevan!
-- HenriHansen
Vyökokeet go:hon ja kokeisiin vaaditut asiat esille :)!