Pohdimme eilen TTgoK:n peli-illassa kysymystä, millaisilla turnausmeriiteillä tulee korottaa ja millaisilla ei, siis minimi- ja maksimivaatimuksista. Arvostaisin muiden luokittajien (Jaakko, Paavo jne.) ja muiden kontribuutioita.
Jos lähdetään siitä, että turnaustulokset ovat ensisijainen informaation lähde, ongelmaksi tulee turnaustulosten vertailu keskenään. Mikä on normaalia satunnaisvaihtelua luokituksen sisällä ja mikä ei? Oletetaan nyt yksinkertaisuuden vuoksi, että vastustajien luokitukset ovat kohdallaan tai niihin mahdollisesti tehtävät "päänahkakorjaukset" on jo tehty.
Turnausvoittojen jakauma turnauspelien sarjoissa on binomijakauma. Turnauspelien jono muistuttaa (eri tavoilla painotettujen) kolikoiden heittämistä. Tulos on käytännöllisesti katsoen aina joko voitto tai tappio. Joskus tulos on jigo, mutta jigot voidaan tarvittaessa helposti ottaa huomioon. Silloin voittojen määrien jakauma turnauspelien sarjoissa on trinomijakauma. Mitä suurempi turnauspelien määrä on, sitä enemmän voittojen määrän jakauma noudattaa normaalijakaumaa.
Binomijakauman kertymäfunktion arvoja laskevalla Java- appletilla voi leikkiä ja laskeskella erilaisia arvoja erilaisilla voittamistodennäköisyyksillä ja voittosuhteilla- ja määrillä. Huomautettakoon, että tuo appletilla laskee oikein vain, jos onnistumistodennäköisyys on vakio. Go-turnauksessahan onnistumistodennäköisyyttä ei tiedetä tarkasti ja se on eri eri peleissä eri vastustajia vastaan. Tuo applet antaa kuitenkin jonkilaisen kuvan binomijakauman käyttäytymisestä erilaisilla arvoilla. (Kertymäfunktio kertoo kuinka suuri osa tuloksista on enintään yhtä hyviä kuin annettu tulos. Vähentämällä kertomafunktion arvo 1:stä kertoo kuinka suuri osa tuloksista on parempia kuin annettu tulos.)
Seuraavassa lasken kuinka suuressa "top prosentissa" tulos on. Kyseessä on summa todennäköisyyksistä, että tulee täsmälleen yhtä monta voittoa tai enemmän.
Muutama esimerkki onnistumistodennäköisyydellä 0.5:
3/6 | 65% | 6/12 | 62% | 9/18 | 59% | 12/24 | 58% | |
4/6 | 34% | 8/12 | 20% | 12/18 | 12% | 16/24 | 8% | |
5/6 | 11% | 10/12 | 2% | 15/18 | 0.4% | 20/24 | 0.07% | |
6/6 | 2% | 12/12 | 0.02% | 18/18 | -- | 24/24 | -- |
7/15 | 70% | |||||
3/5 | 50% | 5/10 | 62% | 8/15 | 50% | |
6/10 | 38% | 9/15 | 30% | |||
10/15 | 15% | |||||
7/10 | 17% | 11/15 | 6% | |||
4/5 | 19% | 8/10 | 5% | 12/15 | 2% | |
13/15 | 0.4% | |||||
9/10 | 1% | 14/15 | 0.05% | |||
5/5 | 3% | 10/10 | 0.1% | 15/15 | -- |
Muutama esimerkki onnistumistodennäköisyydellä 0.4:
3/6 | 46% | |
4/6 | 18% | |
5/6 | 4% | |
6/6 | 0.4% |
6/12 | 34% | |
8/12 | 6% | |
10/12 | 0.3% | |
12/12 | -- |
9/18 | 26% | |
12/18 | 2% | |
15/18 | 0.02% | |
18/18 | -- |
12/24 | 21% | |
16/24 | 1% | |
20/24 | -- | |
24/24 | -- |
3/5 | 32% | |
4/5 | 8% | |
5/5 | 1% |
5/10 | 37% | |
6/10 | 16% | |
7/10 | 5% | |
8/10 | 1% | |
9/10 | 0.1% | |
10/10 | 0.01% |
7/15 | 39% | |
8/15 | 21% | |
9/15 | 10% | |
10/15 | 3% | |
11/15 | 0.9% | |
12/15 | 0.2% | |
13/15 | 0.03% | |
14/15 | -- | |
15/15 | -- |
Paremman tuntuman saamiseksi asiaan voisi katsoa seuraavaksi menneistä go-kongresseista, kuinka todennäköisiä kuinkakin suuret voittoprosentit olivat muutamaa alinta ja ylintä McMahon-ryhmää lukuun ottamatta. Arvelen, että 5/10:stä poikkeavat tulokset valtaosassa McMahon-ryhmiä ovat harvinaisempia kuin kolikonheittokoetta katsoen voisi ajatella, koska McMahon-turnauksessa vastuksen voi odottaa kovenevan voiton jälkeen ja helpottuvan tappion jälkeen. Kuten yltä nähtiin, tällaiseen odotukseen on hyviä syitä, koska binomitodennäköisyys on varsin herkkä yksittäisen kokeen onnistumistodennäköisyydelle.
-- Markku Jantunen, 10.4. 2003
Oletetaanpa, että pelaaja tekee 7/10 -tuloksen. Oletetaan, että voittamistodennäköisyys kussakin pelissä on 0.5. Mikä on binomitodennäköisyys sille, että tulee vähintään yhtä hyvä tulos? Vastaus: 17%, joka mahtuu hyvin yleisesti käytettyihin virherajoihin (keskimmäiseen 95% enemmistöön kuuluvan tuloksen ei yleensä tilastomatematiikassa katsota poikkeavan odotetusta riittävästi ollakseen muuta kuin satunnaisvaihtelua).
Oletetaanpa, että pelaaja tekee kahdessa turnauksessa 7/10 -tuloksen. Mikä on todennäköisyys sille, että tulee vähintään yhtä hyvä tulos eli 14/20? Vastaus 6%, joka mahtuu yleisesti käytettyihin virherajoihin (vähintään yhtä hyviä saa olla korkeintaan 2.5%).
Seuraavassa taulukossa on laskettu vähintään yhtä hyvän tuloksen todennäköisyyksiä. Yksittäisen kokeen onnistumistodennäköisyys on aina 0.5, mikä ei vastaa todellisuutta McMahon-turnauksessa, mutta jonka voi olettaa antavan ylärajan odotetulle onnistumistodennäköisyydelle isossa McMahon-turnauksessa.
Turnauksien määrä | 6/10 | 7/10 | 8/10 | 9/10 | |
1 | 38% | 17% | 5% | 1% | |
2 | 25% | 6% | 0.6% | 0.02% | |
3 | 18% | 2% | 0.1% | ||
4 | 13% | 1% | |||
5 | 10% | 0.3% | |||
6 | 8% | 0.1% | |||
7 | 6% | 0.1% | |||
8 | 5% | 0.01% | |||
9 | 4% | ||||
10 | 3% | ||||
11 | 2% | ||||
12 | 2% | ||||
13 | 1% | ||||
14 | 1% | ||||
15 | 1% | ||||
16 | 0.7% | ||||
17 | 0.6% | ||||
18 | 0.4% | ||||
19 | 0.4% | ||||
20 | 0.3% |
Turnauksen määrän voisi tulkita tarkoittavan myös usean eri henkilön suoritusta samassa turnauksessa. Tällöin kuitenkin ylläolevien todennäköisyyksien yleistäminen koko kyseiseen joukkoon sellaisinaan edellyttäisi ainakin, että kaikkien tulos olisi täsmälleen sama. Yleistys populaatioon, josta kyseinen joukko on peräisin, edellyttäisi, että kyseinen joukko olisi edustava otos koko populaatiosta ja että vastustajatkin olisivat peräisin edustavista otoksista omista populaatioistaan. Periaatteessa nämäkin asiat olisivat laskettavissa ja arvioitavissa -- mukaanlukien tuollaisen arvion luotettavuus, mutta minä en sitä osaa ainakaan vielä tehdä.
-- Markku Jantunen, 11.4. 2003
Ylläolevat luvut ovat sinänsä oikeita, mutta verraten merkityksettömiä. Tarvitset yhden kiven tasoeron voittotodennäköisyyden yhden pelin todennäköisyydeksi sen sijaan että vetäisit hatusta luvun 0.5, jotta voidaan saada selville että mikä on riittävä tulos ettei se enään mahdu merkitsevyyden rajoihin. Osassa III kerroin asiasta lisää, mm. sen että tämä luku on tuntematon, johon omaan tapaasi vastasit ettei sillä voi olla mitään väliä. Arvaapa minkä takia en juurikaan noteeraa urputuksiasi, ettei vaan syynä olisi se että teikäläiselle väittelyn voittaminen tuntuu olevan tärkeämpää kuin tosiasiat.
Voin kuitenkin kertoa että tilastollinen merkitsevyys on niin kova vaatimus, etten usko kenenkään alle 3 danin tasolle korotetun täyttäneen sitä, ehkä usko kenenkään luokituskomitean tarkkailussa olevan sitä täyttävänkään, koska ihmiset korotetaan kauan ennen.
Sinänsä, olet toisaalla kertonut että olisit ymmärtänyt miksei numeerista inflaatioautomaattia haluta, mutta nyt olet kovaa vahtia yrittämässä sellaista keksiä. Ei siinä mitään, saahan näitä tutkia ja ihmetellä, kokeillakin, mutta sellaisen ajaminen kansallisen luokitusjärjestelmän perustaksi ilman erittäin perusteellista tutkimista olisi sulaa hulluutta. Toisin sanoen, jos et usko etteivät numeeriset järjestelmän toimi, mikset kokeilisi niitä itse? Onhan teillä Tampereella pelaajia joista saa luokitusdataa. Ihan samalla tavoin tuollainen toimii tai on toimimatta alemmallakin tasolla, ei sitä kansalliseksi systeemiksi ole pakko heti laittaa. Kannattaa sitten pitää mielessä että tuollaisen ongelmat tulevat esille tyypillisesti aikaisintaan puolen vuoden kuluttua siitä, kun sitä alettiin systemaattisesti käyttää, ja että kaikki systeemin ohi tapahtuvat korotukset kertovat ettei systeemi toimi riittävän hyvin.
Vielä tuosta numeerisen järjestelmän inflaatioautomaattiudesta. Tilastotieteestä mitään ymmärtävät tietävät sen, että numeerinen järjestelmä saa olla aivan helekatin konservatiivinen ettei satunnaisvaihtelu aiheuta liikaa aiheettomia korotuksia. Nämä aiheettomat korotukset sitten heijastuvat takaisinkytkennän kautta (ovat aineistona muille) kaikkiin luokituksiin, ja noidankehä on valmis. Et oletettavastikaan tule uskomaan tuota inflaatioautomaattipuolta, mutta pitäisi osoittaa jollain ihan oikealla menetelmällä ettei sellaista ole, jotta väite sen olemattomuudesta olisi uskottava.
Tästä syystä numeerista järjestelmää ei ole haluttu. Ainoa jäljelle jäävä malli on mutu, eli ruvetaan omaan kokemukseen pohjaten katsomaan että onko joku saanut niin hyvän tuloksen että korotus on aiheellista. Meikäläisellä ei ole tähän mitään kaavaa, tietenkään koska kyseessä on mutu, mutta sääntö on että pitää osoittaa pärjäävänsä tasolla jolle korotetaan. Mitä tahansa tarkkoja lukuja tähän laittaisinkin, ne eivät olisi kuin korkeintaan suuntaa-antavia, joten enpä siis laita.
Mainittakoon että tein tällä välin hieman analyysia GORreista ihan massana; GOR on kuitenkin tilastotieteellisesti viaabeli ja puolueeton vaikkakin tilastollisen merkitsevyyden vaatimukset tekevät siitä liian hitaan adaptoitumaan Suomalaisilla turnaustuloksilla -- ihan siitä huolimatta että uskotko sinä niihin vai et. Jos Suomen materiaali ei riitä GORrin realistisuuteen, niin sitten täällä ei ole riittävästi tarpeeksi hyviä turnauksia, jonka lisäksi pelaajat eivät viitsi hankkia pelejä ulkomaalaisia vastaan. Ja kumpikaan näitä ei tosiaankaan ole GORrin vika.
Ajoin GORreista jakaumat Euroopan luokituksille, ja vertasin eri jakaumapisteitä suomalaisten GORreihin. Tulos oli ettei kukaan dan-pelaaja tai korkea kyu Suomessa pääse Euroopan mediaanitasolle oman nominaaliluokituksensa joukossa. Lähinnä taisi olla Vesa. Aion jatkossa omalta osaltani käyttää GORrien jakaumia parhaana tunnettuna numeerisena luokitusjärjestelmän aputyökaluna. Kuten sanottua, tarkoitus on pitää Suomen luokitukset eurooppalaisittain järkevinä, ja jos on jokin muu kunnolla uskottava työkalu kuin GOR, en ainakaan itse siitä tiedä. Mainittakoon etten hetkeäkään usko että kukaan tulisi GORrien perusteella korotettua, mutta ainakin niistä näkee että miten Suomen taso voisi suhtautua Eurooppaan, jos GOR Suomessa toimisi kunnolla.
-- DonOlli, 11.4.
Korjasin pienen kirjoitusvirheen. -- Pekka, 11.4
En täysin tiedä, mitä Olli yllä tarkoitat. Tarkoitatko, että suomalaisten pelaajien GOR on alhaisempi kuin vastaavan luokitusten ulkomaalaisten pelaajien GOR? Mielestäni se on aivan väistämätön seuraus GOR:in nollasummaisuudesta ja Suomen nopeasti kasvaneesta pelaajapopulaatiosta. Vai mitä oikein tarkoitat?
-- Henri, 11.4
GOR ei ole nollasummapeli, siellä on korjaustekijä, jonka joku sanoi olevan 1,004 (en tarkistanut.) Ensi silmäyksellä vaikuttaa siltä, että tuo voisi olla liian pieni, mutta toisaalta paha sanoa varmemmin. Ja toisaalta taas kyseessä on EGF:n päätös, joten ei GOR-systeemiä täältäkään käsin voida muuttaa, ilman että EGF sen päätöksen tekee.
GORrin ongelmia Suomessa ovat ainakin B- ja C-luokan turnausten suuri osuus, liian suuri osuus tasoitusturnauksia ja taskuuntuminen, sen lisäksi että maintsemasi pelaajapopulaation räjähdysmäinen kasvu sotkee.
Yhtä kaikki, mielestäni on parempi käyttää tilastollisesti oikeellisia menettelyitä, kuten GORria, ja yrittää sovittaa olosuhteet (l. datan saatiolosuhteet kuten turnausten plaatu) siten että ne toimisivat, sen sijaan että sotketaan nykyisellään varsin hyvin toimiva luokitusjärjestelmä jollain ominaisuuksiltaan tuntemattomalla numeerisella menettelyllä.
-- DonOlli
Olen samaa mieltä siitä, että on hyvä käyttää tilastollisesti oikeellisia menettelyitä ja että GOR on tilastollisesti oikea. En täysin ole perillä siitä, miksi tasoitusturnaukset aiheuttavat ongelmia. Tasoitusturnauksessa minun ymmärtääkseni pitäisi olla oikeilla tasoituksilla pelattaessa melko tarkkaan tiedossa tuloksen odotusarvo.
-- H.
Ollille sanoisin, ettei kannata nyt unohtaa, etten ole väittämässä mitään sellaista noiden lukujen pohjalta, mitä tekstissäni ei suoraan sanota.
Eikö muuten olekin niin, että voittamistodennäköisyys samantasoista pelaajaa vastaan on samantasoisuuden määritelmän mukaan 50%? Taulukkoon kootut todennäköisyydet kertovat, kuinka todennäköinen jokin vähintään tietty voittojen määrä tietystä määrästä pelejä on sellaisessa kuvitteellisessa turnauksessa, jossa kaikki vastustajat ovat samantasoisia. Ei sen enempää eikä sen vähempää.
Noiden lukujen laskemiseen ei tarvita voittamistodennäköisyyttä yhden kiven tasoerolla. Voittamistodennäköisyys yhden kiven tasoerolla ei muuten ole vakio vaan riippuvainen tasosta. Tuo riippuvuus on olemassa sekä GoR-mallissa että todellisuudessa, kuten EGF:n virallisten luokituksien (ei GoR) mukaan lasketuiden taulukoiden mukaan on.
-- Markku Jantunen, 11.4. 2003