Jatkoa sivulta Luokituskeskustelu. Seuraava osa: Luokituskeskustelu III.


Luokituskeskustelu tuntuu jatkuvan. Markku Jantusen argumentoinnista päättelen (onko näin Markku?), että hän usköö osoittaneensa, että suomalisten pelaajien luoklitukset ja IGS-luokitukset poikkeavat toisistaan eri tavalla, kuin ulkomailla. Ainakaan täällä Wikissä hän ei ole esittänyt kunnollista tilastollista päättelyä väittensä tueksi. Ellei perustelua esitetä, on argumentaatio rakennettu hiekan päälle.

-- Matti_Siivola 30.3.2003

Minusta näyttää siltä, että suomalaisten ja ulkomaalaisten IGS-luokitukset poikkeavat IRL-luokituksista eri tavalla. Epäsuorasti viittasin jakaumiin, kun kysyin Otsolta, miksi suomalaisista 12/16 pelaa vähintään yhden luokan paremmin IGS:issä kuin IRL - kyse ei siis ole muutamien piikkien aiheuttamasta vääristymästä keskiarvoissa. Toisen kerran sama asia tuli mainittua 3d* -pelaajien IRL-luokituksen vaihtelu yhteydessä.

Jakaumat näkee aineistosta aika suoraan yhdellä vilkaisullakin, mutta on aivan kohtuullista edellyttää selvitystä. Alla olevassa taulukosta näkee jakaumat.

IGS-IRLSuomiSaksaRanskaRomaniayhteensäEurooppa Suomea lukuun ottamatta
+3**---2
+2****-***7***
+1****************16*****************
0***********************23******************************
-1**********10********************
-2-*-*2***
-3-----*
yht.1611181560

Vähintään yhden kiven IGS:issä omaa luokitustaan paremmin pelanneista suomalaisten osuus oli 12/25 eli 48 prosenttia, vaikka suomalaisten kokonaisosuuden perusteella odottaisi 27 prosenttia. Vähintään yhden kiven luokitustaan huonommin pelanneista suomalaisia oli 1/12 eli 8 prosenttia, vaikka suomalaisten kokonaisosuuden perusteella odottaisi 27 prosenttia. Kaikissa muissa maissa suurin ryhmä oli luokituksensa mukaisesti pelanneiden ryhmä paitsi Saksan ryhmässä, jossa yhden kiven huonommin pelanneiden ryhmä oli niukasti suurempi. Suomalaisten suurin ryhmä oli yhden kiven luokitustaan paremmin pelanneiden ryhmä.

MaaIGS-IRL -poikkeamien keskihajonta maassaIGS-IRL -ero keskimäärin Suomeen
Saksa0.6-1.4
Ranska0.7-0.7
Romania0.7-1.3
Suomi0.9-
Koko Muu Eurooppa0.7-1.3

Muun Euroopan sisällä vaihtelu on pienempää kuin Suomen ja muun Euroopan välillä. Myös Suomen sisäinen vaihtelu on pienempää kuin Suomen ja muun Euroopan välinen vaihtelu.

Tarvitaanko tarkempaa analyysia? Kenties tuo ei vielä yksinään riitä. Suomalaisten kongressimenestyksen analyysi antaa samansuuntaisen ja samansuuruisen tuloksen. Onko kongressimenestyslaskelma sinusta oikein? Laskelma on alla.

Suomalaiset pelasivat Euroopan go-kongressissa keskimäärin 0.4 kiveä nimellisesti kovempia vastaan. Henkilökohtaisten voittoprosenttien keskiarvoksi tuli 56 prosenttia.

Alla kuvaus siitä, kuinka täsmälleen laskin nuo luvut.

Lähtökohtana on kunkin henkilön yhden turnauksen tulos. Tällainen turnaus voi olla kongressin pää-, viikonloppu- tai rapid-turnaus jonakin vuonna. Osallistumiskertoja johonkin turnaukseen oli 21:lla vuosina 1994-2002 kongresseihin osallistuneilla suomalaisilla 59. Muita kuin osallistumiskertoja pääturnaukseen oli alle kymmenen. Sivuturnaukset olivat joko viikonlopputurnauksia tai rapid-turnauksia (2 x 30 minuuttia). Pelejä oli kaikkiaan 501 kappaletta.

Kustakin turnaustulosrivistä lasketaan vastustajien keskimääräisen luokituksen ja oman kyseisessä turnauksessa käytetyn luokituksen erotus. (Perustelu: tämä luku kuvaa vastuksen nimellistä kovuutta suhteessa omaan luokitukseen kussakin turnauksessa.)

Kullekin henkilölle lasketaan keskimääräinen vastustajien nimellinen kovemmuus eri turnausosallistumiskerroilla painottaen turnausosallistumiskertoja pelien määrällä niissä. (Perustelu: esim. kolme peliä viikonlopputurnauksessa ei ole yhtä merkittävä tulosrivi kuin kymmenen peliä pääturnauksessa.)

Seuraavaksi lasketaan kullekin henkilölle erikseen koko kongressiuran aikana voittojen suhde pelien kokonaismäärään. (Perustelu: tästä saadaan voittamisprosentti koko kongressiuran aikana siten, että osallistumiskerrat painottuvat sen mukaan, kuinka paljon niissä on pelejä. Lisäperustelu: McMahon turnauksessa huippuryhmää ja aivan alimpia ryhmää lukuun ottamatta odotettu tulos on voittoprosentti 50, jos luokitukset ovat kohdallaan.)

Seuraavaksi lasketaan keskiarvot kahden edellisen kappaleen tunnusluvuille koko 21 Euroopan kongresseissa turnauksiin osallistuneiden pelaajien joukon yli.

Tuloksena oli, että suomalaiset olivat keskimäärin pelanneet 0.4 kiveä nimellisesti vahvempia vastaan ja voittaneet peleistään 56 prosenttia. (Perustelu: näin saadaan mielestäni kohtalaisen hyvin perusteltu vastaus kysymykseen: "ovatko suomalaiset aliluokitettuja suhteessa muihin eurooppalaisiin suurin piirtein kuinka paljon".)

Keräsin tiedot laatimaani Excel-taulukkoon Paavon turnaustulosautomaatista. Jos jotakuta kiinnostaa, voin lähettää tiedoston sähköpostitse tarkastettavaksi.

Kongressiurilla saavutettujen voittamisprosenttien jakauma (lähimpään viiteen prosenttiyksikköön pyöristettynä, henkilöitä en tässä mainitse nimeltä):

801*
751*
705*****
650
602**
551*
507*******
450
402**
350
301*
251*

Keskihajonta oli 13 prosenttiyksikköä. (Jatkokysymys: onko tuo normaalia vaihtelua?)

Tietysti voidaan kysyä, oliko go-kongresseissa käyneiden joukko ollut kongressivuosinaan epätavallisen hyvässä pelikunnossa ja vain siksi kahminut kongressissa luokituksiinsa nähden liian hyviä tuloksia. Onneksi tämäkään kysymys ei jää käsienheiluttelun varaan vaan sitä voidaan arvioida suomalaisen turnausdatan perusteella.

Koska Suomessa oli aikavälinä 1994-2002 vain vähän tasa-alkuturnauksia, laskin kuinka hyvin kongressissa käyneet olivat kongressivuosinaan pelanneet suomalaisissa tasoitusturnauksissa.

Hain ensin Paavon turnaustulosautomaatista kullekin henkilölle hänen kunakin kongressiosallistumisvuonna saamiensa voittojen ja tappioiden määrät ja laskin ne yhteen (tämä oli useimmille helppoa, koska he olivat käyneet kongressissa jonain yhtenäisenä ajanjaksona tai vain yhtenä vuonna). Karsin joukosta alitasoituksilla pelatut pelit kokonaan pois (Perustelu: tulokset vääristyvät, koska joukossa on daneilla ja ylemmillä kyu-pelaajilla lievä yliedustus). Tällä tavoin karsitusta voittojen ja tappioiden kokonaismäärästä laskin henkilökohtaisen voittamistodennäköisyyden kongressivuosina.

Lopuksi laskin keskiarvon henkilökohtaisista voittamisprosenteista. Tulos: 48 prosenttia.

Johtopäätös: suomalaisten kongressikävijöiden hyvä menestys kongressissa erittäin todennäköisesti ei johdu siitä, että he olisivat olleet muihin suomalaisiin nähden epätavallisen hyvässä pelikunnossa kongressissakäyntivuosinaan.

-- Markku Jantunen, 30.3. 2003

Asiaan voi varmaan vaikuttaa panostus ja tarkoituksellinen tuloksen hakeminen esim korotusmeriitiksi. Onkos noista 7 kovimmasta tuloksesta poikinut aikoinaan korotuksia heti tai kohta ?

-- Jari Koivikko, 31.3. 2003

Vaikuttaako panostus ja korotuksen hakeminen eri tavalla ulkomaalaisiin? Miten panostus kannattaa yleensäkään ottaa huomioon turnaustuloksia arvioitaessa? Siis kannattaako jotkut turnaustulokset jättää huomiotta siksi, että ajatellaan niiden johtuneen lähinnä erityisestä panostuksesta?

Tuossa taulukossa ei ole yksittäisiä tulosrivejä vaan siinä on laskettu voittoprosentit eri henkilöiden kongressiurille. Tulosrivejä eli "tuloksia" oli aineistossa 59 kappaletta. Näistä kovimmat ovat varmasti johtaneet korotuksiin. Tämä on kuitenkin tässä yhteydessä epäolennaista, koska muunkinmaalaiset hyvin menestyneet ovat saaneet korotuksia.

-- Markku Jantunen, 31.3. 2003

Lähinnä hain sitä, onko näitä poikkeavuuksia käytetty kuinka säännön mukaisesti korjaamaan vääristymään. Missään tapauksessa niitä ei pidä jättää huomioimatta. Suomesta kun on kongressimatkoja tehty kovin vähänlaisesi niin niihin on varmaan suhtauduttu suurella vakavuudella, joten tuloksia voinee pitää hyvinkin arvokkaina indikaattoreina heidän tasostaan muun maalaisiin.

-- Jari Koivikko, 31.3. 2003

Nähdäkseni luokituskomitea on korottanut suomalaisia kongresseissa menestyneitä aivan asianmukaisesti. Tämä ei kuitenkaan ole heijastunut kovin paljon suomalaisten luokitusten yleiseen kovuuteen, koska kongressissa vähintään kerran käyneiden joukko muodostaa tuona aikana turnauksissa käyneiden joukosta arvioni mukaan vain noin 10 prosenttia. (En väitä, että sen olisi pitänytkään suorassa suhteessa heijastua, vaikka se yleisestä aliluokittuneisuudesta omalta osaltaan kertookin.)

Olen pyrkinut osoittamaan IGS-vertailulla ja kongressitulosvertailulla, että Suomessa on ollut viimeisen vuosikymmenen aikana jonkin verran tiukempi luokituspolitiikka kuin muualla Euroopassa yleensä. Arvelisin saatavilla olevan tiedon perusteella suomalaisten luokitusten olevan keskimäärin noin yhden kiveä verran kovempia kuin eurooppalaisten yleensä.

Vielä on käyttämättä pari muutakin vertailutiedon lähdettä. Ensiksikin voisi vertailla suomalaisten menestystä Suomessa järjestetyissä kansainvälisissä turnauksissa ulkomaalaisten menestykseen näissä samoissa turnauksissa. Toiseksi voisi vertailla suomalaisten menestystä muissa kansainvälisissä turnauksissa heidän luokitustensa perusteella odotettuun menestykseen. Kolmanneksi voisi vertailla miten suomalaiset menestyvät KGS:ssä verrattuna muunmaalaisiin.

Jos kaikki viisi (IGS, kongressit, KGS, kansainväliset turnaukset Suomessa ja ulkomailla) antavat samansuuntaisia ja -suuruisia tuloksia suomalaisten luokitusten suhteellisesta kovuudesta, lienee kasassa kattavin ja luotettavin tähän asti asiasta kerätty aineisto.

-- Markku Jantunen, 31.3. 2003

Tarkistin laskelmasi IGS vs. viralliset luokitukset. Suomessa erotus on 1 kivi (95% luottamusväli 0.84 - 1.21) isompi kuin muualla euroopassa. Muista analyyseistasi en saa tolkkua. Minulla on parempaakin tekemistä kuin opetaa sinulle tilastotiedettä. Sumoi erosi merktisevästi Saksata ja Romaniasta, mutta ei Ranskasta. Saksan osalta asian voi selittää se, että Saksassa kuka tahansa saa luokittaa itsensä mille tasolle haluaa vaikka 6 daniksi. Ainoastaan Romania jää jäljelle.

-- Matti_Siivola 1.4.2003

Tiesin ilman kommenttiasikin, että Suomi erosi merkitsevästi Saksasta ja Romaniasta mutta ei Ranskasta. Tunnut vihjaavan, että saksalaiset ovat aliluokitettuja siksi, että Saksassa kaikki luokittavat itsensä. Onko tuollaisilla vihjailujen perusteeksi antaa minkäänlaista näyttöä? Pärjäävätkö saksalaiset nimelliseen tasoonsa verrattuna odottamattoman huonosti?

Onko tällaisia asioita koskaan edes viitsitty yrittää selvittää Suomessa?

Kommenttisi "Minulla on parempaankin tekemistä kuin opettaa sinulle tilastotiedettä" osoittaa valitettavaa ylimielisyyttä. Se heijastuu myös siinä, ettet viitsinyt perehtyä lainkaan laskelmiin suomalaisten kongressimenestyksestä.

Luokituskomitea ei herätä luottamusta ylimielisellä suhtautumisellaan. Kehottaisin sen jäseniä pidättäytymään siitä.

-- Markku Jantunen, 1.4. 2003

Opetetaan nyt sitten hieman.

Yksi tilastotieteen perusasioista on, että on tolkuttoman vaikeata osoittaa mikä tahansa todeksi. Tarvitaan huomattavan isot, homogeeniset ja vertailukelpoiset aineistot (joita sinulla ei ole) sekä erittäin suuri tilastollinen ero (jota tässä ei ole.) Normaalikeino onkin rakentaa käänteishypoteesi, esmes tässä että eroa ei ole olemassa, ja osoittaa se vääräksi. Tämäkään ei vielä näytä että mikä se ero oli ja että miten se on tulkittava, vaan siihen tarvitaan yleensä uusi analyysi.

Tämän lisäksi vuodatuksistasi puuttuvat esmes kaikki tunnusluvut, virheanalyysit, luottamusvälit ja osa-aineistojen vertailukelpoisuusanalyysit. Käytännön esimerkki: käytät keskiarvoa (altis outliereille) ja keskihajontaa (olettaa normaalijakaumaa noudattavan aineiston.) Kumpikaan oletus ei ole suinkaan kirkossa kuulutettu kun kyseessä on biologinen aineisto -- esmes Bayesilaiset tai vinot jakaumat hajoittavat yleensä molemmat -- joten lukujen uskottavuus on arvailun tasoa. Käytännön esimerkki on, että esittämäsi Ranskan IGS-IRL -eron jakauma on silminnähden vino -- ja Matin käyttämät luottamusvälit kertovatkin että tuo "silminnähtävä yhden pykälän ero" ei ole tilastollisesti merkitsevä.

Tällä en tarkoita että lukusi olisivat sinällään harhaisia (vaikka olenkin huomannut että niissä on jotain pieniä epätarkkuuksia, ne tuskin ovat niin tärkeitä,) vaan että niiden "katsokaa nyt, näkeehän noista ilmiselvästi että näin on" -todistusvoima ei riitä vakuuttamaan tilastotiedettä tuntevaa. Eikä kukaan muu ainakaan vielä ole halunnut tehdä sitä työtä puolestasi että olisi ihan oikeasti analysoinut aineistosi tilastomenetelmin.

Huomautan vielä, että huonostikaan tehty tutkimus ei aina ole väärässä, mutta sellaisen todistusvoima on suunnilleen iltapäivälehtien tasoa. Kaiken kaikkiaan vaikuttaa kovasti siltä, että keräät itsellesi sopivia keskilukuja ja vedät niistä sitten perustelemattomia, omia mielipiteitäsi tukevia johtopäätöksiä. Täytyypä siis esittää sinulle samaa kuin olet muille tolkuttanut, että tutustuisit ensin siihen mistä niin vuolaasti selität. Tässä tapauksessa tilastotieteeseen.

-- DonOlli, 1.4.

Olet Olli oikeassa siinä, että on tarpeellista tehdä paljon tarkemmat analyysit. Otan onkeeni tuosta. Teen noita analyysejä lisää. (Lisäksi palautteesi sävy on tällä kertaa myönteinen, mikä merkille pantakoon.) Sitten, kun raaka työ on tehty, asiaa tuntevat voivat esittää omat perustellut kommenttinsa analyysien luotettavuudesta.

Mitä mieltä olet itse Suomen ja koko muun Euroopan IGS vs. viralliset -luokituserojen merkityksestä? (Jakauman graafisesta esityksestä katsoen näyttäisi siltä, että siitä saisi todennäköisesti saada samat tulokset kuin Matti sai Suomen ja Romanian välisestä erosta?) Entä muut? Oletko muodostanut itsellesi käsitystä suomalaisten luokitusten kovuudesta suhteessa eurooppalaisiin viimeisen vuosikymmenen aikana?

Jos suomalaisten kongressimenestyksestä ja IGS-menestyksestä ei kerta kaikkiaan ole tarpeeksi suuria aineistoja, että niistä voisi tehdä edes kunnon menetelmillä täysin luotettavia johtopäätöksiä, niin kai niistä sopivasti jalostettuna voi tehdä edes suuntaa antavia johtopäätöksiä.

Siteeraan Vesaa sivulta Luokituskeskustelu.

"Luokituskomitea tekee korotuspäätöksensä mutu-menetelmällä, yleensä juuri päättyneen turnauksen perusteella. Korkeampien arvojen (n. 3-5 kyusta ylöspäin) kohdalla ollaan aavistuksen verran tiukempia ja voidaan tarkastella aikaisempia turnauksia ja keskustella jäsenien välillä. Dan-arvoissa pitää olla jo vahva näyttö ja usean jäsenen yksimielisyys, viimeisimpänä esimerkkinä Einarin (jaettu) voitto Takapotkuturnauksessa. Suomessa ei ole ns. referenssipelaajia, EGF Ratingistä näkyy, kuka dan-pelaajista olisi hyvä päänahka."

Tässä ei vielä määritellä mikä mutun taustalla on, vaikka kuvataan kyllä sitä, miten päätöksentekoprosessi etenee luokituskomitean sisällä byrokraattisessa mielessä. Kai mutun taustalla jonkinlaista hahmotusta asioista on? Mikä on yleensä lasketaan vahvaksi näytöksi? Millaista näytöstä luokituskomitean useat jäsenet pääsevät yksimielisyyteen?

Toinen kohta, josta voidaan olla eri mieltä on EGF-ratingin arvo pelaajien päänahan arvoa arvioitaessa. EGF-rating vaikuttaa liian sattumanvaraiselta, koska siihen vaikuttavat liikaa reset-korotukset ja turnausaktiivisuuden määrä.

-- Markku Jantunen, 1.4. 2003


<Hyvää aprillipäivää> Helsinki 1.4.2003

Hyvät Suomen go-pelaajat,

Suomen go-luokituskomitea esittää pahoittelunsa vajavaisista kyvyistään, ylimielisyydestään ja etenkin siitä ankarasta deflaatiosta, joka maatamme on erheellisen feodaalityylisen go-hallinnon takia kohdannut.

Seuraavat toimenpiteet tehdään välittömasti 1. huhtikuuta 2003:

1) Suomalaisia gon pelaajia korotetaan tasosta riippumatta 2 pykälää, paitsi 5 danit, joiden pitää kiertää jokainen Suomen turnaus tänä vuonna, ennen kuin saavat edes pitää tasonsa. Tämän pitäisi korjata maamme deflaatiota hieman.

2) Suomen go-luokituskomitea eroaa kokonaisuudessaan, ja luokituksista vastaa tulevaisuudessa IGS tai IGS-luokituksen puuttuessa, KGS. Muita luokituksia ei tunnusteta.

3) Kaikki suomalaiset dan-pelaajat ovat valmiina haasteotteluita varten joka päivä KGS:n Saunassa, alkaen tänään klo 17:00. Tervetuloa haastamaan ja hakemaan korotuksia.

-- Vesa 1.4.2003 </Hyvää aprillipäivää>


<Hyvää aprillipäivää> Onneksi olkoon, Vesa, ansaitsemanne 540 korotuskaljaa ovat noudettavissa lähimmästä ravitsemusliikkeestänne. Sano vain baarimikolle etukäteen sovitut taikasanat: "Olen muuten ammatiltani terveystarkastaja", niin tietävät sitten siitä, että kyseessä olet sinä.

-- Bass </Hyvää aprillipäivää>

Minua kiinnostaisi tietää, mitä muiden luokittajien - luokitusoikeuksiin katsomatta -päässä liikkuu heidän tehdessään korotuspäätöksiä. Voisin tässä lyhyesti valottaa tyypillisiä ajatuksiani, kun käyn läpi turnaustuloslistaa katsoakseni, onko syytä korottaa luokitusvastuullani olevia pelaajia. Yhdessä Timo Puhan kanssa minulla on luokitusoikeuksia 2 kyuhun asti Tampereella. Itsenäisesti 3 kyuhun Tampereella. Muutoin 6 kyuhun, kuten muistaakseni kaikilla dan-pelaajilla. (Emme ole olleet Timon kanssa kertaakaan eri mieltä korotuksista.)

Pääajatuksena on katsoa turnaustuloksesta poikkeaako se liikaa luokituksen perusteella odotetusta. Tapanani ei ole ollut erotella vastustajia kelvoiksi ja epäkelvoiksi päänahoiksi paitsi alitasoituspelien tapauksessa. Tappiot alitasoituksilla heikompaa vastaan olen katsonut miinukseksi enkä ole antanut toisaalta voitoista alitasoituksilla yhtään plussaa vahvemmalle. Heikommalle arvio toimii tietenkin päinvastoin.

Se kuinka tarkasti syynään tuloksia riippuu luokituksesta. Osapuilleen 5 kyun tasolla ja sen yläpuolella turnaustulosten painoarvo suhteessa kerhopeleihin on selvästi suurempi kuin alapuolella.

Otetaan hypoteettinen esimerkki. 4 kyuksi luokitettu pelaaja tekee tasa-alkuturnauksessa seuraavanlaisen tuloksen: 4k+ 3k+ 3k+ 1d- 1k-

Analyysi: Tappiot kolme ja neljä kiveä nimellisesti vahvemmille eivät juuri tuota miinusta. Sen sijaan omantasoisen hoiteleminen ja kahden 3 kyun voittaminen puhuvat vahvasti korottamisen puolesta. Seuraavaksi katsotaan miten aiemmat turnaukset menivät (oletetaan, että pelaajalla ei ole takanaan taukoja harrastuksessaan ja hän on pelannut lähimmän vuoden aikana pari-kolme turnausta samalla luokituksella). Jos osapuilleen yhtä hyvin, korotus 3 kyuksi seuraa. Jos vähintään yksi muista turnauksista on mennyt yhtä huonosti kuin tämä on mennyt hyvin, korotusta ei tule. Jos aiemmat pari turnausta ovat menneet 4 kyuksi odotetulla tavalla, kyseessä on rajatapaus. Korotus tulee vain, jos kerhopeleissä käytettävät sopivat tasoitukset ovat systemaattisesti vähempiä kuin 4 kyun edellyttämät (tähän en laske umpitunnelissa pelattuja saunailtapelejä yms.)

Seuraava hypoteettinen esimerkki: 4 kyu 1d- 2k+ 1k+ 2d- 1k+. Jos kyseisellä pelaajalla ei ole ollut tapana pelata erittäin vaihtelevasti turnauksissa ja siten takanaan lähimenneisyydessä yhtä huonoja tuloksia kuin tuo on hyvä vaan ne ovat olleet jo jonkin aikaa vähintään lievästi parempia kuin odotetut, tulee resettikorotus suoraan 2 kyuksi. Jos lähimenneisyydessä on muutama 4 kyuksi odotettu tulos, tulee korotus 3 kyuksi.

Ongelmana turnaustulosten arvioinnissa on, ettei ole kovin tarkkaa kuvaa siitä, kuinka odottamattomia minkäkinlaiset tulokset ovat, jotta niitä osaisi arvioida suhteessa toisiinsa. Periaatteessa se olisi laskettavissa, koska EGF:n tietokannassa on käytännöllisesti katsoen kaikki vuodesta 1996 asti Euroopassa pelatut turnauspelit. Siitä saataisiin selville, millä tavalla kullakin luokituksella pelaavien joukoissa on jakautunut todennäköisyys voittaa minkäkin tasoinen pelaaja.

Olisi erittäin mielenkiintoista tietää, kuinka hyviä esimerkiksi nuo yllä esimerkiksi ottamani kuvitteelliset turnaustulokset ovat verrattuna omiin subjektiivisiin luuloihini niiden hyvyydestä.

Itse näkisin, että korotuksen harkitseminen vain niiden pelaajien osalta, jotka voittavat juuri päättyneessä turnauksessa yhtä vaille kaikki pelit, johtaa siihen, että tasaisesti luokitukseensa nähden liian hyvää tulosta monessa turnauksessa peräkkäin tehneitä pelaajia jää aiheettomasti korottamatta.

Toisaalta jo yhden turnauksen tuloksista on kokemukseni mukaan varsin työlästä kaivaa esiin liian hyvältä näyttävät tulokset, jos niissä on vähemmän voittoja kuin n-1 kappaletta (n kierrosten lukumäärä). Tämä johtuu siitä, että turnaustuloksissa viitataan vastustajan numeroon eikä tämän luokitukseen. Ongelma vain pahenee, kun turnausten koko kasvaa. Tarvittaisiin siis jokin atk-kilke seulomaan kenties edellistenkin turnaustulosten valossa liian hyviä tuloksia esiin.

-- Markku Jantunen, 2.4. 2003

Puhtaiden matemaattisten todennäköisyyksien laskeminen yhdestä tai useammasta turnauksesta on tietenkin vain yksinkertaista binomikikkailua. Ongelmana on vain voittotodennäköisyyksien tietäminen eri luokitusten välillä. EGF:n taulukko antaa joitain numeroita, tosin veikkaan että Suomessa heikomman pelaajan voittotodennäköisyys on taulukkoarvoja pienempi, koska luokitusjakauma lienee homogeenisempi kuin koko Euroopassa.

Tein joskus jo syksyllä tällaisen Matlab-funktion joka laskee tiettyjen turnaustulosten todennäköisyyden (toivottavasti oikein). Yksittäisten pelien voittotodennäköisyydet pitää poimia käsin taulukosta, mutta automatisointi ei voine olla vaikeaa.

Funktio antaa todennäköisyyden sille että tietyntasoinen pelaaja saa vähintään tietyn verran pisteitä. Tuloksen voi tulkita todennäköisyydeksi sille että mahdollinen korotus on virheellinen. Ensimmäisessä Markun esimerkissä tämä prosentti on 25, eli en korottaisi pelkästään tämän perusteella. Toisessa tapauksessa 3k:ksi korottamisen virhetodennäköisyys on 7% ja 2k:ksi korottamisen 11%. Ei vieläkään oikein vakuuta matemaatikkoa korotuksen tarpeesta, yleensä tämänkaltaisessa hypoteesien vääräksi todistamisessa ei olla tyytyväisiä jos virhemahdollisuus > 5%.

Ehkä tärkein johtopäätös on että yksittäisen turnauksen perusteella on vaikea aukottomasti todistaa korotuksen tarvetta. Sen sijaan useiden peräkkäisten turnausten tuloksista voisi helposti päätellä korotustarpeen. Jos esimerkkipelaajamme pelaisi kaikki yllämainitut 10 peliä peräkkäin tulisi virheprosentiksi enää 4%.

Ohjelman tein aikoinaan ihan vain matemaattisesta mielenkiinnosta enkä niinkään siksi että olisin kovin kiinnostunut luokituksista/luokittamisesta.

---Antti Lehtinen, 2.4.2003

Tuo Markun ensimmäinen esimerkki käsitteli 4 kyun pelaajaa, jolla on uusi tulos 4k+ 3k+ 3k+ 1d- 1k- sekä aiemmin kaksi-kolme osapuilleen samalla tavalla mennyttä turnausta. Vastaavasti toisessa esimerkissä oli mukana jotain lähtöoletuksia, jotka nähdäkseni voidaan helposti ottaa huomioon noita virheprosentteja laskiessa. Jos olisi hitusen ylimääräistä aikaa niin tekisi kyllä itse mieli laskeskella nuo prosentit paremmin esimerkkejä noudattaen :-)

---Antti Holappa, 4.4.2003

Minusta kilke, joka laskee juuri päättyneestä ja menneistä turnauksista arvion voimassa olevalla luokituksella saavutetun yhteistuloksen positiiviselle yllättävyydelle, olisi erittäin suuresti vaivaa säästävä ja luokittajien virheiden määrää vähentävä.

Todellisuudessa nimittäin luokittajien päätelmät turnaustuloksista sinänsä eivät perustu mihinkään jumalaiseen intuitioon vaan ovat usein pelkkiä muistinvaraisia arvauksia kenties kauankin sitten pelattujen turnaustulosten näyttöarvosta. Niissä on mukana kaikenlaisia enemmän tai vähemmän vaihtelevia nyrkkisääntöjä ja rautalankamalleja, joiden pätevyydestä ei ole mitään takeita ja jotka eivät edes perustu mihinkään vakiintuneeseen kansanviisauteen.

-- Markku Jantunen, 4.4. 2003

Keiden luokittajien puolesta puhut?

-- Hiki, 4.4.2003

Omastani tietysti.

Mutta ei ole mitään syytä olettaa asiasta vaikenevilta mitään muuta. Tavoista, joilla luokittajat tekevät päätelmiä korotustarpeista eivät taida olla täällä eikä muualla julkisesti kertoneet luokittajista ketkään muut paitsi minä ja Paavo. (Paavo selosti menetelmäänsä, jolla hän arvioi luokitukset kerhopeleissä käytetyistä tasoituksista.)

Vesa kertoi, että hän katsoo ylempien kyu-pelaajien ja dan-pelaajien tapauksessa useaa turnaustulosta, muuten juuri päättynyttä. Täysin epäselväksi jäi, miten Vesa erottelee turnaustuloksista hänen mielestään korotuksiin oikeuttavat tulokset muista. (Vastaukset tyyliin "Korotamme tarpeen mukaan" tai "käytämme mutu-menetelmää" ovat nollainformaatiota.)

-- Markku Jantunen, 4.4. 2003

Toisaalta pienellä pelimäärällä "mutu" on ainoa toimiva. Tilastollisen näytön kerääminen edellyttää niin paljon pelejä, että ei se onnistu. Pitäsi olla enemmän kovatasoisia pelaajia, jotta näyttöjä voisi antaa kerhoilloissakin ==> saataisin enemmän aineistoa ja muutkin kuin MUTU toimii.

Oma ongelma on enempi siinä että oppis pelaamaan :-)

-- Petri P, 6.4.2003

On tietenkin totta, että riittävän pienellä pelimäärällä mutu on ainoa toimiva menetelmä. Mutta mikä määrä on "liian pieni"? Onko ihan varma, että tarpeeksi pelejä ei nykyään vielä ole kenelläkään, ettei missään tapauksessa kannata soveltaa minkäänlaista laskentaa? Onko esimerkiksi 45 turnauspeliä liian vähän?

Sitä paitsi turnaustulosten arviointia lähestytään jo ymmärtääkseni melko kaavamaisesti. Usein on korotettu pelaajia turnauksessa saavutettujen voittojen määrän perusteella, siten, että vähintään N-1 voittoa (N kierrosten määrä) saaneita on korotettu (ei tosin aina). Etsitään siis satunnaisesti vaihtelevista turnaustuloksista huippuja. Tuossa on sellainen haittapuoli, että se väheksyy tasaisen hyviä turnaustuloksia tekeviä pelaajia. Olisiko jokin muu lähestymistapa turnaustulosten arviointiin parempì?

-- Markku Jantunen, 6.4. 2003

Petriltä kysyisin vielä, että jos kerran mutun pohjana ei voi käyttää turnaustulosten lisäksi edes kerhopelien tuloksia, koska niitä ei ole tarpeeksi, niin mitä hänen mielestään mutun pohjana pitäisi käyttää? Vahvan pelaajan suorittamaa kokonaan laadullista arviointia?

Onko tuollaisen laadullisen arvioinnin pätevyydestä muuten yleisesti ottaen mitään näyttöä? Onko tutkimuksia tehty siitä, miten hyvin esim. shakissa tai gossa vahvat pelaajat osaavat arvioida muiden pelaajien pelitasoa? Kuinka yhteneviä tietynvahvuisten pelaajien arviot toisten pelaajien pelitaidoista yleensä ovat? Jos arvioija on itse pelannut arviointipelit, kuinka todennäköisesti voiton tai tappion aiheuttamat tunnereaktiot vaikuttavat arvioihin? Esimerkiksi aiheuttaako kenties satunnainen tappioputki jotakuta arvioitavaa vastaan harhan tämän vahvuudesta? Kuinka paljon tietoisuus tällaisen harhan olemassaolosta ja omakohtainen kokemus siihen lankeamisesta menneisyydessä voi aiheuttaa ylikompensaatiota? Monia muitakin kysymyksiä voi aiheellisesti kysyä jo pelkästään luokittamistehtävän kognitiivisesta vaikeudesta.

-- Markku Jantunen, 6.4. 2003

Muistuttaisin vielä, että niitä pelejä pitäisi olla juuri tietyllä tasolla tarpeeksi. Se että on 45 turnauspeliä takana ei hirveästi lämmitä, jos henkilöä on jo korotettu sinä aikana useaan otteeseen. Yleisesti ottaen voisin väittää, että ainakin tasolle 3 kyu saakka mutu-menetelmä on ainut toimiva. Tasolla 1 dan tai parempi alkaa olle kehittymisnopeus sen verran hidasta, että silloin voidaan ehkä joitain pidempiaikaisia tilastollisia menetelmiä käyttää, mutta varteenotettavaa se alkaa olla vasta suuremmilla daneilla. Tätä ennen voi pystytä tilastollisilla menetelmillä saavuttamaan kovin suurta varmuutta korotuksen aiheellisuudesta ja ovat siten samanarvoisessa asemassa mutu-fiilistelyn kanssa.

Tämä ei tietenkään tarkoita etteikö tilastollisia menetelmiä voisi käyttää, päinvastoin. Ne tukisivat hyvin mutu-fiiliksiä. Täydellistä luokitussysteemiä on mahdotonta tehdä ja uskon mutu-fiilistely (kenties laadullinen arviointi on vielä parempi) on kaikista paras korotusmekanismi danitasoille saakka. Sitä paitsi eihän sillä ole hirveästi merkitystä, jos todelliselta tasoltaann 9kyu pelaaja onkin arvioitu 10kyuksi.. vai onko ? Tuo ero alkaa olla merkittävä dan-pelaajien tasolla. Ei kovinkaan paljon ennen sitä.

Mielestäni myös tätä luokitusjuttua tunnutaan pidettävän aivan liian suuressa arvossa. Kyse ei ole elämää suuresta asiasta. Sen tarkoituksenahan on vain indikoida sopivaa tasoituskivien määrää eri pelaajien välillä ja yksilöille sitä että onko pelaamisesta / opiskelusta ollut hyötyä.

-- Jukka Lindström, 6.4.2003

Höh, puhun tietenkin tapauksesta, jossa henkilö on pelannut samalla luokituksella 45 turnauspeliä. Mitä mieltä Jukka tai muut ovat siitä, että onko dan-tasolla tai dan-tason välittömässä tuntumassa 45 turnauspeliä riittävästi, jotta niistä voisi tehdä mitään johtopäätöksiä? Mitä Jukka arvelisit siitä, kuinka monta turnauspeliä yleensä katsotaan?

Muista mainita, että luokitusjuttua pidetään aivan liian suuressa arvossa sellaisessakin tilanteissa, kun sinulle tulee joku selittämään että dan- ja kyu-pelaajien välillä on olemuksellinen ero ... (Minulle ovat eräät pitäneet siitä aikoinaan pitkiä luentoja, joista voi hyvällä syyllä sanoa, että paskaa jauhoivat. Tämä jo siitäkin syystä, että Japanissa dan luokitukset alkavat hieman eri taitotasolta kun Euroopassa puhumattakaan Koreasta.)

-- Markku Jantunen, 6.4. 2003

Shakissahan on kaksi eri systeemiä joilla on löyhä yhteys. VAhvuusluku, joka on puhtaasti tilastollisesti laskettu ,ja arvonimi. Molemmille on sinänsä selkeät säännöt. Ensin täytyy saada kiinnitys ja sitten vaikka suurmestritasontulos ja sitten arvonimen saa. Arvonimet ja vahvuusluku korreloivat, mutta ei ole mitenkään harvinaista että Fide-mestarin vahvuusliku on parempi kuin suurmestarin. Suomessa on ainakin yksi tälläinen tapaus.

Shakin harrastajamäärät ovat moninkertaiset ja siitä seuraa, etä pelaajat pelaavat turnaukssa monesti jota kuinkin samantasoisia pelaajia vastaan ==> Elo systeemin mukaiset arviointi menetelmät toimivat hyvin, jokainen peli kerryttää informaatiota. Jos pelataan vain suomessa niin 45 peliä voi olla aivan riittävä tai kerrassaan riittämätön. Jos on kyse tasa-avauksista niin valtaosa peleistä on paljon vahvempia tai heikompia vastaan joista kertyvä informaatio on minimaalista (voittaa kun pitikin ja häviää kun pitikin).

Mutu pohjaisia luokituksia on Go:ssa käytetty koko sen ajan kun luokituksia on käytetty ja ovat jossain määrin toimineetkin. Siinä mutu menetelmän validiteetti.

Tilastollisesa menetelmässä korotukset voisivat tulla jopa hitaammin (vrt. KGS luokituskeskustelu nyysseissä)

Yksi mahdollisuus olisi luopua luokituksista ja siirtyä vahvuuslukuihin. Se olisi läpinäkyvämpää. Tasoitusten kannalta se olisi hieman hankalampaa.

Petri P


On totta, että 45 peliä voi olla aivan riittävä tai aivan riittämätön - tämä riippuu tietenkin tuloksista itsestään. Olennaista tässä on nyt se, että 45 peliä voi olla aivan riittävä. Riittävyyttä on mahdollista arvioida muutenkin kuin mutupohjalta. On esimerkiksi mahdollista laskea, mikä luokitus on tuloksiin nähden todennäköisimmin oikea ja kuinka todennäköisesti saavutettu tulos on pelkkää tuuria ja voimassa oleva luokitus oikea.

Jos luotetaan pelkkään mutuun, on olemassa puolueellisuuden riski. Siksi mielestäni korotukseen vaadittavalle todistustaakalle pitäisi olla jokin yläraja, jonka jälkeen korotus tulee automaattisesti.

Itse asiassa muuten mielikuvasi siitä, että tasa-alkuturnauksissa valtaosa peleistä on paljon vahvempia tai paljon heikompia vastaan, on vanhentunut. Tämä kertonee siitä, että olet ollut Petri varsin kauan poissa kuvioista. :-) Nykyään tilanne on - toisin kuin vielä 5-10 vuotta sitten - niin hyvä, että tasa-alkuturnauksissa valtaosa välttyy joutumasta pelaamaan yli 1-2 kiveä vahvempia tai heikompia vastaan. Tämän havainnon voit tehdä esimerkiksi viime helmikuisen Takapotku-turnauksen tulosluettelosta. Sitä paitsi EGF:n voittamistodennäköisyystilasto eri luokitusten välillä kertoo, ettei ole aivan tavatonta voittaa 3 tai 4 luokkaa vahvempia dan-tason tuntumassakaan. Esimerkiksi 1 kyu voittaa 3 danin 14 prosentin todennäköisyydellä eli joka seitsemäs kerta ja 4 danin 9 prosentin todennäköisyydellä eli noin joka yhdestoista kerta. Suomalaiset turnaukset ovat keräävät nykyään puolensataa osallistujaa ja kerhojen jäsenmäärien voimakas, koko ajan jatkuva kasvu ennustanee, että turnauksien koko kasvaa lähivuosina vielä suuremmaksi. Turnaukset, joissa tulee muutama yllätys, alkavat olla enemmän sääntö kuin poikkeus.

Joka tapauksessa turnaustulosten seuraaminen alkaa olla nykyisen kokoisissa turnauksissa rasite. Kun pelit päättyvät, yleensä palkintojenjako seuraa varsin pian. Korotukseen oikeuttavien turnaustulosten etsiminen yleisesti käytettävästä turnaustulosformaatista, jossa näkyvillä on vastustajan numero ja tulos kutakin vastustajaa vastaan, on työlästä. Myöskin tässä kiireessä pelaajan menneiden turnaustulosten asianmukainen huomioonottaminen on kaiken sählingin keskellä aika työläs operaatio.

-- Markku Jantunen, 7.4. 2003.


Takaisin sivulle Luokituskeskustelu. Seuraava osa: LuokituskeskusteluIII

Authentication code:

Toolbar

Comment signature

Add new attachment

Only authorized users are allowed to upload new attachments.

Here's a short reminder on the most common formatting rules you have at your disposal. A complete list is available in TextFormattingRules.

(empty line)     Make a paragraph break.
----             Horizontal ruler
[link]           Create hyperlink to "link", where "link" can be either an internal 
                 WikiName or an external link (http://)
[text|link]      Create a hyperlink where the link text is different from the actual 
                 hyperlink link.
[text|wiki:link] Create a hyperlink where the link text is different from the 
                 actual hyperlink link, and the hyperlink points to a named Wiki. 
                 This supports interWiki linking.

*                Make a bulleted list (must be in first column). Use more (**) 
                 for deeper indentations.
#                Make a numbered list (must be in first column). Use more (##, ###) 
                 for deeper indentations.

!, !!, !!!       Start a line with an exclamation mark (!) to make a heading. 
                 More exclamation marks mean bigger headings.

__text__         Makes text bold.
''text''         Makes text in italics (notice that these are single quotes ('))
{{text}}         Makes text in monospaced font.
;term:def        Defines 'term' with 'def'.  Use this with empty 'term' to make short comments.
\\               Forced line break (please use sparingly).

|text|more text| Makes a table. Double bars for a table heading.

Don't try to use HTML, since it just won't work.

To embed images just put them available on the web using one of the approved formats, and they will get inlined automatically. To see the list of approved formats, go check SystemInfo.

To make a code block, use triple {'s to open, and triple }'s to close.

(Wondering where this text comes from? It's on a page called Edit Page Help, which you can edit too!)