Add new attachment

Only authorized users are allowed to upload new attachments.

This page (revision-58) was last changed on 08-Apr-2003 17:46 by JanneJalkanen  

This page was created on 30-Mar-2003 01:30 by Matti_Siivola

Only authorized users are allowed to rename pages.

Only authorized users are allowed to delete pages.

Difference between version and

At line 1 added 4 lines
Jatkoa sivulta [Luokituskeskustelu]. Seuraava osa: [Luokituskeskustelu III].
----
At line 9 changed 8 lines
|IGS-IRL|Suomi|Saksa|Ranska|Romania|yhteensä|Eurooppa Suomea lukuun ottamatta|
|+3|**|-|-|-|2||
|+2|****|-|**|*|7|***|
|+1|******|***|*****|**|16|*****************|
|0|***|***|**********|*******|23|******************************|
|-1|*|****|*|****|10|********************|
|-2|-|*|-|*|2|***|
|-3|-|-|-|-|-|*|
|IGS-IRL|Suomi|Saksa|Ranska|Romania|yhteensä|Eurooppa Suomea lukuun ottamatta
|+3|**|-|-|-|2|
|+2|****|-|**|*|7|***
|+1|******|***|*****|**|16|*****************
|0|***|***|**********|*******|23|******************************
|-1|*|****|*|****|10|********************
|-2|-|*|-|*|2|***
|-3|-|-|-|-|-|*
At line 21 changed 6 lines
|Maa|IGS-IRL -poikkeamien keskihajonta maassa|IGS-IRL -ero keskimäärin Suomeen|
|Saksa|0.6|-1.4|
|Ranska|0.7|-0.7|
|Romania|0.7|-1.3|
|Suomi|0.9|-|
|Koko Muu Eurooppa|0.7|-1.3|
|Maa|IGS-IRL -poikkeamien keskihajonta maassa|IGS-IRL -ero keskimäärin Suomeen
|Saksa|0.6|-1.4
|Ranska|0.7|-0.7
|Romania|0.7|-1.3
|Suomi|0.9|-
|Koko Muu Eurooppa|0.7|-1.3
At line 52 changed 12 lines
|80|1|*|
|75|1|*|
|70|5|*****|
|65|0||
|60|2|**|
|55|1|*|
|50|7|*******|
|45|0||
|40|2|**|
|35|0||
|30|1|*|
|25|1|*|
|80|1|*
|75|1|*
|70|5|*****
|65|0|
|60|2|**
|55|1|*
|50|7|*******
|45|0|
|40|2|**
|35|0|
|30|1|*
|25|1|*
At line 204 added 95 lines
Puhtaiden matemaattisten todennäköisyyksien laskeminen yhdestä tai useammasta turnauksesta on tietenkin vain yksinkertaista binomikikkailua. Ongelmana on vain voittotodennäköisyyksien tietäminen eri luokitusten välillä. EGF:n [taulukko|http://www.european-go.org/rating/statev.html] antaa joitain numeroita, tosin veikkaan että Suomessa heikomman pelaajan voittotodennäköisyys on taulukkoarvoja pienempi, koska luokitusjakauma lienee homogeenisempi kuin koko Euroopassa.
Tein joskus jo syksyllä tällaisen [Matlab-funktion|http://alpha.cc.tut.fi/~anttil/korotusautomaatti.m] joka laskee tiettyjen turnaustulosten todennäköisyyden (toivottavasti oikein). Yksittäisten pelien voittotodennäköisyydet pitää poimia käsin taulukosta, mutta automatisointi ei voine olla vaikeaa.
Funktio antaa todennäköisyyden sille että tietyntasoinen pelaaja saa vähintään tietyn verran pisteitä. Tuloksen voi tulkita todennäköisyydeksi sille että mahdollinen korotus on virheellinen. Ensimmäisessä Markun esimerkissä tämä prosentti on 25, eli en korottaisi pelkästään tämän perusteella. Toisessa tapauksessa 3k:ksi korottamisen virhetodennäköisyys on 7% ja 2k:ksi korottamisen 11%. Ei vieläkään oikein vakuuta matemaatikkoa korotuksen tarpeesta, yleensä tämänkaltaisessa hypoteesien vääräksi todistamisessa ei olla tyytyväisiä jos virhemahdollisuus > 5%.
Ehkä tärkein johtopäätös on että yksittäisen turnauksen perusteella on vaikea aukottomasti todistaa korotuksen tarvetta. Sen sijaan useiden peräkkäisten turnausten tuloksista voisi helposti päätellä korotustarpeen. Jos esimerkkipelaajamme pelaisi kaikki yllämainitut 10 peliä peräkkäin tulisi virheprosentiksi enää 4%.
Ohjelman tein aikoinaan ihan vain matemaattisesta mielenkiinnosta enkä niinkään siksi että olisin kovin kiinnostunut luokituksista/luokittamisesta.
---[Antti Lehtinen], 2.4.2003
Tuo Markun ensimmäinen esimerkki käsitteli 4 kyun pelaajaa, jolla on uusi tulos 4k+ 3k+ 3k+ 1d- 1k- __sekä__ aiemmin kaksi-kolme osapuilleen samalla tavalla mennyttä turnausta. Vastaavasti toisessa esimerkissä oli mukana jotain lähtöoletuksia, jotka nähdäkseni voidaan helposti ottaa huomioon noita virheprosentteja laskiessa. Jos olisi hitusen ylimääräistä aikaa niin tekisi kyllä itse mieli laskeskella nuo prosentit paremmin esimerkkejä noudattaen :-)
---[Antti Holappa], 4.4.2003
Minusta kilke, joka laskee juuri päättyneestä ja menneistä turnauksista arvion voimassa olevalla luokituksella saavutetun yhteistuloksen positiiviselle yllättävyydelle, olisi erittäin suuresti vaivaa säästävä ja luokittajien virheiden määrää vähentävä.
Todellisuudessa nimittäin luokittajien päätelmät turnaustuloksista sinänsä eivät perustu mihinkään jumalaiseen intuitioon vaan ovat usein pelkkiä muistinvaraisia arvauksia kenties kauankin sitten pelattujen turnaustulosten näyttöarvosta. Niissä on mukana kaikenlaisia enemmän tai vähemmän vaihtelevia nyrkkisääntöjä ja rautalankamalleja, joiden pätevyydestä ei ole mitään takeita ja jotka eivät edes perustu mihinkään vakiintuneeseen kansanviisauteen.
-- [Markku Jantunen], 4.4. 2003
Keiden luokittajien puolesta puhut?
-- [Hiki], 4.4.2003
Omastani tietysti.
Mutta ei ole mitään syytä olettaa asiasta vaikenevilta mitään muuta. Tavoista, joilla luokittajat tekevät päätelmiä korotustarpeista eivät taida olla täällä eikä muualla julkisesti kertoneet luokittajista ketkään muut paitsi minä ja Paavo. (Paavo selosti menetelmäänsä, jolla hän arvioi luokitukset kerhopeleissä käytetyistä tasoituksista.)
Vesa kertoi, että hän katsoo ylempien kyu-pelaajien ja dan-pelaajien tapauksessa useaa turnaustulosta, muuten juuri päättynyttä. Täysin epäselväksi jäi, miten Vesa erottelee turnaustuloksista hänen mielestään korotuksiin oikeuttavat tulokset muista. (Vastaukset tyyliin "Korotamme tarpeen mukaan" tai "käytämme mutu-menetelmää" ovat nollainformaatiota.)
-- [Markku Jantunen], 4.4. 2003
Toisaalta pienellä pelimäärällä "mutu" on ainoa toimiva. Tilastollisen näytön kerääminen edellyttää niin paljon pelejä, että ei se onnistu. Pitäsi olla enemmän kovatasoisia pelaajia, jotta näyttöjä voisi antaa kerhoilloissakin ==> saataisin enemmän aineistoa ja muutkin kuin MUTU toimii.
Oma ongelma on enempi siinä että oppis pelaamaan :-)
-- Petri P, 6.4.2003
On tietenkin totta, että riittävän pienellä pelimäärällä mutu on ainoa toimiva menetelmä. Mutta mikä määrä on "liian pieni"? Onko ihan varma, että tarpeeksi pelejä ei nykyään vielä ole __kenelläkään__, ettei __missään tapauksessa__ kannata soveltaa __minkäänlaista__ laskentaa? Onko esimerkiksi 45 turnauspeliä liian vähän?
Sitä paitsi turnaustulosten arviointia lähestytään jo ymmärtääkseni melko kaavamaisesti. Usein on korotettu pelaajia turnauksessa saavutettujen voittojen määrän perusteella, siten, että vähintään N-1 voittoa (N kierrosten määrä) saaneita on korotettu (ei tosin aina). Etsitään siis satunnaisesti vaihtelevista turnaustuloksista huippuja. Tuossa on sellainen haittapuoli, että se väheksyy tasaisen hyviä turnaustuloksia tekeviä pelaajia. Olisiko jokin muu lähestymistapa turnaustulosten arviointiin parempì?
-- [Markku Jantunen], 6.4. 2003
Petriltä kysyisin vielä, että jos kerran mutun pohjana ei voi käyttää turnaustulosten lisäksi edes kerhopelien tuloksia, koska niitä ei ole tarpeeksi, niin mitä hänen mielestään mutun pohjana pitäisi käyttää? Vahvan pelaajan suorittamaa kokonaan laadullista arviointia?
Onko tuollaisen laadullisen arvioinnin pätevyydestä muuten yleisesti ottaen mitään näyttöä? Onko tutkimuksia tehty siitä, miten hyvin esim. shakissa tai gossa vahvat pelaajat osaavat arvioida muiden pelaajien pelitasoa? Kuinka yhteneviä tietynvahvuisten pelaajien arviot toisten pelaajien pelitaidoista yleensä ovat? Jos arvioija on itse pelannut arviointipelit, kuinka todennäköisesti voiton tai tappion aiheuttamat tunnereaktiot vaikuttavat arvioihin? Esimerkiksi aiheuttaako kenties satunnainen tappioputki jotakuta arvioitavaa vastaan harhan tämän vahvuudesta? Kuinka paljon tietoisuus tällaisen harhan olemassaolosta ja omakohtainen kokemus siihen lankeamisesta menneisyydessä voi aiheuttaa ylikompensaatiota? Monia muitakin kysymyksiä voi aiheellisesti kysyä jo pelkästään luokittamistehtävän ''kognitiivisesta'' vaikeudesta.
-- [Markku Jantunen], 6.4. 2003
Muistuttaisin vielä, että niitä pelejä pitäisi olla juuri tietyllä tasolla tarpeeksi. Se että on 45 turnauspeliä takana ei hirveästi lämmitä, jos henkilöä on jo korotettu sinä aikana useaan otteeseen. Yleisesti ottaen voisin väittää, että ainakin tasolle 3 kyu saakka mutu-menetelmä on ainut toimiva. Tasolla 1 dan tai parempi alkaa olle kehittymisnopeus sen verran hidasta, että silloin voidaan ehkä joitain pidempiaikaisia tilastollisia menetelmiä käyttää, mutta varteenotettavaa se alkaa olla vasta suuremmilla daneilla. Tätä ennen voi pystytä tilastollisilla menetelmillä saavuttamaan kovin suurta varmuutta korotuksen aiheellisuudesta ja ovat siten samanarvoisessa asemassa mutu-fiilistelyn kanssa.
Tämä ei tietenkään tarkoita etteikö tilastollisia menetelmiä voisi käyttää, päinvastoin. Ne tukisivat hyvin mutu-fiiliksiä. Täydellistä luokitussysteemiä on mahdotonta tehdä ja uskon mutu-fiilistely (kenties laadullinen arviointi on vielä parempi) on kaikista paras korotusmekanismi danitasoille saakka. Sitä paitsi eihän sillä ole hirveästi merkitystä, jos todelliselta tasoltaann 9kyu pelaaja onkin arvioitu 10kyuksi.. vai onko ? Tuo ero alkaa olla merkittävä dan-pelaajien tasolla. Ei kovinkaan paljon ennen sitä.
Mielestäni myös tätä luokitusjuttua tunnutaan pidettävän aivan liian suuressa arvossa. Kyse ei ole elämää suuresta asiasta. Sen tarkoituksenahan on vain indikoida sopivaa tasoituskivien määrää eri pelaajien välillä ja yksilöille sitä että onko pelaamisesta / opiskelusta ollut hyötyä.
-- [Jukka Lindström|Kijoe], 6.4.2003
Höh, puhun tietenkin tapauksesta, jossa henkilö on pelannut samalla luokituksella 45 turnauspeliä. Mitä mieltä Jukka tai muut ovat siitä, että onko dan-tasolla tai dan-tason välittömässä tuntumassa 45 turnauspeliä riittävästi, jotta niistä voisi tehdä mitään johtopäätöksiä? Mitä Jukka arvelisit siitä, kuinka monta turnauspeliä yleensä katsotaan?
Muista mainita, että luokitusjuttua pidetään aivan liian suuressa arvossa sellaisessakin tilanteissa, kun sinulle tulee joku selittämään että dan- ja kyu-pelaajien välillä on olemuksellinen ero ... (Minulle ovat eräät pitäneet siitä aikoinaan pitkiä luentoja, joista voi hyvällä syyllä sanoa, että paskaa jauhoivat. Tämä jo siitäkin syystä, että Japanissa dan luokitukset alkavat hieman eri taitotasolta kun Euroopassa puhumattakaan Koreasta.)
-- [Markku Jantunen], 6.4. 2003
Shakissahan on kaksi eri systeemiä joilla on löyhä yhteys. VAhvuusluku, joka on puhtaasti tilastollisesti laskettu ,ja arvonimi. Molemmille on sinänsä selkeät säännöt. Ensin täytyy saada kiinnitys ja sitten vaikka suurmestritasontulos ja sitten arvonimen saa. Arvonimet ja vahvuusluku korreloivat, mutta ei ole mitenkään harvinaista että Fide-mestarin vahvuusliku on parempi kuin suurmestarin. Suomessa on ainakin yksi tälläinen tapaus.
Shakin harrastajamäärät ovat moninkertaiset ja siitä seuraa, etä pelaajat pelaavat turnaukssa monesti jota kuinkin samantasoisia pelaajia vastaan ==> Elo systeemin mukaiset arviointi menetelmät toimivat hyvin, jokainen peli kerryttää informaatiota. Jos pelataan vain suomessa niin 45 peliä voi olla aivan riittävä tai kerrassaan riittämätön. Jos on kyse tasa-avauksista niin valtaosa peleistä on paljon vahvempia tai heikompia vastaan joista kertyvä informaatio on minimaalista (voittaa kun pitikin ja häviää kun pitikin).
Mutu pohjaisia luokituksia on Go:ssa käytetty koko sen ajan kun luokituksia on käytetty ja ovat jossain määrin toimineetkin. Siinä mutu menetelmän validiteetti.
Tilastollisesa menetelmässä korotukset voisivat tulla jopa hitaammin (vrt. KGS luokituskeskustelu nyysseissä)
Yksi mahdollisuus olisi luopua luokituksista ja siirtyä vahvuuslukuihin. Se olisi läpinäkyvämpää. Tasoitusten kannalta se olisi hieman hankalampaa.
Petri P
----
On totta, että 45 peliä voi olla aivan riittävä tai aivan riittämätön - tämä riippuu tietenkin tuloksista itsestään. Olennaista tässä on nyt se, että 45 peliä voi olla aivan riittävä. Riittävyyttä on mahdollista arvioida muutenkin kuin mutupohjalta. On esimerkiksi mahdollista laskea, mikä luokitus on tuloksiin nähden todennäköisimmin oikea ja kuinka todennäköisesti saavutettu tulos on pelkkää tuuria ja voimassa oleva luokitus oikea.
Jos luotetaan pelkkään mutuun, on olemassa puolueellisuuden riski. Siksi mielestäni korotukseen vaadittavalle todistustaakalle pitäisi olla jokin yläraja, jonka jälkeen korotus tulee automaattisesti.
Itse asiassa muuten mielikuvasi siitä, että tasa-alkuturnauksissa valtaosa peleistä on paljon vahvempia tai paljon heikompia vastaan, on vanhentunut. Tämä kertonee siitä, että olet ollut Petri varsin kauan poissa kuvioista. :-) Nykyään tilanne on - toisin kuin vielä 5-10 vuotta sitten - niin hyvä, että tasa-alkuturnauksissa valtaosa välttyy joutumasta pelaamaan yli 1-2 kiveä vahvempia tai heikompia vastaan. Tämän havainnon voit tehdä esimerkiksi viime helmikuisen Takapotku-turnauksen tulosluettelosta. Sitä paitsi
[EGF:n voittamistodennäköisyystilasto|http://www.european-go.org/rating/statev.html] eri luokitusten välillä kertoo, ettei ole aivan tavatonta voittaa 3 tai 4 luokkaa vahvempia dan-tason tuntumassakaan. Esimerkiksi 1 kyu voittaa 3 danin 14 prosentin todennäköisyydellä eli joka seitsemäs kerta ja 4 danin 9 prosentin todennäköisyydellä eli noin joka yhdestoista kerta. Suomalaiset turnaukset ovat keräävät nykyään puolensataa osallistujaa ja kerhojen jäsenmäärien voimakas, koko ajan jatkuva kasvu ennustanee, että turnauksien koko kasvaa lähivuosina vielä suuremmaksi. Turnaukset, joissa tulee muutama yllätys, alkavat olla enemmän sääntö kuin poikkeus.
Joka tapauksessa turnaustulosten seuraaminen alkaa olla nykyisen kokoisissa turnauksissa rasite. Kun pelit päättyvät, yleensä palkintojenjako seuraa varsin pian. Korotukseen oikeuttavien turnaustulosten etsiminen yleisesti käytettävästä turnaustulosformaatista, jossa näkyvillä on vastustajan numero ja tulos kutakin vastustajaa vastaan, on työlästä. Myöskin tässä kiireessä pelaajan menneiden turnaustulosten asianmukainen huomioonottaminen on kaiken sählingin keskellä aika työläs operaatio.
-- [Markku Jantunen], 7.4. 2003.
----
Takaisin sivulle [Luokituskeskustelu]. Seuraava osa: [LuokituskeskusteluIII]
Version Date Modified Size Author Changes ... Change note
58 08-Apr-2003 17:46 33.478 kB JanneJalkanen to previous
57 07-Apr-2003 16:14 33.406 kB JariKoivikko to previous | to last
56 07-Apr-2003 15:29 33.298 kB 194.241.75.27 to previous | to last
55 07-Apr-2003 14:38 30.935 kB PetriP to previous | to last
54 06-Apr-2003 19:47 29.528 kB 195.148.75.87 to previous | to last
53 06-Apr-2003 16:15 28.694 kB Kijoe to previous | to last
52 06-Apr-2003 16:12 28.625 kB Kijoe to previous | to last
51 06-Apr-2003 15:59 27.136 kB 195.148.75.87 to previous | to last
50 06-Apr-2003 15:32 25.994 kB 195.148.75.87 to previous | to last
49 06-Apr-2003 15:02 25.393 kB 195.148.75.87 to previous | to last
48 06-Apr-2003 14:37 25.12 kB PetriP to previous | to last
47 04-Apr-2003 17:59 24.751 kB 194.241.75.27 to previous | to last
46 04-Apr-2003 17:35 23.993 kB Hiki to previous | to last
45 04-Apr-2003 16:13 23.931 kB 194.241.75.27 to previous | to last
44 04-Apr-2003 15:47 23.184 kB AnttiHolappa to previous | to last
43 04-Apr-2003 15:47 23.182 kB AnttiHolappa to previous | to last
42 04-Apr-2003 15:46 23.21 kB AnttiHolappa to previous | to last
41 04-Apr-2003 15:46 23.21 kB AnttiHolappa to previous | to last
« This page (revision-58) was last changed on 08-Apr-2003 17:46 by JanneJalkanen