At line 11 added one line |
* Jos pelaaja on pelaamatta, hänen luokituksensa ei saisi muuttua. |
At line 14 changed one line |
* Pelaajista voidaan tarvita ainakin kahdenlaista informaatiota: absoluuttinen tasoero (tasoituksia tms. varten) ja keskinäinen järjestys. |
* Pelaajista voidaan tarvita ainakin kahdenlaista informaatiota: absoluuttinen tasoero (tasoituksia tms. varten) ja keskinäinen järjestys. Nämä eivät ole keskenään samassa avaruudessa. |
* Luokitusten tulisi toimia siten, että ylemmäksi sijoittunella on suurempi todennäköisyys voittaa keskinäinen peli kuin alemmalla. |
* Järjestelmän pitäisi jollakin järkevällä tavalla keskiarvoistaa sen yli, etteivät pelaajien pelitaidot ole keskenään verrattavissa yksiulotteisesti (A > B, B > C mutta C > A -tapaus) |
* Voitettujen pelien tulisi nostaa luokitusta. |
* Hävittyjen pelien tulisi alentaa luokitusta. |
* Luokitusjärjestelmän tulisi olla reilu eli sen tulisi kohdella pelaajia näiden henkilöllisyydestä riippumatta. |
* Luokitusten verrattavuudesta muihin luokitusjärjestelmiin (EGF, AGA, IGS...) pitäisi voida sanoa jotain. |
* Uusien mutta kokeneiden pelaajien pitäisi saada helposti tasoaan vastaava luokitus (tarkoitan esim. kiinalaista amatööridania). |
At line 45 added 199 lines |
|
Tuo tasoituskivien päättely luokituksesta sisältää mielestäni sellaisen ongelman, että |
tasoituskivet eivät käyttäydy täysin lineaarisesti vaan niiden arvo kasvaa kivien lisääntyessä (oma havaintoni tasoituspeleistä ja lisäksi kokeiluun perustuva intuitio, että 17 tasoituskivellä on hyvin lähellä tappaa kaikki valkoisen kivet optimaalisella pelillä, mutta (361-17)/17)=20 >> 2*6,5). On myös vaikea sanoa, onko 4 ja 5 tasoituskiven välillä yhtäsuuri ero kuin esim. 5 ja 6 kiven. On myös muistettava, että yhden kiven tasoitus vastaa oikeasti vain puolen kiven tasoitusta, kahden kiven tasoitus 1 1/2 kiven tasoitusta jne. |
|
-- Kari |
|
Vaatimukset ovat keskenään sen verran ristiriitaiset, että jonkinlainen kompromissi täytyy tehdä. Mielestäni pelaajien asettaminen järjestykseen on tärkeintä luokitusten yläpäässä. Tein ratkaisuehdotuksen tämän ajatuksen pohjalta. Siirsin sen sivulle [Luokitusten paranteluehdotuksia], koska se ei tälle sivulle kuulunut. |
|
[Antti Tarvainen] |
|
"Luokitusten tulisi toimia siten, että ylemmäksi sijoittunella on suurempi todennäköisyys voittaa keskinäinen peli kuin alemmalla." ei voi toimia yleisesti juurikin noiden silmukoiden takia. |
|
-- Kari |
|
Kommentoin kommenttia sivulla [LuokitustenParanteluehdotuksia]: "Reiluudella ei ole mitään tekemistä oikeellisuuden tai matemaattisen luotettavuuden/uskottavuuden kanssa. Pikemminkin päinvastoin, matemaattinen malli on pahimmillaan erityisen epäreilu, koska se ei voi ottaa huomioon mitään muuta kuin määrämuotoisen datan. Sen sijaan se sitten on oikeellisempi ja sen uskottavuus on tutkittavissa ja välillä jopa ymmärrettävissä." |
|
Olen yhtä mieltä siitä, että reiluus ja matemaattinen luotettavuus/uskottavuus ovat kaksi erillistä ulottuvuutta, jotka eivät ole toistensa kanssa sinänsä ristiriidassa eivätkä sopusoinnussa. Reiluuden ytimessä mielestäni on, että kenenkään mahdollisuudet (luokitus, joka esimerkiksi määrää McMahon-ryhmän) missään turnauksessa eivät riipu ei-pelillisistä ominaisuuksista 1. kaikki kilpailevat niistä samoilla ehdoilla. On esimerkiksi teoriassa täysin mahdollista, että luokittaminen hoidetaan täysin ihmisvoimin ja silti saavutetaan reiluuden aste, johon kenelläkään ei ole mitään huomauttamista. Ongelma on vain siinä, että se vaatisi huomattavan paljon nykyistä enemmän ihmisresursseja ja luokittajilta täydellistä intressittömyyttä luokittamisasioissa. Mielestäni tilanne, jossa pelaaja esimerkiksi on kehittynyt nopeasti lyhyessä ajassa ilman, että se näkyy vielä määrämuotoisessa datassa luokittamisjärjestelmän näkökulmasta tarpeeksi selvästi ja jää siten ilman voittamistodennäköisyyksien kannalta oikeutettua paikkaansa turnauksessa, ei ole yllä antamani reiluuden määritelmän kannalta kovinkaan hyvä esimerkki epäreiluudesta, koska sellaisessa tilanteessa ao. pelaajaa kohdeltaisiin samoilla ehdoilla kuin muitakin. Sen sijaan tuollainen tilanne olisi tapaus, jossa oikeellisuudesta (ainakin joidenkin ihmisten, mahdollisesti useimpien ihmisten subjektiivisten mielipiteiden mukaan) tingittäisiin reiluuden hyväksi. |
|
Käytännössä kaikki luokitusmenetelmät sisältävät jonkinlaisen trade-offin reiluuden ja oikeellisuuden välillä. Paras on varmaan kaikkien mielestä sellainen, joka on sekä täysin reilu että täysin oikeellinen. Käytännössä molemmista on pakko tinkiä jonkin verran. Mielipide-eroja on siitä, kumpaa painotetaan ja kuinka paljon. |
|
(Täsmennys: tarkoitan "ei-pelillisillä ominaisuuksilla" esimerkiksi sitä, kuinka paljon pelaaja on tekemisissä hänen luokituksistaan päättävien kanssa, millä on merkitystä mm. siihen kuinka täsmällistä ja ajankohtaista informaatiota näillä on hänen pelikunnostaan. Koska ihmiset ovat inhimillisiä, joskus myös luokittajan ja luokitettavan henkilökohtaisilla väleillä voi olla vaikutusta luokittamispäätösten taustalla oleviin intuitiivisiin käsityksiin (olen pahoillani, että tuo oli sanottava, en viittaa keneenkään henkilökohtaisesti, esitys vain ei olisi ollut riittävä ilman tuota huomautusta). Lisäksi, jos luokitusta käytetään moniin eri tarkoituksiin, joiden vaatimukset ovat osittain ristiriitaiset, niiden tarkkuus ja reiluus kärsivät. Mielestäni kuitenkaan se, että turnausvastustajat ja heidän kunkihetkinen pelikuntonsa sekä siten luokittamiseen käytetty aineisto ovat jossain rajoissa sattumanvaraisia, ei kuulu ei-pelillisiin tekijöihin. Tuo sattumanvaraisuus on yleisesti käytettävien turnaussysteemien ominaisuus eikä ole ristiriidassa reiluuden kanssa, koska siitä on haittaa pitkällä aikälillä pelaajille melko tasaisesti ja on erittäin vaikeasti ennustettavissa ja hyväksikäytettävissä.) |
|
-- Markku, 26.4. |
|
Allekirjoitan Markun kommentin reiluudesta täysin. Henkilökohtaisesti olen ollut näissä luokituskeskusteluissa |
mukana siitä syystä, että mielestäni reiluutta tai tunnetta reiluudesta järjestelmässä tulisi lisätä ja siksi ottaa numeerinen järjestelmä käyttöön. |
|
-- Kari |
|
Seuraavassa "vahvuusluku" tarkoittaa minkä hyvänsä tarkasteltavan luokitusjärjestelmän |
pelaajalle antamaa arvoa. Oletan, että "luokitusjärjestelmä" on estimointifunktio, joka antaa estimaatin "vahvuudelle" annetun aineiston perusteella. |
|
Ehdotan, että tästä eteenpäin teoreettinen käsite ''reiluus'' määritellään seuraavasti: Järjestelmä on ''reilu'', jos kahden pelaajan täsmälleen samanlainen turnausmenestys johtaa täsmälleen samaan vahvuuslukuun. \\ |
Tämän reiluuden määritelmän ongelma on se, että reiluuden toteeamiseksi pitäisi saada täsmälleen identtiset vastustajat, mikä tapahtuu harvoin. Toteamisen sijaan voidaan kuitenkin tehdä tilastollisia testejä siitä, kuinka suurella todennäköisyydellä reiluushypoteesi on väärä. |
|
Voidaan esimerkiksi todeta, että jos kahdella pelaajalla on samoja pelaajia (a1, a2, .. ,an) vastaan samanlainen voittorivi, niin kasvattamalla n:n arvoa, saadaan yhä pienempi todennäköisyys sille, että pelaajien vahvuusluvut voisivat poiketa toisistaan enempää kuin jokin sopivasti valittu vakio, vaikkapa vahvuuslukujen keskihajonnan sopivasti valittu monikerta. |
|
Jotta aineistosta voisi olettaa jotain, täytyy olettaa pelituloksille jonkinlainen jakauma. Tämän jakauman ominaisuuksien selvittämiseksi mielestäni on dataa enemmän kuin tarpeeksi: EGF:n tulostilastot. En tiedä kuinka paljon on syytä olettaa, että eri maiden välillä on eroja pelitulosten jakaumassa. McMahon + perinteiset luokitukset on herkkä luokitusjakauman ominaisuuksille. Tätäkin voidaan kuitenkin estimoida. Ja haluttaessa voidaan ottaa jokin maa mittapuuksi. |
|
Nämä asiat eivät ole vaikeita, ainoastaan työläitä. En ole vapaaehtoinen tekemään tuollaista analyysiä. --[H|Henri Hansen] |
|
"Se, että kahden pelaajan täsmälleen samanlainen turnausmenestys johtaa täsmälleen samaan vahvuuslukuun", on kevyempi |
ehto reiluudelle kuin itse tarkoitin. Itse hain jotain sen suuntaista, että kukin pelaaja voi ennalta tietää kuinka pelitulokset tulevat vaikuttamaan luokitukseensa ja järjestelmä ei sisällä piilokomponentteja, jotka voivat suosia pelaajia eri tavoilla, esim. korotusperuste päätetään vasta tulosten jälkeen jne.. On myös huomattava, että järjestelmän varsinainen reiluus ja pelaajille syntyvä reiluuden tunne ovat kaksi eri asiaa, joskin riippuvaisia. Itselleni on tärkeää myös reiluuden tunne, siitä vaatimus automaattiselle luokittamiselle. |
|
-- Kari |
|
Mitä tarkoitat "varsinaisella reiluudella"? Tarkoitatko sillä kenties oikeellisuutta, siis luokitusten tarkkuutta eli kykyä ennustaa tulevia tuloksia oikein eli "matemaattista tarkkuutta/oikeellisuutta", josta Olli puhui? |
|
-- Markku |
|
"Varsinaisella reiluudella" tarkoitan luokittamisen riippumattomuutta pelaajan henkilöllisyydestä. Kyllähän esim. luokituskomiteakin voisi toimia täysin reilusti, mutta sitä on vain mahdoton todistaa, niin kauan kuin korotuskriteerit ovat jonkun pään sisällä, ts. reiluuden tunne voi olla alhainen reilussakin järjestelmässä. |
|
-- Kari |
|
Peräänkuulutat siis todistettavaa reiluutta. Todistettava reiluus kuuluu yleiseen urheilun eetokseen. Olen samaa mieltä siitä, että se on tavoiteltava asia, joskaan ei täysin ehdottomasti kaiken muun kustannuksella. (Mielestäni go-turnaukset ovat ennen kaikkea urheilua.) |
|
-- Markku |
|
Henrille voisin mainita, että pelaajamassan tulosten soveltaminen |
yksittäisen pelaajan tuloksiin, ilman perusteluja että miksi näin |
voidaan tehdä, tunnetaan tilastotieteessä ''vääränä yleistyksenä.'' |
Vaikka voikin kuulostaa hassulta, ''kenenkään'' yksittäisen pelaajan |
tulosjakauma ei välttämättä noudata pelaajamassan tulosjakaumaa. |
|
Tästä johtuu että kun pohditaan yksittäisten pelaajien luokituksia, |
eikä siis pelaajamassan jakaumia, pitää tämä tulosten yleistettävyys |
''erikseen osoittaa.'' Ja juuri tätä tarkoitan sillä, että |
yksittäisten pelaajien tulosjakaumat ovat ''tuntemattomia,'' eli esmes |
GOR-tulosjakaumat eivät todellakaan itsestään selvästi kerro miten |
kunkin yksittäisen pelaajan voi käydä. Ratakiskosta vääntäen, |
tämänsuuntainen yleistys ei ole suoraan tehtävissä ellei varmisteta |
että voiko sen tehdä. |
|
Ennen kuin joku laukoo että tuo yleistyshän on itsestään selvästi OK, |
muistutan että biologinen aineisto ei ole samanlaista kuin jonkin |
mekaanisen prosessin tuotos (esmes teollisuudessa,) ja siksi sen |
tilastollinen analyysi tunnetaankin omana alanaan, biometriana. |
Biologinen aineisto tyypillisesti on nimenomaan täynnä erilaisia |
yllätyksiä, kuten yleisestä aineistosta poikkeavat tapaukset, |
epämuotoiset jakaumat, J-käyrät, jnpp. Esimerkiksi ei ole aina |
arvioitavissa ''kuinka paljon'' jokin parametri muuttuu kun se kasvaa, |
tiedetään vain että se kasvoi, jolloin joudutaankiin käyttämään |
ei-parametrisia menetelmiä ordinaaliasteikolla. Suosittelen |
ehdottomasti tutustumaan biometrian ongelmakenttään, ja erityisesti |
ennen kuin yrittää väittää tätä puolta vastaan. |
|
Näin ollen pitäydyn kokonaan näiden tilastollisten ongelmien |
jauhamisesta väärin perustein. Tämän lisäksi ihmettelen |
metakeskustelua koskien ''reiluus''-sanan merkitystä; katson ettei |
se ole määriteltävissä tavalla joka on yksikäsitteinen, kaikkien |
mielestä sama, ja joka kuitenkin antaisi työkalun luokitusten tai |
-systeemin arviointiin. |
|
Mainittakoon että haluan yhä vilpittömästi toivottaa onnea niille, jotka |
aikovat oikeasti tutkia ja pohtia ''luokitussysteemien'' ongelmia ja niiden |
rakentamista. |
|
-- DonOlli, 27.4. |
|
En täysin ymmärrä, mihin noilla yleistyksen vastaisilla argumenteillasi tähtäät. En ole käsittääkseni puhunut mitään yleistämisestä. Puhuin teoreettisesta otuksesta, joka antaa ihmisille vahvuuslukuja. Tällä hetkellä vahvuuslukuja antavia instansseja on kaksi: EGF:n systeemi ja suomalaisten omat luokittajat, tärkeimpänä tietysti luokituskomitea. |
|
En lähde arvioimaan noiden toimivuutta millään tasolla. Koska erimielisyyttä eri järjestelmien toimivuudesta kuitenkin on, tarvitaan keskustelua siitä, miten toimivuutta voidaan arvioida ja mikä toimivuuden arviointimenetelmä on järkevä. Pelkkä jakaumien mahdollinen poikkeavuus ei ole mikään perustelu sille, ettei erilaisia luokitusjärjestelmiä voisi tilastollisesti arvioida. |
|
Arvioita voidaan tehdä, vaikka jakaumat olisivat mitä. Voidaan nimittäin todeta ainakin seuraavat kolme faktaa: |
* Pelitulokset eivät voi ''keskimäärin'' poiketa toisistaan kovin paljoa tasavahvoilla pelaajilla, vaikka pelitulosten jakaumat olisivatkin erilaisiakin. Tästä pitää huolen keskeinen raja-arvolause. |
* Jos luokitusjärjestelmä ei ''keskimäärin'' tuota luokituksia, joka käy jollain tapaa yksiin pelitulosten kanssa, se ei toimi oikein. |
* Luokitusjärjestelmän tuottamien luokitusten tuoma informaatio on käyttökelpoista vain, jos se toimii oikein. |
|
Erilaiset pohdinnat tilastollisten ja muiden menetelmien vahvuuksista, luotettavuudesta ja reiluudesta/tasapuolisuudesta ovat mielestäni erinomaisen tärkeitä. Ihmettelen suuresti sitä, että ''jos'' kerran numeeriset järjestelmät ovat tuhoontuomittuja, niin ''miten'' ihmisten fiiliksellä hoitama järjestelmä on parempi ja oikeampi? Tästä en ole lukenut mitään, ja olisi mielenkiintoista kuulla tilastollisten ja numeeristen menetelmien vastustajilta myös perusteluja inhimillisen järjestelmän puolesta, ei ainoastaan numeerisia vastaan. |
|
Lisäksi on mielestäni tunnustettava se tosiasia, että ihmisten hoitamanakin luokitusjärjestelmä on silti ''luokitussysteemi''. |
|
--[H|Henri Hansen] |
|
Yllä kirjoitettiin: "Tämän lisäksi ihmettelen metakeskustelua koskien ''reiluus''-sanan merkitystä; katson ettei se ole määriteltävissä tavalla joka on yksikäsitteinen, kaikkien mielestä sama, ja joka kuitenkin antaisi työkalun luokitusten tai -systeemin arviointiin." |
|
Reiluuden käsite ei välttämättä ole täysin subjektiivinen. Siitä voidaan neuvotella ja sopia. Se on mielivaltainen juuri siinä mielessä, että se on sopimuskysymys. |
|
-- Markku |
|
Lisäsin kaksi asiaa jotka ovat mielestäni merkityksellisiä, vaikka eivät henk.koht. tärkeitä. |
|
-- Pekka 27. huhtikuuta |
|
Henri, eihän kyse ole sen kummemmasta kuin että mitä voidaan vertailla |
mihin. [GOR-sivuilla oleva |
voittotodennäköisyystaulukko|http://www.european-go.org/rating/statev.html] |
ei sovellu ''itsestään selvästi'' pelisarjan tai turnauksen tulosten |
ennustamiseen mielivaltaisesti valituilla pelaajilla mielivaltaisin |
keinoin (huom, tuossa lukee "ei ole itsestään selvää että" eikä "on |
itsestään selvää ettei") koska ei tunneta yksittäisten pelaajien |
pelitulosjakaumaa. |
|
ELO/GOR -malli perustuu olettamaan siitä, että pelaajan |
pelitulosjakauma on (log-)normaali, tarkista vaikka. Se ei siis ole |
välttämättä vertailukelpoinen esmes todellisuuden kanssa, vaikka |
yksittäisten pelien ja nominaalitasoeron saakin tuosta GOR-aineiston |
sivutuotteena saatavasta voittotodennäköisyystaulukosta -- taulukko ei |
itse asiassa mitään muuta kuin tämän kerro. Mainittakoon etten ole |
myöskään missään nähnyt GOR-mallin virhe/luotettavuusanalyysiä; |
oletetaanko kenties että konsa ELO-systeemi sopii shakkiin, se ilman |
muuta sopii go'onkin? |
|
Tiesitkös muuten että keskiarvo on väärä keskiluku (l. väärän kuvan |
antava) vinolle tai monihuippuiselle jakaumalle, samoin kuin |
standardoitu virhe, standardipoikkeama tai keskihajonta sen |
virheelle/hajonnalle? Tästä syystä korostan jakauman tuntemisen |
merkitystä ja eri osa-aineistojen vertailukelpoisuutta. Katsopa myös |
sivua [luokitusten paranteluehdotuksia], jonne kirjoittelin joistain |
seikoista enemmän, joistain vähemmän. |
|
Voisin vielä mainita, että toisaalla lasketut binomitodennäköisyydet |
kahden pelaajan keskinäisten tulosten todennäköisyyksistä¹ ovat |
tietysti oikeita, mutta sisältävät muita olettamuksia, esmes sen että |
pelaajan taso on vakaa yli peleihin käytetyn ajan (tai ettei tästä |
varianssista välitetä.) Totta kai yhdestä lyhytkestoisesta |
pelisarjasta tätä voidaan pitää perusteltuna, mutta menetelmä on |
tolkuttoman työläs, hidas, ja loppujen lopuksi virhealtiskin² tapa |
selvittää pelaajajoukon keskinäinen vahvuusjärjestys³. |
|
¹Sic! Ne eivät ole yleistettävissä pelaaja ''a'' vastaan joukko |
pelaajia ellei erikseen toisin osoiteta! Kun (esmes ulkomaisten tai |
taskuuntuneiden) pelaajien nominaaliluokitukset ovat epäluotettavia, |
ei luokitusta voi mielivaltaisesti sitoa olettamukseen |
pelivahvuudesta. |
|
²En enään itsestään selvästi usko ettei esmes vain 5 pelaajan |
jubangosarjassa (40 peliä per pelaaja) pelitason vaihtelu sotkisi |
tuloksia melkoisen paljon -- ja mitenkä sitten 15 pelaajalla, huhhuh! |
|
³Binomitodennäköisyys asettaa pelaajat ''ordinaaliasteikolle'' |
(aineistolla on vain järjestys) pareittain. Tiedetään pelaajan ''a'' |
olevan pelaajaa ''b'' vahvempi todennäköisyydellä ''p,'' muttei |
tiedetä miten paljon vahvempi, eikä tiedetä miten pelaajan ''c'' |
vahvuus suhtautuu muihin ennen kuin ''c'' on pelannut molempia muita |
vastaan -- ja mitäs sitten kun nämä tulokset ovatkin ristiriidassa |
keskenään, aijjai. |
|
Toivotanpa edelleen onnea ja pitkää pinnaa niille, jotka työtä |
pelkäämättä yrittävät rakentaa toimivaa luokitusjärjestelmää. Homma on |
raskasta ja epäkiitollista, mutta pidän sitä pitemmän päälle |
välttämättömänä jos halutaan luopua nykyisestä luokitussysteemistä tai |
virittää nykysysteemiä. |
|
Ja koska tämänkin huolelliseen kirjoitteluun selvittelyineen meni |
parisen tuntia aikaa, jonka olisin todellakin voinut käyttää paremmin, |
meikäläiseltä lienee turha toivoa enempiä tilastotiedettä |
yleistajuistavia (sic!) kirjoituksia tänne ennen kuin olen muuttanut. |
Siihen mennee jotain parista viikosta muutamaan kuukauteen. Tietty |
voisi olla arvokasta koota ja yhtenäistää kirjoitelmani yhdeksi |
sivuksi jonka sitten tarkistuttaisi esmes Matilla, sekä organisoida |
luokitusjärjestelmäkeskustelu siten, etteivät tekstini enään sotkisi, |
mutta siihenpä vasta aikaa menisikin... |
|
-- DonOlli, 29.4. |
|
Lisää sivulla [LuokittamispolitiikkaJaTurnauskäytännöt]. |
|
-- Markku 5.5. 2004 |