At line 381 added 74 lines |
|
Timo, nähdäkseni rinnastat selvästi vertailukelvottomia asioita. |
Olisitko laskemassa tulosten luotettavuutta poikkeamien neliösummalla |
|
*kaikkien pelaajien kaikista tuloksista, |
*yksilöityjen pelaajien tuloksista käytettävissä olevan peliuran aikana |
*yksilöidyn pelaajan tuloksista yhden turnauksen aikana, vai |
*yksittäisistä peleistä? |
|
Ellei toisin osoiteta, on eri asia arvioida tuloksia eri |
konteksteissa, se tekee tuloksista vertailukelvottomia, ja erityisesti |
aineiston luonne asettaa tähän omat rajansa. Kun nyt aineisto ja sen |
ominaisuudet ovat (vielä) tuntemattomia, ainakin itse olisin |
äärimmäisen varovainen yleistämään näitä tilanteita ristiin (l. voisin |
ehkä tehdä tuon uteliaisuuden aiheuttamasta mielenkiinnosta, mutta en |
ainakaan pitäisi siitä saatuja tuloksia mitenkään oikeutettuina tai |
etenkään oikeellisina.) Ja sittenpä voikin arvata mitä tällainen |
perustavanlaatuinen määrittelyn tekemättä jättäminen vaikuttaa |
työkalun (juuri esmes poikkeamien neliösummat) valintaan. |
|
Mainittakoon että näiden erilaisten aineiston käyttötapojen aiheuttama |
tulosten keskinäinen vertailukelvottomuus on näkynyt kaikissa |
luokituskeskusteluissa ja joka käänteessä. Ihmiset eivät tunnu |
hahmottavan että kyse on eri asioista. Näin ollen aivan ensimmäiseksi |
pitäisi määritellä että mitä tutkitaan/mallinnetaan ja miten. Ei |
varmaankaan kuulosta yllättävältä, että biometriassa ongelmakentän |
määrittelyn jälkeen seuraava vaihe on poikkeuksetta määrittää |
aineiston luonne ja että mitä menetelmiä siihen voi soveltaa. |
|
Tarvaisen Antin kokeilu mallin virittämiseksi on ilman muuta iloista |
nähtävää, mutta silti mieleeni tulee, että pitäisi ''pohtia |
perusteita'' seuraaville: |
|
*mihin perustuu parametri k:n raja-arvojen 32 ja 64 valitseminen |
*miksi pelitaso alkaa muuttua puolen vuoden pelitauon jälkeen, ja muutos kasvaa lineaarisesti kahteen vuoteen saakka |
*onko piste-ero transitiivinen sekä mahdollisesti lineaarinen, ja jos niin minkä suhteen |
|
Kysymyksiä saadaan varmasti paljon, kun kyseenalaistetaan kaikki |
hihasta vedetyt olettamukset. Jos tällaisia ei pohdita huolella, |
ollaan sortumassa käytännössä samaan kuin mistä nykysysteemiä on |
kritisoitu: mielivaltaan. Oletetaan että ihminen voi arvioida mallia |
vain katsomalla sen antamia tuloksia, sen sijaan että lähdettäisi |
jostain määriteltävistä perusteluista. |
|
Tämän lisäksi pitäisi mallin antamia tuloksia tutkia suhteessa |
oikeisiin pelituloksiin: ennustaako malli tulokset millään |
järjellisellä tarkkuudella, ja miten luotettavasti (l. |
systemaattisesti) sen tulokset ennustavat tapahtunutta. Tällä saataisi |
keinoja arvioida ''miksi'' ja ''missä tapauksessa'' jokin nimenomainen |
numeerinen malli voisi olla parempi kuin nykyinen, epäreiluksi |
haukuttu systeemi. |
|
Tämä ei kuitenkaan tarkoita että pitäisin eri asioiden kokeilemista |
pahana, eihän aineiston ja mallin käyttäytymisestä voida saada |
selville mitään ilman että niitä tutkitaan. Sen sijaan olisin erittäin |
varovainen arvioimaan ''mitä tahansa'' mallia ilman että asiat voidaan |
perustella muuten kuin että "se näyttää antavan parempia tuloksia." |
|
Ylempänä on sitetty kysymys GOR-systeemin heikkouksista, kerronpa |
tässä yhden perustavanlaatuisen heikkouden. ELO-systeemi pohjautuu |
normaalijakaumaan. Shakissa tällä ei ole väliä, koska pelivahvuus on |
abstrakti kokonaisluku jota verrataan vain siihen itseensä, gossa taas |
siihen yritetään sitoa dan/kyu-luokitus, joka taas perustuu |
tasoituskiviin. Hups, milläs perusteella nämä olivatkaan |
vertailukelpoisia? Muitakin heikkouksia löytyy, mutta en aio tehdä |
sitä suurta työtä, että analysoisin ne. |
|
Pahoittelen jälleen osallistumistani, mutta tilastomenetelmien väärin |
ymmärtäminen ja kyseenalainen käyttö ylitti jälleen |
kirjoituskynnykseni. Ja tarkoitukseni on ensi sijassa esittää |
rakentavaa kritiikkiä, mutta myös esittää miten hankala oikeasti |
onkaan ongelmakenttä numeerisen systeemin laadinnassa. |
|
-- DonOlli |