Add new attachment

Only authorized users are allowed to upload new attachments.

This page (revision-45) was last changed on 06-Jun-2005 15:35 by 194.157.96.130  

This page was created on 21-Apr-2004 12:27 by AnttiTarvainen

Only authorized users are allowed to rename pages.

Only authorized users are allowed to delete pages.

Difference between version and

At line 13 changed 2 lines
Ongelmia:
* Koska pelaajat kehittyvät, eikä uusia pisteitä tule järjestelmään, pisteet deflatoituisivat ajan myötä. Se ei ole ongelma, jos pelaajapopulaatio ei ole pahasti taskuuntunut ja pisteitä käytetään vain rankingissa mukana olevien keskinäiseen vertailuun. Ja olisihan sen deflaation estämiseen tietenkin keinoja, esim. pitämällä järjestelmän pisteiden keskiarvo vakiona.
Ongelmia:* Koska pelaajat kehittyvät, eikä uusia pisteitä tule järjestelmään, pisteet deflatoituisivat ajan myötä. Se ei ole ongelma, jos pelaajapopulaatio ei ole pahasti taskuuntunut ja pisteitä käytetään vain rankingissa mukana olevien keskinäiseen vertailuun. Ja olisihan sen deflaation estämiseen tietenkin keinoja, esim. pitämällä järjestelmän pisteiden keskiarvo vakiona.
At line 143 added one line
At line 174 added 308 lines
Formuloisin kysymyksen seuraavasti:
*Oletetaan, että pelit pelataan rahasta.
*Oma panoksesi on 100 euroa. Paljonko vastustajan pitäisi panna panokseksi, että peli olisi tasapuolinen?
*Kyseinen kysymys toistetaan jokaisen vastustajan kohdalla.
-- Matti
Konvergenssilla tarkoitan sitä, että ratkaisun kokonaisvirhe ei enää pienene, vaikka iteroimista jatketaan. Yksi iteraatio siis tarkoittaa tässä yhteydessä koko tulosdatan läpikäymistä ja vastaavien muutosten tekemistä vahvuuslukuestimaatteihin. Totta on, että ihmisten pelitaito muuttuu ajan funktiona ja tämä menetelmä tekee nimenomaan päinvastaisen oletuksen. Tämän menetelmän tuloksena olisikin estimaatti keskimääräisistä vahvuuksista annetuissa peleissä eikä estimaatti vahvuuksista pelien jälkeen, mihin ilmeisesti ELO-tyyppinen menetelmä pyrkii.
Nopeasti kehittyvät pelaajat näyttävät olevan ongelma mille tahansa systeemille ja jos välttämättä halutaan "EGF-tesuji":n vastine tähänkin systeemiin, niin voidaan hyväksyä optimointidataksi vain pelejä viimeisellä luokituksella. Itse olen sitä mieltä, että on vain parempi, jos ammoiset turnaukset x-kyuna eivät vaikuta nykyiseen vahvuusestimaattiin mitenkään.
-- Timo
Ihan uteliaisuudesta voisin kysyä, että millä tavoin Tarvaisen mallin
kuvitellaan antavan luotettavampia tuloksia kuin ihmisen? Tiedän
varmuudella että olin ainakin vielä Oulun turnauksen aikaan vahvempi
kuin Törmäsen Antti, eikä ole mitään syytä uskoa että tämä olisi
näin lyhyessä ajassa muuttunut. Samoin uskon vahvasti Matin olevan
häntä vanvempi, vaikka vahinkotappio viime turnauspelissä tulikin.
Tarkastellessa ylimpiä noin 15 paikkaa k-parametrin käyttäytymisestä
kertovassa taulukossa, on selvää että ELO_K_ARVO:n valitseminen antaa
varsin isoa vaihtelua, ja kummassakin ääripäässä on varsin erikoisen
näköinen järjestys. Arvo 80 näyttää pikaisella silmäyksellä antavan
realistisimman huipun, mutta tätähan on hyvin vaikea arvioida ilman
tarkempaa analyysia. Kuitenkin hatusta vedetty, perusteeton
satunnainen arvo on epäilemättä vähintään yhtä huono vaihtoehto kuin
mielivaltainen järjestys, vaikkapa ihmisen antamana.
Tästä päättelen, että uskottavuus pitää laskea jotenkin toisin kuin
ylläolevalla mallilla. Yksi mahdollisuus on laskea luottamusväli tai
muu virhearvio (esmes standardipoikkeama¹) pelaajien keskinäiselle
vahvuudelle. Samoin ajan kulumista ei huomioida, eli esimerkiksi
meikäläinen varmasti kärsii 2,5 vuoden takaisesta tilapäisestä tason
vajoamisesta edelleen, siitäkin huolimatta että välissä on ihan
mukavasti mennyt PM 2003 ja Oulu. Näin toinen mahdollisuus on laskea
kullekin pelaajalle pelivahvuus ajan funktiona ja sille virhearvot, ja
tästä laskea trendit tai inter/ekstrapoloida.
Näin ollen on mielestäni helppo vetää johtopäätös, että ainakaan tämä
malli ei selitä asiaa riittävästi, kun ihmisten pelimäärä ei ole
jatkuvan runsas. Ja valitettavasti turnauspelejä ei maantieteellisesti
näin hajallaan olevassa turnaussysteemissä millään saada niin paljoa
kuin tällainen jatkuvaa, runsasta materiaalia vaativa malli tarvitsee
-- ellei sitten löydetä sponsoria joka maksaa kulut; enpä oikein jaksa
uskoa.
Loppukaneettina voisin mainita etten aio kinastella näistä
mallintamisjutuista tai mielipiteistä, en kenenkään kanssa --
semminkin kun luotettavana pitämäni taho on kertonut, että tällainen
kinastelu tekee enemmän hallaa Suomen golle kuin juuri mikään muu --
vaan tarkoitus on antaa rakentavaa kritiikkiä sellaisista seikoista,
jotka näyttävät mallin heikkouksilta. Muita mallejahan ei kukaan ole
saanut aikaiseksi, joten niitä ei voi kritisoidakaan (suljen
GOR-mallin ulos tästä kirjoituksestani, koska kukaan ei tunnu haluavan
kuulla sen heikkouksista, vaan siihen pyritään uskomaan sokkona.)
¹Standardipoikkeama olettaa normaalijakautunutta pelimenestystä
jokaiselta pelaajalta, joka on varsin vaarallinen oletus; sen lisäksi
että tällainen edellyttää kaikilta varsin suurta (l. useita kymmeniä)
pelimäärää nykytasolla, kukaan (ehkä Paateron Lauria lukuunottamatta)
ei oikeasti tiedä mikä on yhden palaajan pelitulosjakauma ja miten
tämä suhtautuu pelaajiin massana². Nämä pitäisi ehdottomasti tutkia³
ennen kuin voidaan tehdä normaalijakaumiin perustuvia mallinnuksia.
²[GOR-aineiston
voittotodennäköisyystaulukko|http://www.european-go.org/rating/gor.html]
ei käsittele pelaajaa yksilönä ollenkaan. Toisin sanoen siitä ei voi
vetää johtopäätöksiä yksittäisen pelaajan ominaisuuksista, vaan
jokaiselta pelaajalta tarvitaan tilastollisesti luotettava määrä
pelejä (''monta'' kymmentä) nykytasolla.
³Ja kuka väitti että numeerisen luokitussysteemin kehittäminen olisi
pikkujuttu, en minä ainakaan.
-- DonOlli, 26.4.
Luotettavuuden lisäksi näissä luokittamisasioissa on tärkeä myös reiluus. Mitään geneeristä ja puolueetonta Ihmisluokittajaa ei ole olemassakaan. Paineet kokonaisuudessaan tai osittain numeerisen ratkaisun kehittämiseen syntyvät juuri tästä. Juuri siinä mielessä jopa satunnaisuus voi joissakin olosuhteissa olla reilumpi tapa ratkaista turnaustuloksiin vaikuttavia lähtökohtia kuin ihmisen päättämä luokitus. Kuitenkaan hyvän numeerisen luokitusjärjestelmän kehittäminen ei ole helppoa. Toinen tapa pienentää ongelmaa on kehittää turnausjärjestelmiä tavalla, joka pienentää luokitusten merkitystä. Voisin lisätä, että yllä esittämäni näkemys edustaa käymieni keskustelujen perusteella myös monien muiden asianosaisten suomalaisten pelaajien näkemyksiä, joten katson, että niillä on siksikin oikeus tulla sanotuksi julki.
-- [Markku Jantunen], 26.4.
Mun mielestä meillä on käytössä melko ongelmaton mittari eri vahvuuslukusysteemien paremmuudelle, eli niiden perusteella tehtyjen ennustusten antama tarkkuus. Toki tästäkin mittarista on eri variantteja, mutta eiköhän esimerkiksi yksittäisten pelien ennusteen virheiden neliösumma toimi ainakin hyvänä lähtökohtana, josta voi lähteä optimoimaan jos siltä tuntuu. Ihmisten antamien luokitusten saaminen tässä mielessä vertailukelpoiseksi vaatisi toki jonkin verran työtä, jotta saataisiin selville voittotodennäköisyydet, joita luokituskomitea todella olettaa eri daneihin ja kyuhin liittyvän.
Dataa on vähän ja siihen minkä tahansa vahvuuslukusysteemin on perustuttava, joten oikeasti luotettavia vahvuuslukuja ei voida tuottaa automaattisesti eikä käsin. Perusteltuja arvauksia voi kuitenkin tehdä erilaisia ja niiden keskinäistä paremmuutta voi mitata.
-- Timo Puha
Markku, reiluudesta ei ollut mitää mainintaa sivulla [Luokitusten Parantelua]. Mielestäni asiat joihin täällä halutaan vedota, pitäisi ensin ruotia siellä.
-- [Matti] 26.4.2004
Poikkeamien neliösumma on kovin altis poikkeaville datapisteille
(outlierit,) joita on poikkeuksetta biologispohjaisessa aineistossa
joko vahemmän tai enemmän. Tässä joudun nojaamaan Helsingin Yliopiston
biometrian apulaisporofessorin lausuntoihin, joita meikäläisellä ei
tietenkään ole kirjallisena -- ellei sellaiseksi lasketa sitä
luentomonistetta, jota hänelle vuosikymmenen ajan taitoin. Pikemminkin
kuvittelisin jonkin maximum likelihood -mallin (ML) antavan
järkevähköjä tuloksia erilaisten luokitusten sovittamisesta
turnaustuloksiin, vaikka sekin olettaa jotain aineistosta
(muistaakseni log-normaaliutta, mutta eipä ole tuo moniste käsillä
juuri nyt.)
Olenpa jopa sitä mieltä, että tuon professorin näkemys siitä, että
aineiston ominaisuudet on tunnettava ennen kuin valitaan
analyysimenetelmä ja malli jota yritetään käyttää, on aivan
epäilemättä tällaisessa kriittistä. Jos aineiston ominaisuuksia ei
tunneta eikä ehkä edes haluta tutkia, mallin antama järjestys on
helposti uskottavuudeltaan liki sekoitetun korttipakan luokkaa.
Sinänsä, nyt kun kuvaan tuli mukaan vahvalla tunnelatauksella varattu
termi "reiluus," pesen välittömästi käteni keskustelusta. Reiluudella
ei ole mitään tekemistä oikeellisuuden tai matemaattisen
luotettavuuden/uskottavuuden kanssa. Pikemminkin päinvastoin,
matemaattinen malli on pahimmillaan erityisen epäreilu, koska se ei
voi ottaa huomioon mitään muuta kuin määrämuotoisen datan. Sen sijaan
se sitten on oikeellisempi ja sen uskottavuus on tutkittavissa ja
välillä jopa ymmärrettävissä.
Esitänpä siis jälleen pahoitteluni siitä että osallistuin keskusteuun,
ja yritän välttää sitä jatkossa.
-- DonOlli
Olet kyllä Olli oikeassa outliereista yleensä, mutta koska arvot ovat rajatut välille 0-1 (tai mitkä arvot häviölle ja tappiolle haluaakaan antaa) niin herkkyys pitäisi olla varsin siedettävä ja erityisesti se on rajattu. Lisäksi uskon että turnausdata on hyvälaatuista, vaikka tuskin täydellistä. Neliösumma ei varmastikaan ole tähän asiaan täydellinen ratkaisu ja mun puolesta voidaan kokeilla muitakin. Ja reilu toi ainakin on ;-)
-- Timo Puha, 26.4.2004
Olli sanoi:
" (suljen GOR-mallin ulos tästä kirjoituksestani, koska kukaan ei tunnu haluavan kuulla sen heikkouksista, vaan siihen pyritään uskomaan sokkona.)"
Voisiko joku (ei tarvitse olla Olli) listata lyhyesti GOR-mallin ongelmat ja puutteet. Kenties omalle sivulleen tänne Wikiin. Tai ainakin linkittää johonkin kirjoitukseen, joka esittää asian hyvin.
Asiasta on varmasti jauhettu paljonkin jossain foorumilla, mutta en usko että kaikki tuntevat GOR-mallin ongelmia. Itselleni on lähinnä tullut tutuksi "taskuuntuminen", eli kansainvälisten vertailujen hankaluus eri maiden pisteiden deflaation takia.
Olli kirjoitti myös:
"¹Standardipoikkeama olettaa normaalijakautunutta pelimenestystä
jokaiselta pelaajalta, joka on varsin vaarallinen oletus; sen lisäksi
että tällainen edellyttää kaikilta varsin suurta (l. useita kymmeniä)
pelimäärää nykytasolla, kukaan (ehkä Paateron Lauria lukuunottamatta)
ei oikeasti tiedä mikä on yhden palaajan pelitulosjakauma ja miten
tämä suhtautuu pelaajiin massana². Nämä pitäisi ehdottomasti tutkia³
ennen kuin voidaan tehdä normaalijakaumiin perustuvia mallinnuksia."
Tilastomatikasta en ymmärrä juuri mitään, mutta tämä kuulostaa ihan järkevältä sinänsä. Käsittääkseni luokituksen tai vahvuusluvun pitää ainoastaan antaa tilastollinen todennäköisyys kahden pelaajan välisen pelin lopputulokselle. Parempi malli osuu ennustuksissaan oikeaan useammin. Mallien paremmuuden vertailuun on tietysti valittavana erilaisia tapoja ja ne voivat tuottaa erilaisia tuloksia, ja sitä kai Olli tässä tarkoittikin(?).
Oma maalaisjärkeni ei kuitenkaan käsitä miksi kahta järjestelmää ei voida verrata toisiinsa ilman em. tietoja, jos kerran luokituksiakin voidaan antaa ilman em. tietoja. Selvästikin LK:lla on joka tapauksessa karkea mittari mallien paremmuudelle, jos kerran nykyisen järjestelmän antamia luokituksia pidetään parempana kuin GOR-lukua esim. tehtäessä jakoa MacMahon -ryhmiin?
On selvää, että jotkut pelaavat tasaisemmin ja toisilla taso vaihtelee enemmän pelien välillä, vaikka keskimääräinen taso olisikin sama. Pelaajien tai yksittäisen pelaajan pelivahvuuden jakauma voi olla melkein mitä tahansa. Luokitus tai vahvuusluku kuitenkin kuvannee keskimääräistä pelin tasoa. On myös selvää, että vaikka A voittaisi B:n 80% peleistä ja B voittaisi C:n 50% peleistä, ei A välttämättä voita 80% peleistään C:tä vastaan. Luokituksen tai vahvuusluvun ei pidä, eikä se voikaan, ottaa tällaisia asioita huomioon.
--[Antti V|lokori], 26.4.2004
Kokeilin aikani kuluksi erilaisia muutoksia päivitysalgoritmiin. Alla oleva lista on saatu tekemällä aiempaan algoritmiin seuraavat muutokset:
* Mukaan on otettu pelaajat 6 kyuhun asti.
* K on 32, paitsi jos
** pelaaja ei ole pelannut vielä 25 peliä - jolloin K on 32 + 32 * (25 - pelit_ennen_tätä_turnausta) / 25
** pelaaja ei ole pelannut puoleen vuoteen - jolloin K on 64, jos on kulunut vähintään kaksi vuotta; 32, jos on kulunut puoli vuotta; ja lineaarisesti siltä väliltä. K säilyy samana läpi turnauksen.
* Pelaajien pisteiden keskiarvo siirretään joka turnauksen jälkeen tuhanteen. (Tämä nostaa hiukan vanhojen pelaajien luokitusta, mutta vaikutus on minimaalinen.)
|| pelaaja || pisteet || pelit || voitot || tappiot
| Laatikainen, Vesa | 1485 | 134 | 106 | 28
| Siivola, Matti | 1265 | 148 | 102 | 46
| Paatero, Lauri | 1246 | 115 | 63 | 52
| Lounela, Olli | 1233 | 94 | 55 | 39
| Törmänen, Antti | 1215 | 40 | 30 | 10
| Visala, Kari | 1148 | 70 | 40 | 30
| Jantunen, Kare | 1148 | 63 | 35 | 28
| Holappa, Antti | 1101 | 55 | 30 | 25
| Alanko, Otso | 1099 | 69 | 35 | 34
| Puha, Timo | 1053 | 84 | 52 | 32
| Keskitalo, Tuomo | 1038 | 26 | 13 | 13
| Jantunen, Markku | 1026 | 150 | 80 | 70
| Viljanen, Joose | 1022 | 50 | 23 | 27
| Brockman, Marko | 1013 | 46 | 27 | 19
| Niskanen, Einari | 1010 | 46 | 27 | 19
| Suorsa, Seppo | 1006 | 56 | 34 | 22
| Virtanen, Jaakko | 999 | 72 | 35 | 37
| Salo, Tuomo | 997 | 51 | 28 | 23
| Hirsimäki, Teemu | 971 | 63 | 32 | 31
| Halonen, Sami | 951 | 35 | 14 | 21
| Aapola, Lauri | 929 | 74 | 32 | 42
| Hippeläinen, Eero | 917 | 33 | 14 | 19
| Reijola, Timo | 914 | 79 | 37 | 42
| Rovio, Teemu | 891 | 86 | 39 | 47
| Kauppi, Ari | 881 | 49 | 21 | 28
| Kylmälä, Jari | 876 | 33 | 13 | 20
| Hansen, Henri | 863 | 36 | 12 | 24
| Koivikko, Jari | 863 | 31 | 11 | 20
| Torikka, Mauri | 861 | 55 | 20 | 35
| Pietarila, Paavo | 859 | 104 | 41 | 63
| Niinisalo, Helena | 840 | 36 | 15 | 21
| Karppinen, Ari | 796 | 98 | 39 | 59
| Kohonen, Sari | 791 | 80 | 21 | 59
| Runonen, Mikael | 784 | 32 | 9 | 23
Suunnittelen mittaavani eri parametrien hyvyyttä järjestelmällisesti joskus myöhemmin, en välttämättä pian.
Muuten, shakin Elo-pohjaisten pistejärjestelmien toimintaa ja niiden puutteita on selitetty kansantajuisesti tässä artikkelissa: [http://math.bu.edu/people/mg/papers/acjpaper.ps].
[Antti Tarvainen], 27.4.
Timo, nähdäkseni rinnastat selvästi vertailukelvottomia asioita.
Olisitko laskemassa tulosten luotettavuutta poikkeamien neliösummalla
*kaikkien pelaajien kaikista tuloksista,
*yksilöityjen pelaajien tuloksista käytettävissä olevan peliuran aikana
*yksilöidyn pelaajan tuloksista yhden turnauksen aikana, vai
*yksittäisistä peleistä?
Ellei toisin osoiteta, on eri asia arvioida tuloksia eri
konteksteissa, se tekee tuloksista vertailukelvottomia, ja erityisesti
aineiston luonne asettaa tähän omat rajansa. Kun nyt aineisto ja sen
ominaisuudet ovat (vielä) tuntemattomia, ainakin itse olisin
äärimmäisen varovainen yleistämään näitä tilanteita ristiin (l. voisin
ehkä tehdä tuon uteliaisuuden aiheuttamasta mielenkiinnosta, mutta en
ainakaan pitäisi siitä saatuja tuloksia mitenkään oikeutettuina tai
etenkään oikeellisina.) Ja sittenpä voikin arvata mitä tällainen
perustavanlaatuinen määrittelyn tekemättä jättäminen vaikuttaa
työkalun (juuri esmes poikkeamien neliösummat) valintaan.
Mainittakoon että näiden erilaisten aineiston käyttötapojen aiheuttama
tulosten keskinäinen vertailukelvottomuus on näkynyt kaikissa
luokituskeskusteluissa ja joka käänteessä. Ihmiset eivät tunnu
hahmottavan että kyse on eri asioista. Näin ollen aivan ensimmäiseksi
pitäisi määritellä että mitä tutkitaan/mallinnetaan ja miten. Ei
varmaankaan kuulosta yllättävältä, että biometriassa ongelmakentän
määrittelyn jälkeen seuraava vaihe on poikkeuksetta määrittää
aineiston luonne ja että mitä menetelmiä siihen voi soveltaa.
Tarvaisen Antin kokeilu mallin virittämiseksi on ilman muuta iloista
nähtävää, mutta silti mieleeni tulee, että pitäisi ''pohtia
perusteita'' seuraaville:
*mihin perustuu parametri k:n raja-arvojen 32 ja 64 valitseminen
*miksi pelitaso alkaa muuttua puolen vuoden pelitauon jälkeen, ja muutos kasvaa lineaarisesti kahteen vuoteen saakka
*onko piste-ero transitiivinen sekä mahdollisesti lineaarinen, ja jos niin minkä suhteen
Kysymyksiä saadaan varmasti paljon, kun kyseenalaistetaan kaikki
hihasta vedetyt olettamukset. Jos tällaisia ei pohdita huolella,
ollaan sortumassa käytännössä samaan kuin mistä nykysysteemiä on
kritisoitu: mielivaltaan. Oletetaan että ihminen voi arvioida mallia
vain katsomalla sen antamia tuloksia, sen sijaan että lähdettäisi
jostain määriteltävistä perusteluista.
Tämän lisäksi pitäisi mallin antamia tuloksia tutkia suhteessa
oikeisiin pelituloksiin: ennustaako malli tulokset millään
järjellisellä tarkkuudella, ja miten luotettavasti (l.
systemaattisesti) sen tulokset ennustavat tapahtunutta. Tällä saataisi
keinoja arvioida ''miksi'' ja ''missä tapauksessa'' jokin nimenomainen
numeerinen malli voisi olla parempi kuin nykyinen, epäreiluksi
haukuttu systeemi.
Tämä ei kuitenkaan tarkoita että pitäisin eri asioiden kokeilemista
pahana, eihän aineiston ja mallin käyttäytymisestä voida saada
selville mitään ilman että niitä tutkitaan. Sen sijaan olisin erittäin
varovainen arvioimaan ''mitä tahansa'' mallia ilman että asiat voidaan
perustella muuten kuin että "se näyttää antavan parempia tuloksia."
Ylempänä on sitetty kysymys GOR-systeemin heikkouksista, kerronpa
tässä yhden perustavanlaatuisen heikkouden. ELO-systeemi pohjautuu
normaalijakaumaan. Shakissa tällä ei ole väliä, koska pelivahvuus on
abstrakti kokonaisluku jota verrataan vain siihen itseensä, gossa taas
siihen yritetään sitoa dan/kyu-luokitus, joka taas perustuu
tasoituskiviin. Hups, milläs perusteella nämä olivatkaan
vertailukelpoisia? Muitakin heikkouksia löytyy, mutta en aio tehdä
sitä suurta työtä, että analysoisin ne.
Pahoittelen jälleen osallistumistani, mutta tilastomenetelmien väärin
ymmärtäminen ja kyseenalainen käyttö ylitti jälleen
kirjoituskynnykseni. Ja tarkoitukseni on ensi sijassa esittää
rakentavaa kritiikkiä, mutta myös esittää miten hankala oikeasti
onkaan ongelmakenttä numeerisen systeemin laadinnassa.
-- DonOlli
Minusta sellaisen numeerisen järjestelmän laatiminen, joka pyrkii täyttämään kaikki go- luokitukselle asetetut vaatimukset yhtä aikaa, on erittäin kunnianhimoinen projekti eikä ole välttämättä edes tarpeellinen. Tarvaisen Antin mallin tarkoitus on esittää kärjelle järjestys. Mielestäni emme toistaiseksi edes tarvitse muunlaista automaattista järjestelmää. Myös yllä esitetty huomautus GOR-systeemin eräästä heikkoudesta on paikkansapitävä.
-- Markku
Viimeisimmästä Antin tekemästä listasta pistää silmämääräisesti esiin sellainen seikka, että se näyttäisi koostuvan n. 2-3 populaatiosta, jotka ovat pelanneet enimmäkseen keskenään. Tämä johtunee turnauksissa käytetyistä MacMahon-rajoista. Seurauksena vaikuttaisi olevan, että k.o. populaatioista ylempien heikommat pelaajat tippuvat tuntuvastikin alempien populaatioiden vahvempien pelaajien alle, vaikka keskinäisiä pelejä ei juurikaan ole. En ala erittelemään miksi satuin huomaamaan tämän :) Olisi mielenkiintoista nähdä turnausdata jollakin tavalla klusteroituna pelaajaparien mukaan.
--Paavo
- ''Tein jonkinlaisen kuvaajan josta näkee pelatut pelit sivulle [SuomalaistenTasaAvausPelienMatriisi] -- Tuomo K.''
Paavolle: Huomasin itsekin tuon. En keksinyt mitään heuristiikkaa, jolla tuota voisi kompensoida. Jos tulee mieleen, kannattaa ehdottaa. En tiedä myöskään, kuinka tuon klusteroinnin voisi hoitaa.
Ollille: Numerot ovat todellakin hatusta vedettyjä, enkä edes kokeillut muita arvoja. Olen samaa mieltä myös siitä, ettei tällaista järjestelmää kannata ottaa käyttöön, ennen kuin sen sen toimivuus on testattu.
-- [Antti Tarvainen], 27.4.
Ollille:
Eri pelijoukolle lasketut virheiden neliösummat eivät tosiaankaan ole vertailukelpoisia, eikä jollain joukolla saatu luku kerro sinänsä mitään erityisen mielekästä, paitsi että pienempi luku on parempi. Eikä sen ole tarvekaan kertoa, koska samalla joukolla saatuja lukuja eri ennustussysteemeistä voidaan kuitenkin vertailla mielekkäästi. Tämähän riittää eri systeemien vertailua varten, koska kaikki systeemit voidaan laittaa antamaan todennäköisyydet samalle joukolle pelejä ja tulosten selvitessä voidaan kaikille laskea virhe, jota voidaan vertailla. Virheiden neliösummien tilalla voi käyttää vaikka virheiden itseisarvojen keskiarvoa, joka tuottaa erilaisia lukuja, mutta joilla on intuitiivisesti suorempi tulkinta. Tuon virheiden kokoamisfunktion (siis esimerkkinä neliösumma, itseisarvojen keskiarvo tai mikä tahansa L_n normi) valinnalla mun mielestä vaikutetaan vain siihen, miten paljon erisuuruisista virheistä rangaistaan. Näin lasketut virheet eivät edelleenkään varmaankaan ole tilastollisesti merkittäviä, mutta annetun datan puitteissa parasta saatavissa olevaa tietoa. Intuitiivisesti kuitenkin virhe isommalle ja kattavammalle pelijoukolle on merkittävämpi kuin pienelle.
--Timo
[Ehdotus luokittajan nyrkkisäännöksi|EhdotusLuokittajanOhjenuoraksi]
-- Markku 6.6. 2005
Version Date Modified Size Author Changes ... Change note
45 06-Jun-2005 15:35 36.55 kB 194.157.96.130 to previous
44 06-Jun-2005 15:35 36.549 kB 194.157.96.130 to previous | to last
43 05-Mar-2005 19:14 36.451 kB TuomoKeskitalo to previous | to last
42 27-Apr-2004 14:43 36.331 kB 192.100.124.218 to previous | to last
41 27-Apr-2004 14:18 35.116 kB AnttiTarvainen to previous | to last
« This page (revision-45) was last changed on 06-Jun-2005 15:35 by 194.157.96.130