Add new attachment

Only authorized users are allowed to upload new attachments.

This page (revision-85) was last changed on 31-Jul-2005 15:24 by 84.248.22.40  

This page was created on 19-May-2005 13:50 by LauriPaatero

Only authorized users are allowed to rename pages.

Only authorized users are allowed to delete pages.

Difference between version and

At line 14 changed one line
Laitoin sitten pystyyn ensimmäisen kyhäelmän luokitussysteemin toteutusta...
Poistin julkisesti näkyvillä olevat luokitussivut.
At line 16 changed one line
Sivut [http://rating.gowrite.net/] ovat huonoa kieltä ja sekaisin, eli kaikki kommentit olisivat tervetulleita. Vahvuusarviot ovat toistaseksi EXCEL taulukkona, en vielä ehtinyt vääntää niitä HTML / ASCII mutoon. Tämä korjautunee lähipäivinä.
-- Lauri 30.5.2005
At line 18 removed 6 lines
Sikäli kun jollakulla on uusia tuloksia (ja kokeilumistä), niin niiden lisääminen olisi mukavaa. Hommassa tulee varmaan erilaisia pikku ongemia, ja haluaisin kuulla niistä, jotta voin ne poistaa.
Luokituksien päivitys sisältää vielä kässtyötä, joten teen sitä varmaan noin kerran viikkossa / kun uusia tuoloksia tulee. Lähiaikoina pävitän luokituksia EGC tuloksilla ensimmäisen ja toisen viikon jälkeen.
-- Lauri 29.7.2005
At line 165 added one line
At line 311 added one line
At line 433 added 130 lines
Olen edelleenkin sitä mieltä, että kertymäfunktio on huomattavasti oikeampi pohja virhearvioille.
Esittämäsi ongelma voidaan joko korjata laittamalla lisävaatimuksia tulosriville (vähintään yksi häviö tarpeeksi lähellä
kohdetasoa jne..) tai sitten lisäämällä malliin tietoa. Koska mallin monimutkaistaminen on monessakin suhteessa hankalaa
(en pura kaikkea auki, jotta keskustelu pysyisi edes suurinpiirtein pääasioissa tässä vaiheessa), näyttäisi että
lisävaatimukset tulosriville ovat helpoin tapa korjata ongelma. Sitä paitsi on niitä tilanteita, joissa tyhjästä putkahtaa
pelivahvuudeltaan dan-tason kiinalainen jolla on 20k+ 7d- tulosrivi. Tässä tapauksessa luokittamisvirhe tapahtuisi alaspäin.
Ja olen muuten varmaan näissäkin keskusteluissa kommentoinut, että kyu-tason korottamisen tulisi olla vaikkapa täysin vapaata.
-- Kari
Eli jos oikein ymmärrän, niin et tuottaisi lainkaan virhearviota niille, joitka eivät täytä noita ehtoja?
Minusta parasta on laskea asiallinen virhearvio kaikille, mutta mieltymyksensä kullakin.
Miksi lainkaan kommentoit tätä systeemiä, jos kerran myös täysin vapaa olisi sinusta hyvä?
Ovatko kommenttisi ovat tässä mielessä asian sivusta?
-- Lauri
Öö, siis aloittelijat nousevat niin nopeasti ettei niiden perässä pysy kukaan eikä mikään kunnolla, mutta tarve tällaiselle
systeemille on erityisesti dan-tasolla, kun luokituksilla on enemmän merkitystäkin.
Kun minusta pistearvoihin perustuva virhearvio ei ole asiallinen. Ainoa syy, miksi kertymäfunktion käytössä näennäisesti
ilmenee ongelmia on mallin vääryys, käsitteellisesti kertymä on täsmälleen sama kuin virhetodennäköisyys mallin mukaan.
Vika ei siis ole kertymän käytössä vaan mallissa, mutta koska liian tarkan mallin kyhääminen on muuten epäkäytännöllistä,
ehdotan rajoituksia tulosriveille. Ei joku alle viiden pelin tulosrivi kuitenkaan anna kovin merkityksellistä dataa,
joten miksi sitten tuijottaa liikaa niitä.
-- Kari
Tulkitsen vastauksestasi, että kommenttisi eivät sitten liity tähän systeemiin, eli ne voi jättää huomiotta.
Ilmeisesti et ennen kirjoittamista lainkaan lue, mihin systeemi oli tarkoitettu?
Vai kommentoitko ihan tarkoituksella muuta käyttöä, kuin mihin systeemi oli tarkoitettu?
Jos kuulostaa, että olen vihainen, niin silloin sanoma välittyy hyvin. Kirjoitin systeemin tavoitteet moneen kertaan eri paikkoihin, jotta ne tulisivat selviksi. Ilmeisesti ei kuinkaan riittävän moneen paikkaan...
Et vieläkääm oikein sanonut, mikä on vikana likelihood arvorajan käytössä. Kun ongelmaia ei ole, se antaa saman tuloksen kuin kertymä. Kun kertymä alkaa antaa vääristyneitä tuloksia, niin likelihood raja antaa hyviä.
Ongelma kertymässä on todella se, että oletetaan tasainen pelaajan prior todennköisyys jakauma. jos oletus on ongelma, niin se pitää ottaa pois. Tällöin todennäköisyysjakauma ei ole saatavilla, mutta likelihood rajat ovat, ja ne antavat edelleen järkevän tuloksen.
-- Lauri
"Hommassa tulee varmaan erilaisia pikku ongemia, ja haluaisin kuulla niistä, jotta voin ne poistaa" ja se että kiinnostuksen
esittäminen systeemiin rohkaisisi sinua sen jatkamisessa olivat päävaikuttimeni kommentointiini. Ongelmana likelihood-arvorajan
käytössä on, että se ei yleisessä tapauksessa anna ollenkaan mielekkäitä virhetodennäköisyyksiä. Jos käyttämäsi malli kuitenkin
sattuu tuottamaan sen muotoisia likelihood-funktioita, että likelihood arvorajat antavat mielekkään näköisiä virherajoja, on
kyse lisäoletuksista, joita en voi ottaa argumentoinnissani huomioon, koska et ole julkaissut käyttämääsi algoritmia/mallia
täsmällisesti. Haluatko todella, että esitän täällä jonkun mallin X, jossa likelihood-arvorajojen käyttö antaa päättömiä tuloksia?
Mielestäni mallia ei pidäkään hioa liian tarkaksi todellisuuden vastineeksi. Tietyssä mielessä voimme ajatella mallin muodostavan
metapelin, jossa pelaajat ovat mukana kilpailemassa ranking:stä. Esimerkki liian tarkasta mallista: On havaittu, että alkoholin
käyttö edellisenä iltana heikentää pelituloksia -> siis malliin pitäisi saada mukaan pelaajien edellisen illan alkoholin käyttö,
jotta voimme arvioida heidän vahvuuttaan vieläkin tarkemmin.
-- Kari
Nyt kerroit lopulta mikä sinua vaivasi, kiitos.
Ja sitten vastaus: Tiedän, että likelhood rajat toivat luokituksissa hyvin, kun taas kertymäraja ei. Molemmista löytyy patologisia esimerkkejä (myös luokituksissa), mutta kertymälle niitä on paljon enemmän, esimerkkinä yksinkertaisesti kun kaikki pelaajan pelit ovat voittoja.
Tuo mallin tarkkuus on hyvä pointti ja ongelma rankking-tilanteessa. Mutta onko ongelma todellinen epäformaaleille luokituksille 15kyu-1kyu alueella? Minusta ei.
Jos jollakin (käytännöllisellä) tavalla saadaan tarkemmin todellisuutta vastaavat luokituiset, niin minusta se on hyvä. ("tarkemmin todellisuutta vastaavat luokitukset" == luokitukset ennustavat pelejä paremmin).
Tässä tulee hyvin esille, miksi en ruvennut tekemään rankking systeemiä dan pelajille :)
-- Lauri
Ok, "riita" poikki. Muuten myös vedonlyöjä on kiinnostunut mahdollisimman tarkasta systeemistä :) Ehkä pitäisi ajatella,
että tarvitaan kolme tasoa: 30k-15k: vapaa luokitus, 15k-1k: mahdollisimman tarkka systeemi tuottamaan tasoituksia,
1d-7d: urheilullinen ranking.
-- Kari
Eli "Ja olen muuten varmaan näissäkin keskusteluissa kommentoinut, että kyu-tason korottamisen tulisi olla vaikkapa täysin vapaata." olikin vain kusetusta?
Et ilmeisesti juuri seiso sanojen takana, vaan heität mitä mieleen tulee?
Minulla ei ole mielenkiintoa jatkaa tällaista väittelyä, tämän tuntuu lähinnä tekemäni työn halveksunnalta. Pistin luokitussivut kiinni, ja niin se saavatkin pysyä.
-- Lauri 20.7.2005
Sanojensa takana seisominen silloin kun huomaa muita mahdollisuuksia, on tyhmyyttä. En yritä voittaa
väittelyä, yritän oikeasti auttaa kehittämään asioita. Sitäpaitsi en ymmärrä mitä loukkaamiseni auttaa
tässä väittelyssä.
-- Kari
Kari, minua suuresti hämmästyttää teikäläisen into sotkea luokituspolitiikka kaikkiin mahdollisiin asioihin, kuten perustutkimukseen luokitusten mallintamisesta. Vaikka politiikka olisikin lähellä sydäntäsi, se ei Laurin ylle kirjoittaman perustella todellakaan ole tämän projektin tarkoitus. Myös se, että siirrät maalia etkä kerro siitä ja ettet kerro muuttaneesi mielipidettä oltuasi väärässä kertoo, että yrität halvalla didaktiikalla voittaa väittelyn etkä keskustella asioista. Onko ehkä väittelytekniikkasi väärä lähestymistapa? Etkö osaa eroittaa politikointia oikean tutkimuksen tekemisestä?
;:''(Niille, joille Laurin esittämät seikat kuulostavat vaikeilta, hieman perustietoa tilastotieteestä. Kuten olen aiemminkin kertonut, monet mallit olettavat normaalijakautunutta aineistoa. Tässä yhteydessä se tarkoittaa, että luokitusjakauman poikkileikkaus noudattaa normaalijakaumaa. Toisin sanoen kullekin luokitusarvolle x jakauma (hajonta) noudattaa normaalijakaumaa.
;:Jos tämä kuulostaa vaikealta, voi helpottaa vertauskuva: jakaumakuvio on kolmiulotteinen, ei siis viiva (kuten insinöörit usein ajattelevat) vaan pikemminkin vuorijono, ja jokaiselle arvolle x on oma hajonta (vuorijonon poikkileikkaus juuri sillä kohdalla.) Monihuippuinen jakauma on ikään kuin vuorijono haarautuisi (ehkä yhtyäkseen jälleen myöhemmin,) ja vino jakauma on kuin vuori olisi epäsymmetrinen, korkeampi toiselta laidaltaan.
;:Biologispohjaisessa aineistossa jakauman poikkileikkaus on erittäin harvoin normaalijakaumaa noudattava, vaan se on yleensä vino (toispuoleinen) ja usein monihuippuinen (vuorijono jakautuu kahteen harjanteeseen.) Normaalijakautunut aineisto on kuitenkin kaikkien regressio-, log-lineaaristen ja logististen mallien __perusoletus.__ Näin ollen, on jo kyseenalaista että onko ML luokittamiseen soveltuva, siis tähän tilanteeseen oikea malli, mutta sekin on nimenomaan yksi erityisen mielenkiintoinen seikka Laurin tutkimuksessa.)''
Lauri, normaali tapa esittää luottamusväli vaikeassa aineistossa on käyttää samaa tekniikkaa kuin mediaanin kanssa kontra keskiarvo: otetaan n:s havainto, jossa n edustaisi järjestetyn aineiston prosenttipistettä, sen sijaan että lasketaan mikä luku sitä vastaa jos jakauma olisi normaali. Lisään alle hieman tarkemmin kunhan saan kaivetuksi.
Ja edelleen, Lauri, olen erittäin pahoillani että annat politikointiin fakkiutuneiden ja perustutkimusta ymmärtämättömien torpedoida arvokasta työtäsi. Pyydänkin siis ettet poista asiaa paremmin ymmärtäviltä mahdollisuutta tutkia sitä, vaan mieluummin vain jätät asiaa ymmärtämättömien urputuksen omaan arvoonsa.
-- DonOlli, 30.7.
Ja sitten mitä lupasin prosenttipisteiden luottamusväleistä ei-normaalijakautuneelle aineistolle. Kaikille prosenttipisteille on laskettavissa luottamusväli siten, että
;:{{{r = n/2 - z * sqrt(n) / 2}}}
;:{{{s = 1 + n/2 + z * sqrt(n) / 2 }}}
;:{{{CL = [ x(r), x(s) ] järjestetyssä aineistossa x(1) ... x(n) }}}
;:{{{Lähde: Sarna S, Kliinisen biostatistiikan kurssimoniste, syksy 2004.}}}
Tässä siis lasketaan kaksi järjestyslukua r ja s, ja valitaan järjestetystä aineistosta näin monennet alkiot. Nämä sitten edustavat luottamusvälin päätepisteitä. Esimerkiksi 95% luottamusvälille z saa arvon 1,96.
Tällaisen luottamusväliarvon käyttö on täysin perusteltavissa, toisin kuin yritys käyttää jonkin ''oletetun'' jakauman prosenttipistettä, saati sellaisen kertymää.
-- DonOlli
Olli: Poistin vain julkisuuden, itse toki jatkan tämän mielenkiintoisen ongelman tutkimista. Näinollen myös osaltani kaikki keskustelu siirtyy ei-julkisille kanaville.
-- Lauri
Olli, minä en maininnut luokittamista tässä keskustelussa ensimmäisenä, vaan Lauri esimerkissään. Koska
onnistuit taas kerran viemään keskustelun täysin sivuraiteille, ja koska kirjoittamisestani
näyttää Laurillekin olevan vain mieliharmia, en jatka keskustelua enää.
-- Kari
Version Date Modified Size Author Changes ... Change note
85 31-Jul-2005 15:24 44.933 kB 84.248.22.40 to previous
84 30-Jul-2005 16:52 44.974 kB 80.221.27.162 to previous | to last
83 30-Jul-2005 14:08 44.931 kB 81.197.77.215 to previous | to last
82 30-Jul-2005 11:14 44.647 kB LauriPaatero to previous | to last
81 30-Jul-2005 10:26 44.464 kB 210.245.8.253 to previous | to last
« This page (revision-85) was last changed on 31-Jul-2005 15:24 by 84.248.22.40