[Laatu] Selainkäyttöinen po-tiedostojen oikolukupalvelu

Harri Pitkänen hatapitk at iki.fi
Mon Apr 14 16:55:14 EEST 2008


On Monday 14 April 2008, Flammie Pirinen wrote:
> 2008-04-11, Harri Pitkänen sanoi:
> > Vapaasti (koe)käytettäväksenne alkeellinen ja huonosti testattu
> > palvelu po-tiedostojen oikolukuun:
> >   http://www.puimula.org/joukahainen/webvoikko.py/pospell
> >
> > Jos haluatte lisättäväksi tai korjattavaksi jotain, joka mielestänne
> > tekisi palvelusta itsellenne hyödyllisemmän, kehitystoiveita otetaan
> > vastaan.
>
> Testasin juuri claws-mailin käännöksellä, joka on aika kookas ja
> sisältää vähän kaikenlaista. Kuten voi varmaan odottaa, paljon
> verkkotekniikkatermejä ja -lyhenteitä sun muita nimiä jäi haaviin.

Jos jaksaa ja ehtii, niitä voi laittaa lomakkeelle
  http://joukahainen.lokalisointi.org/ehdotasanoja
ja sanan tyypiksi "ala: atk", niin saadaan mukaan seuraavaan päivitykseen. Nyt 
tuolla ei ole kuin yksi sana odottamassa käsittelyä.

(Po-oikoluvun sanasto ei tosin päivity automaattisesti samalla tavalla kuin 
muut webvoikon osat, koska se sijaitsee eri palvelimella. Päivitän sitä käsin 
tarpeen mukaan silloin tällöin.)

> Kaksoispisteellä taivutettujen lyhenteen kaksoispisteen jälkeistä osaa
> tuo oikoluin luulee omaksi sanakseen, olisiko mahdollista tokenisoida
> niin, että sanana käsitellään suunnilleen sellaiset hahmot jotka
> koostuvat aakkosista, numeroista, viivoista ja puolilainausmerkeistä?

Joitakin yleisimpiä sijapäätteitä olen laittanut tähän sanastoon erikseen 
hyväksyttäviksi siksi, ettei niistä kaksoispisteen jälkeen huomauteltaisi. En 
sitten tiedä, pitäisikö tuo korjata niin, että sana hyväksytään aina, jos 
siinä on kaksoispiste, vai että se yritettäisiin oikolukea kaksoispisteen 
kanssa (Voikko tämän kyllä osaisi, jos lyhenne löytyy sanastosta).

Nyt pofilter jakaa sanan aina kaksoispisteen kohdalta. Tästä en ole 
bugiraporttia tehnyt, kun en itsekään ole varma, mikä olisi paras 
toimintatapa. Pofilterin bugeja voi selata ja niistä voi raportoida 
osoitteeseen http://bugs.locamotion.org (product=translate toolkit, 
component=filters).

> On kiva että uudelleen-alkuiset sanateelmät merkitään virheeksi, mutta
> korjausehdotuksina on esim.:
> uudelleennimeä (uutelleennimeä / udelleennimeä / uudelleen nimeä /
> suudelleennimeä)
> uudelleennimetä (uudelleen nimetä / uudelleennimentä)
>
> paljon epäilyttäviä sanoja.

(uuttaa -> uutella -> uutellut -> uutelleen) + (nimi -> nimeä). Samantapainen 
konstruktio noissa muissakin. Pitää ottaa harkintaan, voisiko Voikon 
yhdyssanasääntöjä tässä jotenkin parantaa, mutta siinä tarvitaan laajahko 
vaikutusanalyysi, joten ihan pian tähän ei ole korjausta luvassa.

> Pikanäppäimen merkki _ kannattaa vain skipata, sehän voi olla sanan
> sisälläkin.

Tuon pitäisi toimia, jos sovelluksen tyypin valitsee sen mukaan, missä 
projektissa käytetään alaviivaa pikanäppäimen merkkinä (gnomeko se oli?). Jos 
ei toimi, niin se on bugi pofilterissä. Tietysti pitää ensin katsoa, että 
vika tosiaan on pofilterissä eikä webvoikossa.

Jos pikanäppäin sattuu olemaan ä tai ö, niin silloin sana jaetaan turhaan aina 
sen kohdalta. Se on tunnettu (ja raportoitu) bugi:
  http://bugs.locamotion.org/show_bug.cgi?id=289

> yhtäaikaissuoritukseen (yhtäaikais-suoritukseen?

Tuo näyttäisi olevan käsittelemätön erikoistapaus yhdyssanojen muodostuksessa, 
jonka pitäisi olla helposti korjattavissa.

> Myös monet c-format-viestit näyttävät sekaantuvan, helpointa lienee jos
> c-formatiksi merkityistä poistaa %-osat.

Tämä on taas pofilterin hommia. Sen oikeastaan pitäisi osata tunnistaa nämä 
sen perusteella, että vastaava formaatti esiintyy msgid:ssä, mutta olen 
itsekin joskus kiinnittänyt huomiota siihen, että tämä ei aina toimi oikein. 
Pitää selvitellä asiaa.

Harri