(C) Olavi Kanervisto & Tietotila Oy 1996

Oikoluku ajaa kirjoitusvirheet ahtaalle

Vertailussa:

Teksturit:
Lotus AmiPro 3.1
Word Perfect for Windows 6.0
Word for Windows 7.0

Oikolukuohjelmat:
Orthografix 1.0
Sanatar 1.0
WinMorfo 1.1

Kieliasun korjausohjelma:
WinVirkku 1.0

Windows-tekstureiden omat oikolukuohjelmat ovat parantuneet, mutta takeltelevat vielä sanoissaan monissa kohdin. Uudet kotimaiset haastajat, Orthografix ja WinVirkku ovat laadukkaimmat oikolukijat, mitä tähän mennessä on nähty ja ne ymmärtävät suomea selvästi tekstinkäsittelyohjelmien omia korjausohjelmia paremmin.

Tekstinkäsittelyohjelmien Windows-versioissa taitto-ominaisuudet ovat ajaneet tekstinmuokkausominaisuuksien ohi, ja esimerkiksi oikeinkirjoituksen tarkistusohjelmat ovat yhä niin kömpelöitä, että moni hylkää ne kertakokeilun jälkeen.

Vertasimme kolmen windows-teksturin oikolukuohjelmia kolmeen muuhun tarkistimeen, joita voi käyttää alkuperäisten asemesta. Kaikilla käsiteltiin samat tekstitiedostot eli asiatekstiä, proosaa sekä muutamia sanaluetteloita.

Kaikki ohjelmat löysivät vaikeuksitta lyöntivirheet eli sanat, jotka eivät olleet suomen kieltä. WinVirkkua lukuun ottamatta myös oikein kirjoitettu sana väärässä paikassa kelpasi aina. Siksi vertailussa keskityttiin käytettävyyden kannalta tärkeimpään eli siihen, miten usein ohjelma luulee hyväksyttäviä sanoja virheellisiksi ja pakottaa käyttäjänpainamaan "ohita"-, "lisää"- tms. painiketta.

Uudissanat, erisnimet

Lisäksi kokeiltiin, miten hyvin ohjelmat tunnistavat vasta 90-luvulla lehtikieleen ilmestyneitä uudissanoja. Sadasta uudissanasta WP hyväksyi vain puolet, Ami ja Word 56, Sanatar 58, Orthografix 59 ja WinVirkku 61 prosenttia.

Kaikki ohjelmat WP 6.1:tä lukuun ottamatta kelpuuttivat mm. sanat euroraha, hyperteksti ja multimedia. Orthografix, Sanatar ja WinVirkku tunnistivat sanan täsmäase. Vain Orthografix ja Sanatar sallivat myös sanan täsmälääke.

Ainoastaan Orthografix hyväksyi sanat lambada ja petankki.

Yksikään ohjelma ei tuntenut sanoja karaoke, kännykkä tai salibandy.

Harvinaisia sanoja on niin valtavasti, että niiden ja uudissanojen lisääminen sanastoihin ei juuri paranna oikolukuohjelman käyttökelpoisuutta.

Sen sijaa toivoisi, että muutamat Suomessa tavalliset erisnimet, kuten kuntien ja postitoimipaikkojen nimet sekä kaikki kalenterista löytyvät etunimet kuitenkin kelpaisivat — erisnimet kuitenkin ainoastaan isolla alkukirjaimella kirjoitettuina.

Suomessa on käytössä noin 80.000 erilaista sukunimeä. Kaikkia ei ole mielekästä lisätä sanaluetteloihin, mutta jo 5.000 yleisintä kattaisi noin 90 % kaikista puhelinluettelon tuntemista. Jos nämä kaikki yli 100:n kansalaisen käytössä olevat sukunimet lisättäisiin perussanastoihin, oikolukuohjelmat antaisivat lähes puolta vähemmän turhia virheilmoituksia.

Ohjelmat tunnistivat erisnimiä seuraavasti (mitä suurempi luku, sitä käyttökelpoisempi ohjelma):

 Postitoimipaikat  Sukunimet
WinVirkku  62%  58%
AmiPro ja Word  61%  65%
Sanatar  56%  57%
Orthografix  52%  51%
WordPerfect  50%  53%

Erot ohjelmien välillä ovat odottamattoman pieniä ja lisäksi epäjohdonmukaisia. Kooltaan pienin ja siten luultavasti sanastoltaankin vaatimattomin Sanatar pärjäsi yllättävän hyvin. Sen nokkela algoritmi hyväksyi osan WordPerfectin ja Orthografixin hylkäämistäkin nimistä, mm. kaikki -nen, -la, -sto jne. loppuliitteillä nomineista muodostetut, isolla kirjaimella alkavat nimet kelpasivat (esim. kauha -> Kauhanen).

Puuttuvien noin 1200 postitoimipaikan lisääminen kasvattaisi sanastoja vain vähän, sillä ohjelmathan tunnistavat jo nyt yli puolet näistä nimistä. Nyt käyttäjät joutuvat itse lisäämään puuttuvat postiosoitteet täydennyssanastoon.

Kavahda automaattikorjausta

Sekä Word että WP mainostavat 6-versioissaan pikakorjaukseksi tai automaattiseksi korjaukseksi kutsuttua toimintoa. Käyttäjän on edeltäkäsin kerrottava ohjelmalle, mitä kirjoitusvirheitä hän aikoo tehdä, ja miten nämä virheelliset muodot pitää korjata.

Tämä on kenties hulluinta, mitä kirjoitusohjelmiin koskaan on lisätty. Automaattikorjaus ei toimi järkevästi ja luotettavasti edes englannin kielellä, saati suomeksi. Esimerkki: Word-ohjelma pikakorjaa sanan completion, josta m-kirjain on jäänyt pois, sanaksi copulation (parittelu)! Suomenkielisessä tekstissä pieleen menon vaara on vielä paljon suurempi.

Eri ohjelmat ehdottavat erilaisia korjauksia. Painovirheen "luttavat" tilalle WordPerfect ehdottaa "luxtavat", AmiPro ja Word "lut-tavat". Orthografix arvaa: "luettavat". (Piti olla: "luottavat".) "Jokka" pitäisi WP:n mielestä olla "jukka" (pienellä alkukirjaimella!), Word ja Ami ehdottavat "jok-ka" ja Lingsoftin ohjelma "jonka". Virhesana "aj" voisi WP:n mielestä olla "ajo", Amin ja Wordin mielestä "ja", Orthografixin mukaan "adj". Mistäpä mikro voisi tietää, mitä kirjoittaja tarkoitti.

Ainoa järkevä tapa käyttää pikakorjausta hyödyksi on oman lyhennesanaston laatiminen. Kirjoitettaessa "emu" ohjelma tulostaisi sen asemesta vaikkapa tekstin "Euroopan unionin talous- ja rahaliitto".

Orthografix osaa oikeinkirjoituksen

Lingsoftin Orthografix eli uusi 32-bittinen tarkistin, tavutin ja synonyymisanasto asentuvat Word 7:n omien apuohjelmien tilalle Työkalut-valikkoon. Ne toimivat likimain yhtä nopeasti, Orthografix on paljon tarkempi.

Word 7:n oikoluku on amerikkalaisen Inson tekemä ja käyttää Kielikoneelta lisensioitua morfologista analysaattoria. Wordin korjausehdotukset taas perustuvat Inson sanalistaan.

WordPerfectin oikoluku puolestaan perustuu Lingsoftin Oiko-tarkistimeen. Uusi Orthografix pistää kuitenkin paremmaksi: se tekee ainakin puolet vähemmän vääriä ehdotuksia kuin WP. Lisäksi Orthografix jättää usein korjausehdotuksen tyystin antamatta silloin, kun AmiPro:nja Wordin arvaukset menevät täysin metsään.

Orthografixia on erittäin vaikeaa saada ehdottamaan sopimatonta rivinvaihtokohtaa. Lisäksi sen synonyymisanasto tuntee jopa taivutusmuodot: etsimällä vaihtoehtoa sanalle "kissallemmekaan" löytyvät muodot "katillemmekaan", "kisullemmekaan" ja "mirrillemmekään".

Lingsoftin oikoluku on siis olennaisesti käyttökelpoisempi kuin Wordin ja WP:n omat tarkistimet. Silti yleisten erisnimien kuten postitoimipaikkojen lisääminen sanastoon terästäisi Orthografixiakin.

WinVirkku korjaa myös kielivirheet

Virkku on paljon enemmän kuin oikaisulukuohjelma. Kielikoneen tuotteista vertailuun sopisi paremmin WinMorfo, joka esiteltiin MikroPC:n numerossa 5/95. WinMorfo sisältyy kuitenkin sellaisenaan WinVirkkuun.

WinVirkku jäsentää suomen kielen lauseita ja analysoi niiden sisältöä. Ohjelma löytää lyöntivirheiden lisäksi lukuisia kielioppi- ja välimerkkivirheitä. Ohjelma huomauttelee myös tautofoniasta (saman sanan toistumisesta tekstissä) ja tarjoaa korjausavuksi synonyymisanastoa. Osmo A. Wiion luettavuusmittariin perustuva Tekstut-lisäohjelma analysoi tekstin ymmärrettävyyttä.

WinVirkun HyperTavu-tavutin jakaa hankalat yhdyssanatkin riveille enimmäkseen oikein. Sitä oli vaikeaa saada ehdottamaan sopimatonta rivitystä. Kapeaan palstaan puoliväkisin tunkemalla sai sentään aikaan kaivo-saukon, yös-how’n ja istu-kassi-puleja.

Ohjelman toimintaa voi muokata yhdistelemällä vapaasti 25:ttä eri tarkistusalgoritmia. WinVirkun ja muiden tarkistimien sanastoja verrattiin käyttämällä vain kirjoitusvirheiden ja ongelmallisten yhdyssanojen tarkistusta. Toimiessaan ohjelma muistutti ikkunassa, että 23 sääntöä on käyttämättä!

Kun kaikki tarkistussäännöt ovat käytössä, ohjelma vaatii mikrolta paljon. 386-laitteessa WinVirkku toimii tosi hitaasti ja 486:ssakin työ sujuu vain onnistuneen tausta-ajon ansiosta.

WinVirkku on varsin tekoälykäs. Asiatekstin tarkistukseen ohjelma sopii erinomaisesti, kaunokirjallisuuteen hieman huonommin. Kun kaikki kieliopin tarkistussäännöt ovat käytössä, ohjelma on kuin tiukkapipoinen äidinkielen opettaja. Seuraaavassa näytteeksi WinVirkun kommentteja Väinö Linnan Tuntemattomasta sotilaasta:

"Ovi aukeni ja neljä miestä astui sisään."
— Tarkista, puuttuuko lauseitten välistä pilkku.

"Onko tämä herra luutnantti Koskelan korsu?"
— Tarkista, onko yhdyssana mahdollisesti kirjoitettu erikseen.

"Herra luutnantti, kärsiskö puhutella? "
— Onko sana kirjoitettu väärin?

"No, tervetuloa sitten vaan."
— "Vaan"-konjunktio ilmaisee kieltävän lauseen jäljessä vastakohtaisuutta... Merkityksessä "ainoastaan" tulee käyttää "vain"-konjunktiota.

"Saatte molemmat suorittaa yhden tuurin vanhojen miesten kanssa, että totutte maisemaan ja sen tapoihin."
— "Suorittaa"-verbi kielii kuivasta substantiivi-ilmaisusta. Voit hyvin jättää pois merkitykseltään värittömän "suorittaa"-verbin ja siihen liittyvän substantiivin (teonnimityksen) ja käyttää niiden sijaan teonnimityksen taakse piiloutuvaa verbiä. Esim. "suorittaa kilpailu" par. "kilpailla", "suorittaa äänestys" par. "äänestää", "suorittaa irtisanominen" par. "sanoa irti", "suorittaa maksu" par. "maksaa".

Asentuu yksin tai yhdessä

Kielikoneen ja Lingsoftin oikolukuohjelmia kokeiltiin sekä 386-mikrossa Windows 3.1:llä että 486:ssa Windows 95:llä. Kielikoneen WinVirkku-oikoluku ja uusi HyperTavu lisätään teksturin Työkalut-valikkoon muiden valintojen jatkeeksi. Asennus käyttää kirjoitusohjelman makrokieltä, ja lisätyökalut asentuivat moitteettomasti sekä AmiPro:n, Word 6:n että WP 6.1:n omien työkalujen rinnalle. Alkuperäinen oikoluku ja tavutus jäävät paikoilleen, joten vertaileminen on helppoa.

Lingsoftin Orthografix on 32-bittinen versio aiemmin myydystä 16-bittisestä tuotteesta nimeltä Oiko, joka puolestaan on käytössä sellaisenaan WP:ssä. Orthografix on suunniteltu Windows 95:een ja asennusohjelma sijoittaa oikoluvun ja tavutuksen sekä synonyymisanaston Word 7:n alkuperäisten toimintojen tilalle. Asennuksen voi purkaa.

Mielenkiinnon vuoksi mukaan otettiin myös pienikokoinen dos-ohjelma Sanatar vuodelta 1991. Senkin voi asentaa Windows-teksturin makrotoiminnoksi; makron täytyy tehdä ASCII- tai RFT-tallennus, poistua dosiin, käynnistää Sanatar ko. tiedostolle ja palata pääohjelmaan. Valitettavasti IBM on lopettanut Sanattaren myynnin, minkä vuoksi siitä on saatavissa vain esittelyversio (SANADEMO.EXE) MikroPC BBS:stä.

WP 6.1:n levykeversio ei toiminut Windows 95:ssä edes Novellin tukiboksista imuroidun SUPATCH.ZIP-korjauspäivityksen jälkeen, ja testi onnistui vasta, kun maahantuoja toimitti toimivan CD-version. Word 6:tta käytettiin vain Windows 3.1:ssä ja Word 7:ää vain Windows 95:ssä. AmiPro tomi hyvin molemmissa.

Yhteenveto

Tekstinkäsittelyohjelmien suomen kielen oikolukuohjelmat toimivat tyydyttävästi, mutta tekevät paljon typeriä virheitä ja korjausehdotuksia.

Oikolukijana WordPerfect olisi lähes käyttökelpoinen, ellei se tekisi yhä liikaa hölmöjä homonyymi-korjausehdotuksia, jotka hidastavat työskentelyä. Wordin ja AmiPro:n tarkistusohjelmat tekee kelvottomiksi niiden kyvyttömyys tunnistaa pitkiä yhdyssanoja. Word 6.0:ssa suomesa tehty MSSPFI2.DLL-lisäohjelma lähes korjasi ongelman. Valitettavasti sekä Wordin että MS-Officen asennusohjelmat unohtivat päivittää sen windows\msapps\proof-hakemistoon, joten oikoluku pysyi yhtä kehnona kuin Word 2.0:ssa.

Word 7:n oikoluvussa on paranneltu lähinnä ulkonäköä. Näppärästi se alleviivaa virheellisiksi uskomansa sanat punaisella jo kirjoitettaessa samana tapaan kuin vanha dos-Sanatar.

Onneksi tarjolla on myös kotimaisia vaihtoehtoja. Lingsoftin Orthografix sekä Kielikoneen WinMorfo parantavat olennaisesti Windows-tekstureiden suomen kielen taitoja ja paljon kirjoittavan kannattaa ottaa käyttöön niistä jompi kumpi. Mikäli kaipaa tukea myös kieliasun viimeistelyyn, valinta kallistuu Kielikoneen WinVirkun hyväksi.

KUVATEKSTIT:

Sanatar (kuvassa) ja WinVirkku tyytyvät merkitsemään virheellisiksi epäilemänsä sanat ehdottamatta vaihtoehtoja. Sanattaren sanavarasto lienee tarkistimien suppein, mutta nokkelan päättelynsä ansiosta se sallii enemmän muodollisesti virheettömiä sanoja kuin tekstureiden omat tarkistimet.

Word 7:ssä oikoluku alleviivaa jo kirjoitettaessa vireellisiksi luulemansa sanat punaisella. Tässä alkuperäisen tarkistusohjelman tilalla on Orthografix, joka löytää mm. kieliopin vastaisesti kirjoitetun yhdyssanan.

WinVirkku sisältää WinMorfo-oikolukijan ja etsii sekä kirjoitus- että tyylivirheitä. Se asennetaan Windows-teksturin työkaluvalikkoon, josta sitä voi käyttää teksturin omien kieliohjelmien asemesta. Tässä WinVirkku korjaa proosatekstiä kaikkien 25:n tarkistussääntönsä voimin. Ja huomautettavaahan löytyy.

Windows 95:ssä ja Windows NT:ssä toimivan Orthografixin synonyymisanasto osaa tarjota vaihtoehdot oikeassa sijamuodossa, mikä helpottaa käyttöä.

Kun Orthografix ei tunnista sanaa, se ei myöskään lähde arvailemaan sen mahdollista oikeinkirjoitusta, ja usein kirjoitusasun voikin jättää ennalleen.

Takaisin juttuluetteloon

Tietotila Oy:n pääsivulle