(C) Olavi Kanervisto & Tietotila Oy 1993

Oikeinkirjoitusohjelmat käyttötestissä

Lyöntivirheet historiaan

Suomen kielen oikeinkirjoitusohjelman on oltava ennen muuta nopea ja helppokäyttöinen. Jos korjausluku on kovin vaivalloista tai vie liiaksi aikaa, tekstin tarkistaminen jää yleensä tekemättä.

Tarkistusohjelma ei silti takaa tekstin oikeellisuutta. Tietokone ei näe metsää puilta: "oikea" sana väärässä yhteydessä menee aina tarkistuksesta läpi.

Sähkökirjoituskoneen vaihtuminen mikroon ja kirjoitusohjelmaan oli valtava edistysaskel. Tietokoneen näppäimistöllä virheitä syntyy silti yhtä helposti kuin vanhalla Remingtonilla. Korjaaminen on toki helppoa, mutta monen mielestä kirjoitusvirheiden havaitseminen monitorin ruudusta on vielä vaikeampaa kuin paperilta (ks. MikroPC 6-7/93, s. A4).

Lyöntivirheiden löytymistä helpottamaan on kehitetty tekstin tarkistusohjelmia. Ne vertaavat jokaista sanaa ohjelmaan sisältyvään sanastoon. Kehittyneimmät tarkistavat myös välimerkit sekä lauserakenteita. Sanaston laajuudessa sekä taivutusmuotojen, liitepartikkeleiden ja yhdyssanojen tuntemuksessa eri ohjelmien välillä on melkoisia eroja.

Tässä on esillä neljä kotimaista sovellusta, joita voidaan käyttää eri tekstureiden yhteydessä sekä kahta vierasperäisiin kirjoitusohjelmiin sisältyvää oikeinkirjoitusohjelmaa.

Viisi vuotta kehitystä

Kokeilluista ohjelmista vanhin on alan klassikko — Sitran ja Kielikoneen kehittämä Morfo sellaisena kuin se toimitettiin TekoPlus-ohjelman yhteydessä vuonna 1987. Lingsoftin ja Microlyticsin Oiko on vuodelta 1990. Kielikoneen Virkku, Houghton-Mifflinin Spell ja IBM:n Sanatar ovat tiedostojen päiväysten perusteella viime vuoden mallia.

Ohjelma- ja sanakirjatiedostojen koot vaihtelevat suuresti: Morto ja Virkku tarvitsevat noin 3,5 megatavua levytilaa, mutta Worksin Spell vain viidenneksen tästä. GeoWriten Spell-versio käyttää 455, Oiko 360 ja Sanatar vain 204 kilotavua. Kahta pienintä on siten mahdollista käyttää myös kiintolevyttömässä perus-PC:ssä.

Koodin pieni koko ei suinkaan tarkoita, että ohjelman kyvyt olisivat samassa suhteessa vaatimattomammat — asia tuntuu olevan miltei päinvastoin.

Erilaisia käyttöliittymiä

Korjausohjelmia voidaan käyttää joko erillisinä tai vain tietyn kirjoitusohjelman yhteydessä. Virkkua voi käyttää erillään kirjoitusohjelmasta Spell taas liitetään tiettyyn kirjoitusohjelmaan. Morfoa, Oikoa sekä Sanatarta voidaan käyttää molemmilla tavoilla.

Uusin Morfo 3.0 -versio osaa käsitellä sekä PC-ASCII- että ANSI- (Windows-ASCII) tekstiä. Se tuntee myös MS Word 3, 4 ja 5- tiedostot MS Writen, Word for Windowsin sekä WordPerfect 4.2- ja 5.0/5.1-tekstin.

Vanhan TekoPlus-ohjelman mukana toimitettu versio suostui lukemaan ainoastaan tallenteita, joiden alussa on tunnus "TekoIII". Oikoluvun käyttämiseksi on ensin poistuttava tekstinkäsittelystä ja tallennettava tiedosto 3-muodossa Morfoa varten, käynnistettävä oikoluku päävalikosta ja sitten palattava tekemään korjaukset Teko-ohjelmalla.

Oiko on liitetty useisiin tekstinkäsittelyohjelmiin, mm. WordPerfectiin. Ohjelmalla voidaan käsitellä sekä levylle tallennettua että työtilassa olevaa tiedostoa. Se voi joko merkitä virheellisiksi katsomansa sanat tiedostoon alku- ja loppumerkein, jotka kirjoitusohjelmassa näkyvät tekstin tai taustan väriä vaihtavina korostuksina tai ehdottaa korjausvaihtoehtoja.

Sanatar on riittävän pieni toimiakseen myös kirjoitusohjelman "DOS-ikkunassa". Tiedostoina kelpaavat standardi-ASCII sekä IBM:n RFT-muoto (jota ei pidä sekoittaa Microsoftin RTF-standardiin).

Virkku on laaja ja monipuolinen, itsenäisesti toimiva ohjelma, jonka avulla voidaan mm. vaihtaa virheelliset sanat ohjelman suosittelemiin vaihtoehtoihin ja korjata myös lauserakenteita. Muitakin kuin korjattavaksi merkittyjä tekstikohtia voi muutella. Ohjelma osaa tavallisimpien tekstureiden tiedostomuodot, antaa oikeakielisyysohjeita ja laatii pyydettäessä jopa lausunnon tekstin ymmärrettävyydestä. Tarkistuksen taso määritellään selkeistä valikoista.

Spell-ohjelmasta oli käytössä kaksi eri versiota, joista toinen liittyy osana GeoWorks Ensemble- ja toinen Window Works monitoimiohjelmaan. Kumpaakaan ei voi käyttää erillisenä.

Tarkkuudessa eroja

Tarkistusohjelmia vertailtiin käsittelemällä jokaisella erikseen mm. sama noin 600 "ongelmasanan" luettelo. Tiedosto koostui sanoista, jotka ohjelmista vapaamielisin hyväksyi, mutta joita ankarin (Virkku) ei pitänyt suositeltavina.

Oiko todettiin sallivimmaksi. Se hyväksyy mm. useimmat suomen kielen nomineista muodostetut yhdyssanat, joiden alkuosa on perusmuodossa tai genetiivissä. Sen hylkäämät sanat olivat pääosin vierasperäisiä, erisnimiä tai slangia.

Ohjelma kelpuutti mm. seuraavat sanat, jotka kaikki viisi muuta hylkäsivät: ISSIAS, KIILLOITTAA, KUOHIA, MEISLATA, VAAKITA ja YEN.

Oikoa voidaan onneksi räätälöidä poistamalla tai lisäämällä sanoja sen sanakirjaan. Sanastoa voidaan siis täydentää erisnimillä jne. Lisäksi on mahdollista ylläpitää "ehdottomasti kiellettyjen ilmaisujen listaa", johon mm. edellä mainitut kyseenalaiset sanat voidaan lisätä.

Sanakirjan täydentämismahdollisuus on hyödyllinen ominaisuus. Tuntemistani noin 200:sta Oikon käyttäjästä vain muutama on silti koskaan lisännyt sanastoihin mitään muuta kuin oman nimensä.

Sekä Oiko että Sanatar hyväksyvät sanat KRIITILLINEN, MONTTÖÖRI, VALVOTUTTAA sekä VELOTTAA, jotka eivät kelvanneet neljälle muulle.

Myös Morfo osoittautui suhteellisen vapaamieliseksi äidinkielen tulkitsijaksi. Sekä Morfo että Oiko pitävät asianmukaisina mm. seuraavia sanoja, jotka GeoWrite, Sanatar, Virkku sekä Works hylkäsivät: ENTISOIDÄ FAKKI, FIIBERI, KAASUTTAJA, JONKUNMOINEN. KROMIOIDA, MOTORISOIDA, PÄÄLLITYSTEN, SADETTAJA, TEAK, TIIVEYS ja TYKÖISTUVA.

GeoWriten sanakirja on kokeilluista puutteellisin. Siihen sisältyy kuitenkin myös kyseenalaisia ilmaisuja kuten BOOMI, RUTINOITU, SAMAISTAA ja VODKA, jotka eivät kelpaa Sanattarelle, Virkulle ja Worksille.

Homonyymeistä harvoin hyötyä

Englannin kielessä sanojen kirjoitusasu ja ääntämys poikkeavat toisistaan, ja oikeinkirjoitus tuottaa vaikeuksia syntyperäisillekin. Tarkistusohjelmat ehdottavat siksi väärin kirjoitetun sanan tilalle homonyymejä eli samantapaisia sanoja toivoen, että tekstin tarkistaja löytäisi etsimänsä ilmaisun tarjolla olevien vaihtoehtojen joukosta.

Spell on on alun perin suunniteltu englannin kieltä varten - ja sen huomaa. Toimintamalli sopii suomen kieleen huonosti, koska kirjoitusasultaan toisiaan muistuttavat sanat useimmiten tarkoittavat aivan eri asioita.

Virkku suosittelee vaihtamaan sanan OIKOLUKIJA muotoon KORJAUSLUKIJA, GeoWrite sekä Works ehdottavat sanaa OHIKULKIJA. KIERROSLUKU pitälsi Virkun mielestä korvata KÄYNTINOPEUDELLA, Spell tarjoaa tilalle KIERTOKULKU-sanaa. Virkku.suosittaa käyttämään MONTTÖÖRln sijasta ASENTAJAA, GeoWritelle ja Worksille kelpaisi MONITORI.

Ohjelmatkin erimielisiä

Sekä GeoWrite että Window Works jättävät hyväksymättä useimmat niistä sanoista, jotka eivät kelpaa myöskään Virkulle. Tätä ei kuitenkaan voida pitää ansiona, koska kumpikin ohjelma kyseenalaistaa samalla joukon täysin asianmukaisiakin ilmaisuja. Works mm. hylkäsi kaikki pitkät yhdyssanat ehdottaen niiden jakamista virheellisesti kahdeksi eri sanaksi.

GeoWrite, Oiko, Virkku sekä Works voidaan säätää ehdottamaan vaihtoehtoja sanoille, joita ne eivät kelpuuta tai tunne. Ohjelman virheelliseksi epäilemä sana joko hyväksyä sellaisenaan kyseisessä yhteydessä tai koko asiakirjassa samalla kertaa, korvata se jollakin ohjelman tarjoamista vaihtoehdoista tai korjata sltä muulla tavalla.

Virkun esittämät vaihtoehdot ovat useimmiten Kielitoimiston suositusten mukaisia. Mutta koska GeoWrite ja Works eivät osaa suomea, ne esittävät korjausvaihtoehtoina homonyymeiksi luulemiaan sanoja. Aluksi suositukset herättävät hilpeyttä, ajan oloon tämän tasoinen "apu" alkaa raivostuttaa kiireistä kirjoittajaa.

Virkku ja Works ovat eri mieltä mm. seuraavista sanoista (ensin Virkun suositus, sen jälkeen Worksin ehdotus): ILMAISANTI: RAHASTOANTI vai ILMAVASTI? KIILLOITTAA: KIILLOTTAA vai KIIHOITTAVA? KLEMMARI: PAPERILIITIN vai KELLARI? KRIITILLINEN: KRIITTINEN vai KRISTILLINEN? SADETTAJA: SADETIN vai SADETAKKI? SUULAKE: SUUTIN vai SULAKE? VATSALAUKKU: MAHALAUKKU vai VASTALAUSE? VÄKILANTA: LANNOITE vai VÄKIVALTA ?

GeoWritelle ei kelpaa VÄKILANTA eikä edes LANNOITE, vaan se tarjoaa tilalle sanaa LANTIO. GeoWorksin Spell on täysin eri mieltä Virkun kanssa mm. seuraavista sanapareista (ensin Virkku, sitten GeoWrite): HERKKÄHERMOINEN HERMOHERKKÄ; OHIKULKUTIE / OHITUSTIE; TEKSTINKÄSITTELY / SANOJENKÄSITTELY; SUOSTUTELLA / YLIPUHUA; TIIVISTELMÄ / YHTEENVETO; UHKAROHKEA / USKALLETTU; VARMATOIMINEN / TOIMINTAVARMA, VIHERIÖITTÄÄ / VIHERRAKENTAA.

Väärät ehdotukset hidastavat työtä

Sekä GeoWorks että Windows Works pysähtyvät harmittavan usein virheettömiinkin kohtiin, Works vielä useammin kuin GeoWrite. GeoWorks siirtyy sentään "ohita"-komennolla parissa sekunnssa seuraavaan virheeseen. Windows-ohjelma oli tässä(kin) suhteessa joukon hitain.

Sanatar ei tarjoa vaihtoehtoja eikä suosituksia. Sillä voi sen sijaan korjata kerralla kuvaruudullisen tekstiä. Muutoksia voi tehdä sekä ohjelman poikkeavalla värillä merkitsemiin tunnistamattomiin sanoihin että myös kohtiin, joissa Sanatar ei ole todennut mitään huomautettavaa. Virheen tultua korjatuksi kyseisen sanan merkkiväri katoaa, ja vastaavasti muutettaessa oikeassa muodossa ollut sana virheelliseksi se saa välittömästi uuden värin.

Tiedoston tallentaminen, oikeinkirjoitusohjelman käyttö ja kirjoitusohjelmaan palaaminen voidaan ohjelmoida makrotoiminnoksi. Mm. suositun VDE-teksturin yhteydessä Sanatar toimii ongelmitta tällä tavoin. Sanatar ei koske graafisiin merkkeihin eikä kirjoittimen ohjauskoodeihin, vaan säilyttää jopa kappaleiden muotoilun silloinkin, kun rivm pltUUs korjattaessa muuttuu. Tekstin oikean reunan tasaus on kuitenkin tarkistettava kirjoitusohjelmalla DOS-shellistä palaamisen jälkeen.

Tämä juttu tarkistettiin ennen painoon menoa kaikilla kuudella ohjelmalla jättäen kuitenkin ehdotetut korjaukset tekemättä. Tekstiin sisältyvien 30:n erisnimen lisäksi (joiden kaikki 79 esiintymiskertaa siis katsottiin virheiksi) eri ohjelmat tekivät korjausehdotuksia seuraavasti:

GeoWrite: 150 sanaa 9 minuutissa
Morfo: 22 sanaa 68 sekunnissa
Oiko: 10 sanaa 18 sekunnissa
Sanatar: 29 sanaa 18 sekunnissa
Virkku: 58 sanaa 95 sekunnissa
Windows Works: 164 sanaa 12 minuutissa

Morfo 3.0:n asennusongelmat

Tässä vertailussa piti olla mukana myös Morfo-ohjelman viimeisin 3.0-versio. Kielikone Oy:ltä kokeiltavaksi saamamme ohjelmapaketti ei kuitenkaan toiminut. Emme ehtineet ajoissa saada uutta kopiota, vaan jouduimme käyttämään vanhempaa versiota.

Vaikka sarjanumero- ym. rekisteröintitiedot näyttivät oikein kirjatuilta, asennusohjelma kieltäytyi purkamasta pakattua MORFO.ZlP-tiedostoa ja ilmoitti: "Asennus ei onnistunut". Levykkeellä oleva PKUNZIP-pakkausohjelman 1.1-versio vuodelta 1990 antoi varoituksen: "Error in ZIP, use PKZipFix". Samalla tavoin ilmoitti myös PKUNZlP-ohjelman viimeisin eli 2.04g-versio tämän vuoden tammikuulta.

Levyke ja kaikki sillä näkyvät tiedostot olivat kuitenkin lukukelpoisia 1024b "bad sectors" -alueesta huolimatta.

Valmiiksi formatoiduilla levykkeillä mahdollisesti esiintyviä virheellisiä kohtia ei ole poistettu käytöstä merkitsemällä ne "bad sectors" -alueiksi. Siksi oletettiin tämän sekä kolmen "hidden"-systeemitiedoston liittyvän, ohjelman kopiosuojaukseen, joka lienee ammattitaitoisen hakkerin murrettavissa.

Laillisen kopion rehellisesti hankkinut tavallinen käyttäjä sitä vastoin ei saa ohjelmaansa toimimaan ainakaan ilman PKZipFix-korjausohjelmaa. Sellaista ei asennuslevykkeiltä löytynyt.

MORFO JA VIRKKU Valmistaja: Kielikone Oy, puh. 90-518400 Uusimmat versiot: Morfo 3.0 (DOS) ja DD-Morfn 2.2 (Windows) 1900 mk; Virkku 2.0 2900 mk

OIKO Valmistaja: Lingsoft Oy. puh. 90-499556 Uusin versio: Oiko 2.0 toimitetaan mm. WP:n yhteydessä; myös saatavissa erillisenä erikseen määriteltävään hintaan

SPELL Valmistaja: Houghton-Mifflin Saatavissa vain ohjelmiin liitettynä, mm. Windows Works ja GeoWorks

SANATAR Edustaja: IBM, puh. 90-4591 Uusin versio: Sanatar 1.0, 350 mk

Tämä juttu on "normaalikieltä"

Edellä oleva teksti tarkistettiin Virkku-ohjelmalla (ennen viimeisiä toimituksellisia korjauksia). Se ilmoitti tekstistä löytyneen 94 virkettä ja 1150 keskimäärin 7,5 kirjainta sisältävää sanaa. Virkkeissä on keskimäärin 12,3 sanaa. Tekstissä on käytetty kaikkiaan 565 erilaista sanaa, joista 48:aa ohjelman sanakirja ei tunne.

"Normaalikielen" keskiarvot ovat Virkun mukaan 7,6 kirjainta ja 12,7 sanaa. Vaikeusasteeksi Virkku ilmoitti lukeman 52,5: "Teksti sanomalehtikielen rajoissa."

KUVATEKSTI:

MikroPC:n toimitusjärjestelmässä tämän jutun tekstintarkistuksen tulos näkyy värikorostuksina kuvaruudulla. Tarkistusohjelmisto on Oiko.

Takaisin juttuluetteloon

Tietotila Oy:n pääsivulle