© Olavi Kanervisto & Tietotila Oy 1999

OCR:

Tekstin tunnistuksesta dokumenttien tallennukseen

Skannerien mukana tulevat tekstintunnistusohjelmien kevytversiot mainostavat maksullisten päivityspakettien lisäominaisuuksia. Harva käyttäjä tarvitsee näitä uusia piirteitä. Painoasultaan heikosta tekstistä eivät kalliit ohjelmat saa selvää juuri kevytversioita paremmin.

1980-luvulla puhuttiin paperittomista toimistoista: kaikki tieto arkistoitaisiin sähköisesti ja siirtyisi lähiverkossa työasemaan ja takaisin. Paperidokumentteja ei enää juuri tarvittaisi.

Ennuste ei ole toteutunut. Toimistoissa päin vastoin tulostetaan enemmän (turhia?) asiakirjoja kuin milloinkaan aikaisemmin.

Painettu tai kirjoittimella tulostettu teksti ja kuvatkin saadaan tarvittaessa takaisin sähköiseen muotoon kuvanlukijalla eli skannerilla.

Skannattu aa-nelonen ei ole sellaisenaan arkistojärjestelmille käyttökelpoinen tallenne. Tekstisivujen arkistointi grafiikkamuodossa vaikkapa cd-rom-levyillä on tilan tuhlausta: skannattuja A4-konekirjoitusliuskoja mahtuu TIF-kuvatiedostoina rompulle vain noin 600, kun tekstitiedostoina samaan tilaan saadaan mahtumaan jopa 500-kertainen määrä tekstiä.

Tiedon etsiminen kuvamuodossa tallennetuilta tekstisivuilta on yhtä hankalaa kuin ennen muinoin mikrofilmien lukulaitteella: oikean sivun löytäminen vie aikaa. Mutta sivujen ollessa tallennettuna tekstimuodossa ne voidaan indeksoida Internet-hakuroboteista tutulla tekniikalla niin, että oikeat asiakirjat löytyvät nopeasti minkä tahansa tekstiin sisältyvän sanan tai lukujoukon perusteella.

Helppoa ja halpaa

Vielä viime vuosikymmenellä monissa yrityksissä oli konekirjoittajia ja tekstinkäsittelylaitteita vain tekstien puhtaaksi kirjoittamista varten. Palkkakehitys johti siihen, että vuosikymmenen lopulla tuli edullisemmmaksi faksata tai postittaa puhtaaksikirjoitustyöt kaukoitään siellä tallennettavaksi ja sähköpostitse tai levykkeillä takaisin Suomeen siirrettäväksi.

Näppäräsormiset aasialaiset tallentajatkin jäivät työttömiksi, kun pöytätietokoneet kehittyivät ja OCR (optical character recognition) eli merkkien optinen tunnistus yleistyi.

Telefax ja ocr eivät ole kovin hyvä parivaljakko. Jos faksissa on käytetty riittävän suurta ja helppolukuista kirjasinta ja vastaanottava laite käyttää lasertekniikkaa eli tulostaa tavalliselle toimistopaperille, tekstin tunnistaminen ocr-ohjelmalla saattaa onnistua myös telekopiosta lähes yhtä hyvin kuin alkuperäisestä kopiosta.

Aina nämä edellytykset eivät täyty. Jos jo lähtevä faksi on suttuinen, liian pientä tekstiä ja kenties liian vaalea ja vastaanottava laitekin edustaaviime vuosikymmenen lämpöpaperitekniikkaa, tulosteen laatu ei yleensä riitä virheettömään optiseen lukuun.

Tilanne on toinen, jos faksi on lähetetty tietokoneelta tietokoneelle eli tekstinkäsittelyohjelmasta suoraan faksimodeemilla ja otettu vastaan toisella tietokoneella. Tällöin ocr-tunnistaminen yhä sähköisessä kuvamuodossa olevasta faksista onnistuu yleensä parhaiten laatua huonontavien optisten paperikopioiden jäädessä pois.

Mutta mitä järkeä tällaisessa operaatiossa olisi, kun sähköpostiohjelma tekee tuon kaiken ilman turhia välivaiheita.

Kuvanlukijat halpenivat ja ovat yleisiä jo kotikäytössäkin. Ocr:ää hyödynnetään myös eräänlaisena köyhän miehen kopiokoneena. Niinpä Ocr-ohjelmien valmistajille on nykyisessä tilanteessa tuottavampaa myydä paljon ohjelmia halvalla kuin vähän mutta kalliilla.

Tällä hetkellä myytävien skannereitten mukana seuraa yleensä kevytversiot sekä kuvankäsittelyohjelmasta että tekstintunnistusohjelmasta. Useimmiten mukana on joko Recognita, TextBridge Classic tai OmniPage Limited Edition. Kevytversioita jaellaan myös faksiohjelmien mukana.

Kevytversiolla tulee toimeen

Koko asiakirjan tunnistus ja värikuvien tallennus kerta-ajolla multimediadokumentiksi ei toimi niin hyvin kuin mainokset lupaavat. Neliväridokumenttien käsittely on hidasta ja vaatii paljon muistia.

Tässä vertailtavien kolmen erikseen ostettavan OCR-ohjelman arvottamiseksi kokeiltiin ensin, mihin skannerin mukana tuleva ilmainen kylkiäisohjelma kelpaa. Uusimpien ohjelmien suorituskykyä verrattiin myös seitsemän vuoden ikäiseen vanhaan versioon yhtä vanhassa mikrossa (25 megahertsin 486-prosessori ja 8 megatavua työmuistia).

Sekä 500 markan skannerin mukana tullut TextBridge Classic 1.06 että jo vuonna 1991 käyttöön otettu OmniPage Pro v. 2.11 kelpaavat mainiosti tarkoitukseensa eli tavanomaisten konekirjoitusliuskojen, kirjojen ja aikakauslehden sivujen sekä laserkirjoittimella tulostettujen tekstien saattamiseksi takaisin tiedostomuotoon.

Kumpikin tunnistaa hyvin kaikki tavanomaiset Times Roman- ja Helvetica (Arial) -kirjapainofontit sekä konekirjoitustekstin. Kevytversioiden oikeastaan ainoa puute tunnistuksessa on se, että kerralla voi olla käytössä vain yhden kielen kirjaimisto. Siten suomen kielen merkistön ollessa valittuna vieraskielisistä sanoista mm. aksentit usein tunnistetaan heittomerkeiksi, jäävät kokonaan pois tai aikaansaavat väärän tunnistuksen. Tyypillinen virhe on esimerkiksi adios-sanan o-kirjaimen muuttuminen numeroksi 6.

Tekstin joukossa olevat kuvat ja muut graafiset merkit ohitetaan ongelmitta sekä TextBridge Classicilla että OmniPage 2.11:lla. Konekirjoitusteksti ja tavanomaiset fontit tunnistetaan vaivattomasti, mutta vanhasta kirjapainofraktuurasta ja neulakirjoittimien pistematriisitekstistä kevytversiot eivät saa selvää.

Runsaasti tallennusvaihtoehtoja

TextBridge Classic tarjoaa tunnistetun tekstin tallennusmuodoiksi 34 eri vaihtoehtoa, joista suurin osa on tarpeettomia. Hyödyllisin on yhä "Ascii stripped" eli yleinen tekstinkäsittelymuoto, jota kaikki laitteet ja kirjoitusohjelmat ymmärtävät sekä tietenkin HTML samasta syystä. Rtf-teksti voidaan tallentaa sekä Windowsin ANSI- että Macintosh-merkkijärjestelmillä. Koodisivuriippuvainen dos-versio rtf:stä ei ole enää mukana.

Osa "vaihtoehdoista" on näennäisiä: sekä valinnat "Word 6.0" että "Word 7.0" tallentavat tiedoston rtf-muodossa, kuten pitääkin.

Adoben pdf-muoto (portable document format) on rtf:ää parempi tallennustapa silloin, kun taitto sekä tekstin joukossa olevat kuvat ja graafiset merkit halutaan toisintaa mahdollisimman tarkoin alkuperäisen kaltaisina.

Kun tekstin ocr-tunnistus onnistuu, tällä tekniikalla on mahdollista saavuttaa sellainen hämmästyttävä tulos, että skannatusta dokumentista tulostettava uusi paperikopio on laadultaan alkuperäistä parempi.

Pdf-tallennusmuodossa, toisin kuin PostScriptillä, tallennetut dokumentit voidaan tulostaa tekstin alkuperäinen asettelu säilyttäen miltei minkä tasoisella tulostimella tahansa. Pdf-muotoinen teksti voidaan myös indeksoida erilaisten automaattisten hakemistojen luomiseksi ja hakukoneiden käyttämiseksi.

Myös internetin kautta tapahtuvassa paperidokumenttien jakelussa pdf-muoto on HTML-sivunkuvauskieltä käyttökelpoisempi. Kun Acrobat Reader -katseluohjelma on ilmainen ja imuroitavissa miltei mistä tahansa, ei ihme että tämä "elektroninen paperi" on jo käytännössä saavuttanut standardin aseman.

Seitsemän vuotta vanha OmniPage sisälsi runsaasti tallennusvaihtoehtoja. 52:n nimetyn tiedostotyypin joukosta löytyvät mm. AmiPro, DisplayWrite, IBM Writing Assistant, Lotus Manuscript, PFS:First Choice, Volkswriter, WordStar, XyWrite ja monia muita nykyisin jo täysin unhoon jääneitä tekstureita. Ascii Stripped -siirto toimii yhä kaikkiin kirjoitusohjelmiin.

Miten kokeiltiin

Kaikki kolme tässä vertailtavaa ohjelmaa asennettiin vuoron perään samaan pentium-mikroon, ja jokaisella skannattiin ja tunnistettiin samat testisivut. Kymmenkunta erilaista yleistä kirjapainofonttia kursiivi- ja puolilihava-muunnoksineen luettiin Otavan kirjapainon tekstinäytekansiosta, jossa samalla arkilla löytyvät joka kirjasinlajista kaikki pistekoot 9:n ja 24:n väliltä.

Erikoismerkkien tunnistusta testattiin lasertulostimella laaditusta koearkista, jossa oli pari kymmentä erilaisin aksentein varustettua vierasperäistä kirjainta sisältäviä sanoja kahdeksalla eri tekstityypillä.

Tämä kokeilu varmisti ainakin sen, että jos ohjelman perusasetuksissa oli valittuna jokin muu kieli kuin suomi tai ruotsi, ä- ja ö-kirjaimia ei tunnisteta oikein. Vieraammat aksentit tunnistetaan vain, jos lisäkieleksi on valittu esimerkiksi ranska.

Lisäksi skannattiin muutamia sekä kuvia että tekstiä sisältäviä aikakauslehden sivuja, vanhaa fraktuuraa sekä matriisikirjoittimen tulosteita. Kaikki ohjelmat selvisivät kunnialla useimmista nykyaikaisista kirja- ja aikakauslehtikirjasimista. Fraktuura ja neulakirjoittimien pistematriisiteksti tuottivat vaikeuksia.

Kirjapainofonteista kaikki ohjelmat tunnistivat vaikeuksitta Timesin ja Bodonin kaikki pistekoot myös lihavoituna ja kursiivina, kaikki kokeillut Helveticat ja niiden korostukset sekä suhteutetun kirjapaino-Courierin. Myöskään Windowsin TrueType-tulostusfontit eivät olleet ongelma edes mustesuihkukirjoittimen tulosteissa.

Timesiä hieman laihempi Garamond-fontti ylipäätään aiheutti tunnistamisessa paljon virheitä.

TUOTEARVIOT

Adobe Acrobat Capture 2.0

Capturen tekniikalla pdf-tiedostoon on mahdollista tallentaa yhtä aikaa sekä alkuperäinen sivu pistegrafiikkana että tunnistettu teksti kirjapainofonteilla "peittämään" sitä siltä osin kun merkkien tunnistus on tapahtunut ohjelman mielestä luotettavasti. Näin tekstiin ei jää aukkoja, vaan alkuperäisestä asiakirjasta skannatut merkit, myös tunnistamattomat, näkyvät oikeissa kohdissa tekstin joukossa.

Jo kauan markkinoilla ollut Capture on kolmesta vertailtavasta ohjelmasta ammattimaisin. Se sallii jopa satojen sivujen skannaamisen ensin TIF-muodossa levylle ja sen jälkeen kaikkien sivujen tunnistamisen ja tallentamisen automaattisesti. Myös sellaisten pdf-tiedostojen tallentaminen, joiden kaikkia merkkejä ohjelma ei pysty tunnistamaan, sujuu eräajona ilman valvontaa.

Vertailluista ohjelmista ainoana Capture suostui käsittelemään pdf-tiedostoiksi saakka myös väri- ja harmaasävykuvia sisältävät dokumentit.

Ammattimaisuuden vaikutelmaa lisää ohjelman lisenssipolitiikka. Asennuksessa ei ole mitään kopiosuojausjippoja, eikä myöskään skannaus edellytä erityistoimenpiteitä. Tekstin tunnistus sitä vastoin edellyttää laskurilla varustetun suojauspalikan, donglen paikallaan oloa kirjoitinväylässä.

Capture ohjaa skanneria joko ISIS- tai twain-ajokäytännöllä. Skannaus kirjoitinväylään liitetyllä TWAIN-kuvanlukijalla ei kuitenkaan sujunut virheettömästi Sentinel-donglen läpi, vaan kuviin tuli häiriöpisteitä. Koesivut skannattiin siksi ensin ilman donglea tiff-tiedostoiksi ja ocr-tunnistus tehtiin vasta näistä tallenteista.

Skannattujen sivujen "välivarastointi" TIF-muodossa vaatii runsaasti levytilaa. Pelkkää tekstiä sisältävä A4-arkki vie runsaan megatavun, mutta yksi ainoa luottokortin kokoinen värikuva tekstin joukossa kasvatti tilan tarpeen 25 megatavuun.

Tekstin tunnistuksen tapahduttua em. testiarkki 24-bittisine värikuvineen mahtui rtf-tiedostona 1,4 megatavuun ja HTML-muotoisena (jossa linkki vastaavaan gif-kuvatiedostoon) pelkkä teksti mahtui 9 kilotavuun.

Pistematriisikirjoittimen arkin, josta Capturekaan ei pystynyt tunnistamaan merkkejä, se tallensi pdf-grafiikkana ja sai sen mahtumaan 2,5 megatavuun. Mustavalkoista tekstiä sisältävät sivut, joista merkit tunnistettiin sataprosenttisesti, vievät rtf-tiedostoina noin 12 kilotavua (ja ascii-tekstinä noin kolme kilotavua; Capture ei kuitenkaan tallenna ascii-tekstiä.)

Adobe Capture on vertailujoukon kallein ohjelma: 4.820 mk. Paketti sisältää oikeuden 21.000 tekstisivun tunnistamiseen. Ohjelman mukana tulee oikeus 20.000:n sivun tunnistamiseen. Tämän jälkeen on ostettava uusi dongle: seuraavat 20.000 sivua maksaa 3.660 mk ja 200.000 sivun tunnistusoikeuden sisältävä dongle maksaa noin 30.000 mk.

Suomea ei löytynyt ohjelman osaamiksi ilmoitettujen yhdeksän kielen joukosta. Ruotsin kieli käyttää kuitenkin samaa kirjaimistoa, joten tästä ei aiheutunut ongelmia.

Capture on automaattisin, mutta samalla hitain ohjelma. Vaikka sen vähimmäisvaatimuksiksi ilmoitetaan 486- prosessori ja 16 megatavua työmuistia, puolta tehokkaammassakin laitteessa kiintolevyn virtuaalimuistia tarvittiin miltei koko tunnistusprosessin ajan. Tämä ohjelma varmaan hyötyisi 64 tai jopa 128 megatavun RAM-muistista.

Vaatimaton 84-sivuinen käyttöönotto-opas sisälsi lyhyet ohjeet seitsemällä kielellä, ei suomeksi. Täydellisemmät ohjeet löytyvät levyltä pdf-tiedostoina (kuinkas muuten).

OmniPage Pro 9.0

Eturivin ocr-ohjelmana syystä pidetyn OmniPagen uusin versio oli lievä pettymys. "Parannukset" ovat kohdistuneet käytön kannalta toisarvoisiin asioihin kuten värillisten asiakirjojen käsittelyyn; pääasian eli tekstin tunnistuksenhan ohjelma onkin osannut jo monta vuotta.

OmniPage Pro on joukon toiseksi kallein ohjelma: peruspaketin hinta on 4.800 markkaa, päivitys vanhemmasta versiosta 1200 mk.

Useimmiten 9.0-versio ostettaneen useimmiten ns. tuotevaihtohintaan 1.680 mk. Tämä hinta on voimassa, kun koneessa on ennestään mikä tahansa muu OCR-ohjelma, esimerkiksi skannerin mukana tullut kevytversio.

Asennusohjelma ei mitenkään tarkista, onko skannerin mukana toimitettava OCR-ohjelma edes asennettu tietokoneeseen, joten käytännössä jokainen kuvanlukijan omistaja pystynee laillisesti hankkimaan tämän ohjelman tuotevaihtohintaan.

OmniPage Pro -paketissa on mukana PageKeeper 3.0 dokumenttien hallintaohjelmisto, jonka käyttöliittymä integroituu Windowsiin samaan tapaan kuin Pagis-paketin vastaava ohjelma. PageKeeper mahdollistaa mm. tallennettujen dokumenttien luetteloinnin ja sen ylläpidon.

Vaatimaton 100-sivuinen ohjevihkonen on englanninkielinen.

OmniPagella oli vaikeuksia käyttää skanneria kirjoitinportista twain-ajokäytännöllä. Siksi osa kuvista skannattiin toisenmerkkisellä ISIS-laitteella ja osa tunnistettiin Capturella tehdyistä tiff-tallenteista.

Kaikki yleisessä käytössä olevat kirjapainofontit tunnistettiin luvatulla 99,8 prosentin tarkkuudella virheettömästi. Jostakin syystä kuitenkin %&#-merkit jäivät tunnistamatta Helvetica- ja Garamond-tekstityypeissä.

Kirjapaino-Courierin merkit tunnistettiin virheettömästi, mutta 9 ja 10 pisteen tekstityyppiä ei. Garamond oli OmniPagelle ongelma sekä 9, 10, 11 että 12 pisteen kokoisena, tätä isommat kirjasimet tunnistettiin oikein. Kaikki muut kokeillut antiikva-fontit ja groteskit toimivat moitteettomasti.

OmniPage näyttää tunnistetusta tekstistä värillisinä ne sanat, joiden tunnistuksesta se ei ole varma. Tämä nopeuttaa ihmistyönä tekevää korjausluentaa.

Ohjelman omasta oikolukijasta ei ole hyötyä. Sen suomen kielen taidot ovat yhä samaa tasoa kuin 80-luvun WordPerfect-teksturilla: OmniPagen ehdottamat homonyymi-vaihtoehdot eivät kerta kaikkiaan juuri koskaan osu suomenkielisessä tekstissä kohdalleen, joten oikoluvun käyttö hidastaa työtä enemmän kuin helpottaa sitä.

OmniPage osaa tallentaa skannerilta luetun kuvan levylle bmp-, pcx- ja tiff-muotoisena oman met-tiedostomuotonsa lisäksi. Käyttökelpoisia tunnistetun tekstin tallennusmuotoja ovat Text only, html, rtf ja Word 6.0 -asiakirja; sekä Wordille että WordPadille rtf-muoto siirtää muotoilut ongelmattomammin. Html-muotoiseen tiedostoon ohjelma ei kuitenkaan osannut tallentaa palstoitusta, ja linkki keskellä asiakirjaa sijainneeseen kuvaan sijoittui tekstin loppuun.

Pagis Pro 2.0 / TextBridge Pro 98

Ocr-ohjelma TextBridgen Pro-versio myydään sekä erikseen että osana Pagis Pro 2.0 -kokonaisuutta. Paketin muut osat ovat MGI Photo Suite kuvankäsittelyohjelma, Pagis Copier -ohjelma, jonka avulla skannatut väridokumentit voidaan sellaisenaan tulostaa printterillä ja itse Pagis-ohjelma kuvien ja dokumenttien järjestelemiseksi.

Pagis Pro:n valmistaja on Xeroxin tytäryhtiö ScanSoft. Ohjelmiston mukana tulee vertailujoukon paksuin ja havainnollisin käsikirja sekä hieno esittely- ja opastusohjelma.

Itse TextBridge-ohjelma ei toiminut aivan niin hyvin kuin mainos antaa ymmärtää. Pistematriisiteksti ja vanha fraktuura jäivät tunnistamatta. Yleisistä kirjapainofonteista vain 9 ja 10 pisteen Garamond osoittautui hankalaksi. Kaikki 11 pisteen ja tätä suuremmat antiikvat luettiin ongelmitta.

Ohjelma ei suostunut tekemään lainkaan tunnistusta tiff-tiedostolle, jossa oli mukana värikuva. Tiedosto oli joko muunnettava kuvaohjelmalla mustavalkokuvaksi tai skannattava uudestaan.

Pagis Pro:n käyttöliittymä voidaan asentaa tehtäväpalkkeina Windows-työpöydälle. Vetämällä skannatun dokumentin kuvake halutun ohjelman päälle ohjelma yrittää muuntaa sen oikeaan muotoon.

Tallennusmuodoissa on runsaasti vaihtoehtoja Muun muassa rtf-tiedostoissa käytettäväksi merkkijärjestelmäksi voidaan valita joko Windowsin ANSI tai Macintoshin merkistö. Html-tiedostot tallennetaan joko standardimuodossa tai "Netscape-murteella".

Kolmipalstaisesta testitekstistä, jonka keskimmäisellä palstalla oli kuva, TextBridge osasi jopa erottaa html-tallenteeseen kuvatekstiksi olettamansa tekstinosan itse kuvan yhteyteen. Tosin se ei osannut luoda kuvalle kehystä oikeaan paikkaan. Itse teksti tallennettiin html-standardin mukaisesti oikein kolmipalstaisena.

Pdf-muoto on tässä tapauksessa huijausta: ohjelma ei tallenna tunnistettua tekstiä Acrobat Readerilla luettavaan ja tulostettavaan tekstimuotoon. Tiedosto sisältää vain alkuperäisen skannatun tekstin näköiskuvan, joten pdf-tiedosto vie paljon tilaa, eikä sisällön editointi tai sanahakujen käyttö ole mahdollista.

Skannatut kuvat ohjelma osaa tallentaa mustavalkoisina bmp-, pcx-, tiff- ja fax-muodossa sekä omina xif-harmaasävykuvatiedostoina, jotka mahtuvat kohtuullisen pieneen tilaan.

Pagis Pro 2.0 -paketti maksaa 1450 mk, päivitysversio noin 1000 mk. Pelkkä TextBridge Pro 98 maksaa 995 mk. päivitysversio 600 mk.

Vaikka kaikki kokonaisten dokumenttien tunnistukseen ja tallennukseen tarkoitetut ominaisuudet eivät toimi aivan yhtä hyvin kuin kalliimmilla kilpailijoilla, Pagis Pro -paketti tarjoaa silti eniten vastinetta rahalle. Perustehtävänsä eli tavanomaisen tekstin tunnistuksen mustavalkoisten kuvien välistä ohjelma osaa hyvin.

KUVATEKSTIT:

Adobe Capturen käyttöliittymä on selkeä ja havainnollinen: prosessi skannerilta tiedostoon, tiedostosta ocr-tunnistukseen tai suoraan skannerilta tunnistukseen valitaan klikkaamalla hiirellä asianomaista painiketta. Kunkin sivun tunnistusprosessin eteneminen näkyy ikkunassa.

Pagis Pro:n tehtäväpalkit voidaan asentaa Windows-työpöydälle, minkä jälkeen näkymän noutaminen skannerilta ja vetäminen hiirellä suoraan jonkin alareunassa näkyvän ohjelman kuvakkeen päälle käynnistää tekstin tunnistuksen ja dokumentin tallennuksen valitun ohjelman käyttämään tiedostomuotoon.

OmniPage Pro -ohjelman käyttöliittymän vasemmassa reunassa skannatut sivut näkyvät pienoisarkkeina, keskellä käsittelyn kohteena olevan sivun tunnistusprosessin eteneminen ja oikeanpuoleisessa ikkunassa ocr-tunnistettu teksti. Sanat, joiden tunnistuksesta ohjelma on epävarma, näkyvät eri värillä, joten ihmissilmän on helppo todeta mahdolliset virheet.

Kun skanneria hallitaan twain--ajokäytännöllä, ocr-ohjelma osaa kutsua kuvanlukijan ohjausohjelman oman käyttöliittymän. Halvan skannerin mukana tuleva ohjauspaneeli näyttää esimerkiksi tällaiselta.

OmniPagen asennusohjelma ei pysy Microsoftin windows-päivitysten ja service pack-korjausten tahdissa: asennettaessa ohjelmaa Explorer 4:llä terästettyyn Windows 95 -laitteeseen asennus keskeytyi oheiseen paljon puhuvaan virheilmoitukseen. Uusi asennus onnistui vasta keskeytyneen asennuksen poistamisen jälkeen. Epäonnistuneen asennuksen poistamista vaikeutti virheilmoitus, jonka mukaan uninstall-ohjelma ei voi toimia, koska lokitiedosto puuttuu. Vasta kahden uudelleenkäynnistyksen jälkeen Windows suostui poistamaan virheellisesti asentuneen ohjelman.

LAATIKKO:

Miten tietokone lukee tekstiä paperilta

Skannerilla kuva saatetaan aina ensin pienistä pisteistä muodostuvaksi ns. bittikartaksi, jossa erillisiä kuva-alkioita eli pikseleitä on tyypillisesti 200-400 kappaletta tuumalla. Tekstin skannaukseen sopii useimmiten tarkkuus 300 pistettä tuumalle; suuremmalla tarkkuudella luetun arkin käsittely on hitaampaa, eikä tunnistuksen tarkkuus silti välttämättä parane yhtään.

Kun skannattu A4-tekstiarkki on tallennettu tietokoneen muistiin, OCR-ohjelma alkaa etsiä siitä tekstipalstoja. Usein ohjelmalle kannattaa ilmoittaa, onko sivulla 1, 2 tai useampia tekstipalstoja vierekkäin, vaikka nykyaikaiset ohjelmat osaavat kyllä tunnistaa palstat automaattisestikin ja jopa ohittaa tekstialueella olevat piirrokset ja kuvat.

Ohjelman tunnistettua tekstipalstat se alkaa etsiä palstoilta rivejä ja lopulta riveillä olevia yksittäisiä kirjaimia. Jokaisen kirjaimen topologista hahmoa verrataan ohjelman tuntemiin kirjaimistoihin eli fontteihin, ja vastaavuuden ollessa riittävä ohjelma tallentaa hahmoa vastaavan kirjainmerkin.

Ennen tunnistuksen aloittamista ohjelmalle on kerrottava, mikä kieli on kyseessä. Jos kieleksi on valittu esimerkiksi englanti, ohjelma ei todennäköisesti noteeraa lainkaan Ä- ja Ö-kirjaimia, koska englannin kielen fonttikartoissa näitä aakkosia ei ole. Kirjainten päällä olevia pisteitä ei siis oteta huomioon, vaan merkit tunnistetaan A- ja O-kirjaimiksi.

Kaikki ocr-ohjelmat selviytyvät yleensä hyvin ainakin tavallisimmista Times- ja Helvetica-ladelmista sekä Courier- ja Pica-konekirjoituskirjasimista. Jopa käsin kirjoitettu teksti, jossa merkit ovat riittävästi irti toisistaan, tunnistetaan usein lähes 100% virheettömästi.

Jos teksti on repaleista, esimerkiksi kirjoitettu loppuun kuluneella värinauhalla tai kopioitu huonolla kopiokoneella, virheiden eli väärin tunnistettujen tai kokonaan tunnistamatta jääneiden merkkien osuus lisääntyy. Vanhanaikaisella ns. lämpöpaperifaksilla vastaanotettu teksti on myös usein liian heikkolaatuista optiseen tunnistukseen.

Moneen kertaan valokopioitu teksti on usein huonoa lähdemateriaalia siksi, että tiheään ladottua tekstiä kopioitaessa merkit saattavat "sulaa yhteen", minkä jälkeen tietokone ei pysty enää hahmottamaan erillisten merkkien muotoa.

Myös vanhojen pistematriisikirjoittimien tulostusjälki on usein tekstintunnistusohjelmalle toivotonta: erillisistä pisteistä koostuvat kirjainmerkit ovat tietokoneen kannalta kuin kärpäsparvia, joista kone ei pysty ihmissilmän tavoin hahmottamaan ääriviivoja.

LIITE:

Eräiden eurooppalaisten kielten erikoismerkkejä

albania: â ç ë
eesti: Õ š ü ä ö &zcirc;
espanja: á é í ñ ó ú ü
hollanti: æ é è ê ë ó ò ô
islanti: á æ ð é í ó œ ú ý ö þ
italia: à é è í ì î ó ò ú ù
portugali: á à â â ç é è ê í ì ó ò ô õ ú ù
ranska: à â ç é è ë í ì ô ù û ü œ
ruotsi ja suomi: å ä ö
saksa: ß ü ä ö
tanska: å æ ø
unkari: á é í ó ú ü ö

Joitakin vierasperäisiä sanoja ja erisnimiä:

"Asunción, à la carte, adiós, au révoir, Citroën, Crême de Menthe, créme fraîche, Curaçao, déjà-vu, Dürer, Düsseldorf, Genève, Hélène, Heloïse, Hermès, Lancôme, Linné, Málaga, mañana, Molière, Montréal, Nestlé, Orléans, Piña Colada, Québec, rêspondez s’il vous plaît, Saint-Étienne, San José, Zürich, Åbo, ångström, Äyräpää, Öölanti...

Takaisin juttuluetteloon

Tietotila Oy:n pääsivulle