Sisältölaatikko

Teksti tai HTML-koodi

OCR- tekstintunnistus

OCR (Optical character recognition) on yleisnimi teknologialle, jonka avulla tunnistetaan koneellisesti eri tavalla tuotettua tekstiä sähköisesti muokattavaan muotoon.

Tunnistettava teksti voi olla esimerkiksi paperilla, erilaisissa asiakirjoissa tai lehdissä. Tunnistuksen jälkeen tekstiä voidaan muokata tekstinkäsittelyohjelmilla, esimerkiksi Wordissä.

OCR- tuloksiin vaikuttaa sekä tunnistettavan tekstin laatu että skannauksen laatu ennen suoritettavaa OCR- prosessia. 

Mikäli käsiteltävä teksti ei ole valmiiksi kuvatiedostona OCR- tunnistusta varten voimme tarvittaessa skannata tunnistettavan aineiston alkuperäismateriaalista.  

                                                                                                                                                                                                                                 

Tuetut kuvatiedostot OCR- tunnistusta varten:                                                                                       

• TIFF (*.tif)

• PCX (*.pcx)

• DCX (*.dcx)

• BMP (*.bmp)

• JPEG (*.jpg)

• JB2 (*.jb2)

• JP2 (*.jp2)

• GIF (*.gif)

• PNG (*.png)

• XIFF (*.xif)

• MAX (*.max)

• PDF (*.pdf)

• XPS (*.xps)

• HD Photo (*.hdp)

                                                                        
                    

OCR- tunnistettu kuva voidaan tallentaa seuraavina muokattavina tiedostoina:

ePub (*.epub)

• ePub for poems (*.epub)

• ePub simple (*.epub)

• HTML 3.2 (*.htm)

• HTML 4.0 (*.htm)

• InfoPath (*.xsn)

• Kindle Document (*.doc)

• Microsoft Excel (*.xlsx)

• Microsoft Excel XP, 2003 (*.xls)

• Microsoft PowerPoint (*.pptx)

• Microsoft PowerPoint 97 (*.rtf)

• Microsoft Publisher 98 (*.rtf)

• Microsoft Word 2000, XP (*.rtf)

• Microsoft Word 2003 (WordML) (*.xml)

• Microsoft Word (*.docx)

• MP3 Audio (*.mp3)

• MP3 Audio Premium Quality (*.mp3)

• PDF (*.pdf)

• PDF Edited (*.pdf)

• PDF Searchable Image (*.pdf)

• PDF with image substitutes (*.pdf)

• Text (*.txt)

• Text - Comma Separated (*.csv)

• Text - Formatted (*.txt)

• Text with line breaks (*.txt)

• Unicode Text (*.txt)

• Unicode Text - Comma Separated (*.csv)

• Unicode Text - Formatted (*.txt)

• Unicode Text with line breaks (*.txt)

• WordPad (*.rtf)

• WordPerfect 12, X3 (*.wpd)

• XML (*.xml)

• XPS (*.xps)

• XPS Searchable Image (*.xps)