Digitalizace knih a dokumentů
Naše know how je velmi jednoduché a robustní. Proces digitalizace se v něm dělí do tří částí.
1. Skenování
Pro rychlé a přesné skenování knih používáme převážně flatbed scannery, u nichž dochází ke kontaktu knihy s plochou skeneru. Pro nadrozměrné zakázky a pro dokumenty s citlivou vazbou používáme bezkontaktní a různě modifikovatelná zařízení podobná těm, o jakých se dočtete na nadšeneckých stránkách DIY Book Scanner.
2. Kontrola a záloha
Kontrola zaručí, že se do fáze postprocessingu dostane pouze optimální naskenovaný materiál. Při skenování se občas stane, že se strany knihy slepí nebo že se okraje dokumentu příliš zvlní. Při kontrole se tyto špatné a absentující skeny odhalí.
Záloha je pojistkou pro případ, že postprocessing nedopadne dobře a bude potřeba jej opakovat.
3. Postprocessing
3.1 Bitmapová optimalizace
Skeny je potřeba
- nastříhat, oříznout,
- vyrovnat tak, aby byly řádky vodorovné,
- vybělit jejich pozadí,
- exportovat ve vysokém rozlišení do bezztrátového formátu.
Vpravo vidíte ukázku postprocessingu. Ve výsledku ještě u knihy ořízneme okraje tak, aby neubíral místo textu. Celou knihu včetně OCR stahujte zde.
Pro tyto úkoly používáme řadu softwarových nástrojů (např. Scantailor, GIMP, FastStone Image Viewer).
Výše uvedené kroky značně zvýší kvalitu OCR (krok 3.2), dramaticky sníží velikost výsledného souboru (např. knihu o 315 stranách na 5,2Mb) a pomůže v případě, že bude potřeba dokumenty znovu vytisknout s co největší úsporou barvy v tiskárně.
3.2 Rozpoznávání textu
Následně přichází na řadu automatické rozpoznávání pomocí softwaru jako je Finereader, Adobe Acrobat, popř. PDF X-Change Viewer.
3.3 Korektura, indexace, konečná optimalizace
Software pro rozpoznávání textu v obrázcích vygeneruje PDF, které je připraveno na cestu k Vám. V závislosti na Vašem požadavku však můžeme ještě provést u automatického OCR korekturu, provést korekturu indexu a záložek, popř. nastavit v PDF stránkování tak, aby souhlasilo se stránkováním původního dokumentu.
Bitmapová optimalizace


Rozpoznávání znaků
