mediengestalter.info
FAQ :: Mitgliederliste :: MGi Team

Willkommen auf dem Portal für Mediengestalter

Aktuelles Datum und Uhrzeit: Do 25.04.2024 11:45 Benutzername: Passwort: Auto-Login

Thema: Acrobat Pro OCR Ergebnis verbessern vom 21.03.2011


Neues Thema eröffnen   Neue Antwort erstellen MGi Foren-Übersicht -> Software - Print -> Acrobat Pro OCR Ergebnis verbessern
Seite: Zurück  1, 2, 3
Autor Nachricht
PeterWiegel

Dabei seit: 22.04.2009
Ort: Wolgast
Alter: 69
Geschlecht: Männlich
Verfasst Do 24.03.2011 10:48
Titel

Antworten mit Zitat Zum Seitenanfang

Dein Herangehen ist einfach der komplett falscher weg. Sobald du den Text per OCR einliest, ist die alte Anmutung ohnehin zum Teufel, da es dann ja eben doch eine Textdatei ist und kein Bild mehr und die OCR-Erkennung in Acrobat isat eine absolute Notlösung und für ganze Bücher absolut ungeeignet.

Auch währe ein "neusetzen" mit Word ebenso eine minderwertige Lösung, da Textverarbeitungsprogramme für schnelle Bürotexte, aber eben nicht für typografisch korrekt gesetzte Bücher gedacht sind

Wer also Bücher in durchsuchbaren Text umwandeln möchte, kommt um eine spezialisiertes, echtes OCR-Programm nicht herum, dass dann einen durchsuchbaren und auch korigierbarewn Text erzeugt - als offene Datei!
Nutze also so etwas wie Abbyy Fine Reader, Omnipage oder Readiris, aber auch das gerade für deinen Zweck von Google entwickelte ocropus (für Google Books) http://code.google.com/p/ocropus/

Auch hier kommen natürlich Lesefehler vor, die Google z.B. über ReCapcha von Leuten lösen lässt, die irgendwo eine Webseiten-Capcha-Abfrage lösen müssen.

Hast du als Vorlage ein in Fraktur gedrucktes Buch, gibt es eigentlich konkurrenzlos nur eine Lösung: Abbyy Fine Reader XIX (leider nicht gerade billig...)


Hast du dann eine sauber korrigierte Textdatei, sollte diese dann in einem richtigen Satzprogramm, wie InDesign oder auch Scribus neu gesetzt werden. Hier kann man dann, um die Anmutung des alten Buchs zu schaffen auch entrsprechende "vergilbte" Wasserzeichen-Hintergründe verwenden - und natürlich eine dem Original entsprechende Druckschrift. Wenn es hier eine Frakturschrift sein soll, empfehle ich OpenType-funktionelle Schriften, welche sich selbst über interne Funktionen um die Fraktur-Satzregeln mit langem ſ und Ligaturen kümmern. Hier empfehle ich http://unifraktur.sourceforge.net/maguntia.html - eine von 2 aus meinen Schriften durch hinzufügen von Steuerfunktionen entwickelte Frakturschrift oder auch die Schriften hier: http://ligafaktur.de/Herunterladen.html die LFO-Schriften

Das Endergebnis kann dann natürlich als PDF ausgegeben werden.

Alles andere ist halber Kram und äußerst unprofessionell. und korrekturen in PDF-Dateien bringen oft grässlich verschobenen Satz, da Acroibat-OCR zumeist nur eine Sammlung von Einzel-Zeilen - die jede für sich als Absatz behandelt werden - erzeugt. Manchmal besteht sogar eine einzelne Zeile aus mehreren Absätzen - und die Durchsuchbarkeit ist stark eingeschränkt.
  View user's profile Private Nachricht senden Website dieses Benutzers besuchen
Mac
Threadersteller

Dabei seit: 26.08.2005
Ort: Köln
Alter: 62
Geschlecht: Männlich
Verfasst Do 24.03.2011 11:02
Titel

Antworten mit Zitat Zum Seitenanfang

Aalso:

ich hab ein Buch aus 1960, gesetzt in einer Palatino oder ähnlichem.
Das Buch ist ne Art Firmenchronik.

Ziel ist es lediglich
a: das Buch einscannen und in seiner Form/Anmutung behalten
b: es als PDF zu speichern
c: den Inhalt als Text innerhalb des PDFs verfügbar machen.
d: die durchaus akzeptable Erkennung durch Acrobat an
den paar Stellen zu optimieren, wo Blösinn erkannt wird.

Was ich nicht will:
a: Neusatz oder dgl.
b: irgendwas mit Word..


Wie gesagt - ich bin für jedes Programm offen, ich will halt
nur nicht den Original-Scan vom textlichen Inhalt trennen.
  View user's profile Private Nachricht senden Website dieses Benutzers besuchen
Anzeige
Anzeige
ernie-f

Dabei seit: 25.06.2008
Ort: Unterm Osser
Alter: 64
Geschlecht: Männlich
Verfasst Do 24.03.2011 11:31
Titel

Antworten mit Zitat Zum Seitenanfang

Was spricht gegen eine Textausgabe-Lösung via Word?

Per copy and paste oder als RTF nach Indesign geholt scheint mir das eine praktikable Lösung zu sein.
  View user's profile Private Nachricht senden
Mac
Threadersteller

Dabei seit: 26.08.2005
Ort: Köln
Alter: 62
Geschlecht: Männlich
Verfasst Do 24.03.2011 12:25
Titel

Antworten mit Zitat Zum Seitenanfang

So - Problem geknackt.

Ich hab mir jetzt Readiris 12 besorgt, dann die Texterkennung
in den Lernmodus geschaltet und kann so alles gegenchecken.
Die Ausgabe ist ein PDF mit eingescannte Bild als Hintergrund
und transparentem Text oben drüber.

Und ich bin positiv überrascht, wss die Texterkennung da leistet.
Ich kannste das nur aus der Anfangszeit von Omnipage, als das
so gerade aufkam, das war grausam. Aber so: alle Achtung.

Dank an alle, die mich ausgehalten haben. Lächel
  View user's profile Private Nachricht senden Website dieses Benutzers besuchen
 
Ähnliche Themen Acrobat: Dateien kombinieren = druckfähiges Ergebnis?
Bildqualität verbessern
Bildqualität verbessern
Eingescanntes Bild verbessern
Bildansicht in Quark verbessern
Rohre verbessern – Photoshop
Neues Thema eröffnen   Neue Antwort erstellen Seite: Zurück  1, 2, 3
MGi Foren-Übersicht -> Software - Print


Du kannst keine Beiträge in dieses Forum schreiben.
Du kannst auf Beiträge in diesem Forum nicht antworten.
Du kannst an Umfragen in diesem Forum nicht mitmachen.