Deep Learning OCR

Deep Learning OCR

Das Deep Learning OCR-Tool (Optical Character Recognition) liest Text aus Bildern mithilfe von auf Deep Learning basierter optischer Zeichenerkennung.
Dieses Tool sucht und erkennt Zeichen. Ohne zusätzliches Training ist es für das Lesen von Zeichen geeignet, die:
  • horizontal ausgerichtet sind,
  • eine Höhe zwischen 85 % und 115 % der Zeichenhöhe haben (in Pixel),
  • lateinische Buchstaben (Groß- oder Kleinbuchstaben), Ziffern oder eines der folgenden Zeichen enthalten: !#$%&()*+,-./:;<=>?@[]^_`{|}~"'\€£¥
Die mit Deep Learning OCR erkannte ROI (Region of Interest) kann verwendet werden, um den analysierten Bereich zu begrenzen, was in den meisten Fällen zu einer verbesserten Leistung führt. Darüber hinaus kann diese Funktion verwendet werden, um Text anzupassen, der nicht horizontal ausgerichtet ist.
Average Character Height (Durchschnittliche Zeichenhöhe) sollte auf die durchschnittliche Zeichenhöhe (insbesondere der Großbuchstaben) im analysierten Bereich eingestellt werden. Enthält ein Bild beispielsweise zwei Arten von Zeichen (eines ist 24 Pixel hoch und das zweite 40 Pixel hoch), sollte Average Character Height (Durchschnittliche Zeichenhöhe) auf 32 gesetzt werden, unabhängig von der Anzahl der verschiedenen Zeichen.
Character Width Scale (Zeichenbreitenskala) hilft bei der Anpassung von Schriften mit außergewöhnlich schmalen oder breiten Symbolen an ein typischeres Seitenverhältnis. Character Width Scale (Zeichenbreitenskala) skaliert den analysierten Bereich auf der horizontalen Achse. Dadurch kann die Qualität der Ergebnisse verbessert werden. Außerdem kann es helfen, einen Text mit engen Abständen zwischen den einzelnen Zeichen zu lesen.
Um die Menge der erkannten Zeichen einzuschränken, kann die Option Character Range (Zeichenbereich) verwendet werden. Diese Zeichenfolge muss nach den folgenden Regeln formatiert werden:
  • Zulässige Zeichen müssen durch Kommata getrennt werden.
  • Zur besseren Übersichtlichkeit kann ein durchgehender Bereich von Buchstaben oder Ziffern mit einem Bindestrich zwischen startendem Zeichen und endendem Zeichen angegeben werden, z. B.: A-Z oder 1-6
  • Vor einem Komma und einem umgekehrten Schrägstrich muss ein umgekehrter Schrägstrich stehen.
Beispiel: Wenn als Character Range (Zeichenbereich) A-F,g-o,0-9,X,Y,Z,-,\\,\, eingegeben wird, werden nur die Zeichen ABCDEFXYZghijklmno0123456789-\, erkannt.
Der Parameter Minimum Confidence (Minimale Konfidenz) kann verwendet werden, um die Mindestpunktzahl eines Zeichens zu ändern. Standardmäßig ist dieser Schwellenwert auf 80 % festgelegt.
Die Parameter Contrast Threshold (Kontrastschwellenwert) und Text Color (Textfarbe) legen ein gewünschtes Kontrastintervall eines Zeichens fest, das zur Reduzierung der Anzahl falsch positiver Ergebnisse verwendet wird:
  • Text Color (Textfarbe): Bright (Hell); es werden nur Zeichen mit einem Kontrast größer als Contrast Threshold (Kontrastschwellenwert) zurückgegeben.
  • Text Color (Textfarbe): Dark (Dunkel); es werden nur Zeichen mit einem Kontrast unter -Contrast Threshold (Kontrastschwellenwert) zurückgegeben.
  • Text Color (Textfarbe): Any (Beliebig); es werden nur Zeichen mit einem Kontrast kleiner als -Contrast Threshold (Kontrastschwellenwert) oder größer als Contrast Threshold (Kontrastschwellenwert) zurückgegeben.
Deep Learning OCR-Einstellungen
Einstellung
Beschreibung
Minimum Confidence (Minimale Konfidenz)
Legt den erforderlichen Mindestwert für ein Zeichen fest, das in den Algorithmus oder die Ausgabe aufgenommen werden soll.
Eine Anpassung dieses Wertes nach unten kann dazu beitragen, dass auch Decodierungen mit etwas geringerer Zuverlässigkeit berücksichtigt werden, um letztendlich das gewünschte Ergebnis zu erzielen. Das obige Beispiel ist zum Beispiel zu streng und decodiert verschiedene Zeichen nicht. Eine Senkung dieses Wertes von 99 auf 98 ergibt ein günstiges Ergebnis.
Average Character Height (Durchschnittliche Zeichenhöhe)
Verwenden Sie den Schieberegler, um einen Wert auszuwählen, der der durchschnittlichen Pixelhöhe des zu decodierenden Textes entspricht. Die Leistung verbessert sich, je näher dieser Wert an der durchschnittlichen Zeichenhöhe (in Pixeln) liegt.
  • Mindestwert: 8
  • Standardwert: 25
  • Maximalwert: 200
Text Color (Textfarbe)
Legen Sie eine erforderliche Polarität für ein zurückzugebendes Zeichen fest.
  • Mindestwert: -100
  • Standardwert: 0
  • Maximalwert: 100
Standardwert: Any (Beliebig)
Contrast Threshold (Kontrastschwellenwert)
Legt einen Schwellenwert für den Kontrast der gefundenen Zeichen fest.
Standardwert: 0.0f
Character Width Scale Percentage (Prozentsatz der Zeichenbreitenskala)
Skaliert die Bildbreite um den angegebenen Faktor (%).
  • Mindestwert: 10 %
  • Standardwert: 100 %
  • Maximalwert: 1000 %
Character Range (Zeichenbereich)
Schränkt die Menge der gewünschten Zeichen ein.
Standardwert: \"A-Z,a-z,0-9,\\\\\\\\,/,-\
String Match (Zeichenfolgenübereinstimmung)
Definiert eine Zeichenfolge, die in der decodierten OCR-Ausgabe enthalten sein muss, damit das Tool sie weitergeben kann (z. B. Teilstring). Standardmäßig ist das Tool erfolgreich, wenn die übereinstimmende Zeichenfolge in der resultierenden OCR-Ausgabe enthalten ist. Dadurch können zusätzliche Zeichen vor und nach der Zeichenfolge eingefügt werden.
Aktivieren Sie das Kontrollkästchen RegEx und verwenden Sie die Syntax
^<stringToExactMatch$
, um die exakte Übereinstimmung zu implementieren.
RegEx kann auch für eine komplexe Zeichenfolgenübereinstimmungslogik verwendet werden. Weitere Informationen finden Sie im Abschnitt RegEx.
Timeout (Zeitüberschreitung)
Legt eine Zeit fest, nach der das Tool fehlschlägt.
Invert (Invertieren)
Kehrt die Ergebnisse dieses Tools um.
Um auf Deep Learning basierte optische Zeichenerkennung mit RegEx zu verwenden, aktivieren Sie das Kontrollkästchen RegEx, und geben Sie einen Ausdruck an, nach dem das OCR-Tool suchen kann. Im folgenden Beispiel wird nach dem Ausdruck ^22\d{3} gesucht.