OCR Startnummern

OCR-Startnummern

Automatisches Erkennen und Zuordnen von Startnummern auf Bilder

Aufgabe dieses Projektes war es, auf mehrere tausende Fotos die bei Sportveranstaltungen aufgenommen wurden die Startnummer der Teilnehmer automatisch zu erkennen und den Bilder zu zuordnen.

Die Software erkennt die Startnummern auf dem Bild und ordnet sie Dateien zu.

Unser Kunde, ein Fotodienst, fotografiert auf verschiedenen Sportwettbewerben die Teilnehmer, um die Fotos später über das Internet an diese zu verkaufen.

Ein Käufer muss dafür im Webshop des Fotodienstes seine Startnummer in eine Suchmaske eingeben, um seine Bilder anzuschauen und bei gefallen zu kaufen.
Um die Startnummern den Bilder zuzuordnen, mussten bis jetzt immer alle Bilder manuell durch mehrere Hilfskräfte gesichtet werden und die Nummern per Hand in eine Datei eingegeben werden.
Über eine von uns entwickeltes Softwarepaket werden diese Schritte zum größten Teil jetzt automatisch ausgeführt.

Das Software-Paket besteht aus drei Programmen:

1. PicCopy

PicCopy dient zum Kopieren, Sortieren und Vorbereiten der fotografierten Sportbilder für die automatische Startnummererkennung mit NumReader .

PicCopy führt dabei folgende Aufgaben aus:

  • Kopieren der Bilddateien auf die Festplatte in eine Kundenspezifische Ordnerstruktur.
    z.B. Ordner nach Fotografencode mit fortlaufender Indexnummer. Die Anzahl der Bilder pro Ordner kann vorherfestgelegt werden.
  • Umbennen der Bilddateien nach Kundenvorgabe.
    z.B. : VVVVSSFFKK0000.jpg

    VVVV =  4-stelliger Veranstaltungscode
    SS =         2-stelliger Standortcode des Fotografen
    FF =         2-stelliger Code für den Fotografen
    KK =       Speicherkartennummer
    0000 =     fortlaufende Bildnummer

  • Verkleinern der Bilddateien für die spätere Nummernerkennung. Auf kleinere Bilder arbeitet die automatische Erkennung schneller.
  • Erstellen von Thumbnails für den Webshop.
  • Einfügen von Firmenlogo in Thumbnails.

Die Quellordner können zum Kopieren einzeln gewählt werden. Alle Kopiervorgänge werden protokoliert. Damit später geprüft werden kann welche Quellordner schon bearbeitet wurden sind und welche nicht. PicCopy kann auch dazu genutzt werden, Thumbnails aus einem Bildordner zu erzeugen.

2. NumReader

Mit NumReader werden die Startnummer der Sportler in den Bilder automatisch gesucht und zugeordnet.

NumReader durchsucht alle Bildordner die vorher mit PicCopy erzeugt wurden. Die Startnummern im Bild werden über eine Mustererkennung gesucht. Für die Mustererkennung müssen die Zahlen 1 – 10 vorher eingelernt (teachen) werden. Das eingelernte Muster der Zahlen wird in eine „Klassifikator Datei“ gespeichert. Für jede Veranstaltung kann eine eigene „Klassifikator-Datei“ erzeugt und geladen werden. Der Klassifikator beschreibt den Zeichensatz, Größe, Ausrichtung und Aufbau der Startnummern.

Im Klassifikator können verschiedene Zeichenausrichtungen eingelernt werden damit auch Startnummern in unterschiedlichen Größen und Schräglagen im Bild erkannt werden.

Es können auch Zahlen mit einem Anfangs oder Endbuchstaben eingelernt und erkannt werden. Zum Erstellen eines Klassifikators gibt es ein eigenes Programm. Zum Testen können alle Bilder einzeln im NumReader angezeigt und geprüft werden. Bei der Bildauswertung wird jede erkannte Nummer im Bild eine Erkennungsrate (Score) zugeordnet. Der Score kann zwischen 1 – 100% liegen. 100% heißt die Nummer wurde 100% sicher erkannt. 

Entsprechend den Score-Schwellwerten in den Programmeinstellungen, wird eine Nummer als sicher oder unsicher deklariert. Nachdem alle Bilder eines Ordners nach Startnummer durchsucht wurden, werden alle Bilder mit Ihren direkten Nachbarbildern verglichen. Dabei werden nochmal die sicheren erkannten Nummer von Bilder geprüft und Bilder ohne Nummer oder mit schlechten Nummer durch logische Vergleiche eine sichere Nummer zugeordnet.

Zum Beispiel: In einem Bild wurde keine Nummer erkannt, aber das Vorgänger- und Nachfolgebild haben die gleiche Nummer die auch sicher erkannt wurde, dann wird dem Bild ohne Nummer die gleich Zahl der Nachbarbilder zugeordnet.

Zusätzlich können alle erkannten Nummer mit einer Positiv- oder Negativliste überprüft werden.Beim Vorhandensein einer Ergebnisliste, werden bei Bildern mit nicht erkannten Startnummern versucht die Startnummer in der Ergebnisliste über Vergleich der Uhrzeiten zu finden. Dafür wird die Uhrzeit aus den EXIF-Daten der Bilder gelesen.

Zum Schluss werden alle geprüfte Bilder bestimmten Ergebnis-Stadien zugeordnet.

  • Status 1 : Es wurde eine Nummer sicher erkannt.
  • Status 2 : Es wurden mehrere Nummer im Bild erkannt. Davon ist eine Nummer sicher.
  • Status 3 : Es wurden nur unsichere Nummern im Bild erkannt.
  • Status 4 : Das Bild wurde eine Nummer über die logische Zuordnung „Zwischenbild“ zugeordnet.
  • Status 5 : Das Bild wurde eine Nummer über die logische Zuordnung „Eine Ziffer unterschied“ zugeordnet.
  • Status 6 : Zuordnung über Ergebnisliste
  • Status 7 : Eine sichere Nummer wurde korrigiert. Durch Vergleich mit seinen Nachbarbilder.
  • Status 8 : Es konnte dem Bild keine Nummer zugeordnet werden.

Die Zuordnung der Bilder werden gemeinsam mit allen Bildinformationen von PicCopy (Standort, Fotograf usw.) in eine XML-Datei gespeichert.
Diese XML-Datei wird von NumChecker gelesen. NumChecker dient für die manuelle Überprüfung und Korrektur der Bilder ohne Nummerzuordung oder mit unsicheren Nummern. NumReader kann bis zu acht Leseprozesse parallel starten, dadurch können mehrere zehntausende Bilder pro Stunde auf ein entsprechenden leistungsfähigen Multicore-PC ausgewertet werden.

3. NumChecker

Dieses Programm dient zur manuellen Überprüfung und Bearbeitung der Nummernerkennung vom NumReader.

Die erkannten Nummern in den Bildern können korrigiert werden und es können zusätzliche Nummern für ein Bild eingefügt werden. Außerdem können Bilder mit Tags versehen werden.

Die Anzeige der Bilder kann entsprechend den Ergebnissen des NumReader gefiltert werden. So können zum Beispiel ausschließlich Bilder mit unsicheren oder mehreren Nummern angezeigt werden.
Es kann auch nach Nummern gefiltert werden. So können zum Beispiel nur Bilder mit Startnummern aufgelistet werden, die mit der Zahl 4 beginnen.
Für eine schnelle Kontrolle wird vom jedem angezeigten Bild immer die zwei Vorgänger und Nachfolge Bilder mit angezeigt.

Für eine schnelle Bearbeitung, kann das Korrigieren und Überprüfen der Bilder komplett über die Tastatur durchgeführt werden.
Über vier Funktionstasten können unterschiedliche frei wählbarer Begriffe in die Startnummernzuordnung eines Bildes eingefügt werden.

Zum Schluss kann NumChecker für die Zuordnung Startnummer-Bilder eine CSV-Datei erstellen, die dann zum Beispiel für einen Webshop weiter benutzt werden kann. Zusätzlich können die Bilder für die Weiterverarbeitung in ein frei wählbares Verzeichnis exportiert werden.