Online-Erfassung von Handschrift mit einer Videokamera
Diplomarbeit
der
Philosophisch-naturwissenschaftlichen Fakultät
der Universität Bern
vorgelegt von
Thomas von Siebenthal
1998
Leiter der Arbeit:
Prof. Dr. Horst Bunke
Institut für Informatik und angewandte Mathematik
Zusammenfassung
In dieser Diplomarbeit wird ein neuartiger Prototyp eines
Eingabesystems für die Online-Handschrifterkennung vorgestellt.
Mit einer Videokamera wird der Schreiber gefilmt. Aus dem Film
wird eine zeitliche Sequenz von Stiftpositionen erstellt. Dieses
Konzept kann als Ersatz für ein Grafiktablett dienen. Für den
Benutzer ist von Vorteil, dass er in seiner gewohnten Umgebung,
d.h. an seinem Schreibtisch, mit seinem Stift auf einem normalen
Blatt Papier, schreiben kann. Einziger Unterschied: Er wird von
einer Videokamera gefilmt.
Zur Erfassung der Stiftpositionen wird die Bildsequenz eingelesen und aus der Differenz benachbarter Bilder die Position des Stifts ermittelt. Zuerst findet eine Vorverarbeitung statt und die resultierenden Linienstücke werden durch Interpolationsalgorithmen noch verbessert. Bei der Differenzbilderstellung werden auch die nachfolgenden und vorangehenden Bilder zur Verbesserung der Resultate berücksichtigt.
Die mit diesem System erzielten Resultate sind brauchbar, aber nicht exakte Online-Daten wie sie ein Grafiktablett liefern kann. Von Auge lässt sich das geschriebene Wort gut erkennen. Ein Test mit dem nachtrainierten Online-Erkenner der ETHZ ergab unter Verwendung eines minimalen Wörterbuchs eine Worterkennungsrate von 90.4 %.
Dank
Ich danke dem Leiter meiner Diplomarbeit, Prof. Dr. Horst
Bunke und meinem Betreuer, Dr. Thien Ha
Minh, herzlich für die Unterstützung.
Sie liessen mir grossen Freiraum bei der Erstellung der Arbeit,
standen aber wenn nötig immer helfend und beratend zur Seite.
Meine Freundin Christina Lisser stellte sich als Testperson zum Filmen der Handschrift zur Verfügung. Hierfür und für die moralische Unterstützung während der Diplomarbeit bin ich ihr sehr dankbar.
Dr. Xiaoyi Jiang habe ich anlässlich eines Seminarvortrages, die Idee mit der Maskierung des Schriftzuges zu verdanken. Thomas Wenger versorgte mich mit Anregungen, Tips und hinterfragte etliche meiner Ideen. Ausserdem korrigierte er, trotz Zeitdruck bei seiner eigenen Diplomarbeit, die erste Version dieser Arbeit.
Nicht unerwähnt bleiben darf Dr. Markus Schenkel von der ETH Zürich. Trotz starker beruflicher Belastung zeigte er mir an zwei Tagen den ETHZ-Handschrifterkenner und versorgte mich mit Tips, um dieses System am IAM installieren und nutzen zu können.
Allen anderen helfenden "Geistern", welche hier nicht namentlich erwähnt sind, sei mein herzlicher Dank gewiss; ihre Tips, Anregungen, Kritiken und Unterstützung haben auch zum Gelingen der Arbeit beigetragen.
Inhaltsverzeichnis
2.1 Datenfluss durch das System
2.3 Vorverarbeitung der Bilder
2.4 Erstellung der Differenzbilder
2.5 Nachverarbeitung der Differenzbilder
2.6 Erfassung der Stiftposition
3.1 Systemaufbau und Datenfluss
3.2 Einlesen und Vorverarbeiten der Bilder
3.2.1 Konvertierung des MPEG-Videos in Einzelbilder
3.2.2 Beschränkung der Einzelbilder
3.2.3 Generierung der Maske
3.2.4 Vorverarbeitung der Einzelbilder3.3 Einschränkung auf Fensterbereich
3.4 Erstellung der Differenzbilder
3.5 Nachverarbeitung
3.6.1 Binärisierung aufgrund des Histogramms
3.6.2 Aufgespannte Fläche
3.6.3 Einfacher Mittelpunkt
3.6.4 Iterativer Mittelpunkt
3.6.5 Mittelpunkt durch Median-Methode
3.6.6 Mittelpunkt durch Neighbour-Methode
3.6.7 Vergleich der Methoden
4.1 Überblick
4.2 Klasse Image
4.3 Klassen PPMReader und PPMWriter
4.4 Klasse Drawing
4.6 Klassen Point und Rectangle
4.8 Klasse Filter
4.9 Klasse Histogram
4.10 Klasse Detector
4.11 Klasse SlidingWindow
4.12 Klasse Interpolator
5.1 Verwendete Eingabesequenzen
5.2 Parameter der Erfassungsroutine
5.3 Resultate der verarbeiteten Wörter
5.3.1 Wort 1: an
5.3.2 Wort 2: brick
5.3.3 Wort 3: All
5.3.4 Wort 4: but5.4.1 Bewegtes Papier verschiebt die Buchstaben
5.4.2 Schwache horizontale Linien
5.4.3 Doppelt geschriebene Linienzüge
5.4.4 Geschwungene Aufstriche
Kapitel 6 Zusammenfassung und Ausblick
Anhang A Erfassung von Bildsequenzen mit SunVideo
Anhang E ETHZ-Handschrifterkenner
last modified 7.5.1998 by tvs