Diplomarbeit

Online-Erfassung von Handschrift mit einer Videokamera

Diplomarbeit

der Philosophisch-naturwissenschaftlichen Fakultät
der Universität Bern

vorgelegt von

Thomas von Siebenthal

1998

Leiter der Arbeit:
Prof. Dr. Horst Bunke
Institut für Informatik und angewandte Mathematik

Zusammenfassung

In dieser Diplomarbeit wird ein neuartiger Prototyp eines Eingabesystems für die Online-Handschrifterkennung vorgestellt. Mit einer Videokamera wird der Schreiber gefilmt. Aus dem Film wird eine zeitliche Sequenz von Stiftpositionen erstellt. Dieses Konzept kann als Ersatz für ein Grafiktablett dienen. Für den Benutzer ist von Vorteil, dass er in seiner gewohnten Umgebung, d.h. an seinem Schreibtisch, mit seinem Stift auf einem normalen Blatt Papier, schreiben kann. Einziger Unterschied: Er wird von einer Videokamera gefilmt.

Zur Erfassung der Stiftpositionen wird die Bildsequenz eingelesen und aus der Differenz benachbarter Bilder die Position des Stifts ermittelt. Zuerst findet eine Vorverarbeitung statt und die resultierenden Linienstücke werden durch Interpolationsalgorithmen noch verbessert. Bei der Differenzbilderstellung werden auch die nachfolgenden und vorangehenden Bilder zur Verbesserung der Resultate berücksichtigt.

Die mit diesem System erzielten Resultate sind brauchbar, aber nicht exakte Online-Daten wie sie ein Grafiktablett liefern kann. Von Auge lässt sich das geschriebene Wort gut erkennen. Ein Test mit dem nachtrainierten Online-Erkenner der ETHZ ergab unter Verwendung eines minimalen Wörterbuchs eine Worterkennungsrate von 90.4 %.

Dank

Ich danke dem Leiter meiner Diplomarbeit, Prof. Dr. Horst Bunke und meinem Betreuer, Dr. Thien Ha Minh, herzlich für die Unterstützung. Sie liessen mir grossen Freiraum bei der Erstellung der Arbeit, standen aber wenn nötig immer helfend und beratend zur Seite.

Meine Freundin Christina Lisser stellte sich als Testperson zum Filmen der Handschrift zur Verfügung. Hierfür und für die moralische Unterstützung während der Diplomarbeit bin ich ihr sehr dankbar.

Dr. Xiaoyi Jiang habe ich anlässlich eines Seminarvortrages, die Idee mit der Maskierung des Schriftzuges zu verdanken. Thomas Wenger versorgte mich mit Anregungen, Tips und hinterfragte etliche meiner Ideen. Ausserdem korrigierte er, trotz Zeitdruck bei seiner eigenen Diplomarbeit, die erste Version dieser Arbeit.

Nicht unerwähnt bleiben darf Dr. Markus Schenkel von der ETH Zürich. Trotz starker beruflicher Belastung zeigte er mir an zwei Tagen den ETHZ-Handschrifterkenner und versorgte mich mit Tips, um dieses System am IAM installieren und nutzen zu können.

Allen anderen helfenden "Geistern", welche hier nicht namentlich erwähnt sind, sei mein herzlicher Dank gewiss; ihre Tips, Anregungen, Kritiken und Unterstützung haben auch zum Gelingen der Arbeit beigetragen.

Inhaltsverzeichnis

Kapitel 1 – Einleitung

1.1 Handschrifterkennung

1.2 Motivation und Ziele dieser Arbeit

1.3 Gliederung der Arbeit

1.4 Verwendete Hilfsmittel

1.5 Andere Arbeiten auf diesem Gebiet

Kapitel 2 – Systemüberblick

2.1 Datenfluss durch das System

2.2 Erfassung der Bildsequenz

2.3 Vorverarbeitung der Bilder

2.4 Erstellung der Differenzbilder

2.5 Nachverarbeitung der Differenzbilder

2.6 Erfassung der Stiftposition

2.7 Verbesserung der Stiftpositionen

2.8 Ausgabe der Stiftpositionen

Kapitel 3 – Systemkomponenten

3.1 Systemaufbau und Datenfluss

3.2 Einlesen und Vorverarbeiten der Bilder

3.2.1 Konvertierung des MPEG-Videos in Einzelbilder
3.2.2 Beschränkung der Einzelbilder
3.2.3 Generierung der Maske
3.2.4 Vorverarbeitung der Einzelbilder

3.3 Einschränkung auf Fensterbereich

3.4 Erstellung der Differenzbilder

3.5 Nachverarbeitung

3.6 Stiftpositionen erfassen

3.6.1 Binärisierung aufgrund des Histogramms
3.6.2 Aufgespannte Fläche
3.6.3 Einfacher Mittelpunkt
3.6.4 Iterativer Mittelpunkt
3.6.5 Mittelpunkt durch Median-Methode
3.6.6 Mittelpunkt durch Neighbour-Methode
3.6.7 Vergleich der Methoden

3.7 Verbesserung und Ausgabe der Positionen

Kapitel 4 – Implementation

4.1 Überblick

4.2 Klasse Image

4.3 Klassen PPMReader und PPMWriter

4.4 Klasse Drawing

4.5 Klasse ImageSource

4.6 Klassen Point und Rectangle

4.7 Klasse FilterStrategy

4.8 Klasse Filter

4.9 Klasse Histogram

4.10 Klasse Detector

4.11 Klasse SlidingWindow

4.12 Klasse Interpolator

Kapitel 5 – Resultate

5.1 Verwendete Eingabesequenzen

5.2 Parameter der Erfassungsroutine

5.3 Resultate der verarbeiteten Wörter

5.3.1 Wort 1: an
5.3.2 Wort 2: brick
5.3.3 Wort 3: All
5.3.4 Wort 4: but

5.4 Probleme beim Erfassen

5.4.1 Bewegtes Papier verschiebt die Buchstaben
5.4.2 Schwache horizontale Linien
5.4.3 Doppelt geschriebene Linienzüge
5.4.4 Geschwungene Aufstriche

5.5 Test mit ETHZ-Handschrifterkenner

Kapitel 6 – Zusammenfassung und Ausblick

Literaturverzeichnis

Abbildungsverzeichnis

Anhang A – Erfassung von Bildsequenzen mit SunVideo

Anhang B – Applikationen

Anhang C – Eingabesequenzen

Anhang D – Erfasste Sequenzen

Anhang E – ETHZ-Handschrifterkenner

last modified 7.5.1998 by tvs