Kapitel 6 - Zusammenfassung und Ausblick

Mit dem vorliegenden Prototyp eines Systems zur Erfassung von Online-Daten mittels einer Videokamera konnte gezeigt werden, dass dieser Ansatz funktioniert und zu verwendbaren Resultaten führt. Die erfassten Online-Daten entsprechen nicht den Online-Daten wie sie ein Grafiktablett aufzeichnen würde. Doch wenn die Online-Daten am Bildschirm dargestellt werden, kann der Benutzer das geschriebene Wort erkennen, und die Entstehung der Linienzüge entspricht grösstenteils der Entstehung der geschriebenen Linienzügen.

Obwohl die vorliegende Arbeit gewisse Einschränkungen der Eingabe bedingt, kann das Prinzip doch unverändert belassen werden. Das soll heissen, dass das System beim Weglassen einer spezifischen Beschränkung nur punktuell angepasst bzw. verbessert werden muss. Soll z.B. das Blatt frei auf dem Schreibtisch bewegbar sein, so muss nur die Vorverarbeitung um eine Komponente zur Normalisierung der geometrischen Verzerrungen, hervorgerufen durch die Perspektive der Kamera und des bewegten Blatt Papiers, ergänzt werden. Soll der Schreiber mit beliebiger Geschwindigkeit schreiben können, so muss zur Erfassung der Videodaten ein System verwendet werden, welches genügend Bilder pro Sekunde erfassen kann. Wünschenswert ist ein System welches 30 Bilder pro Sekunde erfassen kann. Auch die Grösse der Schrift stellt das System vor keine konzeptionellen Probleme. Um auch kleine Schriften zu erfassen, muss die Auflösung der Kamera gesteigert werden. Dies ist prinzipiell möglich, doch benötigt dies teurere und schnellere Hardware. Die rasante Entwicklung der Computertechnik wird hier gewiss innert kurzer Zeit zu den nötigen und preiswerten technischen Hilfsmitteln führen.

Mit dieser Arbeit wurde zwar kein wissenschaftliches Neuland betreten, doch im Vergleich zu den wenigen bestehenden Arbeiten konnten Fortschritte und neue Ansätze entwickelt werden. Im Vergleich zu den Arbeiten von Toshinori Yamasaki, Katsuyoshi Manabe [MYa95] und Tetsuo Hattori [YMH95] werden bei unserem Ansatz ganze Wörter und vollständige Textzeilen mit einer Höhe von ca. 1.5 cm verarbeitet. Die Japaner beschränkten sich in ihrer Arbeit auf einzelne Schriftzeichen von 5 cm Grösse. Im Gegensatz zu Mario E. Munich und Pietro Perona [MPe96], welche grosse Probleme mit dem Erkennen der Pen Up’s und Pen Down’s hatten, stellte dies in unserem Ansatz kein Problem dar. Dank der Konzentration auf die Verfolgung der auf das Papier aufgetragenen Tinte, trat dieses Problem gar nie zu Tage. Dafür kann dieses System doppelt überstrichene Linienzüge im Gegensatz zu den Amerikanern nicht erfassen.

Die Tests mit dem ETHZ-Handschrifterkenner belegen, dass die mit diesem System gewonnenen Online-Daten in der Praxis brauchbar sind. Die starke Steigerung der Worterkennungsrate von 11.5% (mit UNIX Wörterbuch) auf 53.8% mittels Nachtraining deutet darauf hin, dass die Online-Daten Unterschiede zu "normalen" Online-Daten eines Grafiktabletts aufweisen und dass mit einem geringen Aufwand – zehnfaches Nachtraining innerhalb 3 Stunden und Verwendung eines minimalen Wörterbuchs – die Erkennungsrate auf bis zu 90.4% gesteigert werden kann. In weiteren Arbeiten im Gebiet der alternativen Gewinnung von Online-Daten wäre es sinnvoll, dass bei allen Tests der Erfassung von Online-Daten der ETHZ-Handschrifterkenner als Referenz zur Beurteilung der erzielten Resultate beigezogen würde. Hiermit hätte man ein Instrument zur objektiven Beurteilung der Resultate und Verbesserungen zur Verfügung. Ein mögliches Testszenario wäre, dass man die Testperson beim Schreiben mit dem Grafiktablett der ETHZ filmt. Danach würden die Resultate des ETHZ-Erkenners, einerseits aus den Online-Daten des Grafiktabletts und andererseits der von diesem System gewonnen Online-Daten, direkt verglichen. Zur intensiveren Verwendung des ETHZ-Erkenners ist es unumgänglich, dass mehr Daten gesammelt und verarbeitet werden. Das hat zur Folge, dass eine riesige Menge an Videodaten erfasst, verarbeitet und gespeichert werden muss. Aber nur so lässt sich das System noch besser trainieren.

Im Kapitel 5 wurden folgende drei Problemgebiete aufgezeigt:

Die schlechten Bilddaten lassen sich mit technischen Hilfsmitteln verbessern. So kann eine höher auflösende Kamera verwendet werden und mehr als ca. 20 Bilder pro Sekunde erfasst werden. Wünschenswert wäre eine Kameraauflösung nach der VHS Norm (768 * 576 Bildpunkte) und eine Abtastung von 30 Bildern pro Sekunde. Dies führt jedoch unweigerlich zu einer mehr als vierfachen Datenmenge. Was sich mit leistungsfähigeren Computern und grösseren Datenspeichern bewältigen lässt. Ausserdem könnten Routinen zur Korrektur und Verbesserung in die Vorverarbeitung eingebaut werden.

Die beiden ersten Probleme sind grundsätzlicher Natur und deren Lösung bedarf eines grösseren Aufwands. Der Problematik, dass der Stift Teile der Schrift verdeckt, könnte man mittels zusätzlicher Kameras begegnen. Würde man nicht nur eine Kamera gegenüber des Schreibers plazieren, sondern mehrere Kameras verschieden plazieren, könnte immer eine dieser Kameras die neu aufgetragene Schrift im Blickfeld haben. Eine Komponente der Vorverarbeitung müsste dann aus den verschiedenen Bildern eine Komposition errechnen welche keine verdeckten Teile mehr enthält. Das Problem des mehrfachen Überschreibens eines Linienstücks ist damit aber noch nicht gelöst. Als Lösung könnte eine stärkere Bindung der Erfassung der Online-Daten an des Offline-Bild des Schriftzuges angestrebt werden. So wäre es denkbar, die Resultate dieser Arbeit mit den Resultaten der Arbeit von Roger Ammann [Amm96] zu kombinieren. Die Suche einer Stiftposition aus dem Differenzbild könnte durch die Gesetzmässigkeiten von Amman über die Entstehung von Linienzügen gesteuert werden.

Mit dieser Arbeit konnten wichtige Resultate auf dem noch wenig bearbeiteten Gebiet der alternativen Gewinnung von Online-Daten erzielt werden. Die Einschränkungen des Benutzers sind geringer als in bestehenden Arbeiten und es bestehen keine Probleme bei der Unterscheidung, ob der Stift auf dem Papier abgesetzt ist. Zum Beweis, dass dieses System brauchbar ist, wurden die erfassten Online-Daten mit dem nachtrainierten Online-Handschrifterkenner der ETHZ getestet und in 90.4% der Fälle richtig erkannt. Das System erwies sich also als brauchbar.