2. Fehlertolerantes Suchen

In der Textverarbeitung, besonders in der Texterkennung, stellen falsch geschriebene Worte ein großes Problem dar. Selbst eine falsche Groß- und Kleinschreibung ist schon ein Hindernis, da sich die ASCII-Codes von Groß- und Kleinbuchstaben unterscheiden. Dieses Problem kann man noch recht leicht mit den Standart-C Funktionen toupper oder tolower³ in den Griff bekommen. Bei den anderen Fehlern ist das schon schwieriger.

Man kann die Fehler allgemein in zwei Gruppen einteilen: zum einen hat man die Rechtschreibfehler, die entstehen, wenn der Schreiber nicht weiß, wie ein Wort geschrieben wird, und zum anderen gibt es die Tippfehler, bei denen der Schreiber versehentlich eine oder mehrere falsche Tasten drückt. Die Tippfehler kann man noch weiter unterteilen. Es können zuviele Buchstaben vorhanden sein. Dies entsteht beim Abrutschen von einer Taste auf eine andere oder wenn zwei Tasten gleichzeitig gedrückt werden. Weiterhin gibt es fehlende Buchstaben, die entstehen, wenn eine Taste nicht fest genug gedrückt wurde. Und letztlich sind da noch die Buchstabenvertauschungen. Es gibt die sogenannten Buchstabendreher, bei denen zwei aufeinanderfolgende Buchstaben in der verkehrten Reihenfolge getippt werden, und die Ersetzung, bei der ein Buchstabe durch einen anderen ersetzt wurde.

Um ein fehlertolerantes Suchen oder Vergleichen zu ermöglichen, muß der Unterschied zwischen den zu vergleichenden Worten durch geeignete Konvertierungen entfernt werden (sprachorientierte Verfahren), so daß auf Identität getestet werden kann, oder es muß ein Fehlerabstand definiert werden (buchstabenorientierte Verfahren), der nach dem Vergleich ausgewertet werden kann (Schwellwerttest, evtl. abhängig von der Wortlänge).

2.1 Sprachorientierte Verfahren

Mit einem sprachorientierten Verfahren kann man sehr leicht Probleme, die durch Rechtschreibfehler entstehen, unterdrücken. Dies liegt an der grundlegenden Idee dieser Verfahren:

Beide zu vergleichende Worte werden so konvertiert, daß gleich klingende Laute auf dasselbe Zeichen oder Token abgebildet werden. Dadurch werden sich die zu vergleichenden Worte ähnlicher oder gar gleich.

Soundex

Das Soundex Verfahren [KNUTH73] wurde von Margaret K. Odell und Robert C. Russell entwickelt und patentiert (U.S. Patents 1261167 (1918), 1435663 (1922)). Es wird hauptsächlich zum auffinden von Namen benutzt.

Konvertierungsalgorithmus:

entferne alle Buchstaben einer Sequenz, die auf den gleichen Code abgebildet werden, bis auf den ersten der Sequenz
behalte den 1. Buchstaben bei
entferne die Buchstaben a, e, h, i, o, u, w, y

ersetze folgende Buchstaben:

b, f, p, v	=> 1
c, g, j, k, q, s, x, z	=> 2
d, t	=> 3
l	=> 4
m, n	=> 5
r	=> 6

bringe die Zeichenfolge in die Form Buchstabe, Ziffer, Ziffer, Ziffer, indem entweder mit Nullen aufgefüllt wird oder Ziffern abgeschnitten werden

Beispiele:
Hilberg => H416, Bassenge => B252, Friedrich => F636

Vorteile:

kurze Ergebnis-Zeichenfolgen

Nachteile:

ist auf die englische Sprache ausgelegt
benutzt nur eine endliche Stellenzahl (Bei langen Worten wird das Wortende nicht berücksichtigt.)
nur 6 Token (zu starke Generalisierung)
Fehler im Anfangsbuchstaben wird nicht ausgeglichen

phonetische Codierung

Die phonetische Codierung [MEYER88] ist dem Soundex recht ähnlich. Es werden aber keine Zeichen entfernt und die Ersetzungen sind etwas umfangreicher. Die Buchstaben (-kombinationen) werden nicht durch Token, sondern durch ähnlich klingende Buchstaben (-kombinationen) ersetzt.

Algorithmus:

wandle alle Buchstaben in Großbuchstaben
wandle Buchstabenkombinationen nach Tabelle 2.1
wandle einzelne Buchstaben nach Tabelle 2.2
filtere unerlaubte und doppelte Zeichen heraus (Unerlaubte Zeichen sind alle Zeichen, die keine Buchstaben sind.)

Tabelle 2.1: Ersetzungen der Buchstabenkombinationen
Zeichenfolge Ersetzung Zeichenfolge Ersetzung

SC C QU KV

SZ C UE Y

CZ C EU OY

TZ C AE E

TS C OE Ö

DS C KS X

PH V EI AY

PF V EY AY

Tabelle 2.1: Ersetzungen der Buchstabenkombinationen
Zeichenfolge	Ersetzung	Zeichenfolge	Ersetzung
SC	C	QU	KV
SZ	C	UE	Y
CZ	C	EU	OY
TZ	C	AE	E
TS	C	OE	Ö
DS	C	KS	X
PH	V	EI	AY
PF	V	EY	AY

Tabelle 2.2: Ersetzungen der einzelnen Buchstaben
Zeichenfolge Ersetzung Zeichenfolge Ersetzung

K C W V

G C F V

Q C T D

Ü Y ß S

I Y P B

J Y

Tabelle 2.2: Ersetzungen der einzelnen Buchstaben
Zeichenfolge	Ersetzung	Zeichenfolge	Ersetzung
K	C	W	V
G	C	F	V
Q	C	T	D
Ü	Y	ß	S
I	Y	P	B
J	Y

Beispiele:

Hilberg => HYLBERC, Bassenge => BASENCE, Friedrich => FRYEDRYCH

Vorteile:

ist auf die deutsche Sprache ausgelegt
benutzt keine endliche Stellenzahl (Genauigkeit)

Nachteile:

keine vollständige Ersetzungstabelle (IE => Y, AH => A)

2.2 Buchstabenorientierte Verfahren

Die buchstabenorientierten Verfahren definieren, wie ein Fehlerabstand zwischen zwei zu vergleichenden Worten bestimmt werden kann.

Weighted Levenshtein Distance (WLD)

Die gewichtete Levenshtein-Distanz [EBNER89] geht auf den Finnen Teuvo Kohonen zurück, der die WLD bei seiner Arbeit mit einem Spracherkennungssystem benutzte. Ihr liegt die Annahme zu Grunde, daß sich sich unterscheidende Worte durch Einfügen, Löschen und Ersetzen mehrerer Zeichen ineinander überführen lassen. Wird nun jede Operation mit einem Gewicht bzw. einer Strafe (Penalty) versehen und diese während der Überführung kumuliert, so kann nach der Überführung die Levenshtein-Distanz der beiden Worte ausgewertet werden. Da es beliebig viele Möglichkeiten gibt, ein Wort in ein anderes zu überführen, ist nur die kleinste WLD von Interesse.

Formal gilt:

WLD (X, Y) = min_i (pk_i + qm_i + rn_i)

Es wird das Minimum von i verschiedenen Überführungen des Wortes X in das Wort Y berechnet, wobei p, q und r die Gewichte der jeweiligen Ersetzungen k_i, Einfügungen m_i und Löschungen n_i sind.

Ein einfacher Algorithmus läßt sich leicht rekursiv wie folgt beschreiben:

WLD (X_i, Y_j) = min (WLD (X_i-1, Y_j-1) + p (i, j), WLD (X_i, Y_j-1) + q, WLD (X_i-1, Y_j) + r)

X_i (Y_j) steht für die ersten i (j) Buchstaben des Wortes X (Y), die Funktion p (i, j) ist Null, wenn der i-te Buchstabe von X gleich dem j-ten Buchstaben von Y ist.

Die Randbedingungen für die Rekursion sind:

WLD (X₀, Y_j) = jq, WLD (X_i, Y₀) = ir und WLD (X₀, Y₀) = 0

Vorteile:

Gewichtung der Fehlerarten möglich

Nachteile:

Wildcards⁴ können nicht verwendet werden
Buchstabendreher haben keine eigene Gewichtung

Penalty-Methode der Firma GPSystemhaus GmbH

Diese Penalty-Methode ist stark an die WLD angelehnt, mit dem Unterschied, daß hier nicht nur bestimmte Strafen (Penalties) für die möglichen Fehlerarten benutzt werden. Bei Ersetzungen von Buchstaben sind die Strafen von den Buchstaben selbst abhängig. Pro Buchstabenpaar kann eine andere Strafe festgesetzt werden. Die Strafen werden hierfür in einem Array der Größe 60×60 gespeichert. Vor dem eigentlichen Vergleich werden die Worte gefiltert, d. h. sie werden in Großbuchstaben gewandelt und bestimmte Zeichen und Zeichenfolgen werden in Token gespeichert. Außerdem erkennt dieser Algorithmus Buchstabendreher und verwendet für sie eine eigene Fehlergewichtung.

Vorteile:

Buchstabendreher werden erkannt
Gewichtung der Fehlerarten möglich
Gewichtung jeder einzelner Buchstabenersetzung möglich

Nachteile:

Wildcards können nicht verwendet werden

Shift-AND

Der Shift-AND-Algorithmus [GRONEK95] ist eigentlich ein gegenüber Einfügen, Löschen und Ersetzen von Buchstaben tolerantes Suchverfahren, welches aber auch zur Rechtschreibkorrektur verwendet wird. Es kann auch mit Wildcards wie "*" und "?" umgehen. Die Theorie dieses Verfahrens ist etwas komplizierter, als die anderen hier genannten.

In dem Text t, der die Zeichen t₁ bis t_n enthält, wird nicht nur nach einem Muster p, das die Zeichen p₁ bis p_m enthält, selbst gesucht, sondern parallel dazu auch nach allen Teilmustern. Ist das Suchmuster aabac, so sind die Teilmuster: a, aa, aab, aaba und aabac. In einem Bit-Vektor S, der soviele Bits enthält, wie Zeichen im Muster p enthalten sind, wird der Suchzustand gespeichert. S_j [i] ist das i-te Bit im Bit-Vektor S zu dem Zeitpunkt j bzw. bei dem Buchstaben t_j im durchsuchten Text. Sind die ersten i Zeichen des Musters im Text aufgetreten, so ist das i-te Bit in dem Vektor S gesetzt S [i] = 1. Diese 1 wandert nun durch den Vektor, solange das jeweilige Teilmuster mit dem Text übereinstimmt. Dabei können neue 1-sen entstehen, wenn ein neuer Teilmusteranfang im Text erscheint. Eine Suche ist erfolgreich beendet, wenn S [m] = 1 ist, das heißt, daß das letzte Zeichen des Teilmusters p_m gleich dem des Suchmusters t_j an der aktuellen Stelle j ist (p_m = t_j).

Beispiel ("·" steht für "0"):

j 1 2 3 4 5 6 7 8 9 10 11 T_a T_b T_c

Text t: a a b a a c a a b a c (T_Zeichen s. u.)

i p S_j=4

S 1 a 1 1 · 1 1 · 1 1 · 1 · 1 · ·

2 a · 1 · · 1 · · 1 · · · 1 · ·

3 b · · 1 · · · · · 1 · · · 1 ·

4 a · · · 1 · · · · · 1 · 1 · ·

5 c · · · · · · · · · · 1 · · 1

S¹ 1 a 1 1 1 1 1 1 1 1 1 1 1

2 a · 1 1 1 1 1 1 1 1 1 1

3 b · · 1 · · 1 · · 1 · ·

4 a · · · 1 · · 1 · · 1 ·

5 c · · · · 1 · · · · · 1

			j	1	2	3	4	5	6	7	8	9	10	11	T_a	T_b	T_c
Text t:		`a`	`a`	`b`	`a`	`a`	`c`	`a`	`a`	`b`	`a`	`c`		(T_Zeichen s. u.)
	i	p					S_j=4
S	1	`a`		1	1	·	1	1	·	1	1	·	1	·	1	·	·
	2	`a`		·	1	·	·	1	·	·	1	·	·	·	1	·	·
	3	`b`		·	·	1	·	·	·	·	·	1	·	·	·	1	·
	4	`a`		·	·	·	1	·	·	·	·	·	1	·	1	·	·
	5	`c`		·	·	·	·	·	·	·	·	·	·	1	·	·	1

S¹	1	`a`		1	1	1	1	1	1	1	1	1	1	1
	2	`a`		·	1	1	1	1	1	1	1	1	1	1
	3	`b`		·	·	1	·	·	1	·	·	1	·	·
	4	`a`		·	·	·	1	·	·	1	·	·	1	·
	5	`c`		·	·	·	·	1	·	·	·	·	·	1

An der Textstelle t_j=4 ist an Stellen i=1 und i=4 eine 1 im Bit-Vektor S_j=4 (Spalten-Vektor), d. h. an dieser Stelle stimmt das Teilmuster a und aaba mit dem Text überein.

Damit im folgenden Schritt die nächste Stelle im Vektor S bei dem nächsten Buchstaben im Text t_j+1 gesetzt wird (S_j [i] = 1 =>; S_j+1 [i+1] = 1), müssen folgende zwei Bedingungen gelten:

Die gesuchte Zeichenfolge muß bis hier hin (j) mit dem Text übereinstimmen, d. h. das i-te Bit im Vektor S_j muß gesetzt sein.
Das neue Textzeichen t_j+1 muß mit dem gesuchten p_i+1 übereinstimmen.

Diese Berechnung läßt sich schnell durchführen, wenn für jedes Zeichen, das in dem Suchmuster p enthalten ist, ein charakteristischer Bit-Vektor T_Zeichen angelegt wird, in dem mit einer 1 markiert ist, an welcher Stelle im Suchwort dieses Zeichen vorkommt (s. Bsp. T_a, T_b, T_c). Es wird jetzt einfach der Inhalt des alten Bit-Vektors S_j um eins nach rechts geschoben (RSHIFT, zieht eine 1 nach!). Dadurch steht eine 1 an der Stelle i+1, falls das Suchmuster bis zur Stelle j richtig war und an der Stelle 1. Anschließend wird mit dem charakteristischen Bit-Vektor T_Zeichen des neuen Zeichens t_j+1 und dem Vektor S_j+1 eine bitweise UND-Verknüpfung durchgeführt, dadurch wird sichergestellt, daß die 1 nach dem Rechts-SHIFT nur dann stehen bleibt, wenn auch der neue Buchstabe bei dem entsprechenden Teilmuster richtig ist:

S_j+1 = RSHIFT (S_j) AND T_t(j+1)

Die Konstruktionsvorschrift für den Vektor T_z eines Zeichens z lautet:

T_z [i] = 1, wenn p_i = z, sonst T_z [i] = 0

Für obiges Beispiel bedeutet das, daß bei j=5 (t_j=a) ein neues Teilmuster a beginnt (S_j=5 [1] = 1) und ein passender Buchstabe a für das Teilmuster a aus dem vorangegangenen Schritt gefunden wurde. Somit ist das Teilmuster aa erkannt worden (S_j=5 [2] = 1). Das Teilmuster aabac hingegen konnte nicht erkannt werden, da der neue Buchstabe kein c ist. Das 5. Bit in S_j, das durch das schieben nach rechts entstanden ist, wird durch die bitweise UND-Verknüpfung mit dem Vektor T_a gelöscht (S_j=5 [5] = 0), da T_a [5] = 0 ist (nur T_c hat an der 5. Stelle eine 1).

Um den Shift-AND-Algorithmus für fehlertolerantes Suchen und Vergleichen einsetzen zu können, werden einfach weitere Zustands-Vektoren S^d eingeführt. Bei einer Suche mit einem Fehler heißt der Vektor S¹ (s. Bsp.). Sie war erfolgreich, wenn S [m] = 1 (0 Fehler) oder S¹ [m] = 1 (1 Fehler) gilt. Bei dem Beispiel wäre das bei j = 5 und j = 11 der Fall.

Die Iterationsvorschrift für den Vektor S¹ ist etwas komplizierter:

Übereinstimmung der ersten i Musterzeichen bis zur

Textstelle j+1 mit einer Einfügung Löschung Ersetzung

wenn entweder die ersten i Zeichen i-1 Zeichen i-1 Zeichen

bis zur Stelle j Stelle j+1 Stelle j

exakt passen (p_i wird angefügt), (p_i wird gelöscht), (p_i wird ersetzt),

das heißt S_j [i] = 1 S_j+1 [i-1] = 1 S_j [i-1] = 1

oder wenn schon die ersten i-1 ersten i-1 ersten i-1

Zeichen bis zur Stelle j mit einer Einfügung Löschung Ersetzung

passen und t_j+1 = p_i ist, das heißt S¹_j [i-1] = 1 & p_i = t_j+1 S¹_j [i-1] = 1 & p_i = t_j+1 S¹_j [i-1] = 1 & p_i = t_j+1

also insgesamt:

S¹_j+1 = (T_t(j+1) AND RSHIFT (S¹_j)) OR S_j OR RSHIFT (S_j+1) OR RSHIFT (S_j)


Übereinstimmung der ersten i Musterzeichen bis zur
Textstelle j+1 mit einer	Einfügung	Löschung	Ersetzung
wenn entweder die ersten	i Zeichen	i-1 Zeichen	i-1 Zeichen
bis zur	Stelle j	Stelle j+1	Stelle j
exakt passen	(p_i wird angefügt),	(p_i wird gelöscht),	(p_i wird ersetzt),
das heißt	S_j [i] = 1	S_j+1 [i-1] = 1	S_j [i-1] = 1
oder wenn schon die	ersten i-1	ersten i-1	ersten i-1
Zeichen bis zur Stelle j mit einer	Einfügung	Löschung	Ersetzung
passen und t_j+1 = p_i ist, das heißt	S¹_j [i-1] = 1 & p_i = t_j+1	S¹_j [i-1] = 1 & p_i = t_j+1	S¹_j [i-1] = 1 & p_i = t_j+1
also insgesamt:
S¹_j+1 = (T_t(j+1) AND RSHIFT (S¹_j))	OR S_j	OR RSHIFT (S_j+1)	OR RSHIFT (S_j)

Sind alle drei Fehlertypen erlaubt so müssen die Ergebnisse der letzten Zeile nur OR-verknüpft werden:

S¹_j+1 = (RSHIFT (S¹_j) AND T_t(j+1)) OR S_j OR RSHIFT (S_j+1) OR RSHIFT (S_j)

= (RSHIFT (S¹_j) AND T_t(j+1)) OR S_j OR RSHIFT (S_j+1 OR S_j)

Möchte man d Fehler zulassen, so muß nur die Iterationsvorschrift in einer Schleife von k = 1 bis d durchlaufen werden und alle S durch S^k-1 und S¹ durch S^d ersetzt werden.

Ein wesentliches Merkmal des Shift-AND-Algorithmus ist seine Flexibilität. Ohne Änderung am Algorithmus kann auch mit Wildcards verglichen und gesucht werden. Dafür muß nur ein spezieller T-Vektor definiert werden (s. [WU92]).

Vorteile:

schneller Vergleich (linearer Aufwand)
Volltextsuche möglich (Suche in einem Wörterbuch)
Wildcards können verwendet werden

Nachteile:

keine Gewichtung der Fehlerarten möglich
Buchstabendreher werden nicht unterstützt

2.3 Vergleich der Verfahren

Um sowohl Rechtschreib- als auch Tipfehler in den Griff zu bekommen, ist es sinnvoll ein sprachorientiertes Verfahren mit einem buchstabenorientierten zu kombinieren. Mit einem sprachorientierten Verfahren ist es nicht möglich ein Maß für den Unterschied zwischen zwei Worten zu definieren, da die Worte einfach transformiert werden und danach auf Identität geprüft werden. Mit einem buchstabenorientierten Verfahren kann zwar ein Abstandsmaß definiert werden, dafür gehen sie aber nicht auf die sprachlichen Ähnlichkeiten ein. Bei den sprachorientierten Verfahren ist die phonetische Codierung dem Soundex vorzuziehen, da der Soundex nur eine begrenzte Stellenanzahl berücksichtigt, auf die englische Sprache ausgelegt ist und zu stark generalisiert. Bei den buchstabenorientierten Verfahren bietet die Penalty-Methode die größte Flexibilität. Sie kennt zum einen Buchstabendreher als eine eigene Fehlerart, die beim Schreiben mit einer Tastatur häufig vorkommt, zum anderen bietet sie die Möglichkeit bei Ersetzungen für jedes Buchstabenpaar einen speziellen Fehlerwert zu bestimmen. Dies ist weder mit der WLD noch mit dem Shift-AND-Algorithmus möglich. Der Shift-AND-Algorithmus unterscheidet noch nicht einmal zwischen den Fehlerarten. Er bietet sich nur zur Volltextsuche in einer Text-Datenbank an.

Aus diesen Gründen wurde in dieser Arbeit bei fehlertoleranten Vergleichen die phonetische Codierung (mit einer erweiterten Ersetzungstabelle) in Verbindung mit dem Penalty-Verfahren verwendet.

S¹_j+1	= (RSHIFT (S¹_j) AND T_t(j+1)) OR S_j OR RSHIFT (S_j+1) OR RSHIFT (S_j)
	= (RSHIFT (S¹_j) AND T_t(j+1)) OR S_j OR RSHIFT (S_j+1 OR S_j)