Universitäts- und Landesbibliothek Düsseldorf
 
English
 

Einleitung

Elisabeth Niggemann

Schon während der Zeit des ersten Düsseldorfer OPAC-Projekts (1987 - 1989) (1) war allen Beteiligten klar, daß Katalogdaten nur bedingt geeignet sind für ein sachliches, auf den Inhalt der Dokumente zielendes Retrieval. In Düsseldorf enthält nur etwa jeder dritte Datensatz Schlagwörter, oder anders gesagt: zwei Drittel der Titelaufnahmen im OPAC sind nur über die sogenannten formalen Elemente suchbar. Damit kann meist nur dann eine erfolgreiche Suche durchgeführt werden, wenn bei der Formulierung und Eingabe der Suchbegriffe berücksichtigt wird, in welchen grammatikalischen Formen oder Wortzusammensetzungen sie vorliegen können, welche Synonyme, verwandten Begriffe oder fremdsprachlichen Äquivalente benutzt sein könnten. Die Düsseldorfer Benutzer, das belegen die Ergebnisse der Studie von Gabriele Dreis (2) eindringlich, berücksichtigen all dies nicht und so ist ihr Hauptproblem der "Null-Treffer"-Bildschirm. Damit befinden sich die Düsseldorfer Bibliothek wie auch ihre Benutzer in bester Gesellschaft, denn nur wenige Datenbestände sind inhaltlich intensiver erschlossen: Benutzer haben auch an anderen Bibliotheken selten bessere Möglichkeiten, im OPAC sachlich zu suchen.

Das sollte, darüber waren wir uns einig, nicht so bleiben. Eine nachträgliche intellektuelle Erschließung schied aus Kostengründen aus, geeignete Fremddaten gab und gibt es für diese Titel nicht. Schon im ersten Düsseldorfer OPAC-Projekt bot sich daher als Lösungsmöglichkeit das "automatische Indexieren" an.

Das System der Wahl hieß damals PASSAT (3), weil es auf GOLEM, die damalige OPAC-Software, abgestimmt war. Tests zeigten aber bald, daß PASSAT ungeeignet war bzw. einen zu hohen Aufwand bei der Pflege des Standardwörterbuchs bedeutet hätte.

Wir stießen dann bei unserer Suche auf das von Professor Zimmermann an der Universität des Saarlandes entwickelte System IDX. Schon nach ersten Gesprächen und Tests, spätestens aber nach einer Machbarkeitsstudie, die bereits von Klaus Lepsky durchgeführt wurde, war uns in Düsseldorf klar, daß dieses System eine Chance für Bibliotheksbenutzer in sich birgt (4). Einzige, aber hinreichende Bedingung für den erfolgreichen Einsatz der automatischen Indexierung mit dem im Projekt weiterentwickelten und MILOS genannten System ist das Vorhandensein von Textelementen, die eine Aussage über den Inhalt des Dokuments machen: sinnvolle Wörter aus Titeln, Inhaltsverzeichnissen oder Abstract-Texten.

Mittlerweile, nachdem MILOS abgeschlossen ist und es neben MILOS II das EU-Projekt CANAL/LS gibt, bei dem wir Partner sind, ist MILOS aus dem Projektstadium herausgewachsen und kann routinemäßig zur Verbesserung von Datenbanken mit deutschem, nicht homogen intellektuell erschlossenem Titelmaterial eingesetzt werden.

Zwischen den vielen Bibliotheken, die Titeldaten erfassen und den vielen lokalen OPACs, die sie den Benutzern anbieten, liegt bei Universitätsbibliotheken meist eine Verbunddatenbank, weil es sinnvoll ist, zentral von Nationalbibliotheken eingekaufte Fremddaten zu nutzen und außerdem kooperativ zu katalogisieren, d.h. Leistungen anderer Bibliotheken zu nutzen und selbst Leistungen zur Nutzung durch andere Bibliotheken zu erbringen. Wenn aber Verbundkatalogisierung Sinn macht, weil es eine große Schnittmenge der einzelnen Titelmengen der Verbundbibliotheken gibt und weil viele die Fremddaten nutzen, dann ist natürlich auch die zentrale automatische Indexierung sinnvoll, d.h. der Einsatz von MILOS im Rahmen von Verbundsystemen. Denn obwohl der personelle Aufwand für den Routinebetrieb von MILOS gering und damit auch die Einzelanwendung sinnvoll ist, ist es natürlich unstrittig, daß eine zentrale Pflege der Wörterbücher in einem Verbundkontext den Aufwand pro Nutzer verringert. Wichtig ist auch, daß es erst dann, wenn MILOS nicht mehr nur vereinzelt, sondern in Verbünden eingesetzt wird, für Entwickler und Vertreiber von Bibliothekssoftware interessant wird, OPACs zu entwickeln, die MILOS-Ergebnisse so berücksichtigen, wie es für die Benutzer wünschenswert wäre.

Weil es aber noch keinen Verbund und noch keinen Hersteller von Bibliothekssoftware gibt, der das Konzept MILOS integriert hätte, mußte zur Zeit des Kolloquiums noch eine BISMAS-Datenbank mit einer bescheidenen Teilmenge des Düsseldorfer Gesamtbestandes zu Demonstrationszwecken dienen. Mittlerweile gibt es jedoch einen Entwicklungs-OPAC unter allegro-c, der ständig aktualisiert den vollständigen Titelbestand der ULB Düsseldorf zusammen mit den Ergebnissen der automatischen Indexierung enthält. Dieser OPAC hat einen großen Basic Index, d.h. einen gemeinsamen Index von Titelstichwörtern, verstichworteten Schlagwörtern und allen (automatischen) Indexaten.

Skeptiker vermuten, daß bei dieser Methode zu viel "Rauschen", zuviel "Schmutz" in den Index gelangt. Wir sind nach bisherigen Retrieval-Tests (5) nicht dieser Meinung, können jedoch den Skeptikern eine elegantere Lösung - allerdings nur in einem eleganten OPAC - empfehlen:

Dieser elegante OPAC müßte die MILOS-Relationenwörterbücher, die den grammatikalischen und den Thesaurus-Relationen zugrunde liegen, im Dialog während des Retrievals anbieten. So etwas gibt es längst, etwa bei Thesaurusfunktionen gängiger CD-ROM-Produkte oder bei elektronischen Lexika. Auf gleiche Weise könnten auch die MILOS-Rechtschreibwörterbücher angeboten werden, die jede Benutzereingabe prüfen und ggf. im Dialog zur Korrektur vorschlagen würden. Im Dialog würde man es in jedem Fall den Benutzern überlassen können, welche Indexierungsergebnisse sie für ihre Suche übernehmen möchten, welches Maß an Relationen sie wünschen usw.

Diese elegantere Lösung ist technisch machbar, auch ohne daß es zu Performance-Problemen kommt. Daneben sollten weitere Verbesserungen eingebracht werden: Gewichtungsalgorithmen statt Boolescher Operatoren, Hypertext statt linearer Strukturen usw. Wir werden im laufenden Projekt testweise solche Systeme einsetzen und freuen uns über Entwickler und Vertreiber von OPAC-Software, die unsere Testergebnisse aufgreifen und in eine Routineanwendung überführen möchten. Dessen ungeachtet: Die als erstes geschilderte einfache Lösung des Basic Index ist sofort machbar und wirkt durchschlagend!

Wie groß ist der personelle Aufwand und welche technischen Voraussetzungen werden benötigt?

Wir haben jetzt ein gutes Jahr Routineerfahrung mit MILOS. Dabei ist die Software ständig optimiert und sind die Wörterbücher weiter verbessert worden. Vieles läuft unbedient im Batch und kostet nur Maschinenlaufzeit, anderes geht im Dialog, erfordert intellektuelle, manchmal zeitraubende Nacharbeit. Es macht außerdem einen erheblichen Unterschied, ob Wörterbücher intensiv weitergepflegt oder nur eingesetzt werden - und beides ist möglich. Kurz und gut: Es kann nur eine grobe Zeit- und Aufwandsabschätzung geben, die jedoch größenordnungsmäßig abgesichert ist.

Inklusive einer intellektuellen Bearbeitung beträgt die Bearbeitungszeit für die vollständige Indexierung von ca. 1.000 Titeln, inklusive der vorherigen Rechtschreibprüfung, der Indexierungsphase, der nachträglichen Generierung der Indexierungsdaten und der Pflege der Wörterbücher ungefähr 190 Minuten. Diese Zahl stellt den möglichen Maximalaufwand dar, der sich zusammensetzt aus den reinen Maschinenlaufzeiten von ca. 25 Minuten und den optionalen zeitaufwendigen Wörterbucharbeiten von ca. 165 Minuten.

Die Universitäts- und Landesbibliothek Düsseldorf hat einen jährlichen Katalogisierungsdurchsatz von ca. 50.000 Titeln. Das bedeutet für eine Indexierung mit Maximalaufwand 9.500 Minuten und damit, wenn man von runden 30 Wochenstunden reiner Arbeitszeit ausgeht, ca. 5 Wochen.

Deutsche Bibliotheksverbünde haben einen jährlichen Zuwachs an Titeldaten, der zwischen 170.000 und 578.000 liegt (6). Für den NRW-Verbund mit einem jährlichen Zuwachs von aufgerundet 220.000 Titeln bedeutet dies eine Indexierungszeit von ca. 41.800 Minuten; also ca. 23 Wochen. Damit kann eine Person die Indexierungsarbeiten für den laufenden Zugang des jetzigen HBZ-Verbunds bewältigen.

Aber es gibt auch Altdaten, die retrospektiv indexiert werden müßten. Deutsche Bibliotheksverbünde haben zwischen knapp 1 und über 7 Millionen Titel-Datensätze. Für den NRW-Verbund mit ca. 6 Millionen Titelsätzen bedeutet dies 19.000 Stunden oder rund 18 Personenjahre bei maximalem Aufwand. Der Verbundkatalog (VK), nur um das Maß voll zu machen, hat 12.600.000 Titelsätze. Das entspricht 2.394.000 Minuten oder 33,25 Jahren bei wiederum maximalem Aufwand.

Diese Schätzungen, die in der Realität um so mehr nach unten tendieren werden, je größer die Mengen sind, machen deutlich: für den laufenden Zugang ist eine aufwendige, intellektuell unterstützte, automatische Indexierung mit vertretbarem personellem Aufwand machbar. Für die Verarbeitung retrospektiver Daten, die einer Erschließung noch viel dringender bedürfen, ist das Modell der Indexierung mit vollständiger intellektueller Wörterbuchpflege zu aufwendig. Hier wäre es zweckmäßig, zunächst einen reinen Maschinenlauf durchzuführen, um dann erst bei der Bearbeitung des laufenden Zugangs durch Wörterbucharbeit die Ergebnisse zu verbessern.

MILOS ist technisch wenig aufwendig: ein gut funktionierendes lokales Stand-Alone-System, das auf DOS-Basis arbeitet, als Eingabedaten MAB-Strukturen gewohnt ist und im Ausgabeformat die Identnummer der Titelaufnahme und die generierten Indexate liefert. Man kann die Daten paketweise verarbeiten und damit das Problem des Speicherplatzes umgehen. Immerhin benötigt man während der Indexierung eine Speichergröße von ungefähr dem 25fachen der Ausgangsdatei. Wählt man aber Ausgangsdateien, die klein genug sind, und auch bei einem Faktor 25 noch Platz finden, so ist der Speicherbedarf kein K.O.-Kriterium mehr. Die Ergebnisdateien, also die Titelaufnahmen mit den "zugespielten" Indexierungsergebnissen sind wiederum nur geringfügig, d.h. etwa 20% größer als die Ausgangsdateien. Auch dies sollte sowohl für die Verbunddatenbanken wie für die lokalen OPACs kein Problem darstellen.

Wenn die automatische Indexierung im Verbundsystem ablaufen soll, dann werden MAB-Kategorien zur Übermittlung der Indexate an die Verbundbibliotheken benötigt. Diese MAB-Kategorien werden während der Laufzeit von MILOS II beantragt, so daß diese Voraussetzungen für die Nutzung der automatischen Indexierung in den Verbünden und die Nachnutzung der Ergebnisse in den Bibliotheken mit dem Abschluß von MILOS II gegeben sein wird.

Der tatsächliche Einsatz der automatischen Indexierung im Bibliotheksbereich hängt dann letztlich nur noch von der Bereitschaft der Bibliothekarinnen und Bibliothekare ab, derartigen Verfahren eine Chance zu geben. Diese Bereitschaft zu wecken und zu fördern war Ziel des Kolloquiums und ist Ziel des vorliegenden Bandes. Seitenanfang

FUSSNOTEN:

(1) Der Online-Publikumskatalog der Universitätsbibliothek Düsseldorf: Methodische Erkenntnisse und Erfahrungen. OPAC-Kolloquium am 27. - 28. November 1989. Hrsg. von Günter Gattermann. Frankfurt 1991.

(2) G. Dreis: Benutzerverhalten an einem Online-Publikumskatalog für wissenschaftliche Bibliotheken: Ergebnisse und Erfahrungen aus dem OPAC-Projekt der Universitätsbibliothek Düsseldorf. Frankfurt 1994.

(3) G. Dreis: Formen des sachlichen Suchzugriffs. Probleme des automatischen Indexierens. In: Der Online-Publikumskatalog der Universitätsbibliothek Düsselorf, S. 84-99.

(4) K. Lepsky: Maschinelle Indexierung von Titelaufnahmen zur Verbesserung der sachlichen Erschließung in Online-Publikumskatalogen. Köln 1994.

(5) K. Lepsky, J. Siepmann, A. Zimmermann: Automatische Indexierung für Online-Kataloge: Ergebnisse eines Retrievaltests. In: ZfBB 43 (1996), H.1, S. 47-56.

(6) Informationen zu den regionalen und überregionalen Verbundsystemen in Deutschland. 4., aktualisierte Aufl. Berlin 1995. Seitenanfang | zurück zum Inhaltsverzeichnis des Kolloquiumbandes

Redaktion: Heinz-Peter Berg       Stand: 24.11.2008, 09:32
Seitenende
Universitäts- und Landesbibliothek © 2008 Heinrich-Heine-Universität Düsseldorf http://www.ub.uni-duesseldorf.de/home/ueber_uns/projekte/abgeschlossene_projekte/milos/vortraege/mil_ni4329bf20>