Please wait...
News / Neuer Ansatz bei der Buchdigitalisierung
28.04.2017  Wirtschaft
Neuer Ansatz bei der Buchdigitalisierung
Mit einer Mischung aus automatischer Texterkennung und ehrenamtlicher Arbeit, wollen der IT-Konzern und der EU-finanzierte Forschungsverband Impact Bücher preiswerter, schneller und in besserer Qualität digitalisieren.
Buchdigitalisierungen, wie sie in den vergangenen Jahren im Auftrag von Google oder von verschiedenen Bibliotheken durchgeführt wurden, führten gerade bei älteren Werken oft nur zu bescheidenen Ergebnissen, wenn es um die Texterkennung ging: Der Leser sieht zwar das mehr oder weniger gelungene Bild der abfotografierten Buchseite, will er aber Text suchen oder rauskopieren, so stellt er bald fest, dass die OCR-Software nur Buchstabensalat produziert hat.

Die israelische Niederlassung des Computerkonzerns IBM und das EU-Forschungskonsortium Impact (IMProving ACcess to Text) haben nun ihre bestehende Zusammenarbeit erweitert, um genau dieses Problem zu lösen. Jetzt umfasst das Projekt über 25 angeschlossene nationale und regionale Bibliotheken - darunter etwa die Deutsche Nationalbibliothek und die Bayrische Staatsbibliothek - Forschungsinstitute, Universitäten und Wirtschaftsunternehmen. Ziel von Impact ist es, neue Technologien für eine hoch präzise Digitalisierung von seltenen, historisch-wertvollen Texten in großem Umfang zur Verfügung zu stellen.

Im Gegensatz zu früheren Digitalisierungsprojekten, deren Ergebnis oft statische Online-Bibliotheken von gescannten Texten war, wird bei Impact ein System angestrebt, das eine kontinuierliche Produktion von digitalen Repliken erlaubt, die online zugänglich sowie editierbar und durchsuchbar gemacht werden können.

Alte Dokumente mit verblichener Schrift und seltenen Schriftzeichen stellen eine große Herausforderung für  Texterkennungs-Technologien dar. Eine bis zu 50 Prozent niedrigere Erkennungsrate und eine aufwändige Nachbearbeitung der digitalen Dokumente sind daher die Regel. Um dies zu verbessern, bietet Impact jetzt die erste Version eines Digitalisierungssystem an, das hochentwickelte, adaptive Software für optische Zeichenerkennung (OCR) mit einem kollaborativen, web-basierten Korrektursystem kombiniert.

Mithilfe dieses Korrektursystems, das von IBM Forschern in der israelischen Stadt Haifa entwickelt wurde, können die digitalen Repliken weltweit von allen Beteiligten gleichzeitig über ein Online-Web-System eingesehen, überprüft und korrigiert werden. Das System nutzt zudem lernfähige Software und adaptiert das Erkennen spezifischer Schriftzeichen automatisch.

"Um ein großes Digitalisierungsprojekt zum Erfolg zu führen, muss die Qualität der Texterkennung gesteigert und der Nachbearbeitungsaufwand entscheidend reduziert werden. Wir erwarten, dass wir mit Impact eine signifikante Produktivitätssteigerung im Digitalisierungsprozess erzielen können", sagt Hildelies Balk, Koordinatorin des Forschungsprojektes an der niederländischen Koninklijke Bibliotheek.
Sie wollen immer auf dem Laufenden sein? Bestellen Sie jetzt den Newsletter von Druck & Medien!