|
20. Juli 2007
OCRopus Google hilft beim eBooks rippenOCR, Texterkennung aus Bilddaten, wurde in der Vergangenheit immer besser. Mussten früher Bücher noch mühsam gescannt werden, um eine vernünftige Texterkennung zu garantieren, wird heute in der Regel abfotografiert - und wenn die Bilder nicht so schlecht sind wie beim aktuellen Harry Potter, kann man anschließend eine vernünftige PDF weitgehend automatisch generieren. 2008 bringt noch bessere Zeiten für die Book-Ripper, denn Google arbeitet an einer trainierbaren Open-Source-OCR namens OCRopus. OCRopus soll ein Manko der meisten kommerziellen, qualitativ hochwertigen Texterkennungs-Tools beheben - deren oft mangelhafte Fähigkeit zu lernen. Als Open Source unter der Apache-Lizenz ist garantiert, dass die Engine, ist sie einmal in einer Stable verfügbar, nach Belieben angepasst und verfeinert werden kann. sehr interessiert. Momentan befindet sich das Projekt in einer sehr frühen Phase. Herbst 2007 soll eine erste Alpha erscheinen, ein Jahr später ist das Erscheinen einer 1.0 angesetzt. Soeben wurde ein Modul zur Ausgabe gescannter Inhalte in strukturiertes XML implementiert, was Textanalyse und Lernfähigkeit der Software erleichtern soll.
2008 soll dann die OCR mit GUI in einer 1.0 verfügbar werden. Anschließend werden weitere Features geplant. So soll OCRopus nicht nur Texte und Begriffe lernen, sondern auch mit der Zeit Layouts und Seitenstrukturen erkennen und gegebenenfalls nachbilden. Aktuelle Testversionen gibt es nur für Linux, erst Ende nächsten Jahres will man die Aufmerksamkeit auch auf andere Betriebssysteme richten. Bugreports und Übersetzer sind gerne gesehen. Eigennutz spielt beim ambitionierten Projekt Googles sicher eine Rolle - mit der Google Book Search hat der Suchmaschinenriese ein Feld, auf der eine leistungsfähige OCR höchst produktiv ackern kann. Das hoffentlich kommende freie Release der Google-OCR dürfte jedoch auch zahlreichen anderen Scannern und Rippern das Leben erleichtern, vor allem, wenn die Import- und Lernfeatures der OCR halten, was die Verwandte News
Trackbacks
löschen e54 am 22.07.2007 13:53
Zitat: Zitat von Johnnsen Weisst du denn, wie gut es im Endeffekt ist? Weißt du es? Oder weißt du wie gut/schlecht andere sind? Ich erwarte von Google einiges, alleine schon aufgrund der möglichen Finanzielle Absicherung. Von daher... Es sind bisher eh nur Vermutungen, aber Ansich war es bisher so: Was Google anpackt wurde ein Hit. NeeGee am 22.07.2007 14:02
Denke mal dat wird ne interessante Angelegenheit da man sich ja das ganze abschreiben spart... Studenten werden jubeln crazy-bitch am 25.07.2007 21:31
Ein kurzer Hinweis an die ersten Poster und evtl. auch einige andere: Da es sich hier, zumindest laut Artikel um Open Source handelt gibt es keine Spionagefunktionen, bzw. sind sie leicht zu finden. Außerdem läuft das ganze auf eurem PC! Und zwar auf Linux und wahrscheinlich auch auf anderen Plattformen. Generell finde ich Google nicht schlecht, und gegen das Datensammeln kann man sich ja schützen. lg, bloodycross bloodycross am 13.08.2007 16:11
|