Der unabhängige IT- und Tech-Kanal!
internet.board.entertainment.games.hardware

OCRopus: Google hilft beim eBooks rippen

OCR, Texterkennung aus Bilddaten, wurde in der Vergangenheit immer besser. Mussten früher Bücher noch mühsam gescannt werden, um eine vernünftige Texterkennung zu garantieren, wird heute in der Regel abfotografiert - und wenn die Bilder nicht so schlecht sind wie beim aktuellen Harry Potter, kann man anschließend eine vernünftige PDF weitgehend automatisch generieren. 2008 bringt noch bessere Zeiten für die Book-Ripper, denn Google arbeitet an einer trainierbaren Open-Source-OCR namens OCRopus.

OCRopus soll ein Manko der meisten kommerziellen, qualitativ hochwertigen Texterkennungs-Tools beheben - deren oft mangelhafte Fähigkeit zu lernen. Als Open Source unter der Apache-Lizenz ist garantiert, dass die Engine, ist sie einmal in einer Stable verfügbar, nach Belieben angepasst und verfeinert werden kann.

Einer der Entwickler bei Google meldet sich nun mit einem kurzen Zwischenstand zu Wort. Als Blinder ist T.V. Raman an einer papierfreien Umgebung sehr interessiert. Momentan befindet sich das Projekt in einer sehr frühen Phase. Herbst 2007 soll eine erste Alpha erscheinen, ein Jahr später ist das Erscheinen einer 1.0 angesetzt. Soeben wurde ein Modul zur Ausgabe gescannter Inhalte in strukturiertes XML implementiert, was Textanalyse und Lernfähigkeit der Software erleichtern soll.

2008 soll dann die OCR mit GUI in einer 1.0 verfügbar werden. Anschließend werden weitere Features geplant. So soll OCRopus nicht nur Texte und Begriffe lernen, sondern auch mit der Zeit Layouts und Seitenstrukturen erkennen und gegebenenfalls nachbilden.

Aktuelle Testversionen gibt es nur für Linux, erst Ende nächsten Jahres will man die Aufmerksamkeit auch auf andere Betriebssysteme richten. Bugreports und Übersetzer sind gerne gesehen.

Eigennutz spielt beim ambitionierten Projekt Googles sicher eine Rolle - mit der Google Book Search hat der Suchmaschinenriese ein Feld, auf der eine leistungsfähige OCR höchst produktiv ackern kann. Das hoffentlich kommende freie Release der Google-OCR dürfte jedoch auch zahlreichen anderen Scannern und Rippern das Leben erleichtern, vor allem, wenn die Import- und Lernfeatures der OCR halten, was die Roadmap verspricht. Für halbe Sachen ist Google ja nicht gerade bekannt - von daher darf man gespannt sein, wie weit OCRopus dereinst die Grenzen zwischen Text- und Bildcontent aufweicht oder gar ganz verschwinden läßt.

News Redaktion am Freitag, 20.07.2007 17:33 Uhr

tagsTags: google ocr ebook rip scan rippen texterkennung ocropus

Bookmark and Share
 
Weitere interessante News
24 Reaktionen zu dieser Nachricht
  • bloodycross am 13.08.2007 16:11:30

    Ein kurzer Hinweis an die ersten Poster und evtl. auch einige andere: Da es sich hier, zumindest laut Artikel um Open Source handelt gibt es keine Spionagefunktionen, bzw. sind sie leicht zu finden. Außerdem läuft das ganze auf eurem PC! Und zwar auf Linux und wahrscheinlich auch auf anderen Platt ...

  • crazy-bitch am 25.07.2007 21:31:01

    Denke mal dat wird ne interessante Angelegenheit da man sich ja das ganze abschreiben spart... Studenten werden jubeln:D :D :D ...

  • NeeGee am 22.07.2007 14:02:55

    Weisst du denn, wie gut es im Endeffekt ist? Weißt du es? Oder weißt du wie gut/schlecht andere sind? Ich erwarte von Google einiges, alleine schon aufgrund der möglichen Finanzielle Absicherung. Von daher... Es sind bisher eh nur Vermutungen, aber Ansich war es bisher ...

  • e54 am 22.07.2007 13:53:22

    löschen ...

  • darkloader am 22.07.2007 12:14:04

    @NeeGee: ich weiß nicht,wie es bei dir ist,aber ich will grundsätzlich immer das BESTE :D @Johnnsen: vollkommen korrekt,allerdings darf man mutmaßen,dass es doch relativ gut wird. ich kenne da eine rubrik,die wird sich sehr über dieses gocr freuen :D (rapidshare wohl eher weniger).... ...

weitere Kommentare lesen     Nachricht kommentieren

 
News [Kurioses]

Apple filterte den Begriff "Jailbreak" im iTunes Store

Lars Sobiraj am 20.05.2012, 16:54 Uhr

befreit: ipad 3 & iphone 4s

Im US-amerikanischen iTunes Store wurden statt dem Begriff "Jailbreak" lediglich Sternchen zwischen dem Anfangs- und Endbuchstaben angezeigt. Davon waren letztlich alle Kategorien betroffen. So wurden neben Apps auch Klingeltöne, Podcasts, Musikstücke, ganze Alben und eBooks zensiert angezeigt. Laut den Untersuchungen von Shoutpedia waren mehrere Monate lang 95% aller Begriffe davon betroffen.

mehr mehr lesen...

Browsergames
Gondal World

TOPTIPP: Gondal World

Kämpfe als Held in diesem einzigartigen Fantasy Game. Viele Gefahren und Abenteuer erwarten dich! Escaria spielen

Escaria

Escaria

Erschaffe deine eigene Insel und erobere die Welt. Krieg oder Wachstum - deine Strategie entscheidet! Escaria spielen

Artyria

Artyria

Werde Gladiator und kämpfe im antiken Zeitalter um Ruhm und Ehre. Gehe Bündnisse mit anderen Spielern ein und kämpft gemeinsam gegen die schrecklichen Barbaren. Artyria spielen

Gondal

Gondal

Ziehe als einsamer Waldläufer oder an der Seite von Kampfgefährten in einem Fantasy-Spiel von Abenteuer zu Abenteuer. Gondal spielen

Last Emperor

Last Emperor

Tritt gegen legendären Samurai aus Japan des 19. Jahrhundert an und werde der gefürchtetste aller Samurai. Last Emperor spielen

Nightcreeps

Nightcreeps

Tritt in eine epische Schlacht zwischen Werwölfen und Vampiren, in der nur die Stärksten überleben werden, ein. Nightcreeps spielen

gulli:picsArtikel empfehlengulli RSS News Feedsgulli RSS NewsPresso Feedsgulli:Newslettergulli twittertgulli bei facebookgulli:news im AppStoreSeitenanfang