// you’re reading...

Semantic Web

Metadaten & Linked Data mit Open Calais

Thomson Reuters, der Nachrichten-Riese aus London hat vor einiger Zeit die vierte Version seiner Metadaten-Extraktions-API veröffentlicht. OpenCalais identifiziert - kurz gesagt - bestimmte Typen von Konzepten in unstrukturiertem Text. Diese Named Entity Extraction liefert zum Beispiel alle Personen, Orte und Unternehmen, die in einem Text erwähnt werden. Aktuell erkennt OpenCalais ca. 40 Typen und noch viele weitere Fakten und Ereignisse.

Das besondere an der Version 4.0 ist, dass OpenCalais jetzt die im Text gefundenen Konzepte mit Datensätzen aus öffentlich zugänglichen Datenquellen verlinkt.

Möglich wird das durch das Linked Data Projekt, das im letzten Jahr an Fahrt aufgenommen hat. Die Idee hinter diesem Standard ist es, ein Web of Data zu schaffen, parallel zum bestehenden Web of Documents.

Basierend auf URIs und dem RDF Datenformat veröffentlichen verschiedene Forschungsgruppen und Unternehmen Daten, die sowohl für Menschen lesbar als auch für Maschinen verarbeitbar sind. Darunter die BBC, die ihr komplettes Programm als Linked Data veröffentlicht oder DBpedia, einer Semantic Web Version der englischen Wikipedia.

Durch die Integration von externen Quellen über RDF Links werden sehr interessante Mashups mit der OpenCalais API möglich. Erste Beispiele gibt es bereits hier und mit der steigenden Zahl von Linked Data Quellen dürften es noch viele mehr werden.

Discussion

No comments for “Metadaten & Linked Data mit Open Calais”

Post a comment