Gegenstand der 8. Internationalen Konferenz über Datenwissenschaft, Technologie und Anwendungen (DATA) ist es, Forscher, Ingenieure und Praktiker zusammenzubringen, die an Datenbanken, Big Data, Data Mining, Datenmanagement, Datensicherheit und anderen Aspekten von Informationssystemen und -technologien mit fortgeschrittenen Datenanwendungen interessiert sind.

Dr. Frederik Bäumer und Bianca Buff aus der AG Semantische Informationsverarbeitung (Digitale Kulturwissenschaften) widmen sich in ihrem Use Case dem Informationsbedarf moderner B2B CRM-Systeme, dargestellt anhand eines Unternehmens aus OWL. Hierbei handelt es sich um einen Themenbereich, bei dem es insbesondere auf eine hohe Präzision bei der Extraktion unternehmensrelevanter Informationen ankommt. Auf diesem identifizierten Bedarf aufbauend wird das Potential von Lokalen Grammatiken zur web-basierten Informationsakquise untersucht. Hier besteht eine Herausforderung in der stark schwankenden Qualität der im Web befindlichen Informationen, die es erschweren, relevante Informationen in der Masse an Texten zu identifizieren. Bisher finden unteranderem aus diesem Grund maschinelle Lernverfahren vermehrt ihren Einsatz, die auf Grundlage der Trainingsdaten besser abstrahieren können und somit eine höhere Trefferquote erreichen.

Wie dargestellt werden konnte, eignen sich Lokale Grammatiken zur Extraktion unternehmensrelevanter Informationen aus dem Web vor allem dann, wenn die gesuchten Angaben regelmäßig mit einer hohen internen und externen Evidenz einhergehen. Die in diesem Use Case extrahierten Angaben wiesen diese Voraussetzungen auf, allerdings waren die Autoren des Beitrags von der überwiegend miserablen Qualität, der im Unternehmenskontext online auffindbaren Texte überrascht.

Die DATA 2019 fand vom 26. bis 29. Juli 2019 in Prag, Tschechien, statt.

Quelle: upb.de