Projekt des Monats

Web Crawling für Produktdaten im Lebensmittelhandel

Gruppenfoto mit rojektteam: Projektleiter Prof. Dr. Rolf Krieger (l.) mit Wissenschaftlichen Mitarbeitern und Studierenden
Abbildung 1: Projektteam: Projektleiter Prof. Dr. Rolf Krieger (l.) mit Wissenschaftlichen Mitarbeitern und Studierenden

Aufbau eines Produktgraphen zur Verbesserung von Datenqualität, KI-Anwendungen und Nachhaltigkeit

Im Rahmen eines aktuellen Forschungsprojekts wird von der Arbeitsgruppe Wirtschaftsinformatik unter der Leitung von Prof. Dr. Rolf Krieger der Aufbau eines domänenspezifischen Produktgraphen für Lebensmittelprodukte vorangetrieben. Ein Produktgraph ist eine spezialisierte Form eines Wissensgraphen, der die Beziehungen und Attribute von Produkten in einem Unternehmen oder einer Branche strukturiert darstellt. Ein wesentliches Problem stellt dabei die Informationsgewinnung im Internet dar. Die Arbeitsgruppe entwickelt hierzu spezialisierte Verfahren für das  Web Crawling und Scraping, über die strukturierte und unstrukturierte Daten aus Online-Shops und Herstellerwebseiten automatisiert gesammelt und aufbereitet werden. Ziel ist es, Produktinformationen wie Zutaten, Verpackungseinheiten, Nährwerte oder Labels zentral zu erfassen und intelligent zu verknüpfen. Abbildung 2 zeigt ein Beispiel eines Produktgraphen, der aus den gewonnenen Daten aufgebaut wurde.

Ein wichtiges Anwendungsfeld solcher Produktgraphen ist die Qualitätssicherung von Produktdaten in ERP-Systemen, beispielsweise zur Erkennung von Inkonsistenzen, Dubletten oder fehlenden Attributen. Darüber hinaus dient der Produktgraph als Wissensbasis für Retrieval-Augmented Generation (RAG), ein Verfahren, bei dem generative KI-Modelle gezielt mit externem, strukturiertem Wissen angereichert werden, um präzisere und faktenbasierte Antworten zu liefern. So kann z. B. ein KI-System auf konkrete Produktinformationen zugreifen, anstatt rein aus dem Trainingsdatenbestand zu „halluzinieren“.

Der Produktgraph kann so auch die Bestimmung von ähnlichen oder komplementären Produkten unterstützen. Diese Produktbeziehungen sind wertvoll für Einzelhändler zur Optimierung ihrer Sortiments- und Absatzplanung als auch für Verbraucher, die sich über Produkte informieren oder Produkte vergleichen möchten.

Ein weiteres Einsatzgebiet ist die automatische Klassifikation von Lebensmitteln, etwa zur Sortimentspflege oder für die Prozessautomatisierung im Handel. Diese Klassifikation ist entscheidend für eine konsistente Verwaltung von Produktdaten sowie für die Steuerung nachgelagerter Logistik- und Vertriebsprozesse.

Darüber hinaus soll der finale Produktgraph auch einen Beitrag zur Transparenz und Vergleichbarkeit von Nachhaltigkeitsinformationen leisten, etwa in Bezug auf Herkunft, Verpackungsmaterialien, Bio-Zertifizierungen oder CO₂-Fußabdruck-Angaben. Die verbesserte Datenlage kann fundierte Entscheidungen für Verbraucher und Handel und die regulatorische Berichterstattung unterstützen.

Das Projekt adressiert verschiedene technologische Herausforderungen. Viele der benötigten Informationen liegen unstrukturiert oder nur in Bildform vor, z. B. auf Verpackungsabbildungen. Entsprechend kommen Verfahren der Bildanalyse und des Natural Language Processing (NLP) zum Einsatz, um semantisch relevante Inhalte automatisiert zu extrahieren und zu standardisieren.

Erste Forschungsergebnisse wurden unter dem Titel „Evaluation of LLM-based Strategies for the Extraction of Food Product Information from Online Shops“ auf der 14th International Conference on Data Science, Technology, and Applications (DATA 2025) in Bilbao, Spanien vorgestellt und publiziert.

Gefördert durch: Bundesministerium für Forschung, Technologie und Raumfahrt (BMFTR), FKZ 01IS23060

Graph: Beispiel eines Produktgraphen, der in der Praxis aus Millionen von Knoten besteht. Kanten zwischen den Knoten drücken Beziehungen zwischen den mit den Knoten assoziierten Produkten aus.
Abbildung 2: Beispiel eines Produktgraphen, der in der Praxis aus Millionen von Knoten besteht. Kanten zwischen den Knoten drücken Beziehungen zwischen den mit den Knoten assoziierten Produkten aus.
Projektmitarbeiter Sian Brumm (L) und Christoph Brosch (R) vor der Universität Deusto, Bilbao; Spanien. Fotograf: Christoph Wald.
Abbildung 3: Projektmitarbeiter Sian Brumm (L) und Christoph Brosch (R) vor der Universität Deusto, Bilbao; Spanien. Fotograf: Christoph Wald
back-to-top nach oben