Event Streaming mit Data Pipelines auf Basis von Apache Kafka


Event Streaming mit Data Pipelines auf Basis von Apache Kafka

Viele digitale Geschäftsmodelle und der Wunsch nach Personalisierung in der Kundenkommunikation erfordern ein Real-Time Event Streaming von Daten aus verschiedenen Quellen (E-Mail-Nachrichten, Webseiten, Apps, Chat, Social Media, Sensoren).

Dabei geht es um die Kombination der Datenquellen und die ordnungsgemäße Datenintegration. Hier setzt Apache Kafka an. Kafka integriert unterschiedliche Systeme über nachrichtenbasierte Kommunikation in Echtzeit und skalierbar. Apache Kafka ist seit fast zehn Jahren der Industriestandard für das verteilte Speichern und Verarbeiten von Eventdaten.

Apache Kafka funktioniert nach dem Publish-Subscribe-Modell, bei dem empfangende Systeme (Consumer) die Nachrichten der sendenden Systeme (Producer) „abonnieren“ können. Über die Connector API können Entwickler externe Systeme als Consumer oder Producer mit dem Cluster verbinden.

© https://de.wikipedia.org

Für die logische Gruppierung von eingehenden Nachrichten nutzt Kafka sogenannte Topics. Es gibt „normal“ (konfigurierbaren Zeitraum, begrenzter Speicherbedarf) und „compacted“ (keine Zeit- oder Platzlimitierung) Topics.

Den Kern des Systems bildet ein Cluster, bestehend aus sogenannten Brokern. Broker speichern Schlüssel-Wert-Nachrichten zusammen mit einem Zeitstempel in Topics.

Topics umfassen eine oder mehrere Partitionen im verteilten Filesystem. Jede Partition ist in Segmente aufgeteilt. Diese enthalten die konkreten Nachrichten. Eine Consumer API ermöglicht es Topics zu abonnieren und auszulesen.

Consumer können Cloud basierte Data Warehouses sein, wie Amazon RedShift, Snowflake auf AWS Basis oder Google BigQuery. Auf Basis dieser Data Warehouses lassen sich nun Verhaltensanalysen in Real-Time durchführen. Parallel dazu sind KI basierte Systeme der Verhaltensvorhersage für Empfehlungssysteme (Warenkörbe, Re-Targeting) oder die Optimierung von Kundenverträgen (z.B. Versicherungen) denkbar. Auch Anwendungen die auf maschinellen Lernmodellen (ML) basieren, z.B. die Kontrolle vertraulicher Daten wie dem Personalausweis im Browser, sind möglich.


Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert