A Practical Introduction to Stream Processing Schulung
Stream Processing bezieht sich auf die Echtzeitverarbeitung von "Daten in Bewegung", dh das Ausführen von Berechnungen für Daten, während diese empfangen werden. Solche Daten werden als fortlaufende Datenströme aus Datenquellen wie Sensorereignissen, Website-Benutzeraktivitäten, Finanzgeschäften, Kreditkartenüberprüfungen, Klickströmen usw. gelesen. Stream Processing Frameworks können große Datenmengen lesen und wertvolle Erkenntnisse fast augenblicklich liefern.
In diesem von Lehrern geführten Live-Training (vor Ort oder per Fernzugriff) lernen die Teilnehmer, wie verschiedene Stream Processing Frameworks mit vorhandenen Big Data-Speichersystemen und zugehörigen Softwareanwendungen und Mikrodiensten eingerichtet und integriert werden.
Am Ende dieser Schulung können die Teilnehmer:
- Installieren und konfigurieren Sie verschiedene Stream Processing Frameworks, z. B. Spark Streaming und Kafka Streaming.
- Verstehen und wählen Sie den am besten geeigneten Rahmen für den Job.
- Kontinuierliche, zeitgleiche und aufzeichnungsweise Datenverarbeitung.
- Integrieren Sie Stream Processing Lösungen in vorhandene Datenbanken, Data Warehouses, Data Lakes usw.
- Integrieren Sie die am besten geeignete Stream-Processing-Bibliothek in Unternehmensanwendungen und Microservices.
Publikum
- Entwickler
- Software-Architekten
Format des Kurses
- Teilvorlesung, Teildiskussion, Übungen und viel praktisches Üben
Anmerkungen
- Um ein individuelles Training für diesen Kurs anzufordern, kontaktieren Sie uns bitte, um dies zu arrangieren.
Schulungsübersicht
Einführung
- Stromverarbeitung vs. Stapelverarbeitung
- Analytisch ausgerichtete Stromverarbeitung
Übersicht Frameworks und Programming Languages
- Spark Streaming (Scala)
- Kafka Streaming (Java)
- Flink
- Storm
- Vergleich der Funktionen und Stärken der einzelnen Frameworks
Überblick über die Datenquellen
- Live-Daten als eine Reihe von Ereignissen über die Zeit
- Historische Datenquellen
Bereitstellungsoptionen
- In der Cloud (AWS, etc.)
- Vor Ort (private Cloud, usw.)
Erste Schritte
- Einrichten der Entwicklungsumgebung
- Installieren und Konfigurieren
- Einschätzung Ihrer Data Analysis Bedürfnisse
Betrieb eines Streaming Frameworks
- Integration des Streaming Frameworks mit Big Data Tools
- Ereignis Stream Processing (ESP) vs. Komplexe Ereignisverarbeitung (CEP)
- Transformieren der Eingabedaten
- Inspektion der Ausgabedaten
- Integration des Stream Processing Frameworks in bestehende Anwendungen und Microservices
Fehlersuche
Zusammenfassung und Schlussfolgerung
Voraussetzungen
- Programming Erfahrung in einer beliebigen Sprache
- Verständnis von Big-Data-Konzepten (Hadoop, etc.)
Offene Schulungskurse erfordern mindestens 5 Teilnehmer.
A Practical Introduction to Stream Processing Schulung - Booking
A Practical Introduction to Stream Processing Schulung - Enquiry
A Practical Introduction to Stream Processing - Beratungsanfrage
Beratungsanfrage
Erfahrungsberichte (1)
Sufficient hands on, trainer is knowledgable
Chris Tan
Kurs - A Practical Introduction to Stream Processing
Kommende Kurse
Kombinierte Kurse
Spark Streaming with Python and Kafka
7 StundenDiese von einem Kursleiter geleitete Live-Schulung in Deutschland (online oder vor Ort) richtet sich an Dateningenieure, Datenwissenschaftler und Programmierer, die die Funktionen von Spark Streaming zur Verarbeitung und Analyse von Echtzeitdaten nutzen möchten.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein, mit Spark Streaming Live-Datenströme zur Verwendung in Datenbanken, Dateisystemen und Live-Dashboards zu verarbeiten.
Confluent KSQL
7 StundenDiese von einem Kursleiter geleitete Live-Schulung in Deutschland (online oder vor Ort) richtet sich an Entwickler, die Apache Kafka Stream Processing implementieren möchten, ohne Code zu schreiben.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein,:
- Confluent KSQL zu installieren und zu konfigurieren.
- eine Stream-Processing-Pipeline nur mit SQL-Befehlen einzurichten (keine Java- oder Python-Codierung).
- Datenfilterung, Transformationen, Aggregationen, Joins, Windowing und Sessionization vollständig in SQL durchzuführen.
- Interaktive, kontinuierliche Abfragen für Streaming ETL und Echtzeit-Analysen entwerfen und einsetzen.
Unified Batch and Stream Processing with Apache Beam
14 StundenApache Beam ist ein quelloffenes, einheitliches Programmiermodell für die Definition und Ausführung von parallelen Datenverarbeitungspipelines. Seine Stärke liegt in der Fähigkeit, sowohl Batch- als auch Streaming-Pipelines auszuführen, wobei die Ausführung von einem der von Beam unterstützten verteilten Verarbeitungs-Backends übernommen wird: Apache Apex, Apache Flink, Apache Spark, und Google Cloud Dataflow. Apache Beam ist nützlich für ETL-Aufgaben (Extrahieren, Transformieren und Laden) wie das Verschieben von Daten zwischen verschiedenen Speichermedien und Datenquellen, das Transformieren von Daten in ein gewünschtes Format und das Laden von Daten in ein neues System.
In dieser von einem Trainer geleiteten Live-Schulung (vor Ort oder per Fernzugriff) lernen die Teilnehmer, wie sie die Apache Beam-SDKs in einer Java- oder Python-Anwendung implementieren, die eine Datenverarbeitungspipeline zur Zerlegung eines großen Datensatzes in kleinere Teile für eine unabhängige, parallele Verarbeitung definiert.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein:
- Installieren und konfigurieren Apache Beam.
- ein einziges Programmiermodell zu verwenden, um sowohl Batch- als auch Stream-Verarbeitung innerhalb ihrer Java oder Python Anwendung auszuführen.
- Pipelines über mehrere Umgebungen hinweg auszuführen.
Format des Kurses
- Teilweise Vorlesung, teilweise Diskussion, Übungen und umfangreiche praktische Übungen
Hinweis
- Dieser Kurs wird in Zukunft Scala verfügbar sein. Bitte kontaktieren Sie uns zur Absprache.
Apache NiFi for Administrators
21 StundenIn dieser von einem Ausbilder geleiteten Live-Schulung in Deutschland (vor Ort oder per Fernzugriff) lernen die Teilnehmer, wie sie Apache NiFi in einer Live-Laborumgebung einsetzen und verwalten.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein:
- Apachi NiFi zu installieren und zu konfigurieren.
- Daten aus unterschiedlichen, verteilten Datenquellen, einschließlich Datenbanken und Big Data Lakes, zu beschaffen, umzuwandeln und zu verwalten.
- Datenflüsse zu automatisieren.
- Streaming-Analysen zu ermöglichen.
- Wenden Sie verschiedene Ansätze für die Datenerfassung an.
- Transformieren Sie Big Data und in Geschäftseinblicke.
Apache NiFi for Developers
7 StundenIn dieser Live-Schulung unter Anleitung in Deutschland lernen die Teilnehmer die Grundlagen der ablaufbasierten Programmierung, während sie eine Reihe von Demo-Erweiterungen, Komponenten und Prozessoren mit Apache NiFi entwickeln.
Am Ende dieses Kurses werden die Teilnehmer in der Lage sein:
- Die Architektur von NiFi und Datenflusskonzepte zu verstehen.
- Erweiterungen mit NiFi und APIs von Drittanbietern zu entwickeln.
- Ihren eigenen Apache-NiFi-Prozessor zu entwickeln.
- Echtzeitdaten aus unterschiedlichen und ungewöhnlichen Dateiformaten und Datenquellen einlesen und verarbeiten.
Apache Flink Fundamentals
28 StundenDiese Live-Schulung in Deutschland (online oder vor Ort) führt die Teilnehmer in die Prinzipien und Ansätze der verteilten Stream- und Batch-Datenverarbeitung ein und führt sie durch die Erstellung einer Echtzeit-Daten-Streaming-Anwendung in Apache Flink.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein,:
- Eine Umgebung für die Entwicklung von Datenanalyseanwendungen einrichten.
- Verstehen, wie die graphverarbeitende Bibliothek (Gelly) von Apache Flink funktioniert.
- Flink-basierte, fehlertolerante Daten-Streaming-Anwendungen paketieren, ausführen und überwachen.
- Verschiedene Workloads verwalten.
- Fortgeschrittene Analysen durchführen.
- Einrichten eines Flink-Clusters mit mehreren Knoten.
- Messen und Optimieren der Leistung.
- Flink mit verschiedenen Big Data Systemen integrieren.
- Flink-Funktionen mit denen anderer Big-Data-Verarbeitungs-Frameworks vergleichen.
Python and Spark for Big Data (PySpark)
21 StundenIn dieser von einem Trainer geleiteten Live-Schulung in Deutschland lernen die Teilnehmer anhand praktischer Übungen, wie sie Python und Spark gemeinsam zur Analyse von Big Data einsetzen können.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein:
- Lernen, wie man Spark mit Python verwendet, um Big Data zu analysieren.
- An Übungen arbeiten, die reale Fälle nachahmen.
- Verschiedene Tools und Techniken für die Big-Data-Analyse mit PySpark verwenden.
Introduction to Graph Computing
28 StundenIn dieser von einem Trainer geleiteten Live-Schulung in Deutschland lernen die Teilnehmer die Technologieangebote und Implementierungsansätze für die Verarbeitung von Graphdaten kennen. Ziel ist es, Objekte der realen Welt, ihre Eigenschaften und Beziehungen zu identifizieren, diese Beziehungen zu modellieren und sie als Daten mit einem Graph Computing (auch bekannt als Graph Analytics) Ansatz zu verarbeiten. Wir beginnen mit einem breiten Überblick und konzentrieren uns auf spezifische Tools, während wir eine Reihe von Fallstudien, praktischen Übungen und Live-Einsätzen durchführen.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein
- Verstehen, wie Graphdaten persistiert und durchlaufen werden.
- das beste Framework für eine bestimmte Aufgabe auszuwählen (von Graphdatenbanken bis hin zu Stapelverarbeitungs-Frameworks).
- Implementierung von Hadoop, Spark, GraphX und Pregel, um Graphenberechnungen auf vielen Rechnern parallel durchzuführen.
- Big-Data-Probleme aus der realen Welt in Form von Graphen, Prozessen und Traversalen zu betrachten.
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 StundenDieser Kurs richtet sich an Entwickler und Datenwissenschaftler, die KI verstehen und in ihre Anwendungen implementieren wollen. Besonderes Augenmerk wird auf Datenanalyse, verteilte KI und natürliche Sprachverarbeitung gelegt.
Apache Spark MLlib
35 StundenMLlib ist die ML-Bibliothek (Machine Learning) von Spark. Ziel ist es, praktisches maschinelles Lernen skalierbar und einfach zu machen. Es besteht aus allgemeinen Lernalgorithmen und Dienstprogrammen, einschließlich Klassifizierung, Regression, Clustering, kollaborativer Filterung, Dimensionsreduzierung sowie Optimierungsprimitiven auf niedrigerer Ebene und Pipeline-APIs auf höherer Ebene.
Es teilt sich in zwei Pakete:
spark.mllib enthält die ursprüngliche API, die auf RDDs basiert.
spark.ml bietet eine API auf höherer Ebene, die auf DataFrames zum Erstellen von ML-Pipelines basiert.
Publikum
Dieser Kurs richtet sich an Ingenieure und Entwickler, die eine integrierte Maschinenbibliothek für Apache Spark
Building Kafka Solutions with Confluent
14 StundenDiese Live-Schulung (vor Ort oder per Fernzugriff) richtet sich an Techniker, die Confluent (eine Distribution von Kafka) verwenden möchten, um eine Echtzeit-Datenverarbeitungsplattform für ihre Anwendungen zu erstellen und zu verwalten.
Am Ende dieser Schulung können die Teilnehmer:
- Installieren und konfigurieren Sie Confluent Platform.
- Verwenden Sie die Verwaltungstools und -dienste von Confluent, um Kafka einfacher auszuführen.
- Speichern und verarbeiten Sie eingehende Stream-Daten.
- Optimieren und verwalten Sie Kafka-Cluster.
- Sichere Datenströme.
Format des Kurses
- Interaktiver Vortrag und Diskussion.
- Viele Übungen und Übungen.
- Praktische Implementierung in einer Live-Laborumgebung.
Anpassungsoptionen für den Kurs
- Dieser Kurs basiert auf der Open Source-Version von Confluent: Confluent Open Source.
- Um ein individuelles Training für diesen Kurs anzufordern, kontaktieren Sie uns bitte, um dies zu arrangieren.
Apache Kafka for Python Programmers
7 StundenDiese von einem Kursleiter geleitete Live-Schulung in Deutschland (online oder vor Ort) richtet sich an Dateningenieure, Datenwissenschaftler und Programmierer, die die Apache Kafka-Funktionen in Datenströmen mit Python nutzen möchten.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein, Apache Kafka zur Überwachung und Verwaltung von Bedingungen in kontinuierlichen Datenströmen mit Python-Programmierung zu verwenden.
Stream Processing with Kafka Streams
7 StundenKafka Streams ist eine clientseitige Bibliothek zum Erstellen von Anwendungen und Mikrodiensten, deren Daten an ein und von einem Kafka-Messagingsystem übertragen werden. Traditionell hat sich Apache Kafka auf Apache Spark oder Apache Storm , um Daten zwischen Nachrichtenproduzenten und -konsumenten zu verarbeiten. Durch Aufrufen der Kafka Streams-API aus einer Anwendung heraus können Daten direkt in Kafka verarbeitet werden, ohne dass die Daten zur Verarbeitung an einen separaten Cluster gesendet werden müssen.
In diesem von Lehrern geführten Live-Training lernen die Teilnehmer, wie sie Kafka-Streams in eine Reihe von Java Beispielanwendungen integrieren, die Daten zur Stream-Verarbeitung an Apache Kafka und von diesem weitergeben.
Am Ende dieser Schulung können die Teilnehmer:
- Verstehen der Funktionen und Vorteile von Kafka Streams gegenüber anderen Frameworks für die Stream-Verarbeitung
- Verarbeiten Sie Stream-Daten direkt in einem Kafka-Cluster
- Schreiben Sie eine Java oder Scala Anwendung oder einen Microservice, der sich in Kafka und Kafka Streams integrieren lässt
- Schreiben Sie prägnanten Code, der Eingabe-Kafka-Themen in Ausgabe-Kafka-Themen umwandelt
- Erstellen, packen und implementieren Sie die Anwendung
Publikum
- Entwickler
Format des Kurses
- Teilvorlesung, Teildiskussion, Übungen und viel praktisches Üben
Anmerkungen
- Um ein individuelles Training für diesen Kurs anzufordern, kontaktieren Sie uns bitte, um dies zu arrangieren
Apache Kafka Connect
7 StundenDiese von einem Ausbilder geleitete Live-Schulung (online oder vor Ort) richtet sich an Entwickler, die Apache Kafka in bestehende Datenbanken und Anwendungen zur Verarbeitung, Analyse usw. integrieren möchten.
Am Ende dieser Schulung werden die Teilnehmer in der Lage sein:
- Nutzen Sie Kafka Connect, um große Datenmengen aus einer Datenbank in Kafka-Themen aufzunehmen.
- Protokolldaten, die von einem Anwendungsserver generiert werden, in Kafka-Themen aufnehmen.
- Die gesammelten Daten für die Stream-Verarbeitung verfügbar machen.
- Daten aus Kafka-Themen in sekundäre Systeme zur Speicherung und Analyse exportieren.