Apache Hop User Meetup Vol. 5

Dieses Event ist leider schon vorbei.

Melde Dich hier zum nächsten an

Dieses Event ist leider schon vorbei.

Melde Dich hier zum nächsten an

Apache Hop User Meetup Nr. 5 – ein kleiner Meilenstein.

Das fünfte Apache Hop User Meetup zeigte, wie lebendig die Community ist. Es erwarteten dich frische Features, echte Use Cases und viel Austausch mit anderen.

Bart Maertens, PMC im Apache Top-Level Projekt Hop ist wieder dabei. Er berichtet über die Entwicklung der letzten Jahre, wo die Software-Entwicklung aktuell steht und auf was wir uns künftig freuen können.

Zudem berichten Hop User über Einsatzszenarien in ihren Unternehmen und erklären, wie sie die Low-Code-Plattform für Data Engineering und Data Orchestration nutzen.

Apache Hop revolutionierte unsere ETL-Prozesse mit einer intuitiven Oberfläche und leistungsstarken Transformationsmöglichkeiten. Die Integration verbesserte die Datenqualität und verkürzte die Zeit bis zur Analyse erheblich.

Apache Hop bietet eine modulare, erweiterbare Architektur, die unsere Entwicklungsprozesse stark vereinfacht. Die Plattform lässt sich nahtlos in unsere bestehende Infrastruktur integrieren.

Apache Hop hat unsere Datenintegrationsprozesse erheblich optimiert und ermöglicht nahtlose Big-Data-Pipelines über verschiedene Systeme hinweg. Die Skalierbarkeit und einfache Handhabung sind besonders beeindruckend.

Agenda

9:15 - 9:45 Uhr | 6 years of Apache Hop (Englischer Vortrag)
Bart Maertens, Co-founder Apache Hop

I’ll start with a quick recap of what happened in the last five years since we’ve been building Apache Hop – from a technical and a community perspective. In the second part, I’ll look at what the future holds for Apache Hop.

9:45 - 10:30 Uhr | KI-gestützte Enterprise- und Geo-Datenintegration und Apache Hop
Stefan Keller, Full Professor für Data Engineering und GISTech an der FH OST (Ostschweizer Fachhochschule)
Petra Stutz, Wissenschaftliche Mitarbeiterin im UNIGIS-Fernstudienprogramm, Fachbereich Geoinformatik, Universität Salzburg

Mithilfe von „Vibe-Coding“ mit KI-Chatbots und von „No-Code“-Tools mit grafischen Benutzeroberflächen wird die Integration und Aufbereitung von Daten zunehmend einfacher. Auch die Geoinformationstechnologie-Branche profitiert davon, in der bisher ein kommerzielles „No-Code“-Produkt den Markt dominiert und Workflows sowie Transformationen speziell für die Geodaten-Verarbeitung bereitstellt. In diesem Beitrag zeigen wir zunächst Vibe-Coding-Beispiele. Anschließend demonstrieren wir anhand von Demos, wie sich die Funktionen von Apache Hop und den bestehenden Plug-ins – einschließlich der GIS-Plug-ins von Atol CD – als Alternative nutzen lassen. Dabei greifen wir auch die Frage auf, wo Hop noch weiteren Bedarf hat, etwa nach zusätzlichen Plug-ins oder anderer Open-Source-Software.

15 Minuten Pause

10:45 - 11:15 Uhr | Integration leicht gemacht: SAP ByDesign ODATA Connector & Apache Hop als Middleware
Andreas Korte, IT-Anwendungsspezialist, Precitec GmbH & Co. KG
Tom Haupt, Consultant, it-novum

Mit dem SAP Data Connector greifen Sie per ODATA standardisiert und sicher auf SAP Business ByDesign zu. Durch die lesende Anbindung stehen alle relevanten Informationen für Reporting, Analytics und Integrationen in Echtzeit zur Verfügung – ohne den laufenden ERP-Betrieb zu beeinflussen.

Nahtlose Integration für durchgängige Prozesse:
Apache Hop verbindet Shopware und PSIpenta zuverlässig als Middleware. Bestellungen, Kunden, Adress- und Kontaktdaten werden automatisiert ausgetauscht, sodass E-Commerce und ERP reibungslos zusammenarbeiten. Skalierbar, flexibel und jederzeit erweiterbar.

11:15 - 11:45 Uhr | Hop Migration - Lessons Learned
Gerhard Mitterlechner, Senior Development Engineer, eurofunk Business Intelligence
Drazen Sander, Development Engineer, eurofunk Business Intelligence

Nach dem Migrieren mehrerer ETL-Projekte nach Hop stellen wir euch unsere zentrale Architektur vor, die es den Entwicklern ermöglicht, unterschiedlichste Hop-Projekte samt Environments auf beliebigen Systemen mit minimalem Aufwand zu starten, weiterzuentwickeln, zu versionieren und zu releasen. Wir besprechen pain points, liebgewonnene Hop-Konzepte, Code-/Metadaten-Wiederverwertbarkeit und Testbarkeit.

11:45 - 12:15 Uhr | Von Data Lineage zu Data Intelligence mit Apache Hop, DataHub & LLMs
Philipp Heck, Head of Pre-Sales & Customer Success, it-novum
Cedric Plachtzik, Auszubildener als Fachinformatiker für Anwendungsentwicklung, it-novum

In diesem Vortrag zeigen wir live, wie das Data Lineage Plugin für Apache Hop unsichtbare Datenflüsse sichtbar macht und die Ergebnisse in DataHub als zentrale Data-Governance-Lösung darstellt.

Darüber hinaus demonstrieren wir, wie sich Large Language Models (LLMs) gezielt einsetzen lassen, um noch schneller wertvolle Erkenntnisse aus den vorhandenen Daten zu gewinnen – und so Analyse, Entscheidungsfindung und Innovation spürbar zu beschleunigen.

Damit werden nicht nur Entwickler bei Analyse und Fehlerbehebung unterstützt – auch Fachbereiche und Management profitieren von mehr Transparenz, Compliance-Sicherheit und Vertrauen in die Daten.

12:15 - 12:30 Uhr | Abschließende FAQ-Runde

Moderiert von it-novum

Unsere Referenten

Event Impressionen

FAQ zum Webinar (Häufig gestellte Fragen)

Could it be possible to integrate external metadata tools?

Yes, it’s open source. The source code is available. We can integrate almost anything. Metadata
catalogues, data catalogues. I think that’s the direction we’re heading in, as I mentioned with
regard to data, catalogues and lineage. This applies here as well. There are no Hartsteiners
or unified standards. This makes global, unified metadata integration more difficult from
a technical point of view. But it‘s definitely possible. If you want to discuss it further, get in
touch. Start a GitHub discussion or feature request and we can look at it in more detail.

Are you planning something about dbt?

I‘d love to! We haven‘t discussed this on GitHub. I think dbt has a more ELT than ETL approach.
However, it would be interesting to explore the possibility of integrating dbt as a workflow
action. We could call dbt functions from a workflow. It‘s not there yet, but it‘s interesting at
least.

Can I use Apache Hop in Kubernetes?

Yes, there is a helm chart available on the download page. There will be more in future. As a
community, I think it‘s fair to say that we are aware of them. Hopefully, the Apache Software
Foundation is a global NGO. They have headquarters in the United States. However, the
Hop developer team is largely European. Digital sovereignty is becoming a popular topic. As
an open-source platform with a large European community, I think that‘s a good thing. In
addition to the three large cloud providers, we‘ll also look at OVH and Stackit. So, yes, Stackit.
Hetzner, being German, will definitely ensure that I am aware of the deployments in those
cloud environments. However, support will need to improve. If you find a book that is specific
to Stackit, Hetzner or OVH, for example, it will definitely ensure that this is taken care of.

How well does it work on European cloud platforms?

That’s one of the things we’ll focus on.

Wie wurde die SOAP-Schnittstelle umgesetzt? Werden hier nur SOAP-Schnittstellen angesprochen oder auch bereitgestellt?

Soap haben wir jetzt in dem Fall nicht benutzt? Wir haben das, wie gesagt, am Anfang. probiert
mit Sub und True Data und haben dann einfach anhand, dass man, eben, um Perodator die
Daten zu parsen bzw. so schön auszulösen. Aber es war grundsätzlich möglich, eben ohne
Schmerz auch das Bsdl in eine Abfrage mit reinzupassen. Das haben wir am Anfang probiert,
es hat auch funktioniert. und man kann natürlich auch mit Soapdaten abfragen, aber es ist
natürlich extrem aufwendiger. Man muss die WSDS entsprechend den Feldlisten anpassen. Die
Freigaben müssen da sein, und man bekommt dann auch resultsets raus.

Wie macht ihr das Deltahandling?

Wie gesagt, wir haben ein Tagungsfeld. Ich glaube, es war „Last Change Daytime”. Da wird ein
Timestamp gesetzt. Das ist der Zeitpunkt, zu dem eine Änderung an diesem Datensatz erfolgt
ist. Wir übergeben in dem Fall zwei Parameter für Start- und Enddatum. Dadurch erhalten wir
nur in dieser Zeitspanne Daten. Im Backend haben wir eine Datenbank, in der der Job immer
getriggert wird. Er wird also im Intervall gestartet. Er hat einen Status, das heißt, wenn die
Verarbeitung erfolgreich war. Das heißt, wenn der Status „Finish” erreicht ist, ziehen wir uns
den Zeitstempel und setzen ihn beim nächsten Lauf als Enddatum bzw. als Startdatum, sodass
wir fortan die Daten in diesem Zeitraum erhalten. Genau, einfach praktisch in einem Delta
Zeitraum, um es mit einfachen Worten zu sagen: Wir schauen uns nur die Daten an.

Wie habt ihr die Data Lineage in DataHub integriert? Bietet Hop eine Integration oder wie zieht ihr das an? Pusht ihr aktiv, oder pulled DataHub?

Ja, wir parsen ganz klassisch über ein Python-Skript. Wir bauen das Ganze in dem Format
auf, das wir benötigen, und pushen es dann rein. Wir haben heute schon viel über FeatureRequests gehört. Auf Github haben wir, glaube ich, schon einen Feature-Request gelesen, dass
das irgendwann über das Open-Lille-Format reingehen sollte. Dann könnte man das Ganze
automatisiert reinpushen. Dann bräuchten wir das nicht mehr über unsere Python-Skripte,
wie wir es aktuell machen. Wenn wir uns an diesen Open-Standard halten oder wenn das ins
Produkt wandert, würde das automatisch gehen.

Ist das Python-Skript teilbar?

Selbstverständlich bieten wir unsere Dienstleistungen an, denn wir leben nicht von Luft und
Liebe. Leider nicht. Wenn Interesse besteht, melde dich bei uns. Wir werden uns schon einigen.

Könnt ihr die Logging-Thematik explizit zeigen? Wie shared ihr das projektübergreifend? Ist das eine Konfig oder Pipeline?

Das Logging selbst ist ein GitLab-Repository. Im Logging selbst sind Workflows und Pipelines,
die gesamttechnisch an alle weitergereicht werden. Das heißt, wenn ich jetzt ein anderes
Projekt starte und mir das Logging-Repository herunterhole, dann wäre es so, dass man die
Pipeline nicht mehr raussuchen muss, sondern sie tatsächlich schon automatisch hat. Jedes
neue Projekt muss nur das Metadatenobjekt angeben. Das befindet sich im Logging-Ordner
und man muss sich um nichts mehr kümmern.
In unserem Fall wird dort sofort das Creator Statement gemacht und das gesamte Logging,
also alles, was wir haben möchten, von den Actions etc. wird mit übernommen. Für jedes
neue Projekt muss man eigentlich nur das Metadaten-Objekt angeben. Wenn du kurz auf
„Metadaten” gehst. Beim Logging gerade. Das ist jetzt der grüne Bereich. Genau, und hier
unten beim Workflow-Log haben wir die einzelnen Pipelines. Im Prinzip ist das alles, was
wirklich zu machen ist. Man muss eigentlich nur beim Workflow die Pipeline angeben. Das
muss man leider händisch machen, aber durch das komplette Laden des Projekts gibt man
hier einfach nur noch die Workflows an, an die man loggen möchte. Man muss sich um nichts
mehr kümmern und es ist überall standardisiert.
Es ist also egal, welches Projekt ich nehme. Das war ein riesiger Vorteil, denn früher hatten
wir genau das Problem, dass das Logging in PDI ein bisschen anders funktionierte. Das war
im Job. Soweit ich mich noch erinnern kann, musste man das jedes Mal anpassen, wenn ein
neues Projekt angelegt wurde. Und manchmal vergisst man das einfach. Manchmal vergisst
man einfach, dort ein Häkchen zu setzen, und wundert sich dann: Ach, hier wurde das
gelockt. Da wurde das nicht gelockt. Ich glaube, mittlerweile gibt es 6 oder 7 Projekte, die alle
zeitgleich entwickelt werden. Da wird es sehr mühselig, immer wieder durchzugehen und zu
schauen, ob man alle Häkchen gesetzt hat. Wenn man es einmal gemacht hat, läuft es mehr
oder weniger out of the box. Ich hoffe, das beantwortet deine Frage. Diese Pipeline ist in einem
Submodul enthalten und wird automatisch in jedem Projekt als Submodul eingebunden. Das
heißt, diese Pipeline steht in jedem Projekt zur Verfügung. Ähnlich ist es mit dem WorkflowLog, das ebenfalls für alle Projekte gesichert werden kann.

Besteht die Gefahr, dass DataHub bald kommerziell wird?

Es handelt sich um ein Open-Source-Projekt. Es soll auch weiterhin Open Source bleiben. Es
gibt eine Enterprise-Version davon. Diese ist von Acryldata. Die ist allerdings nur in der Cloud
verfügbar. Was in Zukunft passiert, weiß ich nicht, ich gehe aber davon aus, dass es Open
Source bleibt.

Über it-novum

it-novum ist Teil der börsennotierten Allgeier SE mit 3500 Mitarbeitern und 44 Standorten weltweit. Als führendes IT-Beratungsunternehmen für Business Open Source umfasst das Portfolio Lösungen für Big Data Analytics und IoT.
Wir implementieren kundenindividuelle Lösungen für Datenintegration, Data Analytics und IoT – z.B. für Bundespolizei, Wiener Wohnen, Deutsche See. Dazu nutzen wir führende Technologien, wie von Pentaho, Apache Hop, ThingsBoard oder Jedox.

Über Apache Hop

Apache Hop (Hop Orchestration Platform) ist eine neue Plattform für Data Engineering und Data Orchestration. Hop gibt Datenexperten ein integriertes Tool Set und Best Practices an die Hand, um ihr Datenprojekt selbst umzusetzen.

Teilnehmerinformation

Bitte beachten: Die kostenlose Veranstaltung richtet sich an Fachanwender aus Unternehmen, die sich mit Data Management und IoT beschäftigen. Wenn du Mitarbeiter eines IT-Beratungsunternehmens, Lösungs-, Software- oder Technologieanbieters bist und teilnehmen möchtest, erheben wir eine Teilnehmergebühr von 450€. Nimm zur gebührenpflichtigen Anmeldung bitte Kontakt mit uns auf per E-Mail.

Seitenanfang

Apache Hop User Meetup Vol. 5

Agenda

15 Minuten Pause

Unsere Referenten

Event Impressionen

FAQ zum Webinar (Häufig gestellte Fragen)

Über it-novum

Über Apache Hop

Teilnehmerinformation

Themen

Termine