Apache Hop User Meetup Vol. 5

Dieses Event ist leider schon vorbei.

Melde Dich hier zum nรคchsten an

Apache Hop User Meetup Vol. 5

Dieses Event ist leider schon vorbei.

Melde Dich hier zum nรคchsten an

Apache Hop User Meetup Nr. 5 โ€“ ein kleiner Meilenstein.

Das fรผnfte Apache Hop User Meetup zeigte, wie lebendig die Community ist. Es erwarteten dich frische Features, echte Use Cases und viel Austausch mit anderen.ย 

Bart Maertens, PMC im Apache Top-Level Projekt Hop ist wieder dabei. Er berichtet รผber die Entwicklung der letzten Jahre, wo die Software-Entwicklung aktuell steht und auf was wir uns kรผnftig freuen kรถnnen.

Zudem berichten Hop User รผber Einsatzszenarien in ihren Unternehmen und erklรคren, wie sie die Low-Code-Plattform fรผr Data Engineering und Data Orchestration nutzen.

Sven Kรถhler
Sven KรถhlerMaster Data Management Lead
Apache Hop revolutionierte unsere ETL-Prozesse mit einer intuitiven Oberflรคche und leistungsstarken Transformationsmรถglichkeiten. Die Integration verbesserte die Datenqualitรคt und verkรผrzte die Zeit bis zur Analyse erheblich.
Markus Dellinger
Markus Dellinger Enterprise Data Architect
Apache Hop bietet eine modulare, erweiterbare Architektur, die unsere Entwicklungsprozesse stark vereinfacht. Die Plattform lรคsst sich nahtlos in unsere bestehende Infrastruktur integrieren.
Tomislav Novak
Tomislav NovakData Integration Specialist
Apache Hop hat unsere Datenintegrationsprozesse erheblich optimiert und ermรถglicht nahtlose Big-Data-Pipelines รผber verschiedene Systeme hinweg. Die Skalierbarkeit und einfache Handhabung sind besonders beeindruckend.

Agenda

Iโ€™ll start with a quick recap of what happened in the last five years since we’ve been building Apache Hop – from a technical and a community perspective. In the second part, I’ll look at what the future holds for Apache Hop.

Mithilfe von โ€žVibe-Codingโ€œ mit KI-Chatbots und von โ€žNo-Codeโ€œ-Tools mit grafischen Benutzeroberflรคchen wird die Integration und Aufbereitung von Daten zunehmend einfacher. Auch die Geoinformationstechnologie-Branche profitiert davon, in der bisher ein kommerzielles โ€žNo-Codeโ€œ-Produkt den Markt dominiert und Workflows sowie Transformationen speziell fรผr die Geodaten-Verarbeitung bereitstellt. In diesem Beitrag zeigen wir zunรคchst Vibe-Coding-Beispiele. AnschlieรŸend demonstrieren wir anhand von Demos, wie sich die Funktionen von Apache Hop und den bestehenden Plug-ins โ€“ einschlieรŸlich der GIS-Plug-ins von Atol CD โ€“ als Alternative nutzen lassen. Dabei greifen wir auch die Frage auf, wo Hop noch weiteren Bedarf hat, etwa nach zusรคtzlichen Plug-ins oder anderer Open-Source-Software.

15 Minuten Pause

Mit dem SAP Data Connector greifen Sie per ODATA standardisiert und sicher auf SAP Business ByDesign zu. Durch die lesende Anbindung stehen alle relevanten Informationen fรผr Reporting, Analytics und Integrationen in Echtzeit zur Verfรผgung โ€“ ohne den laufenden ERP-Betrieb zu beeinflussen.

Nahtlose Integration fรผr durchgรคngige Prozesse:
Apache Hop verbindet Shopware und PSIpenta zuverlรคssig als Middleware. Bestellungen, Kunden, Adress- und Kontaktdaten werden automatisiert ausgetauscht, sodass E-Commerce und ERP reibungslos zusammenarbeiten. Skalierbar, flexibel und jederzeit erweiterbar.

Nach dem Migrieren mehrerer ETL-Projekte nach Hop stellen wir euch unsere zentrale Architektur vor, die es den Entwicklern ermรถglicht, unterschiedlichste Hop-Projekte samt Environments auf beliebigen Systemen mit minimalem Aufwand zu starten, weiterzuentwickeln, zu versionieren und zu releasen. Wir besprechen pain points, liebgewonnene Hop-Konzepte, Code-/Metadaten-Wiederverwertbarkeit und Testbarkeit.

In diesem Vortrag zeigen wir live, wie dasย Data Lineage Plugin fรผr Apache Hopย unsichtbare Datenflรผsse sichtbar macht und die Ergebnisse inย DataHubย als zentrale Data-Governance-Lรถsung darstellt.ย 

Darรผber hinaus demonstrieren wir, wie sich Large Language Models (LLMs) gezielt einsetzen lassen, um noch schneller wertvolle Erkenntnisse aus den vorhandenen Daten zu gewinnen โ€“ und so Analyse, Entscheidungsfindung und Innovation spรผrbar zu beschleunigen.ย 

Damit werden nicht nur Entwickler bei Analyse und Fehlerbehebung unterstรผtzt โ€“ auch Fachbereiche und Management profitieren von mehr Transparenz, Compliance-Sicherheit und Vertrauen in die Daten.

Unsere Referenten

philip heck anzug rund
Philipp Heck
Head of Pre-Sales & Customer Success
it-novum
Bart Maertens rund
Bart Maertens
Co-founder
Apache Hop
stefan f. keller rund
Stefan Keller
Full Professor fรผr Data Engineering und GISTech
FH OST (Ostschweizer Fachhochschule)
petra stutz rund
Petra Stutz
Wissenschaftliche Mitarbeiterin
Universitรคt Salzburg
andreas korte rund
Andreas Korte
IT-Anwendungsspezialist
Precitec GmbH & Co. KG
tom haupt anzug rund
Tom Haupt
Consultant
it-novum
GerhardMitterlechner rund
Gerhard Mitterlechner
Senior Development Engineer
eurofunk Business Intelligence
sander drazen eurofunk PUM2024
Drazen Sander
Development Engineer
eurofunk Business Intelligence
cedric plachtzik rund
Cedric Plachtzik
Auszubildener als Fachinformatiker fรผr Anwendungsentwicklung
it-novum
philip heck anzug rund
Philipp Heck
Head of Pre-Sales & Customer Success
it-novum
Bart Maertens rund
Bart Maertens
Co-founder
Apache Hop
stefan f. keller rund
Stefan Keller
Full Professor fรผr Data Engineering und GISTech
FH OST (Ostschweizer Fachhochschule)
petra stutz rund
Petra Stutz
Wissenschaftliche Mitarbeiterin
Universitรคt Salzburg
andreas korte rund
Andreas Korte
IT-Anwendungsspezialist
Precitec GmbH & Co. KG
tom haupt anzug rund
Tom Haupt
Consultant
it-novum
GerhardMitterlechner rund
Gerhard Mitterlechner
Senior Development Engineer
eurofunk Business Intelligence
sander drazen eurofunk PUM2024
Drazen Sander
Development Engineer
eurofunk Business Intelligence
cedric plachtzik rund
Cedric Plachtzik
Auszubildener als Fachinformatiker fรผr Anwendungsentwicklung
it-novum

Event Impressionen

FAQ zum Webinar (Hรคufig gestellte Fragen)

Yes, itโ€™s open source. The source code is available. We can integrate almost anything. Metadata
catalogues, data catalogues. I think thatโ€™s the direction weโ€™re heading in, as I mentioned with
regard to data, catalogues and lineage. This applies here as well. There are no Hartsteiners
or unified standards. This makes global, unified metadata integration more difficult from
a technical point of view. But itโ€˜s definitely possible. If you want to discuss it further, get in
touch. Start a GitHub discussion or feature request and we can look at it in more detail.

Iโ€˜d love to! We havenโ€˜t discussed this on GitHub. I think dbt has a more ELT than ETL approach.
However, it would be interesting to explore the possibility of integrating dbt as a workflow
action. We could call dbt functions from a workflow. Itโ€˜s not there yet, but itโ€˜s interesting at
least.

Yes, there is a helm chart available on the download page. There will be more in future. As a
community, I think itโ€˜s fair to say that we are aware of them. Hopefully, the Apache Software
Foundation is a global NGO. They have headquarters in the United States. However, the
Hop developer team is largely European. Digital sovereignty is becoming a popular topic. As
an open-source platform with a large European community, I think thatโ€˜s a good thing. In
addition to the three large cloud providers, weโ€˜ll also look at OVH and Stackit. So, yes, Stackit.
Hetzner, being German, will definitely ensure that I am aware of the deployments in those
cloud environments. However, support will need to improve. If you find a book that is specific
to Stackit, Hetzner or OVH, for example, it will definitely ensure that this is taken care of.

Thatโ€™s one of the things weโ€™ll focus on.

Soap haben wir jetzt in dem Fall nicht benutzt? Wir haben das, wie gesagt, am Anfang. probiert
mit Sub und True Data und haben dann einfach anhand, dass man, eben, um Perodator die
Daten zu parsen bzw. so schรถn auszulรถsen. Aber es war grundsรคtzlich mรถglich, eben ohne
Schmerz auch das Bsdl in eine Abfrage mit reinzupassen. Das haben wir am Anfang probiert,
es hat auch funktioniert. und man kann natรผrlich auch mit Soapdaten abfragen, aber es ist
natรผrlich extrem aufwendiger. Man muss die WSDS entsprechend den Feldlisten anpassen. Die
Freigaben mรผssen da sein, und man bekommt dann auch resultsets raus.

Wie gesagt, wir haben ein Tagungsfeld. Ich glaube, es war โ€žLast Change Daytimeโ€. Da wird ein
Timestamp gesetzt. Das ist der Zeitpunkt, zu dem eine ร„nderung an diesem Datensatz erfolgt
ist. Wir รผbergeben in dem Fall zwei Parameter fรผr Start- und Enddatum. Dadurch erhalten wir
nur in dieser Zeitspanne Daten. Im Backend haben wir eine Datenbank, in der der Job immer
getriggert wird. Er wird also im Intervall gestartet. Er hat einen Status, das heiรŸt, wenn die
Verarbeitung erfolgreich war. Das heiรŸt, wenn der Status โ€žFinishโ€ erreicht ist, ziehen wir uns
den Zeitstempel und setzen ihn beim nรคchsten Lauf als Enddatum bzw. als Startdatum, sodass
wir fortan die Daten in diesem Zeitraum erhalten. Genau, einfach praktisch in einem Delta
Zeitraum, um es mit einfachen Worten zu sagen: Wir schauen uns nur die Daten an.

Ja, wir parsen ganz klassisch รผber ein Python-Skript. Wir bauen das Ganze in dem Format
auf, das wir benรถtigen, und pushen es dann rein. Wir haben heute schon viel รผber FeatureRequests gehรถrt. Auf Github haben wir, glaube ich, schon einen Feature-Request gelesen, dass
das irgendwann รผber das Open-Lille-Format reingehen sollte. Dann kรถnnte man das Ganze
automatisiert reinpushen. Dann brรคuchten wir das nicht mehr รผber unsere Python-Skripte,
wie wir es aktuell machen. Wenn wir uns an diesen Open-Standard halten oder wenn das ins
Produkt wandert, wรผrde das automatisch gehen.

Selbstverstรคndlich bieten wir unsere Dienstleistungen an, denn wir leben nicht von Luft und
Liebe. Leider nicht. Wenn Interesse besteht, melde dich bei uns. Wir werden uns schon einigen.

Das Logging selbst ist ein GitLab-Repository. Im Logging selbst sind Workflows und Pipelines,
die gesamttechnisch an alle weitergereicht werden. Das heiรŸt, wenn ich jetzt ein anderes
Projekt starte und mir das Logging-Repository herunterhole, dann wรคre es so, dass man die
Pipeline nicht mehr raussuchen muss, sondern sie tatsรคchlich schon automatisch hat. Jedes
neue Projekt muss nur das Metadatenobjekt angeben. Das befindet sich im Logging-Ordner
und man muss sich um nichts mehr kรผmmern.
In unserem Fall wird dort sofort das Creator Statement gemacht und das gesamte Logging,
also alles, was wir haben mรถchten, von den Actions etc. wird mit รผbernommen. Fรผr jedes
neue Projekt muss man eigentlich nur das Metadaten-Objekt angeben. Wenn du kurz auf
โ€žMetadatenโ€ gehst. Beim Logging gerade. Das ist jetzt der grรผne Bereich. Genau, und hier
unten beim Workflow-Log haben wir die einzelnen Pipelines. Im Prinzip ist das alles, was
wirklich zu machen ist. Man muss eigentlich nur beim Workflow die Pipeline angeben. Das
muss man leider hรคndisch machen, aber durch das komplette Laden des Projekts gibt man
hier einfach nur noch die Workflows an, an die man loggen mรถchte. Man muss sich um nichts
mehr kรผmmern und es ist รผberall standardisiert.
Es ist also egal, welches Projekt ich nehme. Das war ein riesiger Vorteil, denn frรผher hatten
wir genau das Problem, dass das Logging in PDI ein bisschen anders funktionierte. Das war
im Job. Soweit ich mich noch erinnern kann, musste man das jedes Mal anpassen, wenn ein
neues Projekt angelegt wurde. Und manchmal vergisst man das einfach. Manchmal vergisst
man einfach, dort ein Hรคkchen zu setzen, und wundert sich dann: Ach, hier wurde das
gelockt. Da wurde das nicht gelockt. Ich glaube, mittlerweile gibt es 6 oder 7 Projekte, die alle
zeitgleich entwickelt werden. Da wird es sehr mรผhselig, immer wieder durchzugehen und zu
schauen, ob man alle Hรคkchen gesetzt hat. Wenn man es einmal gemacht hat, lรคuft es mehr
oder weniger out of the box. Ich hoffe, das beantwortet deine Frage. Diese Pipeline ist in einem
Submodul enthalten und wird automatisch in jedem Projekt als Submodul eingebunden. Das
heiรŸt, diese Pipeline steht in jedem Projekt zur Verfรผgung. ร„hnlich ist es mit dem WorkflowLog, das ebenfalls fรผr alle Projekte gesichert werden kann.

Es handelt sich um ein Open-Source-Projekt. Es soll auch weiterhin Open Source bleiben. Es
gibt eine Enterprise-Version davon. Diese ist von Acryldata. Die ist allerdings nur in der Cloud
verfรผgbar. Was in Zukunft passiert, weiรŸ ich nicht, ich gehe aber davon aus, dass es Open
Source bleibt.

รœber it-novum

it-novum ist Teil der bรถrsennotierten Allgeier SE mit 3500 Mitarbeitern und 44 Standorten weltweit. Als fรผhrendes IT-Beratungsunternehmen fรผr Business Open Source umfasst das Portfolio Lรถsungen fรผr Big Data Analytics und IoT.
Wir implementieren kundenindividuelle Lรถsungen fรผr Datenintegration, Data Analytics und IoT โ€“ z.B. fรผr Bundespolizei, Wiener Wohnen, Deutsche See. Dazu nutzen wir fรผhrende Technologien, wie von Pentaho, Apache Hop, ThingsBoard oder Jedox.

รœber Apache Hop

Apache Hop (Hop Orchestration Platform) ist eine neue Plattform fรผr Data Engineering und Data Orchestration. Hop gibt Datenexperten ein integriertes Tool Set und Best Practices an die Hand, um ihr Datenprojekt selbst umzusetzen.

Teilnehmerinformation

Bitte beachten: Die kostenlose Veranstaltung richtet sich an Fachanwender aus Unternehmen, die sich mit Data Management und IoT beschรคftigen. Wenn du Mitarbeiter eines IT-Beratungsunternehmens, Lรถsungs-, Software- oder Technologieanbieters bist und teilnehmen mรถchtest, erheben wir eine Teilnehmergebรผhr von 450โ‚ฌ. Nimm zur gebรผhrenpflichtigen Anmeldung bitte Kontakt mit uns auf per E-Mail.