Datensicherheit und Datenintegrität gehören heute zu den wichtigsten und zugleich schwierigsten Herausforderungen in der Softwareentwicklung. Beides sind auf den ersten Blick nicht unbedingt die attraktivsten Themen, insbesondere aus der Sicht eines Entwicklers. Dennoch haben sie in den vergangenen Jahren durch die Datenschutzgrundverordnung (DSGVO) und ähnliche Verordnungen weltweit an Bedeutung gewonnen. Auch das Aufkommen verschiedener Werkzeuge für Künstliche Intelligenz (KI) wie ChatGPT, Google Bard und andere hat die Diskussionen und Debatten über den Datenschutz in den Mittelpunkt gerückt.
Mehr als je zuvor müssen sich Unternehmen darauf verlassen können, dass Entwicklerteams die wichtigsten Informationen und kritischen Daten in ihren Systemen verarbeiten, leistungsfähig bleiben und keine hohen Kosten verursachen. Außerdem müssen sie sich mit der rasanten Entwicklung von Large Language Models (LLMs) und generativer KI in allen Bereichen von Unternehmensanwendungen auseinandersetzen. Die in diesen Umgebungen und für das maschinelle Lernen verarbeiteten Datenmengen sind so groß, dass das Aufteilen und Replizieren von Datensätzen auf der Grundlage von Nutzungsmustern unmöglich und wirtschaftlich unrentabel wird. Infolgedessen ist das Datenmanagement ein wesentliches integriertes Merkmal.
Darüber hinaus muss für das Training von Machine-Learning-Modellen sichergestellt werden, dass die Daten auf nicht-personenbezogenen oder anonymisierten Daten trainiert werden. Unternehmen wollen nicht, dass mehrere Kopien der gleichen Daten herumliegen. LLMs und Generative KI liefern die besten Ergebnisse, wenn sie auf großen Mengen relevanter Daten trainiert werden. Das bedeutet, dass diese Daten zuverlässig und geschützt abgespeichert sein müssen.
Wie sicher ist sicher?
Eine weitere komplexe Frage dreht sich darum, wie einzelne Benutzer innerhalb gemeinsam genutzter Plattformen voreinander geschützt werden können und wie sichergestellt werden kann, dass sie nur entsprechend ihrer Berechtigungen auf Daten zugreifen können. Das Einfügen, Aktualisieren und Löschen von Daten in den Speichersystemen von Cloud-Anbietern wie Amazon, Microsoft oder Google unterscheidet sich stark vom einfachen Schreiben derselben Daten auf eine lokale Festplatte.
Dies erfordert spezifische Optimierungen bei der Integration mit den Cloud-Anbietern und spezifische Optimierungen des Formats, in dem die Daten geschrieben werden. Eine der Herausforderungen ist der enorme Umfang der zu verarbeitenden Daten, die Integration über alle drei großen Cloud-Anbieter hinweg und die effiziente Aktualisierung und Manipulation kleiner Datenmengen in großen Gesamtspeichermengen.
Berlin als Zentrum
Diese Aspekte berücksichtigen wir bei unserer Arbeit im 2022 eröffneten Büro von Databricks in Berlin. An diesem Standort können wir auf einen breiten Pool von Talenten aus Deutschland, aber auch aus Osteuropa zurückgreifen. Berlin war schon immer ein Schmelztiegel der Kulturen und ist durch seine Lage gut erreichbar. Darüber hinaus ist Berlin mit seinen vielen Universitäten, Hochschulen und Forschungsinstituten ein attraktiver Wissenschaftsstandort. Apache Flink ist ein Beispiel für eine andere Datenverarbeitungs-Engine, die die Erfahrung in der Entwicklung von Datenprojekten zeigt, da sie ursprünglich von Absolventen der TU Berlin entwickelt wurde.
All diese Faktoren helfen uns dabei, die richtigen Leute für unsere Projekte zu finden. Eine der größten Herausforderungen ist es, Entwicklertalente zu finden, die sich sicher in der Schnittmenge von Systems Engineering, Datensicherheit und Datenmanagement in großem Maßstab zurechtfinden. Wichtig ist der Aufbau diverserer Teams und diese zu ermutigen transparent und effektiv untereinander und mit den Kunden zusammenzuarbeiten. Nur so kann es gelingen, die besten Talente zu gewinnen und vor allem von unterschiedlichen Perspektiven zu profitieren.
Martin Grund ist Principal Engineer und Standortleiter für das Berliner Büro beim Software-Unternehmen Databricks