Auf die Datenschnittstelle kommt es an!

Auch in den Arbeitsfeldern der Sozialen Arbeit werden mit Computerprogrammen Daten verarbeitet oder erfasst. Beispiel hierfür ist die Software für die Dokumentation oder zur Verwaltung der Nutzer:innen der Angebote. Wird eine neue Software in Organisationen der Sozialen Arbeit und Sozialwirtschaft ausgewählt, sollte vor allem der Blick auf die Datenschnittstellen der Programme gelegt werden.

Inhaltsverzeichnis des Beitrags Verbergen

1 Welche Software sollten wir nutzen?

2 Datenintegration und Interoperabilität

3 Arten von Schnittstellen

3.1 Datenbanken

3.2 APIs

3.3 Dateien: CSV und JSON

4 Vorteile von Datenschnittstellen

4.1 Abbau von Abhängigkeiten

4.2 Aufbau von Daten-Pipelines

5 Exkurs: Datenbestände zusammenführen in Datenkatalogen

6 Fazit

7 Literatur

Welche Software sollten wir nutzen?

In der Arbeit in sozialen Organisationen muss immer wieder über mögliche Softwarelösungen entschieden werden. Sei es zur Dokumentation, zur Verwaltung von Nutzer:innen und Klient:innen oder um Mitglieder und Adressen zu verwalten. Diese Beispiele zeigen, dass in der täglichen Arbeit durch Softwarenutzung sehr viele Daten erfasst und verarbeitet werden.

Ist man auf der Suche nach einer neuen Softwarelösung für einen bestimmten Anwendungsfall, ist man häufig mit einem großen Angebot an verschiedenen Lösungen konfrontiert. Bei der Auswahl von Software gibt es viele Kriterien, die betrachtet werden sollen. Am Anfang stellt sich evtl. auch die grundsätzliche Frage, ob man eher auf Open-Source-Lösungen setzt oder auf proprietäre Software.

In Zeiten, in denen es immer wichtiger wird, Daten auch im täglichen Handeln und Entscheiden zu berücksichtigen, sollte ein Kriterium bei der Auswahl der Software zentral im Vordergrund stehen: Bietet meine Software eine Datenschnittstelle? Damit ist die Frage adressiert, ob ich die Rohdaten, die ich erfasst habe, auch ohne die eigentliche Software nutzen und weiterverarbeiten kann.

Datenintegration und Interoperabilität

Datenschnittstellen sind zentral, da damit sichergestellt werden kann, dass Daten aus unterschiedlichen Systemen integriert werden. Diesen Teilbereich beschreibt man auch mit dem Fachbegriff Interoperabilität:

Interoperabilität „beschreibt, wie verschiedene Technologien oder Systeme miteinander verbunden werden, Informationen austauschen und interagieren“.
Reis & Housley, 2023, S. 157

Es zeigt sich, dass die Themen Datenintegration und Interoperabilität immer wichtiger werden. Dies ist sicherlich auch darauf zurückzuführen, dass immer mehr spezialisierte Software genutzt wird und hier unterschiedliche Daten erfasst werden. Gleichzeitig möchte man oft Daten aus verschiedenen Systemen zusammen auswerten und in Datenprodukten berücksichtigen.

Im Daten-Framework für die Soziale Arbeit und Sozialwirtschaft ist die Datenintegration und Interoperabilität in den Umsetzungsbereichen Organisation und IT angesiedelt. Zum einen müssen die genutzten IT-Systeme und Programme eine Interoperabilität ermöglichen. Zum anderen müssen aber für die Datenintegration auch klare Prozesse definiert werden.

Arten von Schnittstellen

Eine Interoperabilität kann man durch Datenschnittstellen herstellen. Hierbei können u.a. folgende Schnittstellen berücksichtigt werden (Navarro Bullock, 2023, S. 68):

Datenbanken
APIs
Dateien

Die verschiedenen Schnittstellen unterscheiden sich darin, wie die Rohdaten zur Verfügung gestellt werden können. Zum Teil kann über die Schnittstellen direkt auf die Daten zugegriffen werden (z. B. über Datenbanken und APIs) oder die Daten müssen zuvor exportiert werden. Dies ist bei einem Austausch über Dateien häufig der Fall.

Datenbanken

Werden die Daten von einer Software in einer Datenbank gespeichert, sollte geklärt werden, ob ein direkter Zugriff auf die Datenbank möglich ist. Ist dies der Fall, kann hierüber sehr einfach auf die Daten zugegriffen werden. Hierbei können relationale Datenbanken (z. B. MySQL, PostgresSQL) zum Einsatz kommen, aber auch sogenannte NoSQL-Datenbanken (z. B. MongoDB). Letztere haben den Vorteil, dass Daten in flexibleren Schemas gespeichert werden können.

APIs

Viele Programme stellen eine Datenschnittstelle über sogenannte APIs zur Verfügung. API ist die Abkürzung für Application Programming Interface. Diese stellt verschiedene Befehle und Funktionen zur Verfügung, mit denen verschiedene Systeme miteinander interagieren und kommunizieren können. Über solche APIs können dann unter anderem die Rohdaten aus einem Programm abgerufen werden.

Hier im Blog habe ich beschrieben, wie man mit der Statistiksoftware R auf die API der Befragungssoftware Limesurvey zugreifen kann. Wer mit LamaPoll als Befragungssoftware arbeitet, kann auch ein Blick auf mein R-Paket für die LamaPoll-API werfen.

Dateien: CSV und JSON

Der Datenzugriff über eine Datenbank oder einer API hat den Vorteil, dass hierdurch ein automatisierter Zugriff erfolgen kann. Eine weitere Möglichkeit Rohdaten aus einer Software zur Verfügung zu stellen, ist der Export der Rohdaten in eine Datei.

Die zwei gängigsten Dateiformate sind hier CSV und JSON. Das CSV-Format steht für Comma-seperated values und ist eine Textdatei, in der die Daten gespeichert werden. Wie der Name schon beschreibt, werden die einzelnen Werte durch Kommas (oder manchmal auch durch Semikolons) getrennt. CSV-Dateien können in den meisten Analyseprogrammen ohne Probleme importiert werden, was ein Vorteil dieses Formats ist.

Neben dem CSV-Format wird häufig zum Datenaustausch auch das sogenannte JSON-Format verwendet. JSON steht für JavaScript Object Notation. Auch eine Datei im JSON-Format ist eine Textdatei, die man mit einem entsprechenden Editor öffnen kann. Der Vorteil des JSON-Formates ist, dass es sowohl für den Menschen als auch für eine Maschine leicht lesbar ist.

Um die Rohdaten in Dateien mit den dargestellten Formaten zu speichern, muss aber häufig in einem ersten Schritt ein Datenexport angestoßen werden. Hierbei sollte man bei der Softwareauswahl prüfen, ob dies immer manuell erfolgen muss oder ob man den Export auch automatisieren kann. Auch sollte geprüft werden, welche Dateiformate beim Export unterstützt werden.

Vorteile von Datenschnittstellen

Nachdem wir verschiedene Arten von Datenschnittstellen betrachtet haben, sollen noch einmal die zwei zentralen Vorteile von Datenschnittstellen näher beleuchtet werden.

Abbau von Abhängigkeiten

Wenn man Datenschnittstellen nutzen kann, kann man Abhängigkeiten abbauen. Durch den direkten Zugriff auf die Daten ist man als Organisation weniger von der Software und dem Hersteller abhängig.

Kann nicht auf die Rohdaten zugegriffen werden, kann ich die erfassten Daten nur in der jeweiligen Software bearbeiten und analysieren. Man ist dadurch auf die Möglichkeiten der Software angewiesen. Müssen die Daten in einer besonderen Form oder nach bestimmten Vorgaben ausgewertet werden, muss dies oft aufwendig in die jeweilige Software integriert werden, was dann wiederum zusätzliche Kosten verursacht.

Hat man dagegen einen Zugriff auf die verarbeiteten Daten, kann man diese in einen Daten-Workflow einbinden und individuelle Auswertungen mit diesen Daten ohne Probleme erstellen.

Aufbau von Daten-Pipelines

Damit kommen wir auch zu dem zentralen Vorteil von Datenschnittstellen: der Aufbau von Daten-Pipelines. Eine Daten-Pipeline vereint verschiedene Schritte, um Daten zu sammeln, aufzubereiten und zu speichern bzw. für weitere Analysen und Datenprodukte zur Verfügung zu stellen (Navarro Bullock, 2023, S. 64 f.; Reis & Housley, 2023, S. 286 f.). Manchmal werden Daten-Pipelines auch als ETL-Pipelines oder ETL-Workflow beschrieben. ETL steht hierbei für Extract Transform Load. Der Vorteil einer solchen Pipeline ist, dass diese automatisiert werden kann. Und für diese Automatisierung ist die Datenschnittstelle einer Software zentral, um die Daten aus diesem Programm zu sammeln. Durch den Aufbau von Daten-Pipelines kann man sicherstellen, dass wir die benötigten Daten automatisch sammeln, aufbereiten und sie dann Datenprodukten zur Verfügung stellen.

Exkurs: Datenbestände zusammenführen in Datenkatalogen

Durch die Verwendung von verschiedenen Softwarelösungen ist es in Organisationen häufig so, dass Daten in ganz unterschiedlichen Programmen erfasst und gesammelt werden. Daher ist es umso wichtiger, einen Überblick über die verschiedenen zur Verfügung stehenden Datenquellen zu erhalten. Eine Möglichkeit ist hier der Aufbau eines Datenkataloges.

In einem Datenkatalog werden die zur Verfügung stehende Daten und Datensätze mit sogenannten Metadaten näher beschrieben. Hier kann hinterlegt werden, welche Daten gespeichert werden, aber auch wer für diese zuständig ist und wie oft die Daten aktualisiert werden.

Einen Datenkatalog kann man am Anfang im kleinen Aufbauen, z. B. mit einer Excel-Tabelle, die für alle Mitarbeitenden zugänglich ist. Bei größeren Datenbeständen lohnen sich aber auch spezielle Lösungen wie CKAN, DataHub oder Amundsen. Über eine Datenschnittstelle kann man dann die Datenkataloge auch an die entsprechenden Datenquellen anbinden und man bekommt somit immer den aktuellen Datenbestand angezeigt.

Fazit

Das Fazit des Blog-Beitrags stand schon in der Überschrift „Auf die Datenschnittstelle kommt es an!“. Wenn man in einer Organisation vor der Aufgabe steht neue Software einzuführen, sollte bei der Auswahl immer darauf geachtet werden, dass man die Rohdaten, die das Programm verarbeiten, zugänglich sind und über eine Datenschnittstelle genutzt werden kann.

Denn nur so kann man automatisierte Prozesse aufbauen und damit einfacher Datenprodukte zur Verfügung stellen, die dann auch ein dateninformiertes Handeln ermöglichen und unterstützen. Daher sollte bei der Ausschreibung oder Auswahl von Software die Datenschnittstelle bzw. die Interoperabilität immer als K.-o.-Kriterium formuliert sein und Produkte, die dies nicht bieten, ausgeschlossen werden. Idealerweise sollte der Zugriff auf die Daten direkt über die Datenbank oder mithilfe einer API erfolgen.

Wenn Sie vor der Aufgabe stehen Datenprozesse in Ihrer Organisation aufzubauen und eine Beratung und externe Begleitung benötigen, können Sie gerne mit mir Kontakt aufnehmen. Im Rahmen meiner Tätigkeit am Kompetenzzentrum Wirkungsorientierung in der Sozialen Arbeit am Institut für Praxisforschung und Evaluation der Evangelischen Hochschule begleiten wir gerne bei der Implementierung von Prozessen des dateninformierten Handelns und beim Aufbau einer Datenkultur.

Literatur

Navarro Bullock, B. (2023). Daten sammeln, aufbereiten und speichern. In M. Lang (Hrsg.), Datenkompetenz. Daten erfolgreich nutzen. (1. Auflage, S. 63–84). München: Hanser.
Reis, J. & Housley, M. (2023). Handbuch data engineering: robuste Datensysteme planen und erstellen. (H. Schock, Übers.) (1. Auflage, Deutsche Ausgabe.). Heidelberg: O’Reilly.

Sebastian Ottmann

Ich arbeite als wissenschaftlicher Mitarbeiter am Institut für Praxisforschung und Evaluation der Evangelischen Hochschule Nürnberg und leite dort das Kompetenzzentrum Wirkungsorientierung in der Sozialen Arbeit. Ich begleite soziale Organisation bei der Implementierung von wirkungsorientierten Arbeitsweisen und dateninformierten Handeln. Zu meinen weiteren Arbeitsschwerpunkten gehört die Durchführung von Wirkungsanalysen und Evaluation mit empirisch-quantitativem Schwerpunkt. Seit mehreren Jahren beschäftige ich mit den Themen Wirkungsorientierung, Wirkungen Sozialer Arbeit, Datenanalyse, Machine Learning, Data Science und dem Aufbau von Datenkompetenz in Organisationen. Und statistische Auswertungen mache ich am liebsten in R und Python 😉 Mehr Informationen zu meiner Person findet man auf meiner Homepage.

Gleich weiterlesen...

Auf die Datenschnittstelle kommt es an!

Welche Software sollten wir nutzen?

Datenintegration und Interoperabilität