Fast alle Unternehmen sind durch verschiedene Gesetze, Regulatorien oder interne und externe Audits zu einer Datenklassifizierung, Beschreibung der Verarbeitungsprozesse und der Ermittlung des Schutzbedarf von Daten gezwungen. Weiterhin kommen durch diverse Gesetze und Verordnungen zusätzlich Auskunftspflichten (z.Bsp. GDPR, DSGVO) hinzu.
Im Vorgehen ist es den Unternehmen meistens freigestellt, wie diese den Schutzbedarf der Daten und die Umsetzung des Datenschutzes durchführen. Je nach eingesetzten Systemen, Anwendungssoftware und IT-Infrastruktur gibt es aus unserer Erfahrung die folgenden Möglichkeiten:
Lösungen der Softwarehersteller von ERP-/CRM-Systemen
Die ERP-/CRM-Systeme sind typischerweise die Anwendungen, die direkte und indirekte Kundendaten, Personaldaten der Mitarbeiter, Finanzdaten des Unternehmens und andere wichtige Daten mit einem Schutzbedarf verarbeiten.
Sofern die Hersteller gesetzliche und regulatorische Anforderungen in die Anwendungssoftware integrieren, sind Unternehmen für IT-Audits im Bereich Datenschutz meistens schon mal gut vorbereitet. Schwieriger wird es, wenn neben den ERP-/CRM-System noch Eigenentwicklungen, wie beispielsweise ein Datawarehouse (DWH), existieren und Kundendaten dort auch abgespeichert werden.
Diese Kombinationen der Anwendungslandschaft und IT-Infrastukturen findet sich in vielen Unternehmen, da nicht alle Anwendungen zu jeder Zeit standardisiert sind und zeitnah alle Regulatorien und Gesetze abdecken. Auch bei vollständigem Einsatz von Standardsoftware sind die Unternehmen jedoch gefordert, ein Verzeichnis der Verarbeitungsprozesse von Kundendaten aufzubauen und aktuell zu halten.
Datenklassifizierung auf Basis von Metadaten oder Dateitypen
Eine weitere Möglichkeit der Datenklassifizierung ist die Abfrage und Analyse der Metadaten (Tabellennamen und Spaltennamen) im Data Dictionary oder Data Repository einer SQL-Datenbank. Jede SQL-Datenbank hat ein internes Dictionary mit der Beschreibung der Tabellen, Spalten und Datentypen. Diese kann für eine Datenklassifikation sehr gut verwendet werden.
Eine schnelle und einfache Möglichkeit, potentielle Kundendaten zu finden, wäre die SQL-Abfrage nach Tabellen- oder Spaltennamen in mehreren Sprachen, beispielsweise Namen wie %CUSTOMER%, %KUNDEN%, %KONTAKT%, %PARTNER% oder %CLIENT%. Für personenbezogene Daten eignen sich auf Kombinationen wie ein Vorname in Kombination mit einem Geburtstag: %FIRSTNAME%, %VORNAME%, %BIRTH%, %GEBURT%.
In unserer toolbasierten Lösung und Software für Datenklassifizierung bieten wir mehr als 1000 unterschiedliche Merkmale in mehr als 50 Datenkategorien und aktuell drei Sprachen an.
Datenidentifizierung anhand von Datenmuster und Datensätzen
Neben der Datenklassifizierung anhand von Metadaten gibt es auch Datenscans, die Daten nach Muster identifizieren und klassifizieren. Typische Beispiele sind Kreditkartennummern, Überweisungsdaten, Bankdaten, Sozialversicherungsnummer, Ausweisnummern, EAN-Artikelnummern oder Telefonnummern.
Basis dieses Datenmatching sind vordefinierte Formate, Längen und der Einsatz von Prüfziffern. Dieses Datenmatching kann sowohl für erstmalige Datenklassifikationen als auch für das laufende Monitoring innerhalb eines Netzwerks verwendet werden. Typischerweise arbeiten DLP-Systeme nach dem Prinzip Datenmatching.
Festlegung und Umsetzung Schutzbedarf
Nach der erfolgreichen Datenidentifikation und Datenklassifikation muss der Schutzbedarf (Verschlüsselung, Maskierung und Datenanonymisierung) je Datenkategorie bestimmt werden. Beispielweise sind Kreditkartendaten gemäss PCI/DSS stets auf allen Ebenen zu verschlüsseln.
Oft wird bei diesem Vorgehen aber nicht der komplette Lebenszyklus von Daten angesehen und Fragen wie Clonen, Exporte, Backup, Schnittstellen zu Reporting-/DWH-Systemen oder externen Schnittstellen gerne zurückgestellt und erstmal das System oder Anwendung geschützt, die diese Daten vorrangig oder erstmalig verarbeitet.
Einsatz von Software für Maskierung und Verschlüsselung von Daten
Mit GDPR (General Data Protection Regulation) auf europäischer Ebene und der Umsetzung der DSGVO (Datenschutzgrundverordnung) in Deutschland haben sich Anbieter von Software etabliert, die hierzu schnelle Lösungen anbieten. Dazu gehören vor allen Software für Datenmaskierung und Datenverschlüsselung.
Diese Anbieter installieren meistens Agenten in einem Netzwerk und werden rulebasiert parametrisiert, Daten bei bestimmten Zugriffskombinationen zu maskieren oder zu verschlüsseln. Als eine schnelle Lösung ist dies sicher möglich, unserer Meinung nach stellt diese Art der Umsetzung des Schutzbedarfs ein hohes Risiko dar! Diese neue Zwischenschicht muss wiederum abgesichert, geprüft und operativ überwacht werden. Zudem kann nicht garantiert werden, alle möglichen Datenzugriffe (aktuell und in Zukunft) erfasst und richtig parametrisiert zu haben.
Nutzung Clouddienste und Anbieter mit vollständigen Lösungen
Eine etwas andere Variante ist, die o.g. Themen und Probleme mit einer ganzheitlichen Lösung umzusetzen. Beispielsweise gibt es Cloudanbieter, die grundsätzlich alle Daten wie sehr vertrauliche Daten schützen und verschlüsseln. Damit entfallen die Aufwände für eine Datenklassifizierung und unterschiedliche Schutzmassnahmen.
Unternehmen haben damit sicherlich erstmal den Vorteil, dass die zentrale Datenhaltung verschlüsselt und nach höchsten Standards abgesichert ist, müssen aber dennoch darauf achten, dass die Daten nicht auf lokalen Clients oder externen Clouds exportiert werden.
Viele Unternehmen benötigen für Entwicklungs-, Schulungs- und Testsysteme Testdaten oder anonymisierte Daten. Je nach Anforderung müssen diese Daten sinnvolle Daten beinhalten, zum Beispiel reale Vornamen, Nachnamen oder Rechtsformen. Je nach Testszenario können auch Dummydaten erzeugt und verwendet werden.
Wer heute nach Lösungen zur Erstellung oder Verwendung von Testdaten sucht, hat grundsätzlich die folgenden Möglichkeiten diese zu erzeugen oder herzustellen:
Vor- und Nachteile der verschiedenen Verfahren:
Manuelle Eingabe von Testdaten
Dieses Vorgehen ist sehr aufwendig und wird oft aus Kostengründen an Praktikanten, Auszubildende oder Berufsanfängern vergeben. Im Ergebnis erreicht man, dass die Personen, die zu solchen Eingaben „gezwungen“ worden sind, sehr schnell erkennen, dass die kreative Dateneingaben schnell auf ein geistiges Limit treffen.
Am Ende sind Daten von Freunden, Verwandten und Bekannten, Echtdaten aus Telefonbüchern, oder Mitgliederlisten aus öffentlich zugänglichen Quellen erfasst. Zudem erfolgt eine Vermischung von Realnamen mit Dummynamen sowie verschiedenen Sprachen und Geogebieten.
Diese Testdaten sind für spätere Demosysteme oder Schulungssysteme für Kunden nicht brauchbar oder präsentierbar. Der einzige Vorteil dieses Vorgehens ist, dass die Mitarbeiter über die manuellen Dateneingaben das System sehr gut kennenlernen.
Demodaten vom Softwarehersteller
Demodaten werden seitens vieler Softwarehersteller ausgeliefert. Der Vorteil liegt in der Zeitersparnis. Nachteilig ist, dass diese Daten ggf. branchenfremd sind oder tatsächlich Echtdaten beinhalten. Je nach Datenvolumen können diese niemals komplett geprüft und die Sicherheit gegeben werden, dass diese nicht gegen Datenschutzbestimmungen verstossen.
Ebenso sind Demodaten von Softwarehersteller ideale Daten. Ideale Daten bedeutet, dass diese Datensätze valide im Sinne von Formaten, Längen, Zeichensätzen, Strukturen und Datentypen sind. Oftmals werden diese Daten über Schnittstellen (APIs) eingelesen und sind möglicherweise nicht mit manuellen Eingaben über das Anwender-GUI identisch.
Nutzung von Testdatengeneratoren
Im Internet gibt es eine Vielzahl von kostenloser Software für Testdatengeneratoren, Möglichkeiten des Downloads von Daten aus Testdatengeneratoren sowie einige spezialisierte kommerzielle Anbieter.
Bis auf die spezialisierten kommerziellen Anbieter wissen Sie eigentlich nicht, ob die generierten Daten aus kostenlosen Downloads oder Generatoren wirklich 100% Testdaten sind und nicht doch Echtdaten beinhalten.
Ebenso sind notwendige Verteilungsmuster oder Statistiken über Minimal-/Maximalwerte, Anzahl Ausprägungen von Spalten, Kardinalitäten usw. nicht oder nicht sofort ersichtlich. Der Zusatzaufwand beim Einsatz eines kostenlosen Tools für Testdaten sind nicht zu unterschätzen:
Sehr gerne wird im Bereich DevOps oder DevSecOps auf diverse Frameworks der gängigen Programmiersprachen verwiesen, die diese Methoden beinhalten und für alle Testfälle problemlos E2E-Tests garantieren. Für reine Entwicklungstätigkeiten mit diesen Dummydaten ist dies ein sinnvolles Vorgehen. Eine Anwendung mit Dummydaten bei Kunden oder Schulungen zu präsentieren, wird aber keinen guten Eindruck hinterlassen.
Kauf und Download von synthetischen Testdaten
Eine Alternative zwischen der Erstellung der Testdaten durch manuelle Eingaben oder Testdatengeneratoren ist der Kauf von vorgenerierten synthetischen Testdaten. Typischerweise sind diese für Stammdaten von ERP-, CRM-, DWH oder DMS-Systemen verfügbar.
Unser Unternehmen bietet diese für folgende Daten an:
Unsere Angebote für Testdaten beinhalten folgende Merkmale:
Geeignet sind unsere Testdaten insbesondere für Stammdaten, Grunddaten, Testdaten, Demodaten, Schulungsdaten, Zufallsdaten, Unternehmen, Geschäftspartner, Kunden, Lieferanten, Kundenstamm, Kundenstammdaten, Lieferantenstamm, Lieferantenstammdaten, Mitarbeiter, Mitarbeiterstamm, Mitarbeiterstammdaten, Personen und Adressen.
Klonen von Datenbanken und Anonymisierung von Daten
Das Klonen von Produktionsdatenbanken und die Anonymisierung von Daten in sogenannten After-Clone oder Masking-Skripten ist bei vielen Unternehmen weit verbreitet und wird oft als Lösung angesehen, die laut Compliance den Datenschutzrichtlinien entsprechen. Leider zeigt sich in der Praxis, dass die Auditoren sich nicht die Mühe gemacht haben, diese Skripte mal genauer anzusehen.
Damit dies funktioniert, muss garantiert werden, dass das Masking oder After-Clone Skript so aufgesetzt ist, dass nicht durch statistische Methoden auf den Ursprungswert geschlossen werden kann. Zudem setzt der Einsatz voraus, dass die Anwendung und Datenstrukturen sehr gut bekannt sind.
Beispiele für fehlerhaftes Masking und After Clone Skripte:
Willkommen beim Blog auf database-security.de. Hier erscheinen Beiträge zu Themen rund um die Sicherheit von Daten und Datenbanken, Testergebnisse von Software für Auditing und Monitoring von Datenbanken sowie allgemeine Informationen über News und Trends im Bereich Datensicherheit. Gastautoren und Experten können gerne zu diesen Themen hier ebenfalls publizieren.
Unsere Schwerpunkte: