Kategorien-Archiv Daten und Prozesse

VonDatabase Security

Software und Lösungen zur Datenklassifizierung

Fast alle Unternehmen sind durch verschiedene Gesetze, Regulatorien oder interne und externe Audits zu einer Datenklassifizierung, Beschreibung der Verarbeitungsprozesse und der Ermittlung des Schutzbedarf von Daten gezwungen. Weiterhin kommen durch diverse Gesetze und Verordnungen zusätzlich Auskunftspflichten (z.Bsp. GDPR, DSGVO) hinzu.

Im Vorgehen ist es den Unternehmen meistens freigestellt, wie diese den Schutzbedarf der Daten und die Umsetzung des Datenschutzes durchführen. Je nach eingesetzten Systemen, Anwendungssoftware und IT-Infrastruktur gibt es aus unserer Erfahrung die folgenden Möglichkeiten:

  • Hersteller der Software von ERP-/CRM-Systemen bieten Lösungen
  • Datenklassifizierung auf Basis von Metadaten oder Dateitypen
  • Datenidentifizierung anhand von Datenmuster und Datensätzen
  • Festlegung und Umsetzung Schutzbedarf (z.Bsp.: Verschlüsselung)
  • Einsatz von Software für Maskierung und Verschlüsselung von Daten
  • Nutzung Clouddienste und Anbieter mit vollständigen Lösungen

Lösungen der Softwarehersteller von ERP-/CRM-Systemen

Die ERP-/CRM-Systeme sind typischerweise die Anwendungen, die direkte und indirekte Kundendaten, Personaldaten der Mitarbeiter, Finanzdaten des Unternehmens und andere wichtige Daten mit einem Schutzbedarf verarbeiten.

Sofern die Hersteller gesetzliche und regulatorische Anforderungen in die Anwendungssoftware integrieren, sind Unternehmen für IT-Audits im Bereich Datenschutz meistens schon mal gut vorbereitet. Schwieriger wird es, wenn neben den ERP-/CRM-System noch Eigenentwicklungen, wie beispielsweise ein Datawarehouse (DWH), existieren und Kundendaten dort auch abgespeichert werden.

Diese Kombinationen der Anwendungslandschaft und IT-Infrastukturen findet sich in vielen Unternehmen, da nicht alle Anwendungen zu jeder Zeit standardisiert sind und zeitnah alle Regulatorien und Gesetze abdecken. Auch bei vollständigem Einsatz von Standardsoftware sind die Unternehmen jedoch gefordert, ein Verzeichnis der Verarbeitungsprozesse von Kundendaten aufzubauen und aktuell zu halten.

Datenklassifizierung auf Basis von Metadaten oder Dateitypen

Eine weitere Möglichkeit der Datenklassifizierung ist die Abfrage und Analyse der Metadaten (Tabellennamen und Spaltennamen) im Data Dictionary oder Data Repository einer SQL-Datenbank. Jede SQL-Datenbank hat ein internes Dictionary mit der Beschreibung der Tabellen, Spalten und Datentypen. Diese kann für eine Datenklassifikation sehr gut verwendet werden.

Eine schnelle und einfache Möglichkeit, potentielle Kundendaten zu finden, wäre die SQL-Abfrage nach Tabellen- oder Spaltennamen in mehreren Sprachen, beispielsweise Namen wie %CUSTOMER%, %KUNDEN%, %KONTAKT%, %PARTNER% oder %CLIENT%. Für personenbezogene Daten eignen sich auf Kombinationen wie ein Vorname in Kombination mit einem Geburtstag: %FIRSTNAME%, %VORNAME%, %BIRTH%, %GEBURT%.

In unserer toolbasierten Lösung und Software für Datenklassifizierung bieten wir mehr als 1000 unterschiedliche Merkmale in mehr als 50 Datenkategorien und aktuell drei Sprachen an.

Datenidentifizierung anhand von Datenmuster und Datensätzen

Neben der Datenklassifizierung anhand von Metadaten gibt es auch Datenscans, die Daten nach Muster identifizieren und klassifizieren. Typische Beispiele sind Kreditkartennummern, Überweisungsdaten, Bankdaten, Sozialversicherungsnummer, Ausweisnummern, EAN-Artikelnummern oder Telefonnummern.

Basis dieses Datenmatching sind vordefinierte Formate, Längen und der Einsatz von Prüfziffern. Dieses Datenmatching kann sowohl für erstmalige Datenklassifikationen als auch für das laufende Monitoring innerhalb eines Netzwerks verwendet werden. Typischerweise arbeiten DLP-Systeme nach dem Prinzip Datenmatching.

Festlegung und Umsetzung Schutzbedarf

Nach der erfolgreichen Datenidentifikation und Datenklassifikation muss der Schutzbedarf (Verschlüsselung, Maskierung und Datenanonymisierung) je Datenkategorie bestimmt werden. Beispielweise sind Kreditkartendaten gemäss PCI/DSS stets auf allen Ebenen zu verschlüsseln.

Oft wird bei diesem Vorgehen aber nicht der komplette Lebenszyklus von Daten angesehen und Fragen wie Clonen, Exporte, Backup, Schnittstellen zu Reporting-/DWH-Systemen oder externen Schnittstellen gerne zurückgestellt und erstmal das System oder Anwendung geschützt, die diese Daten vorrangig oder erstmalig verarbeitet.

Einsatz von Software für Maskierung und Verschlüsselung von Daten

Mit GDPR (General Data Protection Regulation) auf europäischer Ebene und der Umsetzung der DSGVO (Datenschutzgrundverordnung) in Deutschland haben sich Anbieter von Software etabliert, die hierzu schnelle Lösungen anbieten. Dazu gehören vor allen Software für Datenmaskierung und Datenverschlüsselung.

Diese Anbieter installieren meistens Agenten in einem Netzwerk und werden rulebasiert parametrisiert, Daten bei bestimmten Zugriffskombinationen zu maskieren oder zu verschlüsseln. Als eine schnelle Lösung ist dies sicher möglich, unserer Meinung nach stellt diese Art der Umsetzung des Schutzbedarfs ein hohes Risiko dar! Diese neue Zwischenschicht muss wiederum abgesichert, geprüft und operativ überwacht werden. Zudem kann nicht garantiert werden, alle möglichen Datenzugriffe (aktuell und in Zukunft) erfasst und richtig parametrisiert zu haben.

Nutzung Clouddienste und Anbieter mit vollständigen Lösungen

Eine etwas andere Variante ist, die o.g. Themen und Probleme mit einer ganzheitlichen Lösung umzusetzen. Beispielsweise gibt es Cloudanbieter, die grundsätzlich alle Daten wie sehr vertrauliche Daten schützen und verschlüsseln. Damit entfallen die Aufwände für eine Datenklassifizierung und unterschiedliche Schutzmassnahmen.

Unternehmen haben damit sicherlich erstmal den Vorteil, dass die zentrale Datenhaltung verschlüsselt und nach höchsten Standards abgesichert ist, müssen aber dennoch darauf achten, dass die Daten nicht auf lokalen Clients oder externen Clouds exportiert werden.

VonDatabase Security

Synthetische Testdaten

Viele Unternehmen benötigen für Entwicklungs-, Schulungs- und Testsysteme Testdaten oder anonymisierte Daten. Je nach Anforderung müssen diese Daten sinnvolle Daten beinhalten, zum Beispiel reale Vornamen, Nachnamen oder Rechtsformen. Je nach Testszenario können auch Dummydaten erzeugt und verwendet werden.

Testdaten

Wer heute nach Lösungen zur Erstellung oder Verwendung von Testdaten sucht, hat grundsätzlich die folgenden Möglichkeiten diese zu erzeugen oder herzustellen:

  • manuelle Eingabe
  • Demodaten vom Softwarehersteller
  • Nutzung von Testdatengeneratoren und Frameworks
  • Kauf und Download von synthetischen Daten
  • Clonen von Produktionsdaten und Anonymisierung

Vor- und Nachteile der verschiedenen Verfahren:

Manuelle Eingabe von Testdaten

Dieses Vorgehen ist sehr aufwendig und wird oft aus Kostengründen an Praktikanten, Auszubildende oder Berufsanfängern vergeben. Im Ergebnis erreicht man, dass die Personen, die zu solchen Eingaben „gezwungen“ worden sind, sehr schnell erkennen, dass die kreative Dateneingaben schnell auf ein geistiges Limit treffen.

Am Ende sind Daten von Freunden, Verwandten und Bekannten, Echtdaten aus Telefonbüchern, oder Mitgliederlisten aus öffentlich zugänglichen Quellen erfasst. Zudem erfolgt eine Vermischung von Realnamen mit Dummynamen sowie verschiedenen Sprachen und Geogebieten.

Diese Testdaten sind für spätere Demosysteme oder Schulungssysteme für Kunden nicht brauchbar oder präsentierbar. Der einzige Vorteil dieses Vorgehens ist, dass die Mitarbeiter über die manuellen Dateneingaben das System sehr gut kennenlernen.

Demodaten vom Softwarehersteller

Demodaten werden seitens vieler Softwarehersteller ausgeliefert. Der Vorteil liegt in der Zeitersparnis. Nachteilig ist, dass diese Daten ggf. branchenfremd sind oder tatsächlich Echtdaten beinhalten. Je nach Datenvolumen können diese niemals komplett geprüft und die Sicherheit gegeben werden, dass diese nicht gegen Datenschutzbestimmungen verstossen.

Ebenso sind Demodaten von Softwarehersteller ideale Daten. Ideale Daten bedeutet, dass diese Datensätze valide im Sinne von Formaten, Längen, Zeichensätzen, Strukturen und Datentypen sind. Oftmals werden diese Daten über Schnittstellen (APIs) eingelesen und sind möglicherweise nicht mit manuellen Eingaben über das Anwender-GUI identisch.

Nutzung von Testdatengeneratoren

Im Internet gibt es eine Vielzahl von kostenloser Software für Testdatengeneratoren, Möglichkeiten des Downloads von Daten aus Testdatengeneratoren sowie einige spezialisierte kommerzielle Anbieter.

Bis auf die spezialisierten kommerziellen Anbieter wissen Sie eigentlich nicht, ob die generierten Daten aus kostenlosen Downloads oder Generatoren wirklich 100% Testdaten sind und nicht doch Echtdaten beinhalten.

Ebenso sind notwendige Verteilungsmuster oder Statistiken über Minimal-/Maximalwerte, Anzahl Ausprägungen von Spalten, Kardinalitäten usw. nicht oder nicht sofort ersichtlich. Der Zusatzaufwand beim Einsatz eines kostenlosen Tools für Testdaten sind nicht zu unterschätzen:

  • Download und Installation der Software
  • Check, ob Lizenz wirklich kostenlos ist
  • Einarbeitung eines Mitarbeiters in die Anwendung
  • Definition der Parameter (welche Daten werden gebraucht)
  • Erzeugung der Daten in ein verwertbares Importformat (SQL)
  • Import der Daten in verschiedenen Tabellen der Testdatenbank
  • Fehleranalyse und
  • ggf. mehrere Iterationen von Generieren und Importieren

Sehr gerne wird im Bereich DevOps oder DevSecOps auf diverse Frameworks der gängigen Programmiersprachen verwiesen, die diese Methoden beinhalten und für alle Testfälle problemlos E2E-Tests garantieren. Für reine Entwicklungstätigkeiten mit diesen Dummydaten ist dies ein sinnvolles Vorgehen. Eine Anwendung mit Dummydaten bei Kunden oder Schulungen zu präsentieren, wird aber keinen guten Eindruck hinterlassen.

Kauf und Download von synthetischen Testdaten

Eine Alternative zwischen der Erstellung der Testdaten durch manuelle Eingaben oder Testdatengeneratoren ist der Kauf von vorgenerierten synthetischen Testdaten. Typischerweise sind diese für Stammdaten von ERP-, CRM-, DWH oder DMS-Systemen verfügbar.

Unser Unternehmen bietet diese für folgende Daten an:

  • Personen, Adressen, Kommunikationsdaten, persönliche Daten und weitere Attribute
  • Unternehmen, Adressen, Rechtsformen, Kontakte und weitere Attribute
  • Produkte und Services

Unsere Angebote für Testdaten beinhalten folgende Merkmale:

  • Sprache in Deutsch, Englisch, International oder Dummydaten
  • Anzahl Datensätze: 1000, 10000, 100000, 1.000.000, usw.
  • Beschreibung der Attribute mit Format, Min-/Maxwerte, Verteilungen, Unique-ID und Datentypen.
  • verfügbar bei Kauf als Download im Format CSV und SQL

Geeignet sind unsere Testdaten insbesondere für Stammdaten, Grunddaten, Testdaten, Demodaten, Schulungsdaten, Zufallsdaten, Unternehmen, Geschäftspartner, Kunden, Lieferanten, Kundenstamm, Kundenstammdaten, Lieferantenstamm, Lieferantenstammdaten, Mitarbeiter, Mitarbeiterstamm, Mitarbeiterstammdaten, Personen und Adressen.

Klonen von Datenbanken und Anonymisierung von Daten

Das Klonen von Produktionsdatenbanken und die Anonymisierung von Daten in sogenannten After-Clone oder Masking-Skripten ist bei vielen Unternehmen weit verbreitet und wird oft als Lösung angesehen, die laut Compliance den Datenschutzrichtlinien entsprechen. Leider zeigt sich in der Praxis, dass die Auditoren sich nicht die Mühe gemacht haben, diese Skripte mal genauer anzusehen.

Damit dies funktioniert, muss garantiert werden, dass das Masking oder After-Clone Skript so aufgesetzt ist, dass nicht durch statistische Methoden auf den Ursprungswert geschlossen werden kann. Zudem setzt der Einsatz voraus, dass die Anwendung und Datenstrukturen sehr gut bekannt sind.

Beispiele für fehlerhaftes Masking und After Clone Skripte:

  • Lohndaten in Tabelle wurden komplett maskiert, die Lohnabrechnungen waren als PDF im Original gespeichert
  • Buchungsdaten für Testsysteme für Buchhaltung wurden spaltenweise geändert, Bilanzsummen und Saldovorträge waren nie mehr abstimmbar
  • Usernamen und Passworte wurden für PreProd-Umgebung neu erstellt und waren später in Produktionssystem ebenfalls vorhanden

VonDatabase Security

Blog database-security.de

Willkommen beim Blog auf database-security.de. Hier erscheinen Beiträge zu Themen rund um die Sicherheit von Daten und Datenbanken, Testergebnisse von Software für Auditing und Monitoring von Datenbanken sowie allgemeine Informationen über News und Trends im Bereich Datensicherheit. Gastautoren und Experten können gerne zu diesen Themen hier ebenfalls publizieren.

Unsere Schwerpunkte:

  • Database Activity Monitoring
  • Database Auditing
  • Datenklassifizierung
  • Security Engineering
  • Database Audit-Check
  • Fraud-Detection
  • Data Reconciliation
  • Testdatenmanagement
  • Data Analytics