Zurück zum Blog
#doccape#pseudonymisierung#anonymisierung#CoRef#datenschutz

Wie funktioniert doccape: Ein Blick hinter die Kulissen unserer Anonymisierung

25. Juli 2025Marcel Hurler

doccape kombiniert regelbasierte Verfahren mit KI, um sensible Daten in Texten, Bildern und eingebetteten Inhalten zuverlässig zu erkennen. Konsistente Pseudonyme sichern den Kontext – ideal für Analysen und KI-Anwendungen. Die Lösung ist anpassbar und kann lokal oder auf EU-Servern betrieben werden – für maximale Kontrolle und Datenschutz.

Wie funktioniert doccape: Ein Blick hinter die Kulissen unserer Anonymisierung

Inhaltsverzeichnis

Auf Social Media teilen

Datenschutz, aber bitte smart!

Im digitalen Zeitalter, geprägt durch exponentiell steigende Datenmengen und technologische Innovationen, spielt der Schutz personenbezogener Daten eine entscheidende Rolle. Datenschutz und Datensicherheit sind relevanter denn je – besonders vor dem Hintergrund regulatorischer Anforderungen wie der Datenschutz-Grundverordnung (DSGVO) und dem EU AI Act, der klare Vorgaben für den verantwortungsvollen Einsatz Künstlicher Intelligenz enthält.

Pseudonymisierung und Anonymisierung mit konsistenter Ersetzung nimmt dabei eine zentrale Stellung ein, indem personenbezogene Informationen so verändert werden, dass einzelne Personen nicht mehr unmittelbar identifizierbar sind, die Daten jedoch weiterhin nutzbar bleiben. Dies ermöglicht nicht nur datenschutzkonforme Nutzung sensibler Informationen, sondern reduziert auch erheblich das Risiko ungewollter Datenlecks oder Missbrauchsfälle. Gerade bei der Nutzung generativer KI, beispielsweise in Chatbots oder bei vollständiger Prozessautomatisierung, gewinnt eine Verarbeitung mit konsistenter Ersetzung zunehmend an Bedeutung, da hier oft umfangreiche, sensible Datenbestände verarbeitet werden.

Was macht den Kontexterhalt so komplex?

Während bei der Anonymisierung jeglicher Rückschluss auf eine Person dauerhaft ausgeschlossen wird – eine reine Erkennung reicht dabei aus – verfolgt eine Verarbeitung mit konsistenter Ersetzung ein anderes Ziel: Die Identität soll verschleiert werden, die Texte aber weiterhin "lesbar" und verwertbar bleiben. Ein Beispiel: Aus den Namen „Herr Müller" und "Peter Müller" wird „PER-42".

Damit das funktioniert, müssen alle Entitäten – etwa Personen oder Orte – im gesamten Text konsistent ersetzt werden. Unterschiedliche Personen mit gleichem Nachnamen dürfen nicht vermischt werden. So kann sich „Herr Müller" an einer Stelle auf den Sohn und an einer anderen auf den Vater beziehen – diese Unterscheidung muss erhalten bleiben.

Was selbst für Menschen mitunter knifflig sein kann, stellt für Maschinen eine umso größere Herausforderung dar. Vor allem bei langen Texten, in denen relevante Referenzen weit auseinanderliegen. Der Grund liegt in der Architektur vieler Sprachmodelle: Sie können nur eine begrenzte Textmenge – das sogenannte Kontextfenster – gleichzeitig erfassen. Der Überblick über alle erwähnten Entitäten geht dabei schnell verloren.

Hinzu kommt: Große Sprachmodelle neigen zu Halluzinationen. Zwar lassen sich damit grundsätzlich längere Texte analysieren, doch kann der ursprüngliche Inhalt dabei unbeabsichtigt verändert werden. Je mehr Entitäten im Spiel sind und je komplexer ihre Beziehungen, desto stärker geraten selbst leistungsfähige Modelle an ihre Grenzen.

Wie lösen wir diese Herausforderungen bei doccape?

doccape kombiniert klassische regelbasierte Methoden mit modernen KI-Technologien. So erkennt das System zuverlässig personenbezogene und sensible Informationen in Texten und Bildern. Durch die Verwendung konsistenter Pseudonyme bleiben Zusammenhänge im Text erhalten – ein entscheidender Vorteil für weiterführende Analysen und KI-Anwendungen. Die zugrunde liegende Logik: Datenschutz und Nutzbarkeit schließen sich nicht aus – im Gegenteil.

Die drei Phasen der Verarbeitung

Im Folgenden geben wir einen detaillierten Einblick in die zugrunde liegende Technologie, die sowohl präzise Ergebnisse als auch die Einhaltung regulatorischer Vorgaben gewährleistet.

1. Extraktion

In der Extraktionsphase werden reine Text- oder Bilddaten aus einem Dokument wie einer PDF-Datei extrahiert. Dabei wird das Dokument zerlegt, wobei die genaue Position der einzelnen Elemente gespeichert wird, um eine spätere Wiederherstellung an der korrekten Stelle zu ermöglichen.

2. Erkennung

Die Erkennung personenbezogener Daten bildet den Kern der Verarbeitung. Extrahierte Daten werden mithilfe spezieller KI-Modelle analysiert, die relevante Positionen ermitteln. Im Bildbereich entstehen dadurch sogenannte Bounding Boxen, die beispielsweise ein erkanntes Gesicht eingrenzen. Im Textbereich werden relevante Stellen, etwa Namen, identifiziert und für die spätere Zuordnung zu eindeutigen Pseudonymen vorbereitet. Im Folgenden werden die zugrunde liegenden Verfahren noch etwas genauer erläutert.

2.1. Bilderkennung

Im Bereich Computer Vision basiert die Lösung auf moderner Objekterkennungs-Technologie, die seit dem Meilenstein AlexNet (2012) durch neuronale Netze dominiert wird. Früher wurden markante Strukturen (sog. „Features" wie z.B. Kreise und Linien in der Zeichenerkennung) manuell definiert. Heute lernen KI-Modelle diese automatisch. Insbesondere die in den letzten Jahren immer weiter entwickelten YOLO-Modelle bieten schnelle und präzise Ergebnisse, können jedoch bei dicht gedrängten Objekten, etwa Gesichtern in einer Menschenmenge, Schwierigkeiten haben. Transformer-basierte Modelle stellen aktuell die höchste Genauigkeit bereit, verlangen aber einen höheren Rechenaufwand. Wir kombinieren diese Technologien, um maximale Präzision bei vertretbarer Verarbeitungszeit zu gewährleisten.

Anonymisierung Technologie

2.2. Erkennung von Entitäten

Zusätzlich zu regelbasierten Verfahren, die wir z.B. bei White- und Blacklists nutzen, verlassen wir uns hauptsächlich auf das fortschrittliche Textverständnis moderner Modelle der maschinellen Sprachverarbeitung. Der Erfolg dieser Modelle basiert auf der Transformer-Architektur von 2017, die die Grundlage heutiger KI-Systeme wie ChatGPT bildet. Die "Intelligenz" solcher Sprachmodelle entsteht dadurch, dass sie während dem Training Terrabyte an "Lückentexte" automatisiert ausfüllen. Das Modell lernt dabei, welche Worte im Kontext von anderen stehen und wird aufgrund der enormen Menge an Daten förmlich gezwungen, eine klügere Strategie zu entwickeln als einfach alle Texte auswendig zu lernen. Dieses Kontextverständnis ermöglicht unserem Modell die Unterscheidung verschiedener Entitätstypen wie Personen, Orte oder Kontonummern. So könnte mit dem Wort „Bäcker" je nach Kontext entweder eine Person oder ein Geschäft gemeint sein. Anders als generative Sprachmodelle die z.B. für ChatGPT verwendet werden, nutzt unser Verfahren ein schlankes Encoder-only-Modell, spezialisiert auf Named Entity Recognition (NER), das präzise, speichereffizient und ideal für On-Premise-Einsätze geeignet ist. Dabei werden Halluzinationen ausgeschlossen, die Inhalte verfälschen könnten. Warum wir nicht mit einem generativen Sprachmodell arbeiten, werden wir in Kürze im Detail in einem gesonderten Blogbeitrag diskutieren.

2.3. Zuordnung

Anonymization without Coreference

Die Zuordnung der erkannten personenbezogenen Daten zu eindeutigen Pseudonymen erfolgt ebenfalls KI-basiert. Unser Modell erzeugt sogenannte Embeddings – numerische Repräsentationen, die alle relevanten Informationen aus Sicht des Sprachmodells einer Erkennung, z.B. "Herr Müller" enthalten. Durch den Vergleich dieser Embeddings lassen sich Gemeinsamkeiten und Unterschiede feststellen und so die erkannten personenbezogenen Daten effektiv gruppieren. In der Sprachwissenschaft wird diese Methode als Coreference Resolution (CR) bezeichnet, wobei sprachliche Ausdrücke miteinander verknüpft werden, die dieselbe Entität repräsentieren.

3. Anonymisierung

Anonymization with Coreference

Im letzten Schritt ersetzen wir erkannte und zugeordnete personenbezogene Daten in Texten und Bildern durch Pseudonyme oder maskieren sie vollständig, z.B. durch Verpixelung oder Schwärzung. Dabei erstellen wir immer ein neues Dokument oder ein Bild, um sicherzustellen, dass auch Metadaten keine sensiblen Informationen enthalten. Auch Hyperlinks mit sensiblen Informationen werden so von uns zuverlässig entfernt.

Echte Use Cases, echte Sicherheit

Unsere Technologie kommt bereits in verschiedenen Marktsegmenten zum Einsatz: So unterstützt doccape in der Medizin, im Gutachterwesen und im Finanzwesen bei der automatisierten Auswertung großer Dokumentenmengen mit personenbezogenen Daten. Besonders wirkungsvoll ist unser Ansatz, wenn er auf reale Kundendatensätze abgestimmt wird – denn durch die Optimierung auf branchenspezifische Inhalte steigern wir die Erkennung- und Zuordnungsgenauigkeit unseres Produktes spürbar. So entstehen maßgeschneiderte Lösungen, die sich exakt an den jeweiligen Anwendungsfall anpassen. Unsere Software ist ebenso in verschiedenen Anwendungsgebieten einsetzbar wie zB. interne Chatbots bspw. openwebui oder bei der Automatisierung von KI Workflows bspw. unser n8n Modul profitieren davon. Dank doccape können sensible Eingaben verarbeitet werden – sicher, effizient und ganz ohne Kontrollverlust über vertrauliche Inhalte.

Datenschutz auf höchstem Niveau – lokal oder in der EU

Mit doccape behalten Sie die volle Kontrolle über Ihre sensiblen Daten: Ob lokal in Ihrer eigenen Infrastruktur oder sicher auf EU-Servern gehostet – Sie entscheiden, wo Ihre Daten verarbeitet werden. Dank „Privacy by Design" ist jede Verarbeitung DSGVO-konform, nachvollziehbar und geschützt vor ungewolltem Zugriff. So kombinieren Sie maximale Datensicherheit mit moderner KI – ohne Kompromisse.

Wenn Datenschutz auf Effizienz trifft

Sensible Daten einfach unbrauchbar machen? Kann man tun – bringt aber nichts, wenn man mit den Daten noch etwas anfangen will. Genau deshalb setzen immer mehr Unternehmen auf Anonymisierung und Pseudonymisierung mit konsistenter Ersetzung. Sie schützt personenbezogene Informationen, erhält aber gleichzeitig den semantischen Zusammenhang. So lassen sich Daten weiter analysieren, auswerten und nutzen – ganz ohne Risiko für die Privatsphäre.

Sie wollen wissen, wie das in der Praxis funktioniert? 👉 Werfen Sie einen Blick auf unsere Produktseite!

Sie möchten doccape in Ihrem Unternehmen einsetzen?

Wir zeigen Ihnen in einem kurzen Kennenlerngespräch, wie doccape in Ihre Prozesse passt – lokal, hybrid oder in der Cloud.

doccape ansehen
Sie möchten doccape in Ihrem Unternehmen einsetzen?