Stilometrie ist unser persönlicher und einzigartiger Schreibstil. Egal wer du bist, du hast einen einzigartigen, fingerprintbaren und nachverfolgbaren Schreibstil. Das ist seit einer Weile bekannt, und ein Zweig der Forensik baut auf diesem Prinzip auf: die forensische Linguistik. In diesem Fachgebiet heißt die spezielle Bezeichnung für forensische Linguistik, angewandt auf Internetkriminalität, “Writeprint”. Writeprint zielt in erster Linie darauf ab, die Autoridentifikation im Internet zu bestimmen, indem der Text eines Verdächtigen mit einer bekannten Sammlung autorinvarianter (normalerweise geschriebener) Texte verglichen wird, und selbst ohne Vergleichstexte kann diese forensische Technik persönliche Informationen über einen Autor liefern, etwa Geschlecht, Alter und Persönlichkeit.
Worauf achtet ein Gegner, wenn er dein Schreiben untersucht?
- Lexikalische Merkmale: Analyse der Wortwahl.
- Syntaktische Merkmale: Analyse von Schreibstil, Satzbau, Zeichensetzung und Bindestrichsetzung.
- Strukturelle Merkmale: Analyse von Struktur und Gliederung des Schreibens.
- Inhaltsspezifische Wörter: Analyse kontextuell bedeutsamen Schreibens wie Akronyme.
- Idiosynkratische Merkmale: Analyse grammatischer Fehler, dies ist der wichtigste zu berücksichtigende Faktor, weil er eine vergleichsweise hohe Genauigkeit bei der Autoridentifikation liefert.
Beispiele:
Du denkst vielleicht, dass das nichts ist, worauf ein Gegner achtet? Denk noch mal nach! Es gab mehrere Fälle, in denen Gegner wie die Strafverfolgung Writeprint-Techniken eingesetzt haben, um Menschen zu fassen und zu verurteilen. Hier sind einige Beispiele:
- Der OxyMonster-Fall (https://arstechnica.com/tech-policy/2018/06/dark-web-vendor-oxymonster-turns-out-to-be-a-frenchman-with-luscious-beard/ Archive.org): Öffentliche Daten enthüllten, dass Vallerius (alias OxyMonster) Instagram- und Twitter-Konten hat. Ermittler verglichen den Schreibstil von “OxyMonster” im Dream-Market-Forum in einer Rolle als leitender Moderator mit dem Schreibstil von Vallerius auf seinen öffentlichen Instagram- und Twitter-Konten. Ermittler entdeckten viele Ähnlichkeiten in der Verwendung von Wörtern und Zeichensetzung, einschließlich des Wortes “cheers;”; doppelter Ausrufezeichen; häufiger Verwendung von Anführungszeichen; und gelegentlicher französischer Beiträge.
Verwende für deine sensiblen Aktivitäten nicht denselben Schreibstil wie für deine normalen Aktivitäten. Achte insbesondere genau auf deine Verwendung gängiger Redewendungen und Zeichensetzung. Außerdem als Randbemerkung: Begrenze die Menge an Referenzmaterial, das ein Gegner als Vergleichstext nutzen kann, du willst dich nicht wegen deines politischen Twitter-Beitrags oder dieses Reddit-Beitrags, den du vor Jahren gemacht hast, in Schwierigkeiten wiederfinden, oder?
- Hier ist ein weiteres Beispiel aus dem Buch American Kingpin, darüber, wie ein DEA-Agent den Schreibstil von DPR (Dread Pirate Roberts alias Ross Ulbricht, Gründer des Silk-Road-Dark-Market) aus einer ungewöhnlichen Perspektive untersuchte: Zum einen verwendete Ross Ulbricht das Wort “epic” sehr oft, was zeigte, dass er wahrscheinlich jung war. Er verwendete in seinem Schreiben auch Emoji-Smileys, benutzte dabei aber nie einen Bindestrich als Nase und schrieb sie als ”:)” statt als das altmodische ”:-)”. Doch das eine Merkmal an Ulbricht, das herausstach, war, dass Ulbricht statt “yes” oder “yeah” in den Foren der Seite stattdessen immer “yea” tippte.
Achte auf die kleinen Dinge, die sich aufsummieren könnten. Wenn du Leuten normalerweise mit “ok” antwortest, versuche vielleicht, für deine sensiblen Aktivitäten mit “okay” zu antworten. Du solltest NIEMALS Wörter oder Phrasen aus deinen sensiblen Aktivitäten (selbst wenn sie nicht in einem öffentlichen Beitrag stehen) für normale Zwecke verwenden und umgekehrt. Ross Ulbricht verwendete “frosty” als Namen für seine Silk-Road-Server und für sein YouTube-Konto, was die Strafverfolgung davon überzeugen half, dass Dread Pirate Roberts tatsächlich Ross Ulbricht war.
Wie du die Bemühungen deines Gegners kontern kannst:
- Reduziere die Menge an Vergleichstext, mit dem Gegner dich vergleichen können. Das geht damit einher, einen kleinen Online-Fußabdruck für deine normalen Aktivitäten zu haben.
- Verwende ein Textverarbeitungsprogramm (wie LibreWriter), um etwaige Grammatik-/Rechtschreibfehler zu beheben, die dir regelmäßig unterlaufen.
- Reduziere oder ändere die Redewendungen, die du bei sensiblen Aktivitäten verwendest.
- Verstehe, wie deine Identität deinen Schreibstil beeinflusst: Ist dein Alias jünger? Älter? Gebildeter? Oder weniger gebildet? Wenn deine Identität älter ist, sprich vielleicht in einem eher an JRR Tolkien angelehnten Schreibstil.
- Achte darauf, wie dein Slang und deine Rechtschreibung dich identifizieren könnten. Wenn du aus dem Vereinigten Königreich kommst, solltest du “maths” sagen, aber wenn du aus den USA kommst, sagst du “math”. Es spielt keine Rolle, wie du “maths” sagst, wichtig ist nur, dass es genutzt werden kann, um dich zu profilieren. Das gilt auch für Slang, da viele Regionen jeweils unterschiedlichen und äußerst spezifischen Slang haben. Du bittest jemanden aus den USA nicht um einen “rubber” und erwartest, dass er dir als Beispiel einen “eraser” gibt.
- Achte auf deine Verwendung von Emoticons und Emojis. Im vorherigen Beispiel war der DEA-Agent in der Lage, korrekt anzunehmen, dass Ulbricht wahrscheinlich jung war, weil er keinen Bindestrich verwendete, wenn er ein Smiley-Emoticon machte.
- Achte darauf, wie du dein Schreiben strukturierst. Verwendest du zwei Leerzeichen nach einem Punkt? Verwendest du ständig Klammern in deinem Schreiben? Verwendest du das Oxford-Komma?
- Bedenke, welche Symbole du in deinem Schreiben verwendest. Verwendest du €, £ oder $? Verwendest du “dd-mm-yyyy” oder “mm-dd-yyyy” für Daten? Verwendest du “08:00 pm” oder “20:00” für die Uhrzeit?
Was verschiedene sprachliche Entscheidungen über dich verraten könnten:
Emoticons:
- Russen verwenden zum Beispiel ”)” statt ”:-)” oder ”:)”, um ein Smiley-Gesicht auszudrücken.
- Skandinavier verwenden ”=)” statt ”:-)” oder ”:)” für ein Smiley-Gesicht.
- Jüngere Menschen verwenden in ihren Smiley-Gesichtern in der Regel keinen Bindestrich und benutzen einfach ”:)”.
Strukturelle Merkmale:
- Zwei Leerzeichen nach einem Punkt erwecken den Eindruck, dass du recht älter bist, denn so wurde Menschen das Tippen beigebracht, die das Tippen mit Schreibmaschinen lernten.
- In den USA schreiben Menschen Zahlen mit Kommas zwischen den Ziffern links von der Anfangszahl und mit Punkten zwischen den Ziffern rechts von der Anfangszahl aus. Das steht im Gegensatz dazu, wie Menschen auf dem Rest des Planeten Zahlen ausschreiben.
USA: 1,000.00$
Europa: 1.000,00€
Rechtschreibung, Slang und Symbole:
- Offensichtlich verwenden Menschen in verschiedenen Nationen unterschiedlichen Slang. Das ist noch ausgeprägter, wenn du Slang verwendest, der andernorts nicht so bekannt ist, etwa wenn jemand aus dem Vereinigten Königreich einen “headmaster” erwähnt, während er in anderen Nationen als “principal” bezeichnet wird.
- Rechtschreibung ist ein weiterer wichtiger Faktor, der dem Slang ähnelt, außer dass er schwerer zu kontrollieren ist. Wenn du vorgeben willst, aus den USA zu sein, aber tatsächlich in Australien lebst, reicht ein einziges Mal, “colour” als color zu schreiben, damit die Leute verstehen, dass etwas nicht stimmt.
- Manche Menschen schreiben Wörter auch auf eine bestimmte Weise, die nicht regional ist, zum Beispiel könntest du “ax” als “axe” schreiben oder umgekehrt.
- Natürlich können die Symbole, die du auf deiner Tastatur verwendest, viele Informationen verraten, etwa £ oder $.
Techniken, um Writeprinting zu verhindern:
Hier sind einige Techniken in der Reihenfolge der Anwendung:
- Rechtschreib- und Grammatikprüfung: Das hilft, einiges an Fingerprinting zu verhindern, das anhand deiner Rechtschreib- und Grammatikfehler durchgeführt wird.
- Offline mit einem Textverarbeitungsprogramm: Verwende ein Textverarbeitungsprogramm wie LibreWriter und nutze die Rechtschreib- und Grammatikprüfungsfunktionen, um Fehler zu beheben, die du getippt haben könntest.
- Online mit einem Online-Dienst: Wenn du kein Textverarbeitungsprogramm zur Verfügung hast oder keins verwenden willst, kannst du auch eine Online-Rechtschreib- und Grammatikprüfung wie Grammarly verwenden (das erfordert eine E-Mail und eine Kontoerstellung).
Übersetzungstechnik:
Nachdem du mit den Rechtschreib- und Grammatikkorrekturen fertig bist, verwende eine Website oder Software wie Google Translate (oder für eine datenschutzfreundlichere Version https://translate.metalune.xyz), um zwischen mehreren verschiedenen Sprachen zu übersetzen, bevor du zurück in deine Ausgangssprache übersetzt. Diese Übersetzungen hin und her verändern deine Nachrichten und machen Fingerprinting schwieriger.
Hinweis: Eine hier archivierte Studie: https://web.archive.org/web/20181125133942/https://www.cs.drexel.edu/~sa499/papers/adversarial_stylometry.pdf scheint darauf hinzudeuten, dass die Übersetzungstechnik ineffizient ist, um Stilometrie zu verhindern. Dieser Schritt könnte nutzlos sein.
Suchen und ersetzen:
Schließlich und optional, füge etwas Salz hinzu, indem du deinen Nachrichten absichtlich einige Fehler hinzufügst.
Entscheide dich zunächst für eine Liste von Wörtern, die du häufig nicht falsch schreibst, vielleicht die Wörter “grammatical”, “symbol” und “pronounced” (diese Liste sollte mehr Wörter enthalten). Verwende dafür keine AutoKorrektur-Funktion mit automatischem Ersetzen, da sie korrigieren könnte, wenn es keinen Sinn ergibt. Verwende stattdessen Suchen und Ersetzen und mache dies für jedes Wort manuell. Verwende auch nicht “Alle ersetzen” und überprüfe jede Änderung. Das ist nur der erste Schritt, um Fehlinformationen gegen sprachliches Fingerprinting zu liefern.
Finde als Nächstes eine Liste von Wörtern, die du häufig in deinem Schreiben verwendest. Sagen wir, ich liebe es, beim Schreiben Kurzformen zu verwenden, vielleicht verwende ich immer Wörter wie: “can’t”, “don’t”, “shouldn’t”, “won’t” oder “let’s”. Nun, geh vielleicht in LibreWriter und verwende “Suchen und Ersetzen”, um alle Kurzformen durch die vollständigen Versionen der Wörter zu ersetzen (“can’t” > “cannot”, “don’t” > “do not”, “shouldn’t” > “should not”, “won’t” > “will not”, “let’s” > “let us”). Das kann einen großen Unterschied in deinem Schreiben machen und einen Unterschied darin schaffen, wie Menschen und vor allem deine Gegner dich wahrnehmen. Du kannst die meisten Wörter ändern, als Beispiel kannst du “huge” in “large” ändern. Stelle nur sicher, dass diese Wörter zu deiner Identität passen.
Erwäge nun, deine Wortwahl zu ändern, damit sie zu einem geografischen Ort passt. Vielleicht lebst du in den USA und willst den Eindruck erwecken, dass deine Identität aus dem Vereinigten Königreich stammt. Zum Beispiel kannst du ortsbasierte Rechtschreibung und Wortschatz nutzen. Das ist riskant, und ein Fehler kann es verraten.
Zunächst musst du dich entscheiden, wo du den Eindruck deines Standorts erwecken willst. Hier ist ein Beispiel, um den Eindruck zu erwecken, dass du aus den USA oder dem Vereinigten Königreich stammst. Zuerst musst du das eine oder andere darüber verstehen, woher deine Identität “stammt”, gib nicht vor, aus dem Vereinigten Königreich zu sein, hast aber außer der Tatsache, dass es existiert, keine Ahnung davon.
Nachdem du dich für einen guten Ort entschieden hast, aus dem deine Identität stammt, recherchiere die Unterschiede in der Sprache zwischen den beiden Sprachen (in diesem Fall zwischen britischem Englisch und amerikanischem Englisch). Dank des Internets ist das ziemlich einfach, und du kannst Wikipedia-Seiten finden, die die regionalen Unterschiede einer Sprache zwischen zwei Nationen praktischerweise hervorheben. Achte darauf, wie bestimmte Wörter geschrieben werden (“metre” > “meter”) und welche Wörter gegeneinander ausgetauscht werden (“boot” > “trunk”). Jetzt, wo du eine Liste von Wörtern hast, die gegeneinander ausgetauscht werden können, und eine Liste von Schreibweisen, die unterschiedlich sind, verwende das “Suchen und Ersetzen” in deinem Editor und ändere die Wörter wie “colour” in “color” und “lorry” in “truck”. Auch hier: Verwende keine AutoKorrektur-Funktion oder “Alle ersetzen”, da manche Änderungen keinen Sinn ergeben könnten. Überprüfe jede vorgeschlagene Änderung. Wenn du als Beispiel AutoKorrektur oder “Alle ersetzen” auf das Wort “boot” anwenden würdest, um es in “trunk” zu ändern, würde das im Kontext von Autos vollkommen Sinn ergeben. Aber im Kontext von Schuhen würde es überhaupt keinen Sinn ergeben.
Letzter Rat:
Verstehe, dass du beim Durchführen sensibler Aktivitäten ständig daran denken musst, was du tippst und wie du tippst.
Verstehe, dass das Verändern deines Schreibstils zu solchen Zwecken letztlich deinen grundlegenden Schreibstil verändern kann, was dein Schreiben ironischerweise über längere Zeiträume hinweg nachverfolgbar macht.
Lies dir mindestens einmal selbst Korrektur, nachdem du irgendetwas geschrieben hast, um zu überprüfen, dass dir bei deinem Vorgehen keine Fehler unterlaufen sind. Vertraue (dir selbst), aber überprüfe es trotzdem.
Bonus-Links:
- https://www.whonix.org/wiki/Surfing_Posting_Blogging#Stylometry Archive.org: Whonix-Dokumentation über Stilometrie.
- https://wikipedia.org/wiki/Forensic_linguistics Wikiless Archive.org: Gibt einen kurzen Überblick über die Grundlagen der forensischen Linguistik, nicht allzu informativ.
- https://wikipedia.org/wiki/Writeprint Wikiless Archive.org: Gibt einen kurzen und informativen Überblick über forensische Linguistik, angewandt auf Internetermittlungen.
- https://wikipedia.org/wiki/Stylometry Wikiless Archive.org: Gibt einen kurzen Überblick über Stilometrie.
- https://wikipedia.org/wiki/Content_similarity_detection Wikiless Archive.org: Ich würde empfehlen, das zu lesen, recht informativ.
- https://wikipedia.org/wiki/Author_profiling Wikiless Archive.org: Lies auch das durch, falls dich dieses Thema interessiert.
- https://wikipedia.org/wiki/Native-language_identification Wikiless Archive.org: Das ist weniger wichtig, wenn du einen Übersetzer verwendest, aber falls du keinen Übersetzer nutzt, um in Foren zu kommunizieren, die nicht in deiner Muttersprache sind, erwäge, das kurz durchzulesen.
- https://wikipedia.org/wiki/Computational_linguistics Wikiless Archive.org: Lies das nur durch, falls dich dieses Thema interessiert.
- https://regmedia.co.uk/2017/09/27/gal_vallerius.pdf Archive.org: Erklärt, wie die Behörden forensische Linguistik nutzten, um OxyMonster zu verhaften (Seiten 13 – 14).
- https://wikipedia.org/wiki/Ted_Kaczynski#After_publication Wikiless Archive.org: Hat vielleicht einen IQ von 167, aber er wurde in erster Linie aufgrund forensischer Linguistik gefasst.
- https://i.blackhat.com/USA-19/Wednesday/us-19-Wixey-Im-Unique-Just-Like-You-Human-Side-Channels-And-Their-Implications-For-Security-And-Privacy.pdf Archive.org: Erklärt, wie dein Schreibstil genutzt werden kann, um dich zu verfolgen, ich empfehle dringend, diese Folien durchzulesen oder die begleitende Präsentation auf YouTube anzusehen.
- https://media.defcon.org/DEF%20CON%2026/DEF%20CON%2026%20presentations/DEFCON-26-Matt-Wixey-Betrayed-by-the-Keyboard-Updated.pdf Archive.org: Erklärt, wie dein Schreibstil genutzt werden kann, um dich zu verfolgen, ich empfehle dringend, diese Folien durchzulesen oder die begleitende Präsentation auf YouTube anzusehen, das ist der letzten Präsentation recht ähnlich.
- https://i.blackhat.com/us-18/Wed-August-8/us-18-Wixey-Every-ROSE-Has-Its-Thorn-The-Dark-Art-Of-Remote-Online-Social-Engineering.pdf Archive.org: Das geht darauf ein, wie man Täuschung im Internet möglicherweise erkennt, und stellt eine Checkliste vor, um zu sehen, wie vertrauenswürdig jemand ist. Ich würde raten, die Folien zu lesen oder die Präsentation auf YouTube anzusehen.
Quelle: The Hitchhiker’s Guide to Online Anonymity, geschrieben von AnonyPla © CC BY-NC 4.0