1 00:00:00,083 --> 00:00:13,230 *33C3 Vorspannmusik* 2 00:00:13,230 --> 00:00:19,090 Herald: Ich habe vorhin erzählt, dass Snowden uns heute zugeschaltet wurde und 3 00:00:19,090 --> 00:00:29,810 er hat uns aufgerufen, etwas zu tun. Heute hören wir hier einen Talk, und zwar „build 4 00:00:29,810 --> 00:00:37,350 your own NSA“ – „baue deine eigene NSA“. Geheimdienste sammeln Daten, aber sie sind 5 00:00:37,350 --> 00:00:42,059 nicht die Einzigen. Es gibt auch die so genannten Datenkraken – an wen denken wir 6 00:00:42,059 --> 00:00:48,729 da alle? An Google, an Facebook. Wer hier hat einen Google-Account, Hände hoch, 7 00:00:48,729 --> 00:01:01,199 traut euch! Des sind ganz schön viele. Wer hat einen Facebook-Account? Es sind 8 00:01:01,199 --> 00:01:07,320 allerdings nicht nur die großen Firmen wie Facebook oder Google, die Daten sammeln. 9 00:01:07,320 --> 00:01:11,680 Es sind auch die kleineren Firmen oder unbekannte, wo wir die Namen noch nie 10 00:01:11,680 --> 00:01:15,480 gehört haben und Leute, wo wir es nicht erwarten, wie zum Beispiel ich auf der 11 00:01:15,480 --> 00:01:19,390 Bühne. Ich weiß jetzt wer einen Google- und wer einen Facebook-Account bei euch 12 00:01:19,390 --> 00:01:22,450 hat. Vielen Dank für die Info. 13 00:01:22,450 --> 00:01:25,680 Diese Firmen, oder auch ich, könnte jetzt hingehen, 14 00:01:25,680 --> 00:01:32,150 diese Daten tauschen oder einfach an die Leute die zahlen, verkaufen. 15 00:01:32,150 --> 00:01:37,390 Mein kleines Experiment hier war ziemlich lächerlich und natürlich banal, 16 00:01:37,390 --> 00:01:43,710 aber Svea Eckert und Andreas Dewes haben ein größeres 17 00:01:43,710 --> 00:01:50,430 Experiment gemacht mit einfachen Techniken des Social Engineerings und rausgefunden, 18 00:01:50,430 --> 00:01:55,150 was für Daten gesammelt werden können. In diesem Talk werden sie uns nicht nur 19 00:01:55,150 --> 00:02:00,510 erzählen, wer, warum und wie Daten sammelt sondern ob es auch noch eine Möglichkeit 20 00:02:00,510 --> 00:02:07,640 gibt, unsere Privatsphäre zu schützen. Andreas ist Data Scientist und entwickelt 21 00:02:07,640 --> 00:02:14,909 Technologien, damit wir Wissen aus Daten extrahieren können. Svea ist 22 00:02:14,909 --> 00:02:20,710 freiberufliche Journalistin und recherchiert IT-Themen und berichtet 23 00:02:20,710 --> 00:02:24,510 darüber für die Tagesschau und die Tagesthemen. Sie hat auch mitgewirkt bei 24 00:02:24,510 --> 00:02:32,260 Dokumentationen zu Themen wie Wikileaks, Facebook und dem NSA-Skandal, wo gerade 25 00:02:32,260 --> 00:02:36,569 Edward Snowden einen großen Teil eingenommen hat. Ich freue mich herzlich, 26 00:02:36,569 --> 00:02:42,349 die beiden hier zu begrüßen und bitte euch jetzt um einen ganz, ganz lauten Applaus 27 00:02:42,349 --> 00:02:45,189 für die beiden und wünsche euch allen viel Spaß. 28 00:02:45,189 --> 00:02:49,970 *Applaus* 29 00:02:49,970 --> 00:02:57,090 Svea Eckert: Danke. Andreas Dewes: Ja, hallo zusammen, also 30 00:02:57,090 --> 00:03:01,580 wir freuen uns natürlich, dass wir hier sein dürfen heute, ich hab wie gesagt die 31 00:03:01,580 --> 00:03:04,689 Datenanalyse für die Recherche hier gemacht und darf mich daher 32 00:03:04,689 --> 00:03:07,519 erstmal entspannen jetzt und übergebe dann das Wort an Svea. 33 00:03:07,519 --> 00:03:12,859 S: Ja ich bin Svea Eckart, arbeite für den NDR, beziehungsweise die ARD, und wir haben 34 00:03:12,859 --> 00:03:16,469 ’ne große Recherche gemacht, die ging über den ganzen Sommer und mündete in 35 00:03:16,469 --> 00:03:20,239 der relativ aufsehenerregenden Berichterstattung Anfang November unter 36 00:03:20,239 --> 00:03:26,759 dem Hashtag #NacktImNetz – der Eine oder Andere hat vielleicht dazu sogar was 37 00:03:26,759 --> 00:03:34,059 gesehen. Was wir wissen: Also: Wir wissen, dass, wenn wir uns im Netz bewegen dass 38 00:03:34,059 --> 00:03:40,109 Firmen das mitbekommen. Dass Firmen unser Verhalten aufzeichnen und zumindest ein 39 00:03:40,109 --> 00:03:45,700 Stück weit sind da verschiedene Parteien beteiligt, die sehen, auf welcher Webseite 40 00:03:45,700 --> 00:03:52,370 wir z. B. sind. Also hier jetzt mit einem kleinen Tool, nur so kurz analysiert, sind 41 00:03:52,370 --> 00:03:57,620 das jetzt 68 Parteien, die wissen, dass ich auf dieser Webseite bin und die zum 42 00:03:57,620 --> 00:04:02,920 Teil auch die Möglichkeit haben, mich durchs Netz zu verfolgen. Ich denke, jeder 43 00:04:02,920 --> 00:04:10,430 hier im Publikum weiß das und – also das ist bekannt. Trotzdem stört es die 44 00:04:10,430 --> 00:04:14,980 Allerwenigsten Also die allermeisten Internetnutzer sagen „Ich habe doch nichts 45 00:04:14,980 --> 00:04:19,700 zu verbergen“ „Da wird schon nichts böses damit passieren, die machen ja nichts 46 00:04:19,700 --> 00:04:24,420 mit meinen Daten, is ja sowieso nur für Werbezwecke“ Und wenn man mal in der 47 00:04:24,420 --> 00:04:31,170 Industrie nachfragt, dann ist die Aussage „Also diese Daten werden total gut 48 00:04:31,170 --> 00:04:35,590 anonymisiert“ „Da stecken wir ganz, ganz großen Aufwand rein“ „Und 49 00:04:35,590 --> 00:04:44,569 verkaufen? Das macht niemand!“ „Sowas würde niemand tun“ Wirklich? Das 50 00:04:44,569 --> 00:04:50,310 wollten wir genauer wissen: Wie komme ich an solche Daten? Ich gründe eine 51 00:04:50,310 --> 00:04:56,639 Firma. Ich habe also im Juli eine Webseite aufgesetzt – das ist relativ 52 00:04:56,639 --> 00:05:03,979 trivial. Content Management System, paar schöne Fotos, Stockphotos und ein 53 00:05:03,979 --> 00:05:09,360 bisschen Marketing-Sprech. Meine Firma „Meez Technology“, die Vereinigung von 54 00:05:09,360 --> 00:05:18,340 Technologie und Kreativität, macht Data-Driven-Consulting und bot Kunden an, 55 00:05:18,340 --> 00:05:22,500 Customized-Campaigns zu machen. Was brauchen wir dafür? Ganz viele 56 00:05:22,500 --> 00:05:27,869 Nutzer-Daten. Und diese Nutzer-Daten, an die wollte ich gelangen. Da brauchte ich 57 00:05:27,869 --> 00:05:34,290 eine tatkräftige Mitarbeiterin, hier ist sie. Ich habe sie mitgebracht: Anna. 58 00:05:34,290 --> 00:05:42,479 “Hello, Anna Rosenberg speaking! Hello, hello?” Anna Rosenberg arbeitet also für 59 00:05:42,479 --> 00:05:46,720 Meez Technology, sitzt in Tel Aviv, 60 00:05:46,720 --> 00:05:50,050 spricht kein Wort Hebräisch, konnte ich mir dann 61 00:05:50,050 --> 00:05:53,160 nicht aneignen für die Recherche, war aber nicht schlimm, 62 00:05:53,160 --> 00:05:56,160 hat auch niemand nachgefragt 63 00:05:56,160 --> 00:05:59,250 und ich hatte Tel Aviv ausgesucht, obwohl ich die Stadt eigentlich 64 00:05:59,250 --> 00:06:02,730 gar nicht kenne, aber ich hatte Tel Aviv ausgesucht, weil mir 65 00:06:02,730 --> 00:06:05,720 jemand sagte, Israel sei ziemlich gut für Daten, 66 00:06:05,720 --> 00:06:09,960 da wär man nicht so spitzfindig und ich sollte ja kein deutsches Unternehmen 67 00:06:09,960 --> 00:06:14,430 gründen sonst würde ich gar nichts bekommen. Also habe ich Meez Technology in 68 00:06:14,430 --> 00:06:19,750 Israel angesiedelt und Anna Rosenberg hat sich auf Telefon-Jagd gemacht. 69 00:06:19,750 --> 00:06:24,189 Das waren die Firmen, die in Frage kamen. Die Firmen, die 70 00:06:24,189 --> 00:06:30,249 von uns Internetnutzern Daten sammeln, die Daten verarbeiten. 71 00:06:30,249 --> 00:06:36,209 Meine Frage an diese Firmen war, ob sie mir als junges, aufstrebendes 72 00:06:36,209 --> 00:06:41,269 Startup ihre Daten verkaufen würden. Oder viel eher noch, ob sie mir ein 73 00:06:41,269 --> 00:06:45,550 kostenloses Sample geben würden, weil ohne ein kostenloses Sample könnte 74 00:06:45,550 --> 00:06:50,430 ich die Qualität der Daten gar nicht beurteilen. Ich habe ziemlich viele von 75 00:06:50,430 --> 00:06:55,240 diesen Firmen angerufen, angeschrieben, deren Webseiten mir angeschaut. Ihr seht 76 00:06:55,240 --> 00:07:00,810 dass es ein gigantisches Universum ist und es sind noch längst nicht alle. Besonders 77 00:07:00,810 --> 00:07:07,300 interessant sind diese Firmen hier. Die machen sozusagen, die analysieren den 78 00:07:07,300 --> 00:07:13,710 Internetmarkt, reichern Daten an, das sind so ziemlich wichtige Player in diesem 79 00:07:13,710 --> 00:07:16,429 ganzen Spiel. Weil um den Internetmarkt zu analysieren, 80 00:07:16,429 --> 00:07:19,429 brauchen die sehr viele Daten. 81 00:07:19,429 --> 00:07:22,789 Und, Ja, der eine oder andere war dann auch tatsächlich bereit, 82 00:07:22,789 --> 00:07:27,139 mir ein kostenloses Sample zur Verfügung zu stellen, 83 00:07:27,139 --> 00:07:29,579 damit ich die Güte, die Qualität seiner Daten 84 00:07:29,579 --> 00:07:37,220 einordnen konnte. Also ein kostenloses Sample. Dieses Sample kam dann auch. Also 85 00:07:37,220 --> 00:07:42,379 eines ist besonders groß, deswegen ist es auch das, worüber wir dann sprechen. 86 00:07:42,379 --> 00:07:48,599 Was war da drin? Also wir hatten 14 Tage so eine Art quasi Live-Zugriff auf 87 00:07:48,599 --> 00:07:54,499 Nutzerdaten. Sprich: Nutzerdaten, die sich immer wieder aktualisiert haben, die immer 88 00:07:54,499 --> 00:08:02,860 wieder frisch waren. Das waren 3 Millionen deutsche Nutzer in diesem Datensatz und 89 00:08:02,860 --> 00:08:08,650 das waren sozusagen die Klickstream-Daten von einem Monat. 90 00:08:08,650 --> 00:08:15,590 Das Klick-Stream ist sozusagen das Buzzword für Browser-History. 91 00:08:15,590 --> 00:08:20,189 Am Anfang sind wir relativ explorativ mit diesem Datensatz umgegangen 92 00:08:20,189 --> 00:08:25,839 haben einfach mal ge-grep-t, und mal geschaut was passiert denn, wenn wir in 93 00:08:25,839 --> 00:08:31,360 diesem Datensatz nach @polizei.de suchen. Ich setz meine Brille wieder ab, weil 94 00:08:31,360 --> 00:08:39,669 Annas Teil ist nämlich jetzt durch. So, alles was ge-x-t ist, hab ich gemacht, um 95 00:08:39,669 --> 00:08:45,860 die Privatsphäre dieser Person zu schützen. So sieht das dann aus, wenns ein 96 00:08:45,860 --> 00:08:53,840 bisschen aufbereitet ist. Man sieht jetzt hier z. B. 01.08.2016 05:17 Uhr: Rechner 97 00:08:53,840 --> 00:09:01,051 an, Google. Dann wird relativ schnell nach einem Auto geschaut. 05:30 Uhr: Das habe 98 00:09:01,051 --> 00:09:03,640 ich jetzt mal offen gelassen, kann man dann auch alles gleich eingeben. 99 00:09:03,640 --> 00:09:08,490 Ah, alles klar, er sucht einen Volkswagen 100 00:09:08,490 --> 00:09:16,000 in der und der Kategorie. Interessant. Gut, jetzt wollen wir natürlich wissen: 101 00:09:16,000 --> 00:09:21,480 Was hat der mit der Polizei zu tun? Was für ein Mensch steckt 102 00:09:21,480 --> 00:09:28,240 hinter diesen Daten? Und wenn man jetzt sozusagen sich da mal ein bisschen durch 103 00:09:28,240 --> 00:09:32,840 scrollt durch diese Daten – ich hab das jetzt als Screen-Video gemacht, damit man 104 00:09:32,840 --> 00:09:37,730 mal so ein bisschen auch besser die Dimensionen begreifen kann, wie groß die 105 00:09:37,730 --> 00:09:43,420 Tiefe dieser Daten ist und wie intensiv die sind. Man kann also gucken: Was liest 106 00:09:43,420 --> 00:09:48,900 der, was sucht der und irgendwann ist er mal auf der Webseite von der deutschen 107 00:09:48,900 --> 00:09:56,970 Polizeigewerkschaft und auf dem deutschen Beamtenbund. Könnte ja ein Polizist sein. 108 00:09:56,970 --> 00:10:00,710 Schauen wir doch mal nach so einem typischen Wort wie Ermittlungsverfahren 109 00:10:00,710 --> 00:10:13,420 Ah! Ok. Ein Google-Translate-Link. *Gelächter + Applaus* 110 00:10:13,420 --> 00:10:20,090 Schauen wir doch mal. Schmeißen wir es mal in den Decoder. Da ist es! 111 00:10:20,090 --> 00:10:23,220 „Sehr geehrte Damen und Herren, im Rahmen eines hier bearbeiteten 112 00:10:23,220 --> 00:10:26,411 Ermittlungsverfahrens wegen Computerbetrugs“ – Aktenzeichen habe ich 113 00:10:26,411 --> 00:10:31,311 jetzt rausgenommen – „benötige ich Bestandsdaten zu folgender IP-Adresse“ 114 00:10:31,311 --> 00:10:37,400 – habe ich rausgenommen – Zeitstempel Und netterweise hat dieser Nutzer in 115 00:10:37,400 --> 00:10:42,180 Google-Translate auch seine E-Mail-Adresse mit übersetzen lassen, 116 00:10:42,180 --> 00:10:47,560 seinen Vor- und Nachnamen, den Ort und die Telefonnummer … So. 117 00:10:47,560 --> 00:10:55,050 *Applaus* 118 00:10:55,050 --> 00:11:01,550 Wir können jetzt schauen: Was erfahren wir über diesen Menschen in diesen Daten? 119 00:11:01,550 --> 00:11:09,490 Können also noch mal weiter scrollen durch sein Leben im Netz. 120 00:11:09,490 --> 00:11:16,380 Und sehen, dass er arbeitet, also sehen, ungefähr, dass er 121 00:11:16,380 --> 00:11:21,940 Malware-Submissions macht z. B., dass er IP-Adressen verfolgt, aber auch, dass er 122 00:11:21,940 --> 00:11:26,150 SWR hört und natürlich so die 123 00:11:26,150 --> 00:11:29,150 Peinlichkeiten im Leben 124 00:11:29,150 --> 00:11:46,860 *Lachen* - *Applaus* 125 00:11:46,860 --> 00:11:51,740 Sind da natürlich auch drin. 126 00:11:51,740 --> 00:11:54,740 Jetzt haben wir nur mal nach @polizei.de gesucht. 127 00:11:54,740 --> 00:11:58,780 Was wäre, wenn wir mal hier gucken? 128 00:11:58,780 --> 00:11:59,780 Haben wir auch gemacht. 129 00:11:59,780 --> 00:12:01,780 So sieht dann so eine Abfrage aus. 130 00:12:01,780 --> 00:12:07,650 Wenn man das so, sag ich mal so, explorativ einfach macht wie wir das 131 00:12:07,650 --> 00:12:12,280 gemacht haben. Wichtig ist das, was zwischen den Anführungszeichen steht. 132 00:12:12,280 --> 00:12:17,180 Man sagt mit diesem Befehl dem Computer: Gib mir alles, gib mir jeden Nutzer, der 133 00:12:17,180 --> 00:12:19,680 jemals diese Webseite besucht hat. 134 00:12:19,680 --> 00:12:21,850 Und man sieht also, dass auch Leute 135 00:12:21,850 --> 00:12:22,850 die, ich würde mal sagen, 136 00:12:22,850 --> 00:12:25,180 sicherheitskritisch sind, 137 00:12:25,180 --> 00:12:30,450 in diesen Daten drin sind. 138 00:12:30,450 --> 00:12:31,880 Was passiert nur, wenn man all diese 139 00:12:31,880 --> 00:12:34,720 Nutzer deanonymisieren würde? 140 00:12:34,720 --> 00:12:38,650 Könnte man sie denn alle deanonymisieren? 141 00:12:39,530 --> 00:12:44,710 Andreas: Ja, wie wir gesehen haben, ist es im besten Fall etwas 142 00:12:44,710 --> 00:12:47,880 peinlich, wenn man als Nutzer in solchen Daten identifiziert wird. 143 00:12:47,880 --> 00:12:48,880 Schlimmstenfalls kann es auch gefährlich 144 00:12:48,880 --> 00:12:50,760 sein für die eigene Person. 145 00:12:50,760 --> 00:12:52,520 Deswegen möchte ich in den nächsten 146 00:12:52,520 --> 00:12:54,360 15 min ein bisschen darauf eingehen, 147 00:12:54,360 --> 00:12:56,270 was Deanonymisierung eigentlich heißt, 148 00:12:56,270 --> 00:12:58,150 wie das funktioniert und was das 149 00:12:58,150 --> 00:12:59,490 Problem dabei ist. 150 00:12:59,490 --> 00:13:02,460 Dafür können wir anfangen mit dem Datensatz. 151 00:13:02,460 --> 00:13:04,500 Also es gibt immer einen Datensatz 152 00:13:04,500 --> 00:13:07,740 von anonymisierten Nutzerdaten am Anfang, 153 00:13:07,740 --> 00:13:09,480 den man analysieren möchte 154 00:13:09,480 --> 00:13:11,500 und dieser Datensatz enthält 155 00:13:11,500 --> 00:13:12,500 viele verschiedene Eigenschaften und 156 00:13:12,500 --> 00:13:15,121 einige von diesen Eigenschaften zumindest 157 00:13:15,121 --> 00:13:16,121 sind sensitiv, das heißt, sie sind nach 158 00:13:16,121 --> 00:13:18,900 Datenschutzrecht geschützt und dürfen 159 00:13:18,900 --> 00:13:22,670 nicht mit einer bestimmten Person verknüpft werden, weswegen der Datensatz 160 00:13:22,670 --> 00:13:24,240 ja im Endeffekt auch anonymisiert wurde. 161 00:13:24,240 --> 00:13:26,970 Und statt einer Zuordnung zu einer 162 00:13:26,970 --> 00:13:28,580 konkreten Person hat man diesen 163 00:13:28,580 --> 00:13:30,760 Datensätzen daher einfach beispielsweise 164 00:13:30,760 --> 00:13:32,030 eine numerische ID oder einen Identifier, 165 00:13:32,030 --> 00:13:35,030 der keine Rückschlüsse—im Idealfall—auf 166 00:13:35,030 --> 00:13:37,360 die wirkliche Person, die sich hinter den 167 00:13:37,360 --> 00:13:39,980 Daten verbirgt, erlaubt. 168 00:13:39,980 --> 00:13:41,920 Auf der anderen Seite habe ich aber auch 169 00:13:41,920 --> 00:13:43,750 öffentliche Informationen z. B. aus 170 00:13:43,750 --> 00:13:45,390 dem Internet oder anderen Quellen, 171 00:13:45,390 --> 00:13:47,690 die ich mir frei zusammensuchen kann und 172 00:13:47,690 --> 00:13:49,600 und solche öffentlichen Informationen 173 00:13:49,600 --> 00:13:51,500 enthalten auch Eigenschaften von Personen 174 00:13:51,500 --> 00:13:53,860 und enthalten zudem oft den Namen oder 175 00:13:53,860 --> 00:13:58,350 andere Identifikationsmerkmale der Person, 176 00:13:58,350 --> 00:14:00,260 die also Rückschlüsse auf die wirkliche Person zulassen. 177 00:14:00,260 --> 00:14:03,260 Und Deanonymisierung beinhaltet in diesem 178 00:14:03,260 --> 00:14:08,150 Sinne eine Suche nach Eigenschaften, die ich in beiden 179 00:14:08,150 --> 00:14:13,410 Datensätzen entweder direkt oder indirekt identifizieren kann und die mir erlauben, 180 00:14:13,410 --> 00:14:17,530 aufgrund von beispielsweise statistischen Verfahren oder machine learning die 181 00:14:17,530 --> 00:14:22,900 möglichen Kandidaten aus dem anonymisierten Datensatz so weit zu 182 00:14:22,900 --> 00:14:26,840 reduzieren, dass ich mit entweder absoluter Sicherheit oder mit relativ 183 00:14:26,840 --> 00:14:30,420 hoher Wahrscheinlichkeit sagen kann, dass ein Nutzer, den ich hier in den 184 00:14:30,420 --> 00:14:33,580 öffentlichen Daten gefunden habe, dem Nutzer 185 00:14:33,580 --> 00:14:36,050 in dem anonymisierten Datensatz entspricht. 186 00:14:36,060 --> 00:14:40,440 In dem Sinne habe ich diesen User dann deanonymisiert. 187 00:14:43,680 --> 00:14:46,180 Wie Svea gesagt hatte, ist der Datensatz, 188 00:14:46,190 --> 00:14:47,190 den wir bekommen haben, absolut 189 00:14:47,190 --> 00:14:50,000 unzureichend anonymisiert worden, 190 00:14:50,000 --> 00:14:54,330 d. h., das war sehr, sehr einfach möglich, aus den URL-Daten, die wir 191 00:14:54,330 --> 00:14:58,110 erhalten haben, entsprechende Nutzer und Personennamen zu extrahieren. 192 00:14:58,110 --> 00:15:00,800 Im Zweifelsfall hat dafür eine einzige URL ausgereicht. 193 00:15:00,800 --> 00:15:02,670 Hier habe ich zwei Beispiele. 194 00:15:02,670 --> 00:15:05,180 Einmal von Twitter und einmal von XING. 195 00:15:05,180 --> 00:15:06,680 Das sind also beides URLs, 196 00:15:06,680 --> 00:15:08,070 die Rückschlüsse 197 00:15:08,070 --> 00:15:09,700 entweder auf den Nutzernamen 198 00:15:09,700 --> 00:15:11,180 oder sogar auf den Klarnamen 199 00:15:11,180 --> 00:15:12,850 und weitere Angaben von 200 00:15:12,850 --> 00:15:14,630 der Person zulassen. 201 00:15:14,630 --> 00:15:17,080 Und das, was die Identifikation hier ermöglicht, 202 00:15:17,080 --> 00:15:19,670 ist bei der ersten Adresse oben, 203 00:15:19,670 --> 00:15:22,670 dass diese Analytics-Page nur – im Normalfall – dem 204 00:15:22,670 --> 00:15:23,740 eingeloggten Benutzer zur Verfügung steht, 205 00:15:23,740 --> 00:15:26,380 d.h. wenn ich diese URL in einem Datensatz 206 00:15:26,380 --> 00:15:28,040 sehe, kann ich mit relativ hoher 207 00:15:28,040 --> 00:15:30,040 Wahrscheinlichkeit davon ausgehen, dass 208 00:15:30,040 --> 00:15:31,390 der Nutzername, der hier auftaucht, dem 209 00:15:31,390 --> 00:15:34,080 Nutzernamen des anonymisierten Nutzers in 210 00:15:34,080 --> 00:15:35,550 meinem Datensatz entspricht. 211 00:15:35,550 --> 00:15:38,590 Im zweiten Fall ist es weniger offensichtlich. 212 00:15:38,590 --> 00:15:40,590 man kann also nur sehen, dass man hier 213 00:15:40,590 --> 00:15:42,850 eine öffentliche Profiladresse hat, 214 00:15:42,850 --> 00:15:44,960 die man auch so im Internet finden kann, 215 00:15:44,960 --> 00:15:45,960 was aber den Unterschied macht, ist 216 00:15:45,960 --> 00:15:50,410 dieses spezielle Query, das hinten dran hängt, 217 00:15:50,410 --> 00:15:53,110 und das nur in die URL hinzugefügt wird, 218 00:15:53,110 --> 00:15:54,740 wenn ich als eingeloggter Nutzer, 219 00:15:54,740 --> 00:15:56,440 auf mein eigenes Profilbild klicke 220 00:15:56,440 --> 00:15:58,290 d.h. hier ist wieder mit einer hohen 221 00:15:58,290 --> 00:16:01,300 Wahrscheinlichkeit die Möglichkeit gegeben, einen Nutzer der in 222 00:16:01,300 --> 00:16:06,660 den Daten drin ist, eindeutig mit dem Besitzer dieses Profils zu identifizieren. 223 00:16:06,660 --> 00:16:10,940 Und in unserm Datensatz haben wir über 100.000 Benutzer auf diese Weise 224 00:16:10,940 --> 00:16:14,780 identifiziert. Wir haben auch die beiden Firmen übrigens auf diese 225 00:16:14,780 --> 00:16:18,700 Sicherheitsprobleme aufmerksam gemacht. XING hat entsprechend schon Änderungen 226 00:16:18,700 --> 00:16:23,970 eingeführt und Twitter hält es nicht für ein Problem in diesem Sinne und 227 00:16:23,970 --> 00:16:27,911 möchte da keine Änderungen machen aktuell. Also als erstes Take-Away könnte 228 00:16:27,911 --> 00:16:31,730 man vielleicht von dem Vortrag auch mitnehmen, dass man bitte, bitte keine 229 00:16:31,730 --> 00:16:36,570 persönlich identifizierbaren Informationen in URLs packt. Wenn irgend möglich. 230 00:16:38,470 --> 00:16:44,330 Natürlich gibt’s noch etwas weitergehende Verfahren, um auch 231 00:16:44,330 --> 00:16:49,440 Datensätze zu deanonymisieren, die etwas besser anonymisiert wurden. 232 00:16:49,440 --> 00:16:52,090 Eine schöne Arbeit hierzu ist dieses Paper 233 00:16:52,090 --> 00:16:53,770 das aus dem Jahr 2007 stammt, und 234 00:16:53,770 --> 00:16:55,590 wo sich die Forscher 235 00:16:55,590 --> 00:16:57,360 mit einem Datensatz beschäftigt haben, 236 00:16:57,360 --> 00:17:00,360 der von Netflix publiziert wurde und 237 00:17:00,360 --> 00:17:03,199 der also anonymisierte Bewertungsdaten 238 00:17:03,199 --> 00:17:05,109 von Netflix-Usern enthielt. 239 00:17:05,109 --> 00:17:08,200 Der Datensatz wurde auf eine Datenanalyseplattform hochgeladen 240 00:17:08,200 --> 00:17:10,790 mit dem Ziel, dass andere Data-Sscientists, 241 00:17:10,790 --> 00:17:14,360 Datenforscher, sich mit den Daten auseinandersetzen können und 242 00:17:14,360 --> 00:17:18,049 auf die Weise bessere Bewertungs- oder Empfehlungsalgorithmen für neue 243 00:17:18,049 --> 00:17:24,149 Filme finden können. Und die Deanonymisierung dieses Datensatzes war in 244 00:17:24,149 --> 00:17:28,169 diesem Fall möglich ebenfalls durch die Nutzung von öffentlich verfügbaren 245 00:17:28,169 --> 00:17:32,730 Informationen – in diesem Fall war das beispielsweise Bewertungen, die Nutzer auf 246 00:17:32,730 --> 00:17:38,170 der Plattform IMDB abgegeben haben, wo also Nutzer auch Filme bewerten können wie 247 00:17:38,170 --> 00:17:42,450 bei Netflix und wo oft Nutzer-Accounts oder Konten mit dem wirklichen Namen des 248 00:17:42,450 --> 00:17:47,600 Benutzers verknüpft sind. Und die Forscher haben also geschafft, indem sie 249 00:17:47,600 --> 00:17:51,810 die Bewertung von IMDB herangezogen haben und diese mit den Bewertungen auf Netflix 250 00:17:51,810 --> 00:17:57,070 verglichen, die User auf Netflix mit einer hohen Wahrscheinlichkeit mit den Usern auf 251 00:17:57,070 --> 00:18:01,400 IMDB zu identifizieren D. h. hier war eine Deanonymisierung einfach dadurch möglich, 252 00:18:01,400 --> 00:18:05,151 dass es sehr, sehr viele mögliche Kombinationen von Filmen gibt und es sehr 253 00:18:05,151 --> 00:18:09,131 unwahrscheinlich ist, dass zwei Personen die gleiche Anzahl von Filmen auf die 254 00:18:09,131 --> 00:18:11,600 gleiche Weise bewertet haben. 255 00:18:12,660 --> 00:18:15,660 Und diese Technik kann man auch auf 256 00:18:15,660 --> 00:18:17,980 unseren Datensatz anwenden, 257 00:18:21,010 --> 00:18:23,950 dieser enthält wie gesagt ca. 3 Mrd. URLs 258 00:18:24,240 --> 00:18:27,150 von 9 Mio. Web-Domains und wurde 259 00:18:27,150 --> 00:18:29,300 von ca. 3 Mio. Usern generiert. 260 00:18:31,110 --> 00:18:32,650 So. Da die Daten wie gesagt 261 00:18:32,650 --> 00:18:34,690 unzureichend anonymisiert wurden, haben 262 00:18:34,690 --> 00:18:35,690 wir für die weitere Analyse 263 00:18:35,690 --> 00:18:37,400 einfach mal angenommen, 264 00:18:37,400 --> 00:18:41,161 dass der Anbieter wirklich ein Interesse daran hätte die Anonymisierung korrekt 265 00:18:41,161 --> 00:18:45,270 oder möglichst gut durchzuführen und dementsprechend sämtliche Informationen 266 00:18:45,270 --> 00:18:48,140 außer der Domain und der Nutzer-ID aus dem Datensatz entfernt 267 00:18:48,140 --> 00:18:50,390 d.h. wir haben alle Informationen weggeworfen, 268 00:18:50,390 --> 00:18:53,450 bis auf den Fakt: Hat dieser Nutzer, diese Domain in 269 00:18:53,450 --> 00:18:55,240 dem Zeitraum besucht? 270 00:18:55,240 --> 00:18:56,470 Ja oder nein? 271 00:18:56,700 --> 00:18:58,670 So - Also man könnte annehmen, dass diese 272 00:18:58,670 --> 00:19:01,530 starke Form der Anonymisierung doch ausreichend sein sollte, 273 00:19:01,530 --> 00:19:03,230 um die Nutzer davor zu schützen, 274 00:19:03,230 --> 00:19:04,910 wieder deanonymisiert zu werden. 275 00:19:05,170 --> 00:19:07,070 Wir haben weiterhin auch eine Auswahl 276 00:19:07,070 --> 00:19:09,010 getroffen von 1 Mio. Nutzern, 277 00:19:09,010 --> 00:19:11,710 von denen wir über 10 Datenpunkte haben, 278 00:19:11,710 --> 00:19:15,230 weil das die Analyse für die weiteren Schritte vereinfacht und für Nutzer, die 279 00:19:15,230 --> 00:19:20,710 relativ wenige Datenpunkte haben, auch die meisten Techniken nicht anwendbar sind. 280 00:19:21,460 --> 00:19:22,250 So. 281 00:19:22,250 --> 00:19:23,920 Wenn man sich jetzt die Verteilung 282 00:19:23,920 --> 00:19:25,816 der Häufigkeiten der Domains 283 00:19:25,816 --> 00:19:27,303 in dem Datensatz anschaut, 284 00:19:27,303 --> 00:19:28,743 Also hier auf der X-Achse ist 285 00:19:28,743 --> 00:19:30,330 immer der Popularitätsrang einer 286 00:19:30,330 --> 00:19:32,140 entsprechenden Domain aufgetragen 287 00:19:32,140 --> 00:19:34,500 d. h. je weiter links die Domain hier auftaucht, 288 00:19:34,500 --> 00:19:35,500 um so populärer ist sie. 289 00:19:35,500 --> 00:19:39,210 Man hat hier bspw . Google, Facebook und die anderen üblichen Kandidaten 290 00:19:39,210 --> 00:19:42,760 und auf der Y-Achse ist die Anzahl der URLs aufgetragen, 291 00:19:42,760 --> 00:19:45,840 die von dieser entsprechenden Domain in dem Datensatz stammen. 292 00:19:45,840 --> 00:19:48,120 Und wie man sieht: wenn man die 293 00:19:48,120 --> 00:19:54,790 100 populärsten Domains nimmt, sind die schon bereits verantwortlich für mehr als 294 00:19:54,790 --> 00:19:59,580 99% der gesamten Daten in unserem Datensatz. D. h. die meisten Seitenbesuche 295 00:19:59,580 --> 00:20:05,290 finden auf den Top 100 Domains dieser Liste statt. Und wie man sieht, fällt die 296 00:20:05,290 --> 00:20:09,240 Verteilung danach relativ schnell ab. Also es gibt eine Menge Domains, die nur ein 297 00:20:09,240 --> 00:20:13,050 paar hundert mal oder sogar nur 10 oder ein einziges mal von einem Nutzer besucht 298 00:20:13,050 --> 00:20:16,420 wurden. Das hilft uns bei der Anonymisierung, weil wir gleichzeitig die 299 00:20:16,420 --> 00:20:20,241 Möglichkeit haben, über diese populären Domains, die fast jeder User besucht hat 300 00:20:20,241 --> 00:20:23,460 oder von denen jeder User fast eine besucht hat, 301 00:20:23,460 --> 00:20:25,680 eine entsprechende Auswahl zu treffen und 302 00:20:25,680 --> 00:20:29,740 unsere Kombinatorik darauf anzuwenden aber wir auch gleichzeitig Long-Tail-Domains 303 00:20:29,740 --> 00:20:33,710 haben, die also nur von wenigen Nutzern besucht wurden und die entsprechend sehr 304 00:20:33,710 --> 00:20:37,300 gut sich eignen, um einzelne Nutzer wirklich mit wenigen Datenpunkten wieder 305 00:20:37,300 --> 00:20:38,820 zu identifizieren. 306 00:20:40,040 --> 00:20:43,320 So, den ersten Schritt, den wir machen müssen, um unsere 307 00:20:43,320 --> 00:20:48,180 Deanonymisierung vorzunehmen, ist das Katalogisieren der Nutzer. Dafür legen wir 308 00:20:48,180 --> 00:20:53,620 eine einfache Tabelle an, wo wir in jede Zeile entsprechend einen Eintrag für 309 00:20:53,620 --> 00:20:58,230 einen Nutzer machen und in jede Spalte einen Eintrag für eine Domain anlegen und 310 00:20:58,230 --> 00:21:04,060 jedes Element hier ist entweder Null oder Eins und ist genau Eins dann, wenn der 311 00:21:04,060 --> 00:21:08,120 entsprechende Nutzer die entsprechende Domain besucht hat, d. h., das ergibt eine 312 00:21:08,120 --> 00:21:12,590 Matrix mit 9 Mio. Einträgen für die Domains und 1 Mio. Einträgen für die 313 00:21:12,590 --> 00:21:16,840 User, wobei die meisten Elemente dieser Matrix Null sind. Und so eine Matrix lässt 314 00:21:16,840 --> 00:21:20,770 sich sehr effizient auch repräsentieren und kann leicht verarbeitet werden für 315 00:21:20,770 --> 00:21:22,380 die weiteren Schritte. 316 00:21:22,380 --> 00:21:25,560 So der Algorithmus,den wir einsetzen zu der Deanonymisierung ist 317 00:21:25,560 --> 00:21:26,960 wirklich sehr, sehr einfach. 318 00:21:26,960 --> 00:21:30,040 Wir generieren im 1. Schritt die Matrix M 319 00:21:30,040 --> 00:21:31,480 die ich gerade gezeigt habe, 320 00:21:31,480 --> 00:21:34,290 generieren dann weiterhin einen Vektor V 321 00:21:34,290 --> 00:21:36,471 und in diesen Vektor packen wir alle Domains, 322 00:21:36,471 --> 00:21:38,771 die wir aus anderen Informationsquellen, 323 00:21:38,771 --> 00:21:43,840 also aus unserer öffentlichen Information gewonnen haben und die wir vergleichen 324 00:21:43,840 --> 00:21:47,700 wollen mit den Nutzern, die sich in in dem Datensatz befinden d.h. für jede Domain 325 00:21:47,700 --> 00:21:51,470 die wir irgendwo gesehen haben, würden wir eine 1 in diesen Vektor schreiben und 326 00:21:51,470 --> 00:21:55,380 würden dann entsprechend den Vektor nehmen und mit der Matrix multiplizieren. 327 00:21:55,380 --> 00:22:01,070 Das Ergebnis enthält dann wieder für jeden Nutzer eine einzige Zahl und in dem 328 00:22:01,070 --> 00:22:05,040 wir den Maximalwert dieser Zahl nehmen können den Nutzer finden der in unserem 329 00:22:05,040 --> 00:22:08,570 Datensatz die beste Übereinstimmung hat mit den Domain, mit denen wir ihn 330 00:22:08,570 --> 00:22:09,570 vergleichen wollen. Also wirklich ein sehr, 331 00:22:09,570 --> 00:22:11,500 sehr einfaches Verfahren, das allerdings 332 00:22:11,500 --> 00:22:14,230 sehr robust und auch sehr, wie man sehen wird, 333 00:22:14,230 --> 00:22:16,270 effektiv ist für die Deanonymisierung 334 00:22:16,270 --> 00:22:18,700 So, das ist natürlich alles sehr abstrakt 335 00:22:18,700 --> 00:22:21,740 deswegen habe ich hier mal ein Beispiel von einem Nutzer, 336 00:22:21,740 --> 00:22:24,460 den wir zufällig ausgewählt haben aus unserem Datensatz 337 00:22:24,460 --> 00:22:27,680 und wir gehen jetzt einfach mal durch die einzelnen Punkte durch. 338 00:22:27,680 --> 00:22:29,330 Also hier würden wir jedes mal in jedem Schritt 339 00:22:29,330 --> 00:22:31,440 eine Domain hinzunehmen, die der Benutzer 340 00:22:31,440 --> 00:22:34,400 entsprechend besucht hat und dann schauen, 341 00:22:34,400 --> 00:22:37,570 um wie viele Nutzer verringert das die 342 00:22:37,570 --> 00:22:41,950 möglichen Nutzer in unserem Datensatz, die diese Domains besucht haben könnten. 343 00:22:41,950 --> 00:22:43,980 Wie wir sehen wir fangen hier links mit 344 00:22:43,980 --> 00:22:46,390 ca. 1,1 mio. Nutzern an, dann nehmen wir 345 00:22:46,390 --> 00:22:48,180 unsere 1. Domain das ist gog.com 346 00:22:48,180 --> 00:22:49,180 Das ist eine Gaming-Webseite und 347 00:22:49,180 --> 00:22:50,840 da sehen wir schon 348 00:22:50,840 --> 00:22:54,100 haben wir eine extreme Reduktion in der Anzahl der möglichen Nutzer 349 00:22:54,100 --> 00:22:55,450 in dem Datensatz. 350 00:22:55,450 --> 00:22:58,570 Weil jetzt nur noch 15.000 Nutzer dieser Domain drin sind, die 351 00:22:58,570 --> 00:23:02,980 wirklich diese Domain besucht haben und die der potentielle Nutzer sein könnten. 352 00:23:02,980 --> 00:23:07,480 Wie wir auch sehen ist dieser Nutzer Telekom-Kunde d.h. er hat auch diese 353 00:23:07,480 --> 00:23:11,760 kundencenter.telekom.de Domain besucht. Was nochmal die Anzahl der möglichen 354 00:23:11,760 --> 00:23:13,830 Nutzer in dem Datensatz extrem reduziert. 355 00:23:13,830 --> 00:23:16,410 In diesem Falle auf 367. 356 00:23:16,410 --> 00:23:18,120 Er ist auch Sparda-Bank-Kunde, 357 00:23:18,120 --> 00:23:21,690 weswegen wir auch diese banking.sparda.de hinzunehmen können, was 358 00:23:21,690 --> 00:23:26,210 nochmal die Anzahl auf 11 reduziert und das finale Stück des Puzzles, das wir noch 359 00:23:26,210 --> 00:23:27,210 benötigen ist hier die Information, dass 360 00:23:27,210 --> 00:23:29,930 der Nutzer handelsblatt.com unterwegs war, 361 00:23:29,930 --> 00:23:32,280 was dann nur noch einen einzigen Nutzer 362 00:23:32,280 --> 00:23:35,030 ergibt in unserem Datensatz, der mit 363 00:23:35,030 --> 00:23:36,510 diesen Daten kompatibel ist. 364 00:23:36,510 --> 00:23:40,530 D.h. hätten wir diese vier Informationen aus öffentlichen Quellen extrahiert, 365 00:23:40,530 --> 00:23:44,230 könnten wir schon mit Sicherheit sagen, welcher Nutzer in unserem 366 00:23:44,230 --> 00:23:48,050 Datensatz hier entsprechend der richtige Nutzer ist. 367 00:23:50,560 --> 00:23:52,370 So jetzt ist natürlich die Frage: 368 00:23:52,370 --> 00:23:55,700 Wie gut funktioniert das Verfahren in Abhängigkeit auch davon, wieviele 369 00:23:55,700 --> 00:23:57,970 Informationen ich denn überwachen kann von dem Nutzer. 370 00:23:57,970 --> 00:23:59,183 Wir haben ja gesehen, 371 00:23:59,183 --> 00:24:03,020 das wir in unserem Datensatz eigentlich den Nutzer komplett überwachen können, 372 00:24:03,020 --> 00:24:06,900 D.h. wir können jede URL sehn, die der Nutzer mit seinem Browser aufgerufen hat 373 00:24:06,900 --> 00:24:10,770 Aber viele Trecker sehen ja im Prinzip nur einige hundert oder vielleicht einige 374 00:24:10,770 --> 00:24:14,800 tausend oder zehntausend Domains, auf den entsprechende Skripte installiert sind. 375 00:24:16,630 --> 00:24:21,740 Was ich deswegen hier zeige, ist die Effektivität dieser Methode in 376 00:24:21,740 --> 00:24:24,770 Abhängigkeit der Anzahl der Domain die ich zur Verfügung habe. 377 00:24:24,770 --> 00:24:26,860 Wir fangen also an hier links, 378 00:24:26,860 --> 00:24:30,400 wo nur die Top 50 Domains in unserem Datensatz zur Verfügung hätten 379 00:24:30,400 --> 00:24:35,309 und schauen uns an, wenn wir zufälliges Sample von Usern, in diesem Fall 200, 380 00:24:35,309 --> 00:24:39,380 versuchen zu deanonymisieren, wo befindet sich denn der korrekte User 381 00:24:39,380 --> 00:24:42,430 unter all den Nutzern, die wir in dem Datensatz haben. 382 00:24:42,430 --> 00:24:44,340 Man sieht hier für 50 Domains ist das 383 00:24:44,340 --> 00:24:46,260 ungefähr 160. 384 00:24:46,260 --> 00:24:49,050 D.h. es gibt 160 andere Nutzer im Schnitt, die eine höhere 385 00:24:49,050 --> 00:24:52,640 Wahrscheinlichkeit haben, mit den Daten übereinzustimmen, als der wirklich 386 00:24:52,640 --> 00:24:53,590 gesuchte Nutzer. 387 00:24:53,590 --> 00:24:56,590 So, wenn wir jetzt die Anzahl der Domains allerdings erhöhen: 388 00:24:56,590 --> 00:24:59,810 also wir können z.B. auf 100 gehen, sehen wir, das der Wert schon rapide abfällt. 389 00:24:59,810 --> 00:25:03,470 D.h. hier habe ich schon die Anzahl der möglichen Nutzer, die zu einem wirklichen 390 00:25:03,470 --> 00:25:06,220 Nutzer gehören könnten extrem reduziert. 391 00:25:06,220 --> 00:25:07,830 Auf ungefähr 25 392 00:25:07,830 --> 00:25:09,730 und wenn ich die Anzahl der Domains 393 00:25:09,730 --> 00:25:11,920 entsprechend erhöhe auf 200 oder 300 sogar, 394 00:25:11,920 --> 00:25:14,080 bin ich sehr schnell auch in der Lage 395 00:25:14,080 --> 00:25:16,820 wirklich den Nutzer eindeutig wieder zu identifizieren . 396 00:25:16,820 --> 00:25:19,930 Also es gibt keine Fehler, in diesem Sinne dann, für die 397 00:25:19,930 --> 00:25:22,930 Identifikation eines bestimmten Nutzers. 398 00:25:22,930 --> 00:25:27,971 So, das ist natürlich alles graue Theorie und es stellt sich die Frage: 399 00:25:27,971 --> 00:25:31,631 Ist es überhaupt möglich, solche öffentlichen Informationen zu gewinnen 400 00:25:31,631 --> 00:25:34,320 oder ist das eher unwahrscheinlich, dass man an solche 401 00:25:34,320 --> 00:25:36,190 Informationen rankommen würde? 402 00:25:36,190 --> 00:25:38,950 Deswegen habe ich versucht anhand von den Daten, die wir haben und anhand von 403 00:25:38,950 --> 00:25:43,070 öffentlichen Informationsquellen wirklich Deanonymisierung durchzuführen, mit den 404 00:25:43,070 --> 00:25:46,810 Usern, die wir haben. Und ich zeige jetzt drei Beispiele. 405 00:25:46,810 --> 00:25:49,620 Das erste beruht auf der Analyse von Twitter-Daten. 406 00:25:49,620 --> 00:25:52,620 Da haben wir also einen Nutzer aus unserem Datensatz 407 00:25:52,620 --> 00:25:57,540 der einen Twitter-Account hatte zufällig rausgesucht. Haben uns dann angeschaut, 408 00:25:57,540 --> 00:26:01,730 welche URLs dieser Nutzer in dem entsprechenden Zeitraum, über den wir die 409 00:26:01,730 --> 00:26:06,460 Daten hatten, geteilt hat und haben dann aus diesen Tweets hier die entsprechenden 410 00:26:06,460 --> 00:26:10,880 URLs extrahiert, davon wieder Domains generiert oder extrahiert und diese 411 00:26:10,880 --> 00:26:15,200 Domains dann mit unserem Algorithmus genutzt. 412 00:26:15,200 --> 00:26:18,200 So. Wie wir sehen haben wir für 413 00:26:18,200 --> 00:26:19,500 diesen einen Nutzer dabei 8 Domains extrahiert 414 00:26:19,500 --> 00:26:22,500 über den entsprechenden Zeitraum. 415 00:26:22,500 --> 00:26:27,220 Also wir haben hier relativ populäre Domains wie GitHub, Change.org 416 00:26:27,220 --> 00:26:29,190 aber auch viele Blogs, 417 00:26:29,190 --> 00:26:31,370 Beispielsweise: rtorp.wordpress.com 418 00:26:31,370 --> 00:26:33,370 was nur von 129 Nutzern aus dem Datensatz 419 00:26:33,370 --> 00:26:38,830 besucht wurde und auch andere kleinere Webseiten. 420 00:26:38,830 --> 00:26:44,070 Wenn wir jetzt uns anschauen, welche Nutzer aus unserem Datensatz haben 421 00:26:44,070 --> 00:26:50,990 mindestens eine dieser Domains besucht, in dem entsprechenden Zeitraum, und die Nutzer 422 00:26:50,990 --> 00:26:55,700 gegen die Anzahl der Domains, die sie aus diesem Satz von Domains besucht haben 423 00:26:55,700 --> 00:26:58,461 auftragen, bekommen wir diese Grafik hier. 424 00:26:58,461 --> 00:27:01,001 Also die zeigt die ca. 110.000 Nutzer, die 425 00:27:01,001 --> 00:27:06,380 min. eine dieser Webseite besucht haben und zeigt gleichzeitig an: Wieviele von 426 00:27:06,380 --> 00:27:09,809 den entsprechenden Domains der Nutzer wirklich besucht hat. Und wir sehen: 427 00:27:09,809 --> 00:27:13,710 Also, es gibt sehr, sehr viele Nutzer, die min. eine hiervon besucht haben. 428 00:27:13,710 --> 00:27:15,220 Wenn wir allerdings hochgehen zu zwei, drei oder vier davon 429 00:27:15,220 --> 00:27:18,220 verringert sich die Anzahl sehr schnell. 430 00:27:18,220 --> 00:27:23,160 Und wir sehen hier, dass wir oben bei 7 einen einzigen Nutzer haben und dabei 431 00:27:23,160 --> 00:27:27,440 handelt es sich wirklich um den Nutzer, den wir entsprechend deanonymisieren wollten. 432 00:27:27,440 --> 00:27:31,350 D.h. hier ist eine Zuordnung mit 100%ger Sicherheit möglich für diesen Nutzer. 433 00:27:31,350 --> 00:27:36,240 Wir haben das auch für andere Nutzer durchgespielt. Wir konnten nicht immer den 434 00:27:36,240 --> 00:27:39,840 korrekten Nutzer rausfinden. Aber wir konnten in den meisten Fällen die Anzahl 435 00:27:39,840 --> 00:27:43,250 möglicher Nutzer auf ca. 10–20 reduzieren. 436 00:27:47,430 --> 00:27:49,550 Das zweite Beispiel, dass ich jetzt noch 437 00:27:49,550 --> 00:27:54,999 zeigen möchte, ist anhand von YouTube-Daten gemacht worden. 438 00:27:54,999 --> 00:27:59,650 Oft ist es so, dass viele Daten in solchen Datensätzen wirklich anonymisiert werden, 439 00:27:59,650 --> 00:28:03,870 aber bestimmte Daten davon ausgenommen werden, weil es ein starkes Interesse gibt, 440 00:28:03,870 --> 00:28:05,220 seitens der Unternehmen, diese zu nutzen. 441 00:28:05,220 --> 00:28:08,220 YouTube-Videos sind ein gutes Beispiel 442 00:28:08,220 --> 00:28:12,600 dafür, weil Unternehmen bspw. wissen möchten, welche Videos haben bestimmte 443 00:28:12,600 --> 00:28:16,830 Nutzer angeschaut, in welcher Kombination, um daraus für ihr Marketing Erkenntnisse 444 00:28:16,830 --> 00:28:20,390 abzuleiten. Und man könnte auch meinen, dass diese Information über öffentliche 445 00:28:20,390 --> 00:28:23,770 Videos, die eigentlich ja jeder sich anschauen kann im Internet, 446 00:28:23,770 --> 00:28:25,110 auch nicht sehr kritisch ist. 447 00:28:25,110 --> 00:28:28,110 Was wir gemacht haben deswegen, um zu zeigen, ob das wirklich so ist, 448 00:28:28,110 --> 00:28:32,320 ist, dass wir wieder aus unserem Datensatz einen Nutzer extrahiert haben, 449 00:28:32,320 --> 00:28:37,140 von diesem Nutzer die Favoritenliste der YouTube-Videos uns besorgt haben, die auch 450 00:28:37,140 --> 00:28:40,350 öffentlich ist im Normalfall, also man kann das Einstellen natürlich, das es 451 00:28:40,350 --> 00:28:43,520 nicht öffentlich ist aber 90% der User machen das nicht und haben das 452 00:28:43,520 --> 00:28:46,830 entsprechend dann in der Öffentlichkeit und haben uns aus dieser Liste per 453 00:28:46,830 --> 00:28:52,020 YouTube-API automatisiert sämtliche Video-IDs besorgt. Und mit diesen 454 00:28:52,020 --> 00:28:55,720 Video-IDs haben wir wieder unseren Algorithmus gefüttert, diesmal allerdings 455 00:28:55,720 --> 00:28:59,280 mit den kompletten URL-Daten, da die 456 00:28:59,280 --> 00:29:01,990 Domains halt nicht die Video-IDs enthalten. 457 00:29:01,990 --> 00:29:04,780 Ups... jetzt habe ich falsch gedrückt ha so... also 458 00:29:04,780 --> 00:29:07,010 Wie vorher haben wir also 459 00:29:07,010 --> 00:29:10,890 diese IDs, das sind ungefähr 20 und haben auf der anderen Seite sämtliche 460 00:29:10,890 --> 00:29:14,950 Nutzer, die min. 1 von diesen Videos angeschaut haben. Wie wir sehen können 461 00:29:14,950 --> 00:29:19,990 sind das in dem Fall ca. 20.000, wobei wieder eine Menge von den Nutzern sich 462 00:29:19,990 --> 00:29:25,360 min. 1 angeschaut haben. Aber die Anzahl der potentiellen Nutzer, die sich mehrere 463 00:29:25,360 --> 00:29:29,799 angeschaut haben rapide runtergeht. Und wir sehen hier Bspw. für vier oder fünf 464 00:29:29,799 --> 00:29:33,270 oder sechs haben wir nur noch eine Handvoll User und wir haben wieder einen 465 00:29:33,270 --> 00:29:37,860 Treffer, der hier ganz oben liegt, bei 9 angeschauten Videos und dabei handelt es 466 00:29:37,860 --> 00:29:42,519 sich wieder um den Nutzer, den wir im vorherigen Schritt extrahiert haben. 467 00:29:42,519 --> 00:29:44,440 Wir sehen also, es ist relativ einfach 468 00:29:44,440 --> 00:29:46,630 anhand von ner kleinen Anzahl von Datenpunkten, 469 00:29:46,630 --> 00:29:48,900 selbst aus ner sehr großen Anzahl von Nutzern, 470 00:29:48,900 --> 00:29:51,020 in diesem Fall über 1 Mio. Nutzer, 471 00:29:51,020 --> 00:29:55,100 entsprechend auf einen User zurückzuschließen. Und man muss dazu 472 00:29:55,100 --> 00:29:58,231 sagen, dass solche Verfahren, dass YouTube-Verfahren, sogar besser 473 00:29:58,231 --> 00:30:02,240 funktioniert hat, als die Anonymisierung über Twitter. Weil, ich schätze mal, die 474 00:30:02,240 --> 00:30:05,650 Verteilung der Videos und Anzahl der Videos auf YouTube noch mal höher ist als 475 00:30:05,650 --> 00:30:09,260 die Anzahl der entsprechenden Domains die wir zur Verfügung haben. D.h. eine 476 00:30:09,260 --> 00:30:12,950 YouTube-Video-ID ist in dem Sinne sogar ein stärkeres Deanonymisierungs-Signal 477 00:30:12,950 --> 00:30:15,810 als die entsprechende Domain aus dem Twitter-Feed. 478 00:30:15,810 --> 00:30:17,820 So, dass letzte Beispiel: 479 00:30:17,820 --> 00:30:25,760 dass ich zeigen möchte - basiert auf der Analyse von Geodaten. Dafür haben wir uns 480 00:30:25,760 --> 00:30:30,640 angeschaut, wie wir aus unserem Datensatz Geodaten extrahieren oder Koordinaten 481 00:30:30,640 --> 00:30:34,360 extrahieren können. Und wir haben rausgefunden, dass es relativ einfach 482 00:30:34,360 --> 00:30:39,070 über Google-Maps-URLs geht. Die also wenn man sich einen bestimmten Bereich anschaut 483 00:30:39,070 --> 00:30:44,490 meisten oben in der URL die geographischen Koordinaten enthalten. D.h. wir konnten 484 00:30:44,490 --> 00:30:48,930 aus unserem Datensatz einige Mio. von diesen Koordinatenpaaren extrahieren und 485 00:30:48,930 --> 00:30:52,280 die auch nach entsprechenden Nutzer gruppieren und können damit eine 486 00:30:52,280 --> 00:30:57,990 komplette Karte von der Nutzeraktivität anfertigen. Also wir sehen z.B. welche 487 00:30:57,990 --> 00:31:01,680 Kartenausschnitte sich User angeschaut haben. Wenn sie z.B. nach Urlaubszielen 488 00:31:01,680 --> 00:31:06,290 geschaut haben, vielleicht nach ihrem Arbeitsort, nach einem Weg, nach einer 489 00:31:06,290 --> 00:31:09,670 Wegbeschreibung. Und können diese Information also auch Nutzergenau 490 00:31:09,670 --> 00:31:14,581 verarbeiten. Und Geodaten sind besonders interessant hierfür, weil es sehr viel 491 00:31:14,581 --> 00:31:20,960 schwieriger ist, diese selbst zu ändern, da es ja relativ einfach ist seine 492 00:31:20,960 --> 00:31:24,910 Surfgewohnheiten oder Videogewohnheiten im Zweifelsfall anzupassen aber es relativ 493 00:31:24,910 --> 00:31:29,710 schwierig ist, bspw. die Arbeitsstelle oder den Wohnort oder sämtliche vertraute 494 00:31:29,710 --> 00:31:33,549 Orte zu wechseln. D.h. diese Information sehr, in diesem Sinne sticky, in dem 495 00:31:33,549 --> 00:31:38,250 Sinne, dass sie dem User über lange Zeit auch zuordenbar sind normalerweise. Und 496 00:31:38,250 --> 00:31:41,900 wir können auch wieder aus verschiedenen öffentlichen Quellen Informationen 497 00:31:41,900 --> 00:31:44,500 extrahieren. Bspw. aus Google-Maps oder 498 00:31:44,500 --> 00:31:47,370 auch über Flickr, wo auch viele Fotos geocodiert sind und 499 00:31:47,370 --> 00:31:50,860 können dann über diese Information ein Matching mit den Daten, die wir in 500 00:31:50,860 --> 00:31:52,670 unserem Datensatz haben, durchführen. 501 00:31:52,670 --> 00:31:55,870 Und hier ist es auch so, dass wir über eine relativ kleine Anzahl 502 00:31:55,870 --> 00:31:59,060 also weniger als 10 Datenp unkte im Idealfall, ähm Normalfall, 503 00:31:59,060 --> 00:32:03,980 den einzelnen Nutzer aus dem Datensatz extrahieren und identifizieren können. 504 00:32:07,230 --> 00:32:08,809 So, eine Frage die ich oft gestellt bekomme, ist: 505 00:32:08,809 --> 00:32:11,809 Kann ich mich verstecken in meinen Daten? 506 00:32:11,809 --> 00:32:15,970 Also, ist es möglich dadurch, dass ich mich unvorhergesehen verhalte, 507 00:32:15,970 --> 00:32:19,930 dass ich vielleicht Webseiten öffne, die ich normalerweise nie anschauen 508 00:32:19,930 --> 00:32:23,870 würde, dass ich den Algorithmus verwirre und dementsprechend nicht in den Daten 509 00:32:23,870 --> 00:32:30,330 auftauche werde? Da muss leider sagen, dass funktioniert vermutlich nicht, aus 510 00:32:30,330 --> 00:32:36,760 dem einfachen Grund, dass wir ja ein Matching machen über die Zuordnung von 511 00:32:36,760 --> 00:32:40,580 Eigenschaften, die entweder erfüllt oder nicht erfüllt sind und ich als einzelner 512 00:32:40,580 --> 00:32:44,380 Nutzer ja nur die Möglichkeit habe, zusätzliche Datenpunkte zu meinem 513 00:32:44,380 --> 00:32:48,080 persönlichen Vektor hinzuzufügen aber meistens keine Datenpunkte von diesem 514 00:32:48,080 --> 00:32:52,640 entfernen kann. D.h. wenn ich hier schon mit meinen bestehenden Datenpunkten zu 515 00:32:52,640 --> 00:32:56,111 100% identifiziert bin, kann ich eigentlich so viele Punkte hinzufügen wie 516 00:32:56,111 --> 00:33:01,720 ich möchte und werde trotzdem nicht im normalfall von dem Algorithmus mit einem 517 00:33:01,720 --> 00:33:06,170 anderen User verwechselt werden können. D.h. diese Verfahren ist in dem Sinne sehr 518 00:33:06,170 --> 00:33:12,690 robust gegenüber der Perturbation oder der Änderung der Daten durch den Nutzer. 519 00:33:12,690 --> 00:33:18,550 Als kleines Zwischenfazit kann man also sagen, dass diese Art von Datensätzen die 520 00:33:18,550 --> 00:33:22,390 sehr viele Dimensionen und sehr viele Eigenschaften enthalten extrem schwierig 521 00:33:22,390 --> 00:33:27,200 zu anonymisieren sind und auch bei entsprechender Absicht man nicht immer 522 00:33:27,200 --> 00:33:29,650 sicher sein kann, dass Anonymisierungsmaßnahmen, 523 00:33:29,650 --> 00:33:31,150 die man ergreift, wirklich 524 00:33:31,150 --> 00:33:34,050 ausreichend sind, um sämtliche Nutzer oder sogar nur einen kleinen Teil 525 00:33:34,050 --> 00:33:36,330 von Nutzern in dem Datensatz zu schützen. 526 00:33:36,330 --> 00:33:38,100 Weiterhin ist es auch so, dass heute 527 00:33:38,100 --> 00:33:41,530 eigentlich immer mehr öffentlich verfügbare Informationen über Personen 528 00:33:41,530 --> 00:33:46,410 zur Verfügung stehen, die auch genutzt werden können, um Daten die anonymisiert 529 00:33:46,410 --> 00:33:51,040 wurden z.B. vor 10 Jahren oder vor 5 Jahren jetzt mit neuen Datenpunkten in dem 530 00:33:51,040 --> 00:33:55,030 Sinne besser zu deanonymisieren. D.h. es wird immer einfacher möglich, auch aus 531 00:33:55,030 --> 00:33:58,280 bestehenden Datensätzen entsprechende Nutzerdaten und 532 00:33:58,280 --> 00:34:02,630 Personen-Identifikationsmerkmale zu extrahieren. Und wie wir gesehen haben, 533 00:34:02,630 --> 00:34:06,290 reichen dafür oft eigentlich schon sehr wenige Datenpunkte aus, um wirklich 534 00:34:06,290 --> 00:34:10,819 einzelne Nutzer herauszusuchen und eindeutig zu identifizieren. 535 00:34:10,819 --> 00:34:17,629 S: Ja was bedeutet das? Was bedeutet das, wenn man mit seinen 536 00:34:17,629 --> 00:34:19,589 eigenen Daten konfrontiert wird? 537 00:34:19,589 --> 00:34:22,830 Also wenn jemand anders einen mit seinen Daten konfrontiert? 538 00:34:22,830 --> 00:34:24,700 Also z.B. Ich? 539 00:34:24,700 --> 00:34:27,530 Wir haben, die Recherche war für ein politisches Magazin 540 00:34:27,530 --> 00:34:29,520 und deswegen haben wir vor allem nach 541 00:34:29,520 --> 00:34:32,330 Politikern geschaut und auch die Politiker selbst 542 00:34:32,330 --> 00:34:34,729 oder deren Mitarbeiter gefunden in diesen Daten. 543 00:34:34,729 --> 00:34:37,449 Waren zwei Grüne dabei, drei von der SPD, 544 00:34:37,449 --> 00:34:39,808 darunter auch Mitarbeiter aus dem 545 00:34:39,808 --> 00:34:42,808 Büro von Lars Klingbeil, Netzpolitischer Specher, 546 00:34:42,808 --> 00:34:50,549 ein Europaparlamentarier und das zog sich sozusagen bis ins Kanzleramt und 547 00:34:50,549 --> 00:34:54,239 auch dort in einem Büro, bei einem Staatsminister bei der Bundeskanzlerin war 548 00:34:54,239 --> 00:34:58,599 auch ein Mitarbeiter betroffen. Wobei die Mitarbeiter fast interessanter sind als 549 00:34:58,599 --> 00:35:02,389 die Politiker selbst, weil die Mitarbeiter sehr viel inhaltliche Arbeit für die 550 00:35:02,389 --> 00:35:04,879 Politiker machen. Und auch sowas, 551 00:35:04,879 --> 00:35:08,209 wie deren Reisen planen, Kontakte herstellen. 552 00:35:08,209 --> 00:35:13,139 Jetzt wollte selbstverständlich nicht jeder gerne mit uns reden und 553 00:35:13,139 --> 00:35:16,199 vor allem nicht vor der Kamera. 554 00:35:16,199 --> 00:35:19,729 Einer hat es dann getan, das ist Valerie Wilms. 555 00:35:19,729 --> 00:35:23,930 Bevor wir sie jetzt mal hören, schauen mir doch erstmal in ihre Daten. 556 00:35:23,930 --> 00:35:26,430 *lachen* 557 00:35:26,430 --> 00:35:31,609 Sie hat es freigegeben für diesen Vortrag, sage ich noch dazu. Weil hier habe ich 558 00:35:31,609 --> 00:35:36,489 jetzt sozusagen wirklich nichts anonymisiert, wie in dem Datensatz davor. 559 00:35:36,489 --> 00:35:43,950 So 01.08., ist auch Frühaufsteherin, erst mal Banking... noch mal Banking... d.h. 560 00:35:43,950 --> 00:35:49,930 man kann also hier ziemlich gut sehen z.B. wo Leute ihre Konten haben. Auf die Konten 561 00:35:49,930 --> 00:35:55,269 selbst kann man nicht zugreifen, aber man weiß wo. Bisschen unangenehmer wird's 562 00:35:55,269 --> 00:36:00,449 dann für sie sozusagen Ende August, da haben viele Leute ihre in Deutschland ihre 563 00:36:00,449 --> 00:36:04,069 Steuererklärung gemacht. Das habe ich auch als Video nochmal. Da kann man 564 00:36:04,069 --> 00:36:05,069 nochmal so ein bisschen runterscrollen, 565 00:36:05,069 --> 00:36:07,960 Dann sehen wir ein bißchen mehr von ihrer 566 00:36:07,960 --> 00:36:13,870 Steuererklärung. Also man kann jetzt hier sozusagen auf Elster-Online nicht selbst 567 00:36:13,870 --> 00:36:18,160 zugreifen. Also wenn wir das jetzt machen würden, würden wir sozusagen nicht 568 00:36:18,160 --> 00:36:22,299 weiter kommen, weil dann auch nach einem Passwort verlangt wird. Aber wir können 569 00:36:22,299 --> 00:36:27,190 sehen, welche Vordrucke sie sich angeschaut hat. Und können so 570 00:36:27,190 --> 00:36:31,040 Informationen gewinnen, über Dinge, 571 00:36:31,040 --> 00:36:37,200 die sie gedenkt zu versteuern. Und es ist recht detailreich. 572 00:36:43,530 --> 00:36:49,359 Ja, was hat sie nur dazu gesagt, als wir bei ihr im Büro saßen? 573 00:36:49,359 --> 00:36:54,269 Wir können Sie einmal kurz hören dazu. 574 00:36:54,269 --> 00:36:58,550 Valerie Wilms: Ist rechts alles zu sehen? Scheiße! 575 00:36:58,550 --> 00:37:01,450 *Gelächter* 576 00:37:01,450 --> 00:37:12,360 *Applaus* 577 00:37:12,360 --> 00:37:17,180 S: Gab noch eine andere Geschichte, auf die wir sie angesprochen haben. 578 00:37:17,180 --> 00:37:20,779 Gibt ja nicht nur Steuererklärungen sondern man schaut ja auch sowas bei 579 00:37:20,779 --> 00:37:26,470 Google nach Tebonin nimmt man so bei Hörsturz, Tinitus, 580 00:37:26,470 --> 00:37:29,160 Abgeschlagenheit. Ist natürlich gerade 581 00:37:29,160 --> 00:37:33,079 für Politiker ein großes Problem, wenn solch Informationen an die Öffentlichkeit 582 00:37:33,079 --> 00:37:38,419 gelangen, Menschen dann falsche Schlüsse daraus ziehen oder auch, ja, die Leute 583 00:37:38,419 --> 00:37:44,050 damit erpressen können. Z.B. haben wir sie auch darauf angesprochen. 584 00:37:44,050 --> 00:37:47,329 Will ich die Reaktion nicht vorenthalten. 585 00:37:47,819 --> 00:37:51,519 Valerie Wilms: Ich weiß gar nicht in welchem Zusammenhang ich dieses 586 00:37:51,519 --> 00:37:54,549 Tebonin mir da angeguckt habe, das ist nicht schön, 587 00:37:54,549 --> 00:37:59,890 sowas nachträglich zu lesen. Vor allen Dingen verknüpft mit dem eigenen Namen. 588 00:37:59,890 --> 00:38:05,480 S: Ja, das war Valerie Wilms zu ihren Daten. An diesem ganz kleinen Ausschnitt 589 00:38:05,480 --> 00:38:10,940 sieht man wie Problematisch diese Daten sind. Ich hab jetzt nicht die Beiträge 590 00:38:10,940 --> 00:38:17,640 gezeigt, wo Menschen ihre sexuellen Vorlieben ausleben. Weil, dass betrifft 591 00:38:17,640 --> 00:38:22,039 natürlich auch Leute, die in öffentlichen oder in relevanten 592 00:38:22,039 --> 00:38:27,369 Positionen stehen. Natürlich sind auch Richter in diesen Daten. Natürlich sind 593 00:38:27,369 --> 00:38:34,819 auch Wirtschaftsbosse in diesen Daten. Und natürlich sind das alles Menschen und die 594 00:38:34,819 --> 00:38:39,779 haben Träume und die haben Gedanken, und es überhaupt nichts, was in dritte Hände 595 00:38:39,779 --> 00:38:44,859 gehört. Und deshalb war mit allen mit denen wir gesprochen haben, im Zuge dieser 596 00:38:44,859 --> 00:38:51,930 Recherche, war das für alle Betroffenen sehr schockierend. Aber wer hat sie 597 00:38:51,930 --> 00:38:57,489 ausgespäht? Woher kommen diese Daten? War es irgendwie ein shady Trojaner oder so 598 00:38:57,489 --> 00:39:04,039 auf dem Rechner? Nein. Wir sind relativ schnell drauf gekommen, dass es 599 00:39:04,039 --> 00:39:09,579 Browser-Plugins sind und haben dann einen kleinen Test gemacht, haben einen Nutzer 600 00:39:09,579 --> 00:39:15,190 gebeten Add-Ons zu deinstallieren. Und haben dann eines herausfinden können; 601 00:39:15,190 --> 00:39:26,069 Web-of-Trust - Was machen die so? Safe Web Search & Browsing. 602 00:39:26,069 --> 00:39:28,220 *Applaus* 603 00:39:28,220 --> 00:39:34,200 Haben das dann noch mal mit einem sauberen Browser sozusagen gegengetestet in der 604 00:39:34,200 --> 00:39:40,749 Zeit als wir eine Möglichkeit hatten Live in die Daten zuzugreifen, das hat ein 605 00:39:40,749 --> 00:39:46,569 Securityspezialist für uns gemacht Mike Kuketz und der hatte eine extra Webseite 606 00:39:46,569 --> 00:39:50,380 aufgesetzt, einen sauberen Browser, nur dieses eine Plugin installiert und wir 607 00:39:50,380 --> 00:39:54,069 konnten ihn in den Daten sehen. Und dadurch konnten wir sicher sein, dass es 608 00:39:54,069 --> 00:39:58,440 eben bei diesem einen Plugin auch tatsächlich der Fall war, dass dieser Weg 609 00:39:58,440 --> 00:39:59,579 eben so gegangen ist. 610 00:39:59,579 --> 00:40:07,349 A: Ja, warum ist das Tracking per App oder Extension eigentlich so interessant für 611 00:40:07,349 --> 00:40:10,880 die Anbieter? Nun für Unternehmen ist es eigentlich immer sehr spannend ein 612 00:40:10,880 --> 00:40:15,380 möglichst detailliertes Bild von einem entsprechenden Nutzer zu gewinnen. D.h. 613 00:40:15,380 --> 00:40:19,100 ich möchte, wenn möglich, sämtliche Daten die über den Nutzer zur Verfügung 614 00:40:19,100 --> 00:40:23,099 stehen. Und bei normalen Treckern ist das ja so, dass ich als Nutzer mir eine 615 00:40:23,099 --> 00:40:26,590 Webseite runterlade, in meinen Browser, dann ein entsprechend ein 616 00:40:26,590 --> 00:40:30,159 JavaScript-Applet oder ein anderes Tracking-Tag ausgeführt wird, dass eine 617 00:40:30,159 --> 00:40:32,369 entsprechende Verbindung aufbaut zu einem 618 00:40:32,369 --> 00:40:34,290 Tracking-Server und da Bspw. ein Cockie 619 00:40:34,290 --> 00:40:37,609 setzt oder eine andere Information speichert, die mich dann als Nutzer 620 00:40:37,609 --> 00:40:42,319 nachverfolgt. In den letzten hat sich dagegen, verständlicherweise, eine Menge 621 00:40:42,319 --> 00:40:47,319 Widerstand auch geregt und viele Leute benutzen mittlerweile Blocker, die 622 00:40:47,319 --> 00:40:51,249 verhindern, dass solche Tracking-Scripte ausgeführt werden. Oder die Verbindung zu 623 00:40:51,249 --> 00:40:54,899 den Tracking-Servern abfangen oder blockieren. D.h. es wird immer schwieriger 624 00:40:54,899 --> 00:40:59,299 für die Tracking-Anbieter qualitativ hochwertige Daten zu bekommen und da liegt 625 00:40:59,299 --> 00:41:04,870 es doch eigentlich nahe, dass man sich solchen Mechanismen, in Form von einer 626 00:41:04,870 --> 00:41:09,020 Extension, zu Nutze macht, in dem man die Sicherheitsmaßnahmen, die es in dem 627 00:41:09,020 --> 00:41:12,609 Browser eigentlich per Default gibt, relativ einfach umgeht und dann über 628 00:41:12,609 --> 00:41:16,969 diesen Side-Channel sozusagen die Information bei jeder einzeln aufgerufenen 629 00:41:16,969 --> 00:41:20,960 URL direkt an den Tracking-Server sendet. Und das hat einen weiteren Vorteil für 630 00:41:20,960 --> 00:41:24,530 die Anbieter, weil damit nicht nur die Seiten überwacht werden können, die 631 00:41:24,530 --> 00:41:28,160 wirklich Tracking-Codes auch explizit beinhalten, sondern auch viele andere 632 00:41:28,160 --> 00:41:33,200 Webseiten, die überhaupt keine Codes auf der Seite haben. Also Bspw. Seiten von 633 00:41:33,200 --> 00:41:37,349 öffentlich Rechtlichen Institutionen, die ihre Nutzer im Normalfall nicht tracken. 634 00:41:37,349 --> 00:41:42,011 D.h. es ist also möglich über dieses Verfahren von einer kleineren Anzahl an 635 00:41:42,011 --> 00:41:46,839 Usern allerdings ein sehr viel größeres Spektrum an Daten, im Idealfall oder im 636 00:41:46,839 --> 00:41:51,440 schlimmsten Fall, je nachdem wie man das sieht, die komplette Browsinghistory von 637 00:41:51,440 --> 00:41:56,009 diesem entsprechenden User zu gewinnen. So, wir haben uns in unserem Datensatz 638 00:41:56,009 --> 00:42:00,759 dafür nochmal angeschaut, wie viele von diesen Extensions es eigentlich gibt und 639 00:42:00,759 --> 00:42:05,079 wie viele Daten jede von diesen Extensions generiert. Und hier haben wir wieder einen 640 00:42:05,079 --> 00:42:08,499 doppelt logarithmischen Plot, wo auf der einen Seite hier der Rang der 641 00:42:08,499 --> 00:42:10,449 entsprechenden Extension aufgetragen ist 642 00:42:10,449 --> 00:42:12,859 d.h. je mehr Datenpunkte von der Extension 643 00:42:12,859 --> 00:42:18,210 wir bekommen haben, umso weiter finden Sie hier die Extension links. Und auf der 644 00:42:18,210 --> 00:42:21,879 anderen Achse haben wir die Anzahl der Datenpunkte entsprechend aufgetragen. Und 645 00:42:21,879 --> 00:42:26,630 wir sehen hier, dass die populärste Extension, das ist Web-of-Trust bereits 646 00:42:26,630 --> 00:42:31,319 für 1 Mrd. Datenpunkte in dem Datensatz verantwortlich ist. Und wenn man die 647 00:42:31,319 --> 00:42:36,809 ersten 10 Extensions nehmen, sehen wir, dass bereits 95% der Daten davon abgedeckt 648 00:42:36,809 --> 00:42:42,380 werden. D.h. es ist also eine kleine Anzahl von Extension, die eigentlich die 649 00:42:42,380 --> 00:42:46,660 größte Masse an Daten hier für diesen Anbieter produziert. Wobei es auch sehr 650 00:42:46,660 --> 00:42:50,990 viele, also hier fast 10.000 verschiedene Application-IDs gibt, die teilweise einige 651 00:42:50,990 --> 00:42:57,200 100 oder bis zu einige 100.000 oder einige Mio. Datenpunkte ihrerseits liefern. Es 652 00:42:57,200 --> 00:43:00,999 ist nicht unbedingt gesagt, dass es auch 10.000 Extensions sind, weil wir keine 653 00:43:00,999 --> 00:43:04,839 eindeutige Zuordnung zu der Application-ID haben, d.h. das ist eher eine obere 654 00:43:04,839 --> 00:43:08,279 Abschätzung. Und um jetzt ein genaueres Bild zu bekommen, 655 00:43:08,279 --> 00:43:10,939 wie verseucht eigentlich so ein Web-Store 656 00:43:10,939 --> 00:43:14,159 ist, haben wir eine Verhaltensanalyse durchgeführt, 657 00:43:14,159 --> 00:43:17,189 wofür wir mit einem Automatisierungsframework: 658 00:43:17,189 --> 00:43:19,839 Webdriver - uns einfach einen Chrome-Browser 659 00:43:19,839 --> 00:43:23,419 genommen haben, da automatisiert verschiedene Extensions installiert haben 660 00:43:23,419 --> 00:43:28,869 und dann mit diesem Webdriver entsprechend verschiedene Webseiten angesurft haben, 661 00:43:28,869 --> 00:43:33,589 wobei wir über einen Python-basierten Proxy-Server dann mitgeloggt haben, welche 662 00:43:33,589 --> 00:43:38,109 URLs bzw. welche Webseiten von dem entsprechenden Browser geöffnet wurden, 663 00:43:38,109 --> 00:43:41,609 wenn wir bestimmte Seiten angesteuert haben. D.h. darüber konnten wir 664 00:43:41,609 --> 00:43:46,069 verfolgen, ob der Browser beim Öffnen von bestimmten Seiten oder von allen URLs 665 00:43:46,069 --> 00:43:50,980 vielleicht noch zusätzlich Informationen eventuell an Dritte schickt. Und das haben 666 00:43:50,980 --> 00:43:54,680 wir für ca. 500 Plugins so ausgeführt und wie man hier sehen kann, verhalten 667 00:43:54,680 --> 00:43:58,719 sich die meisten eigentlich so, wie man es erwarten würde, d.h die öffnen nur die 668 00:43:58,719 --> 00:44:03,180 URLs, die entsprechende Anzahl der URLs, die man erwarten würde für den 669 00:44:03,180 --> 00:44:08,289 Testdatensatz, den wir verwendet haben. Und gleichzeitig gibt es auch einige 670 00:44:08,289 --> 00:44:12,750 Extensions, z.B. das hier, dass sich merkwürdig verhält und sehr viele 671 00:44:12,750 --> 00:44:16,640 URL-Aufrufe hat. Und hier haben wir bei einer genauen Analyse auch gesehen, dass 672 00:44:16,640 --> 00:44:20,710 das entsprechende Plugin oder die Extension auch Daten an einen Drittserver 673 00:44:20,710 --> 00:44:25,150 schickt, bei jeder aufgerufenen URL. Wobei man sagen muss, dass jetzt aus den 500 674 00:44:25,150 --> 00:44:30,449 untersuchten Extension nur einige dabei waren, die wirklich eventuell schadhaftes 675 00:44:30,449 --> 00:44:33,599 Verhalten zeigen. D.h. die Wahrscheinlichkeit, dass man sich mit 676 00:44:33,599 --> 00:44:37,430 Extension infiziert, in dem man Sachen runterlässt aus dem Webstore ist aktuell 677 00:44:37,430 --> 00:44:43,990 noch relativ gering, scheint aber größer zu werden. So, die letzte Frage ist 678 00:44:43,990 --> 00:44:48,559 natürlich: Wie oder kann ich mich überhaupt gegen so etwas schützen? Und 679 00:44:48,559 --> 00:44:53,759 ich denke, daß in einigen Jahren es trotz client-seitigen blockierens von Trackern 680 00:44:53,759 --> 00:44:57,680 immer schwieriger sein wird sich als Nutzer anonym im Internet zu bewegen, weil 681 00:44:57,680 --> 00:45:01,999 es, wie wir gesehen haben, anhand von einigen wenigen Datenpunkten möglich ist, 682 00:45:01,999 --> 00:45:06,069 eine Identifikation von an sich anonymisierten Daten herzustellen. 683 00:45:06,069 --> 00:45:09,899 Dh. selbst wenn ich mit einem Tracker oder eine Extension sämtliche Tracker 684 00:45:09,899 --> 00:45:13,320 blockiere, habe ich immer noch solche Dinge wie: meine IP-Adresse, meinen 685 00:45:13,320 --> 00:45:17,200 User-Agent und die Kombination aus mehreren solchen Eigenschaften kann schon 686 00:45:17,200 --> 00:45:20,989 ausreichen, um mich wieder eindeutig zu identifizieren in größeren Datensätzen. 687 00:45:20,989 --> 00:45:25,579 D.h. wenn ich wirklich sicher im Internet unterwegs sein möchte, müsste ich 688 00:45:25,579 --> 00:45:28,950 zumindest darauf achten, dass ich möglichst viele dieser Eigenschaften 689 00:45:28,950 --> 00:45:33,200 ständig rotiere und ändere in dem ich bspw. VPN-Lösungen benutze, die auch 690 00:45:33,200 --> 00:45:37,630 rotierende IP-Adressen verwenden. Wobei das auch keine Garantie natürlich ist, 691 00:45:37,630 --> 00:45:41,900 dass man nicht getrackt werden kann. D.h. es wird also immer schwieriger sich 692 00:45:41,900 --> 00:45:48,160 im Internet zu bewegen, ohne dem Risiko der Deanonymisierung ausgesetzt zu sein. 693 00:45:48,160 --> 00:45:57,440 S: Genau, was ist so das Ergebnis von der Recherche gewesen? Also WOT verschwand 694 00:45:57,440 --> 00:46:02,499 relativ kurz nach der Veröffentlichung des Berichts zunächst mal aus dem 695 00:46:02,499 --> 00:46:08,519 Chrome-Webstore und aus dem Mozilla-Store und es haben natürlich sehr viele Nutzer 696 00:46:08,519 --> 00:46:12,910 wie verrückt Plugins deinstalliert. Deswegen können wir davon ausgehen, dass 697 00:46:12,910 --> 00:46:20,390 auch der Datenstrom dann eingebrochen ist. Aber natürlich die Plugins, die weiterhin 698 00:46:20,390 --> 00:46:26,239 installiert sind und Nutzer, die es jetzt nicht deinstalliert haben, da läuft es 699 00:46:26,239 --> 00:46:30,650 natürlich weiter. Und auch inzwischen, jetzt ein paar Wochen nach der Recherche, 700 00:46:30,650 --> 00:46:40,150 ist WOT wieder im Google-Chrome-Store verfügbar. So mein persönliches Fazit 701 00:46:40,150 --> 00:46:46,210 daraus ist, ein Stück weit defend yourself. Sprich, Andreas hatte schon 702 00:46:46,210 --> 00:46:51,259 angedeutet, man kann sich nicht auf die Stores verlassen, man muss sich ein Stück 703 00:46:51,259 --> 00:46:55,999 weit selbst schützen und selbst überlegen, was kann ich tun um dieser 704 00:46:55,999 --> 00:47:00,690 Überwachung zu entgehen. Ja, also wir sind recht am Ende von unserem Talk aber 705 00:47:00,690 --> 00:47:05,079 trotzdem ganz wichtig nochmal der Dank an ein relativ großes Team was uns 706 00:47:05,079 --> 00:47:08,950 unterstützt hat in dieser Zeit ja vor allem meine Kollegin die Jasmin Klofta 707 00:47:08,950 --> 00:47:12,249 sitzt in der ersten Reihe, ja Dankeschön. 708 00:47:12,249 --> 00:47:18,390 *Applaus* 709 00:47:29,830 --> 00:47:32,569 Herald: So, wir haben noch ein wenig Zeit für Fragen. 710 00:47:32,569 --> 00:47:35,569 Wer eine Frage hat, bewegt sich bitte zu 711 00:47:35,569 --> 00:47:44,789 bitte zu einem der Mikrofone. So, ich sehe Bewegung. Aber ein paar flüchten erstmal. 712 00:47:44,789 --> 00:47:52,919 War vielleicht doch nicht ganz so einfach für die Nichtdeutschsprachigen., aber sehr 713 00:47:52,919 --> 00:47:55,900 spannend. Dahinten haben wir eine Frage an Mikrofon 6 bitte. 714 00:47:55,900 --> 00:48:01,940 Mikrofon 6: Hallo, angenommen die Person, über die man die öffentlichen Daten 715 00:48:01,940 --> 00:48:06,390 sammelt, ist nicht im Pool von den anonymisierten Daten. Dann gibts ja eine 716 00:48:06,390 --> 00:48:09,780 Möglichkeit für einen False-Positive. Oder kann man das ausschließen? 717 00:48:09,780 --> 00:48:15,309 A: Ja, natürlich gibt es auch die Möglichkeit von einem False-Positive. Das 718 00:48:15,309 --> 00:48:21,289 das hängt natürlich immer ein bisschen von der Nutzung der Daten ab, ob das 719 00:48:21,289 --> 00:48:25,200 problematisch ist oder nicht für den Anbieter. Es kann ja auch sein, wenn ich 720 00:48:25,200 --> 00:48:29,469 Bspw. Nutzern Werbung anzeigen möchte, es vielleicht auch gut genug ist, wenn ich 721 00:48:29,469 --> 00:48:33,020 den Nutzer mit einer Wahrscheinlichkeit von 10% schon identifiziere. 722 00:48:33,020 --> 00:48:35,099 D.h. ich kann auch mit False-Positives 723 00:48:35,099 --> 00:48:36,119 oder der Anbieter kann auch mit 724 00:48:36,119 --> 00:48:37,709 False-Positives entsprechend leben. 725 00:48:37,709 --> 00:48:39,159 Aber es ist natürlich immer die 726 00:48:39,159 --> 00:48:40,880 Möglichkeit gegeben, das der Nutzer, 727 00:48:40,880 --> 00:48:42,649 wenn er nicht in dem Datensatz vorhanden 728 00:48:42,649 --> 00:48:45,189 ist, auch entsprechend identifiziert wird, 729 00:48:45,189 --> 00:48:48,570 obwohl gar nicht drin ist. Und das kann natürlich für den Nutzer selber zu großen 730 00:48:48,570 --> 00:48:50,889 Problemen führen. Wenn ich da Bspw. an Credit-Scoring denke, 731 00:48:50,889 --> 00:48:52,289 über Machinelearning, 732 00:48:52,289 --> 00:48:55,960 wo ich also vielleicht mit jemandem in Verbindung gebracht werde, der ich gar 733 00:48:55,960 --> 00:49:00,329 nicht bin und Datenpunkte, die ich nicht kontrollieren kann, entsprechend meine 734 00:49:00,329 --> 00:49:03,130 Kreditwürdigkeit dann beeinflussen kann. 735 00:49:03,130 --> 00:49:06,769 Herald: Gut, an Mikro 3 bitte. 736 00:49:06,769 --> 00:49:12,619 Mikrofon 3: Meine persönliche Frage ist, was genau kostet das? Also kann sich eine 737 00:49:12,619 --> 00:49:17,880 kleinere, mittelgroße, Privatdetektei die auf Datenschutz scheißt, können die sich 738 00:49:17,880 --> 00:49:18,880 Zugang holen? 739 00:49:18,880 --> 00:49:24,369 S: Ja, weiß nicht was die für ein Budget haben aber diese Daten werden lizensiert. 740 00:49:24,369 --> 00:49:29,970 I.d.R. zahlt man für die Lizenz so für einen Monat und im Jahr ist das so 741 00:49:29,970 --> 00:49:33,760 im 6-stelligen Bereich. 742 00:49:33,760 --> 00:49:36,899 Mirofon 2: Sie hatten von den 10 Schlimmsten 743 00:49:36,899 --> 00:49:38,989 gesprochen, aber die Liste vergessen. 744 00:49:38,989 --> 00:49:40,599 *Lachen* *Applaus* 745 00:49:40,599 --> 00:49:44,869 A: Den 10 Schlimmsten, ach so, ja. 746 00:49:44,869 --> 00:49:47,599 *Applaus* S: *lachen* genau 747 00:49:47,599 --> 00:49:51,110 A: Also wir haben auch lange überlegt ob wir die Extensions entsprechend 748 00:49:51,110 --> 00:49:54,560 veröffentlichen können, wir haben allerdings noch keine Zeit gehabt jetzt 749 00:49:54,560 --> 00:49:58,340 eine detaillierte Analyse zu machen. Und ich möchte keine Namen jetzt nennen von 750 00:49:58,340 --> 00:50:02,069 Dingen, wo sich am Ende herausstellt, dass es eigentlich gar nicht problematisch ist. 751 00:50:02,069 --> 00:50:04,289 Wir werden auf jeden Fall dran bleiben und versuchen alle von diesen 752 00:50:04,289 --> 00:50:08,139 Extension, die in dem Datensatz drin sind zu identifizieren. Aber wir wollen 753 00:50:08,139 --> 00:50:12,129 natürlich eine Gewissheit haben, dass auch entsprechend wir die korrekten Extensions 754 00:50:12,129 --> 00:50:15,130 rausfiltern können, bevor wir die Namen dann veröffentlichen. 755 00:50:15,130 --> 00:50:21,060 *Applaus* 756 00:50:21,060 --> 00:50:24,190 Herald: So, wir haben auch Fragen aus dem Internet. Eine mal dazwischen. 757 00:50:24,190 --> 00:50:30,950 Signal Engel: Also ich nehme jetzt mal ein paar Fragen aus dem Internet zusammen. 758 00:50:30,950 --> 00:50:35,030 Im wesentlichen lässt sich das runterdampfen auf: Gibt es irgendwelche 759 00:50:35,030 --> 00:50:39,319 technischen, juristischen oder sonstwie gearteten Mittel um sich davor zu 760 00:50:39,319 --> 00:50:43,799 schützen, oder dagegen vorzugehen? Oder wurde da schon versucht da z.B. zu klagen? 761 00:50:43,799 --> 00:50:46,300 A: Möchtest du das beantworten? 762 00:50:46,300 --> 00:50:50,099 S: Ja, also einen Teil kann ich beantworten. Also jetzt von unseren 763 00:50:50,099 --> 00:50:54,811 Betroffenen hat da noch niemand geklagt. So technisch gibt es natürlich 764 00:50:54,811 --> 00:50:57,849 Möglichkeiten sich zu schützen. Zumindest ein gutes Stück weit. 765 00:50:57,849 --> 00:51:01,729 A: Ja, es gibt für den Nutzer natürlich bedingte Möglichkeiten sich zu schützen. 766 00:51:01,729 --> 00:51:06,049 Das Problem ist ja, das viele Nutzer das Problem gar nicht kennen oder nicht sich 767 00:51:06,049 --> 00:51:08,780 bewusst sind, dass ihre Daten entsprechend gesammelt werden. Da ist also im 768 00:51:08,780 --> 00:51:12,100 Zweifelsfall die Verantwortung bei den Browser-Herstellern und wir sind auch ein 769 00:51:12,100 --> 00:51:15,019 bisschen enttäuscht darüber, dass Web-Of-Trust wieder in dem Chrome-Store 770 00:51:15,019 --> 00:51:19,339 drin ist und auch weiterhin fleißig Daten sammelt. Und auch die entsprechenden 771 00:51:19,339 --> 00:51:20,339 Extensions, die schon vorher installiert 772 00:51:20,339 --> 00:51:22,690 wurden, auch nicht entfernt wurden in dem 773 00:51:22,690 --> 00:51:23,690 Sinne. D.h. im Zweifelsfalle ist wirklich 774 00:51:23,690 --> 00:51:25,950 der Hersteller des Browsers am besten in 775 00:51:25,950 --> 00:51:29,339 der Lage, den Nutzer vor solcher Schadsoftware zu schützen, indem er ein 776 00:51:29,339 --> 00:51:33,149 korrektes Auditing von den Extensions durchführt, bevor sie in dem Store landen 777 00:51:33,149 --> 00:51:34,809 und auch entsprechende Extensions, 778 00:51:34,809 --> 00:51:36,580 die gegen diese Bedingungen verstoßen 779 00:51:36,580 --> 00:51:37,879 schnell wieder entfernt. 780 00:51:37,879 --> 00:51:42,020 S: Und es macht auch Sinn sich mal verschiedene Browser, Browseranbieter 781 00:51:42,020 --> 00:51:47,419 anzuschauen, weil es gibt ja auch neben den Großen Kleinere, die noch mal mehr Wert 782 00:51:47,419 --> 00:51:50,720 legen eben darauf, dass man z.B. gar keine Plugins installieren kann. 783 00:51:50,720 --> 00:51:56,710 Herald: An Nummer 5 bitte. 784 00:51:56,710 --> 00:52:02,089 Mikrofon 5: Gibt es die Möglichkeit, dass ihr die Liste, die ihr für eure Recherche 785 00:52:02,089 --> 00:52:06,109 erstellt habt, von Unternehmen die Daten verkaufen, veröffentlicht. Quasi als 786 00:52:06,109 --> 00:52:10,829 not-to-work-for-Liste. Ich mein unsereins baut ja im Zweifelsfall irgendwelchen 787 00:52:10,829 --> 00:52:14,420 Scheiß, also liegt es auch an uns es zu lassen. 788 00:52:14,420 --> 00:52:17,970 *Applaus* 789 00:52:17,970 --> 00:52:23,749 S: Ja, es fehlt natürlich ein Name, hier in diesem ganzen Vortrag. Der Name des 790 00:52:23,749 --> 00:52:25,689 Datenhändlers oder auch tatsächlich die 791 00:52:25,689 --> 00:52:27,550 Namen der Firmen mit denen ich auch ein 792 00:52:27,550 --> 00:52:29,350 bisschen ernsthafter ins Geschäft gekommen bin. 793 00:52:29,350 --> 00:52:30,890 Das sind eigentlich juristische 794 00:52:30,890 --> 00:52:34,299 Gründe, warum wir das nicht veröffentlichen können oder dürfen. 795 00:52:34,299 --> 00:52:37,309 Einfach, ehrlich gesagt aus Furcht vor 796 00:52:37,309 --> 00:52:42,430 diesen Unternehmen, aus sozusagen Angst vor Klagen, die da kommen können. 797 00:52:42,430 --> 00:52:46,759 Und deshalb sieht es zumindest im Moment so aus, als dürften 798 00:52:46,759 --> 00:52:51,390 wir die Namen nicht veröffentlichen. Aber das ist noch work-in-progress sage ich mal. 799 00:52:51,390 --> 00:52:53,770 *Zwischenruf* Wikiwleaks 800 00:52:53,770 --> 00:52:54,190 *Lachen* 801 00:52:54,190 --> 00:53:00,220 *Applaus* 802 00:53:00,220 --> 00:53:03,010 Engel: Mikro 1 803 00:53:03,010 --> 00:53:08,280 Mikrofon 1: So einer der Klassiker ist ja JavaScript aus und Cockies aus und nur für 804 00:53:08,280 --> 00:53:12,349 irgendwie bestimmte Seiten, denen man vertraut, zulassen. Jetzt sagen Sie aber 805 00:53:12,349 --> 00:53:15,949 auch... Aber wie weit würden Sie denn kommen, wenn man jetzt wirklich sowas 806 00:53:15,949 --> 00:53:20,710 wegnimmt und nur über ip-basierte Daten und sowas, wie weit würde man da mit der 807 00:53:20,710 --> 00:53:22,219 Deanonymisierung kommen? 808 00:53:22,219 --> 00:53:25,930 A: Also meines Wissens setzen viele Anbieter bereits Verfahren ein die 809 00:53:25,930 --> 00:53:29,259 eigentlich nicht mehr auf Cockies basieren, also nur noch, wenn diese 810 00:53:29,259 --> 00:53:33,190 verfügbar sind und die statt dessen auf anderen Identifikationsmerkmalen basieren 811 00:53:33,190 --> 00:53:38,450 die entsprechend schwerer zu ändern sind. Bspw: der IP-Adresse, der Device-ID oder 812 00:53:38,450 --> 00:53:42,280 anderen IDs, die entsprechend fix sind und getrackt werden können über die Zeit. 813 00:53:42,280 --> 00:53:46,599 D.h. ist relativ einfach zumindest mit einer hohen Wahrscheinlichkeit möglich 814 00:53:46,599 --> 00:53:51,460 Nutzer über verschiedene Endgeräte zu identifizieren. Und ich kann mich 815 00:53:51,460 --> 00:53:55,239 natürlich über das Client-Seitige Browser-Tracking schützen, aber das heißt 816 00:53:55,239 --> 00:53:59,459 nicht, dass ich mich gegen diese anderen Tracking-Maßnahmen auch schützen kann. 817 00:53:59,459 --> 00:54:01,249 Engel: Mikro 6. 818 00:54:01,249 --> 00:54:09,619 Mikrofon 6: Zur Deanonymisierung. Ist es möglich, so Deanonymisierung, stark zu 819 00:54:09,619 --> 00:54:16,720 erschweren oder zu verhindern durch so Methoden wie Differential Privacy? 820 00:54:16,720 --> 00:54:21,450 A: Ja, dass ist in bestimmten Kontexten anwendbar. Hier bei den Daten ist das 821 00:54:21,450 --> 00:54:25,140 Problem, dass ich selbst als Nutzer eigentlich nicht kontrolliere, was ich von 822 00:54:25,140 --> 00:54:29,410 mir generiere, weil die Daten entweder unbewusst oder ohne meine Zustimmung 823 00:54:29,410 --> 00:54:34,099 erhoben werden. D.h. das einzige was ich tun kann als Nutzer ist zusätzlich 824 00:54:34,099 --> 00:54:37,890 Datenenpunkte zu liefern, ich habe aber keine Möglichkeit Datenpunkte zu fälschen 825 00:54:37,890 --> 00:54:42,839 oder nur in sehr geringem Umfang zumindest oder auch Datenpunkte wieder zu entfernen. 826 00:54:42,839 --> 00:54:48,599 D.h. in dem Sinne wäre das vermutlich eher weniger angebracht aber klar im 827 00:54:48,599 --> 00:54:51,949 Zweifelsfall ist es immer besser möglichst wenige Informationen rauszugeben. 828 00:54:51,949 --> 00:54:54,739 Obwohl eigentlich schon ausreicht wenige 829 00:54:54,739 --> 00:54:58,549 kleine Informationsschnipsel zu haben, die man dann relativ schnell auch 830 00:54:58,549 --> 00:55:00,679 zusammen fügen kann, wie wir gesehen haben. 831 00:55:00,679 --> 00:55:03,049 D.h. es ist auch wirklich schwer abzuschätzen und 832 00:55:03,049 --> 00:55:05,179 hängt auch immer sehr stark von der Natur 833 00:55:05,179 --> 00:55:10,129 des Datensatzes ab, wie verräterisch einzelne Datenpunkte von mir sein können. 834 00:55:10,129 --> 00:55:13,289 Engel: Mikro 5. 835 00:55:13,289 --> 00:55:17,930 Mikrofon 5: Ich würde gerne ein bisschen eine naive Frage stellen. Wieso ist das 836 00:55:17,930 --> 00:55:22,819 eigentlich quasi möglich oder erlaubt, also die juristische Frage. Und auf der 837 00:55:22,819 --> 00:55:26,789 anderen Seite, scheint mir doch ein gewisses Gefälle zu sein zu dem, was auf 838 00:55:26,789 --> 00:55:31,829 der einen Seite gemacht wird und sie die jetzt Sorge haben, diese Namen zu nennen, 839 00:55:31,829 --> 00:55:35,490 auf der anderen Seite, da scheint es mir ein gewisses juristisches Gefälle 840 00:55:35,490 --> 00:55:38,339 zu geben, das ich gerne verstehen würde. 841 00:55:38,339 --> 00:55:44,169 *Applaus* 842 00:55:44,169 --> 00:55:47,989 S: Sehr gute Frage, vielen Dank dafür. Wir haben tatsächlich diesen juristischen 843 00:55:47,989 --> 00:55:50,649 Aspekt für diesen Vortrag ein Stück weit ausgeklammert. 844 00:55:50,649 --> 00:55:53,249 Und der ist aber trotzdem hochspannend. 845 00:55:53,249 --> 00:55:57,519 Und wir haben viele Gespräche mit Datenschützern darüber geführt, 846 00:55:57,519 --> 00:56:01,970 mit Juristen darüber geführt und haben tatsächlich auch Paragraphen gewälzt weil 847 00:56:01,970 --> 00:56:06,160 uns genauso diese Frage beschäftigt hat, kann das überhaupt erlaubt sein. Also 848 00:56:06,160 --> 00:56:10,760 zumindest was man für Deutschland sagen kann, das ist nicht erlaubt. Und zwar ganz 849 00:56:10,760 --> 00:56:15,259 einfach aus dem Grund, weil keiner der Nutzer irgendwo dazu zugestimmt hat. Also 850 00:56:15,259 --> 00:56:19,360 keiner der Nutzer hat, die wir besucht haben, hat irgendwo irgendwas angeklickt: 851 00:56:19,360 --> 00:56:23,329 „Ja ich möchte bitte, dass meine Daten in diesem Umfang...“ Keiner. Und das kann 852 00:56:23,329 --> 00:56:30,289 sogar nach Aussage vom Datenschützer eventuell strafrechtlich relevant sein, 853 00:56:30,289 --> 00:56:39,030 also sprich in Richtung Abhören gehen. Bislang hat sich noch niemand berufen 854 00:56:39,030 --> 00:56:45,829 gefühlt, da tatsächlich Klage oder Anklage zu führen. Was wir jetzt sozusagen machen 855 00:56:45,829 --> 00:56:49,930 trägt ja vielleicht dazu bei, dass es mal eine Eingabe gibt beim Datenschützer und 856 00:56:49,930 --> 00:56:52,459 dass tatsächlich sich auch mal jemand dahinter klemmt. 857 00:56:52,459 --> 00:56:56,129 A: Gerade bei Ausländischen Unternehmen ist es natürlich immer sehr schwierig 858 00:56:56,129 --> 00:56:59,799 auch entsprechend eine Handhabe zu bekommen, um die auch juristisch belangen 859 00:56:59,799 --> 00:57:04,299 zu können. D.h. da ist auch nochmal sicherlich ein Gefälle vorhanden und auch 860 00:57:04,299 --> 00:57:08,710 die Strafen, die Unternehmen im Zweifelsfall drohen, sind im Vergleich zu 861 00:57:08,710 --> 00:57:12,619 dem Schaden, der oder zu dem Risiko, das Jemand eingeht, indem er diese Dinge 862 00:57:12,619 --> 00:57:16,770 veröffentlicht, eigentlich relativ gering. Weswegen es auch relativ wenig zu solchen 863 00:57:16,770 --> 00:57:18,430 Dingen kommt, denken wir. 864 00:57:18,430 --> 00:57:21,079 Engel: Gut, ich denke wir haben noch Zeit für zwei Fragen. 865 00:57:21,079 --> 00:57:22,880 Wir haben noch eine aus dem Internet. 866 00:57:22,880 --> 00:57:26,530 Signal Engel: Das Internet lässt fragen, in wie fern man sein eigenen 867 00:57:26,530 --> 00:57:30,379 Informationen, sofern sie auftauchen, von euch bekommen kann oder auch nicht. 868 00:57:30,379 --> 00:57:32,940 A: Uh... schwierige Frage. 869 00:57:32,940 --> 00:57:33,940 *Applaus* 870 00:57:33,940 --> 00:57:41,400 S: Das ist recht einfach die Antwort. Gar nicht. Die Daten gibts nicht mehr. Sorry. 871 00:57:41,400 --> 00:57:42,420 *Applaus* 872 00:57:42,420 --> 00:57:49,609 Herald: Kommen wir zu unserer letzten Frage. 873 00:57:49,609 --> 00:57:56,650 Mikrofon: Ja, also, Hallo, hört man das? Ok. Ich bin dann immer ein Freund von 874 00:57:56,650 --> 00:58:02,170 Selbstverteidigung und so wie sie sagten, aber die Frage ist, ist das überhaupt 875 00:58:02,170 --> 00:58:06,349 möglich? Also ich würde sagen, dass Thema ist so komplex, dass sich wahrscheinlich 876 00:58:06,349 --> 00:58:09,969 die meisten, die hier sind, nur dann schützen können, wenn sie wirklich viel 877 00:58:09,969 --> 00:58:16,550 Zeit reinstecken in diese Arbeit. Und ich frage mich: meine Mutter, mein Vater, mein 878 00:58:16,550 --> 00:58:18,910 Onkel, wie sollen die sich vor sowas schützen? 879 00:58:18,910 --> 00:58:22,089 A: Willst du oder soll ich? S: Ja, mach ruhig. 880 00:58:22,089 --> 00:58:26,049 A: Ja, das ist das Problem, dass ich auch eben kurz angesprochen habe. Und zwar, 881 00:58:26,049 --> 00:58:29,849 dass viele Nutzer auch gar nicht wissen, dass sie getrackt werden und auch nicht 882 00:58:29,849 --> 00:58:34,109 die technischen Kenntnisse haben, um sich effektiv gegen sowas zu schützen. Wir 883 00:58:34,109 --> 00:58:38,240 haben ja gesehen, obwohl die Leser von Fefes-Blog eher technik-affin sind, gibts 884 00:58:38,240 --> 00:58:42,109 immer noch 3.000 Nutzer, die in dem Datensatz auftauchen, die also auch 885 00:58:42,109 --> 00:58:45,859 getrackt wurden in dem Sinne. D.h. dass selbst Leute mit IT-Kenntnissen und 886 00:58:45,859 --> 00:58:49,710 IT-Sicherheitserfahrung sind nicht dagegen gefeit auch entsprechend getrackt zu 887 00:58:49,710 --> 00:58:54,150 werden. Weil es auch unglaublich schwierig ist, auch für mich, sämtliche Methoden 888 00:58:54,150 --> 00:58:57,790 nachzuvollziehen und immer auf dem aktuellen Stand zu sein. Und es ist auch 889 00:58:57,790 --> 00:59:01,999 sehr schwer abschätzbar, was man mit den Daten eigentlich machen kann. Also es 890 00:59:01,999 --> 00:59:05,960 stimmt wirklich, ja, es ist wirklich, es gibt keine gute Lösung momentan dafür. 891 00:59:05,960 --> 00:59:11,069 Herald: So es gibt zwar noch weitere Fragen aber die Zeit ist leider vorbei. 892 00:59:11,069 --> 00:59:14,810 Wer noch fragen an die Beiden hat, kann hier gleich einfach kurz nach vorne 893 00:59:14,810 --> 00:59:18,249 kommen. Erstmal möchte ich mich aber herzlich bei euch beiden für diesen 894 00:59:18,249 --> 00:59:20,499 spannenden und interessanten Vortrag bedanken. 895 00:59:20,499 --> 00:59:36,629 *Applaus* 896 00:59:36,629 --> 00:59:59,489 *Abspannmusik*