1 00:00:03,530 --> 00:00:13,230 *33C3 Vorspannmusik* 2 00:00:13,230 --> 00:00:18,370 Herald Carina Haupt: David Kriesel ist Data Scientist. Und der eine oder andere 3 00:00:18,370 --> 00:00:24,919 kennt ihn vielleicht noch vom 31C3, wo er den relativ bekannt gewordenen berühmten 4 00:00:24,919 --> 00:00:27,039 Xerox Scanning Bug Vortrag gehalten hat. 5 00:00:27,039 --> 00:00:34,950 *Applaus* 6 00:00:34,950 --> 00:00:41,460 Dieser hat ihn offensichtlich nicht nur hier bekannt gemacht. Sondern auch zu 7 00:00:41,460 --> 00:00:45,840 internationaler Bekanntheit verholfen. Und damit begrüsse ich ihn und freue mich auf 8 00:00:45,840 --> 00:00:51,380 einen spannenden Talk und bitte Euch nochmal um einen ganz ganz herzlichen 9 00:00:51,380 --> 00:00:54,100 Applaus für David. 10 00:00:54,100 --> 00:00:57,040 *Applaus* 11 00:00:57,040 --> 00:00:59,320 David: Dankeschön 12 00:00:59,320 --> 00:01:01,060 *Applaus* 13 00:01:01,060 --> 00:01:06,720 Ja, dankeschön. Herzlich willkommen. Auch nochmal von mir. Auch an die Leute im 14 00:01:06,720 --> 00:01:11,580 Internet. Und auch an die Leute vom Spiegel. Von denen ich weiss, dass sie 15 00:01:11,580 --> 00:01:18,390 anwesend sind. Es ist schön wieder hier zu sein. Mein Name ist David Kriesel. Ich 16 00:01:18,390 --> 00:01:22,570 bin Informatiker aus Bonn. Und ich mache beruflich, es wurde schon gesagt Data 17 00:01:22,570 --> 00:01:26,620 Science und Machine Learning. Und salopp gesagt, versuche ich für meine 18 00:01:26,620 --> 00:01:33,540 Arbeitgeber aus grossen Datenmengen Wissen zu ziehen. Und seit 2014 habe ich knapp 19 00:01:33,540 --> 00:01:38,750 100 000 Artikel von Spiegel Online ge-vorratsdaten-speichert. 20 00:01:38,750 --> 00:01:45,550 *Gelächter**Applaus* 21 00:01:45,550 --> 00:01:49,590 Und das habe ich einfach niemanden erzählt. 22 00:01:49,590 --> 00:01:51,320 *Gelächter* 23 00:01:51,320 --> 00:01:55,420 Und während ich da so zweieinhalb Jahre sitze und das niemanden erzähle, ist die 24 00:01:55,420 --> 00:01:59,470 Stimmung medial irgendwie umgeschlagen. Vor zweieinhalb Jahren war die Welt noch 25 00:01:59,470 --> 00:02:04,600 in Ordnung und heute ist die Rede von Lügenpresse und Fake News und genau aus 26 00:02:04,600 --> 00:02:09,669 dieser Zeit des Stimmungsumbruchs haben wir jetzt einen riesigen Datensatz über 27 00:02:09,669 --> 00:02:15,290 den vielleicht grössten Meinungsmacher unserer Nation. Und mit diesem Datensatz 28 00:02:15,290 --> 00:02:18,950 werden wir heute zwei Sachen machen: Erstens, wir werden den Datensatz 29 00:02:18,950 --> 00:02:23,720 durchleuchten und was über Spiegel Online lernen. Und zwar so, dass ihr das auch mit 30 00:02:23,720 --> 00:02:29,629 nach Hause nehmen und beim Lesen dann anwenden könnt. Und zweitens, wir werden 31 00:02:29,629 --> 00:02:34,129 Einblick erhalten wie die Datensammelwut von heute funktioniert und wie mächtig 32 00:02:34,129 --> 00:02:38,029 oder vielleicht auch nicht mächtig die ist. Und das machen wir so, dass es für 33 00:02:38,029 --> 00:02:42,750 jeden verstehbar ist, nicht nur für Informatiker. Und zusätzlich werde ich, 34 00:02:42,750 --> 00:02:46,359 wie in meinem letzten Vortrag vor zwei Jahren ein bisschen auf das 35 00:02:46,359 --> 00:02:50,069 Gesellschaftliche eingehen. Und wir werden an ein paar passenden Beispielen 36 00:02:50,069 --> 00:02:53,429 beleuchten, wie die moderne Datenverarbeitung unsere Gesellschaft 37 00:02:53,429 --> 00:02:57,210 beeinflussen kann. Und ob wir die Welt, mit dieser allumfassenden Datensammelwut 38 00:02:57,210 --> 00:03:01,119 besser machen oder schlechter machen, dass kann dann ja später jeder von euch für 39 00:03:01,119 --> 00:03:06,510 sich selbst entscheiden. Am besten fangen wir an, in dem ich kurz beschreibe wie 40 00:03:06,510 --> 00:03:12,010 genau Spiegelmining funktioniert. Rund um die Uhr, alle paar Minuten schaut einer 41 00:03:12,010 --> 00:03:16,599 meiner Server vollautomatisch auf Spiegel Online nach ob dort neue Artikel stehen 42 00:03:16,599 --> 00:03:20,340 und werden neue Artikel gefunden, dann werden die heruntergalden und 43 00:03:20,340 --> 00:03:25,141 abgespeichert. Und auf diese Weise hat der Datensatz einen coolen Vorteil der ja 44 00:03:25,141 --> 00:03:29,519 jetzt vielleicht nicht sofort ersichtlich ist: ich erhalte neue Artikel binnen 45 00:03:29,519 --> 00:03:33,960 Minuten, nachdem sie veröffentlicht wurden. Das heisst, ich kriege die im 46 00:03:33,960 --> 00:03:35,650 Originalzustand, also vor allen 47 00:03:35,650 --> 00:03:37,470 Verbesserungen und Änderungen, 48 00:03:37,470 --> 00:03:38,920 die im nachhinein vorgenommen 49 00:03:38,920 --> 00:03:41,519 werden und das ist natürlich viel aussagekräftiger. 50 00:03:41,519 --> 00:03:45,589 Man erhält ein unverfälschten Eindruck und es ist nicht so wie wenn man einen Artikel 51 00:03:45,589 --> 00:03:50,129 runterlädt, die vieleicht schon Jahre alt und tausend mal editiert sind. Aus den 52 00:03:50,129 --> 00:03:54,059 heruntergeladenen Artikeln lese ich dann sogenannte Features. Feature ist einfach 53 00:03:54,059 --> 00:03:57,919 das Fachwort für ein Artikelmerkmal. Ganz einfache Features eines Artikels können 54 00:03:57,919 --> 00:04:00,420 zum Beispiel der Veröffentlichungszeitpunkt oder die 55 00:04:00,420 --> 00:04:04,260 Rubrik sein, in der der Artikel steckt. Und die Features nehme ich dann und mache 56 00:04:04,260 --> 00:04:08,739 damit Auswertungen, von den sehen wir heute noch ein paar. Und die interessanten 57 00:04:08,739 --> 00:04:12,979 unter den Auswertungen nutze ich dann, um auf meiner Seite eine Blogartikelserie zu 58 00:04:12,979 --> 00:04:16,959 schreiben, um meinen Lesern einen Einblick in Spiegel Online und die Data Science 59 00:04:16,959 --> 00:04:21,060 gleichermassen zu geben und das war es. Spiegelmining in wenigen Minuten. Und am 60 00:04:21,060 --> 00:04:24,750 Anfang machen wir jetzt ein paar sehr einfache Auswertungen, so sehen wir wie 61 00:04:24,750 --> 00:04:28,110 das funktioniert und verschaffen uns gleichzeitig einen Überblick über 62 00:04:28,110 --> 00:04:32,060 Spiegel Online und als erstes zählen wir mal wie häufig die einzelnen Rubriken so 63 00:04:32,060 --> 00:04:37,400 vorkommen. Das ist die Ansicht. Die Größe der Kreise gibt die Artikelanzahl 64 00:04:37,400 --> 00:04:42,340 pro Rubrik wieder und wie wir sehen, wird Spiegel Online dominiert von Politik, das 65 00:04:42,340 --> 00:04:47,740 ist der große rote Kreis rechts oben, von Panorama, das ist der grüne Kreis in der 66 00:04:47,740 --> 00:04:51,930 Mitte und vom Sport, das ist der fliederfarbene Kreis ganz unten. Ich 67 00:04:51,930 --> 00:04:54,740 weiss, was fliederfarben ist. Ich höre schon Leute lachen. 68 00:04:54,740 --> 00:04:57,490 *Applaus* 69 00:04:57,490 --> 00:05:04,270 Also die drei Rubriken, die machen zusammen die Hälfte der Artikel aus. Und 70 00:05:04,270 --> 00:05:08,169 das nächste supereinfache Feature ist der Veröffentlichungszeitpunkt von jedem 71 00:05:08,169 --> 00:05:11,910 Artikel. Damit messen wir jetzt einfach mal, wieviele Artikel Spiegel Online am 72 00:05:11,910 --> 00:05:16,120 Tag so schreibt. Der Plot sieht jetzt richtig richtig krass unordentlich aus, 73 00:05:16,120 --> 00:05:19,730 dass man da fast keine Werte erkennen kann. Das liegt an den Wochenenden. 74 00:05:19,730 --> 00:05:23,020 Da wird um die Hälfte weniger veröffentlicht als normal. Und deswegen 75 00:05:23,020 --> 00:05:27,019 schwankt das so krass. Und hier gibt es dann auch gleich den ersten Bericht aus 76 00:05:27,019 --> 00:05:32,240 der Praxis: wie man deutlich sieht, habe ich Anfang März 2015 ein paar Tage Loch 77 00:05:32,240 --> 00:05:36,770 in den Daten. Und der Grund ist, dass der März ein Monat mit "ae" ist. 78 00:05:36,770 --> 00:05:40,180 *Gelächter**Applaus* 79 00:05:45,950 --> 00:05:52,639 Also, mir ist das nach kurzer Zeit zum Glück aufgefallen. Also wenn Ihr Daten 80 00:05:52,639 --> 00:05:56,940 aufnehmt, dann programmiert Euch bitte mal irgendeine Form von Warnsystem, das 81 00:05:56,940 --> 00:06:00,710 anschlägt, wenn länger keine Daten mehr eintrudeln. Ich hatte das zum Glück und 82 00:06:00,710 --> 00:06:04,380 das hat mir hier sehr geholfen. Jetzt schlägt es in ein paar Minuten an und da 83 00:06:04,380 --> 00:06:08,009 hatte ich so irgendwie ein paar Tage keine Ahnung. Zurück zum Plot: Wegen der 84 00:06:08,009 --> 00:06:10,969 Unordnung mit den Wochenenden ändern wir jetzt unseren Plot und berechnen statt den 85 00:06:10,969 --> 00:06:14,821 Artikeln pro Tag jetzt die Artikel pro Woche. Und man sieht jetzt auch was und da 86 00:06:14,821 --> 00:06:19,340 sehen wir, dass Spiegel Online im Schnitt so 700 Artikel die Woche veröffentlicht, 87 00:06:19,340 --> 00:06:23,979 also so 100 am Tag. Und das ist schon ziemlich viel Output. Übrigens die beiden 88 00:06:23,979 --> 00:06:28,830 krassen Einbrüche, die Ihr hier seht, das sind die Weihnachtswochen, da wird weniger 89 00:06:28,830 --> 00:06:32,430 veröffentlicht und der Datensatz für diesen Vortrag ist vom 4. Dezember, 90 00:06:32,430 --> 00:06:36,490 deswegen ist dieser Weihnachts-Low dieses Mal einfach noch nicht drin. Und wenn man 91 00:06:36,490 --> 00:06:41,090 jetzt Features einzeln betrachtet, aber richtig interessant wird es, wenn wir 92 00:06:41,090 --> 00:06:43,979 Features zusammen betrachten. Wir verwursten jetzt also mal 93 00:06:43,979 --> 00:06:48,440 Veröffentlichungszeitpunkt und Rubrik zusammen. Und dann können wir sehen, das 94 00:06:48,440 --> 00:06:54,740 beispielsweise der Output in den Rubriken Panorama und Politik stabil ist. Während 95 00:06:54,740 --> 00:06:58,840 Wissenschaft und Uni-Spiegel ganz schön zusammengestrichen wurden. Das gilt 96 00:06:58,840 --> 00:07:02,759 übrigens in abgeschwächter Form auch für andere Ressorts. Solche Infos, welche 97 00:07:02,759 --> 00:07:06,990 Ressorts gerade gerupft werden, sind zum Beispiel relativ interessant, wenn man 98 00:07:06,990 --> 00:07:10,840 Konkurrent von Spiegel Online ist. Das kann man ohne weiteres auslesen. Und wir 99 00:07:10,840 --> 00:07:15,470 sehen, geschickt Features ausdenken und zusammenstöpseln, ist die halbe Welt. 100 00:07:15,470 --> 00:07:20,160 Jetzt nehmen wir mal die Textlänge der Artikel dazu. Hier sind die typischen 101 00:07:20,160 --> 00:07:25,050 Artikellängen im Spiegel angegeben und zwar pro Rubrik. Und man sieht, dass der 102 00:07:25,050 --> 00:07:30,160 typische Kulturartikel fast dreimal so lang ist, wie der typische Panorama- oder 103 00:07:30,160 --> 00:07:35,569 Sportartikel und immerhin noch doppelt so lang wie der typische Politikartikel. Und 104 00:07:35,569 --> 00:07:40,110 jetzt hatten wir schon gesehen, das Panorama, Sport und Politik trotz ihrer 105 00:07:40,110 --> 00:07:43,680 kurzen Artikellängen genau die drei dominierenden Ressorts sind. Und daraus 106 00:07:43,680 --> 00:07:48,509 können wir folgern, das Spiegel Online es eher auf Reichweite anlegt und auf 107 00:07:48,509 --> 00:07:54,600 Abdeckungsbreite als auf Tiefe. Die Strategie Reichweite um jeden Preis 108 00:07:54,600 --> 00:07:58,179 scheint Spiegel Online auch noch so zu verstärken. Die zusammengestrichenen 109 00:07:58,179 --> 00:08:01,760 Rubriken waren alles welche mit eher langen Texten. Und bevor das hier jetzt 110 00:08:01,760 --> 00:08:05,660 falsch ankommt, ich sage das ohne jede Wertung im Sinne von gut oder schlecht das 111 00:08:05,660 --> 00:08:09,140 ist ja eine valide Strategie für ein Medium und ich beschreibe einfach nur 112 00:08:09,140 --> 00:08:12,789 gemessene Daten. Und es ist keineswegs der Zweck der Veranstaltung irgendwie 113 00:08:12,789 --> 00:08:16,609 substanzlos in Richtung von Spiegel Online zu haten. Wer hatet wird nicht ernst 114 00:08:16,609 --> 00:08:19,869 genommen. Das habe ich ja in meinem letzten Vortrag schon ausführlich 115 00:08:19,869 --> 00:08:23,900 beschrieben. Und die meisten Sachen, die hier im Vortrag noch kommen, denkt daran, 116 00:08:23,900 --> 00:08:29,169 die sind bei den anderen wahrscheinlich ähnlich. Wichtig ist auch dass man mit 117 00:08:29,169 --> 00:08:33,740 den Features experimentiert. Hier ist zum Beispiel ein Diagramm, das zeigt, dass 118 00:08:33,740 --> 00:08:38,260 Veröffentlichungsvolumen pro Wochentag und Stunde. Die Zeilen sind die Wochentage 119 00:08:38,260 --> 00:08:42,559 und die Spalten sind die Stunden eines Tages. Pro Wochentag und Stunde sehen wir 120 00:08:42,559 --> 00:08:46,450 einen Block. Und in den grossen Blöcken sind viele Artikel erschienen und in den 121 00:08:46,450 --> 00:08:51,970 kleinen wenige. Und jetzt lernen wir daran mal, wie es in der Data Science zugeht: 122 00:08:51,970 --> 00:08:56,300 Erstens: In der Data Science findet man immer wieder Botschaften bestätigt, die 123 00:08:56,300 --> 00:09:01,720 man vorher schon erahnt hat. Das ist der langweilige Teil der Data Science. Aber 124 00:09:01,720 --> 00:09:05,531 das ist gut, um die eigenen Messverfahren zu überprüfen. Wir sehen hier, zu den 125 00:09:05,531 --> 00:09:10,400 unchristlichen Zeiten wird viel weniger veröffentlicht. Bahnbrechende Erkenntnis: 126 00:09:10,400 --> 00:09:12,970 Auch der Spiegel-Online-Redakteur möchte mal schlafen. 127 00:09:12,970 --> 00:09:14,200 *Gelächter* 128 00:09:14,200 --> 00:09:20,580 Zweitens: In der Data Science findet man aber auch immer Systematiken da, wo man 129 00:09:20,580 --> 00:09:25,690 keine erwartet hat. Und das passiert oft dann, wenn man Features verbindet. Wir 130 00:09:25,690 --> 00:09:29,840 färben jetzt mal jeden dieser Blöcke ein, nach der typischen Textlänge. Rote 131 00:09:29,840 --> 00:09:35,120 Blöcke enthalten typischerweise lange Texte und blaue Blöcke eher kurze. Und 132 00:09:35,120 --> 00:09:40,120 zack Es gibt einen klaren Zusammenhang zwischen Tageszeit und Länge der Artikel. 133 00:09:40,120 --> 00:09:43,921 Für mich als Nicht-Journalist war das damals überraschend. Die typische Länge 134 00:09:43,921 --> 00:09:47,950 der veröffentlichten Artikel die ist von Montag bis Freitag zwischen 5 bis 6 Uhr 135 00:09:47,950 --> 00:09:53,930 früh am grössten. Das gleiche am Wochenende. Hier gibt es zum Tagesstart 136 00:09:53,930 --> 00:09:58,580 auch nur längere Artikel, ein bisschen später natürlich. Und das Rätsels 137 00:09:58,580 --> 00:10:02,550 Lösung zu diesem Phänomen kommt später noch. Und als Drittes, ist die Data 138 00:10:02,550 --> 00:10:08,660 Science natürlich auch dazu da fieseste Vorurteile zu schüren. Ich führe Euch 139 00:10:08,660 --> 00:10:13,010 das mal vor. Jetzt gebt mir bitte mal ein Handzeichen, wer von Euch denkt, dass die 140 00:10:13,010 --> 00:10:17,620 Leutchen aus dem Kulturressort morgens bitte, gerne ein bisschen länger pennen 141 00:10:17,620 --> 00:10:18,620 als die anderen. 142 00:10:18,620 --> 00:10:20,220 *Gelächter* 143 00:10:20,220 --> 00:10:25,100 Also, vielleicht für das Internet: Wir haben einen Raum von 1600 Leuten, der ist 144 00:10:25,100 --> 00:10:32,200 proppenvoll und fast alle haben die Hand gehoben. Und die Lösung ist: stimmt! 145 00:10:32,200 --> 00:10:33,850 *Gelächter* 146 00:10:33,850 --> 00:10:37,150 Die Kulturwissenschaftler 147 00:10:37,150 --> 00:10:38,800 *Applaus* 148 00:10:38,800 --> 00:10:43,870 Die Kulturwissenschaftler veröffentlichen typischerweise später. In der oberen 149 00:10:43,870 --> 00:10:47,280 Verteilung sind alle Artikel ausser Kultur. Da ist ab 5 Uhr morgens 150 00:10:47,280 --> 00:10:51,530 Aktivität. Und in der unteren Verteilung sind die Kulturartikel, da geht es 151 00:10:51,530 --> 00:10:58,180 mindestens 2 Stunden später los. Aber zum Ausgleich gehen die auch früher nach Hause. 152 00:10:58,180 --> 00:11:00,510 *Gelächter* 153 00:11:00,510 --> 00:11:02,830 *Applaus* 154 00:11:02,830 --> 00:11:08,100 Aber, damit wir hier nicht wirklich Vorurteile schüren, ich war bei Spiegel 155 00:11:08,100 --> 00:11:13,080 Online eingeladen im Oktober und da habe ich das auch so gesagt. Und dann haben sie 156 00:11:13,080 --> 00:11:17,090 gesagt: 'David, nein, nein!' Manche Artikel werden natürlich auch vorab 157 00:11:17,090 --> 00:11:21,490 gescheduled, das will ich hier fairerweise dazusagen. 158 00:11:21,490 --> 00:11:23,650 Und ich mache das auch als Ermahnung, dass 159 00:11:23,650 --> 00:11:27,250 ihr, wenn Ihr damit arbeitet, immer nochmal selbst nachdenken müsst. was Ihr 160 00:11:27,250 --> 00:11:31,060 auch solchen Auswertungen wirklich folgern könnt. Besonders dann, wenn Ihr schon mit 161 00:11:31,060 --> 00:11:34,970 einem Vorurteil da rein gegangen seid, so wie wir jetzt. Wir haben gerade gesehen, 162 00:11:34,970 --> 00:11:38,580 wie solche Auswertungen grundsätzlich funktionieren, also können wir jetzt 163 00:11:38,580 --> 00:11:42,670 einen Schritt weitergehen. Und im Internet wird es ja genau immer dann besonders 164 00:11:42,670 --> 00:11:46,880 knusprig, wenn personenbezogene Daten ins Spiel kommen. 165 00:11:50,020 --> 00:11:52,560 Also, habe ich mir gedacht, 166 00:11:52,560 --> 00:11:56,630 es wäre doch mal ein nettes Feature, wenn wir mal die Autoren aus den Spiegel 167 00:11:56,630 --> 00:12:00,750 Artikeln rauslesen. Und das machen wir jetzt. Und die werten wir gleich auf zwei 168 00:12:00,750 --> 00:12:04,620 Arten aus: Die erste Auswertung wird eine ganz neue Auswertung in diesem Vortrag, 169 00:12:04,620 --> 00:12:08,500 also eine ganz neue Art. Und die zweite Auswertung wird ein bisschen politisch 170 00:12:08,500 --> 00:12:13,750 inkorrekt. In unserer ersten Auswertung werden wir versuchen Spiegel Online 171 00:12:13,750 --> 00:12:18,310 interne Personalstrukturen einfach von aussen zu lesen. Wenn man zu jedem Artikel 172 00:12:18,310 --> 00:12:21,850 eine Liste an Autoren hat, dann weiss man ja nicht nur, wer jeden Artikel 173 00:12:21,850 --> 00:12:25,940 geschrieben hat, sondern man weiss auch, wer mit wem schreibt. Und bei Autoren, die 174 00:12:25,940 --> 00:12:29,510 oft zusammen Artikel schreiben, dürfen wir davon ausgehen, dass die intensiv 175 00:12:29,510 --> 00:12:32,740 zusammenarbeiten. Wir wissen also sozusagen, welche Autoren wichtig 176 00:12:32,740 --> 00:12:37,320 füreinander sind, was die Artikel angeht. Wer wenig oder gar nicht zusammenschreibt, 177 00:12:37,320 --> 00:12:40,950 der ist in dieser Ansicht nicht wichtig füreinander. Aus diesen Wichtigkeiten 178 00:12:40,950 --> 00:12:45,820 können wir dann eine Autorenlandkarte bauen. Und hier ist sie. Das ist ein Teil 179 00:12:45,820 --> 00:12:49,790 des sozialen Netzwerkes der Spiegel Online Autoren generiert über die letzten 180 00:12:49,790 --> 00:12:54,140 2 Jahre. Und jeder Autor ist so ein Bubble Und Autoren, die nur ganz selten 181 00:12:54,140 --> 00:12:59,190 vorkommen, die habe ich hier gefiltert. Und man sieht genau, dass es da Grüppchen 182 00:12:59,190 --> 00:13:03,180 von Autoren gibt, die sich dichter zusammentun. Und das sieht aus, als wären 183 00:13:03,180 --> 00:13:06,800 es die Teams. Und jetzt müssen wir natürlich kontrollieren, ob unser 184 00:13:06,800 --> 00:13:10,470 Durchleuchten von aussen, auch wirklich funktioniert. Und um das zu machen, 185 00:13:10,470 --> 00:13:14,450 färben wir die Autoren mal nach Ihren Ressorts ein. Die Ressorts, die kriegt man 186 00:13:14,450 --> 00:13:19,301 aus dem Spiegel Online Impressum. Siehe da, in vielen Fällen haben sich 187 00:13:19,301 --> 00:13:23,440 tatsächlich die Ressorts vollautomatisch in der Landkarte zusammengetan. Hier in 188 00:13:23,440 --> 00:13:28,800 pink ist Sport. Wissenschaft und Gesundheit. Netzwelt. Politik. Ein 189 00:13:28,800 --> 00:13:32,620 bisschen verteilter, da habe ich jetzt nicht alle eingekreist. Panorama. Reise. 190 00:13:32,620 --> 00:13:36,510 Ich nenne jetzt nicht alle Teams, aber Ihr seht das Prinzip. Die hellblauen 191 00:13:36,510 --> 00:13:40,510 verteilten Punkte sind übrigens das Team von bento, die arbeiten ein bisschen 192 00:13:40,510 --> 00:13:43,960 übergreifender. Das ist die Kinderausgabe vom Spiegel. 193 00:13:43,960 --> 00:13:44,960 *Gelächter* 194 00:13:44,960 --> 00:13:48,350 *Applaus* 195 00:13:48,510 --> 00:13:54,690 Und der Punkt ist, wir haben jetzt relativ genau von aussen durchleuchten können, 196 00:13:54,690 --> 00:13:59,010 wer mit wem intern in einem Team steckt. Und der Witz ist, schaut die ganzen grauen 197 00:13:59,010 --> 00:14:03,350 Bubble an. Die sind grau, weil sie nicht mehr über das Spiegel Impressum 198 00:14:03,350 --> 00:14:07,000 zugeordnet werden konnten. Das sind zum Beispiel ausgeschiedene Kollegen. Der 199 00:14:07,000 --> 00:14:13,300 Spiegel Chefredakteur ist kürzlich auch grau geworden. Aber durch ihre Nähe zu 200 00:14:13,300 --> 00:14:17,451 den gefärbten Gruppen, können wir die trotzdem grob einem Team zuordnen. Wir 201 00:14:17,451 --> 00:14:20,980 können also etwas über die sagen, obwohl wir eigentlich gar nichts über die 202 00:14:20,980 --> 00:14:24,150 wissen. Und sowas ist dann interessant. Wir können also einfach live von aussen 203 00:14:24,150 --> 00:14:27,940 über die Personalstrukturen Buch führen. Aber jetzt... Ihr wartet bestimmt schon 204 00:14:27,940 --> 00:14:32,490 alle zum politisch inkorrekten Teil. Ich möchte Euch nämlich für etwas 205 00:14:32,490 --> 00:14:37,430 sensibilisieren. In diesem Plot ist jede Zeile ein Autor. Und von links nach rechts 206 00:14:37,430 --> 00:14:42,790 vergeht die Zeit. Und jeder farbige Strich ist ein vom jeweiligen Autor 207 00:14:42,790 --> 00:14:46,430 veröffentlichter Artikel. Und wenn wir die Autoren kennen und das tun wir ja 208 00:14:46,430 --> 00:14:50,100 jetzt, dann wissen wir natürlich auch sehr genau, wer wann veröffentlicht. Wir 209 00:14:50,100 --> 00:14:53,370 sehen zum Beispiel diese Zeile mit regelmässigen Muster, das ist ein 210 00:14:53,370 --> 00:14:57,030 Kolumnist, der veröffentlicht genau im Wochentakt, bis auf ein paar Ausnahmen. 211 00:14:57,030 --> 00:15:00,540 Bei den Leuten, die Tagesgeschehen veröffentlichen, ist die Dichte höher. 212 00:15:00,540 --> 00:15:04,640 Und das heisst, wir wissen bei denen umgekehrt auch relativ gut, wann die 213 00:15:04,640 --> 00:15:10,320 Urlaub machen. So, weil das sind nämlich die Lücken in den dichtgefüllten Zeilen. 214 00:15:10,320 --> 00:15:14,010 Und, wenn aber wir die Urlaube ungefähr kennen, dann wissen wir auch ungefähr, 215 00:15:14,010 --> 00:15:17,290 wessen Urlaube sich überproportional überschneiden. 216 00:15:17,290 --> 00:15:19,540 *Gelächter* 217 00:15:19,540 --> 00:15:23,203 Sachen wie Weihnachten, die fast alle Urlaub machen, die kann man ja einfach 218 00:15:23,203 --> 00:15:28,350 rausrechnen. Und ich appelliere jetzt an Eure Berufserfahrung und mutmasse mal ganz 219 00:15:28,350 --> 00:15:32,340 wild, dass Ihr auch schon mal Kollegen hattet, die irgendwie immer gleichzeitig 220 00:15:32,340 --> 00:15:38,540 im Urlaub waren. Also, Spass beiseite. Aus solchen Daten kann man ohne weiteres 221 00:15:38,540 --> 00:15:44,040 lesen, wer mit was hat. Jetzt wisst Ihr auch, warum ich die Autoren hier 222 00:15:44,040 --> 00:15:49,190 anonymisiert habe. Es ist übrigens total klar, dass das, was wir hier finden, nicht 223 00:15:49,190 --> 00:15:53,340 alles Pärchen sein müssen. Das sind die Pärchenkandidaten. Aber, wenn man an der 224 00:15:53,340 --> 00:15:59,050 Praxis und sowas interessiert ist, dann ist man ja damit schon mal auf 99% des 225 00:15:59,050 --> 00:16:03,620 Weges zum Ziel. Es gibt Firmen, die werten sowas aus, so illegal das auch ist. Jetzt 226 00:16:03,620 --> 00:16:07,880 habt Ihr alle gerade gelacht, Kann ich mal um Handzeichen bitten, wer von Euch heute 227 00:16:07,880 --> 00:16:15,390 bei seiner Firma Urlaub genommen hat. Über jeden gibt es solche Daten. Glaubt 228 00:16:15,390 --> 00:16:19,850 mir. Und wir halten jetzt mal inne, und dann machen wir uns nochmal klar, was wir 229 00:16:19,850 --> 00:16:23,460 gerade gesehen haben und was die gesellschaftlichen Implikationen sind. Was 230 00:16:23,460 --> 00:16:26,390 wir gerade gesehen haben, ist Wissensgewinnung über interne 231 00:16:26,390 --> 00:16:29,590 Firmeninformationen und über höchstpersönliche Lebensbereiche. Und 232 00:16:29,590 --> 00:16:33,420 aus Daten, die erstmal gar nicht danach aussehen. Wir hatten ja eigentlich einen 233 00:16:33,420 --> 00:16:36,430 Satz Spiegelartikel. Und plötzlich, überraschend, haben wir gute 234 00:16:36,430 --> 00:16:40,140 Anhaltspunkte, wer mit wem was hat, und wir können Teamstrukturen erahnen. Und 235 00:16:40,140 --> 00:16:44,230 damit komme ich zu wichtigsten Message des Vortrags: Wenn Ihr Daten veröffentlicht, 236 00:16:44,230 --> 00:16:47,850 dann entscheidet nicht Ihr, was Ihr da veröffentlicht, das entscheidet der 237 00:16:47,850 --> 00:16:52,740 Gegner. Wir haben noch nicht einmal die Daten selbst betrachtet. Wir haben die 238 00:16:52,740 --> 00:16:56,830 Artikel selbst ja gar nicht angefasst. Was wir angefasst haben, waren nur Metadaten. 239 00:16:56,830 --> 00:17:00,590 Zeiten und Autoren, genau wie bei der Vorratsdatenspeicherung. Das sind ja auch 240 00:17:00,590 --> 00:17:06,900 nur Metadaten. Gebt mal ein paar Monate eurer Metadaten, einfach nur, wem Ihr wann 241 00:17:06,900 --> 00:17:10,879 Mails und Whatsapp geschickt habt und wann Ihr auf welchen Webseiten wart. Keine 242 00:17:10,879 --> 00:17:14,559 Inhalte. Danach kann ich Euch sagen, wer Eure besten Freunde sind, ob Ihr eine 243 00:17:14,559 --> 00:17:19,180 Affäre habt, wie Ihr sexuell orientiert seid, ob Ihr schwanger seid, ob Ihr eine 244 00:17:19,180 --> 00:17:22,400 Krankheit habt, was Eure politische Einstellung ist, wie euer Glaube 245 00:17:22,400 --> 00:17:26,320 ausgerichtet ist, und ob Ihr finanzielle Probleme habt und alles, was ich gerade 246 00:17:26,320 --> 00:17:30,930 vergessen habe. Das Missbrauchsprofil für einen solchen Datensatz, wie den der 247 00:17:30,930 --> 00:17:34,890 Vorratsdatenspeicherung, das kann man gar nicht in Worte fassen. Und ich will da 248 00:17:34,890 --> 00:17:37,580 überhaupt nicht mit Verschwörungstheorien anfangen, wir 249 00:17:37,580 --> 00:17:40,920 können ja mal alle glauben, dass die Vorratsdatenspeicherung für die 250 00:17:40,920 --> 00:17:44,790 Aufklärung von Verbrechen nützlich sein kann, das ist ja auch total plausibel. Und 251 00:17:44,790 --> 00:17:48,770 wir können ja auch mal glauben, dass die Person, die die Vorratsdatenspeicherung 252 00:17:48,770 --> 00:17:52,355 jetzt etablieren guten Willens sind. Lasst uns das einfach mal annehmen. Das heisst 253 00:17:52,355 --> 00:17:55,200 aber nicht, dass morgen keiner an die Macht kommt, der das vielleicht ganz 254 00:17:55,200 --> 00:18:01,660 anders macht. Was wir hier gerade erhalten, ist die Infrastruktur, für eine 255 00:18:01,660 --> 00:18:06,240 Generalüberwachung, die selbst George Orwell's Big Brother die Schamesröte ins 256 00:18:06,240 --> 00:18:10,400 Gesicht treiben würde. 257 00:18:10,400 --> 00:18:15,990 *Applaus* 258 00:18:15,990 --> 00:18:21,200 Und diese Überwachungsinfrastruktur, die stellen wir jetzt extra schon mal bereit 259 00:18:21,200 --> 00:18:25,400 für den Fall, dass eine zukünftige Regierung böswillig ist und sie nutzen 260 00:18:25,400 --> 00:18:31,220 will. Das ist, was gerade passiert. Jetzt haben wir einen kurzen Exkurs über 261 00:18:31,220 --> 00:18:34,410 Metadaten gemacht, und wir gehen jetzt zurück zu Spiegel Online, damit sich Eure 262 00:18:34,410 --> 00:18:38,170 Laune wieder hebt. Und deswegen kommt jetzt ein kleiner Einschub, den könnt Ihr 263 00:18:38,170 --> 00:18:41,520 dann direkt anwenden, wenn Ihr das nächste Mal Spiegel Online lest. Und 264 00:18:41,520 --> 00:18:45,210 danach machen wir mal ein bisschen was Grösseres. Als ich die Autoren aus den 265 00:18:45,210 --> 00:18:53,310 Artikeln rauslesen wollte, da war ich irgendwann ziemlich genervt. Also manchmal 266 00:18:53,310 --> 00:18:57,410 stehen die oben unter dem Titel, wie hier links im Bild. Oder die stehen unten, wie 267 00:18:57,410 --> 00:19:01,560 rechts im Bild. Und wenn die Autoren oben stehen, sind sie ausgeschrieben. Und wenn 268 00:19:01,560 --> 00:19:06,550 sie unten stehen, sind es Kürzel. Oben stehen sie im wirklichen Satz, hier zum 269 00:19:06,550 --> 00:19:11,870 Beispiel von Marcel Rosenbach. Und unten die Kürzel sind ohne Satz drumrum. Manche 270 00:19:11,870 --> 00:19:15,490 Autoren haben nur Vor- und Nachname. Manche Namen haben aber auch vier oder 271 00:19:15,490 --> 00:19:20,920 fünf Worte. Wie zum Beispiel der freundliche Herr Philip Alvares De Souza 272 00:19:20,920 --> 00:19:24,600 Suarez. Das habe ich mir extra hier aufgeschrieben, fünf Worte. Das ist ein 273 00:19:24,600 --> 00:19:29,230 Name. Also Data Science kann technisch nervig sein. Sagt nicht, ich hätte Euch 274 00:19:29,230 --> 00:19:35,700 nicht gewarnt. Und jedenfalls habe ich mir gedacht, wtf, warum stehen da Autoren in 275 00:19:35,700 --> 00:19:39,770 verschiedenen Formen und vor allem an verschiedenen Orten? Also habe ich mir mal 276 00:19:39,770 --> 00:19:45,500 das als Feature reingenommen, ob die Autoren oben oder unten stehen. Und dann 277 00:19:45,500 --> 00:19:49,570 habe ich Messwerte zwischen den beiden Artikelgruppen verglichen, Autoren 278 00:19:49,570 --> 00:19:55,520 oben und Autoren unten. Und es stellt sich raus, wenn die Autoren unten stehen, also 279 00:19:55,520 --> 00:19:59,500 nicht namentlich ausgeschrieben sind, ist ein typischer Artikel knapp 300 Worte 280 00:19:59,500 --> 00:20:02,920 lang. Wir sehen hier die Verteilung der Artikellängen von Artikeln ohne 281 00:20:02,920 --> 00:20:06,661 ausgeschriebenen Namen. Und nach rechts werden die Artikel länger, da wird es 282 00:20:06,661 --> 00:20:11,780 immer weniger. Und stehen die Autoren aber oben, sind also ausgeschrieben, ist ein 283 00:20:11,780 --> 00:20:16,660 Artikel typischerweise mehr als zweieinhalb mal so lang. Knapp 750 Worte. 284 00:20:16,660 --> 00:20:20,920 Man weiss schon, womit man gegoogelt werden will als Redakteur. 285 00:20:20,920 --> 00:20:21,920 *Gelächter* 286 00:20:21,920 --> 00:20:27,440 Und nochwas: bei den langen Artikeln ist auch nur bei ca. 2% eine 287 00:20:27,440 --> 00:20:31,160 Nachrichtenagentur mit dabei. Bei den kurzen ist bei knapp 80% eine 288 00:20:31,160 --> 00:20:35,170 Nachrichtenagentur mit dabei. Also Fazit für Euch zum mI t nach Hause nehmen: Wenn 289 00:20:35,170 --> 00:20:39,000 Ihr längere Artikel wollt, die Spiegel Online selbst verfasst hat, dann achtet 290 00:20:39,000 --> 00:20:42,880 drauf, dass die Autoren drangeschrieben sind. Wenn Ihr kurze Agenturmeldungen 291 00:20:42,880 --> 00:20:45,370 wollt, sind die Kürzel gut. 292 00:20:45,370 --> 00:20:49,740 *Applaus* 293 00:20:49,740 --> 00:20:54,620 Und wir hatten ja schon gesehen, dass am Tagesanfang primär längere Artikel 294 00:20:54,620 --> 00:20:58,230 erscheinen und das waren eben in Wirklichkeit die selbst geschriebenen. 295 00:20:58,230 --> 00:21:02,540 Morgens ist der Prozentsatz von denen vergleichsweise hoch. Und jetzt könen wir 296 00:21:02,540 --> 00:21:05,250 die Gelegenheit nutzen und einen Schritt zurücktreten und gucken, was wir bis 297 00:21:05,250 --> 00:21:10,520 jetzt gemacht haben. Und wir haben unsere Riesenmenge Artikel, immer auf äusserst 298 00:21:10,520 --> 00:21:14,240 einfache Art und Weise auseinander geschnitten und ausgewertet. Wir haben die 299 00:21:14,240 --> 00:21:18,030 in Wochentage oder Uhrzeiten auseinandergeschnitten. Oder in Rubriken. 300 00:21:18,030 --> 00:21:21,550 Und dafür, wie einfach diese Ideen sind, haben wir eigentlich ein paar ganz gute 301 00:21:21,550 --> 00:21:25,350 Ergebnisse bekommen. Aber, was wir noch gar nicht gemacht haben, ist uns dem 302 00:21:25,350 --> 00:21:29,480 Datensatz mal inhaltlich zu nähern. Und es wäre doch total cool, wenn wir die 303 00:21:29,480 --> 00:21:33,460 Artikelmenge mal nach den wirklichen Themen über die berichtet wird, 304 00:21:33,460 --> 00:21:41,780 auseinanderschneiden und auswerten können. Spiegel Online liefert uns 305 00:21:41,780 --> 00:21:46,120 hierbei auch eine gute Hilfe: Artikel werden dort verschlagwortet. Jeder Artikel 306 00:21:46,120 --> 00:21:51,160 bekommt von seinem Autor so um die 10 Keywords zugewiesen. Der Artikel links im 307 00:21:51,160 --> 00:21:55,510 Bild hat zum Beispiel die Keywords Politik, Ausland, Saudi Arabien und König 308 00:21:55,510 --> 00:22:00,300 Salman von Saudi Arabien. Also habe ich die Keywords mal ausgelesen. Ueber alle 309 00:22:00,300 --> 00:22:05,000 Artikel hinweg habe ich um die 65000 verschiedene Keywords gefunden. Und jetzt 310 00:22:05,000 --> 00:22:09,090 gucken wir, wie oft, welche Keywords zusammen in den selben Artikeln kommen. 311 00:22:09,090 --> 00:22:12,820 Und Keywords, die fast ausschliesslich zusammen vorkommen, die sind sozusagen 312 00:22:12,820 --> 00:22:16,730 verheiratet, die sieht man einfach als eins in der Auswertung. Und umgekehrt gibt 313 00:22:16,730 --> 00:22:21,130 es natürlich Keywords, die beide für sich genommen existieren, aber nie oder 314 00:22:21,130 --> 00:22:25,110 fast nie zusammen, die sind dann unverwandt. Und dann gibt es noch einen 315 00:22:25,110 --> 00:22:32,430 interessanten Mittelweg: Hier ist ein Beispiel. 316 00:22:32,430 --> 00:22:35,110 *Gelächter**Applaus* 317 00:22:35,110 --> 00:22:39,330 Artikel mit dem Keyword "Angela Merkel", die haben meist auch das Keyword Politik. 318 00:22:39,330 --> 00:22:43,650 Und umgekehrt ist das aber nicht so. Das Keyword Politik ist viel grösser. Und es 319 00:22:43,650 --> 00:22:48,430 gibt extrem viele Politikartikel ohne Angela Merkel. Und diese Keywords sind 320 00:22:48,430 --> 00:22:52,360 nicht die selben, aber es ist klar, die haben eine Verbindung. Und wir messen also 321 00:22:52,360 --> 00:22:57,710 für alle 65000 Keywords, paarweise, wie verwandt die so sind. Und dann verbinden 322 00:22:57,710 --> 00:23:02,411 wir Keywords, die stark verwandt sind mit so ganz strammen, dicken Federn. Ich meine 323 00:23:02,411 --> 00:23:05,860 jetzt wirklich Federn im physikalischen Sinne, die die Keywords zueinander 324 00:23:05,860 --> 00:23:10,420 hinziehen. Zwischen schwächer verwandten Keywords kommen schwächere Federn, die 325 00:23:10,420 --> 00:23:14,350 werden dann länger. Und jetzt machen wir eine Physiksimulation. und schauen zu, wie 326 00:23:14,350 --> 00:23:20,630 sich diese abertausenden Federn zurechtzurren. Verwandte Keywords werden 327 00:23:20,630 --> 00:23:25,340 jetzt tendenziell nahe beeinander layoutet und weniger verwandte nicht so nah. Was 328 00:23:25,340 --> 00:23:28,820 hier ensteht ist eine thematische Landkarte, von allen Sachen über die 329 00:23:28,820 --> 00:23:32,611 Spiegel Online in den letzten 2 Jahren berichtet hat. Und jetzt gerade sieht es 330 00:23:32,611 --> 00:23:36,600 so aus, als passiert da fast nichts mehr, aber gerade passiert die Detailarbeit. Das 331 00:23:36,600 --> 00:23:40,530 sieht man nur von soweit oben nicht. Und deswegen zoomen wir jetzt mal ganz weit 332 00:23:40,530 --> 00:23:44,620 rein, damit wir lernen, was wir da erschaffen haben. Hier ist die Volkswagen 333 00:23:44,620 --> 00:23:49,060 Abgasaffäre. Wie Ihr seht haben die Keywords unterschiedliche Grössen. Die 334 00:23:49,060 --> 00:23:52,740 Grösse der einzelnen Keywords spiegelt die Anzahl der Artikel wieder, die das 335 00:23:52,740 --> 00:23:56,220 Keyword innehaben. Und das sind sozusagen die Artikel, die in dem Keyword 336 00:23:56,220 --> 00:24:01,360 drinstecken. Und die Farbe zeigt an, was die vorherrschende Rubrik ist über alle 337 00:24:01,360 --> 00:24:04,830 Artikel, die in einem Keyword drin stecken. Dieses Okergelb heisst 338 00:24:04,830 --> 00:24:09,870 Wirtschaft. Passt! Der Witz ist, diese Darstellungsweise ist extrem mächtig und 339 00:24:09,870 --> 00:24:13,580 vielseitig. Über die Farbe der Keywords da können mit dieser Darstellungsweise 340 00:24:13,580 --> 00:24:18,820 noch viel mehr Infos rüberbringen, als nur, welche Themen verwandt sind. Und mit 341 00:24:18,820 --> 00:24:24,170 der Farbe können wir beliebige Messwerte anzeigen. Und wenn ich danach so farbige 342 00:24:24,170 --> 00:24:28,070 Keywordlandschaften habe, dann können wir sehen, ob es zwischen Thema und Messwert 343 00:24:28,070 --> 00:24:32,161 einen Zusammenhang gibt und das machen wir heute auch noch. Aber erstmal gucken wir 344 00:24:32,161 --> 00:24:36,980 ein bisschen weiter rum, hier sind verschiedene Flugzeugunglücke. Der 345 00:24:36,980 --> 00:24:48,900 Themenkomplex befindet sich zwischen Panorama - Grün und Politik - Rot. Wobei 346 00:24:48,900 --> 00:24:51,980 die politischen Anteile von dem Flugzeug kommen, das über der 347 00:24:51,980 --> 00:24:59,780 Ukrainisch-Russischen Grenze abgeschossen wurde. Jetzt versagt meine Singstimme. 348 00:24:59,780 --> 00:25:06,559 So besser. So hier ist Griechenland-Krise. Das ist offensichtloch ein Thema zwischen 349 00:25:06,559 --> 00:25:11,220 Politik und Wirtschaft rot und wieder oker und Wolfgang Schäuble ist da direkt mal 350 00:25:11,220 --> 00:25:15,770 als Aufpasser dazu-layoutet worden. Interessanterweise hat der keine Farbe, 351 00:25:15,770 --> 00:25:19,140 der ist grau und das ist nicht altersbedingt sondern das liegt daran, 352 00:25:19,140 --> 00:25:23,270 das es im Keyword Wolfgang Schäuble kein dominierendes Ressort gab und 353 00:25:23,270 --> 00:25:25,360 jetzt machen wir mal was Topaktuelles. 354 00:25:25,360 --> 00:25:28,360 Das ist die US-Wahl dieses Jahr. Wir sehen Hillary Clinton 355 00:25:28,360 --> 00:25:32,170 und Donald Trump und alles was da so drum rum wimmelt und das ist offensichtlich 356 00:25:32,170 --> 00:25:37,059 ein politisches Thema, es ist rot und man beachte, wie hier das Keyword Emails 357 00:25:37,059 --> 00:25:41,610 dazu-layoutet wurde. Und von hier aus machen wir uns jetzt mal 358 00:25:41,610 --> 00:25:43,720 die Größe der gesamten Landschaft klar. 359 00:25:43,720 --> 00:25:47,390 Ich weiss nicht, wer heute Morgen von euch in dem Vortrag über 360 00:25:47,390 --> 00:25:51,370 Mikroskope war, da hat der Vortragende immer und immer mehr reingezoomt, um klar 361 00:25:51,370 --> 00:25:55,370 zu machen wie klein die Sachen sind und wir machen das jetzt umgekehrt, wir wollen 362 00:25:55,370 --> 00:25:59,200 darstellen wie riesig die Landkarte ist und wir zoomen immer und immer mehr raus. 363 00:25:59,200 --> 00:26:03,200 Wir haben raus-gezoomt. Der alte Bildauschnit ist dick eingerahmt, damit 364 00:26:03,200 --> 00:26:07,020 ihr seht wo der ist. Und wir sehen, dass der US-Wahlkampf eingebettet ist 365 00:26:07,020 --> 00:26:09,440 in größeren Landstrich der Auslandspolitik. 366 00:26:09,440 --> 00:26:12,130 Links sehen wir den Bürgerkrieg in Syrien 367 00:26:12,130 --> 00:26:15,910 darüber der Islamische Staat und von da geht es über den Islamistischen Terror 368 00:26:15,910 --> 00:26:18,440 weiter nach Frankreich. 369 00:26:18,440 --> 00:26:25,360 *Gelächter**Applaus* 370 00:26:25,360 --> 00:26:31,640 Jaa, die Mathematik ist gnadenlos, ne. Oben sind die aktuellen Türkei-Thematiken, 371 00:26:31,640 --> 00:26:34,270 also das ist deren Putschversuch und deren Demokratur 372 00:26:34,270 --> 00:26:37,540 und rechts von der Mitte ist Russland und der Ukraine Konflikt und 373 00:26:37,540 --> 00:26:41,320 links unten ist Israel und der Nahost 374 00:26:41,320 --> 00:26:46,509 Konflikt und wir zoomen nch weiter raus. Hier ist nun die gesamte politische 375 00:26:46,509 --> 00:26:50,591 Landschaft, diesmal haben wir mit zwei Rechtecken markiert, wo wir herkommen wir 376 00:26:50,591 --> 00:26:54,560 kommen, ursprünglich von der US-Wahl und dann von der Auslandspolitik. Also die 377 00:26:54,560 --> 00:26:58,930 Auslandspolitik ist oben rechts und unten rechts ist der Inlandsteil und seit Neuem 378 00:26:58,930 --> 00:27:02,780 gibt es nen riesigen Knubbel, der in der Mitte, das ist die Flüchtlingsthematik, 379 00:27:02,780 --> 00:27:06,640 die ist mittlerweile so groß, wie eine eigene Unterrubrik und die ist als dritte 380 00:27:06,640 --> 00:27:10,440 Kraft genau zwischen Ausland und Inland etabliert, ja. Was ja auch genau passt. 381 00:27:10,440 --> 00:27:15,679 Wir zoomen nochmal weiter raus. Ja, jetzt kann man gar nichts mehr erkennne, außer 382 00:27:15,679 --> 00:27:19,700 verschieden farbigen Landschaften. Ich sag also mal, für eine grobe Orientierung, 383 00:27:19,700 --> 00:27:23,460 hier kommen wir her, das rote ist der Politikteil. Rechts darüber in 384 00:27:23,460 --> 00:27:28,481 giftgrün das Panorama. Das wird durchteilt von der Wirtschaft, die Kette 385 00:27:28,481 --> 00:27:32,340 von türkisen Clustern entlang der Unterseite des Hauptkontinentes ist die 386 00:27:32,340 --> 00:27:37,160 Netzwelt. Blau im Osten ist der Kulturteil und so weiter und so fort. Wir können 387 00:27:37,160 --> 00:27:41,120 jetzt nicht alle durchgehen, ihr seht, die Gebiete gehen noch ineinander über und 388 00:27:41,120 --> 00:27:45,080 wir wissen jetzt fast, wie riesig diese Landkarte ist, einmal rauszoomen haben wir 389 00:27:45,080 --> 00:27:49,390 nämlich noch. Hier ist die große weite Welt, ja den unteren Teil haben wir schon 390 00:27:49,390 --> 00:27:54,299 grob kennengelernt, und hier sind wir eigentlich her gekommen, und auf dem Rest 391 00:27:54,299 --> 00:27:57,450 der Welt, etwas entrückt ist die Wissenschaft, das ... 392 00:27:57,450 --> 00:28:02,970 *Gelächter im Saal* *Applaus* 393 00:28:06,160 --> 00:28:09,830 Ich sehe, ihr könnt das nachvollziehen und habt da auch mal gearbeitet. 394 00:28:09,830 --> 00:28:10,820 *Gelächter* 395 00:28:10,820 --> 00:28:13,590 Und ganz weit weg vom Hauptkontinent ist der Sport. 396 00:28:13,590 --> 00:28:14,420 *Gelächter* 397 00:28:14,420 --> 00:28:18,570 So, und jetzt sehen wir erstmal, wie gross das ist und wie breit der Spiegel angelegt 398 00:28:18,570 --> 00:28:22,120 ist und diese riesige Landkarte gibts übrigens bei mir auf der Website, da 399 00:28:22,120 --> 00:28:24,860 könnt ihr auch selbst drin rumforschen, wie in GoogleMaps, so drin rum scrollen, 400 00:28:24,860 --> 00:28:29,070 das macht auch mehr Spaß als wenn ich das hier nur vorkaue und darum gehts jetzt 401 00:28:29,070 --> 00:28:32,910 auch weiter. Wir wenden die jetzt an. Ja, Spiegel Online bietet unter sehr vielen 402 00:28:32,910 --> 00:28:36,410 Artikeln an, ja, ähmm, .. 403 00:28:36,410 --> 00:28:38,350 *Publikum Gemurmel**Gelächter* 404 00:28:38,350 --> 00:28:42,220 Ich, das Gelächter geht los, bevor ich etwas gesagt habe. Ihr wisst doch gar 405 00:28:42,220 --> 00:28:46,460 nicht, was ich sagen will, ne? Das man seine eigene Meinung dazu äußern darf. 406 00:28:46,460 --> 00:28:48,490 *Publikum und David Gelächter* 407 00:28:48,490 --> 00:28:51,750 Und unter manchen Artikeln sperren sie diese Funktion aber, ne, 408 00:28:51,750 --> 00:28:52,520 *einzelnes Gelächter* 409 00:28:52,520 --> 00:28:54,340 und das untersuchen wir jetzt mal, 410 00:28:54,340 --> 00:28:58,250 Und ich hatte euch am Anfang des Vortrages gesagt, das Artikel direkt nach nen paar 411 00:28:58,250 --> 00:29:01,970 Minuten nach ihrem erscheinen von mir abgerufen werden, also wenn ich sag, das 412 00:29:01,970 --> 00:29:05,870 was nicht kommentiert werden darf, dann war das sehr wahrscheinlich, direkt vom 413 00:29:05,870 --> 00:29:08,250 Start weg so. So schnell randaliert kein Mensch. 414 00:29:08,250 --> 00:29:10,410 *leichtes Gelächter im Publikum* 415 00:29:10,410 --> 00:29:14,340 Also, bevor wir jetzt ne Themenlandkarte damit malen, schauen wir mal ganz kurz auf 416 00:29:14,340 --> 00:29:17,820 die zeitliche Entwicklung, der Kommentierbarkeit, und zwar einfach, damit 417 00:29:17,820 --> 00:29:21,450 wir ne Orientierung haben. In dem Plot sehen wir pro Kalenderwoche wieviel 418 00:29:21,450 --> 00:29:25,570 Prozent der erschienen Artikel kommentiert werden durften, und wieviele nicht. 419 00:29:25,570 --> 00:29:30,340 In Rot sind die Nichtkomentierbaren und Blau die Kommentierbaren und als ich 2014 420 00:29:30,340 --> 00:29:34,090 angefangen habe runterzuladen, waren erstmal ne ganze Zeit so 80 Prozent der 421 00:29:34,090 --> 00:29:37,740 Artikel kommentierbar. Und genau seit dem Zeitpunkt der großen 422 00:29:37,740 --> 00:29:42,650 Flüchtlingsberichterstattung im Sommer 2015, ja, sinkt der (Graph) der Artikel 423 00:29:42,650 --> 00:29:47,090 der kommentierbaren Nachrichten kontinuierlich ab, und jetzt seit kurzem 424 00:29:47,090 --> 00:29:51,400 ist wirklich die Mehrzahl der Artikel ohne Kommentarfunktion, ne, dir rote Linie 425 00:29:51,400 --> 00:29:54,960 überholt die Blaue, und die Kommentierbarkeit wird übrigens nicht nur 426 00:29:54,960 --> 00:29:59,599 im Politikressort weniger, das passiert übergreifend in fast allen Ressorts und 427 00:29:59,599 --> 00:30:03,220 ob seit dem der Hass im Netz irgendwie themenübergreifend soviel schlimmer 428 00:30:03,220 --> 00:30:07,140 geworden ist oder Spiegel-Online jetzt einfach soviel Angst vor fiesen 429 00:30:07,140 --> 00:30:10,940 Kommentaren hat, das kann ich aus denn Zahlen nicht ablesen, das müsst ihr dann 430 00:30:10,940 --> 00:30:15,500 für euch selbst entscheiden. Interessant ist aber noch der kleine, grüne Plot im 431 00:30:15,500 --> 00:30:20,090 Bild, ne , das sind auch nicht kommentierbare Artikel. Aber bei denen 432 00:30:20,090 --> 00:30:23,910 steht so ein kleiner Entschuldigungstext dran, ja. Das hier die Kommentarfunktion 433 00:30:23,910 --> 00:30:27,970 wegen der Netikette und so weiter gesperrt ist. Ihr braucht das hier jetzt nicht 434 00:30:27,970 --> 00:30:31,929 lesen, ich bring das nur zur Ansicht, und diesen Entschuldigungstext haben sie zu 435 00:30:31,929 --> 00:30:36,890 Anfang der Flüchtlingsberichterstattung eingeführt und es scheint so, als war 436 00:30:36,890 --> 00:30:40,340 Spiegel-Online da selbst ein bisschen unwohl mit dem krassen Anstieg der 437 00:30:40,340 --> 00:30:44,240 Kommentarsperrungen. Aber wie man am Plot sieht, haben sie den Hinweis ganz flott 438 00:30:44,240 --> 00:30:47,710 wieder aufgegeben, obwohl die Kommentiermöglichkeiten immer und immer 439 00:30:47,710 --> 00:30:52,799 mehr gesperrt werden. So und jetzt gehts zur Landkarte. Wir färben ein Keyword 440 00:30:52,799 --> 00:30:57,920 röter, wenn unterdurchschnittlich viele Artikel darin kommentierbar sind und wir 441 00:30:57,920 --> 00:31:01,270 färben ein Keyword eher blau, wenn das Keyword überdurchschnittlich 442 00:31:01,270 --> 00:31:04,770 kommentierbar ist. Graue Keywords repräsentieren so den Durchschnitt, da 443 00:31:04,770 --> 00:31:07,560 dann so 70 Prozent kommentierbar und das gibt 444 00:31:07,560 --> 00:31:11,001 natürlich auch alle Farben dazwischen. Also wenn so'n Keyword wirklich 445 00:31:11,001 --> 00:31:14,630 aufleuchtet, dann ist das irgendwo am Ende der Skala oder am Anfang. Und die 446 00:31:14,630 --> 00:31:18,551 Landkarte stell ich auch bald auf meine Website, die jetzt kommt, da könnt ihr da 447 00:31:18,551 --> 00:31:22,410 auch selbst drin rumklicken. So, und wir fangen mal mit ein paar einfachen Sachen 448 00:31:22,410 --> 00:31:26,900 an. Ja ihr ahnt es, Sport darf man quasi komplett kommentieren, ja, knallblau. Und 449 00:31:26,900 --> 00:31:30,540 falls ihr euch fragt, was der knallrote Punkt da ist, das ist ein bestimmtes 450 00:31:30,540 --> 00:31:34,679 Artikelformat, das ist technisch ohne Kommentarfunktion. Sowas kommt schon mal 451 00:31:34,679 --> 00:31:39,080 vor, ich sag nur, weil ich gleich sonst 13 mal die Frage kriege. Und wo man in der 452 00:31:39,080 --> 00:31:43,219 Regel auch gut kommentieren darf, das sind Wissenschaftsthemen und Wirtschaftsthemen 453 00:31:43,219 --> 00:31:45,320 Hier sind die Bahnstreiks, ja. 454 00:31:45,320 --> 00:31:48,790 Da darf nach Kräften auf die Bahn eingekloppt werden. 455 00:31:48,790 --> 00:31:49,960 *Gelächter* 456 00:31:49,960 --> 00:31:56,440 Und wo wir schon von Streik reden, ist bestimmt jeder hier im Raum in Gedanken, 457 00:31:56,440 --> 00:32:01,730 bei der Lufthansa, die streiken ja als Hauptkonzernaktivität. Alles blau, ja 458 00:32:01,730 --> 00:32:02,870 *Gelächer im Saal* 459 00:32:02,870 --> 00:32:06,070 Alles blau, auch die dürfen fiese Kommentare abkriegen. Ich würd ja 460 00:32:06,070 --> 00:32:08,890 mitlachen, aber ich bin mit dem Flugzeug hier in Hamburg, ne 461 00:32:08,890 --> 00:32:11,110 *Gelächter im Saal* *kleiner Applaus* 462 00:32:11,110 --> 00:32:15,500 So, nach dem ganzen blau. jetzt mal was rotes. Knallrote Landschaft, ergibt sich 463 00:32:15,500 --> 00:32:21,810 um die Justiz. Das sind Berichte über die Kriminalität; Morde, Attentate, ja, "the 464 00:32:21,810 --> 00:32:27,380 full packedge" und hier will man eher weniger Lesekommentare, ja. So, die Justiz 465 00:32:27,380 --> 00:32:33,200 hat so 30 Prozent Kommentierbarkeit von den üblichen 70 Prozent. Hier ist die 466 00:32:33,200 --> 00:32:38,489 ganze Geschichte rund um den NSU-Prozeß. Der ist hier ja auch Thema. Tiefrot, ja, 467 00:32:38,489 --> 00:32:42,460 generell auch alles, was mit Rechtsradikal und Nazis und so zu tun hat, darf eher 468 00:32:42,460 --> 00:32:46,140 wenig kommentiert werden und der Kernknubbel hier, der hat so um die 18 469 00:32:46,140 --> 00:32:52,510 Prozent, ja, ist also noch weniger als die Justiz und die waren schon rot. Was auch 470 00:32:52,510 --> 00:32:55,160 tiefrot ist, ist alles um die Flüchtlingsthematik und zwar nicht nur 471 00:32:55,160 --> 00:32:58,120 das Konkrete, sondern auch der weitergefasste Rahmen, Asylrecht 472 00:32:58,120 --> 00:33:03,210 und so weiter. Seht ihr sogar im Bild. Und von Aussen sieht das aus, als sperrt der 473 00:33:03,210 --> 00:33:08,600 Spiegel seine Kommentarfunktion komplett systematisch und zwar nach Themen, Ja? Und 474 00:33:08,600 --> 00:33:12,290 das wir sowas direkt visuell raus finden können, das macht diese Landkarte so 475 00:33:12,290 --> 00:33:16,081 unheimlich mächtig. Allgemein ist es in der Data-Science nicht nur wichtig richtig 476 00:33:16,081 --> 00:33:19,820 auszuwerten, es ist genauso wichtig, die Informationen möglichst anschaulich 477 00:33:19,820 --> 00:33:23,110 visuell aufzubereiten. So können dann nämlich auch Leute, die keine 478 00:33:23,110 --> 00:33:27,070 Informatiker sind, sofort komplexe Zusammenhänge erkennen. Es gibt ja nur 479 00:33:27,070 --> 00:33:32,160 eine Breitbandverbindung ins Gehirn und das sind die Augen. Richtig interessant 480 00:33:32,160 --> 00:33:36,929 wirds, wenn man mal guckt, wie Spiegel-Online die Kommentierbarkeit hart 481 00:33:36,929 --> 00:33:43,290 national ordnet. Das hier ist der ganze Nahost-Konflikt, um Israel, ja, wie ihr an 482 00:33:43,290 --> 00:33:48,090 dem satten Rot seht, zum Nahostkonflikt und Israel hat man bei fast allen Artikeln 483 00:33:48,090 --> 00:33:53,710 die Klappe zu halten. So und jetzt schwenken wir mal vom Nahost-Konflikt zum 484 00:33:53,710 --> 00:33:58,029 Ukraine-Konflikt. Ja *lächelt seufzend* 485 00:33:58,029 --> 00:34:03,440 * akustische Aufruhr im Publikum* *Einzelapplaus* 486 00:34:03,440 --> 00:34:04,110 Ja. 487 00:34:04,110 --> 00:34:05,600 *Applaus* 488 00:34:05,600 --> 00:34:10,379 Also. Ihr könnt euch mit nach Hause nehmen. Meine Damen und Herren: 489 00:34:10,379 --> 00:34:11,770 Russen bashen ist OK. 490 00:34:11,770 --> 00:34:13,230 *Gelächter im Publikum* 491 00:34:13,230 --> 00:34:16,329 Ja, was wir hier - Live und in Farbe - sichtbar gemacht haben, ist nichts anderes 492 00:34:16,329 --> 00:34:21,379 als unsere westliche Filterbuble. Die kann man messen. Zum Iran darf man seinen Senf 493 00:34:21,379 --> 00:34:27,099 dazugeben, zu Großbritanien auch. Zur Türkei, da ist Spiegel-Online sich noch 494 00:34:27,099 --> 00:34:28,099 nicht ganz sicher. 495 00:34:28,099 --> 00:34:29,099 *Gelächter* 496 00:34:29,099 --> 00:34:33,899 Und Frankreich ist interessant, diese Region der Landkarte, die möchte 497 00:34:33,899 --> 00:34:39,219 eigentlich blau sein aber die ganzen Keywords rund um die Terrorserie dort, die 498 00:34:39,219 --> 00:34:42,329 sind knallrot und die strahlen in die Nachbarn aus und das schauen wir uns jetzt 499 00:34:42,329 --> 00:34:47,440 doch mal ein bisschen genauer an, Das sind alles Frankreichartikel aber nach Zeit. 500 00:34:47,440 --> 00:34:52,079 Die blaue Linie ist das Aufkommen der kommentierbaren Artikel, die rote Linie 501 00:34:52,079 --> 00:34:56,300 wieder das Aufkommen der Nichtkommentierbaren und wir sehen: wie 502 00:34:56,300 --> 00:35:00,821 Frankreich von 2014 bis 2015 erstmal überwiegend kommentierbar ist und die 503 00:35:00,821 --> 00:35:06,339 blaue Linie ist über der roten, und hier ist die Terrorserie in Paris im November 504 00:35:06,339 --> 00:35:12,160 2015 und es wird plötzlich enorm viel berichtet. Also sehen wir ne krasse Spitze 505 00:35:12,160 --> 00:35:17,980 am Frankreichartikeln, ne, und davon sind die Meisten nicht kommentierbar. Also: 506 00:35:17,980 --> 00:35:20,200 Frankreich an sich dürft ihr gerne kommentieren aber bezüglich der 507 00:35:20,200 --> 00:35:25,859 Anschläge dort bitte nicht. Und das Interessante ist, der Effekt wirkt fort, 508 00:35:25,859 --> 00:35:30,369 Seit der Terrorserie ist Frankreich generell nicht mehr so kommentierbar. Die 509 00:35:30,369 --> 00:35:34,609 rote Linie ist meist über der Blauen. Und jetzt tretten wir wieder einen Schritt 510 00:35:34,609 --> 00:35:40,759 zurück. Und natürlich sehe ich auch, das der Spiegel Themenbereiche aufgrund der 511 00:35:40,759 --> 00:35:44,290 Erfahrungen in der Verasngenheit sperren kann. Und generell müssen wir auch 512 00:35:44,290 --> 00:35:48,059 zugeben, das ist das gute Recht von Spiegel-Online zu entscheiden, wo und in 513 00:35:48,059 --> 00:35:51,849 welcher Form sie Anderen auf ihrer Seite ne Plattform geben und wo sie das eben 514 00:35:51,849 --> 00:35:56,499 nicht tun. Aber genauso ist es auch unser gutes Recht diese Systematik hier mal 515 00:35:56,499 --> 00:36:01,499 sichtbar zu machen. Und ich denke, das sieht insgesamt so aus als verböte 516 00:36:01,499 --> 00:36:06,320 Spiegel-Online genau zu denjeniegen Themen die Kommentierung, bei denen zu erwarten 517 00:36:06,320 --> 00:36:12,729 ist, das die Meinungen der Leser politisch nicht opportun sind. Ob das jetzt etwas 518 00:36:12,729 --> 00:36:16,309 über Spiegel-Online aussagt oder über seine Leser oder irgendwie ein 519 00:36:16,309 --> 00:36:19,930 gesamtgesellschaftliches Problem ist, das müsst ihr dann wieder selbst entscheiden. 520 00:36:19,930 --> 00:36:26,680 Was die Auswertung angeht, haben wir den Vortrag bis jetzt im Grunde zweigeteilt. 521 00:36:26,680 --> 00:36:34,230 Am Anfang haben wir die Artikelsammlung in nur wenige Töpfe unterteilt, und danach 522 00:36:34,230 --> 00:36:37,900 haben wir die Artikelsammlung in viel mehr Töpfe unterteilt, das sind die wenigen, 523 00:36:37,900 --> 00:36:42,049 jeder Artikel konnte sogar in mehreren Töpfen sein. Ne, das war ja so? Wenn nen 524 00:36:42,049 --> 00:36:45,890 Artikel mehrere Keywords hatte, dann war er auch in mehreren Töpfen. Und das war 525 00:36:45,890 --> 00:36:51,109 ne viel komplexere, aber auch viel mächtigere Art der Unterteilung. Und 526 00:36:51,109 --> 00:36:54,550 jetzt merkt ihr euch diese beiden Arten der Unterteilung mal kurz und damit machen 527 00:36:54,550 --> 00:37:00,380 wir was politisches, wir gehen über zum Thema Wahlkampf. Ja, Wahlkämpfe 528 00:37:00,380 --> 00:37:04,390 funktionieren grob so, das man die Menge aller Wähler auseinander schneidet, 529 00:37:04,390 --> 00:37:08,420 wie wir unsere Artikel auseinander geschnitten haben. Das heißt dann 'Voter 530 00:37:08,420 --> 00:37:14,569 Targeting'. Und bei der US-Wahl konnte man z.B. sagen man schneidet die Wähler grob 531 00:37:14,569 --> 00:37:19,369 nach Geschlecht, Hautfarbe, Alter und Gehalt. Das wird dann in der Tat auch so 532 00:37:19,369 --> 00:37:22,950 gemacht. Dann könnte man sozusagen allen schwarzen Frauen in Kalifonien, die 533 00:37:22,950 --> 00:37:27,630 zuwischen 30 und 40 sind und über 60.000 Dollar im Jahr verdienen, zugeschnittene 534 00:37:27,630 --> 00:37:33,529 Wahlwerbung schicken. Und das ist ne relativ grobe Art der Unterteilung und die 535 00:37:33,529 --> 00:37:37,750 ist sozusagen analog zu unseren groben Unterteilungen hier, auf der linken Seite 536 00:37:37,750 --> 00:37:50,849 der Folie. Aber was wäre dann die rechte Seite? Vor einiger Zeit hat dieser Artikel 537 00:37:50,849 --> 00:37:54,829 des Schweizer Tagesanzeiger die Runde gemacht. Ich bin sicher viele von euch 538 00:37:54,829 --> 00:38:00,520 kennen den, der ging ziemlich durchs Netz, der wurde am Tag 13 mal als Lesebefehl 539 00:38:00,520 --> 00:38:04,479 geschickt, und so weiter und so fort. Also ich glaube, ich habe den bestimmt 50 mal 540 00:38:04,479 --> 00:38:08,569 bekommen, weil ich mich halt auch mit dem Maschinen-Learning auseinandersetze. 541 00:38:08,569 --> 00:38:14,020 Und in dem Artikel steht im Grunde, das ne Datenanalysefirma es geschafft habe, eine 542 00:38:14,020 --> 00:38:18,700 extrem feine Unterteilung von Wählern hinzukriegen. Das wäre, sozusagen, analog 543 00:38:18,700 --> 00:38:23,160 zu unserer sehr mächtigen Themenlandkarte. Und in dem Artikel steht 544 00:38:23,160 --> 00:38:28,329 weiter, das hätte diese Firma sowohl für die Präsidentschaftswahl, als auch für 545 00:38:28,329 --> 00:38:33,430 das Brexit-Referendum gemacht. Und es wurde dann behauptet, deswegen wäre Trump 546 00:38:33,430 --> 00:38:38,530 gewählt worden und deswegen wäre der Brexit durchgekommen. Das ist natürlich 547 00:38:38,530 --> 00:38:43,300 spooky. Und das verkauft sich gut. Ja - uijuijuijuijui - Die selbe Firma hinter 548 00:38:43,300 --> 00:38:49,259 Trump und hinter dem Brexit, ja, da glüht der Aluhut, wirklich. 549 00:38:49,259 --> 00:38:54,309 *Gelächter* *Applaus* 550 00:38:54,309 --> 00:39:02,180 Und die sagen, ihre Unterteilung der Wählerschaft sei so fein, das man jedem 551 00:39:02,180 --> 00:39:07,299 Wähler seine genau passende Wahlwerbung schicken könnte. Und sie sagen nicht nur 552 00:39:07,299 --> 00:39:10,460 das, sie sagen sie können das sogar noch genauer, sie können sogar den 553 00:39:10,460 --> 00:39:14,640 Gesprächston treffen, so dass der Wähler wahrscheinlich drauf hört. Generell 554 00:39:14,640 --> 00:39:19,349 würde ich sagen, ne, tiefer hängen. Es ist überhaupt nicht klar, was die 555 00:39:19,349 --> 00:39:24,150 Firma den beiden Wahlkämpfen überhaupt wirklich gebracht hat. Die Infos kommen im 556 00:39:24,150 --> 00:39:28,450 wesentlich nämlich von der Firma selbst und ich glaube, ehrlich gesagt ja, da hat 557 00:39:28,450 --> 00:39:32,470 die Firma einen hervorragenden Vertriebler geschickt und der hat dann wirklich der 558 00:39:32,470 --> 00:39:37,529 Presse einen brillianten Vortrag gehalten und die Presse hat's dann einfach gekauft. 559 00:39:37,529 --> 00:39:42,190 So und die Kernaussage ist doch nur: Ihr könnt jetzt Wahlwerbung bekommen, oder 560 00:39:42,190 --> 00:39:46,339 Werbung im Allgemeinen, die extrem genau auf euch zugeschnitten ist und euch 561 00:39:46,339 --> 00:39:51,650 so effizienter zu Dingen verleitet. Mit anderen Worten: Endlich kriegen nur noch 562 00:39:51,650 --> 00:39:55,319 diejenigen Viagra-Spam, die das Produkt auch wirklich benötigen. 563 00:39:55,319 --> 00:39:56,979 Das ist ja zunächst mal nicht schlimm. 564 00:39:56,979 --> 00:39:58,249 *verhaltendes Gelächter* 565 00:39:58,249 --> 00:40:02,099 Ja, Aber kaufen und eben wählen, das müssen die Leute schon noch selbst, es 566 00:40:02,099 --> 00:40:05,329 ist nicht so das BigData die Leute fernsteuert. Das müssen wir schon 567 00:40:05,329 --> 00:40:10,279 festhalten, also man könnte sagen: Wer vor so zielgerichteter Werbung Angst hat, 568 00:40:10,279 --> 00:40:13,700 der sollte vielleicht die eigene Urteilsfähigkeit hinterfragen. 569 00:40:13,700 --> 00:40:19,430 *Applaus* 570 00:40:20,050 --> 00:40:26,069 Ja. Ja. Bestimmt haben auch ein paar von euch diesen Gedankengang gehabt und an der 571 00:40:26,069 --> 00:40:30,830 Stelle hat ich keinen Applaus erwartet. Sich selbst haben sie sich ein 572 00:40:30,830 --> 00:40:34,470 bisschen bruhigt, mit diesem Gedankengang. Das Problem ist nur, ich glaube, 573 00:40:34,470 --> 00:40:39,259 die eigene Urteilsfähigkeit hinterfragen, das macht kaum einer. In der Realität 574 00:40:39,259 --> 00:40:43,059 wählen die Leute doch irgendwie denjenigen, der ihnen am meisten, am 575 00:40:43,059 --> 00:40:48,140 emotional passensten, kurz vor der Wahl was zubrüllt. Ja. Und so laufen Wahlen. 576 00:40:48,140 --> 00:40:52,380 Das ist ja auch politisch so gewollt, Wo kämen wir auch hin, wenn Wahlen irgendwie 577 00:40:52,380 --> 00:40:54,849 langfristigen Erfolg belohnen würden, ne. 578 00:40:54,849 --> 00:40:55,930 *verhaltendes Lachen* 579 00:40:55,930 --> 00:41:01,420 Und dieses emotionale Zurufen und das geht mit so höchst personalisierter Werbung 580 00:41:01,420 --> 00:41:07,999 urplötzlich, unglaublich effizient. Und das bedeutet, ja, Data-Science-Techniken 581 00:41:07,999 --> 00:41:12,650 können Wahlen beeinflussen. Ja vorhin hatte ich die Voratsdatenspeicherung 582 00:41:12,650 --> 00:41:17,869 angeprangert ja ich bin ja auf dem CCC, also vermute ich, dass die Meisten von 583 00:41:17,869 --> 00:41:21,670 von mit mir einer Meinung waren. Und damit kommen wir genau zum Punkt; Wisst ihr, was 584 00:41:21,670 --> 00:41:25,720 die Firma aus dem Artikel genommen hat, um die Wähler so ultragenau zu vermessen? 585 00:41:25,720 --> 00:41:29,569 Das waren überhaupt gar keinen staatlichen Überwachungsdaten, das waren 586 00:41:29,569 --> 00:41:35,329 Facebook-Likes. Also Daten, die die Leute selbst über sich ins Netz gestellt 587 00:41:35,329 --> 00:41:38,880 hatten, ne. Und es ist wichtig mit staatlicher Überwachung kritisch zu sein. 588 00:41:38,880 --> 00:41:42,819 Ja das dürfen wir und das müssen wir auch, wenn wir kein Unrechtsstaat werden 589 00:41:42,819 --> 00:41:47,289 wollen. Aber wenn wir dann gleichzeitig völlig unkritisch sind mit uns selbst, 590 00:41:47,289 --> 00:41:52,950 ja, und wirklich jeden Mist ins Facebook oder ähnliche Plattformen pumpen, ja, 591 00:41:52,950 --> 00:41:54,810 dann haben wir nichts gewonnen. 592 00:41:55,900 --> 00:42:06,070 *Applaus* 593 00:42:06,070 --> 00:42:11,359 Mein Vortrag neigt sich dem Ende zu. Es kommen jetzt noch zwei Sachen: eine kleine 594 00:42:11,359 --> 00:42:17,130 Überraschung und dann habe ich noch ne Bitte an euch alle. Und zuerst gibt es die 595 00:42:17,130 --> 00:42:22,950 Überraschung. Ja, habe ich vorhin gesagt, ich hätte 100.000 Artikel von 596 00:42:22,950 --> 00:42:27,890 Spiegel-Online geladen? Ich meinte über 700.000 597 00:42:27,890 --> 00:42:31,930 *Applaus* 598 00:42:31,930 --> 00:42:36,530 Ne, ich lade jeden Artikel nicht nur einmal runter, wenn er erscheint somdern 599 00:42:36,530 --> 00:42:40,370 mehrfach in wachsenden Zeitabständen. Und mit anderen Worten, wir können messen, 600 00:42:40,370 --> 00:42:43,230 was in Artikeln geändert wurde. 601 00:42:43,230 --> 00:42:49,660 *Gelächter* *Applaus* 602 00:42:49,660 --> 00:42:53,719 So und aus Zeitgründen, gibts damit keine riesen Auswertung. Erstens aus 603 00:42:53,719 --> 00:42:57,510 Zeitgründen hier im Vortrag aber auch zweitens aus persönlichen Zeitgründen ne, 604 00:42:57,510 --> 00:43:01,640 ich muss irgendwann auch nochmal arbeiten. Aber wir haben ne kleine Demo. 605 00:43:01,640 --> 00:43:06,819 Ich hab zum Beispiel mal geguckt, ob Titel geändert werden, ne. 606 00:43:06,819 --> 00:43:10,520 Und bei sowas findet man einfach lustige Sachen. Es gibt nicht nur den Titel, 607 00:43:10,520 --> 00:43:11,960 der hier offensichtlich ist. 608 00:43:11,960 --> 00:43:16,300 Sondern es gibt auch zusätzlich den Html-Titel, die Techniker unter euch 609 00:43:16,300 --> 00:43:20,900 kennen den. Der wird oben im Browser angezeigt und auch die Html-Titel erfasse 610 00:43:20,900 --> 00:43:27,140 ich natürlich. So und am 21.Januar - wobei der hier sichtbare Artikel ist am 611 00:43:27,140 --> 00:43:32,349 20. Januar 2015 rausgekommen - und am 21.Januar und das war einen Tag nachdem 612 00:43:32,349 --> 00:43:36,710 der Artikel erschienen war, wurde mir angezeigt: Der Html-Titel hat sich 613 00:43:36,710 --> 00:43:43,329 geändert aus "SAP wächst 2014 langsamer als geplant." Ich hab mich dann gefragt: 614 00:43:43,329 --> 00:43:48,049 He, warum wurde er denn geändert, ja also wie war der vorher. Ganz einfach: Als der 615 00:43:48,049 --> 00:43:54,410 Artikel rauskam, wuchs nähmlich nicht SAP sondern der SAP-Chef 616 00:43:54,410 --> 00:43:56,000 wuchs langsamer als geplant. 617 00:43:56,000 --> 00:43:57,589 *Gelächter* 618 00:43:57,589 --> 00:43:59,989 Sowas finde ich an sich ganz sympatisch, 619 00:43:59,989 --> 00:44:02,229 *Gelächter* 620 00:44:02,229 --> 00:44:05,579 denn es zeigt, das bei Spiegel Online noch Menschen an den Texten sitzen und keine 621 00:44:05,579 --> 00:44:10,940 Computer und im Moment heisst der Artikel übrigens: SAP kann Wachstums- und 622 00:44:10,940 --> 00:44:15,349 Gewinnziele nicht erfüllen. Also das hat nochmal irgendwem nicht gefallen, ne. Und 623 00:44:15,349 --> 00:44:19,369 irgendwann zwischendurch haben sie es nochmal geändert. Also, jetzt wisst ihr 624 00:44:19,369 --> 00:44:22,069 erst, wie mächtig der Datensatz tatsächlich ist. Ich hab von jedem 625 00:44:22,069 --> 00:44:26,060 Artikel diverse zeitlich versetzte Versionen und das erlaubt natürlich viel, 626 00:44:26,060 --> 00:44:29,640 viel krassere Auswertungen und damit fang ich aber selbst erst an und deswegen ist 627 00:44:29,640 --> 00:44:33,489 heute noch so wenig davon im Vortrag, aber das war meine Überraschung und jetzt 628 00:44:33,489 --> 00:44:39,029 kommt meine Bitte. Ihr habt jetzt alles mögliche gesehen und wir haben Artikel 629 00:44:39,029 --> 00:44:43,680 auf einfach und komplexe Weise unterteilt. Wir haben gesehen, das verschiedene 630 00:44:43,680 --> 00:44:47,319 Arten der Unterteilung und Darstellung verschieden mächtig sind und wir haben 631 00:44:47,319 --> 00:44:51,240 verschiedenste Features aus den Artikeln gelesen: Rubrik, Zeiten, Kommentierbarkeit 632 00:44:51,240 --> 00:44:56,900 Autor. Jede Menge weiterer Features sind denkbar. Auch kompliziertere Features ja. 633 00:44:56,900 --> 00:45:01,259 Man könnte zum Bsp für jeden Artikel die darin enthaltenden Links raus ziehen und 634 00:45:01,259 --> 00:45:05,130 dann gucken, ob bestimmte Autoren Kumpels haben, auf die sie oft verlinken. 635 00:45:05,130 --> 00:45:09,289 Der Fantasie sind wirklich keine Grenzen gesetzt. Und zum Schluss haben wir sogar 636 00:45:09,289 --> 00:45:14,710 gesehen, wir können für jeden Artikel messen, was verändert wurde, ne. 637 00:45:14,710 --> 00:45:19,559 Wir können z.B. gucken, wo die Leser am meisten randalieren. Da guckt man, indem 638 00:45:19,559 --> 00:45:23,059 man guckt, wo die Kommentarfunktionen erst geöffnet und später dann geschlossen 639 00:45:23,059 --> 00:45:28,729 sind. Also meine Bitte an euch, jeder der hier zuguckt, schickt mir bitte einen Mail 640 00:45:28,729 --> 00:45:34,749 mit seinem kreativsten Auswertungsideen für den Datensatz. Und in dem 641 00:45:34,749 --> 00:45:36,969 Zusammenhang hab ich noch ne Message, die ihr euch auch mitnehmen könnt. Wenn ihr 642 00:45:36,969 --> 00:45:40,609 was im Bereich der Data-Science macht, Rohdaten sind geil. 643 00:45:40,609 --> 00:45:53,650 *Gelächer* *Applaus* 644 00:45:53,650 --> 00:45:58,269 Behaltet immer alle Rohdaten, wenn ihr es irgendwie vom Speicher bezahlen könnt. 645 00:45:58,269 --> 00:46:02,209 Ne, dann könnt ihr nämlich im nachhinein alles mögliche tun. Ich hab alle Rohdaten 646 00:46:02,209 --> 00:46:05,410 komplett da. Das sind über 60 GB pures HTML. 647 00:46:05,410 --> 00:46:06,410 *Gelächter* 648 00:46:06,960 --> 00:46:10,510 Und neue Features im nachhinein dazu auswerten, ist deswegen überhaupt 649 00:46:10,510 --> 00:46:14,420 kein Problem. Darum bitte, bitte, lasst eurer Fantasie freien Lauf. Erfindet neue 650 00:46:14,420 --> 00:46:18,280 Features, erfindet wonach die ausgewertet werden sollen. Schickt mir einfach, was 651 00:46:18,280 --> 00:46:21,620 ihr euch denkt, ja. Vieleicht ist nicht alles, was ihr wollt möglich und 652 00:46:21,620 --> 00:46:24,929 vielleicht schau ich auch nicht alles sofort. Ich bin ja auch berufstätig und 653 00:46:24,929 --> 00:46:28,840 zum Jahresanfang werde ich stramm eingespannt sein Aber ich versuch was 654 00:46:28,840 --> 00:46:33,719 möglich zu machen. Also einfach einschicken. Seit kreativ. Und damit 655 00:46:33,719 --> 00:46:37,680 bleibts mir nur noch, ein dickes Dankeschömn zu sagen dafür das ihr diese 656 00:46:37,680 --> 00:46:42,189 Stunde mit mir verbracht habt. Hier sind noch die Links. Und bis dann. 657 00:46:42,189 --> 00:47:02,160 *Applaus* * Jubel**Applaus* 658 00:47:02,160 --> 00:47:06,030 Herald: Ganz so schell wirst du natürlich noch nicht entlassen, weil wir 659 00:47:06,030 --> 00:47:11,200 haben noch unsere Fragerunde. Erstmal herzlichen Dank, immer schön zu sehen, 660 00:47:11,200 --> 00:47:14,849 wie die Mathematik doch spannend sein kann, um eben solche Daten zu analysieren. 661 00:47:14,849 --> 00:47:24,220 Und ja, wie immer, wenn ihr Fragen habt, tretet vor zu den Mikrofonen. Und alle die 662 00:47:24,220 --> 00:47:30,390 schnell, ich glaube nebenan startet der Jahresrückblick mit Fefe oder 663 00:47:30,390 --> 00:47:32,849 David Kreisel: Ne der Fefe sitzt da vorne im Publikum. 664 00:47:32,849 --> 00:47:40,539 Herald: Ach ja, der sitzt noch hier. So schnell wird er dann drüben noch nicht 665 00:47:40,539 --> 00:47:46,690 starten, vielleicht wollen die schon mal einen Platz. Genau. .... Wo haben wir 666 00:47:46,690 --> 00:47:49,309 Fragen, an Mikro 3, beginnen wir dort: 667 00:47:49,309 --> 00:47:54,569 Mik 3: Hi, super Vortrag, fand ich echt Klasse. Was mich mal interessieren würde: 668 00:47:54,569 --> 00:47:58,499 Hast du mal geguckt, ob die Split testen und die Artikel-Überschriften ändern 669 00:47:58,499 --> 00:48:01,339 anhand von wieviel Leute drauf klicken oder sowas? 670 00:48:01,339 --> 00:48:05,279 David: Ja das würde man messen daran, wie viele verschiedene Titel man so findet 671 00:48:05,279 --> 00:48:08,680 und wenn diese Zahl der durchschnittlichen Titel pro Artikel ansteigt, dann passiert 672 00:48:08,680 --> 00:48:14,640 das und wenn ich das richtig interpretiere dann testen sie das gerade. Also es ist 673 00:48:14,640 --> 00:48:18,480 noch nicht übergreifend, es ist immer nur so stossweise, vielleicht will mich auch 674 00:48:18,480 --> 00:48:21,890 einer korrigieren von Spiegel Online, aber so wie meine Daten aussehen, ja hab ich 675 00:48:21,890 --> 00:48:26,999 getestet, sie versuchen es gerade. Also was ist Splittesten? Vieleicht mal fürs 676 00:48:26,999 --> 00:48:30,640 Publikum. Man veröffentlicht Artikel mit verschiedenen Titeln und dann guckt man, 677 00:48:30,640 --> 00:48:33,630 wo am meisten Leute klicken, bei welchem Titel und der Titel darf dann weiter 678 00:48:33,630 --> 00:48:38,559 leben. Ihr verändert also durch euren Besuch direkt die Nachrichtenseite. 679 00:48:38,559 --> 00:48:46,210 Mikro 1: Ja hi. Ich wollte fragen, ob du auch Spiegel-plus Artikel, die es ja seit 680 00:48:46,210 --> 00:48:50,329 Mitte diesen Jahres, glaube ich, gibt mit einbezogen hast und wenn ja, hast du einen 681 00:48:50,329 --> 00:48:51,329 plus Account? 682 00:48:51,329 --> 00:48:52,329 David: Äh, ja. 683 00:48:52,329 --> 00:48:53,890 *leichtes Gelächter im Publikum* 684 00:48:53,890 --> 00:48:57,829 Ich habe die mit einbezogen, ähm, und natürlich habe ich auch einen 685 00:48:57,829 --> 00:49:00,220 plus-Account, der das vollautomatisch entschlüsselt, 686 00:49:00,220 --> 00:49:01,220 *räusper* 687 00:49:01,220 --> 00:49:02,220 und dazu also 688 00:49:02,220 --> 00:49:03,080 *Gelächter* 689 00:49:03,080 --> 00:49:06,250 wenn einer Näheres - Ich hab mich da wahnsinnig geärgert - kurz - als die 690 00:49:06,250 --> 00:49:09,640 plus-Artikel rauskamen, weil ich die nicht auf Anhieb de-krypten konnte. 691 00:49:09,640 --> 00:49:12,319 Und dazu gibts jetzt bei mir einen Blogartikel, seitdem, 692 00:49:12,319 --> 00:49:15,140 wie man die de-kryptet. 693 00:49:15,140 --> 00:49:19,070 *Applaus* 694 00:49:19,070 --> 00:49:22,600 Ich muss übrigens mal was Positives sagen, die Spiegel plus Artikel sind im 695 00:49:22,600 --> 00:49:26,089 Median 1100 Worte lang, also man muss schon sagen, 696 00:49:26,089 --> 00:49:27,439 da kriegt ihr auch was fürs Geld. 697 00:49:27,439 --> 00:49:29,599 *leichtes Gelächter**leichter Applaus* 698 00:49:29,599 --> 00:49:39,839 Mikro 7: Hast du im Rahmen deiner Analysen auch auf die Inhalte geguckt, das du 699 00:49:39,839 --> 00:49:46,339 vielleicht die Worthäufigkeit analysiert hast und die Zuordnung zu Ressorts oder zu 700 00:49:46,339 --> 00:49:51,339 Schlagworten anhand der Inhalte abgeglichen hast, um vielleicht raus 701 00:49:51,339 --> 00:49:54,680 zufinden, ob die Verschlagwortung vollständig oder richtig ist. 702 00:49:54,680 --> 00:49:58,582 David: Ne hab ich noch nicht gemacht. Man kann ja die Schlagworte nehmen und da hab 703 00:49:58,582 --> 00:50:01,609 ich es mir bequem gemacht oder man versucht jetzt ne Analyse zu machen, was 704 00:50:01,609 --> 00:50:04,579 die relevanten Worte im Artikel sind und das hab ich noch nicht gemacht, Das wären 705 00:50:04,579 --> 00:50:08,470 dann sozusagen die schöneren Schlagworte. Aber ne, hab ich noch nicht gemacht. 706 00:50:08,470 --> 00:50:12,219 Herald -Frage aus dem Internet: 707 00:50:12,219 --> 00:50:16,420 Signal Angel: IRC möchte wissen, welche Software du benutzt hast, um die Daten zu 708 00:50:16,420 --> 00:50:19,519 sammeln. zu analysieren, zu visualisieren und ob es 709 00:50:19,519 --> 00:50:20,519 die Daten irgendwo gibt, außer bei dir. 710 00:50:20,519 --> 00:50:24,360 David: OK. Nein gibts noch nicht, irgendwo außer bei mir, weil ich mir auch gar 711 00:50:24,360 --> 00:50:31,440 nicht sicher bin, ob ich die verteilen darf. Ich benutze den Python Data Stack 712 00:50:31,440 --> 00:50:34,599 und die Software zum runterladen hab ich mir selbst geschrieben, die läuft auf 713 00:50:34,599 --> 00:50:40,690 einem meiner Server und darüberhinaus nutze ich Pandas für die Analyse, das ist 714 00:50:40,690 --> 00:50:43,880 auf Python aufbauend und dann diese ganze MaschinLearning Sachen da drüber 715 00:50:43,880 --> 00:50:48,739 scikit-learn. Also den ganzen Py DataStack googelt danach einfach, da findet ihr viel 716 00:50:48,739 --> 00:50:51,589 und zum Visualisieren hab ich hier Tableau genommen, das ist ne 717 00:50:51,589 --> 00:50:56,930 Visualisierungssoftware. Die schon voragregierte und vorerechnete Daten bis 718 00:50:56,930 --> 00:51:00,339 zu ein paar GigaByte ganz gut verkraftet und da kann man sehr schnell schöne 719 00:51:00,339 --> 00:51:04,720 Visualisierungen draus ziehen und zum 720 00:51:04,720 --> 00:51:06,319 Visualisieren der Graphen hab ich Gephi genommen. 721 00:51:06,319 --> 00:51:12,529 Mikro 4: Hast du Daten Real-Time analysiert oder 722 00:51:12,529 --> 00:51:14,119 alles im nachhinein gemacht? 723 00:51:14,119 --> 00:51:16,069 David: Ich versteh die Frage nicht. 724 00:51:16,069 --> 00:51:19,630 Mirko: Ob du die Daten während du sie gesammelt hast analysiert hast? 725 00:51:19,630 --> 00:51:23,079 David: Ach so, ne. Das wird alles rohdatenmäßig gesammelt, dann wird das 726 00:51:23,079 --> 00:51:28,960 im weiteren Schritt erst mal, werden die Rohfeatures rausge-parsed und das sind dann 727 00:51:28,960 --> 00:51:31,680 so wenige, das sie in der Tat dann in einen RAM passen und ich dann darauf 728 00:51:31,680 --> 00:51:36,089 weitere High-Level Feature machen kann. Das passiert so in 3 Layern. Also es ist 729 00:51:36,089 --> 00:51:41,180 nicht direkt dabei aber während wir hier gesprochen haben, ist schon wieder 10 mal 730 00:51:41,180 --> 00:51:44,079 runter geladen worden. Insofern ist das schon gleichzeitig zum Runterladen. 731 00:51:44,079 --> 00:51:48,709 Das Runterladen geht weiter. 732 00:51:48,709 --> 00:51:53,560 Mikro 3: Eine Idee für die Auswertung: Du könntest mal gucken, ob bestimmte 733 00:51:53,560 --> 00:51:57,309 Wortgruppen in älteren Artikeln nochmal vorkamen, um zu sehen welche zusammen 734 00:51:57,309 --> 00:51:58,309 kopiert wurden. 735 00:51:58,309 --> 00:52:03,029 David: Du meinst, ja ja , so ne Auswertung im Sinne von: In jedem Artikel kriegt ihr 736 00:52:03,029 --> 00:52:07,460 durchschnittlich 73 Prozent neuen Content quasi, ja? 737 00:52:07,460 --> 00:52:08,950 *Gelächter* 738 00:52:08,950 --> 00:52:10,020 Mikro: Ja 739 00:52:10,020 --> 00:52:11,790 David: Guter Punkt 740 00:52:11,790 --> 00:52:13,130 *Applaus* 741 00:52:13,130 --> 00:52:15,229 David: Machen wir so. 742 00:52:17,039 --> 00:52:22,530 Mikro: Hallo, ich wollte nur kurz einen Denkanstoss geben, ich formuliere das mal 743 00:52:22,530 --> 00:52:28,440 als Frage. Könnte es sein, das diese Nichtkommentierbarkeit von Israel-Artikeln 744 00:52:28,440 --> 00:52:32,430 auch einfach ein Ressourcen-Problem ist, weil es da vielleicht mehr aus 745 00:52:32,430 --> 00:52:36,140 juristischen Gründen zu zensieren gibt für die Redaktion? 746 00:52:36,140 --> 00:52:38,049 David: Das kann selbstverständlich sein. Ja natürlich. 747 00:52:38,049 --> 00:52:40,869 Mikro: Z.B. gibt es ja durchaus Sigularitäten mit dem deutschen 748 00:52:40,869 --> 00:52:42,999 Strafrecht, das man bestimmte Sachen nicht sagen darf. 749 00:52:42,999 --> 00:52:48,950 David: Ja. Also, hätte es nur Israel erwischt, hätte ich das auch sofort auch 750 00:52:48,950 --> 00:52:51,989 gedacht. Aber ja kann natürlich sein. Das ist auch so ganz wichtig an so 751 00:52:51,989 --> 00:52:54,759 Data-Science, ich hab das hier jetzt teilweise bisschen ketzerisch vorgetragen 752 00:52:54,759 --> 00:52:58,450 aber natürlich müsst ihr schon selbst nochmal gucken, was ihr aus den Daten 753 00:52:58,450 --> 00:53:02,309 folgert. Ja natürlich, das kann sein. Am besten wissen das natürlich nur die 754 00:53:02,309 --> 00:53:06,369 Spiegelleute. Aber Israel war ja nicht der einzige Punkt der nichtkommentierbar war 755 00:53:06,369 --> 00:53:13,479 und zur reinen Justiz gibt es keine Singularität im deutschen Strafrecht. 756 00:53:13,479 --> 00:53:18,219 Mikro 6: Hallo David, vielen Dank für den Talk. Hast du überlegt die Software 757 00:53:18,219 --> 00:53:22,159 irgendwie Open Source anzubieten , so dass man sie z.B. für 758 00:53:22,159 --> 00:53:25,219 andere Quellen anpassen kann. Tagesschau etc. 759 00:53:25,219 --> 00:53:29,680 David: Hab ich nicht überlegt. Aber ehrlich gesagt, so aufwendig ist es auch 760 00:53:29,680 --> 00:53:35,549 nicht. Ihr schreibt euch nen Script, was euch alle paar Minuten mal losläuft und 761 00:53:35,549 --> 00:53:41,009 die Artikel runter lädt und das speicherst in einer Datenbank fertig. Also 762 00:53:41,009 --> 00:53:44,849 das Open Source, ist das uninteressanteste was es gibt. Ddas findet ihr in 1000 763 00:53:44,849 --> 00:53:49,019 Varianten sauberer als ich das gemacht hab nochmal, glaube ich. Aber ja, man könnte 764 00:53:49,019 --> 00:53:52,220 mal eine Vergleichsauswertung mit anderen Medien starten, ja. 765 00:53:52,220 --> 00:53:57,789 Mikro 1: Wie hast du den Strain aus deiner Karte entfernt, du hast da ne ganze Menge 766 00:53:57,789 --> 00:54:00,229 Dimensionen auf zwei Dimensionen runter gebrochen .. 767 00:54:00,229 --> 00:54:02,199 David: Den was aus meiner Karte entfernt? 768 00:54:02,199 --> 00:54:04,270 Mikro: Die Spannung, weil du hast ja sehr 769 00:54:04,270 --> 00:54:06,680 viel Dimensionen auf zwei Dimensionen reduziert ... 770 00:54:06,680 --> 00:54:07,410 David: Ja, 771 00:54:07,410 --> 00:54:09,279 Mikro: .. und wie hast du sichergestellt, das jetzt nicht Inseln bei einander sind, 772 00:54:09,279 --> 00:54:12,320 die gar nicht zusammen gehören oder manche anderen nicht beieinander sind, 773 00:54:12,320 --> 00:54:14,920 die aufgrund von Inseln, die dazwischen liegen nicht nah genug zueinander kamen. 774 00:54:14,920 --> 00:54:18,299 David: In der Theorie kann man das nie ausschliessen, aber in dem Graoh steckt 775 00:54:18,299 --> 00:54:22,060 sehr viel Verfahren drin. Also ich hab zunächst mal zugesehen, das ich 776 00:54:22,060 --> 00:54:25,190 überhaupt nur die wichtigen Kanten pro Knoten behalte, sonst hat man wirklich 777 00:54:25,190 --> 00:54:29,609 viel zu viele Kanten und dann gibts da professionelle Graph-Layouting-Verfahren 778 00:54:29,609 --> 00:54:33,829 für, also Gephi bietet was, das heißt VsAtlas 2 und das war das, was ihr in den 779 00:54:33,829 --> 00:54:37,839 hübschen Video gesehen habt, damit geht das sehr gut, Also du must das natürlich 780 00:54:37,839 --> 00:54:42,579 ein bisschen Schmakes da rein investieren, wie du die Kanten vorher ausfilters und 781 00:54:42,579 --> 00:54:46,660 dann, dann bist du immer noch nicht sicher in der Theorie, aber dann siehst ja, ob 782 00:54:46,660 --> 00:54:49,509 das Bild gut wird oder nicht. 783 00:54:49,509 --> 00:54:55,060 Mikro 2: Du meintest, du warst im Oktober beim Spiegel, wie war den deren Reaktion 784 00:54:55,060 --> 00:54:57,440 zu deinen Analysen? 785 00:54:57,440 --> 00:55:01,359 David: Positiv, also, ob das jetzt nur daran lag, dass die sowieso nichts dagegen 786 00:55:01,359 --> 00:55:03,849 tun können, weiss ich nicht, aber ehrlich gesagt, 787 00:55:03,849 --> 00:55:04,859 *Gelächter* 788 00:55:04,859 --> 00:55:08,180 hab ich das als sehr positiv und interessiert wargenommen und auch ich hab 789 00:55:08,180 --> 00:55:12,619 was gelernt und das war eigentlich einen ziemlich cooler Termin, also sportlicher 790 00:55:12,619 --> 00:55:16,599 als die Kollegen bei Xerox sag ich mal. 791 00:55:16,599 --> 00:55:23,240 *großes Gelächter**Applaus* 792 00:55:23,240 --> 00:55:33,579 Mikro: Ist vielleicht ne Suggestivfrage, vielleicht auch in Richtung, wie man 793 00:55:33,579 --> 00:55:42,510 weiterforschen könnte. Das Verfahren, das du benutzt hast, um die thematische Nähe 794 00:55:42,510 --> 00:55:46,589 verschiedener Tags zueinander zu bestimmen, wäre es mathematisch 795 00:55:46,589 --> 00:55:48,819 *ACHTUNG: Mathematiker-Kauderwelsh* .. 796 00:55:48,819 --> 00:55:52,230 nicht korrekter, wenn du eine singuläre Zerlegung der Adjazentmatrix 797 00:55:52,230 --> 00:55:55,329 dieser Schlagworte baust, ähnlich wie Google Page Rank 798 00:55:55,329 --> 00:55:56,390 das gemacht hat. 799 00:55:56,390 --> 00:56:01,719 David: Ja. Aber dann kann man nicht so einen schönen Graphen draus basteln und 800 00:56:01,719 --> 00:56:05,959 es kommt wahrscheinlich was ähnliches raus, sein wir ehrlich. Ich sehe ja die 801 00:56:05,959 --> 00:56:08,989 Werte der Kanten und wahrscheinlich ist es am Ende das Selbe. 802 00:56:08,989 --> 00:56:15,540 Mikro: Ja wenn du genug Dimensionen benutzt ist es äquivalent. 803 00:56:18,790 --> 00:56:22,329 David: Ja. Alles ist still, Mensch. 804 00:56:22,329 --> 00:56:26,249 Mikro 3: Nochmal kurz zu den Landkarten, das sind irgendwelche 805 00:56:26,249 --> 00:56:28,180 MonteCarlo Methoden diese Springs ... 806 00:56:28,180 --> 00:56:29,339 David: Ja 807 00:56:29,339 --> 00:56:33,859 Mikro: ... im Endeffekt positionieren, wie stabil sind die? 808 00:56:33,859 --> 00:56:37,509 David: Ich denke, ich hab mich da in die Theorie nicht eingearbeitet weiter, es 809 00:56:37,509 --> 00:56:40,650 würde mich wundern, wenn du da ne Stabilität drüber nachweisen könntest. 810 00:56:40,650 --> 00:56:45,160 "Fest steht, sie sind etabliert für große Graphen." weil da ist sowieso nix 811 00:56:45,160 --> 00:56:50,050 mehr zu planarisieren in der Größe und dann sieht man halt zu zu iterieren bis es 812 00:56:50,050 --> 00:56:53,859 stimmt und wenn es schlecht aussieht, dann drückt man nochmal auf den Startknopf. 813 00:56:53,859 --> 00:56:57,449 Also so ist wirklich die Praxis. 814 00:56:57,989 --> 00:57:02,519 Mikro: Hallo. Hast du mal Markov auf deine Daten geworfen, 815 00:57:02,519 --> 00:57:05,349 um Spiegelartikel zu generieren. 816 00:57:05,349 --> 00:57:06,659 *Gelächter**Applaus* 817 00:57:06,659 --> 00:57:09,159 David: Nein! Könntest du mir bitte damit eine Email schicken? 818 00:57:09,159 --> 00:57:11,949 *Gekiecher und Gelächter im Saal* Mikro: Sehr gerne. 819 00:57:11,949 --> 00:57:14,500 David: Oh wir haben Spaß, ich seh das schon .. 820 00:57:14,500 --> 00:57:16,799 *Gelächter**Applaus* 821 00:57:16,799 --> 00:57:25,439 D: Da machen wir aber nicht nur die Artikel Generierung sondern dann wird 822 00:57:25,439 --> 00:57:29,190 bitte auch direkt dazu generiert, zu welchem Thema kommentiert werden darf 823 00:57:29,190 --> 00:57:30,580 und zu welchen nicht, ne ... 824 00:57:30,580 --> 00:57:32,070 *vereinzeltes Gelächter* Ruf aus dem Publikum: Autoren generieren 825 00:57:32,070 --> 00:57:35,380 David: Autoren generieren, das ist auch schön, ja. 826 00:57:35,380 --> 00:57:37,249 *Gelächter* 827 00:57:37,249 --> 00:57:45,150 Herald: So wir sind auch am Ende unserer Zeit. Wer noch Fragen hat, du bist sicher 828 00:57:45,150 --> 00:57:46,150 gleich noch ... 829 00:57:46,150 --> 00:57:49,709 David: Ich geh hier jetzt da raus, zur nächsten Bierbar, die da ist, falls die 830 00:57:49,709 --> 00:57:57,219 nicht vor Saal 2 ist, ist die vor Saal 1 dann bin ich da. 831 00:57:57,219 --> 00:57:58,780 Wir machen jetzt DDos auf die Bierbar. Ja. 832 00:57:58,780 --> 00:57:59,810 *Applaus* 833 00:57:59,810 --> 00:58:02,609 Herald: Ja ist ja auch Zeit. 834 00:58:02,609 --> 00:58:12,260 *Applaus* 835 00:58:12,260 --> 00:58:18,869 Herald : Auch von mir auch nochmal ein Herzlichen Dank .... 836 00:58:19,628 --> 00:58:45,361 33c3 - Abspann-Musik