ULMFiT - German

Some initial results from using sentence piece, I’ve trained the sp model on Btw17 and then applied it to tokenize the ge17 (germeval 2017), and the results are disappointing, per word perplexity 2.8k on validation set.

ge17 validation set:

  • word tokens: 199 020 (tokenized using .split())
  • subword tokens: 357 133
  • subwords/words : 1,79
  • oov: 117
  • btw17 model preplexity per word: 2828
  • longest sentence in subword tokens: 6865

btw17 validation set:

  • word tokens: 1 956 712 (tokenized using .split())
  • subword tokens: 3 465 393
  • subwords/words : 1,77
  • oov: 0
  • btw17 model preplexity per word: 14 (most likely due to large number of RT)
  • longest sentence in subword tokens: 112
Here is an example of the longest sentence from ge17 validation set

(4475,
0,
‘+++ Newsticker Flüchtlingskrise +++: Deutschland will mit Kriegsschiffen Jagd auf Schleuser machen +++ 21.23 Uhr: Polizeibekannter Neonazi bewachte Flüchtlinge +++ Großbritannien mehr Flüchtlinge aufnehmen. Dazu sollen Tausende Syrer direkt aus den Flüchtlingslagern ausgewählt werden. +++ 20.43 Uhr: Regierung will Mandat für bewaffneten Einsatz gegen Schlepper +++ Die EU-Außenminister kommen am Freitag in Luxemburg zusammen, um unter anderem über die dramatische Situation der Flüchtlinge zu beraten. Schwerpunkt der zweitägigen Gespräche soll die Situation in den Herkunfts- und Transitstaaten sein. Deutschland und Frankreich starteten kurz vor dem Treffen eine gemeinsame Initiative für verbindliche Aufnahmequoten in der EU. In Ungarn herrschten wegen der großen Zahl von Flüchtlingen zuletzt teilweise chaotische Zustände. In der Stadt Bicske wehrten sich am Abend rund 500 Menschen gegen den Transport in ein Flüchtlingslager. Sie waren an der Weiterreise per Zug nach Westen gehindert worden. +++ 20.20 Uhr: Ruf nach EU-Sondergipfel zur Flüchtlingskrise wird lauter +++ Nach Angaben der ungarischen Polizei brechen etwa 300 Migranten aus einem Aufnahmelager in Roszke nahe der serbischen Grenze aus. Ein Reuters-Fotograf beobachtet unterdessen in Budapest, dass sich Hunderte Flüchtlinge aufmachen, um vom Ostbahnhof der Hauptstadt zur österreichischen Grenze zu gehen. Die Entfernung beträgt knapp 200 Kilometer. +++ 19.45 Uhr: Estland bleibt beim Nein zu Flüchtlingsquoten +++ Am Bahnhof von Bicske stirbt ein Migrant. Das berichtet die ungarische Nachrichtenagentur MTI unter Berufung auf den Rettungsdienst. Der 50-Jährige sei zusammengebrochen auf den Schienen gefunden worden; Rettungsversuche seien vergeblich gewesen. Über die genaue Todesursache und über die Herkunft des Mannes gibt es noch keine Informationen. +++ 18.45 Uhr: Streit zwischen Flüchtlingen und Rechtsradikalen vereitelt +++ Premierminister David Cameron geriet unter Druck, nachdem das Bild eines ertrunkenen Flüchtlingsjungen große Betroffenheit in Großbritannien ausgelöst hatte. Konservative Politiker schlossen sich der Forderung der Opposition an, die harte Asylpolitik zu ändern. Auch Cameron sagte, er sei “tief bewegt” von dem Foto. Großbritannien werde seiner moralischen Verantwortung nachkommen. +++ 18.15 Uhr: Mann gesteht Brandanschlag in Salzhemmendorf +++ Großbritannien will mehr Geld für die Unterstützung von Menschen aufbringen, die aus Syrien und anderen Konfliktgebieten fliehen. Premierminister David Cameron kündigt an, die Hilfen um 100 Million Pfund (etwa 137 Millionen Euro) aufzustocken. Insgesamt gebe sein Land damit eine Milliarde Pfund (etwa 1,37 Miliarden Euro) zur Unterstützung von Flüchtlingslagern an den Grenzen Syriens aus. Dies sei die größte Summe, die Großbritannien jemals in einer humanitären Krise aufgebracht habe. In einer Flüchtlingsunterkunft im hessischen Heppenheim hat es in der Nacht zum Freitag gebrannt. Ein Mann wurde schwer verletzt, als er sich mit einem Sprung aus der zweiten Etage ins Freie rettete, teilt die Polizei mit. Weitere der mehr als 60 Bewohner erlitten leichte Rauchgasverletzungen. Nach ersten Erkenntnissen brach das Feuer hinter der Eingangstür aus. Die Ursache sei noch unklar, sagt eine Polizeisprecherin. Ob es sich um Brandstiftung handele, könne derzeit nicht gesagt werden. Man ermittele jedoch in alle Richtungen. Der auf der Flucht nach Europa ertrunkene dreijährige Aylan ist in seiner nordsyrischen Heimatstadt Kobane beigesetzt worden. Auch sein ebenfalls ums Leben gekommener Bruder und seine Mutter seien bestattet worden, erklärt Kurden-Sprecher Idriss Nassan. Vater Abdullah Kurdi sagte dem kurdischen Sender Rudaw: “Ich hoffe, dass meine Geschichte die Menschen dazu bringt, den Flüchtlingen mehr zu helfen.” Der leblose Körper von Aylan war an einem Strand im türkischen Bodrum angespült worden. Das Foto des toten Kindes löste international Bestürzung aus. +++ 18.15 Uhr: Osteuropäische Länder fordern restriktive Flüchtlingspolitik +++ Der Städtetag rechnet wegen der hohen Flüchtlingszahlen mit einem jährlichen zusätzlichen Bedarf von mindestens 300.000 neuen Wohnungen in Deutschland. “Darunter sollten mindestens 30.000 bis 40.000 geförderte Sozialwohnungen sein, im Moment sind es erst halb so viele”, sagte Städtetagspräsidentin Eva Lohse der “Rheinischen Post” laut Vorabbericht. Zugleich forderte die Ludwigshafener Oberbürgermeisterin mehr Entlastung der mit der Flüchtlingsversorgung zunehmend finanziell überforderten Kommunen durch Bund und Länder. “Für eine Pro-Kopf-Pauschale des Bundes und der Länder an die Kommunen spricht, dass sie dynamisch mitwächst”, sagte die CDU-Politikerin. “Ein Sonderfonds für Asylbewerber und Flüchtlinge vom Bund für die Kommunen hätte den Vorteil, dass das Geld direkt bei den Kommunen ankäme und nicht bei den Ländern versickern kann”. Denkbar sei auch eine Kombination aus beidem. +++ 18 Uhr: Migrant am ungarischen Bahnhof Bicske gestorben +++ Russlands Präsident Wladimir Putin hat der Europäischen Union wegen deren Nähe zu den USA eine Mitschuld an der Flüchtlingskrise in Europa gegeben. “Europa folgt blind den amerikanischen Anweisungen und trägt nun diese schwere Last”, sagt Putin bei einem Besuch in Wladiwostok. Zuvor schon hatte das russische Außenministerium eine verfehlte Nahostpolitik westlicher Staaten als Auslöser der Flüchtlingsströme bezeichnet. +++ 17.31 Uhr: Tschechien und Slowakei schlagen Flüchtlings-Korridor vor +++ Der Sprecher der Internationalen Organisation für Migration (IOM), Flavio Di Giacomo, berichtet auf Twitter von etwa 40 Flüchtlingen, die möglicherweise vor der libyschen Küste im Mittelmeer ertrunken sein könnten. Nach Berichten von Überlebenden würden noch etwa 20 Menschen vermisst, sagt eine Sprecherin der Küstenwache in Italien. Die Küstenwache hatte am Donnerstag 91 Menschen von einem Boot vor Libyen gerettet, ein toter Migrant wurde im Wasser gefunden. +++ 16.45 Uhr: London stockt Hilfen für Flüchtlinge auf +++ EU-Kommissionschef Jean-Claude Juncker will in der kommenden Woche die Verteilung von 120.000 weiteren Flüchtlingen auf andere EU-Staaten vorschlagen. Damit sollen Griechenland, Italien und Ungarn entlastet werden – in diesen Ländern kommen sehr viele Flüchtlinge an. Eine Sprecherin der Behörde macht deutlich, dass der alte Vorschlag der Kommission, 40.000 Flüchtlinge aus Italien und Griechenland zu verteilen, weiterhin gültig sei. “Das käme zusätzlich”, sagt sie mit Blick auf den neuen Vorstoß. Juncker will ihn am kommenden Mittwoch im Straßburger Europaparlament präsentieren. +++ 16.04 Uhr: 1000 Flüchtlinge zu Fuß auf Autobahn Richtung Grenze unterwegs+++ Der UN-Hochkommissar für Flüchtlinge, António Guterres, appeliert an die EU, sich auf Verteilung von bis zu 200.000 Flüchtlingen auf die Mitgliedstaaten nach verbindlichen Quoten zu einigen. Zugleich müssten ausreichende Erstaufnahmezentren geschaffen werden, fordert Guterres. Dabei brauche insbesondere Griechenland Hilfe, erklärt der UN-Hochkommissar mit Blick auf das EU-Außenministertreffen zur Flüchtlingskrise in Luxemburg. “Solidarität kann nicht allein in der Verantwortung einiger weniger EU-Staaten liegen.” Die Lage der Asylsuchenden in Ungarn ist weiter angespannt. Regierungschef Viktor Orban droht damit, einen weiteren Zaun an der Grenze zu Kroatien zu errichten. 500 Flüchtlinge am Bahnhof von Bicske protestieren gegen ihren geplanten Transport in ein ungarisches Flüchtlingslager. Sie verweigern Essen und Trinken. Die Polizei hat inzwischen einen zweiten Zug mit Flüchtlingen gestoppt. Nach dem Foto von dem toten Flüchtlingsjungen Ailan reagiert Großbritannien auf Forderungen, mehr Flüchtlinge aufzunehmen. Premier David Cameron will Tausende Syrer direkt aus den Flüchtlingscamps an den Grenzen zu Syrien holen. Der Junge wurde im syrischen Kobane beerdigt. Hunderte Menschen sind in Ungarn aus ihren Flüchtlingslagern ausgebrochen. Mehr als tausend Flüchtlinge marschieren zu Fuß von Budapest Richtung Österreich. Die Ereignisse in der Flüchtlingskrise im stern -Newsticker. +++ 16.00 Uhr: Grüne nennen Flüchtlingspolitik der Bundesregierung “Totalausfall” +++ Der Verfassungsschutz befürchtet laut einem Zeitungsbericht einen weiteren Anstieg rechtsextremer Gewalt gegen Ausländer. “Eine Trendwende für die zweite Jahreshälfte ist derzeit nicht abzusehen”, sagte der Präsident des Bundesamtes für Verfassungsschutz (BfV), Hans-Georg Maaßen, dem “Tagesspiegel”. Maaßen verwies auf eine massive “Anti-Asyl-Agitation” der rechtsextremistischen Parteien NPD, Die Rechte, Der Dritte Weg und Pro NRW. Es sei “bemerkenswert, dass sich die Internetseiten der Parteien nahezu vollständig auf dieses Thema fokussieren”. Auch wenn sich die Parteien verbal von den Gewaltexzessen distanzierten, trügen sie “eine Mitschuld daran, wenn einige Protestierer zur Gewalt gegen Asylbewerber schreiten”, kritisierte Maaßen im “Tagesspiegel”. Er beobachte zudem mit Sorge, dass die Hetze gegen Flüchtlinge “zu einer weiteren Radikalisierung in der rechtsextremistischen Szene” führe. Damit werde ein Trend bestätigt, den der Verfassungsschutz schon in den vergangenen Jahren festgestellt habe. +++ 15.53 Uhr: Gabriel droht Hilfs-Unwilligen mit Sperrung von EU-Mitteln +++ Der Vater des in der Türkei geborgenen toten Flüchtlingskinds Ailan Kurdi will die auf der Flucht umgekommenen Mitglieder seiner Familie in der syrischen Stadt Kobane an der Grenze zur Türkei bestatten. Abdullah Kurdi ist mit den Särgen des dreijährigen Ailan, dessen fünfjährigen Bruders Galip und der Mutter der Kinder in der türkischen Grenzstadt Suruc angekommen. Gemeinsam mit Angehörigen und türkischen Sicherheitskräften brach er von dort in Richtung Kobane auf. Ailan, Galip und ihre Mutter waren im Mittelmeer ertrunken, als die syrische Familie aus der Türkei in das EU-Land Griechenland flüchten wollte. +++ 15.34 Uhr: Putin gibt EU wegen Nähe zu USA Mitschuld an Flüchtlingskrise +++ Der Vorsitzende der rechtspopulistischen britischen Ukip, Nigel Farange, wirft Bundeskanzlerin Angela Merkel das Anheizen der Flüchtlingskrise vor. Mit ihrer Ankündigung, Deutschland werde mehr Asylsuchende aufnehmen, habe sie mehr Menschen dazu animiert, sich auf den lebensgefährlichen Weg nach Europa zu machen. Ob der neue Zaun an der serbischen Grenze wie von der Regierung geplant auch von Soldaten bewacht werden darf, kommt nicht zur Abstimmung. Die links-liberale Opposition konnte das unter Berufung auf Formalitäten der Parlaments-Hausordnung verhindern. +++ 15.31 Uhr: Flüchtlinge durchbrechen Sperre +++ In dem Haus landete der selbst gebastelte Molotow-Cocktail dann in einem leeren Schlafzimmer in der von 40 Menschen bewohnten Unterkunft. Im Nebenraum schliefen eine Frau aus Simbabwe und ihre drei kleinen Kinder. Sie blieben nur durch Glück unverletzt. Der Feuerwehrmann half bei den Löscharbeiten. Das tatverdächtige Trio sitzt wegen versuchten Mordes und schwerer Brandstiftung in Untersuchungshaft. +++ 15.29 Uhr: Bundesregierung verdoppelt Hilfe für Flüchtlinge in Griechenland +++ Ungarns Außenminister Peter Szijjarto weist Kritik an der Flüchtlingspolitik seines Landes zurück. “Wir haben in Budapest eine dramatische Situation, weil einige Migranten, was Fingerabdrücke und Fotos angeht, eine Kooperation mit den ungarischen Behörden verweigern”, sagt Szijjarto bei einem Treffen der EU-Außenminister in Luxemburg. Ein Bahnhof sei keine Flüchtlingsstation. Die Asylsuchenden sollten ihn verlassen und in Flüchtlingszentren gehen. +++ 15.23 Uhr: Ungarn erklärt illegalen Grenzübertritt zur Straftat +++ Mehrere hundert Flüchtlinge laufen zu Fuß vom Budapester Ostbahnhof los in Richtung Grenze. Zuvor hatte eine Gruppe junger Männer die rund 3000 vor dem Bahnhof campierenden Asylbewerber aufgefordert, sich diesem Fußmarsch nach Österreich anzuschließen. Müttern mit kleinen Kindern bieten die jungen Männer an, sie beim Tragen der Kleinen zu unterstützen. “Wenn wir in kleinen Gruppen unterwegs sind, dann schnappt uns die Polizei, aber gemeinsam sind wir stark”, sagt ein junger Mann aus dem syrischen Aleppo. Die Polizei, die rund um den Bahnhof keine starke Präsenz zeigt, lässt die Gruppe zunächst gewähren. Ein mitbeschuldigter 24 Jahre alter Feuerwehrmann und eine 23-jährige Frau hatten ihre Beteiligung an der Tat ebenfalls bereits gestanden. Nach dem Bericht des “Spiegel” sollen die beiden Männer vor der Tat Bier und fast zwei Flaschen Weinbrand getrunken haben. Dazu hörten sie Musik von Rechtsrock-Bands wie Sturmwehr, Nordfront und Kategorie C. Dann füllten sie eine Flasche mit Benzin und Sägespänen. Die 23-jährige, die keinen Alkohol getrunken habe, fuhr das Auto zum Tatort. +++ 15.04 Uhr: Ungarischer Minister gibt Flüchtlingen Schuld am Bahnhof-Chaos +++ Der umstrittene Umgang der ungarischen Behörden mit Flüchtlingen führt zu dramatischen Szenen. Mehr als tausend Flüchtlinge haben sich inzwischen dem Fußmarsch vom Budapester Ostbahnhof Richtung österreichische Grenze angeschlossen. Ihr Weg führt sie auch über die Autobahn. Teilnehmer berichteten, sie wollten versuchen zu Fuß die rund 175 Kilometer entfernte österreichische Grenze zu erreichen. Sie überquerten die Elisabet-Brücke über die Donau, ohne dass die Polizei eingriff. Teilnehmer des Marsches spreizten die Finger zum Sieges- bzw. Peace-Zeichen, andere schwenkten Bilder von Bundeskanzlerin Angela Merkel (CDU). Am Nachmittag erreichten sie den Zubringer zur Autobahn 1 nach Wien, wie ungarische Nachrichtenportale und Fernsehsender berichteten. SPD-Vizechef Ralf Stegner spricht sich dagegen aus, zur Bewältigung der hohen Flüchtlingszahlen das Asylrecht zu ändern. “Es ist so viel zu tun, da sollten wir jetzt nicht über Veränderungen am Asylrecht nachdenken, für die es keine politische Mehrheit gibt”, sagt Stegner im Deutschlandfunk. “Die Substanz unseres individuellen Rechts, dass politisches Asyl geprüft wird, die dürfen wir nicht einschränken.” Aus der Union gibt es etwa die Forderung, die Einstufung von sicheren Herkunftsstaaten an niedrige Anerkennungsquoten zu koppeln. Auch den Vorschlag, das Grundgesetz zu ändern, damit der Bund künftig an den Ländern vorbei direkte Hilfszahlungen an die Kommunen leisten kann, lehnt Stegner ab. Benötigt würden stattdessen mehr Mittel vom Bund. +++ 15.01 Uhr: Bahnkorridor nach Deutschland möglich +++ Tschechien und die Slowakei schlagen die Einrichtung eines Korridors für syrische Flüchtlinge zwischen Ungarn und Deutschland vor. Beide Länder könnten einen Bahn-Korridor für syrische Flüchtlinge auf dem Weg von Ungarn nach Deutschland einrichten, wenn Berlin und Budapest zustimmten, sagt der tschechische Innenminister Milan Chovanec in Prag. Dabei könnten Tschechien und die Slowakei “die Züge passieren lassen, ohne die Menschen weiter zu kontrollieren”. +++14.38 Uhr: Britische EU-Gegner: Merkel heizt Flüchtlingskrise an+++ Der Deutsche Städtetag fordert einen raschen Ausbau der Erstaufnahmeeinrichtungen für Flüchtlinge. Die Zahl solcher Plätze in winterfesten Quartieren müsse bundesweit auf 150.000 erhöht werden, sagt Hauptgeschäftsführer Stephan Articus. Zudem müssten die Flüchtlinge dort künftig bis zu einem halben Jahr statt nur drei Monate bleiben können. So soll möglichst vor einer Verteilung in die Kommunen über ihren Anspruch auf Asyl entschieden werden. +++ 14.17 Uhr: Juncker will Verteilung von weiteren 120.000 Flüchtlingen vorschlagen +++ Die 71 in einem Kühlwagen ums Leben gekommenen Flüchtlinge sind nach Angaben österreichischer Behörden wahrscheinlich in dem luftdicht abgeschlossenen Laderaum noch in Ungarn erstickt. Bislang sei kein Einziger identifiziert worden. Die Polizei geht davon aus, dass es sich um Menschen aus Syrien, dem Irak und Afghanistan handelt. +++ 14.12 Uhr: Frauen und Kinder in Bicske wollen am Samstag losmarschieren +++ Flüchtlinge in Budapest machen sich nun zu Fuß auf in Richtung Österreichischer Grenze. +++ 13.56 Uhr: In Bicske festgehaltene Flüchtlinge brechen aus +++ Ungarns Premier Viktor Orban: “Der Strom der Migranten ist endlos …” +++ 13.40 Uhr: Städtetag fordert mindestens 150.000 Flüchtlings-Erstaufnahmeplätze +++ Die Bundesregierung will sich laut einem Bericht des ARD-Hauptstadtstudios im Rahmen der EU-Mission im Mittelmeer mit zwei Kriegsschiffen an der Jagd auf Schleuser beteiligen und sucht dafür ein Mandat des Bundestages. Der Staatssekretär im Auswärtigen Amt, Markus Ederer, habe die Bundestagsfraktionen über den Plan informiert, berichtet das Hauptstadtstudio. Da bei dem Einsatz gegen Schlepper auch der Gebrauch von Schusswaffen erlaubt sei, sei die Zustimmung des Bundestages notwendig. Der Bundestag solle am 24. September über das Mandat beraten und Anfang Oktober darüber abstimmen. +++ 13.32 Uhr: Hunderte Flüchtlinge starten Fußmarsch von Budapest nach Westen +++ Mit 5600 Menschen hat am Donnerstag eine Rekordzahl an Flüchtlingen die Grenze von Griechenland nach Mazedonien überquert. Die Zahl sei etwa doppelt so hoch wie üblich, sagt die Sprecherin des UN-Flüchtlingshilfswerks UNHCR, Melissa Fleming. Normalerweise liege die Zahl bei 2000 bis 3000 pro Tag. Es sei schwierig vorauszusagen, wie sich die Situation in den kommenden Wochen entwickle. Die Grünen in Bundestag äußern scharfe Kritik an der Flüchtlingspolitik der Bundesregierung und insbesondere an Innenminister Thomas de Maiziére (CDU). Was die große Koalition bisher gezeigt habe, sei ein “kompletter Totalausfall”, sagt die Fraktionsvorsitzende Katrin Göring-Eckardt. Der Innenminister habe einen “gigantischen Stau” beim Bundesamt für Migration und Flüchtlinge (BAMF) zu verantworten, wo 250.000 Asylanträge unbearbeitet seien. De Maiziére versage aber auch beim Kampf gegen Fremdenfeinde und Rechtsextreme nach den zahlreichen Anschlägen auf Asylbewerberheime in Deutschland. +++ 13.19 Uhr: Möglicherweise erneut Flüchtlinge im Mittelmeer ertrunken +++ Tschechien und die Slowakei können sich nach Angaben ihrer Innenminister vorstellen, einen Bahnkorridor für Flüchtlinge von Ungarn nach Deutschland einzurichten. Dies könne geschehen, wenn sich die Regierungen in Budapest und Berlin einig seien. In Ungarn gilt illegaler Grenzübertritt vom 15. September an nicht mehr nur als Ordnungswidrigkeit, sondern als Straftat. Das beschließt das Parlament in Budapest im Eilverfahren auf Initiative des Innenministers Sandor Pinter. Schlepper sollen mit bis zu 20 Jahren Haft bestraft werden. Zur Verhinderung der illegalen Einwanderung sollen Transitzonen an der Grenze eingerichtet werden, die zur serbischen Seite hin offen sind und auf der ungarischen Seite geschlossen. Die Transitzonen sind als größere Flächen geplant, auf denen sich Flüchtlinge bis zum Ende ihres Asylverfahrens aufhalten dürfen. — Flavio Di Giacomo (@fladig) 4. September 2015 So rasant verbreitet sich #RefugeesWelcome in Europa +++ 13.15 Uhr: Flüchtlinge in Kühltransporter wohl erstickt +++ Mehr als 333.000 Menschen in Großbritannien fordern ihre Regierung auf, mehr Flüchtlinge ins Land zu lassen. “Großbritannien gewährt im Verhältnis zu anderen europäischen Ländern nicht ausreichend Asyl”, heißt es einer Online-Petition an Regierung und Abgeordnete. “Wir müssen helfen.” Petitionen, die mehr als 100.000 Unterstützer finden, werden für eine Parlamentsdebatte in Betracht gezogen. +++ 13.14 Uhr: Mehr als 5600 Flüchtlinge kommen in Mazedonien an +++ Putin spricht nun ebenfalls von einer falschen Politik des Westens in Nordafrika und Nahost. Die Krise sei erwartbar gewesen, sagt der Kremlchef nach einem Bericht der Nachrichtenagentur Interfax. Eine Lösung der Krise sei nur durch einen vereinten Kampf gegen den Terrorismus möglich. +++ 13.09 Uhr: Ungarisches Parlament verschärft Strafen für Grenzverletzung +++ Die Flüchtlingsbeauftragte der Bundesregierung, Aydan Özoguz (SPD), ermahnt die ungarische Regierung, Flüchtlinge nicht wieder tatenlos Richtung Deutschland durchreisen zu lassen. “Wir erwarten, dass Ungarn die Flüchtlinge im eigenen Land registriert und entsprechend der europäischen Standards behandelt. Dabei können wir durchaus auch Hilfe leisten”, so die SPD-Politikerin der “Nordwest-Zeitung”. Das eigentliche Problem sei, dass die Bedingungen für Flüchtlinge in manchen EU-Staaten so schlimm seien, dass die Migranten alles versuchen, um dort wegzukommen. +++ 12.47 Uhr: 300 Flüchtlinge aus Aufnahmelager in Ungarn geflohen +++ Im ungarischen Fernsehen war zu sehen, wie Autos an den marschierenden Flüchtlingen vorbeifuhren. Angeführt wurden sie von einem Mann mit EU-Flagge. Die Fernsehbilder zeigten neben ihm einen Mann auf Krücken; er hatte ein Bild von Bundeskanzlerin Angela Merkel (CDU) auf der Brust. Im Internet verbreiteten sich Bilder und Nachrichten zu dem Flüchtlingsmarsch etwa mit dem Twitter-Schlagwort (Hashtag) #MigrantMarch. +++ 12. 45 Uhr: Palästinensermädchen Reem darf weiter in Rostock bleiben +++ An einer ungarischen Autobahn durchbrechen Flüchtlinge einem Augenzeugen zufolge eine Absperrung der Polizei. Demnach laufen sie weiter in Richtung Österreich. +++ 12.34 Uhr: Mindestens 30 Bootsflüchtlinge vor libyscher Küste vermisst +++ The 91 survivors brought to Lampedusa told IOM that they were on a dinghy carrying 130-140.Many drowned. #missingmigrants are approx.40 +++ 12.29 Uhr: Bundesregierung: Ungarn muss Asylverfahren durchführen +++ Das ungarische Parlament beschließt ein Gesetz, durch das die Strafen für illegale Grenzübertritte verschärft werden. Zudem beschließt es die Einrichtung sogenannter Transitzonen in Grenznähe. +++ 11.49 Uhr: Polizei in Ungarn stoppt zweiten Zug mit Flüchtlingen +++ Das durch ihre Tränen während einer Diskussion mit Bundeskanzlerin Angela Merkel (CDU) im Juli bekanntgewordene Palästinensermädchen Reem hat gute Chancen auf eine gesicherte Existenz in Deutschland. Nach Angaben des Rostocker Rathauses haben das 14-jährige Mädchen und ihr Vater zunächst eine bis März 2016 befristete Aufenthaltserlaubnis erhalten. Diese Erlaubnis werde halbjährlich überprüft. Es sei davon auszugehen, dass die Behörden bei den kommenden Prüfungen zu keinem anderen Ergebnis kommen werden. Die endgültige Klärung erfolge spätestens zum März 2017. +++ 11.44 Uhr: Syrisches Flüchtlingskind Aylan in Kobane beigesetzt +++ In d Die Bundesregierung will sich laut einem Bericht des ARD-Hauptstadtstudios im Rahmen der EU-Mission im Mittelmeer mit zwei Kriegsschiffen an der Jagd auf Schleuser beteiligen und sucht dafür ein Mandat des Bundestages. Der Staatssekretär im Auswärtigen Amt, Markus Ederer, habe am Freitagabend die Bundestagsfraktionen über den Plan informiert, berichtete das Hauptstadtstudio. Da bei dem Einsatz gegen Schlepper auch der Gebrauch von Schusswaffen erlaubt sei, sei die Zustimmung des Bundestages notwendig. Der Bundestag solle am 24. September über das Mandat beraten und Anfang Oktober darüber abstimmen. er Europäischen Union wird der Ruf nach einem Sondergipfel der Staats- und Regierungschefs zur Flüchtlingskrise lauter. Bei einem Außenministertreffen in Luxemburg spricht sich unter anderem der österreichische Außenminister Sebastian Kurz offen dafür aus. Sein slowakischer Amtskollege Miroslaw Lajcak sagt: “Wir wären sicherlich dafür. Wenn wir bis Mitte Oktober warten, könnte das zu spät sein.” Neben einem Sondergipfel ist auch ein weiteres Sondertreffen der europäischen Außen- und Innenminister im Gespräch. Es könnte den Gipfel vorbereiten. +++ 10.54 Uhr: Vater von totem Flüchtlingsjungen reist zu Begräbnis nach Syrien +++ Mit Blick auf die Flüchtlingskrise spricht sich Ungarns Ministerpräsident Viktor Orban erneut gegen die Einwanderung von Muslimen aus. Man müsse respektieren, dass andere EU-Länder früher beschlossen hätten, mit Muslimen zusammenleben zu wollen. Jedoch “haben wir auch das Recht zu entscheiden, ob wir diesem Beispiel folgen wollen”, sagt der rechtskonservative Regierungschef im ungarischen Staatsrundfunk. Er selbst rate davon ab. +++10.09 Uhr: Orban gegen Zusammenleben mit Muslimen +++ Flüchtlinge im Zug am Bahnhof im ungarischen Bicske verweigern Essen und Trinken Asylpolitik So unterschiedlich sind Leistungen für Flüchtlinge in Europa +++ 10.00 Uhr: Großbritannien will mehr Flüchtlinge aufnehmen +++ Nach dem Brandanschlag auf ein Flüchtlingsheim im niedersächsischen Salzhemmendorf legt nach Informationen des Nachrichtenmagazins “Spiegel” auch der dritte Tatverdächtige ein Geständnis ab. Der 30-Jährige habe zugegeben, einen Molotow-Cocktail auf das Haus geworfen zu haben, schreibt das Blatt. Die Staatsanwaltschaft Hannover wollte dazu keine Stellungnahme abgeben. In einer Flüchtlingserstaufnahmestelle in Heidelberg hat einem Medienbericht ein polizeibekannter Rechtsradikaler gearbeitet. Der Mann aus Kassel sei bei einer Überprüfung durch den Staatsschutz aufgefallen, bestätigen die Polizei und das Regierungspräsidium Karlsruhe dem “Mannheimer Morgen”. Das Regierungspräsidium habe die private Sicherheitsfirma aufgefordert, den Mann sofort aus der Einrichtung zu verweisen und ihm Hausverbot zu erteilen. +++ 9.42 Uhr: Nach Brand in Heppenheimer Flüchtlingsunterkunft ermittelt das LKA +++ Etwa 500 protestierende Flüchtlinge haben die Nacht zum Freitag am Bahnhof im ungarischen Bicske im Zug verbracht. Sie wehren sich seit Donnerstagmittag gegen ihren geplanten Transport in ein Flüchtlingslager. Nach Polizeiangaben nehmen sie das von den Beamten angebotene Essen und Trinken weiterhin nicht an. Die Polizei will die Flüchtlinge an der Weiterreise nach Westen hindern. +++ 9.38 Uhr: Hunderttausende Briten fordern Aufnahme von mehr Flüchtlingen +++ Ungarns Premierminister Viktor Urban zeigt weiterhin wenig Hilfsbereitschaft und warnt vor einem endlosen Strom der Migranten. “Es ist Realität, dass Europa von einem Massenzustrom bedroht wird, viele Zig-Millionen Menschen könnten nach Europa kommen”, sagt Orban einem öffentlichen Radiosender. “Noch sprechen wir von Hunderttausenden, aber nächstes Jahr werden wir über Millionen sprechen und es wird kein Ende nehmen.” Europa müsse seine Grenzen schützen, auch am Budapester Ostbahnhof. “Wir könnten als Minderheit im eigenen Land enden”, sagt Orban. Die Polizei hat am Ostbahnhof von Budapest einen Konflikt zwischen rechtsradikalen ungarischen Fußballfans und Flüchtlingen gerade noch verhindert. Eine Gruppe Flüchtlinge habe etwas in arabischer Sprache skandiert, die ungarischen Rechtsradikalen hätten mit nationalistischen Parolen reagiert. Auch Feuerwerkskörper seien zu hören gewesen, berichtet die ungarische Nachrichtenagentur MTI. Schlussendlich sei es der Polizei gelungen, die beiden Gruppen getrennt zu halten. +++ 9.34 Uhr: UN-Kommissar: EU sollte 200.000 Flüchtlinge auf Staaten verteilen +++ Der estnische Innenminister Hanno Pevkur bleibt bei seinem Nein für verbindliche Flüchtlingsquoten. Die freiwillige Aufnahme sei der einzige Weg, um Misstrauen und das Verschwinden des Schengen-Raums zu vermeiden, sagt in Tallinn. Die einzige Lösung für die Flüchtlingskrise seien Maßnahmen, die die Situation in den Krisengebieten stabilisieren, sagt Pevkur nach Angaben des estnischen Rundfunks. Estland will in den kommenden zwei Jahren 200 Flüchtlinge aufnehmen. +++ 9.31 Uhr: Erdogan weist de Maizières Vorschlag für Flüchtlingscamps zurück +++ Dutzende Flüchtlinge brechen nach einem Bericht der staatlichen ungarischen Nachrichtenagentur MTI aus einem Auffanglager nahe des Ortes Bicske in der Nähe von Budapest aus. +++ 9.07 Uhr: Stegner gegen Änderung von Asylrecht +++ Der britische Premierminister David Cameron reagiert auf die Forderungen, mehr Flüchtlinge aufzunehmen. Einem Bericht des britischen “Guardian” zufolge will Großbritannien Tausende Migranten direkt aus Flüchtlingslagern der Vereinten Nationen an den Grenzen Syriens auswählen. Wie es aus der Regierung heißt, sollen keine Flüchtlinge aufgenommen werden, die bereits in Europa sind. So wolle man verhindern, indirekt Schleuserbanden zu unterstützen. Außerdem sollten keine Menschen motiviert werden, die Reise nach Europa anzutreten. Kein europäisches Land helfe vor Ort so viel wie Großbritannien, sagte Cameron. Es seien bereits 900 Millionen Pfund (1,23 Mrd Euro) an finanziellen Hilfen in die Region geflossen. +++ 8.14 Uhr: 500 Flüchtlinge verweigern weiter Fahrt in ungarisches Aufnahmelager +++ Zu den kritisierten Aufnahmelagern sagt Szijjarto: “Wir haben Transitzonen eingerichtet, in denen Migranten ihre Asylanträge stellen können und wir treffen innerhalb einiger Tage eine Entscheidung.” So lange müssten die Menschen in den Transitzonen bleiben. Die Zahl der illegal nach Ungarn eingereisten Migranten beziffert Szijjarto auf “bis heute 163.000”. Mehr als 99 Prozent von ihnen seien über die Grenze zu Serbien gekommen. Vor der libyschen Küste sind nach Angaben der Internationalen Organisation für Migration (IOM) vermutlich mindestens 30 Bootsflüchtlinge ertrunken. 91 Überlebende habe die italienische Küstenwache am Donnerstag aus einem sinkenden Boot gerettet, teilt die IOM mit. Insgesamt seien 120 bis 140 Menschen an Bord gewesen. Die meisten der Flüchtlinge kamen demnach aus Somalia, Nigeria und dem Sudan. Das Boot sei “wie oft üblich” erst kurz vor der Fahrt am Strand aufgepumpt worden und habe dann schnell Luft verloren. Die Insassen seien daraufhin “in Panik” geraten und hätten sich alle auf eine Seite des Boots gedrängt. “Viele von ihnen sind ins Wasser gefallen.” +++ 7.41 Uhr: Orban: “Strom der Migranten ist endlos” +++ Der türkische Präsident Recep Tayyip Erdogan weist einen Vorschlag von Bundesinnenminister Thomas de Maizière (CDU) zum Aufbau von EU-Flüchtlingslagern in der Türkei zurück. Nach seinem Eindruck wolle ein deutscher Minister, dass sich Deutschland unter syrischen Flüchtlingen in der Türkei einige zur Aufnahme aussuchen könne, sagt Erdogan dem US-Fernsehsender “CNN”. “Was ist das denn für eine Haltung? Das kann man nicht verstehen”, sagt Erdogan. In dem Interview sagt Erdogan auch, er habe beim Anblick des Fotos des toten Flüchtlingskinds Ailan geweint. Tschechien, Slowakei, Ungarn und Polen pochen auf einen restriktiven Kurs gegenüber Flüchtlingen. Jedes EU-Land sollte souverän über seine Maßnahmen zum Umgang mit dem Andrang von Flüchtlingen entscheiden, sagt die polnische Ministerpräsidentin Ewa Kopacz nach dem Treffen der Regierungschefs der sogenannten Visegrad-Gruppe. Die Gruppe lehnt eine Quote zur Aufnahme von Flüchtlingen ab, was unter anderem in Deutschland auf deutliche Kritik gestoßen ist. Zur besseren medizinischen Versorgung der vielen Flüchtlinge fordert der Verband der Kinder- und Jugendärzte dringend ein bundesweit einheitliches Vorgehen. Impfaktionen, Krankenversicherungskarten und sogenannte Laufzettel, auf denen Untersuchungen dokumentiert werden, gebe es bislang nur punktuell, sagte Verbandspräsident Wolfram Hartmann. Er sieht deshalb “erhebliche Probleme” bei der Gesundheitsversorgung der Flüchtlinge. Er befürchtet zudem, dass Ärzte manche Erkrankungen nicht oder nicht mehr erkennen: Dazu zähle neben Tropenkrankheiten etwa Polio. +++ 7.29 Uhr: Brand im hessischen Flüchtlingsheim +++ Die meisten Flüchtlinge auf dem Bahnhof, die sich nicht in Ungarn registrieren lassen, wollten laut Orban nach Deutschland. Aber Ungarn könne sie nicht durchlassen, weil Österreich dann seine Grenze schließen müsste. “Wenn Deutschland ihnen Visa ausstellt, können wir sie rauslassen.” +++05.16 Uhr: Ärzteverband für bessere medizinische Versorgung von Flüchtlingen+++ Nach Angaben der am Bahnhof von Bicske festgehaltenen Migranten wollen auch die Frauen und Kinder am Samstag Richtung Deutschland aufbrechen, wenn ihr Zug nicht weiterfahren darf. Die Bundesregierung stockt ihre Hilfe für die Versorgung von Flüchtlingen in Griechenland auf. “Wir haben entschieden, dass wir unsere Hilfe für Griechenland, wo viele Flüchtlinge ankommen, noch einmal verdoppeln auf jetzt 2,4 Millionen Euro”, erklärt Bundesaußenminister Frank-Walter Steinmeier (SPD). Deutschland hilft Griechenland dem Ministerium zufolge zudem bei der Registrierung und medizinischen Versorgung von Flüchtlingen. Mit der Verdopplung der Zahlungen signalisiere die Bundesregierung erstens, “dass Griechenland besonderen Belastungen unterliegt und wir zweitens nicht nur mahnen und nicht nur auffordern, sondern Athen auch handfest unterstützen, damit es in der Lage ist, seine Aufgabe zu bewältigen”, sagt Steinmeier. +++05:15 Uhr: Jährlich 300.000 neue Wohnungen für Flüchtlinge nötig+++ Wegen einer schlechten medizinischen Versorgung von Flüchtlingen, befürchtet der deutsche Ärzteverband eine Verbreitung von Tropenkrankheiten wie Polio. +++05.08 Uhr: Verfassungsschutz befürchtet mehr rechtsextreme Gewalt gegen Flüchtlinge+++ Ungarn hat einen zweiten Zug mit Flüchtlingen auf dem Weg Richtung Westen aufgehalten und alle 120 Reisenden in Flüchtlingslager gebracht. Wie die Polizei mitteilt, wurde der Zug aus Budapest Richtung Györ nahe der Grenze zu Österreich am Donnerstag im Dorf Nagyszentjanos gestoppt. 83 Flüchtlinge ließe’)

I had a look at the resutls from germeval 2017 and the only paper with proper f1 scores I’ve found was the last one that showed the following resutlts:

That is quite low, a model that predicts only neutral, gets 0.655 f1 score.
if you replace first 20% of the predictions with true_y you achieve such f1 of 0.727

Here’s a link to the language model and the language-medium model in case you want to use it. I also included the Twitter file (it’s tab separated and in UTF-8 ) and the paper (not the greatest paper in the world but it contains all the hyperparameters). The Twitter collection script is in the scripts folder (you have to provide your own keys to use it).

Link: https://drive.google.com/drive/folders/1YfvbK5ff5H3dCutUxK5yWv18pfvSSXR5?usp=sharing

If anyone is interested I can also share my Zotero paper collection which is still a bit unordered but maybe an interesting starting point.

Restructuring the scripts and uploading them will take a bit because the workload after a conference + start of the semester is high, as expected. I’ll try to find some time to do it this week.

Maybe we can also form a Skype group or something.

1 Like

Kristian will correct me, but I don’t think this means to only use a 10k validation set but to quote the perplexity dependent on the vocab size, which is somewhat similar to your idea of giving the OOV rate. I didn’t collect a OOV statistic with my model, sorry!

If we were not set on the ULMFiT methodology, when using BPE (sentencepiece), we could follow the instructions R. Sennrich (the leading author of the paper sentencepiece cites for BPE) for his BPE package (https://github.com/rsennrich/subword-nmt ). He has NMT as an application, but for me this looks like training the sentencepiece vocab on the joint (wiki, twitter, potentially also application) dataset and then ensure that you keep words appearing in the application dataset.
However, then you intervene “before the language model”, which isn’t the ULMFiT methodology.

Best regards

Thomas

Even with this awful perplexity, our sentiment classifier achieved 0.758 after 12 epoch of training, the SOTA is 0.752 according to the paper. And this is only one model no ensembling, unidirectional, that and Langauge model was trained on #BTW17 - very small corpus.

I’m running now experiments with longer training 24 epoch, and the same model but starting from Wikipedia corpus.
I will share the scripts and weights so you can start some experiments. I’m sure there is plenty of rum for improvement, as the SOTA is super low given that F1 of 0.6 is achieved by dummy model that says “neutral” all the time.

Ah ok, we can do that for sentence piece / BPE models where there is no OOV, you can’t compare different Vocab sizes for models that have OOV. Think a vocab size of 1 would have super low perplexity of 1 as it would always predict the same “unknown” word and it would be always right :slight_smile:

And I think it make sense to use nonsentece piece models, as they are simpler to implement and work probably better on English corpus (but that I want to check as well)
How about a measurement of how a language model works for a downstream task of sentiment classification after 6 epoch training we are then close to STOA, and further training only marginally change the score.

Thank you I will fetch it to run experiments, do you remember how accurate your model was on sentiment classification?

How to collect the German tweets though? My twitter is English only :confused:

There is a discord server for fast AI we can meet there if you want. https://discord.gg/tgwdC4

My nickname is czapel#4436, If you want to use skype you can reach me at flynn_pl

I understand that these numbers are the LM performance prior to the fine-tuning step?

I fine-tuned a model trained on the German Wikipedia with the GE '17 dataset quite a while ago and the numbers were a lot better (again, I am sure there were a lot of unknowns but the downstream classification accuracy was pretty decent 80%-ish). I’ll update this post with the exact numbers as soon as possible – I might have to regenerate them.

In my opinion, the greatest strength of ULMFiT comes from its fine-tuning procedure and there’s very little to gain from simply the pretrained model. I could be wrong about this so please correct me here.

What insight(s) are you looking for by validating a BTW '17 trained language model on the GE17 dataset?


I agree with @rother’s suggestions regarding 1. a perplexity per-n-tokens metric (@t-v explains it correctly, I think); and 2. by first tokenizing the target data (GE '17 in this case) and then working backwards to arrive at a reasonable number of tokens to keep. What is “reasonable” could possibly be decided based on some threshhold of our per-n-tokens metric.

Of course this is largely theoretical and needs to be solidified with actual code first.


My German is very poor, but from what I understand about word-construction in German, it could benefit greatly from the sentence-piece implementation.

Could you tell us a little about if and how the sentence-piece model helped your Polish LM?

Nope, after fine tuning, the amount of unknown words and the fact that I’ve started from BTW17 (twitter dataset) is most likely the reason for this high perplexity. The loss was okey.

@aayushy awesome! accuracy around 80% is gave me something slightly better than SOTA / or the numbers published after the conference, so that would be awesome base line to work with.
Can you describe your hyperparameters and maybe put logs from training here: https://github.com/n-waves/ulmfit4de/issues/2

BTW17 was is sentiment rich and I was hoping to get a quick base-line before I download wikipedia and train on that corpus. Training on BTW17 was only 6h and I wanted to have a whole pipeline ready.

I guess that would be the easiest.

The task was to train a language model with vocabluary of 1.38 M tokens so using ULMFiT directly wasn’t possible. It is very hard to compare models based on perplexity when the number of OVV is different so I can’t tell you more. We are working on obtaining a training set sentiment analyses for polish that is not borken (poleval 2017 is) once we have it I can post the findings.

But I think we will be able to observe the difference on German quicker as the dataset for the tests is ready.

Yeah that’s what I meant. If the perplexity for a 50k vocab model was 30 for example and for a 60k vocab it was 32 then it would be 6/10k and 5.33/10k so the latter would actually be better. I don’t even know if it makes sense to do it this way but clearly the perplexity depends on the vocab size.

I’ve also scribbled down some interesting sounding tokenizers I hadn’t heard of before during the conference. I’ll likely have some more time to wade through all that tomorrow. I think I can also try to train a Germeval2018 classifier on my current model just to see how well the “just switch out the head” works.

How to collect the German tweets though? My twitter is English only

Just run the script, it uses the Twitter API to filter for German via the language settings and also uses a keyword filter with very common German words. I did it this way because 1.5ish years ago just using the API and setting the language of the Tweets you want to German got about 30% of non-German tweets.
You’ll have to get a developer key to run the script which is pretty straightforward iirc, I did this a couple of years ago.

For reference: SOTA binary task Germeval 2018: 76.77 F1; Fine tuned task: 52.71
Proceedings are online now: https://www.oeaw.ac.at/fileadmin/subsites/academiaecorpora/PDF/GermEval2018_Proceedings.pdf

I think I’ve got you, you want to normalize the perplexity per tokenization what you proposed should work just fine providing that we don’t increase the OOV dramatically.
This is in essence what we did for polish. Given a perplexity for 30k tokens we were able to calculate how this translates to the perplexity of a model that uses 1.8m words.

That would be great! put logs to the github issues so we can compate how the training went.

Lovely thank you, will do that !

@rother I’ve skimmed through your paper looks really nice. Do I read it right that you have F1 score of 71?

Hi,

I thnik that normalizing perplexity by vocabulary size would give misleading results favouring models with larger vocabularies. For two language models, S(maller) and L(arger), if the first’s model vocabulary VS is a subset of the second’s model vocabulary VL (more generally, if every sentence encoded using VS can be losslessly encoded using VL), then we can think of L as a two-pass language model with the first pass using VS and the second pass refining all <unk> tokens (i.e., tokens in VL that are not in VS). In other words, we could think of a sentence encoding in which every token not in VL is replaced by <unk2> and every token in VL but not in VS is preceded by <unk1>. For example the following sentence The newest Tesla car uses lithium-ion batteries
could be encoded as The newest <unk1> Tesla car uses <unk1> <unk2> batteries
assuming that Tesla is present only in VL and lithium-ion in neither. With such an encoding the goal of S is to predict the sentence with all tokens occurring directly after <unk1> removed. L has to additionally predict tokens right after <unk1> tokens. In this example, for S the cross-entropy (i.e., log of perplexity) would consist of terms:

Pr(The)
Pr(newest | The)
Pr(<unk1> | The newest)
Pr(car | The newest <unk1>)
Pr(uses | The newest <unk1> car)
Pr(< unk1 > | The newest <unk1> car uses)
Pr(batteries | The newest <unk1> car uses < unk1 >)

For L it would be

Pr(The)
Pr(newest | The)
Pr(<unk1> | The newest)
Pr(Tesla | The newest <unk1>)
Pr(car | The newest <unk1> Tesla)
Pr(uses | The newest <unk1> Tesla car)
Pr(< unk1 > | The newest <unk1> Tesla car uses)
Pr(<unk2> | The newest <unk1> Tesla car uses < unk1 >)
Pr(batteries | The newest <unk1> car uses < unk1 > <unk2>)

which after reordering gives us the two-pass perspective:

first pass
Pr(The)
Pr(newest | The)
Pr(<unk1> | The newest)
Pr(car | The newest <unk1> Tesla)
Pr(uses | The newest <unk1> Tesla car)
Pr(< unk1 > | The newest <unk1> Tesla car uses)
Pr(batteries | The newest <unk1> car uses < unk1 > <unk2>)
second pass
Pr(Tesla | The newest <unk1>)
Pr(<unk2> | The newest <unk1> Tesla car uses < unk1 >)

Of course S and the first pass of L differ (L has slightly richer contexts), but I think that the second pass is a main reason for difference in perplexity. If we approximate the second pass two

Pr(Tesla | <unk1>)
Pr(<unk2> | < unk1 >)

and assume that tokens in VL that are not in VS are equally probable, the impact of the second pass on the cross-entropy simplifies to (additive factor)

Pr(<unk1>) * log(|VL| - |VS|)

and on perplexity (multiplicative factor)

(|VL| - |VS|)Pr(<unk1>)

For Pr(<unk1>) = 0.01 (i.e., if VS contains 99% of tokens, including repetitions),

|VS| = 50000
|VL| = 60000

we would have to multiply the perplexity of S by 1.1 to compare with L.

However, with so many assumptions the final score could be misleading as well. We could compute Pr(<unk1>) from the data or approximate the second pass more carefully, but I believe that we have to use some kind of subword tokenization to deal with German and in that case, the comparison of models with different vocabulary sizes is strighforward (as we did for Polish).

3 Likes

Great analysis! I think that a more simple argument would be the larger model not having an impact on the OOV rate in the test set and assigning insignificantly different probabilities to words.

Best regards

Thomas

Thanks for jumping on the thread @mkardas. @t-v I think Marcin was trying to show us a way to approximate perplexity of S in larger vocabulary of L. so we can compare the two.

Basically, if we have a language model (S) we can compare it with another language model (L) that was trained on a larger vocabulary. by constructing a dummy version of a language model that works on larger vocabulary and uses S for everything except new words for which it uses dummy prediction, for such model we can compute Perplexity.
Then if such perplexity of this constructed LM is smaller or equal to the perplexity of L then L is less useful than S.

That would be super useful but it seems that it will require quite some effort to calculate Pr(<unk1>) and given that we can compare the LM using the downstream task in about an hour I think it might be easier this way. And we can compare LM’s that uses different sizes of sentence piece directly, as they have no OOV.

So my proposal is to simply train the models without sentence piece then train the downstream task (ge17) and compare the F1 directly between the models.

I’m rewriting my notebooks to some scripts that can do that for us.

Is anyone interested in getting his LM finetuned to GE17 so that we can compare how the sentence piece version works contra vanilla ulmfit?

1 Like

Pr(<unk1>) is simply OOV rate of S, but yes, I agree that we should focus on performance on downstream tasks. I’ve just wanted to point out that simply normalizing a perplexity by a vocabulary size would result in score that is biased towards larger models.

1 Like

@rother, the whole calculation of a f1 macro averge metric is quite confusing. scklern does it differently than guys from GermEval, and I think you might got confused by this some how.

If your precision and recall in the paper are correct, then you have won GermEval 2018
At least in germeval the F1 average for binary task was calculated as a harmonic mean from macro average precision and macro average recall.
The best performing model reported had the following values:
Average precision: 0.7742, (your values 0.78)
Average recall: 0.7613 (your values 0.77)
F1 = 2 / (1 / 0.7742 + 1 / 0.7613) = 0.7677

Results on German Eval 2018 with model using sentence piece 30k, 6 epoch of fine tuning, 5 epoch of classifier training.

  • Binary classification F1 macro average 0.71 (below STOA that is 0.76)
  • Fine-grained classification F1 macro average 0.40 (below STOA that is 0.52)

I’d like to try with a relatively large SPM vocab (100k?) to get an upper bound of what’s reasonable, but I don’t have a gpu currently. What’s your rationale for the spm method (unigram vs. bpe)?

Starting today, I’m going to run two experiments:

  1. Vanilla German Wikipedia LM
  2. Vanilla German Wikipedia LM with sentence-piece (or simply BPE).

I would like inputs from everyone on the number of tokens to select. I should be able to get a GPU so it should be possible to run a bunch of different token sizes.

Also, would it be possible for you to please tell us about the specific changes (in fastai source and otherwise) that you made to get sentence-piece to work? (Edit: I was able to figure it out.)

1 Like

Awesome post, thanks.

Regarding tokens, I did 50k which is reasonably fast to calculate but I think the common size here was 60k.

What I want to test is have multiple LMs with the same token size and the same tokenizer but different perplexities and see if and how it influences the final results if you swap them out. Maybe there’s even some nice relationship like X points perplexity improvement roughly translates to Y point classifier improvement (ceteris paribus).

I’d like to try with a relatively large SPM vocab (100k?) to get an upper bound of what’s reasonable, but I don’t have a gpu currently. What’s your rationale for the spm method (unigram vs. bpe)?

I agree with this. I think bigger is better to get a nice bound. Another helpful experiment would be to gather unlabeled data for different media (twitter, forum posts, youtube comments, websites) and see how many missing tokens there are compared to the large vocab LM.

If your precision and recall in the paper are correct, then you have won GermEval 2018

Nope the reported results are only on the dev set because the test data was only provided after the paper was submitted. It was very strange to write such a paper so I reported results on the devset just to report something. The drop when using the testset was really huge (0.8->0.69x) which I have to investigate. The drop was pretty big for the other teams as well so it might be related to the dataset. I didn’t overfit or underfit so that really puzzled me (I was quite happy with th 0.8 and a bit shocked that it only translated to 0.69x on the testset).