Text Mining und Natural Language Processing II

Neben vielen Bildern und Videos finden sich im Internet besonders viele Textinformationen. Deren Interpretation durch Computer ist traditionell schwierig. Im Bereich Machine Learning, Natural Language Processing und semantische Interpretation durch Embeddings hat es in den letzten Jahren allerdings sehr viele Fortschritte gegeben.

Ausgehend von einem öffentlich verfügbaren Standard-Daten-Set geben wir einen ganz kurzen Überblick über traditionelle Verfahren der Textanalyse und deren Einschränkungen. Anschließend untersuchen wir die Unterschiede der Embedding-Methoden word2vec, GloVe und fastText.

Auch mit diesen Embeddings können noch nicht alle Eigenheiten von Sprachen abgedeckt werden können. Kontextualisierte Embeddings wie ELMo können auch mit Homonymen umgehen und haben weitere spezifische Vorteile.

Im letzten Jahr gab es sehr viele Entwicklungen im Bereich Transfer Learning. Mit BERT steht fast ein ganzes Ökosystem von Verfahren zur Verfügung, die wir uns erschließen und ausprobieren.

Question Answering ist eine ganze spezielle Anwendung von Transfer Learning und durch das Bestehen der amerikanischen High School Tests (https://www.nytimes.com/2019/09/04/technology/artificial-intelligence-aristo-passed-test.html) besonders populär. Im letzten Schritt befragen wir damit Wikipedia.

Vorkenntnisse

* Das Training richtet sich an alle Entwickler, Architekten und Data Scientists, die sich mit den neuen Methoden der Textanalyse beschäftigen möchten.
* Vorkenntnisse in Python und in Machine Learning sind ebenso hilfreich wie der Umgang mit Jupyter-Notebooks.
* Der Training "Text Mining und NLP I" am Vormittag schafft gute Voraussetzungen für dieses zweite Training. Bei entsprechenden Vorkenntnissen ist eine Teilnahme an Teil I nicht erforderlich.

Lernziele

Teilnehmer können nach dem Workshop neue Methoden wie word2vec, ELMo, BERT für eigene Projekte nutzen. Weiterhin können sie einschätzen, ob die deutlich aufwändigeren Berechnungen für Anwendungsfälle sinnvoll sind oder ein einfaches Modell genügt.

Agenda

1. Recap „traditionelle Verfahren“

  • Vektorisierung von Dokumenten
  • „One-hot“ Encoding von Worten
  • Einschränkungen

2. Word Embeddings

  • word2vec
  • gloVe
  • fastText
  • Verfahren ausprobieren und Unterschiede erkennen
  • Erweiterung auf doc2vec

3. Kontextualisierte Embeddings

  • Universal Sentence Embeddings
  • ELMo
  • Nutzung als Ähnlichkeitsmetrik

4. Kombination mit Graph-basierten Verfahren

  • Aufbau von semantischen Netzwerken
  • Berechnung von Zentralitätsmaßen

5. Transfer Learning

  • BERT
  • Nutzung zur Klassfikation

6. Question Answering

  • SQuAD

 

Technische Anforderungen

* Als Start sollte am besten ein Arbeitsverzeichnis für den Workshop angelegt werden.
* Zunächst sollte die Anaconda-Distribution für Python 3 installiert werden (https://www.anaconda.com/distribution/#download-section), am besten als User-Installation
* Anschließend bitte den Anaconda-Prompt öffnen (bei Bedarf als Administrator) und folgende Befehle eingeben:
conda install -y pip
conda install -y -c anaconda gensim
conda install -y -c anaconda word2vec
conda install -y -c anaconda requests
conda install -y -c conda-forge wordcloud
* Ein Client für SQLite ist hilfreich, z.B. http://sqlitebrowser.org/dl/
* Für die Landesspracherkennung sollte https://s3-us-west-1.amazonaws.com/fasttext-vectors/supervised_models/lid.176.bin heruntergeladen und im Arbeits-Verzeichnis abgelegt werden.
* Bitte die Google-Wortvektoren von https://drive.google.com/file/d/0B7XkCwpI5KDYNlNUTTlSS21pQmM/edit in das Arbeits-Verzeichnis laden und entpacken.
* Ebenso bitte die Facebook-Wortvektoren von https://dl.fbaipublicfiles.com/fasttext/vectors-english/wiki-news-300d-1M.vec.zip sollten in das Arbeits-Verzeichnis entpacken sowie https://dl.fbaipublicfiles.com/fasttext/vectors-crawl/cc.de.300.bin.gz
* Für die Landesspracherkennung sollte https://dl.fbaipublicfiles.com/fasttext/supervised-models/lid.176.bin heruntergeladen und im Arbeitsverzeichnis abgelegt werden.
* ELMo und BERT können wahlweise auf den Computern installiert werden. Da die Berechnungen allerdings sehr lange dauern, können wir auf Colab-Notebooks ausweichen.

Speaker

 

Christian WInkler
Christian WInkler ist ein Gründer der datanizing GmbH und promovierte an der FAU Erlangen Nürnberg. Er arbeitet seit 20 Jahren in der Softwareentwicklung im Bereich Big Data/KI, insbesondere mit Fokus auf intelligente Algorithmen zur Massendatenverarbeitung im Bereich des maschinellen Lernens, der Geodatenverarbeitung und Statistik. Als Data Scientist und Solution Architect begleitet Dr. Winkler Projekte in den Bereichen Text Mining, Netzwerkanalyse, Forum Analytics und Sentiment Analyse. Er ist Speaker auf Konferenzen und Autor von Artikeln zu Big Data/KI.

M3-Konferenz-Newsletter

Sie möchten über die ML Essentials
auf dem Laufenden gehalten werden? Dann abonnieren Sie den Newsletter der zugehörigen Konferenz Minds Mastering Machines (M3).

 

Anmelden