Text Mining und Natural Language Processing I

Unkategorisierte Kundenservice-Anfragen, Verträge ohne automatisiertes Ablagesystem, wissenschaftliche Veröffentlichungen, Leserkommentare in einer Online Community – all das sind Beispiele für unstrukturierte Textdaten, die heute oft noch manuelle verarbeitet werden.

Methoden der Textanalyse und der Verarbeitung natürlicher Sprache (NLP) können heute helfen, diese bisher manuell durchgeführten, zeitaufwändigen und fehlerbehafteten Prozesse effizienter zu gestalten und ermöglichen neue Einblicke. Zusätzlich bieten sie großes Potenzial, Kosten einzusparen oder sich einen Wettbewerbsvorsprung durch neues Wissen zu erarbeiten – und dabei die eigenen Nerven zu schonen.

Linguistische Methoden, Vektorisierung, Clustering, Topic Modelling und Klassifikation gibt es viele Methoden, die unterschiedliche Probleme lösen und geschickt kombiniert sich besonders in Kombination zu ihrer größten Leistungsfähigkeit entfalten können.

Im Training zeigen wir, wie man die gesamte Textverarbeitungspipeline automatisiert – von der reinen Texterfassung, der Bereinigung der Texte, der Anreicherung mit Hilfe von Machine Learning bis zur visuellen Darstellung. Anhand eines Beispielprojekts lernen die Teilnehmer alle Stufen kennen und erlangen.

Dieses erste Training zu Text Mining und NLP erklärt am Vormittag klassische Methoden des Text Mining, die auch ohne die neueren Methoden aus Teil II (am Nachmittag) gewinnbringend eingesetzt werden können.

Vorkenntnisse

* Das Training richtet sich an alle Entwickler, Architekten und Data Scientists, die sich mit der Massenverarbeitung von Text auf dem Level der Architektur, der Implementierung und dem laufenden Betrieb beschäftigen möchten.
* Vorkenntnisse in Python und in Machine Learning sind ebenso hilfreich wie der Umgang mit Jupyter-Notebooks.

Lernziele

Teilnehmer können nach dem Workshop eigene Textanalyse-Projekte mit der vorgestellten Pipeline starten und kennen sich mit den verwendeten Techniken (NLP, Vektorisierung, Klassifikation, Topic Modelling) aus.

 

Agenda

1. Textakquisition

  • Kurze Erklärung, wie man HTML herunterlädt
  • Kurze Beschreibung, wie andere Dokumente extrahiert werden können

2. Vorstellung des Datensets

3. Linguistische Analyse

  • Tokenisierung
  • Entitäten
  • Statistik

4. Vektorisierung der Textdaten

  • Bag-of-words
  • TF/IDF
  • N-Gramme

5. Clustering

  • Funktionsweise
  • Verschiedene Verfahren (k-Means etc.)

6. Topic Modelling

  • Grundidee
  • NMF, LDA usw.

7. Klassifikation

  • Funktionsweise
  • Qualitätsindikatoren
  • Verschiedene Verfahren

 

Technische Anforderungen:

  • Als Start sollte am besten ein Arbeitsverzeichnis für den Workshop angelegt werden.
  • Zunächst sollte die Anaconda-Distribution für Python 3 installiert werden (https://www.anaconda.com/distribution/#download-section), am besten als User-Installation
  • Anschließend bitte den Anaconda-Prompt öffnen (bei Bedarf als Administrator) und folgende Befehle eingeben:
    conda install -y pip
    conda install -y -c conda-forge ipython-sql
    conda install -y -c anaconda beautifulsoup4
    conda install -y -c anaconda gensim
    pip install pyLDAvis
    conda install -y -c anaconda word2vec
    conda install -y -c anaconda requests
    conda install -y -c anaconda nltk
    conda install -y -c conda-forge spacy
    python -m spacy download en
    python -m spacy download de
    conda install -y -c conda-forge wordcloud
  • Ein Client für SQLite ist hilfreich, z.B. http://sqlitebrowser.org/dl/
  • Für die Landesspracherkennung sollte https://s3-us-west-1.amazonaws.com/fasttext-vectors/supervised_models/lid.176.bin heruntergeladen und im Arbeitsverzeichnis abgelegt werden

Speaker

 

Christian Winkler
Christian Winkler ist ein Gründer der datanizing GmbH und promovierte an der FAU Erlangen Nürnberg. Er arbeitet seit 20 Jahren in der Softwareentwicklung im Bereich Big Data/KI, insbesondere mit Fokus auf intelligente Algorithmen zur Massendatenverarbeitung im Bereich des maschinellen Lernens, der Geodatenverarbeitung und Statistik. Als Data Scientist und Solution Architect begleitet Dr. Winkler Projekte in den Bereichen Text Mining, Netzwerkanalyse, Forum Analytics und Sentiment Analyse. Er ist Speaker auf Konferenzen und Autor von Artikeln zu Big Data/KI.

ML-Essentials-Newsletter

Sie möchten über die ML Essentials
auf dem Laufenden gehalten werden?

 

Anmelden