Text Mining und Natural Language Processing II
Neben vielen Bildern und Videos finden sich im Internet besonders viele Textinformationen. Deren Interpretation durch Computer ist traditionell schwierig. Im Bereich Machine Learning, Natural Language Processing und semantische Interpretation durch Embeddings hat es in den letzten Jahren allerdings sehr viele Fortschritte gegeben.
Ausgehend von einem öffentlich verfügbaren Standard-Daten-Set geben wir einen ganz kurzen Überblick über traditionelle Verfahren der Textanalyse und deren Einschränkungen. Anschließend untersuchen wir die Unterschiede der Embedding-Methoden word2vec, GloVe und fastText.
Auch mit diesen Embeddings können noch nicht alle Eigenheiten von Sprachen abgedeckt werden können. Kontextualisierte Embeddings wie ELMo können auch mit Homonymen umgehen und haben weitere spezifische Vorteile.
Im letzten Jahr gab es sehr viele Entwicklungen im Bereich Transfer Learning. Mit BERT steht fast ein ganzes Ökosystem von Verfahren zur Verfügung, die wir uns erschließen und ausprobieren.
Question Answering ist eine ganze spezielle Anwendung von Transfer Learning und durch das Bestehen der amerikanischen High School Tests (https://www.nytimes.com/2019/09/04/technology/artificial-intelligence-aristo-passed-test.html) besonders populär. Im letzten Schritt befragen wir damit Wikipedia.
Vorkenntnisse
* Das Training richtet sich an alle Entwickler, Architekten und Data Scientists, die sich mit den neuen Methoden der Textanalyse beschäftigen möchten.
* Vorkenntnisse in Python und in Machine Learning sind ebenso hilfreich wie der Umgang mit Jupyter-Notebooks.
* Der Training "Text Mining und NLP I" am Vormittag schafft gute Voraussetzungen für dieses zweite Training. Bei entsprechenden Vorkenntnissen ist eine Teilnahme an Teil I nicht erforderlich.
Lernziele
Teilnehmer können nach dem Workshop neue Methoden wie word2vec, ELMo, BERT für eigene Projekte nutzen. Weiterhin können sie einschätzen, ob die deutlich aufwändigeren Berechnungen für Anwendungsfälle sinnvoll sind oder ein einfaches Modell genügt.