Manifold Learning – der Struktur der Daten auf der Spur

In diesem Training geht es um einen spannenden Komplex innerhalb des Unsupervised Machine Learning, das sog. Manifold Learning. Die teils ungewöhnlichen Methoden sind vor allem aus der Datenvisualisierung und der Dimensionality Reduction bekannt, können aber deutlich mehr. Wir werden anhand praktischer Experimente sehen, wie sich die Ergebnisse von Supervised-Machine-Learning-Verfahren durch den Einsatz dieser Methoden verbessern lassen.

Eigentlich dienen Manifold-Learning-Verfahren dazu, in niedrigen Dimensionen bestimmte strukturelle Eigenschaften mehr- oder hochdimensionaler Daten zu erhalten, etwa Lagebeziehungen oder Abstände zwischen den Datenpunkten. In 2D oder 3D kann man dies zur Datenvisualisierung nutzen und Methoden wie PCA oder MDS lassen sich generell zur Dimensionsreduktion verwenden, um Speicheraufwand zu minimieren und Rechenzeiten zu beschleunigen. Eine innovative, jedoch wenig bekannte Anwendung ist das automatische Generieren von Features für Supervised-Machine-Learning-Fragestellungen.

Wir werden einige dieser Methoden theoretisch und praktisch kennenlernen, angefangen von Random Projections (Sparse und Gaussian) über Principal Component Analysis (PCA), Locally Linear Embeddings (LLE) und Multi-Dimensional Scaling (MDS) bis hin zu den algorithmisch eher exotischen Methoden wie t-SNE und UMAP. Für die Übungen nutzen wir Jupyter-Notebooks in Google Colab.

Vorkenntnisse

* Grundkenntnisse in Python und Jupyter
* Grundkenntnisse in Machine Learning
* Praktische Erfahrungen in den Bereichen Datenvisualisierung und Feature Engineering sind hilfreich
* Besonderes mathematisches Know-how ist nicht erforderlich

Lernziele

* Welchen Nutzen hat die Struktur von Daten?
* Kennenlernen verschiedener Manifold-Learning-Verfahren
* Einsatzmöglichkeiten in Data-Science- und Machine-Learning-Projekten
* Hands-on-Anwendungen mit Fokus auf Visualisierung und Automated Feature Engineering
* Viele praktische Experimente, Tipps und Tricks für den Data-Science-Alltag und ein ganz kleiner Blick in den Werkzeugkasten der höheren Mathematik und Statistik

Agenda

  • Mannigfaltigkeiten und die Struktur hochdimensionaler Daten
  • Vorstellung einiger Manifold-Learning-Methoden:
    • Random Projections
    • PCA – Principal Component Analysis
    • LLE – Locally Linear Embedding und verwandte Verfahren
    • MDS – Multi-Dimensional Scaling
    • t-SNE – t-distributed Stochastic Neighbor Embedding
    • UMAP – Uniform Manifold Approximation and Projection
  • Anwendungsfall Random Noise – Warum denn das?
  • Arbeiten mit Jupyter-Notebooks auf Colab

Kaffeepause

  • Praxistests I – Datenvisualisierung
  • Praxistests II – Dimensionality Reduction und Automated Feature Engineering
  • Praxistests III – UMAP und seine besonderen Stärken

 

Technische Anforderungen

  • Google Account für Colab (https://colab.research.google.com/notebooks/welcome.ipynb)
  • Laptop mit aktuellem Chrome Browser (Colab läuft nicht in allem Browsern stabil)

Falls Sie ein Firmengerät Ihrer Firma verwenden, überprüfen Sie bitte kurz, ob sie lokale Administratorrechte besitzen und Internetverbindungen außerhalb des Firmennetzwerks möglich sind (falls es voreingestellte Corporate Proxys gibt).

Speaker

 

Stefan Kühn
Stefan Kühn beschäftigt sich seit vielen Jahren mit Data Science, Machine Learning und mathematischer Grundlagenforschung. Aktuell arbeitet er als Head of Data Science & Data Engineering bei Tom Tailor.

M3-Konferenz-Newsletter

Sie möchten über die ML Essentials
auf dem Laufenden gehalten werden? Dann abonnieren Sie den Newsletter der zugehörigen Konferenz Minds Mastering Machines (M3).

 

Anmelden