Manifold Learning – der Struktur der Daten auf der Spur
In diesem Training geht es um einen spannenden Komplex innerhalb des Unsupervised Machine Learning, das sog. Manifold Learning. Die teils ungewöhnlichen Methoden sind vor allem aus der Datenvisualisierung und der Dimensionality Reduction bekannt, können aber deutlich mehr. Wir werden anhand praktischer Experimente sehen, wie sich die Ergebnisse von Supervised-Machine-Learning-Verfahren durch den Einsatz dieser Methoden verbessern lassen.
Eigentlich dienen Manifold-Learning-Verfahren dazu, in niedrigen Dimensionen bestimmte strukturelle Eigenschaften mehr- oder hochdimensionaler Daten zu erhalten, etwa Lagebeziehungen oder Abstände zwischen den Datenpunkten. In 2D oder 3D kann man dies zur Datenvisualisierung nutzen und Methoden wie PCA oder MDS lassen sich generell zur Dimensionsreduktion verwenden, um Speicheraufwand zu minimieren und Rechenzeiten zu beschleunigen. Eine innovative, jedoch wenig bekannte Anwendung ist das automatische Generieren von Features für Supervised-Machine-Learning-Fragestellungen.
Wir werden einige dieser Methoden theoretisch und praktisch kennenlernen, angefangen von Random Projections (Sparse und Gaussian) über Principal Component Analysis (PCA), Locally Linear Embeddings (LLE) und Multi-Dimensional Scaling (MDS) bis hin zu den algorithmisch eher exotischen Methoden wie t-SNE und UMAP. Für die Übungen nutzen wir Jupyter-Notebooks in Google Colab.
Vorkenntnisse
* Grundkenntnisse in Python und Jupyter
* Grundkenntnisse in Machine Learning
* Praktische Erfahrungen in den Bereichen Datenvisualisierung und Feature Engineering sind hilfreich
* Besonderes mathematisches Know-how ist nicht erforderlich
Lernziele
* Welchen Nutzen hat die Struktur von Daten?
* Kennenlernen verschiedener Manifold-Learning-Verfahren
* Einsatzmöglichkeiten in Data-Science- und Machine-Learning-Projekten
* Hands-on-Anwendungen mit Fokus auf Visualisierung und Automated Feature Engineering
* Viele praktische Experimente, Tipps und Tricks für den Data-Science-Alltag und ein ganz kleiner Blick in den Werkzeugkasten der höheren Mathematik und Statistik