Schulungsübersicht

spark.mllib: Datentypen, Algorithmen und Dienstprogramme

  • Datentypen
  • Grundlegende Statistiken
    • zusammenfassende Statistiken
    • Korrelationen
    • geschichtete Stichproben
    • Hypothesentests
    • Streaming-Signifikanztests
    • Erzeugung von Zufallsdaten
  • Klassifizierung und Regression
    • lineare Modelle (SVMs, logistische Regression, lineare Regression)
    • Naive Bayes
    • Entscheidungsbäume
    • Ensembles von Bäumen (Random Forests und Gradient-Boosted Trees)
    • isotonische Regression
  • Kollaborative Filterung
    • alternierende kleinste Quadrate (ALS)
  • Clustering
    • k-means
    • Gaußsche Mischung
    • Power-Iterations-Clustering (PIC)
    • Latente Dirichlet-Zuordnung (LDA)
    • bisecting k-means
    • strömendes k-means
  • Dimensionalitätsreduktion
    • Singulärwert-Zerlegung (SVD)
    • Hauptkomponentenanalyse (PCA)
  • Merkmalsextraktion und -transformation
  • Suche nach häufigen Mustern
    • FP-Wachstum
    • Assoziationsregeln
    • PräfixSpan
  • Bewertungsmetriken
  • PMML-Modell-Export
  • Optimierung (Entwickler)
    • stochastischer Gradientenabstieg
    • BFGS mit begrenztem Speicher (L-BFGS)

spark.ml: Hochrangige APIs für ML-Pipelines

  • Überblick: Schätzer, Transformatoren und Pipelines
  • Extrahieren, Transformieren und Auswählen von Merkmalen
  • Klassifizierung und Regression
  • Clustering
  • Fortgeschrittene Themen

Voraussetzungen

Kenntnisse in einem der folgenden Bereiche:

  • Java
  • Scala
  • Python
  • SparkR
 35 Stunden

Teilnehmerzahl


Price per participant (excl. VAT)

Erfahrungsberichte (1)

Kommende Kurse

Verwandte Kategorien