Westfälische Wilhelms-Universität

&npsb;

Vertiefungskurs Effiziente Datenverarbeitung

Der Kurs vermittelt die nötigen Kenntnisse um auch große Datenmengen in R effizient verarbeiten zu können. Sogennante Split-Combine-Ansätze sind generell geeignet, einen Datensatz in mehrere Datensätze aufzuspalten (split), Operationen auf den Teildatensätzen durchzuführen und die Ergebnisse wieder zusammenzuführen (combine). Abgesehen von trivialen Analysen wird diese Art der Datenverarbeitung so gut wie immer gebraucht. Beispiele sind etwa die Anwendung von statistischen Tests auf unterschiedliche Gruppen oder die Berechnung von Gruppenmittelwerten oder anderen Gruppenstatistiken. Häufig ist es mit einer Split-Combine Operationen nicht getan: Datenverarbeitung verlangt häufig die Anwendung mehrerer, hintereinander auszuführender Operationen (z.B. Datenbereinigung, Filterung, Transformation des Formats, Split-Combine, Visualisierung). Häufig wird der entsprechende Quelltext lang, unleserlich, fehleranfällig und die Übersicht leidet. Pipelines und chaining können oft helfen die Übersicht zu wahren und Speicher einzusparen. Kleine Datensätze stets im Arbeitsspeicher zu halten ist unproblematisch. Große Datenmengen (Stichwort: Big Data) hingegen können zu massiven Performanceeinbrüchen führen, da das Betriebssystem viel Zeit mit Ein- bzw. Auslagerung beschäftigt ist. In diesen Situationen können Datenbanken helfen, große Mengen (un-)strukturierter Daten z.B. auf einer Festplatte zu speichern. R nutzt dann nur jene Daten, die im aktuellen Verarbeitungsschritt notwending sind.

Kursinhalte:

  • Alternativen zum data.frame: data.table und tibble
  • Split-Combine-Strategien und Data Analysis Pipelines via tidyverse
  • Erhöhte Lesbarkeit von Code durch chaining und magrittr pipes
  • Anbindung von Datenbanken an R

Termin: 16.01.-17.01.2019
Ort: WWU Weiterbildung gGmbH, Königsstr. 47, 48143 Münster
Teilnahmeentgelt: 850,-€
Dozenten: Dipl.-Inf. Jakob Bossek, Dr. Pascal Kerschke

Das Anmeldeformular finden Sie hier.

Seminar Vertiefungskurs "Effiziente Datenverarbeitung"
Termin 16.-17.01.2019
Anmeldefrist 6 Wochen vor Seminarbeginn
Dozenten Dipl.-Inf. Jakob Bossek, Dr. Pascal Kerschke
Ort WWU Weiterbildung gGmbH, Königsstr. 47, 48143 Münster
Preis 850,-€
Veranstalter WWU Weiterbildung gGmbH
max. Teilnehmerzahl 15