
Data Scientist – Das Hype Thema erklärt. Part 2

In diesem Beitrag erfahren Sie, was ein Data Scientist überhaupt tut und wie er Ihrem Unternehmen Nutzen bringt. Außerdem erfahren Sie, was einen exzellenten Data Scientist ausmacht und welche Technologien für ihn relevant sind.
Für eine allgemeine Einführung in das Thema und für die Klärung der Begrifflichkeiten verweise ich auf den ersten Teil dieses Beitrags.
Zum Abschluss habe ich Ihnen ein paar hilfreiche Links zusammengestellt, mit denen Sie sich selbst in die Lage versetzen können, bei den aktuellen Themen rund um Data Science mitzureden.

Was macht ein Data Scientist?
Die Aufgabe von Data Scientists ist es, große Mengen an Daten aus verschiedenen Medien zu sammeln und mithilfe ihrer analytischen Fähigkeiten in sinnvolle Informationen umzumünzen.
Hierbei müssen sie begrenzte Ressourcen wie Rechenkapazität oder Bandbreite miteinbeziehen und die Ergebnisse angemessen visualisieren, um diese auch Nicht-Fachexperten verständlich darzustellen.
Wie kann Ihnen ein Data Scientist konkret helfen?
Data Scientists helfen zwischen Rauschen (noise) und dem eigentlichen Signal zu unterscheiden.
Umsatzzahlen lügen nicht? In manchen Fällen mag das so sein, aber sobald wir uns zum Beispiel auf jahreszeitabhängige Produkte oder Dienstleistungen konzentrieren, ist dies bereits weit gefehlt. Auch der Vergleich zum Vorjahr kann schnell in die Irre führen, wenn andere Faktoren eine Rolle spielen. Solche Faktoren, die meist noch unbekannt sind, erzeugen eine Verzerrung der eindeutigen Kennzahlen.
Durch die Untergliederung und Kategorisierung der Daten auf feinere Granularitätsstufen gelingt es Data Scientists eben diese relevanten, aber meist unsichtbaren Faktoren, zu identifizieren und das eigentliche Messergebnis unabhängiger von ihnen zu gestalten.
Häufig angewandte Techniken sind hierbei beispielsweise Regression, Klassifikation und Kausalanalysen.
Ob leadgenerierende Internet-User oder wartungsanfällige Maschinen; Data Scientists finden heraus, was diese Dinge benötigen, damit die verbundenen Prozesse möglichst effektiv oder effizient gestaltet werden können.
Kürzere E-Mails erzeugen größere Response-Raten und mehr Leads? Gleichmäßigere Umgebungstemperaturen erhöhen die Belastbarkeit Ihrer Maschinen, sind aber aufwändig zu erzielen? Eine höhere Rotationsgeschwindigkeit erhöht die Lebenszeit der Laufbänder?
Data Scientists finden solchen Fragestellungen und die passenden Antworten. Und was für die Wirtschaftlichkeit entscheidend ist; sie versehen diese Aussagen mit konkreten Zahlen, und bestimmen den konkreten ROI für die abgeleiteten Maßnahmen.
Data Scientists nutzen nicht nur vorhandene Daten, sie designen auch spezielle Experimente um signifikante Phänomene zu entdecken und ihren Fokus darauf zu lenken.
Ein konkretes Beispiel: Im Verkauf nutzen Data Scientists Frequenzstatistiken, um ideale Einsatzorte für experimentelle Produkte zu finden und die passende Größe der Kontrollgruppe zu ermitteln.
Data Scientists stellen “Big Data” in das “Big Picture”.
Sie verstehen nicht nur die Auswertungen ihrer Daten, sondern können diese auch effektiv kommunizieren. Und was am wichtigsten ist: Sie können klare Empfehlungen abgeben, welche Maßnahmen getroffen werden sollten, um Unternehmen präventiv gegen erwartete Veränderungen in der Zukunft zu rüsten oder aus vergangenen Experimenten die größten Erkenntnisse für die Zukunft zu ziehen.
Welche Technologien nutzt ein Data Scientist?
Apache Hadoop
Apache Hadoop ist ein Open-Source Framework, das ideal geeignet ist für verteilte Datenlagerungen, was insbesondere für große Datenmengen und deren Verarbeitung relevant ist.
Es wurde in der Programmiersprache Java verfasst und wird immer noch beständig weiterentwickelt.
Das Framework wird beispielsweise von Cloudera genutzt, einer Software-Firma, die sich auf skalierbare und verteilte Datenverarbeitung großer Datenmengen spezialisiert haben.
Python
Die Programmiersprache Python ist eine der am häufigsten verwendeten High-Level-Sprachen. Einer der Vorteile ist, dass Python aufgrund seiner vielen Funktionen den Nutzern erlaubt Programme zu schreiben, die wesentlich kürzer sind als vergleichbare Programme in C, C++ oder Java. Außerdem lassen sich verschiedene Programmierparadigmen in Python abbilden, u.a. Objektorientierung, funktionale UND imperative Programmierung sowie prozedurale Programmierstile.
R
Auch R ist eine Open-Source Programmiersprache. R stellt eine Vielzahl an Funktionen für statistische Auswertungen out-of-the-box bereit und wird deswegen häufig von Statistikern und Data Minern genutzt.
Auch graphische Anwendungen sind in R standardmäßig möglich, was eine Visualisierung der Ergebnisse leicht und schnell möglich macht.
Besonders praktisch sind die von Nutzern erstellten Zusatzpakete, die spezialisierte Funktionen und weitere graphische Anwendungen zur Verfügung stellen.
Dies sind nur einige der häufig genutzten Technologien. Viele Data Scientists nutzen außerdem SQL zur Verwaltung von Datenbanken und nutzen bei Bedarf weitere Programmiersprachen wie Java, C++ oder Ruby. Auch Matlab wird oft als Alternative zu R genutzt.
Viel wichtiger als konkrete Technologien zu beherrschen ist es also, dass ein Data Scientist sich möglichst schnell in neue Technologien und Systeme einarbeiten kann. Doch was macht einen Data Scientist sonst noch so aus?
Welche Anforderungen sollte ein Data Scientist erfüllen?
Die meisten Data Scientists haben ein Studium in reiner Informatik oder dem neu aufkommenden eigenen Studiengang Data Science. Aber auch verwandte Studiengänge lehren die notwendigen Fähigkeiten. Hierbei kommt es weniger auf die konkreten Inhalte an, sondern viel mehr auf die Arbeitsweise und die Fähigkeit, sich neue Systeme mit Begeisterung innerhalb kürzester Zeit aneignen zu können.
Neben den Studiengängen gibt es mittlerweile auch viele konkrete Weiterbildungsmöglichkeiten in diesem Bereich (mehr dazu weiter unten). Idealerweise lassen sich diese mit Zertifizierungen abschließen.
Viele der genutzten Anwendungen benötigen Programmierkenntnisse; zwar lassen sich einige High-Level-Anwendungen auch ohne spezifische Kenntnisse bedienen, um jedoch den vollen Nutzen aus ihnen zu ziehen, sind fundierte Kenntnisse aus der Informatik essentiell. Außerdem sollten sie aufgeschlossen gegenüber neuen Technologien sein und sich unvoreingenommen neue oder spezialisierte Analysetools aneignen können.
Neben all diesen technischen Aspekten unterscheidet den Data Scientist vom klassischen Informatiker auch, dass er über eine sehr gute Kommunikationsfähigkeit verfügt und Inhalte gerne und verständlich vermittelt. Unabhängig von der Hierarchiestufe sollte er in der Lage sein, den Aufbau seiner Präsentationen und deren Schwerpunkte an sein Publikum anzupassen.
Besonders gute Data Scientists besitzen zusätzlich ein gewisses Organisationstalent, da sie bei ihrer Arbeit die Datenbeschaffung koordinieren müssen. In größeren Unternehmen gehört hierzu auch die Fähigkeit zur Delegation, Kontrolle und Steuerung der zugehörigen Prozesse an interne Mitarbeiter.
Mitarbeiterjahresgespräch: Ziele und Gehalt digital managen
Gestalten Sie Ihre Prozesse für das Mitarbeiterjahresgespräch inklusive anschließender Gehaltsanpassung einfach und transparent.
Wie werde ich Data Scientist?
Damit Sie in Zukunft mitreden können oder für den Fall, dass Sie Ihr Wissen vertiefen wollen, habe ich Ihnen einige hilfreiche Links zusammengestellt:
- Großartige Zusammenstellung verschiedenster Tutorials rund um Data Science, Python und R
- Coursera Kurs zu Data Science
- Microsoft Professional program for Data Science
- Nanodegree Data Analyst von Udacity
- Zertifizierung von Hortonworks für Big Data und Apache Hadoop