CAS Data Engineering
Das Phänomen der stetig zunehmenden Menge und Verbreitung von Daten begleitet uns seit Jahrzehnten. Zu Beginn dieser Entwicklung entstanden Daten in Systemen, bei denen die gewünschte Funktionalität die Form und Verarbeitung der Daten vorgab. Heutzutage verbreiten sich aber auch Systeme, in denen ein Nutzen dank dem Einbezug vorhandener Daten gestiftet wird. Mit dem Wachstum der Datenmenge haben wir immer mehr Möglichkeiten, nützliche Produkte, Dienstleistungen und effektive Betriebe zu gestalten.
Data Engineering wird je nach Definition als Teilbereich oder als Vorstufe des Data Science verstanden und befasst sich hauptsächlich mit den praktischen Aspekten der Datenbeschaffung und Zusammenführung, über den gesamten Datenaufbereitungskreislauf bis zur Analyse mit dem Ziel, eine qualitativ und quantitativ akzeptable Datengrundlage für die anschliessende Modellierung zu bieten.
Menschen in diversen Positionen, Funktionen und Rollen verfolgen ein breites Spektrum an Aufgaben, in denen Fragestellungen mit der Erfassung, Aufbereitung und Verarbeitung von Daten effektiver und effizienter beantwortet werden können. Im CAS Data Engineering vermitteln wir ein ebenso breites Spektrum an Werkzeugen und Methoden, welche Teilnehmende dazu befähigt, in ihrem beruflichen Alltag Daten mittels systematischer Techniken bereitzustellen, damit aus diesen ein konkreter Nutzen gewonnen werden kann.
Der CAS kann einzeln oder als Teil des MAS Business Engineering absolviert werden.
Auf einen Blick
Abschluss : Certificate of Advanced Studies in Data Engineering (12 ECTS)
Start : 26.02.2021
Dauer : 132 Lektionen
Kosten : CHF 8'000.00
Bemerkung zu den Kosten :
- Die vollständigen Studiengebühren sind vor Studienbeginn zu begleichen.
- In den Studiengebühren sind die Einschreibe- und Prüfungsgebühren sowie sämtliche kursrelevanten Unterlagen enthalten.
Durchführungsort :
Campus ZHAW School of Management and Law, Winterthur.
Unterrichtssprache
: Deutsch
Das Unterrichtsmaterial ist teilweise in englischer Sprache.
Ziele und Inhalt
Zielpublikum
Der CAS richtet sich an Fach- und Führungskräfte aus allen Branchen, welche ein Grundlagenverständnis für das Datenmanagement mitbringen, bereits Erfahrungen im generellen Umgang mit Daten gesammelt haben (bspw. durch den Besuch des CAS Data Competence for Business) und sich im Bereich der Sammlung, Aufbereitung, Validierung und Distribution von Daten vertiefen wollen. Idealerweise haben Sie bereits erste Erfahrungen mit 1 – 2 Abfrage-, Programmier- oder Skriptsprachen gesammelt. Der CAS bereitet Sie darauf vor, Aufgaben im Bereich des Data Engineering selbst durchzuführen sowie auf einem fachlichen Niveau zu überwachen.
Ziele
Sie können im Anschluss an diesen CAS:
- Fragestellungen identifizieren, denen sie mit dem Einbezug von Daten nachgehen können
- die Herausforderungen in der Datenerfassung sowie der Daten- und Informationsqualität situationsspezifisch einschätzen
- einen Überblick über Daten gewinnen, die ihnen zur Verfügung stehen
- für den Erkenntnisgewinn erforderliche Daten identifizieren und spezifizieren
- für ausgewählte Arten von Daten das effektivste und effizienteste Vorgehen zur Beschaffung, Aufbereitung, Validierung und Distribution definieren
- ein breites Spektrum an den gängigsten Werkzeugen und Methoden von der Datenbeschaffung, über den Datenaufbereitungskreislauf bis zur Distribution kennen und anwenden
- Kombinationslösungen und Anwendungslandschaften gestalten und kennen damit einhergehende Risiken und mögliche Lösungsansätze
Inhalt
Jeder Themenblock wird begleitet durch eine theoretische Einführung in die Thematik, die prozessorientierte Perspektive sowie praktische Übungen. Die Übungen finden mit öffentlich zugänglichen Daten aus den Bereichen Pharma & Gesundheit, Energie & Umwelt, Automobilindustrie, Versicherungen, Finanzen und Agrarwirtschaft statt. Es besteht ebenfalls die Möglichkeit, mit eigenen Daten zu arbeiten.
Modul 1: Werkzeuge und Methoden
1. Einführung
- Motivation, Organisation, Anforderungen, Herausforderungen
- Tools und Equipment (Umgebungen, dynamisch ladbare Bibliotheken, Package Index & manager)
- Objektorientierte Programmierung vs. Scripting im Data Engineering
2. Explorative Datenanalyse & Data Wrangling
- Initiale Datenanalyse und -evaluation
- Clustering
- Skalierung
3. Data Ingestion
- Datenquellen und -identifikation
- API’s
- Webscraping
4. Datenorganisation
- Datenströme
- Strukturierte Daten vs. unstrukturierte Daten
- Datenarchitekturen (Datenbanken, Managementsysteme, Schnittstellen)
- Relationale Datenbanken und zugehörige Abfragesprachen
- Objektorientierte Datenbanken und zugehörige Abfragesprachen
- Nicht-relationale Datenbanken und zugehörige Datenmodelle sowie Abfragesprachen
5. Transformation & Aggregation
- Formate und Datentypen
- Normierung
- Formen der Zusammenführung von Daten (Concatenate, Append, Join, Merge, Aggregation)
- Gruppierung
- Selektion (Slicing, Filterung, Sortierung, Sampling)
6. Cleansing
- Konditionierung
- Duplikate
- Fehlende Daten
- Parser
- Recognizer
- Symbolische Variablen
Modul 2: Domänen und Daten
1. Analyse & Validation
- Univariate Analyse: Desktriptive Statistik, Ausreisser (Erkennungs- und Behandlungsmethoden), Vergleich von Objekten
- Multivariate Analyse: Clustering, Reduzieren von Dimensionen, Isolation Forests
- Analyse und Validation mit Machine Learning
2. Standardisierung & Normalisierung
- Standardisierung von Verteilungen
- Normalisierung auf Wertebereiche
- Standardisierung und Normalisierung zur Erkennung von Anomalien
3. Shaping
- Sampling
- Labeling
- Bilderspezifisches Shaping (Stretching, Mirroring, Adjacency matrix)
- Textspezifisches Shaping (Stopwords, Bag of words, n-grams)
- Webspezifisches Shaping
4. Natural Language Processing
5. Analyse und Visualisierung räumlicher Daten
6. Distribution von Objekten
- Kombination von Programmiersprachen und Umgebungen
- Microservices
- Benutzeroberflächen
Wir arbeiten mit den folgenden Sprachen und Umgebungen:
- SQL
- MS Azure SQL Server
- SPARQL
- MS Azure Cosmos DB und MongoDB (NoSQL)
- Visual Basic
- MS Excel
- MS Access
- Python (Pandas, NumPy, Matplotlib, Seaborn, Scikit Learn)
- Anaconda (Prompt, Jupyter Lab, Spyder, PyCharm, Visual Studio)
- Google Colab
- QT Designer
Methodik
Der CAS zeichnet sich durch methodische Vielfalt aus. Neben Lehrgesprächen, Referaten, (Gruppen-)Übungen, Fallstudien oder Arbeit an Fallbeispielen aus der Praxis wird grosser Wert auf den Erfahrungsaustausch zwischen den Teilnehmenden gelegt.
Unterricht
Die Vorlesungen finden jeweils am Freitag und Samstag statt. Änderungen sind möglich.
Beratung und Kontakt
-
Studienleitung:
Maria Pelli
Tel. +41 58 934 45 58
weiterbildung.iwi@zhaw.ch -
Program Manager:
Sandra Burdet
Tel. +41 58 934 45 58
weiterbildung.iwi@zhaw.ch -
Administration Customer Service Weiterbildung:
Tanja Steinmann
Tel. +41 58 934 79 07
tanja.steinmann@zhaw.ch
Veranstalter
Anmeldung
Zulassung
Der Zertifikatslehrgang richtet sich an Absolventinnen und Absolventen von Hochschulen (FH/Universität) mit mind. 3 Jahren Berufserfahrung sowie an Berufsleute ohne Hochschulabschluss mit mind. 5 Jahren Berufserfahrung und entsprechenden Weiterbildungsausweisen (höhere Fachschule oder höhere Fachprüfung mit eidg. Fachausweis/Diplom).
Englischkenntnisse werden vorausgesetzt, weil im Studiengang mit englischer Literatur gearbeitet wird.
Über die definitive Zulassung entscheidet die Studienleitung.
Anmeldeinformationen
Anmeldungen werden in der Reihenfolge des Eingangs berücksichtigt.
Startdaten und Anmeldung
Start | Anmeldeschluss | Anmeldelink |
---|---|---|
26.02.2021 | 26.01.2021 | Anmeldung |