Data Science Deep Dive

INWT Statistics GmbH

Wir machen Data Science. Und in unserem Podcast Data Science Deep Dive reden wir darüber. Du bist ebenfalls Data Scientist oder interessierst dich für Daten, ML und AI? Dann ist dieser Podcast für dich. Wir teilen unsere Learnings aus über 180 Projekten, du bekommst Infos und Anregungen zu spannenden Themen rund um Daten. Wir klären auf, geben Hinweise und teilen unsere Erfahrungen, die wir in über 10 Jahren als Data Scientists im B2B Bereich gesammelt haben. Wir decken auf, was wirklich hinter den Hypes und Trends der Data Science Branche steckt. Wir hinterfragen, was ein Data Science Projekt erfolgreich macht und welche Faktoren es zum Scheitern verurteilen. read less

TechnologyTechnology

Start Here

#62: Kafka und Datenströme erklärt – und wie das jetzt auch in R läuft

#62: Kafka und Datenströme erklärt – und wie das jetzt auch in R läuft

Kafka, aber in R? Das geht jetzt! In dieser Folge klären wir, warum Kafka für schnelle Datenströme unverzichtbar ist und warum unser neuer R-Kafka-Client ein Gamechanger ist. Was ist Kafka, wofür braucht man es (oder auch nicht), und wie funktioniert unser Paket? Hört rein und probiert es aus! Zusammenfassung Apache Kafka als schnelles, ausfallsicheres System für Event-Streaming und DatenströmeEinsatzbereiche: Überall wo Daten fortlaufend und in Echtzeit verarbeitet werdenUnser R Kafka Client ermöglicht nun die direkte Nutzung von Kafka in R, ohne Umweg über PythonFeatures: Consumer/Producer-Modelle, asynchrone Datenverarbeitung, hohe Performance und AusfallsicherheitAusblick: Veröffentlichung auf CRAN, Admin-Client für Cluster-Management, Blogartikel mit Beispiel (siehe unten in den Links) Links Apache Kafka https://kafka.apache.org/Confluent https://www.confluent.io/Rcpp (CRAN) https://cran.r-project.org/web/packages/Rcpp/index.htmlreticulate (CRAN) https://cran.r-project.org/web/packages/reticulate/index.htmlR Paket kafka auf GitHub https://github.com/INWTlab/r-kafka Blogartikel zum R Paket kafka https://www.inwt-statistics.de/blog/r-paket-kafkanats https://nats.io/Azure EventHub https://azure.microsoft.com/de-de/products/event-hubsRedpanda https://www.redpanda.com/Fragen, Feedback und Themenwünsche gern an podcast@inwt-statistics.de

Episodes

#62: Kafka und Datenströme erklärt – und wie das jetzt auch in R läuft

#62: Kafka und Datenströme erklärt – und wie das jetzt auch in R läuft

Kafka, aber in R? Das geht jetzt! In dieser Folge klären wir, warum Kafka für schnelle Datenströme unverzichtbar ist und warum unser neuer R-Kafka-Client ein Gamechanger ist. Was ist Kafka, wofür braucht man es (oder auch nicht), und wie funktioniert unser Paket? Hört rein und probiert es aus! Zusammenfassung Apache Kafka als schnelles, ausfallsicheres System für Event-Streaming und DatenströmeEinsatzbereiche: Überall wo Daten fortlaufend und in Echtzeit verarbeitet werdenUnser R Kafka Client ermöglicht nun die direkte Nutzung von Kafka in R, ohne Umweg über PythonFeatures: Consumer/Producer-Modelle, asynchrone Datenverarbeitung, hohe Performance und AusfallsicherheitAusblick: Veröffentlichung auf CRAN, Admin-Client für Cluster-Management, Blogartikel mit Beispiel (siehe unten in den Links) Links Apache Kafka https://kafka.apache.org/Confluent https://www.confluent.io/Rcpp (CRAN) https://cran.r-project.org/web/packages/Rcpp/index.htmlreticulate (CRAN) https://cran.r-project.org/web/packages/reticulate/index.htmlR Paket kafka auf GitHub https://github.com/INWTlab/r-kafka Blogartikel zum R Paket kafka https://www.inwt-statistics.de/blog/r-paket-kafkanats https://nats.io/Azure EventHub https://azure.microsoft.com/de-de/products/event-hubsRedpanda https://www.redpanda.com/Fragen, Feedback und Themenwünsche gern an podcast@inwt-statistics.de

#61: Technologische Must-Haves: Unser Survival-Guide für Data-Science-Projekte

#61: Technologische Must-Haves: Unser Survival-Guide für Data-Science-Projekte

Zusammenfassend unsere Must-Haves: Datenbank / DWH Lösung zur DatenvisualisierungMöglichkeit, unkompliziert zu entwickeln (lokal oder im Web)Versionskontrolle / CI/CDDeployment-LösungTrennung von Entwicklungs- und ProduktivumgebungMonitoring für Modell & Ressourcen Verwandte Podcast-Episoden Folge #2: Erfolgsfaktoren für Predictive Analytics Projekte Folge #5: Data Warehouse vs. Data Lake vs. Data Mesh Folge #20: Ist Continuous Integration (CI) ein Muss für Data Scientists? Folge #21: Machine Learning Operations (MLOps) Folge #29: Die Qual der Wahl: Data Science Plattform vs. Customized Stack Folge #35: Erfolgsfaktoren für Machine Learning Projekte mit Philipp Jackmuth von dida Folge #43: Damit es im Live-Betrieb nicht kracht: Vermeidung von Overfitting & Data Leakage Folge #54: Modell-Deployment: Wie bringe ich mein Modell in die Produktion? Technologien & Tools Datenvisualisierung: Azure Databricks, AWS Quicksight, Redash Entwicklungsumgebung: VSCode, INWT Python IDE V2, Remote Explorer, Pycharm Versionskontrolle: GitHub, GitLab, Azure DevOps CI/CD: GitHub Actions, GitLab CI, Jenkins Deployment: Kubernetes, Docker, Helm, ArgoCD Experiment-Tracking: MLFlow, DVC, Tensorboard Monitoring: Prometheus, Grafana, AWS Cloudwatch

#60: Job-Sicherheit als Data Scientist: Personalentwicklung in Zeiten von AI

#60: Job-Sicherheit als Data Scientist: Personalentwicklung in Zeiten von AI

Die glorreichen Zeiten des Data Scientist scheinen vorbei zu sein – oder doch nicht? Warum stagnieren die Jobangebote? Und wie passt GenAI ins Bild? Wir sprechen über die neuen Herausforderungen am Arbeitsmarkt, was Unternehmen und Jobsuchende jetzt tun sollten, und warum Data Engineers irgendwie sexy, aber nie so richtig hot waren. Spoiler: Flexibilität und Generalismus sehen wir als wichtige Eigenschaften für die Zukunft! ***Links*** #4: Job-Profile & Arbeitsmarkt https://www.podbean.com/ew/pb-aurkr-126887d https://de.wikipedia.org/wiki/Hype-ZyklusFragen, Feedback und Themenwünsche gern an podcast@inwt-statistics.de

#59: Besser mit Helm: komplexe Deployments einfach(er) umsetzen

#59: Besser mit Helm: komplexe Deployments einfach(er) umsetzen

Helm auf und los geht’s! In dieser Episode zeigen wir euch wie wir ein Fraud-Detection-Projekt mit komplexen Deployments mithilfe von Kubernetes und Helm in den Griff bekommen haben – Spoiler: Copy-Paste hatte hier keine Chance! ;) Warum Helm ein Gamechanger für eure Kubernetes-Configs sein kann und was es mit diesen ominösen Charts auf sich hat, erfahrt ihr hier. Für alle, die mehr Ordnung im Deployment-Chaos suchen, ist das die perfekte Folge. ***Links*** #14: Kubernetes https://www.podbean.com/ew/pb-m5ggz-13454c7#28: Unsere Erkenntnisse aus einem Fraud-Detection-Projekt mit Echtzeitdaten https://www.podbean.com/ew/pb-we2f3-145e5fe#38: Im Rennen gegen die Zeit: Echtzeitprognosen mit komplexen statistischen Modellen https://www.podbean.com/ew/pb-u5qsn-1548784https://helm.sh/https://kubernetes.io/https://argo-cd.readthedocs.io/en/stable/Fragen, Feedback und Themenwünsche gern an podcast@inwt-statistics.de

#58: Arm, aber sexy: Data Warehousing at Scale ohne Budget

#58: Arm, aber sexy: Data Warehousing at Scale ohne Budget

Dies ist ein Gedankenexperiment, das euch zeigt, wie man mit wenig Budget und minimaler Hardware eine clevere self-service Umgebung bastelt, die auf dem Laptop oder einer günstigen Cloud-Instanz läuft. Wir sprechen darüber wie so ein Stack aussehen kann (Storage Layer, Data Layer, Compute Layer) und welche Anwendungsszenarien es gibt, aber auch wo die Grenzen bei einem solchen Szenario liegen. ***Links*** #52: In-process Datenbanken und das Ende von Big Data https://www.podbean.com/ew/pb-tekgi-16896e4Engineering Kiosk - #129 Simplify Your Stack: Files statt Datenbanken! https://engineeringkiosk.dev/podcast/episode/129-simplify-your-stack-files-statt-datenbanken/https://delta.io/https://ibis-project.org/https://duckdb.org/

#57: Mehr als heiße Luft: unsere Berliner Luftschadstoffprognose mit Dr. Andreas Kerschbaumer

#57: Mehr als heiße Luft: unsere Berliner Luftschadstoffprognose mit Dr. Andreas Kerschbaumer

In dieser Episode sprechen wir mit Dr. Andreas Kerschbaumer, Umweltexperte beim Berliner Senat, über unsere Luftschadstoffprognose und warum Berlin immer noch dringend sauberere Luft braucht. Andreas erklärt, wie Machine Learning hilft, die Luftverschmutzung vorherzusagen und welche Rolle klassische Methoden (CTMs) dabei spielen. Wir vergleichen den neuen Machine-Learning-Ansatz mit dem traditionellen und diskutieren, welche Vor- und Nachteile sie mit sich bringen. Außerdem verraten Mira und Andreas, was sie in diesem spannenden Projekt gelernt haben. ***Links*** Digitale Plattform Stadtverkehr Berlin: https://viz.berlin.de/site/_masterportal/berlin/index.html (für die Prognosen kann oben links Themen > Fachdaten > Umwelt ausgewählt werden)Episode #12: Use Case - Luftschadstoffprognose für Berlin https://www.podbean.com/ew/pb-j24xm-1321244Business Case: Customized Stack zur automatisierten Luftschadstoffprognose in Berlin https://www.inwt-statistics.de/blog/business_case_luftschadstoffprognose

#56: Unsere Bundestagswahl-Prognose: Wer gewinnt die Wahl 2025?

#56: Unsere Bundestagswahl-Prognose: Wer gewinnt die Wahl 2025?

Vor der Bundestagswahl 2017 haben wir begonnen, ein Prognosemodell für den Wahlausgang zu entwickeln – und seitdem ständig verbessert. Heute präsentieren wir täglich aktualisierte Prognosen, die Verzerrungen einzelner Wahlumfragen korrigieren und das Wahlverhalten am Wahltag vorhersagen. Mit bayesianischen Modellen liefern wir Wahrscheinlichkeiten zur Regierungsbeteiligung und anderer Ereignisse und stellen sie auf wer-gewinnt-die-wahl.de bereit. ***Links*** Website: Wer gewinnt die Wahl 2025? https://wer-gewinnt-die-wahl.de/deBusiness Case: Bayes'sches Prognosemodell für die Bundestagswahl https://inwt-statistics.de/blog/business_case_wahlprognoseBundestagswahl 2021: Wie gut waren unsere Wahlprognosen? https://inwt-statistics.de/blog/bundestagswahl-2021-wie-gut-waren-unsere-wahlprognosenPodcast Learning Bayesian Statistics von Alexandre Andorra: #52 Election forecasting models in Germany, with Marcus Groß (09.12.2021) https://learnbayesstats.com/episode/52-election-forecasting-models-germany-marcus-gross/Blog: Das Schlechteste an Wahlprognosen: Wie wir mit ihnen umgehen (Stefan Niggemeier, 13.11.2016) https://uebermedien.de/9664/das-schlechteste-an-wahlprognosen-wie-wir-mit-ihnen-umgehen/fivethirtyeight: https://projects.fivethirtyeight.com/Wahlrecht.de: https://www.wahlrecht.de/

#55: Alle machen XGBoost, aber was macht eigentlich XGBoost? Mit Matthäus Deutsch

#55: Alle machen XGBoost, aber was macht eigentlich XGBoost? Mit Matthäus Deutsch

Warum ist XGBoost seit Jahren das Tool der Wahl, wenn es um tabulare Daten geht? Mira spricht zusammen mit Matthäus Deutsch darüber, warum XGBoost State of the Art ist und was es so erfolgreich macht. Außerdem: Wie schlägt sich XGBoost im Vergleich zu Deep Learning? Und gibt es überhaupt bessere Alternativen? **Links** Kaggle AI Report 2023: https://storage.googleapis.com/kaggle-media/reports/2023_Kaggle_AI_Report.pdf?trk=public_post_comment-textXGBoost Documentation: https://xgboost.readthedocs.io/en/stable/Hastie, T.; Tibshirani, R. & Friedman, J. (2009), The elements of statistical learning: data mining, inference and prediction , Springer (ISBN: 0387848576)

#54: Modell-Deployment: Wie bringe ich mein Modell in die Produktion?

#54: Modell-Deployment: Wie bringe ich mein Modell in die Produktion?

Online vs. Offline Serving – welcher Ansatz ist besser? Wir besprechen, wie du dein Modell erfolgreich in die Produktion bringst und eine passende Datenschnittstelle deployst. Dazu gibt’s Tipps zu den Tools, die uns dabei helfen, wie FastAPI, Docker und Kubernetes. Außerdem erfährst du, worauf du bei der Automatisierung und beim Handling vieler Modelle achten solltest. **Links** Buch: Designing Machine Learning Systems by Chip Huyen https://www.oreilly.com/library/view/designing-machine-learning/9781098107956/Fragen, Feedback und Themenwünsche gern an podcast@inwt-statistics.de

#53: Agilität à la carte: Das Agile Fluency Model mit Dr. Wolf-Gideon Bleek

#53: Agilität à la carte: Das Agile Fluency Model mit Dr. Wolf-Gideon Bleek

In dieser Episode von Data Science Deep Dive sprechen Mira und Wolf-Gideon über das Agile Fluency Model und dessen Bedeutung im Data-Science-Kontext. Im Fokus stehen die verschiedenen Stufen der Agilität sowie die damit verbundenen Vorteile und notwendigen Investitionen. Wolf-Gideon erklärt, wie man den optimalen Agilitätsgrad für ein Team ermittelt und welche Praktiken dabei relevant sind. ***Links*** Buch von Henning Wolf und Wolf-Gideon Bleek (2010): Agile Softwareentwicklung: Werte, Konzepte und Methoden (ISBN: 978-3-89864-701-4)it-agile Webseite https://www.it-agile.de/Mehr Infos zu Wolf-Gideon Bleek auf der Seite von it-agile: https://www.it-agile.de/ueber-it-agile/das-team/dr-wolf-gideon-bleek/Manifest für Agile Softwareentwicklung https://agilemanifesto.org/iso/de/manifesto.htmlAgile Fluency Project (EN) https://www.agilefluency.org/Artikel: The Agile Fluency Model - A Brief Guide to Success with Agile von James Shore & Diana Larsen (EN) https://martinfowler.com/articles/agileFluency.htmlBuch: Company-wide Agility with Beyond Budgeting, Open Space & Sociocracy von Jutta Eckstein & John Buck https://www.agilebossanova.com/Feedback, Fragen oder Themenwünsche? Schreib uns gern an podcast@inwt-statistics.de

#52: In-process Datenbanken und das Ende von Big Data

#52: In-process Datenbanken und das Ende von Big Data

In dieser Episode sprechen wir über die in-process Datenbank DuckDB, die im Juni Version 1.0.0 erreicht hat und einen innovativen Ansatz verfolgt. DuckDB wird direkt aus dem Code heraus gestartet und benötigt keine Berechtigungen oder User-Management, was an SQlite erinnert. Außerdem beleuchten wir die These, dass die "Big Data" Ära vorbei ist, warum das so ist und was das eigentlich mit DuckDB zu tun hat. ***Links*** DuckDB: https://duckdb.org/MotherDB: https://motherduck.com/Blog: Big Data is Dead by Jordan Tigani https://motherduck.com/blog/big-data-is-dead/Fragen, Feedback und Themenwünsche gern an podcast@inwt-statistics.de

#51: Wer rastet, rostet: Die Rolle von Weiterbildung in Data Science

#51: Wer rastet, rostet: Die Rolle von Weiterbildung in Data Science

Data Science entwickelt sich ständig und schnell weiter, was kontinuierliche Weiterbildung unerlässlich macht. In dieser Episode diskutieren wir, wie Arbeitgeber*innen ihre Mitarbeitenden unterstützen können und welche organisatorischen und projektbezogenen Formate sich für uns als effektiv erwiesen haben. Zudem sprechen wir über private Fortbildungsmaßnahmen und geben Tipps zur Auswahl geeigneter Kurse und Konferenzen. ***Links*** Data Culture Podcast von BARC (deutsch): https://barc.com/de/the-data-culture-podcast/The MLOps Podcast (english): https://podcast.mlops.community/Practical AI (english): https://changelog.com/practicalaiSoftware Engineering Radio Podcast (english): https://se-radio.net/Data Engineering Podcast (english): https://www.dataengineeringpodcast.com/Fragen, Feedback und Themenwünsche gern an podcast@inwt-statistics.de

Ankündigung: Unser Podcast bekommt einen neuen Namen!

Ankündigung: Unser Podcast bekommt einen neuen Namen!

Ab der nächsten Episode ist "In Numbers We Trust - Der Data Science Podcast" Geschichte. Wir benennen unseren Podcast um in "Data Science Deep Dive". Aber keine Sorge, ansonsten wird sich nichts ändern. Auf die nächsten 50 Episoden! Vielen Dank an alle treuen Hörer*innen und herzlich willkommen an alle, die neu dabei sind. Wir sind INWT und wir machen Data Science, von der ersten Idee bis zum fertigen Produkt, und in diesem Podcast sprechen wir darüber. Es ist unser Anspruch, Data Science-Themen tiefgehend zu besprechen und praxisorientiert zu vermitteln. Wir sprechen über alles, was wir spannend finden, mit Leuten, die wir kennen und mögen. Wir freuen uns, wenn ihr auch beim Data Science Deep Dive mit dabei seid! Und wie immer könnt ihr eure Fragen, Anmerkungen und Themenwünsche gern an podcast@inwt-statistics.de schreiben.

#50: Predictive Analytics mit LLMs: ist GPT3.5 besser als XGBoost?

#50: Predictive Analytics mit LLMs: ist GPT3.5 besser als XGBoost?

Wir lassen GPT3.5 Turbo und XGBoost bei der Prognose einer metrischen Zielvariablen gegeneinander antreten. Dafür haben wir von LOT Internet Fahrzeugdaten aus dem Portal mobile.de bereitgestellt bekommen, um zu sehen, wer bei der Prognose des Fahrzeugpreises die Nase vorn hat. Zudem besprechen wir das Finetuning und gehen auch darauf ein, wie LLMs und XGBoost kombiniert werden können. ***Links*** Blogartikel: Predictive LLMs: Kann GPT-3.5 die Prognosen von XGBoost verbessern? https://www.inwt-statistics.de/blog/predictive-llms-kann-gpt-xgboost-prognosen-verbessern#27: Kann ein Large Language Model (LLM) bei der Klassifikation tabellarischer Daten XGBoost schlagen? https://inwt.podbean.com/e/27-kann-ein-large-language-model-llm-bei-der-klassifikation-tabellarischer-daten-xgboost-schlagen/OpenAI API: https://platform.openai.com/docs/introductionLLMs für Prognosen auf tabularen Daten zu nutzen, ist wenig erforscht. Wenn es probiert wurde, geht es meistens um Klassifikation, also keine metrische Zielvariable. Ein oft zitiertes Paper hierzu ist dieses: TabLLM: Few-shot Classification of Tabular Data with Large Language Models (Stefan Hegselmann, Alejandro Buendia, Hunter Lang, Monica Agrawal, Xiaoyi Jiang, David Sontag Proceedings of The 26th International Conference on Artificial Intelligence and Statistics, PMLR 206:5549-5581, 2023.) https://proceedings.mlr.press/v206/hegselmann23a/hegselmann23a.pdf Till mit seinem Song In My Fantasy auf YouTube: https://www.youtube.com/watch?v=MU3oyJ1WR1U

#49: Data Science Projekte richtig managen mit Prof. Dr. Marcel Hebing

#49: Data Science Projekte richtig managen mit Prof. Dr. Marcel Hebing

Wer hat Data Science Projekte besser im Griff: erfahrene Data Scientists oder fachfremde Führungskräfte? In dieser Episode gibt uns Marcel Hebing ein paar Einblicke in sein neues Buch "Data Science Management" und dessen Schwerpunkte. Wir diskutieren die optimale Verortung von Data Science Teams, die Bedeutung der Unternehmenskultur und die Herausforderungen bei der praktischen Umsetzung von Data Science Projekten. ***Links*** Marcel Hebing auf LinkedIn: https://www.linkedin.com/in/marcel-hebing/Impact Distillery: https://www.impactdistillery.com/kaleidemoskop: https://kaleidemoskop.de/DBU University of Applied Sciences: https://dbuas.de/Buch "Data Science Management" von Marcel Hebing & Martin Manhembué: https://dpunkt.de/produkt/data-science-management/Fragen, Feedback und Themenwünsche gern an: podcast@inwt-statistics.de

#48: Open Source vs. Closed Source: Entwicklungen, Trends und Herausforderungen

#48: Open Source vs. Closed Source: Entwicklungen, Trends und Herausforderungen

Warum entscheiden sich Unternehmen für Open Source oder Closed Source Software im Data Science Bereich? Wir sprechen über verschiedene Aspekte des Technologie-Stacks wie Programmiersprachen, Datenbanken und BI-Tools. Dabei gehen wir auf die historischen Präferenzen und aktuellen Trends ein, insbesondere die zunehmende Bedeutung von Open Source Lösungen. Außerdem diskutieren wir die Vor- und Nachteile beider Ansätze in Bezug auf Support, Sicherheit, Compliance und Kosten. ***Links*** - R: Regulatory Compliance and Validation Issues https://www.r-project.org/doc/R-FDA.pdf - https://streamlit.io/ - https://www.gradio.app/guides/creating-a-dashboard-from-bigquery-data - https://killedbygoogle.com/ - https://en.wikipedia.org/wiki/Revolution_Analytics - Fragen, Feedback und Themenwünsche gern an: podcast@inwt-statistics.de

#47: Von Prognosen und Prompts: Data Science trifft generative KI mit Tobias Sterbak

#47: Von Prognosen und Prompts: Data Science trifft generative KI mit Tobias Sterbak

In dieser Episode spricht Mira mit Tobias Sterbak, einem Freelance Machine Learning Engineer mit Fokus auf NLP-Anwendungen, über Data Science und generative KI. Wir vergleichen klassische Data Science-Methoden mit den neuesten KI-Ansätzen wie Large Language Models (LLMs). Ihr erfahrt, wie sich Datenbereitstellung, Validierung und Feature Engineering unterscheiden und welche Herausforderungen dabei auftreten. Außerdem gehen wir auf die Bedeutung der User Experience und die Schwierigkeiten bei der Bewertung der Modelle ein. ***Links:*** Website von inwt: https://www.inwt-statistics.deBlog von Tobias Sterbak: https://www.depends-on-the-definition.com/Website von Tobias Sterbak: https://tobiassterbak.com/Ein Feuer auf der Tiefe (engl.: A Fire Upon the Deep) von Vernor Vinge https://de.wikipedia.org/wiki/Ein_Feuer_auf_der_TiefeFragen, Feedback und Themenwünsche gern an: podcast@inwt-statistics.de

#46: Strategien zur Performance-Optimierung in R

#46: Strategien zur Performance-Optimierung in R

R ist keine Compilersprache und damit von Natur aus eher langsam. Wir sprechen darüber wie man die Performance von R Code optimieren kann und welche spezifischen Herausforderungen R dabei mit sich bringt. Wir besprechen Methoden, um Engpässe im Code effizient zu identifizieren, darunter Tools wie system.time, microbenchmark und profvis. Anschließend teilen wir Techniken für die Arbeit mit großen Datensätzen und die Parallelisierung. Wir zeigen wie durch gezielte Optimierung erhebliche Performance-Verbesserungen erzielt werden können. ***Links:*** Episode #41: Strategien zur Performance-Optimierung in Python https://www.podbean.com/ew/pb-weg8d-158cd71Blogartikelserie zu Code Performance in R: R-Code beschleunigen https://www.inwt-statistics.de/blog/code-performanz-in-r-r-code-beschleunigenWarum ist mein Code langsam? https://www.inwt-statistics.de/blog/code-performanz-in-r-warum-ist-mein-code-langsamParallelisierung https://www.inwt-statistics.de/blog/code-performanz-in-r-parallelisierungMit großen Datensätzen arbeiten https://www.inwt-statistics.de/blog/code-performanz-in-r-mit-grossen-datensaetzen-arbeiten Rccp: https://www.rcpp.org/Fragen, Feedback und Themenwünsche gern an: podcast@inwt-statistics.de

#45: Data Science bei 1&1 Versatel – Dr. Stephan Hausberg im Gespräch über den Aufbau von Data Teams

#45: Data Science bei 1&1 Versatel – Dr. Stephan Hausberg im Gespräch über den Aufbau von Data Teams

Wie baue ich ein Data Team auf? Wie kriege ich beim Hiring the richtigen Leute? Und wie fördere ich eine gute Fehlerkultur? All diesen Fragen ist Dr. Stephan Hausberg, Head of Data Science und Business Analytics bei 1&1 Versatel, in den letzten Jahren begegnet. In diesem Interview lässt er uns an seinen Learnings teilhaben. Enjoy! **Links** Buch: Story Telling with Data https://www.storytellingwithdata.com/booksStephan Hausberg auf LinkedIn: https://www.linkedin.com/in/dr-stephan-hausberg-679750118/Mira Céline Klein auf LinkedIn: https://www.linkedin.com/in/mira-celine-klein-848753264/ Feedback & Themenwünsche gern an: podcast@inwt-statistics.deWebsite inwt: https://www.inwt-statistics.de/

#44: Lineare Regression in der Praxis – Oldie oder Goldie?

#44: Lineare Regression in der Praxis – Oldie oder Goldie?

Ist die lineare Regression nicht nur längst überholtes Zeug aus der Statistik 1 Vorlesung? Trotz ihrer vermeintlichen Einfachheit ist sie ein wichtiges Werkzeug in der Data Science. Ein Werkzeug das oft unterschätzt wird. Wir diskutieren wann lineare Regression zum Einsatz kommt, ihre Grenzen, Alternativen und Beispiele aus der Praxis. **Links:** [Blog] Einfache lineare Regression: https://www.inwt-statistics.de/blog/einfache_lineare_regression[Blog] Multiple lineare Regression: https://www.inwt-statistics.de/blog/multiple_lineare_regression[Blog] Beispielregression - Zunge vs. Zahlen: https://www.inwt-statistics.de/blog/beispielregression_zunge_vs_zahlenFragen, Feedback und Themenwünsche gern an: podcast@inwt-statistics.de