Post Mortem

François Paupier

In Post Mortem, engineers reflect on real-life incidents of IT systems they experienced. In each episode, we zoom on a specific event, ranging from a system outage, a cyber-attack, or a machine learning algorithm going wild with production data. We try to understand what happened and how the people behind those systems solved the situation. Along the way, you'll get hands-on advice shared by experienced practitioners that you can implement within your team to limit the risk of such incidents. read less
TechnologyTechnology

Episodes

#24 The New Face of Conflict: AI in Warfare with COL ANTAL
Feb 4 2024
#24 The New Face of Conflict: AI in Warfare with COL ANTAL
In this episode of the Post Mortem podcast, we dive deep into the impact of artificial intelligence in modern warfare with retired Colonel John Antal. With over 30 years of experience in the US Army and a prolific career as an author and software industry expert, COL Antal shares his insights into the future of warfare.   We explore the concept of decision dominance in the digital age, discussing the nuances of data & AI applications in military strategy, from 'man in the loop' to 'man out of the loop' systems. COL Antal breaks down the complexities of AI, explaining the progression from Artificial Narrow Intelligence (ANI) to the potential of Artificial General Intelligence (AGI) and the concept of Artificial Super Intelligence (ASI).   The conversation shifts to the practical implications of AI in military operations, highlighting the evolution from traditional kill chains to AI-enabled kill webs. We also touch on the lessons learned from recent wars, the Russian/Ukraine war, Nagorno-Karabakh conflict, Israel/Hamas war, and the importance of continuous adaptation in the face of rapidly advancing technologies.   This episode is a must-listen for anyone interested in the intersection of technology and military strategy.   Bibliography Below are some of the resources used to prepare for this episode and mentioned in it : - Lessons of the Second Nagorno-Karabakh War, US Army Fires Conference, accessed January 2023, at https://www.youtube.com/watch?v=eLq4WJMl7Zc - John Antal presentation at the Manoeuvre Warfighter Conference (MWFC), accessed September 14, 2022, at https://youtu.be/EOrc4x-DlmI - Testimony of Christian Brose. To the House Armed Services Committee. Subcommittee on Cyber, Information Technologies, and Innovation. The Future of War: Is the Pentagon Prepared to Deter and Defeat America’s Adversaries. Feb. 2023. https://armedservices.house.gov/sites/republicans.armedservices.house.gov/files/Brose Written Testimony.pdf - ANTAL, J. (2023). Artificial Intelligence and the Accelerating Tempo of War. Retrieved Jan 7 2024, from https://www.schumer.senate.gov/imo/media/doc/John%20Antal%20-%20Statement.pdf US Senate AI Symposium. - Next War: Reimagining How We Fight, 2023, John F Antal, https://www.amazon.com/Next-War-Reimagining-How-Fight/dp/1636243355 - Aerorozvidka NGO, Unmanned aerial vehicles, situational awareness, cybersecurity https://aerorozvidka.ngo/ - Nagorno-Karabakh conflict, https://en.wikipedia.org/w/index.php?title=Nagorno-Karabakh_conflict&oldid=1198631897 (last visited Jan. 28, 2024). - ‘The Gospel’: how Israel uses AI to select bombing targets in Gaza, The Guardian, Dec 1 2023, Retrieved Feb 2 2024, https://www.theguardian.com/world/2023/dec/01/the-gospel-how-israel-uses-ai-to-select-bombing-targets - Joint All-Domain Command and Control (JADC2), United States DoD, https://media.defense.gov/2022/Mar/17/2002958406/-1/-1/1/SUMMARY-OF-THE-JOINT-ALL-DOMAIN-COMMAND-AND-CONTROL-STRATEGY.PDF - Haut-Karabagh : dix enseignements d'un conflit qui nous concerne, Rapport d'information n° 754 (2020-2021), déposé le 7 juillet 2021, https://www.senat.fr/rap/r20-754/r20-754_mono.html#toc167 - Compte rendu Commission de la défense nationale et des forces armées, Audition, à huis clos, de M. le général d’armée Thierry Burkhard, chef d’état-major de l’armée de Terre sur l’actualisation de la LPM 2019-2025, page 14,  https://www.assemblee-nationale.fr/dyn/15/comptes-rendus/cion_def/l15cion_def2021068_compte-rendu.pdf
#21 L'investigation d'incidents cyber avec Thomas et François de Defants
Aug 17 2022
#21 L'investigation d'incidents cyber avec Thomas et François de Defants
La cybersécurité est un domaine ingrat. Le défenseur doit s’assurer que l’ensemble de son système est sécurisé, là où l’attaquant a besoin d’une unique faille pour atteindre son objectif.  La gestion d’incident cyber implique de collecter et d’analyser minutieusement les journaux des différentes applications et serveurs, comment faire pour s’assurer de ne passer à côté d’aucune info clé ?       Dans l’épisode #21 du podcast Post Mortem, je reçois François Khourbiga et Thomas Raffineau Maréchal, les deux co-fondateurs de Defants – une solution d’investigation d’incidents de cybersécurité.     On revient sur ce qui les a poussés à entreprendre dans le domaine du cyber, leur vision de la gestion d’incidents cyber et la façon dont une startup peut pénétrer un domaine où les process sont bien ancrés et comment un nouvel outil et méthode peuvent trouver leurs places.       Bibliographie     Defenders think in lists. Attackers think in graphs. As long as this is true, attackers win. 26 avril 2015, John Lambert, Distinguished Engineer, Microsoft Threat Intelligence. Billet de blog cité en ouverture de l'épisode.  Mandiant, leader de la threat intelligence. Les différents rapports de l’ANSSI, excellente ressources, notamment : Rapport d’activité 2020, 2021, rapport Crise d’origine cyber, les clés d’une gestion opérationnelle et stratégique  Une ressource pas cité explicitement dans l'épisode mais intéressant de connaître son existence : le MITRE - recense les modes opératoires de plusieurs organisations cyber. Utiles pour identifier un attaquant en fonction des traces qu'il a pu laisser sur le SI et déterminer un scénario d'attaque https://attack.mitre.org/resources/getting-started/">https://attack.mitre.org/resources/getting-started/  EDR - Endpoint Detection and Response - en sécurité informatique, désigne une catégorie d’outils et de solutions qui mettent l’accent sur la détection d’activités suspectes directement sur les hôtes du système d'information, source wikipedia">wikipedia
#19 Le DevSecOps à l'US Air Force
Jun 5 2022
#19 Le DevSecOps à l'US Air Force
Le Department of Defense américain, c’est plus de 2.9 millions de personnels dont plus de 320 000 personnels à l’U.S. Air Force.      Déployer et maintenir du logiciel opérationnel à cette échelle - dans un contexte de compétition international grandissante - nécessite de pouvoir ajuster rapidement ses priorités, de prototyper et déployer des solutions sous courtes échéances.      Bref, de pouvoir pousser en production en quelques heures (voir minutes) et non plus en mois, cela avec des contraintes fortes en cybersécurité.     Nicolas Chaillan fut le premier Chief Software Officer de l’U.S. Air Force.  Dans cet épisode, Nicolas Chaillan nous parle de ses 3 années à la tête de l’initiative Entreprise DevSecOps du Department of Defense américain et nous partage les leçons tirées de cet engagement.      - Après une introduction sur le DevSecOps (0’30"), Nicolas partage sa façon d’aborder une transformation DevSecOps au sein d’un large organisme gouvernemental (5’42").  - Ensuite, nous abordons la place de la formation continue et de la ressource humaine sur ces technologies en constantes évolutions (10’48") ainsi que l’impact de l’Open Source Software dans les développements gouvernementaux (15’20").  - Enfin, Nicolas évoque (20’45") comment ses expériences entrepreneuriales préalables dans la tech ont enrichi ses perspectives avant d’arriver au DoD ainsi que la valeur ajoutée qu’apporte dans le public des personnels ayant déjà travaillé sur des projets cloud, data, DevOps dans le privé.     Bibliographie   - La keynote (pdf) de Nicolas, sur l’initiative DevSecOps à l’US Air Force - alors Chief Software Officer, U.S. Air Force et Co-Lead, DoD Enterprise DevSecOps Initiative.      o Avec recommandation de contenu de self-learning en libre accès dès la slide 30.  - The Kill Chain: How Emerging Technologies Threaten America's Military Dominance, le conseil de lecture de Nicolas.  - Le site personnel de Nicolas Chaillan.     Note - Budget de la défense américaine (2020) $718.9 milliards  - Budget de la défense française (2020) €37.9 milliards
#17 Incident BGP chez Facebook & OVH
Apr 28 2022
#17 Incident BGP chez Facebook & OVH
En octobre dernier, Facebook était indisponible plusieurs heures durant. Le même mois, l’hébergeur français OVH a également subit un incident.  Leur point commun ? BGP. Le Border Gateway Protocol.   Dans cet épisode #17 de Post Mortem, Stéphane Bortzmeyer nous fait découvrir les coulisses d’internet. Là où le « cloud », le « serverless » se fracasse à la réalité de l’internet : des machines bien physique qui essaient de communiquer entre elles.  Mais ces machines sont distribuées à la surface du globe et gérées par des acteurs différents... Sans leadership unique de l’internet, comment se mettre d’accord pour que ces serveurs puissent se parler et se comprendre ?   Après avoir dressé le tableau des concepts clés de réseaux qui nous aiderons à suivre cette aventure internet (DNS, BGP) [1’ 50’’], Stéphane nous fait revivre les incidents Facebook [14’] et OVH [42’10’’] d’octobre 2021 en prenant soin de décortiquer chaque concept pour en tirer des enseignements généralisables [44’].  Stéphane Bortzmeyer est un ingénieur réseau (membre IETF, à l’origine de plusieurs RFC – les standards d’internet) et travaille aujourd’hui à l’AFNIC, le registre des noms de domaine en .fr. Il est également auteur, tiens un blog et vous pourrez le trouver sur twitter sous handle @bortzmeyer  Bibliographie  Sujets évoqués lors de l'épisode   Évènement de Carrington – La tempête solaire de 1859     https://fr.wikipedia.org/wiki/Tempête_solaire_de_1859 Les rayonnements cosmiques et leurs effets sur les composants électroniques https://fr.wikipedia.org/wiki/Rayonnement_cosmique#Effet_sur_l’électronique">https://fr.wikipedia.org/wiki/Rayonnement_cosmique#Effet_sur_l’électronique Panne des numéros d’urgence : Quelle responsabilité de l'opérateur Orange ? https://www.vie-publique.fr/en-bref/280875-panne-des-numeros-durgence-quelle-responsabilite-dorange Les articles de RIPE Labs https://labs.ripe.net/">https://labs.ripe.net/ L'accès aux informations du RIS (Routing Information Service) https://stat.ripe.net/ui2013/ (attention, il faut une machine costaud, c'est plein de Javascript)Une liste de "looking glasses" http://traceroute.org/#Looking%20GlassDont l’article sur le NTP (Network Time Protocol) https://labs.ripe.net/author/christer-weinigel/implementing-network-time-security-at-the-hardware-level/ La liste de distribution FRnog https://www.frnog.org/?page=mailing&lang=en">https://www.frnog.org/?page=mailing&lang=en Fantasia - L'apprenti sorcier, la scéne du balais,
#14 Scaler sa réponse à incidents - Le cas Algolia
Aug 31 2021
#14 Scaler sa réponse à incidents - Le cas Algolia
Cette semaine-là, Xavier reçoit plus de 80 alertes la nuit. Impossible de dormir correctement. Il y a forcément quelque chose à faire pour sortir les ingénieurs on-call de cette spirale et éviter une alert fatigue">alert fatigue. Mais par où commencer ?  Dans cet épisode,  on retrace la façon dont Algolia a réorganisé ses efforts de maintenance opérationnelle à mesure que son moteur de recherche gagne en popularité. Aujourd'hui je reçois Xavier Grand, Software Engineer au sein de l'équipe d'Algolia  depuis son incubation à YCombinator en 2014, Xavier est aujourd'hui Manager Search à Algolia.  Nous revenons sur la façon dont Algolia a fait évoluer ses équipes et sa stratégie pour répondre à des outages à mesure que le produit, l'équipe et la codebase prenaient du volume, en particulier : Les 3 étapes clés du chemin parcouru par les équipes tech d'Algolia pour gagner en maturité sur la réponse à incidents 🗝L'importance d'organiser le transfert de connaissances des experts de la codebase vers les nouveaux collaborateurs et comment accompagner les nouveaux venus pour leur premier cycle on-call 🚨📊👩‍💻De l'importance de monitorer les causes et non les symptômes 🤒 Ressources  La recommandation de Xavier; Le Google SRE Workbook, excellente ressource (et gratuite) pour animer un club de lecture avec votre équipe et réfléchir ensemble sur  des bonnes pratiques transposables dans votre organisation.Pour un exemple de blog post mortem  d'Algolia, je recommande cet excellent article de blog sur leur gestion de l'attaque Salt en mai 2020.
#13 An experiment gone wrong
Jun 1 2021
#13 An experiment gone wrong
Quelle interface choisir pour les utilisateurs de mon site ? Le nouveau système de recommandation de mon application a-t-il un impact ? Pour qui ?  Un test AB permet de comparer deux variantes afin d’identifier la plus efficace pour l’objectif recherché. Aujourd’hui, je reçois Cyril De Catheu, Data Engineer @ AB Tasty pour discuter des dessous d’une plateforme d'expérimentations 🧑‍🔬 Pour collecter les événements des sites clients (e.g., clic sur tel bouton, de telle couleur, etc.) et les faire parvenir à la plateforme d’AB Tasty, c’est tout un système de message queuing qui est nécessaire.  Dans cette chaîne de traitement, Cyril identifie une optimisation qui permettrait de simplifier l’architecture et d’économiser quelques centaines de dollars.  Quelques jours plus tard, la CyberWeek. Alors que certains sites clients d’AB Tasty voient leur activité multipliée par deux, les coûts liés au service pub/sub explosent 📈 💸 Cyril garde la tête froide et mène l’enquête. Il dispose d'un outil de choix pour élucider ce mystère, la wayback machine. Let's get back in time ⏱ 👩‍🚀 Resources A/B Testing, WikipediaWayback machine, la "Machine à remonter le temps" de l'Internet. https://web.archive.org/La recommendation de Cyril: The Data Engineering Podcast, pour des éclairages sur la mise en production de chaînes de traitements de données https://www.dataengineeringpodcast.com/about/ Glossaire ack: du verbe anglais “to acknowledge” - littéralement “accuser réception de”. Utilisé en event processing pour qualifier le fait qu’un process accuse réception d’un message. Pratique dans une architecture distribuée où la perte de messages via le réseau est possible et l’on veut s’assurer une certaine sémantique sur le traitement d’un message (le message a été traité au moins une fois, ou exactement une fois).

 Pour une introduction plus poussée sur sur le stream processing et ses challenges, je recommande le Chapter 11: Stream Processing de l’ouvrage de référence: 
Kleppmann, M. (2017). Designing Data-Intensive Applications. O’Reilly Media. Credits L'extrait audio à 21'40" est issu du film Kung Fury, https://youtu.be/bS5P_LAqiVg?t=599
#12 Comment Google anonymise vos données personnelles avec la Differential Privacy
May 4 2021
#12 Comment Google anonymise vos données personnelles avec la Differential Privacy
Des emojis les plus populaires sur iOS à l'affluence dans votre boutique préférée sur Google Maps; comment ces informations sont obtenues? Et quelles garanties peut-on avoir quant à la préservation de l'anonymat des utilisateurs? Dans ce Post Mortem thématique, le Docteur Damien Desfontaines - Senior Software Engineer, Privacy pour Google nous parle de Differential Privacy (confidentialité différentielle). Avec des centaines de millions d'utilisateurs actifs chaque jour, les géants du numérique bénéficient de données précises d'utilisation. Au-delà de l'amélioration de l'expérience utilisateur, ces données, une fois agrégées, peuvent contribuer à adresser des problèmes de santé publique. Après un bref historique des techniques d'anonymisations (02'00"), on définit la confidentialité différentielle et ses propriétés (06'50") avant de revenir sur un cas d'usage au sein de Google (20'18") pour enfin discuter des implémentations existantes (27'58") et des challenges à l'adoption de cette technique (34'13"). Sur Apple Podcast, vous devriez avoir accès aux chapitres avec les liens et illustrations. L'illustration de la Randomized Response devrait être utile! Toutes les illustrations sont disponibles sur le blog post qui accompagne l'épisode sur le Medium du Post Mortem Podcast https://medium.com/the-post-mortem-podcast Ressources Latanya Sweeney et la ré-identification des données médicales du gouverneur du Massachusetts, William Weld en 1997.  Wikipedia Le blog de Damien sur la Differential Privacy, c'est très visuel et de nombreux articles sont accessibles au grand public https://desfontain.es/privacy/differential-privacy-awesomeness.html (~10mins de lecture). Une version html de sa thèse Lowering the cost of anonymisation est également disponible sur son site. Les chapitres légers en maths sont indiqués par une fleur ✿. Pour le cas d'usage de la Differential Privacy chez Apple cité en introduction, voir le papier de la Differential Privacy Team d'Apple : "Learning with Privacy at Scale", disponible ici https://docs-assets.developer.apple.com/ml-research/papers/learning-with-privacy-at-scale.pdf Un exemple d'usage de la Differential Privacy chez Google; Les Community Mobility Reports, pour une vision de l'impact du covid sur la mobilité des personnes https://www.google.com/covid19/mobility/ Description du processus d'anonymisation pour les Google Community Reports "Google COVID-19 Community Mobility Reports: Anonymization Process Description", https://arxiv.org/abs/2004.04145 Le papier "Differentially Private SQL with Bounded User Contribution", https://arxiv.org/abs/1909.01917 publié par Damien et son équipe pour faciliter l'utilisation de la Differential Privacy par les analystes en étendant les capacités de SQL La librairie open source de Google sur la confidentialité différentielle est disponible sur GitHub: https://github.com/google/differential-privacy Fun Facts The Fundamental Law of Information Recovery, Cynthia DWork: "“Overly accurate” estimates of “too many” statistics is blatantly non-private" extrait du livre “The Algorithmic Foundations of Differential Privac