Pablo Samuel Castro (@pcastr en Twitter) es Staff Research Software Developer en Google donde ha trabajado durante más de 11 años. Su enfoque se centra en Reinforcement Learning. Tiene un doctorado en Computer Science en la McGill University.
En este episodio, Pablo nos cuenta cómo funciona el Reinforcement Learning (RL) y el RL from Human Feedback (RLHF), clave para el desarrollo de modelos de lenguaje como el ChatGPT. Pablo también aplica el RL a actividades creativas como la música y nos platica sobre ello.