№42: Рекомендаційні системи, ч.2. Будуємо моделі, зворотній зв'язок, а як схочемо, то і ChatGPT підключимо

Опівночні Балачки

Jun 6 2023 • 1 hr 22 mins

В гостях ⁠Дмитро Войтех⁠, СТО @ S-PRO

🔞 Тут будуть матюки 🔞

Робочі посилання і коментарі в каналі ⁠⁠⁠⁠⁠⁠⁠⁠⁠⁠https://t.me/midnight_chatter⁠⁠

00:00 - 00:56 – Intro
00:57 - 02:50 – з чого почати побудову recommender system; як будувати baseline моделі
02:51 - 04:10 – говоримо про бейзлайн систему рекомендації для зображень
04:11 - 7:30 – говоримо про бейзлайн систему рекомендації для текстових даних; Bag of Words; BM-25
7:31 - 11:15 – які хороші методи для отримування вектора ознак для тексту? TF-IDF
11:16 - 14:47 – проблема холодного старту (Cold Start)
14:48 - 20:10 – моделі рекомендацій на основі механізму зворотнього зв’язку; кенселінг за дієвидло; колаборативна фільтрація – @benfred/implicit, улюблена Alternating Least Squares у каглерів
20:11 - 22:06 – знову говоримо про cold start; маленький кейс megogo
22:07 - 30:25 – Word2Vec, чи то пак Entity2Vec — як оригінальний NLP алгоритм можна використовував для побудови рекомендацій
30:26 - 33:20 – векторна арифметика на елементах вашої системи — як віднімати та додавати зображення та тексти один від/до одного; фантазуємо, які пошукові системи потрібні людям; слухайте подкаст з Олесем Петрівом, де космічні кораблі подорожують просторами ембедінгів
33:21 - 36:53 – рекомендації на базі графових нейронних мереж (GNN); чому це можна розглядати як логічне продовження моделей на базі Word2Vec; кейс AliBaba;
36:54 - 39:45 – чим графові нейронні мережі схожі на конволюційні; 3b1b про конволюції
39:46 - 45:50 – як використовувати Mixture of Experts моделі в рекомендаціях; пейпер Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer; згадуємо symbolic AI та експретні системи
45:51 - 51:56 – рекомендаційні системи на основні архітектури нейронних мереж Трансформер; паралелі з Deep & Wide model; слідкуйте за https://eugeneyan.com/
51:57 - 1:01:46 – алгоритми Learning to Rank (навчання ранжуванню) — побороли recall, починаємо бороти precision; поточкові, попарні та помножинні підходи; RankNet; LambdaMart
1:01:47 - 1:06:19 – рекомендації на базі моделі CLIP - Contrastive Language–Image Pre-training; як тюнити CLIP
1:06:20 - 1:07:28 – знову фантазуємо про просунуті пошукові інтерфейси; reverse image search
1:07:29 - 1:11:40 – як використовувати LLM для рекомендацій? Забудьте про ембеддінги – несемо prompt engineering в маси!
1:11:41 - 1:17:18 – крейзі ідеї в світі LLM – ChatGPT розкаже вам, як спати та бігати, враховуючи дані з вашого Apple Watch; як LLM обробляє великі дані через маленьке контекстне вікно
1:17:19 - 1:22:13 – Підбиваємо підсумки; перераховуємо теми в галузі рекомендаційних систем, про які ми НЕ поговорили, але які варто подосліджувати. Коли повернеться подкаст?