Reinforcement Learning vs SFT - Search Videos

Lesson 04/10 – Post-Training: Supervised Fine-Tuning (SFT) & Reinforcement Learning (RL)

Lesson 04/10 – Post-Training: Supervised Fine-Tuning (SFT) & Reinforcement Learning (RL)

879 viewsApr 25, 2025

YouTubeAndrei Dumitrescu

RL vs SFT : On Policy vs Off Policy Learning

RL vs SFT : On Policy vs Off Policy Learning

238 views6 months ago

YouTubeJohn Olafenwa

Understanding Reinforcement Learning with Prime Intellect and Unsloth | Nemotron Labs

Understanding Reinforcement Learning with Prime Intellect and Unsloth | Nemotron Labs

5K views2 months ago

YouTubeNVIDIA Developer

Advanced LLM Post-Training: SFT, DPO, Reinforcement Learning w/ Maxime Labonne (Liquid AI)

Advanced LLM Post-Training: SFT, DPO, Reinforcement Learning w/ Maxime Labonne (Liquid AI)

516 views7 months ago

YouTubeYouth AI Initiative

DeepSeek R1 Explained: GRPO, Reinforcement Learning & SFT

DeepSeek R1 Explained: GRPO, Reinforcement Learning & SFT

MSNDeep Learning with Yacine

CPU LLM #0: The Complete Guide to Training Transformer Models (SFT, RL, PEFT, LLMs)

CPU LLM #0: The Complete Guide to Training Transformer Models (SFT, RL, PEFT, LLMs)

710 viewsJun 15, 2025

YouTubeANTSHIV ROBOTICS

Allocate LLM Compute Like an AI Lab

Allocate LLM Compute Like an AI Lab

1.1K views3 months ago

YouTubeFaradawn Yang

SFT vs DPO vs GRPO vs PPO (In 30 Seconds) #LLM #ML #AI

50 views4 months ago

YouTubeNeurons Decoded

Reinforcement Learning: A (practical) introduction

9.2K views5 months ago

YouTubeShaw Talebi

Machine Learning Essentials: A Complete Breakdown for Beginners

6.5K views5 months ago

YouTubeDr. Shulika Tata

RLHF, PPO & GRPO Explained: A Top-Down Guide to LLM Policy Optimization

3 views4 weeks ago

Reinforcement Learning From Human Feedback (RLHF) | Direct Preference Optimization (DPO) | Explained

24 views2 months ago

YouTubeRoboSathi

[Full Workshop] Reinforcement Learning, Kernels, Reasoning, Quantization & Agents — Daniel Han

118.6K views11 months ago

YouTubeAI Engineer

Reinforcement Learning for LLMs in 2025

15.6K viewsFeb 10, 2025

YouTubeTrelis Research

Preference Alignment & RLHF in LLMs Explained | RLHF, PPO, DPO, ORPO, RL Basics & Practical Part-1

633 views1 month ago

YouTubeSunny Savita

Reinforcement Learning: Essential Concepts

99.5K viewsMar 31, 2025

YouTubeStatQuest with Josh Starmer

Supervised Reinforcement Learning! (No, you didn't misread this) (Part 1)

223 views5 months ago

YouTubeJohn Tan Chong Min

GRPO: The Reinforcement Learning Trick That Changed Everything

251 views6 months ago

YouTubemathtartic

See more