A Personal Journal of Learning and Discovery

Znacznik: rl

Oznaczony 1 element.

02 kwi 2026
Reinforcement Learning with GRPO Fine-Tuning a Small Language Model for Chain-of-Thought Math Reasoning. Similar to Deepseek R1 training

Browse

Archive
Browse topics
Posts

Topics

ai66
llm31
philosophy24
software-engineering16
books13
model13
architecture11
ai-tools9

Recent notes

100a1a⁝ Books - Java Concurrency
02 kwi 2026
100a1⁝ Concurrency in Java
02 kwi 2026
100a⁝ Java
02 kwi 2026
100b1⁝ Rust Books
02 kwi 2026
100b⁝ Rust
02 kwi 2026

GitHub
LinkedIn