A Personal Journal of Learning and Discovery
Search
Szukaj
Tryb ciemny
Trzyb jasny
Archive
Znacznik: deepseek
Elementów z tym znacznikiem: 3.
02 kwi 2026
20251116093417a⁝ DeepSeek
ai
china
deepseek
model
02 kwi 2026
Deepseek R1 note
ai
deepseek
models
reasoning
Total
Activated
02 kwi 2026
Reinforcement Learning with GRPO Fine-Tuning a Small Language Model for Chain-of-Thought Math Reasoning. Similar to Deepseek R1 training
llm
coding
training
rl
deepseek