A Personal Journal of Learning and Discovery

Znacznik: deepseek

Elementów z tym znacznikiem: 3.

16 lis 2025
20251116093417a⁝ DeepSeek
30 sty 2025
Reinforcement Learning with GRPO Fine-Tuning a Small Language Model for Chain-of-Thought Math Reasoning. Similar to Deepseek R1 training
21 sty 2025
Deepseek R1 note

Browse

Archive
Browse topics
Posts

Topics

ai68
llm33
philosophy24
software-engineering16
books13
model13
architecture11
ai-tools9

Recent notes

42ag1⁝ AI do legitymizacji decyzji przykład
17 kwi 2026
42ag⁝ Trendslop AI
17 kwi 2026
63a⁝ Cyberbunker dalsza historia miejsca
17 kwi 2026
63⁝ Cybercrime
17 kwi 2026
42a5b⁝ Ekonomia Tokenów
16 kwi 2026

GitHub
LinkedIn