42ah5⁝ Critical Batch Size
Dotyczy granicy, po której zwiększanie batch size poprawia throughput, ale zaczyna szkodzić efektywności tokenowej. Najnowsze prace badają to bezpośrednio dla pretrainingu modeli językowych, np. OLMo 1B/7B.
Dotyczy granicy, po której zwiększanie batch size poprawia throughput, ale zaczyna szkodzić efektywności tokenowej. Najnowsze prace badają to bezpośrednio dla pretrainingu modeli językowych, np. OLMo 1B/7B.