Tecnologíamachine learningLLMs
MegaTrain: entrenar LLMs de 100B+ parámetros en una sola GPU (y por qué tuve que cerrar la laptop)
Leí el título y pensé que era clickbait. Me senté, leí el paper, y tuve que levantarme a caminar. MegaTrain propone entrenar modelos de 100B+ parámetros en una sola GPU con full precision. No lo voy a usar mañana. Pero cambia quién puede hacer qué — y eso me importa.
10 min26