Blog | Juanchi.dev | Juanchi.dev

Tag: evaluacion

1 artículos

Cómo rompieron los benchmarks top de agentes de IA — y lo que eso dice del stack que estoy usando

Leí el paper que explotó en HN sobre cómo explotan los mejores benchmarks de agentes de IA. El problema no son los modelos — es que estamos midiendo las cosas equivocadas y construyendo encima de arena. Y lo peor: reconocí los mismos patrones en mis propios agentes.

9 min18