artículos / El Mes que un Agente de IA Me Costó 11,5...

El Mes que un Agente de IA Me Costó 11,500 Pesos

AWONG 4 minutos de lectura 3 vistas

Primer post de la serie cc_bridge: la busqueda del cerebro para mi agente autonomo con OpenClaw. Codex se quedo corto, Gemini Pro 4 me dejo una factura de 11,500 pesos en un mes, y lo barato no ejecutaba. La pregunta que destrabo todo: separar al que piensa del que ejecuta.

El Mes que un Agente de IA Me Costó 11,500 Pesos

El Mes que un Agente de IA Me Costó 11,500 Pesos

Con el boom de OpenClaw me obsesioné con una idea: no quería un copiloto que me sugiriera líneas, quería un agente autónomo de verdad. Algo que recibiera una intención y la ejecutara —que abriera la terminal, leyera archivos, corriera comandos, se corrigiera solo—. OpenClaw me daba el cuerpo: el harness, el loop de herramientas, el acceso a la máquina. Solo me faltaba ponerle un cerebro.

Lo que no sabía es que esa búsqueda del cerebro me iba a costar, literalmente, una cuenta de banco. Este es el post donde la IA me quebró, y la pregunta incómoda con la que me quedé. Es el primero de una serie sobre cómo terminé construyendo mi propia herramienta para no volver a pagar de más.

Empecé con Codex, y se Quedó Corto

Lo primero que conecté como cerebro fue Codex. Rápido, decente para completar y para tareas de un solo paso. Pero un agente autónomo no vive de un solo paso: vive de cadenas largas —planear, ejecutar, leer el error, recalcular, volver a intentar—. Y ahí Codex se desinflaba. Perdía el hilo, repetía pasos, no sostenía un plan de diez movimientos. No tenía la cabeza agéntica que ya había visto en Claude Code.

No era cosa de un prompt mejor. Era que el modelo, como cerebro de un loop autónomo, no aguantaba. Así que subí de nivel.

Gemini Pro 4 y la Factura de 11,500 Pesos

Metí Gemini Pro 4 vía API. Y sí: la diferencia se sintió. Razonaba mejor, sostenía tareas más largas, se equivocaba menos. Por fin mi agente hacía cosas de verdad. Lo dejé trabajar. Lo dejé iterar. Lo dejé hacer lo que yo quería: operar solo.

A fin de mes llegó la factura: 11,500 pesos. Un solo mes. La cuenta que terminé cerrando para que no siguiera corriendo.

El golpe no fue solo el monto, fue entender por qué. Un agente autónomo no manda un prompt; manda cientos. Cada vez que el modelo decide usar una herramienta, el harness le reenvía TODO el contexto —el historial, los archivos abiertos, la salida del comando anterior— para que decida el siguiente paso. Una sola tarea "sencilla" son decenas de llamadas, cada una arrastrando miles de tokens de entrada. El loop agéntico que lo hace tan poderoso es exactamente lo que multiplica la cuenta. No pagas por pensar una vez; pagas por pensar en círculos, miles de veces.

Lo Barato No Ejecuta, lo Caro Te Quiebra

La reacción obvia fue bajar de precio. Probé GLM. Probé minimax. Probé modelos locales en mi propio Ollama, que era justo lo que quería por convicción: IA en mi hardware, sin factura por token. El costo dejó de doler. Pero apareció el otro lado del problema.

Los modelos baratos —y sobre todo los locales que cabían en mis GPUs— no ejecutaban al nivel que necesitaba. Hablaban bien, planeaban regular, pero a la hora de sostener un loop agéntico real —encadenar herramientas, leer un stack trace y corregir, no alucinar un comando— se quedaban cortos. Lo mismo que Codex, otra vez, pero más barato.

Ahí estaba el dilema, crudo y claro:

  • El cerebro bueno (Gemini Pro 4, y después el que todos sabíamos) ejecutaba de maravilla y costaba una fortuna.
  • El cerebro barato o local costaba bien pero no daba el nivel agéntico.

Parecía que tenía que elegir entre quebrarme o conformarme. Y yo no quería ninguna de las dos.

La Pregunta que lo Cambió Todo

Cuando estás atorado entre dos opciones malas, casi siempre es porque la pregunta está mal planteada. La mía era: "¿qué modelo pongo de cerebro?". Como si fuera una sola pieza, una sola decisión, un solo costo.

Pero un agente no hace una sola cosa. Hace dos muy distintas: piensa (qué sigue, cómo dividir el problema, cuándo parar) y ejecuta (corre el comando, escribe el archivo, lee el resultado). ¿Y si esas dos no tenían que vivir en el mismo cerebro? ¿Y si podía pensar con algo barato y ejecutar con lo bueno solo cuando de verdad hiciera falta?

Esa pregunta —separar al que piensa del que ejecuta— fue la grieta por donde se coló todo lo demás. Me llevó a un truco con una sola bandera de línea de comandos que convirtió mi suscripción de 20 dólares en el ejecutor más capaz que tenía. Y eso, sin saberlo todavía, fue la primera piedra de cc_bridge.

Pero esa es la historia del siguiente post.

compartir_artículo

LinkedIn Facebook X

artículos_relacionados