El Mes que un Agente de IA Me Costó 11,500 Pesos
Primer post de la serie cc_bridge: la busqueda del cerebro para mi agente autonomo con OpenClaw. Codex se quedo corto, Gemini Pro 4 me dejo una factura de 11,500 pesos en un mes, y lo barato no ejecutaba. La pregunta que destrabo todo: separar al que piensa del que ejecuta.
El Mes que un Agente de IA Me Costó 11,500 Pesos
Con el boom de OpenClaw me obsesioné con una idea: no quería un copiloto que me sugiriera líneas, quería un agente autónomo de verdad. Algo que recibiera una intención y la ejecutara —que abriera la terminal, leyera archivos, corriera comandos, se corrigiera solo—. OpenClaw me daba el cuerpo: el harness, el loop de herramientas, el acceso a la máquina. Solo me faltaba ponerle un cerebro.
Lo que no sabía es que esa búsqueda del cerebro me iba a costar, literalmente, una cuenta de banco. Este es el post donde la IA me quebró, y la pregunta incómoda con la que me quedé. Es el primero de una serie sobre cómo terminé construyendo mi propia herramienta para no volver a pagar de más.
Empecé con Codex, y se Quedó Corto
Lo primero que conecté como cerebro fue Codex. Rápido, decente para completar y para tareas de un solo paso. Pero un agente autónomo no vive de un solo paso: vive de cadenas largas —planear, ejecutar, leer el error, recalcular, volver a intentar—. Y ahí Codex se desinflaba. Perdía el hilo, repetía pasos, no sostenía un plan de diez movimientos. No tenía la cabeza agéntica que ya había visto en Claude Code.
No era cosa de un prompt mejor. Era que el modelo, como cerebro de un loop autónomo, no aguantaba. Así que subí de nivel.
Gemini Pro 4 y la Factura de 11,500 Pesos
Metí Gemini Pro 4 vía API. Y sí: la diferencia se sintió. Razonaba mejor, sostenía tareas más largas, se equivocaba menos. Por fin mi agente hacía cosas de verdad. Lo dejé trabajar. Lo dejé iterar. Lo dejé hacer lo que yo quería: operar solo.
A fin de mes llegó la factura: 11,500 pesos. Un solo mes. La cuenta que terminé cerrando para que no siguiera corriendo.
El golpe no fue solo el monto, fue entender por qué. Un agente autónomo no manda un prompt; manda cientos. Cada vez que el modelo decide usar una herramienta, el harness le reenvía TODO el contexto —el historial, los archivos abiertos, la salida del comando anterior— para que decida el siguiente paso. Una sola tarea "sencilla" son decenas de llamadas, cada una arrastrando miles de tokens de entrada. El loop agéntico que lo hace tan poderoso es exactamente lo que multiplica la cuenta. No pagas por pensar una vez; pagas por pensar en círculos, miles de veces.
Lo Barato No Ejecuta, lo Caro Te Quiebra
La reacción obvia fue bajar de precio. Probé GLM. Probé minimax. Probé modelos locales en mi propio Ollama, que era justo lo que quería por convicción: IA en mi hardware, sin factura por token. El costo dejó de doler. Pero apareció el otro lado del problema.
Los modelos baratos —y sobre todo los locales que cabían en mis GPUs— no ejecutaban al nivel que necesitaba. Hablaban bien, planeaban regular, pero a la hora de sostener un loop agéntico real —encadenar herramientas, leer un stack trace y corregir, no alucinar un comando— se quedaban cortos. Lo mismo que Codex, otra vez, pero más barato.
Ahí estaba el dilema, crudo y claro:
- El cerebro bueno (Gemini Pro 4, y después el que todos sabíamos) ejecutaba de maravilla y costaba una fortuna.
- El cerebro barato o local costaba bien pero no daba el nivel agéntico.
Parecía que tenía que elegir entre quebrarme o conformarme. Y yo no quería ninguna de las dos.
La Pregunta que lo Cambió Todo
Cuando estás atorado entre dos opciones malas, casi siempre es porque la pregunta está mal planteada. La mía era: "¿qué modelo pongo de cerebro?". Como si fuera una sola pieza, una sola decisión, un solo costo.
Pero un agente no hace una sola cosa. Hace dos muy distintas: piensa (qué sigue, cómo dividir el problema, cuándo parar) y ejecuta (corre el comando, escribe el archivo, lee el resultado). ¿Y si esas dos no tenían que vivir en el mismo cerebro? ¿Y si podía pensar con algo barato y ejecutar con lo bueno solo cuando de verdad hiciera falta?
Esa pregunta —separar al que piensa del que ejecuta— fue la grieta por donde se coló todo lo demás. Me llevó a un truco con una sola bandera de línea de comandos que convirtió mi suscripción de 20 dólares en el ejecutor más capaz que tenía. Y eso, sin saberlo todavía, fue la primera piedra de cc_bridge.
Pero esa es la historia del siguiente post.
artículos_relacionados
Dejé de Adivinar Qué Ollama Estaba Vivo: Así Nació ollamon
La historia de por que construi ollamon: un monitor de flotas de Ollama en Go que autodescubre cada instancia leyendo el kernel, porque opero infra que cambia sin avisar. Lee la GPU con NVML nativo y junta todo en una vista unificada. Nacido de un incidente real en produccion.
IA Privada por Menos de lo que Crees: Enmascarado con un Modelo Pequeño en Vez de $100k en GPUs
Últimamente todos me preguntan lo mismo: cómo usar IA local en su empresa por menos de 2 mil dólares. La respuesta honesta es que es imposible —nosotros llevamos más de 100 mil en infraestructura y aún nos quedamos cortos—. Pero casi siempre están resolviendo el problema equivocado. Aquí explico la arquitectura barata que de verdad funciona: un modelo pequeño local que enmascara los datos sensibles, un modelo comercial potente que razona sobre datos ya anonimizados, y un desenmascarado por código.
Embeddings y Por Qué Funciona RAG: Cómo un Modelo Responde Sobre lo que Nunca Vio
Le preguntas al LLM más caro del mundo sobre tus propios documentos y te responde con seguridad... una mentira. Este es el porqué, y la solución: qué es realmente un embedding, cómo la similitud coseno mide significado, y por qué RAG —recuperar y aumentar antes de generar— hace que un modelo responda sobre datos que nunca estuvieron en su entrenamiento, sin reentrenar nada.