artículos / El Mes que un Agente de IA Me Costó 11,5...

#ia local #agentes ia #openclaw #cost optimization #gemini #ollama #cc bridge #vibecoding

El Mes que un Agente de IA Me Costó 11,500 Pesos

8 de junio de 2026 AWONG 4 minutos de lectura 69 vistas

Primer post de la serie cc_bridge: la busqueda del cerebro para mi agente autonomo con OpenClaw. Codex se quedo corto, Gemini Pro 4 me dejo una factura de 11,500 pesos en un mes, y lo barato no ejecutaba. La pregunta que destrabo todo: separar al que piensa del que ejecuta.

El Mes que un Agente de IA Me Costó 11,500 Pesos

Con el boom de OpenClaw me obsesioné con una idea: no quería un copiloto que me sugiriera líneas, quería un agente autónomo de verdad. Algo que recibiera una intención y la ejecutara —que abriera la terminal, leyera archivos, corriera comandos, se corrigiera solo—. OpenClaw me daba el cuerpo: el harness, el loop de herramientas, el acceso a la máquina. Solo me faltaba ponerle un cerebro.

Lo que no sabía es que esa búsqueda del cerebro me iba a costar, literalmente, una cuenta de banco. Este es el post donde la IA me quebró, y la pregunta incómoda con la que me quedé. Es el primero de una serie sobre cómo terminé construyendo mi propia herramienta para no volver a pagar de más.

Empecé con Codex, y se Quedó Corto

Lo primero que conecté como cerebro fue Codex. Rápido, decente para completar y para tareas de un solo paso. Pero un agente autónomo no vive de un solo paso: vive de cadenas largas —planear, ejecutar, leer el error, recalcular, volver a intentar—. Y ahí Codex se desinflaba. Perdía el hilo, repetía pasos, no sostenía un plan de diez movimientos. No tenía la cabeza agéntica que ya había visto en Claude Code.

No era cosa de un prompt mejor. Era que el modelo, como cerebro de un loop autónomo, no aguantaba. Así que subí de nivel.

Gemini Pro 4 y la Factura de 11,500 Pesos

Metí Gemini Pro 4 vía API. Y sí: la diferencia se sintió. Razonaba mejor, sostenía tareas más largas, se equivocaba menos. Por fin mi agente hacía cosas de verdad. Lo dejé trabajar. Lo dejé iterar. Lo dejé hacer lo que yo quería: operar solo.

A fin de mes llegó la factura: 11,500 pesos. Un solo mes. La cuenta que terminé cerrando para que no siguiera corriendo.

El golpe no fue solo el monto, fue entender por qué. Un agente autónomo no manda un prompt; manda cientos. Cada vez que el modelo decide usar una herramienta, el harness le reenvía TODO el contexto —el historial, los archivos abiertos, la salida del comando anterior— para que decida el siguiente paso. Una sola tarea "sencilla" son decenas de llamadas, cada una arrastrando miles de tokens de entrada. El loop agéntico que lo hace tan poderoso es exactamente lo que multiplica la cuenta. No pagas por pensar una vez; pagas por pensar en círculos, miles de veces.

Lo Barato No Ejecuta, lo Caro Te Quiebra

La reacción obvia fue bajar de precio. Probé GLM. Probé minimax. Probé modelos locales en mi propio Ollama, que era justo lo que quería por convicción: IA en mi hardware, sin factura por token. El costo dejó de doler. Pero apareció el otro lado del problema.

Los modelos baratos —y sobre todo los locales que cabían en mis GPUs— no ejecutaban al nivel que necesitaba. Hablaban bien, planeaban regular, pero a la hora de sostener un loop agéntico real —encadenar herramientas, leer un stack trace y corregir, no alucinar un comando— se quedaban cortos. Lo mismo que Codex, otra vez, pero más barato.

Ahí estaba el dilema, crudo y claro:

El cerebro bueno (Gemini Pro 4, y después el que todos sabíamos) ejecutaba de maravilla y costaba una fortuna.
El cerebro barato o local costaba bien pero no daba el nivel agéntico.

Parecía que tenía que elegir entre quebrarme o conformarme. Y yo no quería ninguna de las dos.

La Pregunta que lo Cambió Todo

Cuando estás atorado entre dos opciones malas, casi siempre es porque la pregunta está mal planteada. La mía era: "¿qué modelo pongo de cerebro?". Como si fuera una sola pieza, una sola decisión, un solo costo.

Pero un agente no hace una sola cosa. Hace dos muy distintas: piensa (qué sigue, cómo dividir el problema, cuándo parar) y ejecuta (corre el comando, escribe el archivo, lee el resultado). ¿Y si esas dos no tenían que vivir en el mismo cerebro? ¿Y si podía pensar con algo barato y ejecutar con lo bueno solo cuando de verdad hiciera falta?

Esa pregunta —separar al que piensa del que ejecuta— fue la grieta por donde se coló todo lo demás. Me llevó a un truco con una sola bandera de línea de comandos que convirtió mi suscripción de 20 dólares en el ejecutor más capaz que tenía. Y eso, sin saberlo todavía, fue la primera piedra de cc_bridge.

Pero esa es la historia del siguiente post.

compartir_artículo

LinkedIn Facebook X

artículos_relacionados

Copiloto o Motor: las Dos Formas de Meterle IA a un Sistema (y Cómo no Confundirlas)

Di una plática en la inauguración de ALTI sobre algo que veo confundir todo el tiempo: 'le metí IA' puede significar dos cosas opuestas. O un copiloto que conversa y decide (agéntico), o un motor que transforma datos sin abrir la boca (la IA como función dentro de un workflow). Cuándo va cada uno, con dos casos reales en producción.

El Cuerpo Importa Más que el Cerebro

Cierre de la serie cc_bridge: la pregunta incomoda de si el valor de Claude esta en el modelo o en su harness. Con claude-code-router probe cambiarle el cerebro a Claude Code; con cc_bridge lo volvi intercambiable. Ollama habla la API de Anthropic nativa, asi que minimax corrio whoami y ping de verdad. El cerebro es el motor; el cuerpo es el producto.

cc_bridge como Provider: Ponerle Cerebro a Cada Servidor

Tercer post de la serie cc_bridge: al hablar esquema OpenAI, cc_bridge dejo de ser mi agente y se volvio el provider de IA de mis apps (Genie, Pillbox). El salto de concepto: no es un proxy, es un agente ejecutor remoto, un cerebro por servidor. Y el tope de $100 que destapo la pregunta final.

← volver a artículos

El Mes que un Agente de IA Me Costó 11,500 Pesos

Empecé con Codex, y se Quedó Corto

Gemini Pro 4 y la Factura de 11,500 Pesos

Lo Barato No Ejecuta, lo Caro Te Quiebra

La Pregunta que lo Cambió Todo

compartir_artículo

qr_code

Recibe los nuevos artículos por correo

artículos_relacionados

Copiloto o Motor: las Dos Formas de Meterle IA a un Sistema (y Cómo no Confundirlas)

El Cuerpo Importa Más que el Cerebro

cc_bridge como Provider: Ponerle Cerebro a Cada Servidor