🧠 Todo es compresión (y el que no comprime, paga)
30 de junio de 2026
🤝 La competencia que no compite
Free AI Gateway llega con 160+ providers, token compression stacked (RTK+Caveman) que promete 60-95% menos tokens, y compatibilidad con Claude Code, Codex, Cursor, Cline, MCP y A2A. Todo en un solo endpoint.
Headroom responde: "comprimí tool outputs antes de que lleguen al LLM". También 60-95%. También trending.
Ambos resuelven el mismo problema — el contexto cuesta, y los LLMs tienen la capacidad de atención de un adolescente con TikTok abierto. Pero uno lo resuelve desde la ruta (gateway unificado con auto-fallback), el otro desde la carga (proxy de compresión en el pipeline). No compiten: se complementan. Si tu stack no tiene alguno de los dos, estás pagando tokens que no deberías.
🐦 Ornith-1.0: el modelo que no espera permiso
Ornith-1.0 es open-weight y se auto-mejora en inferencia. Genera código, lo testea, itera. No necesitás que alguien entrene una v2 — el modelo usa más compute ahora para corregirse solo. Es la misma filosofía de los coding agents pero aplicada al modelo mismo.
Obra, por otro lado, ataca desde el framework: skills como unidad base, agentes especializados, metodología de desarrollo incluida. Es trending #1 en GitHub con 884 estrellas/día.
Lo que une a ambos: la idea de que el bottleneck ya no es el modelo. Es la arquitectura. Es el skill design. Es cuánto compute estás dispuesto a gastar en inference. Esperar al próximo modelo es la estrategia de un perdedor.
🧠 MemPalace, LongCat, y Apple publicando documentación como si fuera 1999
MemPalace aparece con el título de "best-benchmarked open-source memory system". Cortesía, libre. Compite directamente con Memento y con Cognee. Si sus benchmarks son reales, estamos ante el primer sistema de memoria open-source que podría reemplazar soluciones caseras con algo que funciona y tiene equipo detrás.
LongCat-2.0 es la demostración de que MoE no es moda: 1.6T parámetros totales, 48B activos, compite con DeepSeek-V3 y GPT-4 en la categoría "mucho por poco". Mientras tanto, Qwen 3.6 27B se consolida como el sweet spot para desarrollo local — 24GB de VRAM, calidad competitiva. La industria se polariza: modelos masivos MoE en la nube, modelos compactos en local, y el medio (70B-120B) empieza a no tener sentido.
Lo más inesperado del día: Apple publicó un paper sobre la arquitectura del ANE. Con detalles de programación, performance, limitaciones — cosas que Apple normalmente protege como si fueran la fórmula de la Coca-Cola. ¿Señal de que abren el stack de ML? ¿O simplemente que los ingenieros de Apple ganaron la batalla interna por publicar? Misterio.
⚖️ Google saca la chequera regulatoria, la Corte saca la goma de borrar
Google lanza agents-cli: CLI oficial para crear, evaluar y deployar agentes en GCP. La señal más clara de que los agentes dejaron de ser experimento de laboratorio y se convirtieron en producto de plataforma.
La Corte Suprema de EE.UU. dictamina que los geofence warrants necesitan protección constitucional. Tu ubicación no es menos privada porque "voluntariamente" llevás un teléfono. No es tech, es law, pero es el tipo de ruling que va a definir cómo se construye infraestructura de agentes en el mundo real — porque si no sabés qué datos podés recolectar legalmente, tu agente autónomo es un riesgo legal andando.
🎬 Para cerrar: Eternal Sunshine of the Spotless Mind (2004)
La película de Michel Gondry pregunta: ¿qué pasa si pudieras borrar recuerdos selectivamente? La respuesta es que terminás peor — porque los recuerdos no son archivos individuales, y borrar uno rompe conexiones que no sabías que existían.
La compresión de contexto es exactamente lo mismo. Comprimís 95% de los tool outputs pensando que eliminás lo irrelevante. Pero ¿quién define relevancia? Cada mensaje resumido agresivamente, cada tool output truncado — es un recuerdo borrado. Y el sistema alucina justo porque faltaba ese dato que no creías importante.
💡 Tip del día: Antes de comprimir todo automáticamente, registrá lo que descartás. Un log de compresión con los chunks eliminados te permite debuggear alucinaciones. Como en Lacuna Inc.: si vas a borrar, al menos anotá qué borraste. O como diría Joel: "the memory of a compression is worth more than the compression itself."
Artículo generado por el Observatorio IA & Tech — seguimiento diario de tendencias en inteligencia artificial y tecnología.
Leave 🧠 Todo es compresión (y el que no comprime, paga) to:
Read more #technology posts
Best Posts From Ofap
We have not curated any of ofap's posts yet. But you can encourage our curation team to review posts by visiting them regularly and by referring other readers. Because we give priority to frequently read content.
More Posts From Ofap
- 🏛️ El Gobierno se sienta a la mesa (y pide el 5%)
- 🕵️ La confianza no se da, se verifica
- 🧠 Todo es compresión (y el que no comprime, paga)
- Cal Newport y Jonathan Stark escribieron el mismo libro (sin saberlo)
- 🧬 10 releases en 24 horas: cuando el agente que construís te pasa en velocidad
- Margin Call en la economía real: qué se va a vender en los próximos 18 meses
- 🤖 El gobierno de USA va a decidir quién juega con la IA — y el resto del mundo mira desde la cola del formulario 27B/6
- IBM sub-1nm, Apple M7 y la carrera por poner AI en todos lados
- 🧬 Agentes que recuerdan, world models, y el fantasma en el shell
- OpenAI dejó de ser generalista, Oracle borró 21.000 humanos, y un modelo de 3B le ganó a Opus
- 🔌 Bienvenidos al Grid: cuando IBM juega al Tron con el MCP de todos
- 🚀 Beta, Compress, Deploy: El Domingo que los Agentes se Pusieron Serios
- 🧬 John Jumper cruzó el pasillo, y la IA nunca volvió a ser la misma
- Cuando los agentes hablan el mismo idioma
- Publicación corregida
- Cuando tu agente olvida quién sos
- El techo invisible de la consultoría (y por qué tus horas te están arruinando)
- El gobierno descubrió que la IA funciona, y nadie sabía muy bien qué hacer
- Juguemos una partida