Harness Engineering

O Software ao Redor do Modelo Virou o Verdadeiro Diferencial Competitivo dos Agentes

Tipo: Artigo · Autor: Aura Research Board · Data: Maio 2026 · Aura Company

Introdução

Em 2024 a corrida era por prompts. Em 2025, por contexto. Em 2026 o termo que tomou o mercado é harness engineering. A expressão que virou slogan, popularizada por Mitchell Hashimoto (cofundador da HashiCorp, criador do Terraform e do Ghostty), é direta: Agent = Model + Harness. O harness é tudo no sistema de um agente que não é o modelo. Inclui o loop de execução, as ferramentas, o parsing das chamadas, os retries, a gestão de contexto, o sandbox, as permissões, a memória e a recuperação de erros.

A analogia que funciona para qualquer público: se o modelo é o motor, o harness é o avião inteiro, com a fuselagem, os instrumentos, o piloto e a torre de controle. Comprar o melhor motor do mundo não te dá uma companhia aérea.

Este artigo fecha uma trilogia natural com O Prompt Nao Basta - Context Engineering e Context Engineering em Escala - Memoria e Context Rot. São três camadas encaixadas: o prompt define quais instruções o modelo segue, o contexto define qual informação o modelo vê, e o harness define qual software determinístico cerca o modelo para que ele aja de forma confiável, segura e auditável.

A Tese: o Modelo Virou Commodity, o Harness Virou o Diferencial

Conforme os modelos de fronteira convergiram em capacidade, a qualidade do modelo virou pré-requisito de entrada, não vantagem. A vantagem migrou para o harness. Dois eventos de 2026 deram sustentação empírica a essa tese.

O vazamento do Claude Code. Em 31 de março de 2026, o pesquisador Chaofan Shou reportou que o código-fonte do Claude Code havia vazado via um sourcemap publicado no npm: cerca de 512.000 linhas de TypeScript em torno de 1.884 arquivos. Um estudo da MBZUAI (abril de 2026) classificou aproximadamente 1,6% como lógica de decisão da IA e 98,4% como harness: pipeline de permissões, gestão de contexto, sandbox, roteador de ferramentas e infraestrutura de recuperação. O código revelou um query engine de 46.000 linhas, cerca de 40 ferramentas, orquestração multi-agente e uma ponte bidirecional com a IDE.
O experimento Codex da OpenAI. Um time descrito pela OpenAI construiu, em cerca de cinco meses, perto de 1 milhão de linhas de código com 0% escrito à mão por humanos. Foram aproximadamente 1.500 pull requests, com um time que começou em 3 e cresceu para 7 engenheiros, a uma média de 3,5 PRs por engenheiro por dia. O trabalho dos engenheiros deixou de ser escrever código e passou a ser projetar ambientes, especificar intenção e construir feedback loops. Isso é harness engineering.

A leitura é a mesma nos dois casos: o produto não vive no modelo, vive no software que o cerca.

O Dado Que Importa: o Problema é Confiança, Não Capacidade

Aqui está o ponto que muda a conversa para quem decide. O obstáculo dos agentes em produção não é falta de inteligência do modelo, é falta de confiança no resultado. O DORA Report 2025 (State of AI-assisted Software Development, com cerca de 5.000 profissionais) mostra o tamanho do problema:

90% dos profissionais já usam IA no trabalho e mais de 80% acreditam que ela aumentou a produtividade.
Ao mesmo tempo, cerca de 30% relatam pouca ou nenhuma confiança no código gerado por IA, e apenas 3% relatam confiança alta.
Mais de 60% descobriram erros relacionados à IA depois do deploy.

É exatamente esse buraco entre velocidade e confiança que o harness fecha. Verificação, guardrails, sandbox, trilha de decisão e human-in-the-loop não são enfeites de engenharia, são o que transforma código gerado rápido em código no qual um time aposta a operação.

Por Que Benchmarks Enganam

Quando alguém avalia "um agente", está avaliando o harness e o modelo juntos. O leaderboard do SWE-bench Verified usa um harness mínimo e o mesmo prompt para todos os modelos, justamente para isolar o modelo. Consequência prática: a qualidade dos harnesses não é medida ali. Por isso os times se movem pelo que funciona no harness deles, não pela posição no leaderboard. Vale a ressalva de 2026: o SWE-bench Verified está sob crítica de contaminação, e parte da indústria já migrou para o SWE-bench Pro.

Anatomia de um Harness

Agent loop: em geral um laço simples no padrão ReAct (raciocinar, agir, observar). A complexidade não está no laço, está no que ele gerencia. A Anthropic chama esse runtime de "dumb loop": a inteligência fica no modelo, o loop cuida de turnos, dispatch e segurança.
Tool design: registro, schemas, validação de argumentos, execução e formatação dos resultados como observações. Carregar ferramentas sob demanda em vez de empilhar todas no contexto. Conecta com A Era dos Protocolos - MCP A2A e a Agentic AI Foundation.
Gestão de contexto e memória: estratégias de escrever, selecionar, comprimir e isolar. Mover logs para fora do prompt e referenciar por ID. Conecta com Context Engineering em Escala - Memoria e Context Rot.
Verificação e feedback loops: ferramentas de observação (testes, logs, browser) mais um checklist que força o agente a validar contra a especificação antes de concluir. Conecta com Spec-Driven Development - O Fim do Vibe Coding.
Sandbox e segurança: execução isolada e pipeline de permissões antes de cada ação. Conecta com Governanca de Agentes em Producao.
Paralelização e subagentes: cada subagente com contexto e sandbox próprios, com o agente principal coordenando por status estruturado. Conecta com Padroes de Orquestracao Multi-Agente e Seu Primeiro Subagente no Claude Code.
Recuperação de erros: uma taxonomia de falhas (transitória, recuperável pelo modelo, corrigível pelo humano, inesperada), cada uma com tratamento próprio.
Observabilidade: instrumentação por granularidade, do span à trajetória completa do agente. Conecta com Observabilidade de Agentes - Por que Logs Nao Bastam.

Harnesses Concretos em 2026

Claude Code e o Claude Agent SDK (Anthropic), Codex (OpenAI), Cursor com o Composer, GitHub Copilot na VS Code, e no mundo aberto o OpenHands e o SWE-agent. LangGraph e os Deep Agents permitem customizar o harness com middleware. O ponto comum: todos competem cada vez mais no harness, não no modelo.

O Contraponto Honesto

Vale registrar a posição cética, porque ela dá credibilidade ao argumento. Pesquisadores como Noam Brown (OpenAI) defendem que parte do scaffolding de hoje é temporária: conforme os reasoning models melhoram, o próprio modelo pode absorver pedaços do harness. "Big Model versus Big Harness" é um debate aberto, não uma questão encerrada. A aposta da Aura é pragmática: enquanto a confiança em produção depender de verificação, governança e human-in-the-loop, o harness segue sendo onde o valor defensável se acumula.

Onde o Humano Entra

O harness é justamente onde o humano entra no circuito: o pipeline de permissões, os pontos de aprovação, a trilha de decisão e a revisão. A narrativa de 2026 descreve o engenheiro como gestor de agentes, otimizando a velocidade de verificação para supervisionar muitos agentes ao mesmo tempo. Esse é o terreno onde a Aura constrói: o controle de um agente em produção (quem ele pode atender, o que pode fazer sozinho, o que aprendeu, o que aguarda aprovação) tratado como interface de produto, e não como relatório de fim de mês. O resultado que perseguimos é simples de enunciar: governança e controle que vivem no produto, com o humano no loop por design.

Conclusão

O modelo é a menor parte do sistema. Construir agentes confiáveis é engenharia de harness, uma disciplina de software, não de prompt. Para quem lidera a transformação agêntica, a leitura estratégica é direta: o diferencial competitivo defensável está no software ao redor do modelo, porque o modelo qualquer concorrente aluga, e o harness é o que a sua operação acumula.

Conexões no Currículo

Disciplinas: D3 - Engenharia de Agentes · D5 - Arquitetura e Design AI-First · D6 - Excelencia de Engenharia em Producao

Relacionados: O Prompt Nao Basta - Context Engineering · Context Engineering em Escala - Memoria e Context Rot · Spec-Driven Development - O Fim do Vibe Coding