JSON Prompting nos LLMs: O Mito da Performance e o Segredo do Toon
Promptar em JSON pode parecer eficiente, mas a verdade sobre custos, tokens e formatos é completamente diferente do senso comum. Veja o que ninguém conta sobre formatos para LLMs, o nascimento do Toon e benchmarks surpreendentes.
Por que isso é importante
A escolha do formato de input para LLMs pode triplicar seu custo, reduzir a acurácia das respostas e desperdiçar recursos. Entender o verdadeiro impacto do JSON, YAML, Toon e outros pode te colocar anos na frente na hora de trabalhar com inteligência artificial aplicada. Benchmarks mostram, sem mistério, que decisões erradas queimam dinheiro e resultados.
Prompts em JSON melhoram ou pioram as LLMs?
Muita gente acha que usar JSON nas instruções para modelos de linguagem garante clareza e saída estruturada. Mas a verdade é o inverso: JSON quase sempre custa mais tokens do que formatos “humanos”, poluindo o input e, muitas vezes, atrapalhando o entendimento do modelo.
⚠️Atenção
A versão em texto simples consome menos tokens que YAML, que já consome menos que JSON! JSON, na prática, pode duplicar o custo de token, mesmo parecendo compacto.
Token, custo e estrutura: a parte que ninguém vê
Tokens não são simples caracteres – são fatias de texto que LLMs usam para prever o que virá depois. Todo espaço, tabulação, aspas ou símbolo vira um token. Mais tokens = mais custo e maior chance do modelo “se perder” tentando processar sua entrada.
ℹ️Info técnica
Exemplo real: um parágrafo comum ocupa 55 tokens. A mesma info em YAML vai para 88 tokens. No JSON? 115 tokens! Parece mágica reversa, mas é a regra.
O caos dos benchmarks: um mar de contradições
A comunidade de IA vive criando métodos para “forçar” saídas perfeitas do modelo com JSON. Só que, em menos de dois meses, posts afirmam desde “JSON é a salvação” até “JSON structuring morreu”. Os resultados reais variam, mas o padrão é claro: nesting e estruturas complexas tendem a explodir o token count.
Nasce o Toon: economia radical de tokens
Toon é um novo formato de notação para objetos, feito sob medida para insumos de LLMs. A proposta é clara: fazer a mesma coisa que JSON, mas usando entre 40% e 60% menos tokens, tornando prompts grandes muito mais viáveis financeiramente.
⚠️Atenção
Toon não é uma linguagem universal nem pretende substituir JSON em todo lugar. É apenas para transferir dados pra LLM e salvar tokens (e dinheiro).
Benchmarks: Toon vs JSON vs YAML na prática
Nos testes reais, ao transformar listas simples estruturadas, Toon quase sempre consome metade (ou menos) dos tokens do JSON. Exemplo: dado JSON com lista consome 51 tokens. Toon faz o mesmo em 24 tokens. Quando os dados são bem uniformes e rasos, Toon economiza até 60% do espaço.
ℹ️Comparativo
Quando entram estruturas muito aninhadas ou não uniformes, YAML e JSON tendem a colapsar e Toon perde parte da vantagem – mas ainda mantém performance superior em dados tabulares.
Limites da mágica: Tune só resolve metade dos problemas
Nem Tune e nem qualquer atalho faz milagre com dados bagunçados, aninhados ou longuíssimos. Em algumas estruturas, pure YAML chega a ganhar em compactação. Deixe o formato para o caso certo ou você verá custo explodindo igual.
Por que benchmarks variam tanto?
Cada modelo LLM tem sua própria forma de tokenizar inputs. Gemini 2.5 Flash foca em grandes contextos e consome menos. O GPT-4-Turbo lida pior com nesting. Já outputs YAML ou JSON, para datasets largíssimos, podem ser até menos eficientes do que texto “flattened” ou CSV – quando a estrutura permite.
O que nunca usar: XML é o pesadelo do token
XML em LLM não faz sentido: só serve para explodir tokens e gerar custos absurdos. Quase sempre os modelos “engasgam” tentando entender, despreze XML para input de qualquer LLM.
Quando JSON prompting pode ser útil?
A única justificativa real é quando você precisa sair com estruturas que serão validadas por máquina ou código, não por pessoas. Fora isso, JSON em prompt é geralmente trick que só funciona em casos muito simples. Evite se preocupa com saída “perfeita” via JSON.
Como testar e converter seus próprios formatos
Há playgrounds online que mostram os custos em tokens lado a lado entre formatos. Teste o mesmo input em JSON, YAML e Toon antes de “fechar” um pipeline caro com LLM. Uma simples conversão para Toon, com encode automático, pode economizar centenas de dólares em grandes volumes de dado.
✅Dica do canal Dev Doido
Quer ver essas conversões e testes em ação? Procure comparativos de tokens e outputs no canal Dev Doido no youtube para entender a diferença na prática, sem enrolação.
Boas práticas: pipeline automatizado é o segredo
Use sempre JSON “tradicional” para armazenamento e integração entre sistemas. Só converta para Toon na ponta, antes de enviar para o LLM. Assim, garante legibilidade, automação e economia.
O papel do YAML e CSV: nem vilão, nem herói
YAML tem legibilidade e vantagem em certos casos, mas costuma perder para Toon em entradas grandes e uniformes. Já CSV só serve se cada linha seguir a mesma estrutura raso, sem nesting.
Modelos com maior capacidade de contexto vencem o jogo
Gemini e GBT 5nano superam GPT em contextos grandes com muitos tokens. Mas, no final, qualquer modelo “perde” performance quando recebe input desnecessariamente poluído. A engenharia do dado é o diferencial.
Resumo prático: o que adotar HOJE
Não caia no hype do JSON. Use Toon para inputs que precisam ser enxutos em tokens, YAML para casos legíveis e CSV só em dados rasos uniformes. Analise seu pipeline: só converta estrutura antes de enviar ao modelo, sempre monitore contagem de tokens e custos.
❌Resumo crítico
Usar JSON em prompts LLM quase sempre é desperdício. Toon veio para trazer economia real. Não use XML. Teste sempre e avalie custos antes de decidir seu formato ideal.
Dica de ouro: avalie, meça, teste tudo!
Não existe fórmula pronta. Para cada projeto existe um formato ideal. Sempre faça benchmarks, busque playgrounds abertos de tokens e simule seu cenário. Se possível, consulte fontes especializadas e valide suas ideias com experimentação. O segredo está no detalhe do custo do input.