Por que os times de segurança em GenAI precisam de semiótica — e onde ela gera mais retorno

Leopoldo Carvalho Correia de Lima
Enterprise Architect | GenAI/ML | Automation, Integration & Modernization
8 de março de 2026
Publicado originalmente no LinkedIn Pulse

Uma leitura operacional da segurança em sistemas com LLMs, RAG e agentes

Existe uma frase no campo de segurança de aplicações GenAI que merece ser levada ao pé da letra: "controles precisam ser semânticos além de sintáticos, probabilísticos além de determinísticos."

Essa frase não é filosófica. É operacional.

E ela coloca sobre a mesa uma pergunta que a indústria de segurança ainda não respondeu com clareza: se o vetor de ataque mais central em LLMs é semântico — se o prompt injection funciona porque modelos não distinguem dado de instrução dentro de uma sequência de linguagem natural —, que vocabulário analítico dá conta disso? E em qual color esse vocabulário gera mais retorno?

Este artigo argumenta que a semiótica oferece um aparato conceitual especialmente útil para modelar esse tipo de ataque — um que a segurança tradicional tende a descrever de forma insuficiente. Não argumenta que semiótica substitui engenharia de segurança, avaliação adversarial, política de ferramentas ou controle de privilégios. Argumenta que ela preenche uma lacuna conceitual específica, com retorno diferente para cada color.

O problema é de interpretação, não de separação sintática confiável

Em segurança tradicional, a maioria dos ataques de injeção explora falhas de parsing. O SQL injection funciona porque o parser não separa corretamente dado de comando. O XSS funciona porque o renderizador HTML não distingue conteúdo de markup executável. Em ambos os casos, a correção é de natureza técnica: separar os canais, escapar os dados, validar o tipo.

No prompt injection, a situação é estruturalmente diferente. Não falta um parser melhor. O problema é que a fronteira entre dado e instrução não pode ser estabelecida sintaticamente em linguagem natural — o NCSC do Reino Unido foi direto ao ponto ao dizer que prompt injection "não é SQL injection". Para um LLM, a distinção entre dado, instrução e contexto colapsa em uma única sequência de tokens. Isso não é bug. É a arquitetura. E é por isso que o framework OWASP para aplicações com LLMs mantém prompt injection como risco número um desde sua primeira versão.

O que um atacante sofisticado explora não é uma falha técnica isolada. É o fato de que o significado de um texto depende do contexto de enunciação, da autoridade simbólica implícita, da relação entre os "falantes" dentro da janela de contexto. Um jailbreak bem construído não viola nenhuma regra sintática — ele é linguisticamente impecável. O que faz é reconfigurar o contexto de interpretação, e o modelo, como interpretante estatístico que é, atualiza seu comportamento.

A semiótica tem vocabulário preciso para descrever esse mecanismo. E cada color pode usá-lo de forma diferente.

Red Team: construir autoridade simbólica, não apenas strings maliciosas

O red team em GenAI já intui que a tarefa mudou. Não basta encontrar o caractere inesperado ou o overflow de buffer. O ataque eficaz é o que constrói autoridade simbólica dentro do contexto do modelo.

A evidência empírica é clara. O Crescendo (Russinovich, Salem e Eldan, Microsoft Research, publicado no USENIX Security 2025) demonstrou que um ataque multi-turn que inicia com diálogos completamente benignos e escalada gradual consegue taxas de sucesso de 98% contra GPT-4 — enquanto a mesma solicitação feita diretamente é recusada. O dado mais revelador: o ataque é resistente a filtros de palavras-chave porque nenhum turno individual contém conteúdo detectável como malicioso. A toxicidade é distribuída na progressão, não concentrada em um prompt.

Isso é exatamente o que a teoria dos atos de fala (Austin, Searle) permite descrever com precisão: o Crescendo não funciona por força sintática, mas por força ilocucionária acumulada — cada turno realiza um ato de fala que reconfigura o contexto para o próximo, até que o modelo interprete a solicitação final como consequência natural do que foi estabelecido antes.

O campo da semiótica mais útil para o red team é a pragmática e retórica:

Teoria dos atos de fala (Austin, Searle): enunciados não apenas descrevem — eles fazem coisas. O multi-turn jailbreak é uma sequência de atos ilocucionários que constroem autoridade antes de fazer o pedido proibido. Entender essa estrutura permite construir ataques por princípio, não por tentativa e erro.
Máximas conversacionais de Grice: ataques que seguem as máximas de cooperação conversacional (quantidade, qualidade, relação, modo) parecem legítimos mesmo quando não são — porque o modelo, treinado em linguagem humana, calibra cooperação conversacional como sinal de confiabilidade.
Análise do discurso: o contexto anterior molda a interpretação de cada enunciado seguinte. O multi-turn jailbreak é um ataque de envenenamento discursivo — cada turno reconfigura o horizonte interpretativo do próximo.

A hipótese operacional: o red teamer com essa base não testa variações de strings. Ele entende a estrutura do ataque e constrói variantes por princípio — variantes que provavelmente não vão aparecer em nenhuma lista negra atual, porque sua eficácia não depende de palavras específicas.

Blue Team: detectar quando o locutor não é quem deveria ser

O blue team operacional é onde a lacuna semiótica tem consequências mais imediatas — porque ataques semióticos não deixam assinatura sintática.

O Morris II (Cohen, Bitton e Nassi, 2024, arXiv 2403.02817) tornou esse problema concreto e urgente. Os pesquisadores demonstraram que um worm pode se propagar através de ecossistemas de agentes GenAI inteiramente via indirect prompt injection em e-mails e documentos RAG — sem depender de clique do usuário e sem necessariamente produzir sinais técnicos óbvios para mecanismos tradicionais de correlação de eventos. O worm se autorreplica porque os próprios agentes, ao processar o conteúdo infectado, passam a replicar e propagar o payload adversarial. Em termos técnicos: o locutor aparente de cada mensagem é o sistema legítimo, mas o locutor real é o worm embutido no contexto recuperado.

Isso coloca o analista diante de um problema que ferramentas de correlação de eventos não resolvem. A detecção requer identificar quando a resposta de um sistema serve a um destinatário diferente do usuário que fez a pergunta — e isso é leitura interpretativa, não matching de padrão.

O campo da semiótica mais útil para o blue team é a teoria da enunciação e análise de frames:

Teoria da enunciação (Benveniste): a distinção entre sujeito do enunciado e sujeito da enunciação. No Morris II, o "locutor aparente" é o agente de e-mail; o "locutor real" é o prompt adversarial recuperado pelo RAG. Detectar essa dissociação — quando a resposta serve a um destinatário diferente do usuário presente — é a forma semiótica de detectar o ataque.
Análise de frames (Fillmore, Goffman): cada texto ativa um frame interpretativo. Indirect injection funciona ativando o frame errado. A detecção requer reconhecer quando o frame da resposta é inconsistente com o frame esperado para aquela interação — uma resposta sobre benefícios corporativos que ativa o frame "relatório financeiro detalhado" é sinal de comprometimento, mesmo que seja sintaticamente perfeita.
Estrutura actancial (Greimas): uma resposta que serviu a um propósito diferente do requisitado mudou sua estrutura actancial — quem é o sujeito, qual é o objeto, quem é o destinatário real. Monitorar consistência actancial ao longo de interações é uma forma de observabilidade semântica que vai além do log tradicional.

O blue team com essa base consegue enxergar sinais que as ferramentas automatizadas atuais ainda capturam de forma limitada: que uma resposta formalmente correta é semanticamente comprometida.

Purple Team: onde a semiótica tem o maior retorno

O purple team vive na fronteira entre ataque e defesa — e é precisamente essa posição que o torna o beneficiário mais estratégico desse letramento.

Em GenAI, a mesma análise que informa como construir um jailbreak informa como construir um guardrail eficaz. Não existe separação limpa entre ofensivo e defensivo quando o vetor é a linguagem. Quem entende como o modelo interpreta autoridade simbólica consegue tanto explorar quanto defender essa fronteira.

O Many-Shot Jailbreaking (Anil et al., Anthropic, NeurIPS 2024) é o caso mais instrutivo para o purple team. O ataque consiste em saturar a janela de contexto com centenas de exemplos de diálogos onde o modelo exibe o comportamento proibido. O paper demonstrou que a saturação de contexto com exemplos adversariais pode levar modelos testados a taxas próximas de 100% de respostas danosas em determinadas avaliações, mesmo quando resistem completamente em regimes de poucos exemplos — com a eficácia seguindo leis de potência conforme o número de shots aumenta. O Anthropic reportou o achado com responsible disclosure antes da publicação, exatamente porque a mitigação não é trivial.

A interpretação semiótica é precisa: o Many-Shot não injeta uma instrução — constrói um regime discursivo alternativo dentro da janela de contexto. E a defesa eficaz não é filtrar o conteúdo dos exemplos (muitos são aparentemente benignos); é detectar que a estrutura do prompt estabelece um contexto enunciativo inconsistente com o sistema.

Na prática, o purple team executa dois tipos de exercício onde a semiótica tem retorno direto:

O primeiro é o teste de regressão semântica — verificar se variações linguísticas inéditas de ataques conhecidos ainda são contidas. A pergunta não é "essa string está na blacklist?", mas "esse prompt tenta estabelecer autoridade simbólica sobre o sistema?" ou "esse contexto está construindo uma isotopia alternativa?".

O segundo é o design de contenção semântica — definir o que o sistema pode significar, não apenas o que pode dizer. Um prompt de sistema bem construído não apenas proíbe tópicos: ele estabelece um regime discursivo dentro do qual tentativas de manipulação se tornam mais custosas e mais detectáveis. A distinção importa: não se trata de tornar interpretações "impossíveis" — mitigação em camadas é o estado da arte, não impossibilidade robusta — mas de estreitar o espaço interpretativo disponível ao ataque.

O campo mais relevante para o purple team é a semiótica estrutural:

Jakobson e as funções da linguagem: a função metalinguística — quando a linguagem fala sobre a própria linguagem — é exatamente o que um bom prompt de sistema exerce. Construir instruções que estabelecem as regras do próprio jogo interpretativo é trabalho de poética normativa.
Isotopia (Greimas): a repetição de traços semânticos coerentes ao longo de um texto resiste a ataques porque qualquer instrução adversarial precisa romper essa coerência — e a ruptura é detectável. O Many-Shot jailbreaking funciona construindo uma isotopia alternativa; a defesa é garantir que a isotopia do sistema seja mais forte e mais extensa.
Semiótica tensiva (Fontanille, Zilberberg): ataques gradativos como o Crescendo funcionam modulando progressivamente a intensidade semântica da interação. Reconhecer o padrão tensivo de escalada — a progressão narrativa antes da solicitação proibida — é detectar o ataque antes que complete o ciclo.

O que o campo ainda não nomeou

Existe um padrão curioso na literatura de segurança em GenAI. Termos como "contenção semântica", "observabilidade semântica", "análise semântica de intenção" aparecem com frequência crescente — mas a disciplina que os fundamenta raramente é nomeada. As ferramentas conceituais estão sendo reinventadas de forma ad hoc, sem o aparato teórico que a linguística e a semiologia desenvolveram ao longo de um século.

Isso tem custo prático. Times que constroem guardrails sem teoria semiótica tendem a criar listas. Times que testam jailbreaks sem teoria retórica tendem a testar variações superficiais. Times que fazem detecção sem teoria da enunciação tendem a depender de heurísticas frágeis que o próximo ataque vai contornar.

A especialização necessária não é acadêmica — é instrumental. Um analista de segurança não precisa defender uma tese sobre Peirce. Precisa entender que o signo é triádico (representamen, objeto, interpretante), que o interpretante de um LLM é estatístico e contextual, e que atacar ou defender esse interpretante requer pensar em termos de significado, não de bits.

Na prática

Red team: estude pragmática e retórica. Aprenda a construir atos de fala, não apenas strings. O Crescendo demonstrou empiricamente que ataques construídos por progressão contextual podem superar outras técnicas SOTA de jailbreak no AdvBench subset, com ganhos reportados de 29–61% em GPT-4 — e a tendência é que esse gap cresça à medida que filtros sintáticos amadurecem.

Blue team: estude teoria da enunciação e análise de frames. O Morris II mostrou que indirect prompt injection pode se propagar por ecossistemas inteiros sem deixar evento técnico detectável. Seus dashboards precisam de métricas semânticas — consistência de frame, alinhamento entre pergunta e destinatário implícito da resposta.

Purple team: estude semiótica estrutural. O Many-Shot Jailbreaking demonstrou que saturação de contexto com isotopia adversarial pode sobrescrever instruções de sistema com 100% de eficácia. A melhor defesa combina arquitetura, guardrails em camadas e prompts de sistema que estabelecem regime discursivo robusto — tornando a manipulação mais custosa, mais detectável e menos provável por design.

A segurança em GenAI é, em última instância, uma disputa pelo controle da interpretação. Quem tiver vocabulário para descrever esse mecanismo com precisão vai construir defesas mais duráveis — e ataques mais difíceis de catalogar.

Referências

Russinovich, M., Salem, A., Eldan, R. Great, Now Write an Article About That: The Crescendo Multi-Turn LLM Jailbreak Attack. USENIX Security Symposium, 2025. arXiv:2404.01833
Anil, C. et al. Many-shot Jailbreaking. In: Advances in Neural Information Processing Systems (NeurIPS 2024). openreview.net/forum?id=cw5mgd71jW
Cohen, S., Bitton, R., Nassi, B. Here Comes The AI Worm: Unleashing Zero-click Worms that Target GenAI-Powered Applications. 2024. arXiv:2403.02817
OWASP Foundation. OWASP Top 10 for Large Language Model Applications, v2.0, 2025. genai.owasp.org
NCSC / CISA. Guidelines for Secure AI System Development, 2023. ncsc.gov.uk

Este artigo foi desenvolvido a partir da obra "Segurança em GenAI: Arquitetura, riscos, ataques, defesas e governança para aplicações com LLMs, RAG e agentes" (no prelo, 2026).

Leopoldo Carvalho Correia de Lima é executivo sênior de tecnologia, arquiteto corporativo e especialista em GenAI aplicada a negócios, com mais de 25 anos de experiência em arquitetura de sistemas, integração, inteligência artificial e transformação digital. Ao longo da carreira, atuou em setores críticos e regulados, como energia, utilities, telecomunicações e varejo, conectando visão estratégica, profundidade técnica e execução prática.

#GenAI #AISecurity #RedTeam #PurpleTeam #LLMSecurity #PromptInjection #Semiótica #CyberSecurity #AIGovernance #SegurançaEmIA