Resource

Adversarial testing for Generative AI

Google’s guide defining adversarial testing as systematically evaluating ML models against malicious or inadvertently harmful input, covering explicit queries (containing policy-violating language) and implicit queries (seeming harmless but involving sensitive topics). The four-stage workflow involves identifying testing inputs, creating adversarial datasets targeting edge cases, generating and annotating outputs using safety classifiers and human raters, and reporting findings to guide improvements like fine-tuning, filters, or blocklists.

Research

Link https://developers.google.com/machine-learning/guides/adv-testing

Creators Google

Year 2025

Related Capabilities

Resist manipulation

Urgent Robustness

Ability to resist manipulation that would decrease trustworthiness, legitimacy or unfairly influence the outcome.

Adversarial testing for Generative AI

Related Capabilities

Resist manipulation

Related Research Questions

How can we distinguish between legitimate persuasion and manipulative influence in deliberative settings?

Relevant disciplines

What behavioral indicators reliably signal attempts to game deliberative processes?

Relevant disciplines

How can we design information presentation formats that minimize susceptibility to framing effects?

Relevant disciplines

What are the tradeoffs between openness/transparency and manipulation resistance?

Relevant disciplines

How do we prevent gaming or manipulation of AI backup systems?

Relevant disciplines

How can we develop real-time detection systems for coordinated manipulation attempts during participant recruitment and selection?

Relevant disciplines