Il y a trois mois, certains des leaders mondiaux de l’IA ont pris un engagement sans précédent pour protéger les enfants contre l’utilisation abusive des technologies d’IA générative.
En collaboration avec Thorn et All Tech Is Human, Amazon, Anthropic, Civitai, Google, Meta, Metaphysic, Microsoft, Mistral AI, OpenAI et Stability AI se sont engagés à adopter les principes de sécurité dès la conception. se prémunir contre la création et la diffusion de matériels d’abus sexuels sur enfants générés par l’IA (AIG-CSAM) et d’autres préjudices sexuels contre des enfants.
Dans le cadre de leur engagement, ces entreprises ont accepté de publier et de partager de manière transparente la documentation sur leurs progrès dans la mise en œuvre de ces principes. Il s’agit d’un élément essentiel de notre stratégie globale de responsabilisation à trois piliers : 1) publier des rapports d’avancement avec les idées des entreprises engagées (pour soutenir la sensibilisation du public et faire pression si nécessaire), 2) collaborer avec des institutions de normalisation telles que l’IEEE et le NIST pour étendre la portée de ces principes et mesures d’atténuation (en ouvrant la porte à l’audit par des tiers) et 3) s’engager auprès des décideurs politiques afin qu’ils comprennent ce qui est techniquement réalisable et ayant un impact dans cet espace, pour éclairer la législation nécessaire. Aujourd’hui, nous partageons le premier rapport d’étape sur trois mois axé sur deux sociétés : Civitai et Metaphysic.
Pourquoi maintenant ? L’urgence du moment
La nécessité de cette réponse proactive autour de la sécurité de l’IA générative n’a jamais été aussi claire. (En fait, notre vice-présidente de la science des données, Dr Rebecca Portnoff, en avons discuté avec d’autres dirigeants du secteur lors d’un panel à la TrustCon cet été).
Les technologies d’IA générative, bien que potentiellement utiles dans de nombreux cas, présentent également de graves risques pour la sécurité des enfants lorsqu’elles sont mal utilisées. Les mauvais acteurs peuvent désormais facilement générer de nouveaux contenus abusifs, sexualiser des images inoffensives d’enfants et intensifier leurs efforts de manipulation et de sextorsion.
Nos dernières données montrent que Même si la prévalence des AIG-CSAM photoréalistes dans les communautés dédiées aux abus sexuels sur enfants reste faible, elle augmente. Ce matériau est de plus en plus photoréaliste, avec 82 % des images échantillonnées apparaissant désormais photoréalistes, contre 66 % en juin 2023.
De plus, 1 mineur sur 10 signalé ils connaissaient des cas où leurs pairs avaient généré des images nues d’autres enfants.
Ces tendances continuent de souligner l’importance cruciale des principes de la sécurité dès la conception et des engagements pris par les leaders de l’industrie de l’IA.
Voyons maintenant comment Civitai et Metaphysic ont progressé dans la mise en œuvre de ces principes au cours des trois derniers mois. Nous résumons ces progrès ci-dessous – voir le rapport complet ici – et notons que toutes les données rapportées ci-dessous et dans le rapport complet ont été fournies à Thorn par les sociétés respectives et n’ont pas été indépendamment vérifié par Thorn. Pour plus information concernant la collecte de données pratiques et droits d’usageveuillez consulter le rapport complet ici.
Civitai : progrès sur trois mois :
Civitai, une plate-forme d’hébergement de modèles d’IA génératifs tiers, rapporte qu’elle a réalisé des progrès en matière de protection contre les contenus abusifs et d’hébergement de modèles responsable.
Pour leurs modèles hébergés dans le cloud, ils ont mis en œuvre une approche de modération à plusieurs niveaux qui combine des filtres automatisés et un examen humain pour filtrer les demandes de génération de contenu et les entrées multimédias. Ce système utilise la détection de mots clés et des modèles d’IA pour signaler les invites de saisie et les images potentiellement en violation (en faisant apparaître des messages de prévention le cas échéant), tout le contenu signalé étant soumis à un examen humain. Ils maintiennent également une base de données de hachage interne des images précédemment supprimées pour empêcher leur nouveau téléchargement.
En outre, les cas confirmés de matériel d’abus sexuel sur des enfants sont désormais signalés au Centre national pour les enfants disparus et exploités (NCMEC) (avec le signalement de l’IA générative le cas échéant). Ils étendent cette approche multicouche similaire pour modérer tous les médias téléchargés hébergés sur leur plate-forme.
Civitai a également établi des conditions de service interdisant le matériel exploitable, a utilisé de nouvelles technologies telles que des membranes semi-perméables pour atténuer la génération de contenu nuisible dans ses modèles hébergés dans le cloud, et a créé des moyens permettant aux utilisateurs de signaler un contenu (les deux contenus générés par des modèles hébergés dans le cloud). , et plus généralement tout média mis en ligne hébergé sur leur plateforme). Ils ont également mis en place un système pour signaler et supprimer les modèles tiers qui violent leurs politiques de sécurité des enfants, en ajoutant ces modèles aux listes de hachage internes afin que les tentatives de téléchargement de ces modèles puissent être bloquées.
Il reste certains domaines qui nécessitent davantage de progrès pour respecter leurs engagements.
Civitai devra notamment mettre en œuvre le hachage et la mise en correspondance avec des listes CSAM vérifiées dans l’ensemble de ses interventions pour une détection plus robuste, et étendre les messages de prévention à sa fonctionnalité de recherche. Ils devront également développer des stratégies pour évaluer le contenu de sortie généré par leurs modèles hébergés dans le cloud et intégrer la provenance du contenu dans ce contenu généré. Ils devront également évaluer les modèles nouvellement téléchargés pour détecter les violations de la sécurité des enfants avant d’héberger ces modèles. De même, ils devront intégrer des évaluations systématiques et rétroactives des modèles actuellement hébergés pour respecter leurs engagements. Ils devront également intégrer une section sur la sécurité des enfants pour les cartes modèles dans leur plate-forme, de sorte que chaque modèle soit associé à des informations décrivant les étapes prises pour donner la priorité à la sécurité des enfants dans le développement du modèle.
En outre, ils devront déterminer une stratégie pour empêcher le téléchargement et l’utilisation de services et de modèles nudifiants hébergés sur leur site, pour des représentations nudifiantes/sexualisantes d’enfants.
Pour plus de détails sur la manière dont Civitai a progressé dans le respect de ses engagements et sur les domaines où il reste encore du travail à faire, consultez le rapport complet ici.
Métaphysique : Progrès sur trois mois :
Metaphysic, qui développe des modèles d’IA génératifs de première partie pour créer du contenu vidéo d’IA génératif photoréaliste pour les studios de cinéma, rapporte également qu’ils ont réalisé des progrès pour protéger leur processus de développement d’IA et garantir un hébergement responsable des modèles.
La société obtient des données directement auprès des studios de cinéma avec des garanties contractuelles contre le matériel illégal. Ils exigent également que les studios obtiennent le consentement des personnes représentées dans les données avant de partager les données. Cette approche vise à fournir une base juridique et éthique à la formation ML/IA, réduisant ainsi le risque d’utilisation par inadvertance de contenus exploiteurs.
Metaphysic emploie également des modérateurs humains pour examiner toutes les données reçues et les médias générés. Ils ont également mis en œuvre des outils ML/AI pour détecter et séparer le contenu sexuel des représentations d’enfants dans les données de formation, contribuant ainsi à prévenir les associations inappropriées. De plus, Metaphysic a adopté la Coalition for Content Provenance and Authenticity (C2PA) dans leurs pipelines de données, pour faciliter la vérification de l’origine et de l’authenticité du contenu généré par l’IA.
La stratégie de Metaphysic pour déployer de manière responsable ses modèles se concentre sur le contrôle de l’accès à ses modèles génératifs (en limitant l’accès aux seuls employés de Metaphysic). Ils ont également mis en place des processus pour recevoir régulièrement des commentaires de leurs clients, y compris tout retour lié à un contenu susceptible de contenir du matériel illégal ou contraire à l’éthique. De plus, leurs processus internes ont été mis à jour de telle sorte que tous les ensembles de données et cartes modèles contiennent désormais une section sur la sécurité des enfants détaillant les étapes prises lors du développement du modèle pour donner la priorité à la sécurité des enfants.
Il reste certains domaines qui nécessitent davantage de progrès pour respecter leurs engagements. Metaphysic devra intégrer une équipe rouge cohérente et une évaluation du modèle pour les violations de la sécurité des enfants dans son processus de développement de modèle. Cela impliquera des tests de résistance systématiques de leurs modèles pour identifier les vulnérabilités potentielles que les mauvais acteurs pourraient exploiter.
De plus, même si le C2PA a construit une base technologique solide que les entreprises peuvent adopter, il n’a pas été conçu dans l’optique d’une utilisation abusive contradictoire. Afin de respecter cet engagement, Metaphysic devra s’engager avec le C2PA pour mieux comprendre dans quelle mesure le C2PA est et n’est pas résistant aux abus contradictoires et – si nécessaire – soutenir le développement et l’adoption de solutions suffisamment robustes.
Pour plus de détails sur la manière dont Metaphysic a progressé dans le respect de ses engagements et sur les domaines où il reste encore du travail à faire, consultez le rapport complet ici.