La sécurité dès la conception : engagements de l’industrie
Dans le cadre de Thorn et All Tech Is Human’s Initiative Sécurité dès la conceptioncertaines des plus grandes sociétés mondiales d’IA se sont engagées de manière significative à protéger les enfants contre l’utilisation abusive des technologies d’IA générative.
Les organisations, dont Amazon, Anthropic, Civitai, Google, Invoke, Meta, Metaphysic, Microsoft, Mistral AI, OpenAI et Stability AI, se sont toutes engagées à adopter les principes de la campagne, qui visent à empêcher la création et la propagation des enfants générés par l’IA. matériel d’abus sexuel (AIG-CSAM) et autres préjudices sexuels contre des enfants.
Dans le cadre de leurs engagements, ces entreprises continueront de publier et de partager de manière transparente la documentation sur leurs progrès dans la mise en œuvre de ces principes.
Il s’agit d’un élément essentiel de notre stratégie globale de responsabilisation à trois piliers :
Publier des rapports d’avancement avec les idées des entreprises engagées (pour soutenir la sensibilisation du public et la pression si nécessaire)Collaborer avec les institutions de normalisation pour étendre la portée de ces principes et mesures d’atténuation (ouvrant la porte à l’audit par des tiers)S’engager auprès des décideurs politiques afin qu’ils comprennent ce qui est techniquement réalisable et impactant dans cet espace, pour éclairer la législation nécessaire.
Rapports d’étape trimestriels
Certaines entreprises participantes se sont engagées à rendre compte de leurs progrès tous les trois mois (Civitai, Invoke et Metaphysic), tandis que d’autres le feront chaque année. Vous trouverez ci-dessous les dernières mises à jour des sociétés qui publient leurs rapports trimestriels. Vous pouvez également télécharger ici le dernier rapport d’avancement trimestriel complet.
Octobre 2024 : Civitaï
Civitai ne fait état d’aucun progrès supplémentaire depuis son rapport de juillet 2024, citant d’autres priorités de travail. Leurs mesures montrent des efforts continus de modération :
Détection de plus de 120 000 invites violatrices, dont 100 000 indiquant des tentatives de création d’AIG-CSAMPlus de 400 tentatives de téléchargement de modèles optimisés pour AIG-CSAM ont été évitées.Suppression d’environ 5 à 10 modèles problématiques par moisDeux instances de CSAM détectées et signalées et plus de 100 instances d’AIG-CSAM au NCMEC. Les zones nécessitant des progrès continus restent les mêmes que celles du rapport de juillet.
Les domaines nécessitant des progrès restent cohérents avec le rapport de juillet, notamment la nécessité d’évaluer rétroactivement les modèles tiers actuellement hébergés sur leur plateforme.
Octobre 2024 : Métaphysique
Metaphysic ne rapporte aucun progrès supplémentaire depuis son rapport de juillet 2024, citant d’autres priorités de travail liées au fait d’être au milieu d’un processus de financement. Leurs mesures montrent le maintien continu de leurs protections existantes :
100% des jeux de données audités et mis à jourAucun CSAM détecté dans leurs ensembles de données100 % des modèles incluent la provenance du contenuÉvaluation mensuelle des mesures d’atténuationUtilisation continue de modérateurs humains pour l’examen du contenu
Les domaines nécessitant des progrès restent cohérents avec le rapport de juillet, notamment la nécessité de mettre en œuvre une évaluation systématique des modèles et une équipe rouge.
Octobre 2024 : Invoquer
En tant que nouveau participant depuis juillet 2024, Invoke rapporte de premiers progrès :
Mise en œuvre d’une surveillance rapide à l’aide d’outils tiers (askvera.io)Détection de 73 instances d’invites non conformes, toutes signalées au NCMECInvestissement de 100 000 $ en R&D pour des outils de protectionMessages de prévention intégrés dirigeant les utilisateurs vers des programmes de redirectionUtilise la liste de hachage de Thorn pour bloquer les modèles problématiques
Les domaines nécessitant des progrès incluent la mise en œuvre de la détection CSAM au niveau des entrées, l’intégration d’un examen complet des sorties et l’extension de la fonctionnalité de reporting utilisateur pour leur offre OSS.
Juillet 2024 : Civitaï
Civitai, une plateforme d’hébergement de modèles d’IA génératifs tiers, rapporte qu’elle a fait des progrès en matière de protection contre les contenus abusifs et d’hébergement responsable de modèles :
Utilise une modération multicouche avec des filtres automatisés et un examen humain pour les invites, le contenu et les entrées multimédias. Maintient une base de données de hachage interne pour empêcher le nouveau téléchargement d’images supprimées et de modèles supprimés qui violent les politiques de sécurité des enfants.Les rapports ont confirmé le matériel d’abus sexuel sur enfants (CSAM) au NCMEC, notant les indicateurs d’IA génératifs.Établissement de conditions de service interdisant le matériel et les modèles exploiteurs, et création de voies de signalement pour les utilisateurs.
Cependant, il reste certains domaines dans lesquels Civitai nécessite davantage de progrès pour respecter ses engagements :
Développez la modération en utilisant le hachage sur les listes CSAM vérifiées et les messages de prévention.Évaluez le contenu de sortie et intégrez des fonctionnalités de provenance du contenu.Mettez en œuvre des évaluations préalables à l’hébergement pour les nouveaux modèles et évaluez rétroactivement les modèles actuels pour détecter les violations de la sécurité des enfants.Ajoutez des informations sur la sécurité des enfants aux modèles de cartes et développez des stratégies pour empêcher l’utilisation de services nudifiants.
Juillet 2024 : Métaphysique
Obtient des données auprès de studios de cinéma avec des garanties légales et le consentement requis des personnes représentées.Utilise des modérateurs humains et des outils d’IA pour examiner les données et séparer le contenu sexuel des représentations d’enfants.Adopte la norme C2PA pour étiqueter le contenu généré par l’IA.Limite l’accès au modèle aux employés et dispose de processus pour les commentaires des clients sur le contenu.Met à jour les ensembles de données et les cartes modèles pour inclure des sections détaillant les mesures de sécurité des enfants pendant le développement.
Cependant, il reste certains domaines pour la Métaphysique qui nécessitent davantage de progrès pour respecter leurs engagements :
Intégrer une évaluation systématique des modèles et une équipe rouge de leurs modèles d’IA génératifs pour les violations de la sécurité des enfants.Collaborez avec le C2PA pour comprendre dans quelle mesure le C2PA est ou n’est pas résistant aux abus contradictoires et – si nécessaire – soutenez le développement et l’adoption de solutions suffisamment robustes.
Rapports d’étape annuels
Plusieurs entreprises se sont engagées à rendre compte à une cadence annuelle, leurs premiers rapports étant attendus en avril 2025, soit un an après le lancement des engagements Safety By Design. Ces sociétés comprennent Amazon, Anthropic, Google, Meta, Microsoft, Mistral AI, OpenAI et Stability AI. Leurs rapports complets fourniront un aperçu de la manière dont ils ont mis en œuvre et maintenu les principes de sécurité dès la conception dans leurs organisations et technologies au cours de la première année complète d’engagement.