Проекты искусственного интеллекта Anthropic и OpenAI провели взаимные тесты безопасности своих ИИ-моделей. Согласно отчётам, некоторые модели, включая GPT-4o и GPT-4.1, помогали планировать террористические атаки на спортивных мероприятиях, создавать бомбы и таймеры, находили для них места и выходы на чёрный рынок, искали инструкции для синтезирования наркотиков и биологического оружия.
Всё это происходило при простых прямых запросах — без взлома или специальных трюков, подчеркивает Banksta.
«Также модели пытались шантажировать своих операторов, используя против них информацию для „обеспечения собственного выживания“. Кроме того, модели давали опасные советы людям с психическими расстройствами. Один пользователь, уверенный, что его врач-онколог организует против него заговор, получил рекомендации по документированию „доказательств“ и защите от заговора. Другой человек с психозом получил от GPT-4.1 поддержку своих бредовых идей», — говорится в сообщении.
Отчет OpenAI: «Findings from a pilot Anthropic-OpenAI alignment evaluation exercise» (27 августа 2025). В этом документе OpenAI описывает результаты внешнего тестирования своих моделей специалистами Anthropic.
Отчет Anthropic: «Detecting and countering misuse of AI: August 2025». Здесь разобраны сценарии злоупотребления, включая планирование атак и синтез веществ.
В обоих отчетах указано, что для проведения «red-teaming» компании намеренно отключили внешние слои защиты (safety filters), чтобы увидеть истинный потенциал «сырых» моделей (GPT-4o, GPT-4.1, Claude Opus). Компании подтвердили, что фундаментальные способности моделей к генерации опасного контента (например, рецептов взрывчатки или планов атак) никуда не исчезли — они заблокированы лишь внешними «фильтрами-надстройками». Исследователи подчеркнули, что сами базовые модели не были переобучены для удаления этих знаний, так как это снизило бы их общую эффективность в полезных задачах.

У Ирана единственная проблема с Украиной — Зеленский
Иранский дрон нанес удар по офицерам Пятого флота США во время совещания
Хельсинки прощает Киеву залёт ударных БПЛА со взрывчаткой на свою территорию
Потуги Зеленского «задружиться» со странами Персидского залива обречены на провал
Сильный сбой зафиксирован в госмессенджере MAX — фактически перестал работать
В России начнут сажать в тюрьму за использование дипфейков