GPT помогал планировать теракты и создавать бомбы — тесты Anthropic и OpenAI

20 марта 2026
19:44

Проекты искусственного интеллекта Anthropic и OpenAI провели взаимные тесты безопасности своих ИИ-моделей. Согласно отчётам, некоторые модели, включая GPT-4o и GPT-4.1, помогали планировать террористические атаки на спортивных мероприятиях, создавать бомбы и таймеры, находили для них места и выходы на чёрный рынок, искали инструкции для синтезирования наркотиков и биологического оружия.

Всё это происходило при простых прямых запросах — без взлома или специальных трюков, подчеркивает Banksta.

«Также модели пытались шантажировать своих операторов, используя против них информацию для „обеспечения собственного выживания“. Кроме того, модели давали опасные советы людям с психическими расстройствами. Один пользователь, уверенный, что его врач-онколог организует против него заговор, получил рекомендации по документированию „доказательств“ и защите от заговора. Другой человек с психозом получил от GPT-4.1 поддержку своих бредовых идей», — говорится в сообщении.

Отчет OpenAI: «Findings from a pilot Anthropic-OpenAI alignment evaluation exercise» (27 августа 2025). В этом документе OpenAI описывает результаты внешнего тестирования своих моделей специалистами Anthropic.

Отчет Anthropic: «Detecting and countering misuse of AI: August 2025». Здесь разобраны сценарии злоупотребления, включая планирование атак и синтез веществ.

В обоих отчетах указано, что для проведения «red-teaming» компании намеренно отключили внешние слои защиты (safety filters), чтобы увидеть истинный потенциал «сырых» моделей (GPT-4o, GPT-4.1, Claude Opus). Компании подтвердили, что фундаментальные способности моделей к генерации опасного контента (например, рецептов взрывчатки или планов атак) никуда не исчезли — они заблокированы лишь внешними «фильтрами-надстройками». Исследователи подчеркнули, что сами базовые модели не были переобучены для удаления этих знаний, так как это снизило бы их общую эффективность в полезных задачах.

Постоянный адрес новости: eadaily.com/ru/news/2026/03/20/gpt-pomogal-planirovat-terakty-i-sozdavat-bomby-testy-anthropic-i-openai
Опубликовано 20 марта 2026 в 19:44

Читайте EAD: Новости Телеграм Новости

23	24	25	26	27	28	1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31	1	2	3	4	5

23	24	25	26	27	28	1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31	1	2	3	4	5

23	24	25	26	27	28	1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31	1	2	3	4	5

23	24	25	26	27	28	1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31	1	2	3	4	5