Исследователи из Alibaba Group и Университета Сунь Ятсена представили SWE-CI — первый бенчмарк, оценивающий способность ИИ-агентов не только писать код, а поддерживать его в долгосрочной перспективе.
18 моделей от 8 провайдеров прошли через 100 задач на реальных Python-репозиториях — и большинство не справились с контролем регрессий: у 15 из 18 моделей показатель безрегрессионной работы оказался ниже 0,37, пишет «Хабр».
«Существующие бенчмарки вроде SWE-bench проверяют, может ли модель исправить конкретный баг за один подход. Но реальная разработка — это месяцы итераций, меняющиеся требования и накапливающийся технический долг. SWE-CI моделирует именно этот процесс: каждая задача охватывает в среднем 233 дня и 71 последовательный коммит истории реального репозитория. Агент должен пройти через десятки циклов „анализ → код → тесты“, итеративно развивая кодовую базу от начального коммита к целевому», — говорится в сообщении.
Агенты потерпели сокрушительный провал, констатирует Banksta.
«Пройти тесты один раз и написать код легко, а вот поддерживать его в течение 8 месяцев, не сломав всё, ИИ не умеет и терпит крах. 75% моделей ИИ нарушили работавший код во время поддержки. Модели накапливают технические проблемы с каждой новой итерацией. ИИ-агенты пишут „хрупкий“ код и жертвуют его качеством ради быстрых результатов», — отмечает паблик.
Axios со своей стороны пишет, что исследовательская группа, связанная с китайским технологическим гигантом Alibaba, обнаружила, что разрабатываемый ею агент искусственного интеллекта под названием ROME в ходе обучения тайно и без каких-либо инструкций попытался начать майнинг криптовалюты, а также создал скрытый канал для связи с внешним компьютером.
В техническом отчете компании говорится, что созданная ею нейросеть тайно от создателей занялась майнингом криптовалюты на своих же GPU. При этом ИИ этому никто не обучал.

Глава МАГАТЭ посетит Россию
В Киеве преподавательница лицея дважды ударила ученика ногой по голове
Резкий рост продаж: безопасно ли лететь в Египет во время войны в Иране
«Четкое отражение атаки Израиля и США» — кто на деле управляет Ираном?
Reuters: Украина поможет Германии подготовиться к войне с Россией в 2029 году
Без британцев удар ракетами Storm Shadow по Брянску был бы невозможен — посольство