ИИ-агенты Alibaba потерпели сокрушительный провал

Фото: metamorworks / istockphoto.com
полная версия на сайте

Исследователи из Alibaba Group и Университета Сунь Ятсена представили SWE-CI — первый бенчмарк, оценивающий способность ИИ-агентов не только писать код, а поддерживать его в долгосрочной перспективе.

18 моделей от 8 провайдеров прошли через 100 задач на реальных Python-репозиториях — и большинство не справились с контролем регрессий: у 15 из 18 моделей показатель безрегрессионной работы оказался ниже 0,37, пишет «Хабр».

«Существующие бенчмарки вроде SWE-bench проверяют, может ли модель исправить конкретный баг за один подход. Но реальная разработка — это месяцы итераций, меняющиеся требования и накапливающийся технический долг. SWE-CI моделирует именно этот процесс: каждая задача охватывает в среднем 233 дня и 71 последовательный коммит истории реального репозитория. Агент должен пройти через десятки циклов „анализ → код → тесты“, итеративно развивая кодовую базу от начального коммита к целевому», — говорится в сообщении.

Агенты потерпели сокрушительный провал, констатирует Banksta.

«Пройти тесты один раз и написать код легко, а вот поддерживать его в течение 8 месяцев, не сломав всё, ИИ не умеет и терпит крах. 75% моделей ИИ нарушили работавший код во время поддержки. Модели накапливают технические проблемы с каждой новой итерацией. ИИ-агенты пишут „хрупкий“ код и жертвуют его качеством ради быстрых результатов», — отмечает паблик.

Axios со своей стороны пишет, что исследовательская группа, связанная с китайским технологическим гигантом Alibaba, обнаружила, что разрабатываемый ею агент искусственного интеллекта под названием ROME в ходе обучения тайно и без каких-либо инструкций попытался начать майнинг криптовалюты, а также создал скрытый канал для связи с внешним компьютером.

В техническом отчете компании говорится, что созданная ею нейросеть тайно от создателей занялась майнингом криптовалюты на своих же GPU. При этом ИИ этому никто не обучал.

Постоянный адрес новости: eadaily.com/ru/news/2026/03/10/ii-agenty-alibaba-poterpeli-sokrushitelnyy-proval
Опубликовано 10 марта 2026 в 18:21