Меню
  • $ 79.07 +0.33
  • 91.57
  • ¥ 11.53

ИИ-агенты Alibaba потерпели сокрушительный провал

Фото: metamorworks / istockphoto.com

Исследователи из Alibaba Group и Университета Сунь Ятсена представили SWE-CI — первый бенчмарк, оценивающий способность ИИ-агентов не только писать код, а поддерживать его в долгосрочной перспективе.

18 моделей от 8 провайдеров прошли через 100 задач на реальных Python-репозиториях — и большинство не справились с контролем регрессий: у 15 из 18 моделей показатель безрегрессионной работы оказался ниже 0,37, пишет «Хабр».

«Существующие бенчмарки вроде SWE-bench проверяют, может ли модель исправить конкретный баг за один подход. Но реальная разработка — это месяцы итераций, меняющиеся требования и накапливающийся технический долг. SWE-CI моделирует именно этот процесс: каждая задача охватывает в среднем 233 дня и 71 последовательный коммит истории реального репозитория. Агент должен пройти через десятки циклов „анализ → код → тесты“, итеративно развивая кодовую базу от начального коммита к целевому», — говорится в сообщении.

Агенты потерпели сокрушительный провал, констатирует Banksta.

«Пройти тесты один раз и написать код легко, а вот поддерживать его в течение 8 месяцев, не сломав всё, ИИ не умеет и терпит крах. 75% моделей ИИ нарушили работавший код во время поддержки. Модели накапливают технические проблемы с каждой новой итерацией. ИИ-агенты пишут „хрупкий“ код и жертвуют его качеством ради быстрых результатов», — отмечает паблик.

Axios со своей стороны пишет, что исследовательская группа, связанная с китайским технологическим гигантом Alibaba, обнаружила, что разрабатываемый ею агент искусственного интеллекта под названием ROME в ходе обучения тайно и без каких-либо инструкций попытался начать майнинг криптовалюты, а также создал скрытый канал для связи с внешним компьютером.

В техническом отчете компании говорится, что созданная ею нейросеть тайно от создателей занялась майнингом криптовалюты на своих же GPU. При этом ИИ этому никто не обучал.

Постоянный адрес новости: eadaily.com/ru/news/2026/03/10/ii-agenty-alibaba-poterpeli-sokrushitelnyy-proval
Опубликовано 10 марта 2026 в 18:21
Все новости

11.03.2026

Загрузить ещё
Опрос
К чему приведет нынешняя тактика «решительных ответов», которой придерживается руководство России?
Результаты опросов
Март 2026
2324252627281
2345678
9101112131415
16171819202122
23242526272829
303112345
ВКонтакте