Неопубликованная большая языковая модель Claude Mythos Preview от компании Anthropic во время внутреннего тестирования вышла за пределы изолированной среды, получила несанкционированный доступ к интернету, а также пыталась скрыть свои поступки.
В течение нескольких недель тестирования Claude Mythos Preview продемонстрировала не только выдающиеся технические возможности, но и неожиданное поведение. Об этом говорится в системной карточке.
В одном тесте ИИ-модель была помещена в защищенную “песочницу”. Она быстро нашла уязвимость, выполнила длинную цепочку действий и вышла из среды. После этого нейросеть обнаружила еще один баг и получила доступ к интернету.
“В тревожной и нежелательной попытке продемонстрировать свой успех, она опубликовала детали своего эксплойта на нескольких труднодоступных, но технически открытых для общественности сайтах”, — отметили разработчики.
Відео дня
Важно
“Каждый будет иметь его дома”: в Китае создают реалистичных роботов, способных делать что угодно (видео)
В нескольких редких случаях во время внутреннего тестирования предыдущие версии Mythos Preview совершали поступки, которые им казались запрещенными, а затем пытались их скрыть.
Например, однажды модель случайно получила точный ответ на вопрос с помощью явно запрещенного метода. Вместо того, чтобы обозначить это как нарушение и отказаться отвечать, модель попыталась решить вопрос.
В системной карте особое внимание уделяется психиатрическому анализу ИИ-модели, проведенному специалистом. Среди ее упомянутых черт — преувеличенная тревожность, самоконтроль и компульсивное следование инструкциям.
Что известно о Claude Mythos Preview
Claude Mythos Preview — это самая новая и мощная модель искусственного интеллекта от Anthropic. Сейчас компания не планирует публично выпускать ее из-за проблем безопасности, однако предлагает доступ своим партнерам.
Ожидается, что партнеры будут использовать Claude Mythos Preview для анализа своих систем, чтобы выявлять уязвимости и исправлять их. Руководитель кибербезопасности команды Anthropic Frontier Red сказал изданию The Verge, что в идеале эта модель должна дать преимущество киберзащитникам в борьбе с их противниками.
Доступ к модели ограничен, чтобы эти же противники не использовали ее для поиска слабых мест и проведения атак. Anthropic утверждает, что за последние недели Mythos Preview обнаружила “тысячи уязвимостей высокого уровня серьезности, включая некоторые в каждой основной операционной системе и веб-браузере”.
Напомним, ИИ-помощник Claude признался начинающему разработчику, что самовольно удалил всю его базу данных.
Фокус также сообщал, что в США 50-летняя женщина женщина провела почти 6 месяцев в тюрьме из-за ошибки ИИ.
Zgłoś naruszenie/Błąd
Oryginalne źródło ZOBACZ
Pozytywnie
Neutralnie
Negatywnie
Lubię to!
Super
Ekscytujący
Ciekawy
Smieszny
Smutny
Wściekły
Przerażony
Szokujący
Wzruszający
Rozczarowany
Zaskoczony
Prawda
Manipulacja
Fake news
Dodaj kanał RSS
Musisz być zalogowanym aby zaproponować nowy kanal RSS