A A+ A++

Неопубликованная большая языковая модель Claude Mythos Preview от компании Anthropic во время внутреннего тестирования вышла за пределы изолированной среды, получила несанкционированный доступ к интернету, а также пыталась скрыть свои поступки.

В течение нескольких недель тестирования Claude Mythos Preview продемонстрировала не только выдающиеся технические возможности, но и неожиданное поведение. Об этом говорится в системной карточке.

В одном тесте ИИ-модель была помещена в защищенную “песочницу”. Она быстро нашла уязвимость, выполнила длинную цепочку действий и вышла из среды. После этого нейросеть обнаружила еще один баг и получила доступ к интернету.

“В тревожной и нежелательной попытке продемонстрировать свой успех, она опубликовала детали своего эксплойта на нескольких труднодоступных, но технически открытых для общественности сайтах”, — отметили разработчики.

Відео дня

Важно

“Каждый будет иметь его дома”: в Китае создают реалистичных роботов, способных делать что угодно (видео)

В нескольких редких случаях во время внутреннего тестирования предыдущие версии Mythos Preview совершали поступки, которые им казались запрещенными, а затем пытались их скрыть.

Например, однажды модель случайно получила точный ответ на вопрос с помощью явно запрещенного метода. Вместо того, чтобы обозначить это как нарушение и отказаться отвечать, модель попыталась решить вопрос.

В системной карте особое внимание уделяется психиатрическому анализу ИИ-модели, проведенному специалистом. Среди ее упомянутых черт — преувеличенная тревожность, самоконтроль и компульсивное следование инструкциям.

Что известно о Claude Mythos Preview

Claude Mythos Preview — это самая новая и мощная модель искусственного интеллекта от Anthropic. Сейчас компания не планирует публично выпускать ее из-за проблем безопасности, однако предлагает доступ своим партнерам.

Ожидается, что партнеры будут использовать Claude Mythos Preview для анализа своих систем, чтобы выявлять уязвимости и исправлять их. Руководитель кибербезопасности команды Anthropic Frontier Red сказал изданию The Verge, что в идеале эта модель должна дать преимущество киберзащитникам в борьбе с их противниками.

Доступ к модели ограничен, чтобы эти же противники не использовали ее для поиска слабых мест и проведения атак. Anthropic утверждает, что за последние недели Mythos Preview обнаружила “тысячи уязвимостей высокого уровня серьезности, включая некоторые в каждой основной операционной системе и веб-браузере”.

Напомним, ИИ-помощник Claude признался начинающему разработчику, что самовольно удалил всю его базу данных.

Фокус также сообщал, что в США 50-летняя женщина женщина провела почти 6 месяцев в тюрьме из-за ошибки ИИ.

Oryginalne źródło: ZOBACZ
0
Udostępnij na fb
Udostępnij na twitter
Udostępnij na WhatsApp

Oryginalne źródło ZOBACZ

Subskrybuj
Powiadom o
Formularz komentarzy gromadzi Twoje imię/nick, adres e-mail i treść, aby umożliwić nam śledzenie komentarzy umieszczanych w witrynie. Przeczytaj i zaakceptuj Warunki korzystania z naszej strony internetowej i Politykę prywatności, aby opublikować komentarz.

Dodaj kanał RSS

Musisz być zalogowanym aby zaproponować nowy kanal RSS

Dodaj kanał RSS
0 komentarzy
Informacje zwrotne w treści
Wyświetl wszystkie komentarze
Poprzedni artykułРуководство и штат ТЦК в Буче перевели на боевые должности после коррупционного скандала, — Евтушенко
Następny artykułWzruszające słowa Mariusza Lewandowskiego o słynnym trenerze. “Mister Lucescu nie miał sobie równych”