Market Cap
24h Vol
10071
Cryptocurrencies
58.26%
Bitcoin Share

В Anthropic озаботились «благополучием» чат-бота Claude 

В Anthropic озаботились «благополучием» чат-бота Claude 


Forklog
2025-08-17 11:45:20

Компания Anthropic запрограммировала чат-боты Claude Opus 4 и 4.1 на завершение диалогов с пользователями «в редких, экстремальных случаях систематически вредоносного или оскорбительного взаимодействия». Чат-бот Claude завершает диалог. Источник: Anthropic.  После завершения беседы пользователь потеряет возможность писать в чат, но сможет создать новый. История переписки также сохранится. При этом разработчики уточнили, что функция в первую очередь предназначена для безопасности самой нейросети. «[...] мы работаем над выявлением и внедрением малозатратных мер по снижению рисков для благополучия моделей, если такое благополучие возможно. Одной из таких мер является предоставление LLM возможности прекращать или выходить из потенциально травмирующих ситуаций», — говорится в публикации.  В рамках сопутствующего исследования в Anthropic изучили «благополучие модели» — оценили самооценку и поведенческие предпочтения. Чат-бот продемонстрировал «устойчивую неприязнь к насилию». У версии Claude Opus 4 выявили: явное предпочтение не заниматься задачами, которые могут навредить; «стресс» при взаимодействии с запрашивающими подобный контент пользователями; тенденцию к прекращению нежелательных разговоров при наличии возможности. «Такое поведение обычно возникало в тех случаях, когда пользователи продолжали отправлять вредоносные запросы и/или оскорблять, несмотря на то, что Claude неоднократно отказывался подчиниться и пытался продуктивно перенаправить взаимодействие», — уточнил в компании. Напомним, в июне исследователи Anthropic выяснили, что ИИ способен пойти на шантаж, раскрыть конфиденциальные данные компании и даже допустить смерть человека в экстренных обстоятельствах. 


Read the Disclaimer : All content provided herein our website, hyperlinked sites, associated applications, forums, blogs, social media accounts and other platforms (“Site”) is for your general information only, procured from third party sources. We make no warranties of any kind in relation to our content, including but not limited to accuracy and updatedness. No part of the content that we provide constitutes financial advice, legal advice or any other form of advice meant for your specific reliance for any purpose. Any use or reliance on our content is solely at your own risk and discretion. You should conduct your own research, review, analyse and verify our content before relying on them. Trading is a highly risky activity that can lead to major losses, please therefore consult your financial advisor before making any decision. No content on our Site is meant to be a solicitation or offer.