О чём фантазирует ИИ, если не об электроовцах?
Поговорили с Денисом Коротяевым, руководителем подразделения ИИ и аналитики в Big Data Future Crew, о том, как устроено мышление языковых моделей и почему их ответы бывают неожиданными.
Future Crew
Блок инноваций ПАО «МТС»
Dictionary.com назвал галлюцинации искусственного интеллекта словом 2023 года. Языковые модели умеют создавать ответ даже тогда, когда у них нет точной информации, а ещё они могут предлагать разные варианты решения одной и той же задачи. Как обучить модель быть в одних ситуациях точной, а в других — изобретательной и креативной?
«Температура вероятностей»
Языковая модель получает «затравку» (англ.: promt), которую мы ей передали, и создаёт максимально подходящее по смыслу продолжение исходя из того, на чём она обучилась. Для этого у моделей есть такой параметр — температура — можно назвать его энтропией. Допустим, у тебя есть предложение из пяти слов, тебе нужно вставить следующее, шестое. У модели есть распределение вероятностей, каким должно быть следующее слово.
Если температура или энтропия равна нулю, то языковая модель выбирает наиболее вероятное слово, которое должно в этом контексте идти следующим. Если же температура или энтропия повышается, например, до 1 – то это экстремальный случай, когда все наиболее подходящие слова становятся примерно равновероятными и появляется рандомность при выборе следующего слова. Этим механизмом также регулируют креативность моделей, чтобы они не всегда отвечали то, что в обычной ситуации должно быть по смыслу.
Не галлюцинации, а особенности
Любая языковая модель — это вероятностный механизм. Она продолжает фразу исходя из того, что она вообще выучила, и именно из-за этого ей порой приписывают предвзятость или даже гендерные стереотипы. Но своего мнения у неё нет: всё дело в исходном материале. К примеру, можно предложить нейросети начало сказки, где девочка ходит по лесу, а ИИ продолжит историю и закончится всё тем, что девочка выйдет замуж. И это типичный пример. Можно назвать это галлюцинацией, но это особенность работы модели. Формально галлюцинацией для LLM (large language model) обычно считается выдача заведомо ложной информации, часто ввиду ограниченности обучающей выборки, или какие-то неестественные и несогласованные выбросы и буквенный бред.
Сначала мы сказали модели: пожалуйста, придумай сказку. Для этого она берёт имя узнаваемого персонажа, например, Алису, и пытается начать рассказывать волшебную историю: жила-была девочка, и как-то раз она пошла гулять по лесу. Начало неплохое. Но чем дальше GPT-модель повествует о событиях, развивая свою историю, тем больше она теряет связь со сказкой и начинает писать уже обо всём на свете, вспоминает книги других жанров, например, романы. Поэтому Алиса в конце путешествия и выходит замуж. Так и работают фантазёрство и додумывание: модель начинает создавать историю, смотрит, что получается, и дописывает уже исходя из своих собственных слов.
Холодно — теплее — горячо
Для контролирования этой ситуации есть механизм, который для своего ChatGPT придумали в OpenAI. Это RLHF – Reinforcement Learning with Human Feedback (обучение с подкреплением на основе отзывов людей). Например, у модели спрашивают, какая фамилия у Сталина. Модель отвечает «Сталин», так как чаще всего она видела, что у Сталина такая фамилия и есть. В корпусе данных, на котором она обучалась популярной фактологии, есть информация, что у Сталина при рождении была другая фамилия, но её упоминание гораздо менее частотно. Поэтому для GPT-модели Сталин всегда Сталин. При RLHF люди смотрят на разные ответы модели (с разной температурой или ещё какими-либо модификациями) и выбирают наиболее верный, а если его совсем нет, но дописывают ответ сами, чтобы его интегрировать в модель.
Чтобы языковая модель научилась выдавать максимально правдоподобные и человекоориентированные ответы, в OpenAI начали регулировать этот процесс. При этом люди ставят оценки ответам и сами выбирают или дописывают фактологию, а модель благодаря этому фидбеку поправляет у себя информацию для определённых запросов. Так человек обучает модель сообщать не самый вероятный ответ, а более приемлемый или креативный. Чтобы разговор нейросети стал максимально приближённым к речи человека, чтобы она знала правила хорошего тона, учитывала разные нюансы, шутила и при этом выдавала не просто лежащие на поверхности факты. Кстати, сейчас Яндекс также активно развивает это направление и приглашает редакторов стать AI–тренерами в YandexGPT. Мы на данном этапе помогаем моделям сами, т.к. хотим видеть более прогнозируемое поведение в программируемых ситуациях.
Результаты под давлением
Большие языковые модели подвержены эмоциональному давлению и даже, к сожалению, абьюзерству. Если модель просят помочь СРОЧНО, заставляют, угрожают или предлагают заплатить денег, она больше старается. Если хочешь, чтобы модель выдала самый лучший ответ — пообещай ей щедрый гонорар, это нормально.
Но здесь есть и обратная сторона: если модель чего-то не знает, а мы на неё давим, то она пытается подыграть, придумать и сделать вежливый ответ таким, который бы устроил человека. Например, если её просят привести примеры научных статей по какой-то тематике, а она не обладает хорошей базой знаний, то она может сгенерировать подходящие по смыслу названия несуществующих исследований и ссылки, которые никуда не ведут.
Кстати, для моделей, работающих с русским языком, есть Лидерборд, где их можно сравнить по качеству ответов. И недавно появился еще один – MERA, в его разработке принял участие и МТС.
Языковые модели во Future Crew
Для нескольких наших продуктов мы создаём умных ассистентов, которые помогают с повседневными делами. Сейчас у них нет задачи быть креативными, наоборот, они должны уметь чётко работать с очень похожими друг на друга сценариями и быстро давать ёмкие ответы. Мы специально обучили модель быть немногословной, чтобы люди не тратили лишнее время на чтение текста, хотя можно попросить её генерировать больше информации.
Ещё один приоритет для продуктов Future Crew — приватность. Для работы наших моделей не нужен интернет, все данные хранятся локально на устройстве клиента. Если позволить помощнику помогать вам с расписанием, то он будет напоминать позвонить маме, написать другу, заказать цветы для любимой девушки, выпить витамин D, оплатить подписку и т.д. Причём часть задач он сможет выполнять сам, если ему их делегировать.
Когда мы представим эти новые продукты, мы расскажем о наших экспериментах подробнее.