Назад в блог

24 декабря 2024

«Разговариваю со смартфоном»: как мы прошли путь от Siri до модов для ChatGPT

Почему за ИИ-помощниками будущее и какую роль в этом играет их способность поддерживать беседу

Future Crew

Блок инноваций ПАО «МТС»

В сентябре 2024 года OpenAI выпустила продвинутый голосовой режим для ChatGPT на Android и iOS, а в ноябре представила его веб-версию. Цель мода — поддерживать живой разговор с пользователем в режиме реального времени. Для рынка виртуальных помощников это важный шаг в сторону внедрения в разные сферы бизнеса: по данным интернет-издания Coolest Gadgets, голосовые ассистенты способны сократить операционные расходы до 78%, поэтому организациям стоит обратить внимание на развитие этой отрасли.

Особенности Advanced Voice Mode для ChatGPT

Новый режим ChatGPT приближает речь нейросетевого помощника к человеческой. По мнению авторов интернет-издания Tom’s Guide, обновление призвано сделать общение с ИИ-компаньоном более живым. Для этого, по заявлению OpenAI, продвинутый голосовой мод считывает невербальные сигналы, такие как скорость речи, и отвечает, используя эмоции, — функция, которая до сих пор недоступна голосовым помощникам вроде Siri.

Эксперты TechRadar подчёркивают ещё одну особенность новой версии ChatGPT: пользователь может перебить и остановить чат-бот, что делает беседу естественнее. В отличие от более ранних версий, новая отвечает без предварительного транскрибирования текста, а значит, быстрее.

Advanced Voice Mode предлагает девять голосов с разными характерами и несколько способов их кастомизации. Кроме того, в продвинутом режиме ИИ-помощник реагирует на контекст: подбирает интонацию и темп речи в зависимости от запроса — например, советуя, как предложить любимому человеку съехаться, отвечает серьёзным и мягким голосом.

Агрегатор ИИ-инструментов SeekMe.AI обращает внимание на то, что продвинутый режим ChatGPT не может заменить голосовых помощников вроде Siri и Alexa, так как ему не хватает практичности: мод не умеет искать информацию в интернете в режиме реального времени, ставить напоминания и взаимодействовать с API на телефоне пользователя. Однако он выигрывает в эмоциональности и способности отвечать на сложные запросы.

Развитие голосовых помощников на смартфонах

Виртуальные ассистенты не сразу овладели навыком общения. Точкой отсчёта стали голосовые помощники на смартфонах, которые научились распознавать человеческую речь благодаря развитию NLP (Natural Language Processing).

Siri (Speech Interpretation and Recognition Interface)

В 2011 году компания Apple представила миру Siri — первого ИИ-ассистента, обрабатывающего речь с помощью модуля распознавания. По умолчанию он работает в фоновом режиме и переходит в активный, услышав голосовую команду. Как утверждает автор RoutineHub Blog, Siri изменил взаимодействие со смартфоном: пользователи стали искать информацию, минуя набор текста. По статистике маркетинговой компании Yaguara, 98% владельцев iPhone включали Siri хотя бы раз в жизни.

Amazon Alexa

Компания Amazon в 2014 году выпустила помощника Alexa, ставшего первым голосовым ассистентом с поддержкой интеграции в системы умного дома. Amazon Alexa может управлять девайсами от музыкальных колонок до дверных замков. Как отмечает консалтинговая компания Megasis Network, это стало возможным, так как Alexa — первый ИИ-ассистент, обогащающий арсенал функций за счёт приложений от сторонних поставщиков, которые поддерживают выполнение голосовых команд.

Google Ассистент

Этот голосовой помощник, появившийся в 2016 году, отличался от предшественников улучшенным пониманием контекста и более точным поиском благодаря доступу к базе знаний Google Knowledge Graph, как объясняют авторы блога компании Megasis Network. Новостной сайт The Verge сообщает, что на момент выхода ИИ-ассистента база содержала 70 млрд фактов. Ассистент Google также имеет встроенный режим переводчика с поддержкой 44 языков, интегрируется с разными платформами и может подключаться к смарт-девайсам Google Home.

Новое поколение виртуальных помощников: состояние рынка и прогнозы

Прорыв в «разговорчивости» ИИ ознаменовал запуск ChatGPT от OpenAI в 2022 году. По мнению специалистов компании BotExperts, разработчика AI-решений, уровень понимания контекста и способность поддерживать разговор, которыми обладал ChatGPT на момент релиза, были настолько впечатляющими, что подняли планку качества для всей отрасли ИИ-ассистентов.

По данным маркетингового ресурса Market.US, рынок ИИ-помощников переживает бурный рост: решения в этой области используют около 97% владельцев смартфонов. О масштабе их использования говорит и число девайсов с голосовыми ассистентами: свыше 4 млрд. Как ожидают эксперты, к 2033 году международный рынок ИИ-помощников будет оцениваться в $31,9 млрд, а совокупный среднегодовой темп его роста (CAGR) составит 28,5% в период с 2024 по 2034 год. По прогнозам разработчика чат-ботов Amity Solutions, виртуальные ассистенты получат развитие в коммерции, здравоохранении и системе образования.

Ещё одно перспективное направление — бесконтактный платёж. По статистике Digipay.Guru, компании по разработке решений для онлайн-оплаты, к 2031 году международный рынок технологий голосовых платежей достигнет $18,2 млрд. По данным компании Opus Technologies, занимающейся цифровыми платежами, метод повысит безопасность операций и упростит отслеживание клиентов, поскольку голос по уникальности приравнивается к отпечаткам пальцев.

Виртуальные помощники прошли путь от программ, выполняющих односложные команды, до умных компаньонов, способных подстраиваться под вербальный и невербальный контекст. С ростом способности ИИ-ассистентов к живой беседе они укрепляют свои позиции в корпоративном мире: становятся частью коммерческих решений и повседневности сотрудников и руководителей. Голосовые помощники предлагают новые возможности для масштабирования бизнеса и более эффективной конкуренции на рынке.

поделиться

Другие новости