Новые возможности GigaChat: пять минут аудио вместо 20 страниц текста
В нейросети GigaChat от Сбера появилась новая функция создания подкастов. Она позволяет мгновенно преобразовывать длинные скучные тексты в живой диалог.

Как это работает?
Достаточно задать вопрос, загрузить документ или ссылку — нейросеть выделит ключевые идеи и представит их в формате краткого аудиодиалога. Альтернативный формат для тех, кто не любит много читать. Пользователь может включить подкаст и слушать его по дороге на работу, во время тренировки или за рулём.
Создать подкаст можно двумя способами: в диалоге с нейросетью достаточно нажать на значок «наушники» в полученном ответе от модели, или через функционал «Подкасты» в разделе «Полезное». Также можно загрузить файлы или ссылки и просить нейросеть преобразовать их в подкаст. Более того - пользователь может выбрать оптимальный стиль изложения и два из шести вариантов голосов, а также задать длительность подкаста (до 10 минут). До конца года будет возможность послушать свой подкаст на умных колонках Sber или отправить его в музыкальный сервис «Звук».

Доступ к широкой аудитории
Главное значение новой функции в том, что она ускоряет работу с большими объёмами информации. Так, 20 страниц текста можно превратить в пять минут живого разговора. Новая функция преобразует любой контент в универсальный аудиоформат, открывая доступ самой широкой аудитории. Готовый файл с подкастом можно скачать и переслать друзьям.
«Специалисты и аналитики компаний могут делиться с коллегами не многостраничными отчётами, а лаконичными подкастами. Студенты получают возможность повторять учебные материалы в транспорте или на прогулке. Создатели контента экономят время на производстве аудио, а любители подкастов могут получать знания в привычном для них режиме», - рассказывают о возможностях новинки в Сбере.
Сбер как цифровая платформа
Для российской ИТ-отрасли появление новой функции в GigaChat - шаг к «глубокой» интеграции ИИ-инструментов в потребительские и медийные сервисы, расширение возможностей генеративного ИИ (GIA/LLM). Также мы видим усиление технологического суверенитета России в сфере ИИ-сервисов и активное развитие своего генеративного ИИ. Для Сбера новая разработка важна для укрепления собственной экосистемы как цифровой платформы.
В наши дни существует многообразие форматов потребления контента, и многим удобнее слушать, а не читать. А значит, этот сервис будет весьма полезен и востребован. Его интеграция в образовательные платформы позволит пользователям обучающих сервисов легко и мгновенно преобразовывать учебные материалы в более удобные для запоминания подкасты. Новый функционал пригодится и для работы: компании могут преобразовывать отчёты и внутренние документы в своеобразные аудиообзоры для сотрудников.

В перспективе стоит ожидать расширения функционала: подключение к умным колонкам, музыкальным сервисам, возможное развитие в сторону мультимодальности, когда появятся не только аудио, но и видео-подкасты.
Конкуренция и преимущество российской разработки
Конверсия текста в аудио и автоматизация контента стали трендом, и внедрение такой функции в GigaChat — логичное развитие. Одно из последних достижений в области синтеза речи из текста - разработка 2025 года MoonCast. Она позволяет синтезировать естественную речь в стиле подкастов на основе текстовых источников (например, рассказов, технических отчётов, новостей в форматах TXT, PDF или веб-ссылок) с использованием голосов невидимых дикторов.

У Сбера тоже есть подобные решения, к примеру, приложение SaluteSpeech. Оно помогает оптимизировать затраты и сократить время производства подкастов, обходясь без привлечения актёров для озвучивания.
Запуск функции подкастов в GigaChat — значимый шаг для расширения функций генеративного ИИ в России, особенно с фокусом на аудиоформат. В ближайшие годы функция будет расширяться: поддержка iOS, интеграция с устройствами умного дома, сервисом «Звук», возможно, трансляции на видео или интерактивные подкасты.
Эксперты полагают, что в ближайшее время конкуренция в сфере развития генеративного ИИ усилится: другие игроки (как российские, так и зарубежные) будут добавлять audio-ИИ функции в свои сервисы. Для успеха на рынке важны качественные характеристики, локализация, оценка пользовательского опыта и возможность кастомизации продукта. Более востребован будет тот сервис, который позволяет из сухих данных создать живой контент с естественной интонацией, эмоцией и настроением, неотличимый от настоящего. На данный момент Сбер смог предложить такую качественную версию для всех своих пользователей.









































