Нейросети Яндекса — как называются и где доступны

Яндекс, как одна из крупнейших российских IT-компаний, вкладывает значительные ресурсы в разработку собственных ИИ-технологий. Многие пользуются сервисами Яндекса ежедневно, но не всегда знают, какие именно нейросети лежат в их основе. Эта статья призвана внести ясность: мы расскажем о ключевых нейросетях Яндекса, их названиях, функциях и о том, где они применяются.

Основные нейросети Яндекса

YandexGPT (YaGPT): текстовая модель

Это семейство больших языковых моделей (LLM), аналогичных зарубежным разработкам вроде ChatGPT. Существуют разные поколения и версии (например, YandexGPT 3, YandexGPT 5 Lite/Pro), ориентированные на разные задачи и производительность.

Основная функция: Обработка естественного языка — понимание запросов, генерация текстов (ответов, статей, писем), перевод, суммаризация (краткий пересказ).

YandexART: генерация изображений и видео

Нейросеть, сфокусированная на создании визуального контента по текстовым описаниям. Основная функция: Генерация статичных изображений и коротких видеороликов на основе текстовых запросов пользователя.

Оцените генерацию изображений

Регистрация

Уникальные картинки невероятного качества для коммерческого использования

SpeechKit: технологии работы с речью

Платформа, объединяющая две ключевые технологии:

Распознавание речи (Speech-to-Text, STT), преобразование аудио в текст;
Синтез речи (Text-to-Speech, TTS), преобразование текста в голос;
Основная функция — это обеспечение голосового взаимодействия с устройствами и сервисами.

Yandex Vision OCR: распознавание текста

Технология оптического распознавания символов (Optical Character Recognition). Основная функция: Извлечение машиночитаемого текста из изображений, фотографий и PDF-документов.

Где используются нейросети Яндекса?

Эти технологии интегрированы во многие продукты и сервисы компании:

Алиса— голосовой помощник использует YandexGPT для обработки запросов и генерации ответов, а SpeechKit — для распознавания голоса пользователя и озвучивания ответов. Функция «Алиса, давай придумаем» напрямую задействует генеративные возможности YandexGPT.

Шедеврум — мобильное приложение, где пользователи могут создавать изображения и видео с помощью YandexART, вводя текстовые описания.

Яндекс Браузер — функции автоматического перевода (в том числе закадрового для видео) и краткого пересказа статей основаны на YandexGPT и SpeechKit.

Яндекс Поиск — YandexGPT используется для формирования быстрых ответов на некоторые запросы прямо в поисковой выдаче, а также для анализа и обобщения отзывов о товарах.

Яндекс Переводчик — YandexGPT улучшает качество машинного перевода. Технология Yandex Vision OCR задействована в функции перевода текста с изображений через камеру («Умная камера»).

Yandex Cloud — платформа предоставляет доступ к YandexGPT, YandexART, SpeechKit и Vision OCR для бизнеса и разработчиков через API, позволяя интегрировать эти технологии в сторонние продукты и сервисы.

Аккаунт Gerwin PRO

Подробнее

Безусловная скидка 40% на пополнение баланса и доступ к полному функционалу сервиса

Возможности нейросетей Яндекса (примеры функций):

YandexGPT:

Генерация текста: написание постов, писем, ответов, креативных текстов;
Ответы на вопросы: предоставление информации по запросу;
Суммаризация: создание кратких выжимок из больших текстов/видео;
Редактирование: помощь в исправлении ошибок, перефразировании;
Перевод: основа для языковых переводов;
Помощь в кодировании: генерация или объяснение фрагментов кода (в последних версиях);
Использование внешней информации (RAG): обращение к актуальным данным из интернета для ответов.

YandexART:

Генерация изображений: создание картинок по текстовому описанию в разных стилях;
Генерация видео: создание коротких анимированных роликов;
Добавление текста на изображение: генерация картинок с надписями;
Учет пространственных отношений: попытка реалистичного отображения объектов.

SpeechKit:

Транскрибация: перевод речи из аудио/видео в текст.
Синтез речи: озвучивание текста различными голосами.
Голосовое управление: основа для интерфейсов.
Создание брендированных голосов (Brand Voice).

Yandex Vision OCR:

Распознавание текста на фото/сканах;
Извлечение текста из PDF;
Поддержка множества языков;
Распознавание данных в таблицах и стандартных документах (паспорта, СТС и т. д.).

Последние обновления (за последний год):

YandexGPT: выпущены модели YandexGPT 5 Lite и Pro с улучшенными характеристиками (производительность, объем контекста). YandexGPT 5 Lite доступна с открытым исходным кодом. Внедряется в новые регионы (Казахстан). Добавлен «режим рассуждения».

YandexART: улучшено качество генерации, добавлена возможность вписывать текст в картинки и генерировать короткие видео (YandexART Vi).

SpeechKit: улучшено распознавание речи для разных языков (узбекский, казахский), добавлена поддержка новых (иврит, португальский), улучшены классификаторы (пол, эмоции).

Yandex Vision OCR: улучшено распознавание таблиц (в т. ч. на турецком), добавлены модели для распознавания СТС.

Также запущен AI-поисковик Yazeka в Турции. Ведутся исследования по сжатию больших языковых моделей.