ChatGPT-4 бесплатно и без ограничений

Я слышу голоса: «Т-Технологии» опубликовали ИИ-модель, умеющую троллить мошенников

    Я слышу голоса: «Т-Технологии» опубликовали ИИ-модель, умеющую троллить мошенников

    ИИ-центр группы «Т-Технологии», владеющей 99,97% акций «Т-Банка», выложил в открытый доступ модель автоматического распознавания речи T-one. Отличие этой модели от похожих open source-разработок «Сбера» и Open AI в том, что модель «Т-Технологий» распознает речь в потоке, а также обгоняет конкурентов по качеству, утверждают в компании

    ИИ навострил уши

    О выпуске в открытый доступ модели T-one Forbes сообщили представители «Т-Технологий» в ходе Второй конференции по машинному обучению (ML) Turbo ML Conf, прошедшей в Москве 19 июля в кластере «Ломоносов» ИНТЦ МГУ «Воробьевы горы». Модель также была опубликована на платформах Hugging Face и GitHub.

    По данным «Т-Технологий», T-one состоит из 70 млн параметров, то есть сравнительно небольшого размера. Для сравнения: ASR-модель компании SberDevices GigaAM состоит из 240 млн параметров, в ASR-модели Whisper large-v3 от OpenAI — 1,55 млрд параметров. По оценке «Т-Технологий», Т-one обгоняет большие открытые ASR-модели, GigaAM v2 и Whisper Large-v3 по качеству распознавания на русском в телефонии. 

    «Такие модели могут быть интересны и бизнесу, и научному сообществу: размер T-one позволяет запустить модель с ноутбука, и даже с учетом обслуживания, аренды или эксплуатации на своих серверах она обойдется в десятки раз дешевле готовых решений от облачных провайдеров. Например, это могут быть компании, разрабатывающие голосовых роботов и ассистентов, занимающиеся автоматизацией кол-центров. Они могут взять за основу эту модель и адаптировать ее под свои решения. Это позволит сократить ресурсы на разработку с нуля, — рассказал представитель «Т-Технологий». — Для нас это важно, потому что это дает возможность провалидировать наши подходы и улучшить работу модели».

     

    «Расходы на разработку модели составили не более 10 млн рублей», — сообщили в компании. В эту сумму входит стоимость аппаратного обеспечения и фонд оплаты труда сотрудников, участвовавших в проекте. Аналогичная модель уже внедрена в ряде внутренних продуктов Т-Банка, включая службу поддержки, мобильного секретаря в Т-Мобайле и инструменты защиты от спам-звонков.

    Дальше без Олега

    Т-Банк (ранее «Тинькофф банк») развивает речевые технологии с 2016 года. Первым решением был голосовой ассистент Олег, запущенный в 2019 году и названный так по имени основателя банка Олега Тинькова (признан Минюстом иноагентом). В июне 2024 года «ТКС Холдинг» (прежнее название «Т-Технологий») изменил название «Тинькофф банка» на Т-Банк. Ранее в том же году голосовой помощник Олег в приложении банка был переименован в секретаря. От использования бренда «Олег» для голосового помощника, по данным Forbes, банк решил отказаться. На смену Олегу пришел мобильный секретарь, напомнил представитель «Т-Технологий». Секретарь принимает звонки и делает расшифровку разговора, а также с юмором отвечает спамером и мошенникам, звонки от которых превышают половину от незнакомых номеров. «В своем троллинге секретарь в том числе ориентируется на контекст», — сообщили в банке. Всего в компании сейчас развивают шесть ИИ-ассистентов, которые закрывают разные пользовательские задачи, от покупки билетов до консультаций по ценным бумагам, добавил представитель «Т-Технологий». Компания также предлагает речевые технологии внешним заказчикам в рамках своей платформы VoiceKit.

     

    Распознавание речи относится к технологиям обработки естественного языка (NLP), напоминает директор департамента контактных центров и роботизированных систем Naumen Сергей Попов. Совокупный рынок NLP-решений в России в 2024 году составил 8 млрд рублей, что превысило показатель 2023 года на 34%. Сегодня автоматическое распознавание речи — это уже не точечная технология, а важный компонент цифровой инфраструктуры эффективного обслуживания клиентов, отмечает он.

    «Рынок автоматического распознавания и синтеза речи отдельно также демонстрирует положительную динамику. В 2024 году он достиг объема 680 млн рублей, продемонстрировав рост на 7%, — сообщил Попов. — В структуре рынка диалогового ИИ сегмент занимает 11%, при этом 49% приходится на голосовых роботов — ключевых потребителей технологий ASR и TTS (Text-To-Speech, перевод текста в речь)». Этот рынок в целом перешел из фазы экспериментов в фазу зрелого и масштабного внедрения, отмечает Сергей Попов. По его словам, основные драйверы этих процессов — снижение операционных издержек, ускорение обработки обращений и компенсирование кадрового дефицита в сфере клиентского сервиса.

    День открытых дверей

    На рынке уже есть ряд решений для распознавания русского языка, говорит технический директор и сооснователь компании CraftTalk Михаил Сбитников. По его словам, коммерческие решения предлагают «Яндекс», Т-Банк, BSS и другие. К примерам open source-решений он относит Whisper. «Можно только приветствовать появление новых, более оптимизированных открытых моделей, это стимулирует использование и развитие смежных технологий», — считает Сбитников.

     

    «Здорово, что появляются в open-source модели распознавания речи на русском языке — это очень позитивный тренд для всей индустрии. Это дает возможность не только крупным компаниям, но и малому бизнесу, научным учреждениям и энтузиастам создавать инновационные продукты, — согласен старший директор по искусственному интеллекту «Авито» Андрей Рыбинцев. — Мы в «Авито» как компании с собственной моделью, обученной на десятках тысяч часов данных, хорошо понимаем, какие ресурсы, экспертиза и инвестиции стоят за такими разработками».

    Речевые технологии уже находят применение в самых разных сценариях, отмечает Рыбинцев. «В контактных центрах они помогают быстрее обрабатывать обращения клиентов, а в модерации контента ускоряют выявление потенциальных нарушений. В «Авито» мы используем речевые модели для защиты пользователей от спама, определения целевых обращений для профессиональных продавцов и маршрутизации запросов через голосовую поддержку», — говорит он.

    Российские ИИ-модели по ряду задач на русском языке уже превосходят по качеству зарубежные аналоги, подтверждают в MWS AI (входит в МТС Web Services). «Появление новых моделей, безусловно, будет способствовать дальнейшему развитию рынка, в данном случае речевой аналитики. Открытый доступ к таким моделям позволяет российским пользователям и компаниям тестировать базовые сценарии применения генеративного ИИ без дополнительных инвестиций, работая в закрытом контуре и обеспечивая полную конфиденциальность данных», — поясняют в MWS AI.

    MWS AI разрабатывает собственные технологии в сфере речевой аналитики. «На сегодняшний момент в департаменте клиентского сервиса МТС около 60% запросов обрабатывает нейросеть, а операторы-люди решают более сложные задачи», — указывают в компании. 

    Возможность распознавания речи в реальном времени — важная особенность модели, отмечают в MWS AI. «Сегодня многие компании используют речевую аналитику для оценки качества обслуживания клиентов, но это почти всегда анализ постфактум. Сначала записывают разговоры, затем их анализируют, выявляют ошибки и дают обратную связь — но клиент уже ушел, получив услугу того или иного уровня, — рассуждают в MWS AI. — Мы видим будущее в копайлотах для продавцов, работающих в реальном времени: они подсказывают, как отвечать на вопросы, помогают быстрее находить информацию и мгновенно корректируют процесс обслуживания». Среди других перспективных направлений в компании отметили распознавание эмоций, определение демографических характеристик (пола и возраста), а также выявление ботов и аудиодипфейков для защиты пользователей.

     

    Опенсорс — драйвер развития современных технологий, и ASR не исключение, размышляет руководитель направления автоматического распознавания речи «Яндекса» Евгений Ганкович. По его словам, все больше компаний-разработчиков открывают доступ к своим решениям, ускоряя не только проведение научных исследований и создание новых разработок в области, но и внедрение ИИ в бизнес-процессы.

    «Сегодня мы видим разные примеры ИИ-опенсорса — от больших и малых моделей до открытых методологий. Например, научная статья исследователей голосовых технологий «Яндекса», описывающая принципы работы устойчивой к шуму нейросети, была принята на международную конференцию по речевым технологиям Interspeech 2025 наравне со статьями Microsoft, Google DeepMind, Google AR и т.д. Фактически это подтверждение значимости исследования среди мирового научного сообщества», — обращает внимание Ганкович. Методологию, описанную в статье, «Яндекс» использует и в своих продуктах, отметил он. «Внутри компании большое количество моделей собственной разработки с SOTA-качеством на общем домене по нашим бенчмаркам, — сообщил Евгений Ганкович. — Основные прорывы в ASR-технологиях «Яндекса» связаны с «Алисой». В частности, благодаря развитию ASR-технологий из голосового помощника «Алиса» превратилась в полноценного AI-ассистента, способного решать повседневные задачи пользователей любой сложности, заключил он.

    Представитель VK отказался от комментариев, в «Сбере» не ответили на запрос.

    Источник: www.forbes.ru

    Like this post? Please share to your friends:
    Dalle 3
    Добавить комментарий

    ;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: