タグ「音声認識モデル」

タグ音声認識モデル

新着順人気順 5 users 10 users 50 users 100 users 500 users 1000 users

(1 - 7 / 7件)

ChatGPT と Whisper で発音練習アプリを作ってみた - NTT Communications Engineers' Blog

2023/12/15 12 users whisper chatgpt NTTコミュニケーションズ

この記事は NTTコミュニケーションズ Advent Calendar 2023 の15日目の記事です。この記事では、ChatGPT と音声認識モデルの Whisper を用いた発音練習アプリケーションをご紹介します。 ChatGPT に読み上げる文章を考えてもらい、その文章の読み上げた音声を Whisper で文字起こしします。正確に発音できていれば、... 続きを読む

AWS Lambda でOpenAI の Whisper API を認識精度の改善も含めて試してみた | DevelopersIO

2023/10/18 13 users OpenAI DevelopersIO whisper 改善

はじめに AWS LambdaでOpenAIのWhisper APIを試してみました。 OpenAIには音声データから文字起こししてくれる「Whisper」という音声認識モデルがあり、WhisperをAPIの形で呼び出すWhisper APIが存在します。日本語ももちろん対応してます。今回は、AWS LambdaがS3バケットに保存された音声データを元にWhisper APIで文... 続きを読む

whisper.cppのCore ML版をM1 MacBook Proで動かす

2023/05/03 14 users whisper README iPhone OpenAI 手順

OpenAIの音声認識モデルであるWhisperの高速推論版であるwhisper.cppが、いつのまにか [1] Core ML対応していた。 Core ML対応したということは、macOS/iOSデバイス（Mac, iPhone, etc...）に搭載されているNeural Engine、GPUを利用して推論処理を行うようになった、ということを意味する。[2] さっそくREADMEの手順を... 続きを読む

音声認識モデル Whisper の推論をほぼ倍速に高速化した話 - Qiita

2022/12/05 10 users whisper ソースコ Qiita 推論重み

本記事は MIXI DEVELOPERS Advent Calendar 2022 の4日目の記事です。 TL;DR Romi チームでは自然言語処理をメインでやりつつ、最近は音声系も手を出しつつあるよ 2022年末現在の音声認識最強モデル Whisper を高速化重みの fp16 化 TorchScript 化認識の長さを30秒ごとから10秒ごとに結果処理速度が約2倍にソースコ... 続きを読む

OpenAIがリリースした高精度な音声認識モデル”Whisper”を使って、オンライン会議の音声を書き起こししてみた | DevelopersIO

2022/09/23 9 users whisper OpenAI DevelopersIO 中村

OpenAIがリリースした高精度な音声認識モデル”Whisper”を使って、オンライン会議の音声を書き起こししてみたこんちには。データアナリティクス事業本部機械学習チームの中村です。 2022/09/22の夕方ごろ、OpenAIが音声認識ですごいものを出したらしいというニュースが社内のSlackをにぎわせていました。個人的には、... 続きを読む

wav2vec 2.0 を使って手軽に音声認識モデルを触れるようになろう - NTT Communications Engineers' Blog

2021/12/20 5 users Blog

この記事は NTTコミュニケーションズ Advent Calendar 2021 の20日目の記事です。はじめにこんにちは。プラットフォームサービス本部アプリケーションサービス部の是松です。 NTTコミュニケーションズでは自然言語処理、機械翻訳、音声認識・合成、要約、映像解析などのAI関連技術を活用した法人向けサービスを提供し... 続きを読む

モジラがオープンソースの音声認識モデルとデータセットをリリース - CNET Japan

2017/12/01 14 users モジラリリース CNET Japan オープンソース

Mozillaは、音声認識プロジェクト「Common Voice」で、2万人から収集した40万件近い録音を含むコレクションをリリースした。一般に公開されている音声データセットとしては2番目に大規模だという。コレクションの音声サンプルは、Mozillaの Common Voice プロジェクトから取得したものだ。Common Voiceでは、「iOS」アプリまたはウェブサイトを通じてユーザーが自分... 続きを読む

(1 - 7 / 7件)