タグ 音声認識モデル
人気順 10 users 50 users 100 users 500 users 1000 usersChatGPT と Whisper で発音練習アプリを作ってみた - NTT Communications Engineers' Blog
この記事は NTTコミュニケーションズ Advent Calendar 2023 の15日目の記事です。 この記事では、ChatGPT と 音声認識モデルの Whisper を用いた発音練習アプリケーションをご紹介します。 ChatGPT に読み上げる文章を考えてもらい、その文章の読み上げた音声を Whisper で文字起こしします。 正確に発音できていれば、... 続きを読む
AWS Lambda でOpenAI の Whisper API を 認識精度の改善も含めて試してみた | DevelopersIO
はじめに AWS LambdaでOpenAIのWhisper APIを試してみました。 OpenAIには音声データから文字起こししてくれる「Whisper」という音声認識モデルがあり、WhisperをAPIの形で呼び出すWhisper APIが存在します。日本語ももちろん対応してます。 今回は、AWS LambdaがS3バケットに保存された音声データを元にWhisper APIで文... 続きを読む
whisper.cppのCore ML版をM1 MacBook Proで動かす
OpenAIの音声認識モデルであるWhisperの高速推論版であるwhisper.cppが、いつのまにか [1] Core ML対応していた。 Core ML対応したということは、macOS/iOSデバイス(Mac, iPhone, etc...)に搭載されているNeural Engine、GPUを利用して推論処理を行うようになった、ということを意味する。[2] さっそくREADMEの手順を... 続きを読む
音声認識モデル Whisper の推論をほぼ倍速に高速化した話 - Qiita
本記事は MIXI DEVELOPERS Advent Calendar 2022 の4日目の記事です。 TL;DR Romi チームでは自然言語処理をメインでやりつつ、最近は音声系も手を出しつつあるよ 2022年末現在の音声認識最強モデル Whisper を高速化 重みの fp16 化 TorchScript 化 認識の長さを30秒ごとから10秒ごとに 結果処理速度が約2倍に ソースコ... 続きを読む
OpenAIがリリースした高精度な音声認識モデル”Whisper”を使って、オンライン会議の音声を書き起こししてみた | DevelopersIO
OpenAIがリリースした高精度な音声認識モデル”Whisper”を使って、オンライン会議の音声を書き起こししてみた こんちには。 データアナリティクス事業本部 機械学習チームの中村です。 2022/09/22の夕方ごろ、OpenAIが音声認識ですごいものを出したらしいというニュースが社内のSlackをにぎわせていました。 個人的には、... 続きを読む
wav2vec 2.0 を使って 手軽に音声認識モデルを触れるようになろう - NTT Communications Engineers' Blog
この記事は NTTコミュニケーションズ Advent Calendar 2021 の20日目の記事です。 はじめに こんにちは。プラットフォームサービス本部アプリケーションサービス部の是松です。 NTTコミュニケーションズでは自然言語処理、機械翻訳、音声認識・合成、要約、映像解析などのAI関連技術を活用した法人向けサービスを提供し... 続きを読む
モジラがオープンソースの音声認識モデルとデータセットをリリース - CNET Japan
Mozillaは、音声認識プロジェクト「Common Voice」で、2万人から収集した40万件近い録音を含むコレクションをリリースした。一般に公開されている音声データセットとしては2番目に大規模だという。 コレクションの音声サンプルは、Mozillaの Common Voice プロジェクトから取得したものだ。Common Voiceでは、「iOS」アプリまたはウェブサイトを通じてユーザーが自分... 続きを読む