はてブログ

はてなブックマーク新着エントリーの過去ログサイトです。



タグ 音声認識モデル

新着順 人気順 5 users 10 users 50 users 100 users 500 users 1000 users
 
(1 - 7 / 7件)
 

ChatGPT と Whisper で発音練習アプリを作ってみた - NTT Communications Engineers' Blog

2023/12/15 このエントリーをはてなブックマークに追加 12 users Instapaper Pocket Tweet Facebook Share Evernote Clip whisper chatgpt NTTコミュニケーションズ

この記事は NTTコミュニケーションズ Advent Calendar 2023 の15日目の記事です。 この記事では、ChatGPT と 音声認識モデルの Whisper を用いた発音練習アプリケーションをご紹介します。 ChatGPT に読み上げる文章を考えてもらい、その文章の読み上げた音声を Whisper で文字起こしします。 正確に発音できていれば、... 続きを読む

AWS Lambda でOpenAI の Whisper API を 認識精度の改善も含めて試してみた | DevelopersIO

2023/10/18 このエントリーをはてなブックマークに追加 13 users Instapaper Pocket Tweet Facebook Share Evernote Clip OpenAI DevelopersIO whisper 改善

はじめに AWS LambdaでOpenAIのWhisper APIを試してみました。 OpenAIには音声データから文字起こししてくれる「Whisper」という音声認識モデルがあり、WhisperをAPIの形で呼び出すWhisper APIが存在します。日本語ももちろん対応してます。 今回は、AWS LambdaがS3バケットに保存された音声データを元にWhisper APIで文... 続きを読む

whisper.cppのCore ML版をM1 MacBook Proで動かす

2023/05/03 このエントリーをはてなブックマークに追加 14 users Instapaper Pocket Tweet Facebook Share Evernote Clip whisper README iPhone OpenAI 手順

OpenAIの音声認識モデルであるWhisperの高速推論版であるwhisper.cppが、いつのまにか [1] Core ML対応していた。 Core ML対応したということは、macOS/iOSデバイス(Mac, iPhone, etc...)に搭載されているNeural Engine、GPUを利用して推論処理を行うようになった、ということを意味する。[2] さっそくREADMEの手順を... 続きを読む

音声認識モデル Whisper の推論をほぼ倍速に高速化した話 - Qiita

2022/12/05 このエントリーをはてなブックマークに追加 10 users Instapaper Pocket Tweet Facebook Share Evernote Clip whisper ソースコ Qiita 推論 重み

本記事は MIXI DEVELOPERS Advent Calendar 2022 の4日目の記事です。 TL;DR Romi チームでは自然言語処理をメインでやりつつ、最近は音声系も手を出しつつあるよ 2022年末現在の音声認識最強モデル Whisper を高速化 重みの fp16 化 TorchScript 化 認識の長さを30秒ごとから10秒ごとに 結果処理速度が約2倍に ソースコ... 続きを読む

OpenAIがリリースした高精度な音声認識モデル”Whisper”を使って、オンライン会議の音声を書き起こししてみた | DevelopersIO

2022/09/23 このエントリーをはてなブックマークに追加 9 users Instapaper Pocket Tweet Facebook Share Evernote Clip whisper OpenAI DevelopersIO 中村

OpenAIがリリースした高精度な音声認識モデル”Whisper”を使って、オンライン会議の音声を書き起こししてみた こんちには。 データアナリティクス事業本部 機械学習チームの中村です。 2022/09/22の夕方ごろ、OpenAIが音声認識ですごいものを出したらしいというニュースが社内のSlackをにぎわせていました。 個人的には、... 続きを読む

wav2vec 2.0 を使って 手軽に音声認識モデルを触れるようになろう - NTT Communications Engineers' Blog

2021/12/20 このエントリーをはてなブックマークに追加 5 users Instapaper Pocket Tweet Facebook Share Evernote Clip Blog

この記事は NTTコミュニケーションズ Advent Calendar 2021 の20日目の記事です。 はじめに こんにちは。プラットフォームサービス本部アプリケーションサービス部の是松です。 NTTコミュニケーションズでは自然言語処理、機械翻訳、音声認識・合成、要約、映像解析などのAI関連技術を活用した法人向けサービスを提供し... 続きを読む

モジラがオープンソースの音声認識モデルとデータセットをリリース - CNET Japan

2017/12/01 このエントリーをはてなブックマークに追加 14 users Instapaper Pocket Tweet Facebook Share Evernote Clip モジラ リリース CNET Japan オープンソース

Mozillaは、音声認識プロジェクト「Common Voice」で、2万人から収集した40万件近い録音を含むコレクションをリリースした。一般に公開されている音声データセットとしては2番目に大規模だという。 コレクションの音声サンプルは、Mozillaの Common Voice プロジェクトから取得したものだ。Common Voiceでは、「iOS」アプリまたはウェブサイトを通じてユーザーが自分... 続きを読む

 
(1 - 7 / 7件)