タグ「whisper」 - はてブログ

タグ whisper

新着順人気順 5 users 10 users 50 users 100 users 500 users 1000 users

(1 - 25 / 44件)

ChatGPT と Whisper で発音練習アプリを作ってみた - NTT Communications Engineers' Blog

2023/12/15 12 users chatgpt NTTコミュニケーションズ音声文章文字

この記事は NTTコミュニケーションズ Advent Calendar 2023 の15日目の記事です。この記事では、ChatGPT と音声認識モデルの Whisper を用いた発音練習アプリケーションをご紹介します。 ChatGPT に読み上げる文章を考えてもらい、その文章の読み上げた音声を Whisper で文字起こしします。正確に発音できていれば、... 続きを読む

[電話予約の無人化]Amazon Connect + GPT-4 JSONモード + Whisperで、1回の発話から予約情報(日付,時間など)を抽出 | DevelopersIO

2023/11/20 162 users DevelopersIO 抽出日付人数コールセンター

[電話予約の無人化]Amazon Connect + GPT-4 JSONモード + Whisperで、1回の発話から予約情報(日付,時間など)を抽出はじめに Amazon Connect + GPT-4 JSONモード + Whisperで、1回の発話から予約情報(電話番号,日時,名前,人数)を正しく抽出できるか検証しました。コールセンターでは、有人対応から無人対応に変更したい... 続きを読む

Amazon Connect + Whisper + GPT-4 Turboで、発話から個人情報（名前、住所、生年月日）を正しく認識できるか試してみた | DevelopersIO

2023/11/13 106 users KVS DevelopersIO CONNECT 生年月日

構成構成としては、下記の通りです。 Connectのフローの詳細は下記の通りです。例として、発話で住所を認識させる処理の流れは以下のとおりです。コンタクトフロー内で「メディアストリーミングの開始」ブロックを使って、Kinesis Video Stream（KVS）への音声のストリーミングを開始します。顧客は、住所を含めた発... 続きを読む

文字起こし「Whisper」の高速化モデル「Distil-Whisper」、スマホで別人の声になりきる「LLVC」、感情付きプロンプトなど重要論文5本を解説（生成AIウィークリー） | テクノエッジ TechnoEdge

2023/11/05 10 users seamless TechnoEdge シームレスプレ別人

2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless（シームレス）を運営し、執筆しています。 1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第19回目は、人気の文字起こしソフト「Whisper」の高速化版、スマホでできるAIボイチェン、プレ... 続きを読む

AWS Lambda でOpenAI の Whisper API を認識精度の改善も含めて試してみた | DevelopersIO

2023/10/18 13 users DevelopersIO OpenAI 認識精度 API 改善

はじめに AWS LambdaでOpenAIのWhisper APIを試してみました。 OpenAIには音声データから文字起こししてくれる「Whisper」という音声認識モデルがあり、WhisperをAPIの形で呼び出すWhisper APIが存在します。日本語ももちろん対応してます。今回は、AWS LambdaがS3バケットに保存された音声データを元にWhisper APIで文... 続きを読む

SpotifyのPodcast、OpenAIの技術で本人の声での多言語吹き替えが可能に

2023/09/25 19 users Podcast Spotify OpenAI 米OpenAI

スウェーデンSpotifyは9月25日（現地時間）、生成AI採用でPodcastをホスト自身の声で複数言語に吹き替える新機能「Voice Translation」を発表した。米OpenAIが同日発表した新しい音声技術と、3月リリースの音声文字起こしツール「Whisper」を採用する。 OpenAIは、新しい音声技術で「わずか数秒間の実際の音声からリアル... 続きを読む

Whisper、ChatGPTを活用した、テキスト入力不要な新感覚メモ日記アプリの紹介と、開発における学び｜nyosu

2023/08/19 300 users メモアプリ chatgpt メモ音声入力絵文字

日常生活の中で生まれた「できごと」や「思ったこと」を、楽しく記録できるメモ日記アプリを開発しました！しゃべったら、あとは丸投げして良い感じにメモを残してくれる「シャべマル」です！（笑）シャべマルの紹介具体的には、、絵文字で見返せるメモアプリあんまりないですが、良いですよ…！音声入力でメモ内容を... 続きを読む

ZHD、OpenAIのAPIを全て契約　LINEとヤフーの従業員2万人に展開

2023/07/27 12 users OpenAI ZHD API ヤフー GPT-4

Zホールディングス（ZHD）は7月27日、米OpenAIが提供する全てのAPIについて利用契約を結んだと発表した。LINEグループとヤフーに所属する2万人の従業員用に、APIを活用した社内チャットbotの提供も始めた。契約したAPIはチャットAI「GPT-4」、画像生成AI「DALL・E」、文字起こしAI「Whisper」など。ZHDは「文書やメール... 続きを読む

OpenAI、「GPT-4」「DALL・E」「Whisper」などのAPIを一般提供

2023/07/07 29 users OpenAI ChatGPT API HTML GPT-4

印刷するメールで送るテキスト HTML 電子書籍 PDF ダウンロードテキスト電子書籍 PDF クリップした記事をMyページから読むことができます OpenAIは米国時間7月6日、有料版「ChatGPT API」の全ユーザーに「GPT-4」へのアクセスを提供すると発表した。同社は3月にChatGPT APIをリリースし、6月にアップデートを提供し... 続きを読む

WhisperとChatGPTで文字起こし | ドクセル

2023/06/25 132 users ドクセル

2023/06/24 ChatGPT のAPIを使ったハンズオン #機械学習名古屋 LTにて発表続きを読む

テキスト・画像から3Dモデルを作成するAI「Shap-E」をGoogle Colaboratoryで使ってみた

2023/06/11 15 users テキスト Google Colaboratory 画像

チャットAIのChatGPTや音声認識AIのWhisperを開発するOpenAIが2023年5月に3Dモデル作成AI「Shap-E」を発表しました。Shap-Eはオープンソースで開発されており、誰でも利用可能とのことなので実際にGoogle Colaboratory上で使ってみました。 shap-e/sample_text_to_3d.ipynb at main · openai/shap-e · GitHub https://gi... 続きを読む

iOS版「OpenAI ChatGPT」アプリ、まずは米国で公開　音声入力も可能

2023/05/18 28 users OpenAI ChatGPT iOS版米国音声入力アプリ

また、昨年9月に発表したオープンソースの音声テキスト変換AI「Whisper」により、音声でのプロンプト入力も可能だ。米Microsoftは2月に「新しいBing」のモバイルアプリ版をiOSおよびAndroid向けにリリースした。こちらは既に日本でも利用可能で、日本語での音声入力もできる。現在App Storeで「ChatGPT」を検索すると... 続きを読む

whisper.cppのCore ML版をM1 MacBook Proで動かす

2023/05/03 14 users README iPhone OpenAI MacOS GPU

OpenAIの音声認識モデルであるWhisperの高速推論版であるwhisper.cppが、いつのまにか [1] Core ML対応していた。 Core ML対応したということは、macOS/iOSデバイス（Mac, iPhone, etc...）に搭載されているNeural Engine、GPUを利用して推論処理を行うようになった、ということを意味する。[2] さっそくREADMEの手順を... 続きを読む

ポッドキャストをAIで書き起こし「LISTEN」　近藤淳也氏が立ち上げ

2023/04/26 94 users Listen OpenAI ポッドキャスター近藤淳也氏音声

OpenAIが提供する書き起こしAPI「Whisper」を使い、配信済みのポッドキャストの内容を文字起こしして公開する。テキストを指定してその部分から音声を再生することもできる。番組にコメントを書き込んだり星を付けて出演者と交流する機能も備えた。約20人のポッドキャスターが既に登録しており、徐々に拡大していく。 ... 続きを読む

🌶️ IMHO 🌶️ - Rich Harris on frameworks, the web, and the edge.

2023/04/25 11 users Svelte DeepL SvelteKit chatgpt

この記事はSvelte/Sveltekitの作者であるRich Harris氏による講演「🌶️ IMHO 🌶️」を翻訳したものです。この記事の作成には、Whisperによる書き起こし、DeepLおよびChatGPTによる翻訳を補助的に使用しています。また、本文中には適宜訳注を入れています。翻訳を許可していただいたRich氏、またこの翻訳をきめ細かくレビ... 続きを読む

文字起こしAI「Whisper」を誰でも簡単に使えるようにした超高精度文字起こしアプリ「writeout.ai」使い方まとめ、オープンソースでローカルでも動作OK

2023/03/09 456 users 手動議事録ムービー文字起こしAI 会議

会議の議事録やムービーの作成など、文字起こしが必要な場面は多くありますが、手動での文字起こしは非常に面倒です。また、OpenAI製文字起こしAI「Whisper」を用いて文字起こしする方法もありますが、初期設定が難しいという問題も存在します。Whisperをメチャクチャ使いやすくした無料文字起こしサービス「writeout.ai... 続きを読む

OpenAI API で提供されているモデルまとめ｜npaka｜note

2023/03/03 120 users Note OpenAI API まとめ｜npaka モデル

「OpenAI API」で提供されているモデルをまとめました。 1. OpenAI APIのモデル「OpenAI API」は、用途に応じて「GPT-3.5」をはじめとする様々なモデルを提供しています。・GPT-3.5 : 自然言語とコードを理解および生成する最新モデル。・DALL-E : 自然言語から画像を生成・編集するモデル・Whisper : 音声をテキス... 続きを読む

OpenAIがチャットAI「ChatGPT」を1トークン当たり0.2円でアプリに導入できるAPI提供開始

2023/03/02 18 users OpenAI chatgpt チャットAI API アプリ

AI開発団体のOpenAIは、超高性能なチャットAI「ChatGPT」や文字起こしAI「Whisper」を開発しており、話題を集めています。そんなOpenAIが、新たに「ChatGPTとWhisperをアプリに統合できるAPI」の提供を発表しました。 Introducing ChatGPT and Whisper APIs https://openai.com/blog/introducing-chatgpt-and-whisper-ap... 続きを読む

OpenAI、「ChatGPT API」と企業向け専用容量プランの提供開始　「gpt-3.5-turbo」も発表

2023/03/01 27 users OpenAI chatgpt gpt-3.5-turbo

会話型AIサービス「ChatGPT」などを手掛ける米OpenAIは3月1日（現地時間）、ChatGPTと音声テキスト変換AI「Whisper」のAPI提供を開始したと発表した。システム最適化で実現したコストの90％削減（2022年12月比）を価格に反映させたとしている。 ChatGPT APIのエンジンは「GPT-3.5」ではなく、ChatGPT製品で使われている... 続きを読む

Whisperのlarge-v2モデルを30倍早く処理できる、Gladiaをすぐ試せる方法｜Sangmin Ahn｜note

2023/02/19 11 users Sangmin Ahn API Note YouTube動画

こんにちは、Choimirai Schoolのサンミンです。【主なアップデート】（2019.02.19）YouTube動画を追加（2023.02.18）重要：Gladiaの方で何らかの問題が起きていてAPIへアクセスできない状況となっています。詳細と最新情報はこちらのツイートを参考にしてください。【書いた📝】 Whisperの文字起こしを30倍も早く処... 続きを読む

Whisperでリアルタイムに文字起こしするアプリ - TadaoYamaokaの開発日記

2023/01/28 12 users GitHub TadaoYamaoka ONNX WPF 前回

前回の記事で、WhisperのモデルをONNXにして文字起こしができるようになったので、Windowsでスタンドアロンで実行できるアプリを作成した。 C#でWPFを使用して開発したので、実行できるのはWindowsのみである。 GitHubのReleaseからダウンロードできるようにした。 GitHub - TadaoYamaoka/RealtimeTranscribe: real-time... 続きを読む

超高精度な国産音声認識AI「ReazonSpeech」が無償公開されたので文字起こし機能を使ってみた

2023/01/20 247 users ReazonSpeech OpenAI 無償超高精度文字

東京に拠点を置くテクノロジー企業「レアゾン・ホールディングス」が、1万9000時間に及ぶ国内最大級の日本語音声コーパス「ReazonSpeech」を無償公開しました。同時に、OpenAIが開発した超高性能音声認識AI「Whisper」に匹敵する性能をアピールする文字起こしサービスも公開されていたので、実際に使ってみました。超高... 続きを読む

話題の文字起こしAI「Whisper」、ニュース記事を読み上げて試したら驚きの精度だった

2023/01/06 17 users 精度文字起こしAI 話題ニュース記事

インタビューや会議の際に発言内容をメモしながら、後で間違えないよう録音もする人は少なくないだろう。だが、録音した音声を聞いてテキストに起こす作業はかなりの手間がかかる。筆者の場合は聞き取りづらい箇所を繰り返し再生したり、パソコンに文字を打ち込む操作が遅れて音声の再生を一時停止したりしているうちに... 続きを読む

音声認識AIのWhisperをUnreal Engineでリアルタイムに動かすためにやったこと

2022/12/23 11 users OpenAI 異議 Unreal Engine リアルタイム

「Unreal Engine (UE) Advent Calendar 2022 その3」23日目の記事です。はじめに OpenAIの音声認識AI「Whisper」がすごいらしい。これをUnreal Engineでリアルタイムに動かせるようにしたら応用範囲が広がっておもしろいんじゃないかと思いました。（「異議あり！」って実際に声に出させたいよね）（NLPアドベンチャ... 続きを読む

「サイバーパンク2077」のようなリアルタイム翻訳システムをWhisperやDeepLを駆使して実現した猛者が現る

2022/12/23 65 users GitHub CBP github.com DeepL 猛者

「サイバーパンク2077」をプレイしたというエンジニアのマルチン・エランコウスキ氏が、同作で登場するリアルタイム翻訳システムのような「話者の上にリアルタイムで会話内容が表示され翻訳まで行ってくれる翻訳システム」の開発に取り組んでいます。 GitHub - elanmart/cbp-translate https://github.com/elanmart/cbp-... 続きを読む