はてブログ

はてなブックマーク新着エントリーの過去ログサイトです。



タグ whisper

新着順 人気順 5 users 10 users 50 users 100 users 500 users 1000 users
 
(1 - 25 / 55件)

爆速でローカル動作する日本語特化の文字起こしAI『kotoba-whisper-v2.0』の実力は?/実際にローカルで実行してOpenAIの「Whisper」と比較してみた【レビュー】

2024/11/01 このエントリーをはてなブックマークに追加 233 users Instapaper Pocket Tweet Facebook Share Evernote Clip OpenAI 爆速 実力 文字起こしAI 日本語特化

続きを読む

OpenAIの文字起こしAI「Whisper」が幻覚を起こし文章を捏造すると研究者が指摘

2024/10/27 このエントリーをはてなブックマークに追加 10 users Instapaper Pocket Tweet Facebook Share Evernote Clip OpenAI 幻覚 捏造 欠点 AP通信

OpenAIは文字起こしAIのWhisperを「人間レベルの堅牢性と正確性を持ったツール」と宣伝していますが、これには大きな欠点があると専門家たちが指摘しています。十数人のソフトウェアエンジニア、開発者、学術研究者にインタビューしたというAP通信によると、Whisperは文字起こしにおいて一部のテキストや文章全体を捏造... 続きを読む

OpenAIの文字起こしAI「Whisper」、医療現場での利用に研究者らが警鐘

2024/10/26 このエントリーをはてなブックマークに追加 151 users Instapaper Pocket Tweet Facebook Share Evernote Clip OpenAI 幻覚 警鐘 米OpenAI 欠陥

米OpenAIが2022年に発表した音声テキスト変換AI「Whisper」に、文章の一部または全部を捏造してしまういわゆる「幻覚」による重大な欠陥があると、米Associated Pressは10月26日(現地時間)、多数のエンジニアや研究者へのインタビューに基づいて報じた。 Whisperは、インタビューの翻訳や文字起こし、消費者向け技術で... 続きを読む

MozillaがOpenAIのWhisperベースの高性能文字起こしAI「Whisperfile」を開発中

2024/08/24 このエントリーをはてなブックマークに追加 6 users Instapaper Pocket Tweet Facebook Share Evernote Clip OpenAI Mozilla ウェブブラウザ Firefox

ウェブブラウザ「Firefox」などを開発するMozillaが、OpenAIの「Whisper」ベースの文字起こしAI「Whisperfile」を開発中であることを発表しました。Whisperfileでは、英語以外の音声を英語に翻訳することも可能とのことです。 Mozilla/whisperfile · Hugging Face https://huggingface.co/Mozilla/whisperfile Mozilla D... 続きを読む

ChatGPT と Whisper で発音練習アプリを作ってみた - NTT Communications Engineers' Blog

2023/12/15 このエントリーをはてなブックマークに追加 12 users Instapaper Pocket Tweet Facebook Share Evernote Clip chatgpt NTTコミュニケーションズ 音声 文章 文字

この記事は NTTコミュニケーションズ Advent Calendar 2023 の15日目の記事です。 この記事では、ChatGPT と 音声認識モデルの Whisper を用いた発音練習アプリケーションをご紹介します。 ChatGPT に読み上げる文章を考えてもらい、その文章の読み上げた音声を Whisper で文字起こしします。 正確に発音できていれば、... 続きを読む

[電話予約の無人化]Amazon Connect + GPT-4 JSONモード + Whisperで、1回の発話から予約情報(日付,時間など)を抽出 | DevelopersIO

2023/11/20 このエントリーをはてなブックマークに追加 162 users Instapaper Pocket Tweet Facebook Share Evernote Clip DevelopersIO 抽出 日付 人数 コールセンター

[電話予約の無人化]Amazon Connect + GPT-4 JSONモード + Whisperで、1回の発話から予約情報(日付,時間など)を抽出 はじめに Amazon Connect + GPT-4 JSONモード + Whisperで、1回の発話から予約情報(電話番号,日時,名前,人数)を正しく抽出できるか検証しました。 コールセンターでは、有人対応から無人対応に変更したい... 続きを読む

Amazon Connect + Whisper + GPT-4 Turboで、発話から個人情報(名前、住所、生年月日)を正しく認識できるか試してみた | DevelopersIO

2023/11/13 このエントリーをはてなブックマークに追加 106 users Instapaper Pocket Tweet Facebook Share Evernote Clip KVS DevelopersIO CONNECT 生年月日

構成 構成としては、下記の通りです。 Connectのフローの詳細は下記の通りです。 例として、発話で住所を認識させる処理の流れは以下のとおりです。 コンタクトフロー内で「メディアストリーミングの開始」ブロックを使って、Kinesis Video Stream(KVS)への音声のストリーミングを開始します。 顧客は、住所を含めた発... 続きを読む

文字起こし「Whisper」の高速化モデル「Distil-Whisper」、スマホで別人の声になりきる「LLVC」、感情付きプロンプトなど重要論文5本を解説(生成AIウィークリー) | テクノエッジ TechnoEdge

2023/11/05 このエントリーをはてなブックマークに追加 10 users Instapaper Pocket Tweet Facebook Share Evernote Clip seamless TechnoEdge シームレス プレ 別人

2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 1週間分の生成AI関連論文の中から重要なものをピックアップし、解説をする連載です。第19回目は、人気の文字起こしソフト「Whisper」の高速化版、スマホでできるAIボイチェン、プレ... 続きを読む

AWS Lambda でOpenAI の Whisper API を 認識精度の改善も含めて試してみた | DevelopersIO

2023/10/18 このエントリーをはてなブックマークに追加 13 users Instapaper Pocket Tweet Facebook Share Evernote Clip DevelopersIO OpenAI 認識精度 API 改善

はじめに AWS LambdaでOpenAIのWhisper APIを試してみました。 OpenAIには音声データから文字起こししてくれる「Whisper」という音声認識モデルがあり、WhisperをAPIの形で呼び出すWhisper APIが存在します。日本語ももちろん対応してます。 今回は、AWS LambdaがS3バケットに保存された音声データを元にWhisper APIで文... 続きを読む

SpotifyのPodcast、OpenAIの技術で本人の声での多言語吹き替えが可能に

2023/09/25 このエントリーをはてなブックマークに追加 19 users Instapaper Pocket Tweet Facebook Share Evernote Clip Podcast Spotify OpenAI 米OpenAI

スウェーデンSpotifyは9月25日(現地時間)、生成AI採用でPodcastをホスト自身の声で複数言語に吹き替える新機能「Voice Translation」を発表した。米OpenAIが同日発表した新しい音声技術と、3月リリースの音声文字起こしツール「Whisper」を採用する。 OpenAIは、新しい音声技術で「わずか数秒間の実際の音声からリアル... 続きを読む

Whisper、ChatGPTを活用した、テキスト入力不要な新感覚メモ日記アプリの紹介と、開発における学び|nyosu

2023/08/19 このエントリーをはてなブックマークに追加 300 users Instapaper Pocket Tweet Facebook Share Evernote Clip メモアプリ chatgpt メモ 音声入力 絵文字

日常生活の中で生まれた「できごと」や「思ったこと」を、楽しく記録できるメモ日記アプリを開発しました! しゃべったら、あとは丸投げして良い感じにメモを残してくれる「シャべマル」です!(笑) シャべマルの紹介具体的には、、 絵文字で見返せるメモアプリあんまりないですが、良いですよ…!音声入力でメモ内容を... 続きを読む

ZHD、OpenAIのAPIを全て契約 LINEとヤフーの従業員2万人に展開

2023/07/27 このエントリーをはてなブックマークに追加 12 users Instapaper Pocket Tweet Facebook Share Evernote Clip OpenAI ZHD API ヤフー GPT-4

Zホールディングス(ZHD)は7月27日、米OpenAIが提供する全てのAPIについて利用契約を結んだと発表した。LINEグループとヤフーに所属する2万人の従業員用に、APIを活用した社内チャットbotの提供も始めた。 契約したAPIはチャットAI「GPT-4」、画像生成AI「DALL・E」、文字起こしAI「Whisper」など。ZHDは「文書やメール... 続きを読む

【Python】OpenAIのWhisperで音声文字起こしアプリを作成! - Qiita

2023/07/08 このエントリーをはてなブックマークに追加 7 users Instapaper Pocket Tweet Facebook Share Evernote Clip Qiita OpenAI Python API 精度

はじめに OpanAI社の音声文字認識エンジンのWhisperを使って、音声文字起こしするプログラムを作成しました。 プログラムはPythonからAPIでWhisperを使って、音声文字認識する形式です。 約2分の音声を試したところは、Whisperの音声文字認識の精度は99%とAmiVoiceCloudPlatform(96%)以上の精度でした。 2分の動画を約9... 続きを読む

OpenAI、「GPT-4」「DALL・E」「Whisper」などのAPIを一般提供

2023/07/07 このエントリーをはてなブックマークに追加 29 users Instapaper Pocket Tweet Facebook Share Evernote Clip OpenAI ChatGPT API HTML GPT-4

印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます OpenAIは米国時間7月6日、有料版「ChatGPT API」の全ユーザーに「GPT-4」へのアクセスを提供すると発表した。同社は3月にChatGPT APIをリリースし、6月にアップデートを提供し... 続きを読む

WhisperとChatGPTで文字起こし | ドクセル

2023/06/25 このエントリーをはてなブックマークに追加 132 users Instapaper Pocket Tweet Facebook Share Evernote Clip ドクセル

2023/06/24 ChatGPT のAPIを使ったハンズオン #機械学習名古屋 LTにて発表 続きを読む

テキスト・画像から3Dモデルを作成するAI「Shap-E」をGoogle Colaboratoryで使ってみた

2023/06/11 このエントリーをはてなブックマークに追加 15 users Instapaper Pocket Tweet Facebook Share Evernote Clip テキスト Google Colaboratory 画像

チャットAIのChatGPTや音声認識AIのWhisperを開発するOpenAIが2023年5月に3Dモデル作成AI「Shap-E」を発表しました。Shap-Eはオープンソースで開発されており、誰でも利用可能とのことなので実際にGoogle Colaboratory上で使ってみました。 shap-e/sample_text_to_3d.ipynb at main · openai/shap-e · GitHub https://gi... 続きを読む

無料で使えるChatGPT公式のiOSアプリ登場、文字起こしAIのWhisperで音声入力も可能

2023/05/19 このエントリーをはてなブックマークに追加 5 users Instapaper Pocket Tweet Facebook Share Evernote Clip OpenAI chatgpt iOSアプリ 公式iOSアプリ

OpenAIが高性能チャットAI「ChatGPT」のiOSアプリを公開しました。アプリではChatGPTとチャットできるほか、文字起こしAI「Whisper」を用いた音声入力にも対応しています。 Introducing the ChatGPT app for iOS https://openai.com/blog/introducing-the-chatgpt-app-for-ios ChatGPTの公式iOSアプリは、以下のリンク先... 続きを読む

iOS版「OpenAI ChatGPT」アプリ、まずは米国で公開 音声入力も可能

2023/05/18 このエントリーをはてなブックマークに追加 28 users Instapaper Pocket Tweet Facebook Share Evernote Clip OpenAI ChatGPT iOS版 米国 音声入力 アプリ

また、昨年9月に発表したオープンソースの音声テキスト変換AI「Whisper」により、音声でのプロンプト入力も可能だ。 米Microsoftは2月に「新しいBing」のモバイルアプリ版をiOSおよびAndroid向けにリリースした。こちらは既に日本でも利用可能で、日本語での音声入力もできる。 現在App Storeで「ChatGPT」を検索すると... 続きを読む

whisper.cppのCore ML版をM1 MacBook Proで動かす

2023/05/03 このエントリーをはてなブックマークに追加 14 users Instapaper Pocket Tweet Facebook Share Evernote Clip README iPhone OpenAI MacOS GPU

OpenAIの音声認識モデルであるWhisperの高速推論版であるwhisper.cppが、いつのまにか [1] Core ML対応していた。 Core ML対応したということは、macOS/iOSデバイス(Mac, iPhone, etc...)に搭載されているNeural Engine、GPUを利用して推論処理を行うようになった、ということを意味する。[2] さっそくREADMEの手順を... 続きを読む

ポッドキャストをAIで書き起こし「LISTEN」 近藤淳也氏が立ち上げ

2023/04/26 このエントリーをはてなブックマークに追加 94 users Instapaper Pocket Tweet Facebook Share Evernote Clip Listen OpenAI ポッドキャスター 近藤淳也氏 音声

OpenAIが提供する書き起こしAPI「Whisper」を使い、配信済みのポッドキャストの内容を文字起こしして公開する。テキストを指定してその部分から音声を再生することもできる。 番組にコメントを書き込んだり星を付けて出演者と交流する機能も備えた。 約20人のポッドキャスターが既に登録しており、徐々に拡大していく。 ... 続きを読む

🌶️ IMHO 🌶️ - Rich Harris on frameworks, the web, and the edge.

2023/04/25 このエントリーをはてなブックマークに追加 11 users Instapaper Pocket Tweet Facebook Share Evernote Clip Svelte DeepL SvelteKit chatgpt

この記事はSvelte/Sveltekitの作者であるRich Harris氏による講演「🌶️ IMHO 🌶️」を翻訳したものです。 この記事の作成には、Whisperによる書き起こし、DeepLおよびChatGPTによる翻訳を補助的に使用しています。 また、本文中には適宜訳注を入れています。 翻訳を許可していただいたRich氏、 またこの翻訳をきめ細かくレビ... 続きを読む

GitHub - leetcode-mafia/cheetah: Whisper & GPT-based app for passing remote SWE interviews

2023/04/05 このエントリーをはてなブックマークに追加 6 users Instapaper Pocket Tweet Facebook Share Evernote Clip GitHub Cheetah

A tag already exists with the provided branch name. Many Git commands accept both tag and branch names, so creating this branch may cause unexpected behavior. Are you sure you want to create this branch? 続きを読む

文字起こしAI「Whisper」を誰でも簡単に使えるようにした超高精度文字起こしアプリ「writeout.ai」使い方まとめ、オープンソースでローカルでも動作OK

2023/03/09 このエントリーをはてなブックマークに追加 456 users Instapaper Pocket Tweet Facebook Share Evernote Clip 手動 議事録 ムービー 文字起こしAI 会議

会議の議事録やムービーの作成など、文字起こしが必要な場面は多くありますが、手動での文字起こしは非常に面倒です。また、OpenAI製文字起こしAI「Whisper」を用いて文字起こしする方法もありますが、初期設定が難しいという問題も存在します。Whisperをメチャクチャ使いやすくした無料文字起こしサービス「writeout.ai... 続きを読む

OpenAI API で提供されている モデル まとめ|npaka|note

2023/03/03 このエントリーをはてなブックマークに追加 120 users Instapaper Pocket Tweet Facebook Share Evernote Clip Note OpenAI API まとめ|npaka モデル

「OpenAI API」で提供されているモデルをまとめました。 1. OpenAI APIのモデル「OpenAI API」は、用途に応じて「GPT-3.5」をはじめとする様々なモデル を提供しています。 ・GPT-3.5 : 自然言語とコードを理解および生成する最新モデル。 ・DALL-E : 自然言語から画像を生成・編集するモデル ・Whisper : 音声をテキス... 続きを読む

OpenAI、ChatGPT APIの一般提供を開始。アプリにAIチャットを組込み可能に | テクノエッジ TechnoEdge

2023/03/02 このエントリーをはてなブックマークに追加 7 users Instapaper Pocket Tweet Facebook Share Evernote Clip OpenAI TechnoEdge chatgpt タスク

OpenAI が会話生成AI 『ChatGPT』 と音声テキスト化モデル『Whisper』のAPIを開発者向けに提供しました。 さまざまなアプリやサービスに、自然な会話でユーザーの質問に答えたり、指示したタスクをこなす機能を導入できるようになります。 今回OpenAI が外部の開発者向けに提供したのは、なんでも答えてくれるAIとして話... 続きを読む

 
(1 - 25 / 55件)