はてブログ

はてなブックマーク新着エントリーの過去ログサイトです。



タグ 音声

新着順 人気順 5 users 10 users 50 users 100 users 500 users 1000 users
 
(1 - 25 / 1000件)

世界で初めて〝食用〟ロボットの開発に成功 ヒントはアンパンマン、よりおいしさ感じるか

2024/05/26 このエントリーをはてなブックマークに追加 67 users Instapaper Pocket Tweet Facebook Share Evernote Clip 食用 アンパンマン ロボット ヒント グミ

世界初となる食べることを目的としたロボット「こんにちは。今日、私はあなたと会話できることを楽しみにしてました」。音声とともに両手を振り、左右に揺れる全長約7センチの薄黄色の物体。つぶらな瞳もある。リンゴ味のグミだが、実はロボット。電気通信大の仲田佳弘准教授(ロボット工学)らのチームが、世界初とな... 続きを読む

AIでバイデン大統領に似せた音声作成か 政治コンサルを起訴 | NHK

2024/05/24 このエントリーをはてなブックマークに追加 17 users Instapaper Pocket Tweet Facebook Share Evernote Clip バイデン大統領 起訴 司法当局 予備選挙 住民

ことし1月、アメリカ大統領選挙に向けた予備選挙の直前に、バイデン大統領に似せたAIで作成されたとみられる音声を使って、予備選挙で投票しないよう呼びかける電話が多くの住民にかかってきた問題で、地元の司法当局は54歳の政治コンサルタントを選挙を妨害したなどとして起訴しました。 アメリカ東部ニューハンプシャ... 続きを読む

スカーレット・ヨハンソンがGPT-4oの新音声が自分と似ていることについて「ショックを受け、怒りを覚えた」と意見表明

2024/05/21 このエントリーをはてなブックマークに追加 11 users Instapaper Pocket Tweet Facebook Share Evernote Clip GPT-4o スカーレット・ヨハンソン 意見表明 sky 自分

「マーベル・シネマティック・ユニバース」シリーズのブラック・ウィドウ(ナターシャ・ロマノフ)役や実写版「ゴースト・イン・ザ・シェル」の少佐役などで知られる俳優のスカーレット・ヨハンソンさんが、OpenAIが発表したGPT-4oの音声のうち「Sky」が自分の声と酷似していることに「ショックを受け、怒りを覚え、信じら... 続きを読む

GPT-4oの中国語トークンはポルノとスパムに汚染されている

2024/05/20 このエントリーをはてなブックマークに追加 31 users Instapaper Pocket Tweet Facebook Share Evernote Clip GPT-4o ポルノ スパム jus OpenAI

2024年5月にOpenAIの最新AIモデル「GPT-4o」が発表されました。テキストや音声、カメラの入力を人間と同じぐらいの速度で処理可能という高い性能であることが報じられているのですが、一方で、中国語ユーザーからは、トレーニングに大きな問題を抱えていて、トークンデータが汚染されていることが指摘されています。 Jus... 続きを読む

GPT-4oを使って2Dの図面から3DのCADモデルを作る

2024/05/19 このエントリーをはてなブックマークに追加 161 users Instapaper Pocket Tweet Facebook Share Evernote Clip GPT-4o 図面 OpenAI OCR シロクマ

はじめに 株式会社ファースト・オートメーションCTOの田中(しろくま)です! 先日、 OpenAIからGPT-4oがリリース されました。 いろいろGPT-4oに関して調べていると、スピードが速くなっていたり、音声も直接扱えてマルチモーダル化が進んでいたりするようなのですが、画像に関して GPT-4-turboに比べ、認識やOCRの精度が... 続きを読む

「GPT-4o」が変えるヒトと機械の接点 音声AIに飛躍 - 日本経済新聞

2024/05/14 このエントリーをはてなブックマークに追加 6 users Instapaper Pocket Tweet Facebook Share Evernote Clip 接点 GPT-4o 生成AI 飛躍 コンピューター

米オープンAIが13日に発表した最新の生成AI(人工知能)「GPT-4o(フォーオー)」は、ヒトと機械が音声で自然に対話する時代の到来を印象づけた。オープンAIの発表からは、3つの技術進化が読み取れる。GPT-4oはヒトとコンピューターの接点を「文字」から「音声」に変える潜在力を秘める。暮らしやビジネスの現場でのAI利... 続きを読む

OpenAIが「GPT-4o」を発表、人間と同等の速さでテキスト・音声・カメラ入力を処理可能で「周囲を見渡して状況判断」「数学の解き方を教える」「AI同士で会話して作曲」など多様な操作を実

2024/05/14 このエントリーをはてなブックマークに追加 13 users Instapaper Pocket Tweet Facebook Share Evernote Clip OpenAI タスク GPT-4o 数学 作曲

OpenAIが日本時間の2024年5月14日(火)にAIモデル「GPT-4o」を発表しました。GPT-4oは単一のモデルでテキスト、音声、視覚入力を非常に高速に処理可能で、リアルタイムに会話しながら「計算問題を解く」「画像の生成」「周囲の映像から状況を判断」といったタスクを実行可能です。 Hello GPT-4o | OpenAI https://openai.... 続きを読む

OpenAI、ChatGPTのMacアプリ公開。Macのカメラやスクショ、写真ライブラリにもアクセスし音声対話可能 | テクノエッジ TechnoEdge

2024/05/14 このエントリーをはてなブックマークに追加 13 users Instapaper Pocket Tweet Facebook Share Evernote Clip OpenAI TechnoEdge chatgpt スクショ

OpenAIは5月14日、ChatGPTのGPT-4oを使えるマルチモーダルなMacアプリを公開しました。chat.openai.comにアクセスしてダウンロードリンクが表示されれば利用できます(利用できるユーザーは限定的のようです)。 機能としてはiPhoneアプリと同様で、現状ではGPT-4oの音声モデルや、カメラの映像を見ながら音声で対話した... 続きを読む

オープンAI 最新モデル「GPT-4o」発表 音声の反応速度向上 | NHK

2024/05/13 このエントリーをはてなブックマークに追加 7 users Instapaper Pocket Tweet Facebook Share Evernote Clip GPT-4o NHK オープンAI chatgpt 発表

生成AIのChatGPTを手がけるアメリカのベンチャー企業「オープンAI」は処理スピードを速めて質問するとすぐに反応し、自然に会話ができる最新モデルを発表しました。IT各社も性能を高めた生成AIを次々と発表しており、開発競争が激しくなっています。 「オープンAI」が13日、発表したのは最新モデル「GPT-4o」です。 処理... 続きを読む

OpenAI、「GPT-4o」発表 高速応答で音声・画像・テキスト対応

2024/05/13 このエントリーをはてなブックマークに追加 15 users Instapaper Pocket Tweet Facebook Share Evernote Clip OpenAI GPT-4o 応答 発表 画像

続きを読む

OpenAI、次世代AIモデル「GPT-4o」を発表

2024/05/13 このエントリーをはてなブックマークに追加 44 users Instapaper Pocket Tweet Facebook Share Evernote Clip OpenAI インタラクション CTO GPT-4o 視覚

日本時間2024年5月14日未明、OpenAIは新たなフラッグシップモデル「GPT-4o」を発表しました。このモデルは、音声、視覚、テキストのリアルタイム処理を可能とし、従来のAIモデルを大きく上回る性能を誇ります。OpenAIのCTOであるミラ・ムクティ氏は、「GPT-4oは、人間とマシンのインタラクションの未来を大きく変える一... 続きを読む

「GPT-4o」発表 頭一つ抜けた性能をChatGPT無料版にも展開 音声と視覚を備えて“自然な対話”可能に【追記済】

2024/05/13 このエントリーをはてなブックマークに追加 324 users Instapaper Pocket Tweet Facebook Share Evernote Clip GPT-4o 視覚 対話 追記済 性能

米OpenAIは5月13日(米国時間)、生成AI「GPT」の新たなモデル「GPT-4o」を発表した。テキストはもちろん、音声や画像、映像での入力、音声での応答に対応し、アプリ版の「ChatGPT」ではユーザーと自然に対話できるようになった。開発者向けにAPIとして提供する他、同日からChatGPT内で利用できるように展開を始める。 G... 続きを読む

GPT-4o の概要|npaka

2024/05/13 このエントリーをはてなブックマークに追加 237 users Instapaper Pocket Tweet Facebook Share Evernote Clip npaka Omni GPT-4o 対話 出力

以下の記事が面白かったので、簡単にまとめました。 ・Hello GPT-4o 1. GPT-4o「GPT-4o」 (「omni」の「o」) は、人間とコンピュータのより自然な対話に向けた一歩です。テキスト、音声、画像のあらゆる組み合わせを入力として受け入れ、テキスト、音声、画像の出力のあらゆる組み合わせを生成します。 音声入力にはわず... 続きを読む

AIによる「声」の復活とその脅威

2024/04/28 このエントリーをはてなブックマークに追加 15 users Instapaper Pocket Tweet Facebook Share Evernote Clip 脅威 終焉 ディープフェイク 復活 翻訳

The Atlantic誌に「外国語教育の終焉」(The End of Foreign-Language Education)という記事が載っていた。 この記事にもある通り、最近ではAIによって、外国語の文章の翻訳だけではなく、外国語を流暢に話す自分の音声やビデオすら、10ドルもあれば比較的簡単に作ることができる。ようするにディープフェイクだが、試... 続きを読む

ChatGPTと“声”で会話する方法解説書が発売 ~ブラウザーやAlexaにも組み込める!/『ChatGPTと音声で会話する3つの方法』発売【Book Watch/ニュース】

2024/04/26 このエントリーをはてなブックマークに追加 56 users Instapaper Pocket Tweet Facebook Share Evernote Clip chatgpt alexa ブラウザー Book Watch

続きを読む

好きなポッドキャストについてまとめる

2024/04/18 このエントリーをはてなブックマークに追加 1414 users Instapaper Pocket Tweet Facebook Share Evernote Clip ポッドキャスト YouTube Googleポッドキャスト

そもそもポッドキャストって何?映像のない YouTube のような存在が ポッドキャストです。 つまり、ラジオのようなものです。 YouTube のように、素人も投稿できる音声 メディアです。 どうやって聞けるの?iOSからであれば、Apple Podcast Androidからであれば、Googleポッドキャスト ※Googleポッドキャストは、YouTube... 続きを読む

新・必須ガジェット。テレワークのストレスを全部解決してくれました | ライフハッカー・ジャパン

2024/04/17 このエントリーをはてなブックマークに追加 148 users Instapaper Pocket Tweet Facebook Share Evernote Clip デバイス お互い 周囲 オンラインならでは テレワーク

もう手放せない。 最近毎日のように行なっているオンライン会議。自宅や好きな場所で、いろいろな人と打ち合わせができるのはたいへんありがたいもの。しかし、オンラインならではのストレスもあります。 たとえば音声の問題。お互いの使っているデバイスや周囲の環境などにより、声が聞こえづらくなると、何度も聞き返... 続きを読む

宇都宮駅に「当駅では収益性のある動画共有サイトなどへの投稿を目的とした撮影行為はお断りしております」という貼り紙があったが実効性はあるのか?

2024/04/15 このエントリーをはてなブックマークに追加 155 users Instapaper Pocket Tweet Facebook Share Evernote Clip 貼り紙 実効性 宇都宮駅 収益性 撮影行為

知らない所へ @ShiranaiTokoroe 最近のテレビ番組、JR東日本の構内は写真と音声だけになってる。つまり宇都宮駅に限らず一切の撮影許可が下りない事になってる。その原因は、まあ迷惑者の仕業だよな。ホント、末代まで滅びて欲しい。 x.com/Amausa_Samma/s… 2024-04-15 08:37:19 続きを読む

自民党・長谷川岳議員の“叱責”音声を入手「ありがとうもクソもメールもない」札幌市の職員に約30分間 | TBS NEWS DIG

2024/04/12 このエントリーをはてなブックマークに追加 19 users Instapaper Pocket Tweet Facebook Share Evernote Clip あんた 長谷川岳参院議員 叱責 パイ 申し訳

自民党 長谷川岳参院議員「あんたから1回も、ありがとうもクソもメールもない、ありがとうもない!結果もない!誰だお前は!?って感じだよね」市職員「はい、申し訳ございません」これは自民党の長谷川岳参院議… 続きを読む

自民党・長谷川岳議員の“叱責”音声を入手「ありがとうもクソもメールもない」札幌市の職員に約30分間(TBS NEWS DIG Powered by JNN) - Yahoo!ニュース

2024/04/13 このエントリーをはてなブックマークに追加 166 users Instapaper Pocket Tweet Facebook Share Evernote Clip あんた 長谷川岳参院議員 客室乗務員 長谷川議員 叱責

自民党 長谷川岳参院議員 「あんたから1回も、ありがとうもクソもメールもない、ありがとうもない!結果もない!誰だお前は!?って感じだよね」 市職員 「はい、申し訳ございません」 これは自民党の長谷川岳参院議員が先月、札幌市の職員をおよそ30分間にわたり叱責した時の音声。 長谷川議員は客室乗務員への威圧的... 続きを読む

自民党派閥の裏金「森元総理が会長の時にスキームが作られた」と示唆 下村博文議員とされる音声 “政倫審”では語られなかった内容も…【news23】 | TBS NEWS DIG

2024/04/11 このエントリーをはてなブックマークに追加 137 users Instapaper Pocket Tweet Facebook Share Evernote Clip 裏金 森元総理 下村博文衆院議員 スキーム 政倫審

自民党派閥の裏金事件をめぐり、下村博文衆院議員が政倫審後に発言したとされる音声データの存在が明らかになりました。音声では、裏金作りが「森元総理が会長の時にスキームが作られた」ことが示唆されるなど、政… 続きを読む

OpenAIがわずか15秒の音声からクローン音声を生成できるAIモデル「Voice Engine」をリリース

2024/04/01 このエントリーをはてなブックマークに追加 10 users Instapaper Pocket Tweet Facebook Share Evernote Clip OpenAI 合成音声 言語 音声サンプル テキスト

OpenAIがわずか15秒の音声サンプルから合成音声を作成できるAIモデル「Voice Engine」への限定的なアクセスを提供開始しました。Voice Engineは、合成音声を作成する際に使用した音声サンプルと同じ言語だけでなく、さまざまな言語で入力したテキストを音声読み上げすることができるというテキスト音声生成ツールです。 ... 続きを読む

OpenAIの「Voice Engine」は15秒分の声データを元に本人そっくりに喋る

2024/03/29 このエントリーをはてなブックマークに追加 21 users Instapaper Pocket Tweet Facebook Share Evernote Clip OpenAI ChatG 米OpenAI 生成AIモデル 言語

米OpenAIは3月29日(現地時間)、人の声を再現できる生成AIモデル「Voice Engine」を発表した。テキスト入力と15秒分の音声サンプルで、元の話者によく似た自然な音声を生成できる。感情的なリアルな音声で、母国語以外の言語も話せる。 2022年から開発していたこのモデルは、既に同社の「Text-to-Speech API」や「ChatG... 続きを読む

OpenAI、人の声を再現する生成AI「Voice Engine」開発 - 日本経済新聞

2024/03/30 このエントリーをはてなブックマークに追加 18 users Instapaper Pocket Tweet Facebook Share Evernote Clip OpenAI GPT 話し手 chat シリコンバレー

【シリコンバレー=渡辺直樹】対話型AI(人工知能)「Chat(チャット)GPT」を開発した米新興企業オープンAIは29日、人の声を再現する生成AIを開発したと発表した。15秒分の声のサンプルをふき込み、文字を入力することで、話し手にそっくりな音声を合成することができる。母国語以外の外国語へのふき替えにも対応した。... 続きを読む

リアルタイム通信サーバーのEC2インスタンス台数を50%削減した割り当て最適化 - Cluster Tech Blog

2024/03/29 このエントリーをはてなブックマークに追加 17 users Instapaper Pocket Tweet Facebook Share Evernote Clip Cluster Tech Blog 最適化 50% EC2上

こんにちは、クラスター株式会社でソフトウェアエンジニアをしているMito Memelです。 clusterでは、3D空間内でアバターモーションや音声を同期するためのリアルタイム通信サーバーをAmazon EC2上で動作させています。昨年から今年にかけて、このリアルタイム通信サーバーのリソース割り当て方法を改善し、結果として稼... 続きを読む

 
(1 - 25 / 1000件)