タグ テキスト
人気順 10 users 50 users 100 users 500 users 1000 usersアップル、高度な言語理解を持つ新型AIモデル「MM1」を発表
アップルの研究チームは3月14日、画像とテキストを理解し処理する能力を持つマルチモーダル大規模言語モデル「MM1」を発表した。今のところ論文のみの公開で、一般公開の時期は明かされていない。 一部ベンチマークではGPT-4Vをも凌ぐ性能を発揮 複数(30億、70億、300億)のパラメータサイズを備えるMM1は、10億以上の... 続きを読む
Appleの研究者、マルチモーダルLLM「MM1」の論文発表 視覚タスクではGPT-4Vに匹敵
MM1は、画像とテキストのペア、画像とテキストの混合データ、テキストのみのデータの混合でトレーニングされている。Mixture-of-Experts(MoE)や教師あり微調整でパラメータを300億までスケールアップすることで、比較的コンパクトなサイズでも競合するMLLMに匹敵する結果をベンチマークで達成したとしている。 視覚タ... 続きを読む
マイクロソフト、「Copilot」無料版にも「GPT-4 Turbo」を搭載
印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます 「Microsoft Copilot」の無料版は、より高度な大規模言語モデル(LLM)や、脚注機能、インターネットへのアクセス機能といった、「ChatGPT」の無料版に備わっていない数多くの... 続きを読む
プレースホルダーのアクセシビリティ上の課題と解決策 - SmartHR Tech Blog
こんにちは!SmartHRプロダクトエンジニアのhimiです。 この記事ではプレースホルダーのアクセシビリティとユーザビリティについての課題と、その解決手段についての話を書きます。 プレースホルダーって何? Webアプリでよく見る、フォームコントロールに値が無いときに表示するテキストのことです。 主な用途としては... 続きを読む
Google、次世代AIモデル「Gemini 1.5」を発表 「10万行のソースコードから修正を提案するデモ」も公開
Googleは2024年2月15日(米国時間)、同社の大規模言語モデル(LLM)「Gemini」の次世代モデルである「Gemini 1.5」を発表した。 Geminiは、テキスト/画像/音声/数値など複数の種類のデータ(モダリティ)を処理できるマルチモーダルAI(人工知能)モデル。Googleは、Gemini 1.5の初期テスト用モデルとして「Gemini 1... 続きを読む
プロンプト不要、生成AIで誰でも物語からマンガが作れる
テキスト-画像生成AIは物語性のある複数の画像を生成するのが苦手だ。複数の画像で、設定に一貫性を持たせるのが難しいからだ。だが最近、物語を一度入力すると、それに合った一連の画像を生成するサービスが登場した。 by Will Douglas Heaven2024.03.07 154 4 13年前、ジャーナリズムの授業の宿題で、私は高級キャット... 続きを読む
ChatGPTに音声読み上げ機能追加 モバイルでも
米OpenAIは3月4日(現地時間)、ChatGPTに音声読み上げ機能を追加したと発表した。Webアプリ、モバイルアプリのいずれでも既に利用可能になっている。日本語を含む37カ国語で読み上げる。 ChatGPTには既に音声による会話機能があるが、新機能はプロンプトにテキストで入力した質問の答えを読み上げるというものだ。回答... 続きを読む
OpenAIの新たな対抗馬、Mistral AIについて知っておくべきこと
印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます 読者の中には、これまではMistral AIというAIスタートアップのことなど全く知らなかったのに、最近になって急に同社のニュースを目にするようになったという人もいるだろう。こ... 続きを読む
「生成AIで業務の4割が自動化される可能性も」--アクセンチュアの推測を考察する
印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます 新たな技術として注目を集める生成AIは、業種や業務にどのようなインパクトをもたらすのか。この疑問に、「現存する業務の4割が自動化される可能性も」と、アクセンチュアは答... 続きを読む
グーグルの新たな画像生成AIツール「ImageFX」の使い方
印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます Googleが人工知能(AI)に多額の投資を行ってきたことを考えれば、同社が先頃、独自の画像生成AIツール「ImageFX」を公開したのは、意外なことではない。ImageFXは、OpenAIの「... 続きを読む
pdfからtextを抜き出す試行錯誤のメモ|Kan Hatakeyama
これは二段構えの構成を持っています。この二段構えを正確に検出し、テキストを理解することが望ましいです。 Unstructuredを使うPythonのライブラリであるUnstructuredを試してみましょう。 参考記事 導入は非常に簡単です。 pip install 'unstructured[pdf]' 実装も簡単です。 解析コード: from unstructured.partiti... 続きを読む
OpenAI、文章から驚異的品質の動画を生成するモデル「Sora」発表。試せる一般公開はまだ先、世界を描ける汎用の生成AIレンダラになり得るか | テクノエッジ TechnoEdge
OpenAIから新しい動画生成モデル「Sora」が発表され、合わせて技術レポートも公開されました。Soraはテキストから最長1分の動画を生成できるモデルで、画像から動画の生成や動画の補完も可能。作例を見る限り、現在公開されているどの動画生成モデルよりも優れています。 続きを読む
GoogleがAIの力でファイル形式を正確に識別するツール「Magika」をオープンソースで公開
Googleの研究チームが、AIの力を活用してファイル形式を高速かつ効率的に識別するツール「Magika」を開発し、オープンソースで公開しました。Magikaは99%以上の精度でバイナリやテキストのファイルタイプを検出し、CPU上でもミリ秒以内に実行できるとのことです。 Magika: AI powered fast and efficient file type ide... 続きを読む
控え目に言って革命。OpenAI、動画生成AIモデル「Sora」発表
OpenAIは2月15日(現地時間)、テキストから最大1分間の動画を生成できる動画生成AIモデル「Sora」を大量のデモ動画と共に発表した。複数のキャラクター、特定の種類の動き、被写体と背景の正確な詳細を含む複雑なシーンを生成することができるという。 プロンプトから破綻のない動画を生成 Introducing Sora, our text-... 続きを読む
OpenAI、テキスト→最長1分の動画の生成AI「Sora」発表 一般公開はせず
OpenAIは、テキストプロンプトから最長1分の動画を生成するAIモデル「Sora」を発表した。「AGIを達成するための重要なマイルストーンになる」としている。 米OpenAIは2月15日(現地時間)、テキストプロンプトから最長1分の動画を生成するAIモデル「Sora」を発表した。一部のユーザーに公開し、フィードバックに基づいて... 続きを読む
AWSジャパンの長崎忠雄社長が退任
印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます アマゾン ウェブ サービス ジャパン(AWSジャパン)は2月14日、代表執行役員社長の長崎忠雄氏が3月11日付で退任すると発表した。 また、Amazon Web Services(AWS)でアジア太... 続きを読む
マイクロブログの思想をまとめた「Indie Microblogging」を読んだ感想 | 世界のねじを巻くラジオ
micro.blogについてのテキスト 以前ねじまきブログで紹介したmicro.blogというサービス。 開発者のManton Reece氏が書いたインディーマイクロブログについての説明書かつ思想書的な文章である「Indie Microblogging」がなかなか興味深かったので軽く読んでみた。 →https://book.micro.blog/ 印象に残った部分を箇条書き... 続きを読む
フォーティネットの「FortiOS」に深刻度の高い脆弱性--修正版など公開
印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます Fortinetは米国時間2月8日、同社製品に搭載しているファームウェア「FortiOS」に存在する脆弱(ぜいじゃく)性と、これを修正するFortiOSのアップデートバージョンや影響を緩和... 続きを読む
マルチモーダルAI搭載スマートグラス「Frame」、Brilliant Labsが発表
Brilliant Labsは2月8日、マルチモーダルな人工知能(AI)アシスタントを搭載する世界初のスマートグラスだという「Frame」を発表した。スマートグラスとは、周囲に視覚的なオーバーレイを配置し、歩き回るとさまざまなテキストが表示されるウェアラブルデバイスだと考えている人にとって、Frameはまさに待ち望んでいた... 続きを読む
シナリオが良いとか、物語が面白いとかを評価するだけのリテラシーを持っ..
シナリオが良いとか、物語が面白いとかを評価するだけのリテラシーを持ってない。 演出とBGMとテキストに殴られた経験は何度もあるけど、どういう思想やテーマ性のある話だったのかは全然分かってない。 特定のタイミングで情報を脳に送り込まれると気持ちよくなるみたいなハックを受けているだけな気がする。 おおよそ... 続きを読む
画像生成AI・Stable Diffusionのエンコーダーに見つかった致命的な欠陥とは?
画像生成AIのStable Diffusionは「潜在拡散モデル」と呼ばれるAIで、テキストを入力するだけで高精度な画像を生成することが可能です。このStable Diffusionに使われている「VAE」に致命的な欠陥があるという報告が、オンライン掲示板サイトのRedditに投稿されています。 The VAE used for Stable Diffusion 1.x/2.x and... 続きを読む
Googleがスマートフォンを使い0.5秒で画像生成できるアプローチ「MobileDiffusion」を発表
テキストを基に画像を生成するAIモデルはいくつかありますが、高品質な画像を生成する主要なモデルは何十億ものパラメータを処理するため、基本的には強力なスペックの端末を必要とします。2024年1月31日、Googleのエンジニアらが「MobileDiffusion」というアプローチを発表し、スマートフォンのようなモバイルデバイス... 続きを読む
高解像度のAI画像を0.5秒で吐き出すオープンソースの画像生成モデル「PixArt-δ」が登場
Huawei Noah's Ark Labや大連理工大学、Hugging Faceらの研究者らが、テキストから画像を生成するフレームワークである「PixArt-δ(デルタ)」を発表しました。 [2401.05252] PIXART-δ: Fast and Controllable Image Generation with Latent Consistency Models https://arxiv.org/abs/2401.05252 Meet PIXART-δ: The Next... 続きを読む
Googleが超高品質な動画生成AI「Lumiere」を発表、フレーム同士のつながりが自然で「テキストや画像から動画生成」「写真の一部を動画化」「動画の一部分を指定して加工」などなど機能てん
Googleの研究チームが動画生成AI「Lumiere」を2024年1月24日(水)に発表しました。Lumiereではフレーム同士が自然につながった違和感の少ない動画を生成可能で、テキストや画像を入力して動画を生成できるほか、動画の一部分を指定して別の動画に置き換えたり、写真の一部分だけを動かしたりといった操作も可能です。 Lum... 続きを読む
UIデザインで、小さいサイズでもはっきりと美しく見えるように設計されたMicroサイズのSVGアイコン -Heroicons Micro
テキストの横にアイコンを配置すると、アイコンが少し大きすぎてバランスが悪いと感じることはありませんか? アイコンは通常のMiniサイズだと20x20ですが、それより一回り小さく高密度のUI向けに設計されたMicroサイズの16x16のSVGアイコンを紹介します。 Heroicons Micro Heroicons -GitHub Heroicons Microの特徴 Her... 続きを読む