タグ attention
人気順 10 users 50 users 100 users 500 users 1000 usersGPT-4oとo1とo1 proの翻訳の違いと物語生成性能を試す|shi3z
GPT-4oとo1($30/月)とo1 pro($200/月)で翻訳を比較しました。 翻訳の元にしたのは以下のツイートです。 The (true) story of development and inspiration behind the "attention" operator, the one in "Attention is All you Need" that introduced the Transformer. From personal email correspondence with the aut... 続きを読む
Attentionと類似度は異なるという話
はじめに 「Transformerのattentionはトークン間の類似度をモデリングしている」という説明をよく聞くが、この表現は適切でないことを示す。 なお、このような説明がよくされる背景としては、Transformerのdot-product attentionは内積で計算され、コサイン類似度も正規化されたベクトルの内積で計算される点によるもの... 続きを読む
超重要な基盤技術「Attention」、Transformerがなぜ画期的なのかを知る
対話型AIサービス「ChatGPT」で使われている自然言語モデルの核になっている技術が「Transformer」だ。自然言語処理を例に、Transformerの仕組みを解説する。 実は、エンコーダーとデコーダーに用いられている「RNN」(Recurrent Neural Network)には、欠点があります。それは、長い文章が苦手だということです。 なぜ... 続きを読む
DAU3000万以上で70%が1週間連続アクセスという人気言語学習アプリ「Duolingo」はどうやってユーザーをアプリに呼び戻しているのか?
1日のアクティブユーザー数(DAU)が3000万人を超える人気外国語学習アプリ「Duolingo」がどうやってユーザーを維持しているのかについて、アメリカ経済紙のウォール・ストリート・ジャーナル(WSJ)が特集しています。 The Only App That Always Wins the Battle for Your Attention - WSJ https://www.wsj.com/tech/person... 続きを読む
ChatGPTなど数々の高性能AIを生み出した仕組み「Attention」についての丁寧な解説ムービーが公開される
さまざまな数学的トピックをムービー形式で解説するサイト「3Blue1Brown」において、ChatGPTに代表されるAIを形作っている「Transformer」構造の心臓部「Attention(アテンション)」についての解説が行われています。 3Blue1Brown - Visualizing Attention, a Transformer's Heart | Chapter 6, Deep Learning https://ww... 続きを読む
【文系でもわかる】ChatGPTのキモ「Transformer」「Attention」のしくみ
第1回は、さまざまなタスクをこなす万能型ジェネレーティブAIツール「ChatGPT」の性能の鍵を握る「トークン長(GPTが文脈を意識できる過去の単語数)」やGPTの歴史的経緯について解説しました。第2回はGPTを支える自然言語処理 の分野で使用される深層学習モデル「Transformer」とその根幹となる「Attention機構(そのタ... 続きを読む
計算時間とメモリの壁を打破!Transformerの次世代モデルReformer
3つの要点 ✔️ Local-Sensitive-Hashingにより必要な要素同士のAttentionを計算することができるようになった ✔️ Reversible layerによってレイヤー数に比例して増加するactivationを保存するメモリの削減 ✔️ transformerの計算量を$O(L^2)$から$O(L \log L)$まで削減した Reformer: The Efficient Transformer written by N... 続きを読む
ChatGPTなどの対話型AIの基礎となっている「Attention」を可視化した「Attention Viz」
ChatGPTやBing Chatの背景にある大規模言語モデルの多くは、Googleが開発したニューラルネットワークアーキテクチャーの「Transformer」を採用しています。このTransformerの鍵になるのが「Self-Attention」というシステムです。このSelf-Attentionを視覚化するためのツール「Attention Viz」を、ハーバード大学とGoogle... 続きを読む
シングルGPUで動作するTransformer相当のRNNモデル RWKV-Raven-14Bを試してみた | DevelopersIO
こんちには。 データアナリティクス事業本部 インテグレーション部 機械学習チームの中村です。 今回はシングルGPUで動作するTransformer相当のRNNモデル、という噂のRWKVについて試してみたいと思います。 RWKVとは TransformerベースのLLMと同等の性能を持つ、並列化可能なRNNモデルであり、Attentionフリー(Attention... 続きを読む
GPTの仕組みと限界についての考察(2.1) - conceptualization
全3回のシリーズパート2の本記事では、GPTの能力と可能性をAttention/Transformerの仕組みをふまえて考察します。 というつもりでしたが、凄く長くなってしまったのでパート2は以下の3回に分けようと思います。 (2.1)各技術の定性的な説明(本記事) (2.2)Transformerのアルゴリズム詳細 (2.3)GPTの能力と可能性... 続きを読む
オロチ(Famicom Archivist) on Twitter: "【Attention!】 ファミコンカラーが赤白の理由「当時その色のプラスチックが最も安かった説」は開発者から完全否定されています。弊ブログではデマ発生源、
【Attention!】 ファミコンカラーが赤白の理由「当時その色のプラスチックが最も安かった説」は開発者から完全否定されています。弊ブログではデマ発生源、専門家の見解、時代背景から詳しく調べています。歴史とはそういう地道な作業の… https://t.co/nQld5zMryA 続きを読む
AmazonのMMO RPG『New Worlds』一部プレイヤーから「高額グラボが壊れた」との報告相次ぐ。開発元はゲーム側の問題を否定 | AUTOMATON
Amazonのゲーム開発・販売部門Amazon Gamesは7月22日、現在クローズドベータテスト中のMMO RPG『New Worlds』に関して声明を発表した。本作においては、一部のGPU(グラフィックボード)について完全に機能しなくなるという報告が寄せられており、これに対する回答となっている。 ATTENTION: Playing the New World beta... 続きを読む
BERTのAttentionは何を見ているのか?
3つの要点 ✔️BERTのAttention機構の分析手法の提案 ✔️Attentin機構は全体的には区切り文字や[CLS]、[SEP]を見ている ✔️特定のAttention機構では「動詞とその目的語」、「名詞と修飾語」、「前置詞とその目的語」などの簡単な文法関係から、照応関係などの複雑な文法関係も獲得している 前書き 現在の自然言語処理ではTransf... 続きを読む
Deep Learning入門:マルチタスク学習
Deep Learningを用いてマルチタスク学習と呼ばれる、複数の機能を1つのモデルに学習する方法について解説します。 前回の動画:Attention(注意) https://www.youtube.com/watch?v=g5DSLeJozdw ニューラルネットワーク学習の仕組み https://www.youtube.com/watch?v=r8bbe273vEs 再生リスト「実践Deep Learning」 https... 続きを読む
次世代の畳み込み?!CondConv - Qiita
はじめに 日課のarXiv論文のチェックをしていたところ、Microsoftから興味深い論文1が出ていました。 Microsoftから動的にConvの重みを変えるDynamic Convolutionの提案。重み自体を出力するのではなく、複数のConvの線型結合の係数を出力する(Attention)。実はGoogleからもCondConvという同様のアプローチが提案されて... 続きを読む
ChainerでLSTM + Attentionを計算する - Qiita
import numpy as np from chainer import Variable import chainer.functions as F import chainer.links as L ## 入力データの準備 x_list = [[0, 1, 2, 3], [4, 5, 6], [7, 8]] # 可変長データ (4, 3, 2)の長さのデータとする x_list = [np... 続きを読む
[L] 時間が足りないのではなく、MPが不足して何もできないとき | Lifehacking.jp
Ads: 「忙しすぎて、◯◯ができない」でも、本当に? Basecampの開発者のブログ、Signal v. Noiseでジェイソン・フリードさんが、時間がないことと、アテンション、つまりは注意力・関心がないこととの違いについて記事にしています。 ここで注意したいのは、attentionを「注意力」「関心」と理解してしまって、注意が足りないから、関心がないからととらえてしまうと誤解に導かれる点です... 続きを読む
CSSベースのクールなフォーム、サンプル集:phpspot開発日誌
Smashing Magazine | Blog Archive CSS-Based Forms: Modern Solutions In Web 2.0 registration and feedback forms can be found everywhere. Every start-up tries to attract visitors’ attention, CSSベースのクールなフ... 続きを読む