タグ「attention」 - はてブログ

タグ attention

新着順人気順 5 users 10 users 50 users 100 users 500 users 1000 users

(1 - 18 / 18件)

GPT-4oとo1とo1 proの翻訳の違いと物語生成性能を試す｜shi3z

2024/12/06 43 users GPT-4o shi3z 翻訳 operator true

GPT-4oとo1($30/月)とo1 pro($200/月)で翻訳を比較しました。翻訳の元にしたのは以下のツイートです。 The (true) story of development and inspiration behind the "attention" operator, the one in "Attention is All you Need" that introduced the Transformer. From personal email correspondence with the aut... 続きを読む

Attentionと類似度は異なるという話

2024/08/18 9 users Transformer ベクトル類似度コサイン類似度内積

はじめに「Transformerのattentionはトークン間の類似度をモデリングしている」という説明をよく聞くが、この表現は適切でないことを示す。なお、このような説明がよくされる背景としては、Transformerのdot-product attentionは内積で計算され、コサイン類似度も正規化されたベクトルの内積で計算される点によるもの... 続きを読む

超重要な基盤技術「Attention」、Transformerがなぜ画期的なのかを知る

2024/06/26 47 users Transformer RNN デコーダーエンコーダー欠点

対話型AIサービス「ChatGPT」で使われている自然言語モデルの核になっている技術が「Transformer」だ。自然言語処理を例に、Transformerの仕組みを解説する。実は、エンコーダーとデコーダーに用いられている「RNN」（Recurrent Neural Network）には、欠点があります。それは、長い文章が苦手だということです。なぜ... 続きを読む

DAU3000万以上で70％が1週間連続アクセスという人気言語学習アプリ「Duolingo」はどうやってユーザーをアプリに呼び戻しているのか？

2024/06/17 26 users Duolingo DAU tech person ＷＳＪ

1日のアクティブユーザー数(DAU)が3000万人を超える人気外国語学習アプリ「Duolingo」がどうやってユーザーを維持しているのかについて、アメリカ経済紙のウォール・ストリート・ジャーナル(WSJ)が特集しています。 The Only App That Always Wins the Battle for Your Attention - WSJ https://www.wsj.com/tech/person... 続きを読む

ChatGPTなど数々の高性能AIを生み出した仕組み「Attention」についての丁寧な解説ムービーが公開される

2024/04/16 235 users chatgpt Transformer アテンション数々

さまざまな数学的トピックをムービー形式で解説するサイト「3Blue1Brown」において、ChatGPTに代表されるAIを形作っている「Transformer」構造の心臓部「Attention(アテンション)」についての解説が行われています。 3Blue1Brown - Visualizing Attention, a Transformer's Heart | Chapter 6, Deep Learning https://ww... 続きを読む

【文系でもわかる】ChatGPTのキモ「Transformer」「Attention」のしくみ

2023/09/26 518 users Transformer GPT chatgpt 文脈根幹

第1回は、さまざまなタスクをこなす万能型ジェネレーティブAIツール「ChatGPT」の性能の鍵を握る「トークン長（GPTが文脈を意識できる過去の単語数）」やGPTの歴史的経緯について解説しました。第2回はGPTを支える自然言語処理の分野で使用される深層学習モデル「Transformer」とその根幹となる「Attention機構（そのタ... 続きを読む

計算時間とメモリの壁を打破！Transformerの次世代モデルReformer

2023/09/01 9 users Transformer Reformer 打破 log 要点

3つの要点 ✔️ Local-Sensitive-Hashingにより必要な要素同士のAttentionを計算することができるようになった ✔️ Reversible layerによってレイヤー数に比例して増加するactivationを保存するメモリの削減 ✔️ transformerの計算量を$O(L^2)$から$O(L \log L)$まで削減した Reformer: The Efficient Transformer written by N... 続きを読む

ChatGPTなどの対話型AIの基礎となっている「Attention」を可視化した「Attention Viz」

2023/05/20 28 users chatgpt Transformer 対話型AI 基礎背景

ChatGPTやBing Chatの背景にある大規模言語モデルの多くは、Googleが開発したニューラルネットワークアーキテクチャーの「Transformer」を採用しています。このTransformerの鍵になるのが「Self-Attention」というシステムです。このSelf-Attentionを視覚化するためのツール「Attention Viz」を、ハーバード大学とGoogle... 続きを読む

シングルGPUで動作するTransformer相当のRNNモデル　RWKV-Raven-14Bを試してみた | DevelopersIO

2023/04/10 7 users DevelopersIO LLM シングルGPU RWKV

こんちには。データアナリティクス事業本部インテグレーション部機械学習チームの中村です。今回はシングルGPUで動作するTransformer相当のRNNモデル、という噂のRWKVについて試してみたいと思います。 RWKVとは TransformerベースのLLMと同等の性能を持つ、並列化可能なRNNモデルであり、Attentionフリー(Attention... 続きを読む

GPTの仕組みと限界についての考察（2.1） - conceptualization

2023/03/27 480 users GPT conceptualization 考察限界能力

全３回のシリーズパート２の本記事では、GPTの能力と可能性をAttention/Transformerの仕組みをふまえて考察します。というつもりでしたが、凄く長くなってしまったのでパート2は以下の3回に分けようと思います。（2.1）各技術の定性的な説明（本記事）（2.2）Transformerのアルゴリズム詳細（2.3）GPTの能力と可能性... 続きを読む

オロチ(Famicom Archivist) on Twitter: "【Attention!】ファミコンカラーが赤白の理由「当時その色のプラスチックが最も安かった説」は開発者から完全否定されています。弊ブログではデマ発生源、

2023/02/11 10 users オロチ弊ブログ見解プラスチックファミコンカラー

【Attention!】ファミコンカラーが赤白の理由「当時その色のプラスチックが最も安かった説」は開発者から完全否定されています。弊ブログではデマ発生源、専門家の見解、時代背景から詳しく調べています。歴史とはそういう地道な作業の… https://t.co/nQld5zMryA 続きを読む

AmazonのMMO RPG『New Worlds』一部プレイヤーから「高額グラボが壊れた」との報告相次ぐ。開発元はゲーム側の問題を否定 | AUTOMATON

2021/07/22 5 users AUTOMATON GPU クローズドベータテスト中否定

Amazonのゲーム開発・販売部門Amazon Gamesは7月22日、現在クローズドベータテスト中のMMO RPG『New Worlds』に関して声明を発表した。本作においては、一部のGPU（グラフィックボード）について完全に機能しなくなるという報告が寄せられており、これに対する回答となっている。 ATTENTION: Playing the New World beta... 続きを読む

BERTのAttentionは何を見ているのか？

2020/09/24 89 users Bert SEP CLS 前書き動詞

3つの要点 ✔️BERTのAttention機構の分析手法の提案 ✔️Attentin機構は全体的には区切り文字や[CLS]、[SEP]を見ている ✔️特定のAttention機構では「動詞とその目的語」、「名詞と修飾語」、「前置詞とその目的語」などの簡単な文法関係から、照応関係などの複雑な文法関係も獲得している前書き現在の自然言語処理ではTransf... 続きを読む

Deep Learning入門：マルチタスク学習

2020/07/28 7 users マルチタスク学習 watch Deep learning

Deep Learningを用いてマルチタスク学習と呼ばれる、複数の機能を1つのモデルに学習する方法について解説します。前回の動画：Attention（注意） https://www.youtube.com/watch?v=g5DSLeJozdw ニューラルネットワーク学習の仕組み https://www.youtube.com/watch?v=r8bbe273vEs 再生リスト「実践Deep Learning」 https... 続きを読む

次世代の畳み込み？！CondConv - Qiita

2019/12/11 11 users Qiita Conv 係数日課重み

はじめに日課のarXiv論文のチェックをしていたところ、Microsoftから興味深い論文1が出ていました。 Microsoftから動的にConvの重みを変えるDynamic Convolutionの提案。重み自体を出力するのではなく、複数のConvの線型結合の係数を出力する（Attention)。実はGoogleからもCondConvという同様のアプローチが提案されて... 続きを読む

ChainerでLSTM + Attentionを計算する - Qiita

2017/11/21 12 users Qiita LSTM Chainer

import numpy as np from chainer import Variable import chainer.functions as F import chainer.links as L ## 入力データの準備 x_list = [[0, 1, 2, 3], [4, 5, 6], [7, 8]] # 可変長データ (4, 3, 2)の長さのデータとする x_list = [np... 続きを読む

[L] 時間が足りないのではなく、MPが不足して何もできないとき | Lifehacking.jp

2015/08/23 582 users Lifehacking.jp Ads Basecamp 時間

Ads: 「忙しすぎて、◯◯ができない」でも、本当に？ Basecampの開発者のブログ、Signal v. Noiseでジェイソン・フリードさんが、時間がないことと、アテンション、つまりは注意力・関心がないこととの違いについて記事にしています。ここで注意したいのは、attentionを「注意力」「関心」と理解してしまって、注意が足りないから、関心がないからととらえてしまうと誤解に導かれる点です... 続きを読む

CSSベースのクールなフォーム、サンプル集:phpspot開発日誌

2006/11/13 382 users phpspot開発日誌 CSSベースサンプル集フォーム

Smashing Magazine | Blog Archive CSS-Based Forms: Modern Solutions In Web 2.0 registration and feedback forms can be found everywhere. Every start-up tries to attract visitors’ attention, CSSベースのクールなフ... 続きを読む

(1 - 18 / 18件)