タグ Transformer
人気順 10 users 50 users 100 users 500 users 1000 users「Transformer」後継と期待される「RetNet」活用 PKSHAが日英対応の独自LLMを開発 日本MSも協力
AIベンチャー・PKSHA Technology(東京都文京区)は3月28日、「RetNet」技術を活用した日英大規模言語モデル(LLM)を開発したと発表した。RetNetを使用した日英モデルは世界初で、日本マイクロソフトの技術支援により実現。PKSHA Technologyの上野山勝也代表は「これによって生成AIの活用が一段前に進む」と自信を見せ... 続きを読む
NVIDIAはなぜAI用途で独走中?牙城は崩せるか
主にAI処理用途での先行者利益と性能の良さで採用が拡大している。2006年からGP(汎用)GPU開発環境「CUDA」を展開する。TransformerはNVIDIAのGPUを前提に設計した。 先行者利益─。米NVIDIAがAI半導体市場で独走する大きな理由の1つである。同社は2006年からCUDA(Compute Unified Device Architecture)を公開し、いち... 続きを読む
「機械学習で時系列予測はできるのか」論議がTransformerと共に帰ってきた - 渋谷駅前で働くデータサイエンティストのブログ
先日、こちらのポストをお見かけしました。 AI技術開発部の高橋が社内勉強会の資料「時系列予測にTransformerを使うのは有効か?」を公開しました。 論文Are Transformers Effective for Time Series Forecastingの紹介を中心に、時系列予測について解説しています。ぜひご覧ください。https://t.co/LplxTT8b1d pic.twit... 続きを読む
【文系でもわかる】ChatGPTのキモ「Transformer」「Attention」のしくみ
第1回は、さまざまなタスクをこなす万能型ジェネレーティブAIツール「ChatGPT」の性能の鍵を握る「トークン長(GPTが文脈を意識できる過去の単語数)」やGPTの歴史的経緯について解説しました。第2回はGPTを支える自然言語処理 の分野で使用される深層学習モデル「Transformer」とその根幹となる「Attention機構(そのタ... 続きを読む
計算時間とメモリの壁を打破!Transformerの次世代モデルReformer
3つの要点 ✔️ Local-Sensitive-Hashingにより必要な要素同士のAttentionを計算することができるようになった ✔️ Reversible layerによってレイヤー数に比例して増加するactivationを保存するメモリの削減 ✔️ transformerの計算量を$O(L^2)$から$O(L \log L)$まで削減した Reformer: The Efficient Transformer written by N... 続きを読む
225行のコードでGPTの仕組みを理解する
概要 LLMに関心があり、ChatGPTやtransformerの仕組みを理解したいと思っていたところ、雰囲気を掴むのにこちらの動画がとても参考になりました。 動画の内容としては、以下のコーパスを学習して、直前の数文字から次の1文字(単語ではないことに注意)予測機を作成するというものです。 この動画で完成するコードは以下... 続きを読む
ジェネレーティブAIの進歩に大きな影響を与えた「Transformer」を開発した研究者らはなぜGoogleを去ったのか?
昨今のChatGPTやMidjourneyなど、さまざまなジェネレーティブAIを支えるニューラルネットワークアーキテクチャである「Transformer」は、2017年にGoogleの研究者8人によって発表されました。しかし、Transformerの開発に携わった研究者は全員Googleを退職していることが報じられています。 Ex-Google Scientists Kicksta... 続きを読む
RWKVについて解説
本記事では、RWKVとよばれるモデルのアーキテクチャについて詳しく説明します。 はじめに 自然言語処理の分野において、Transformer[1]の登場以前に一般的に使用されてきたRNN[2]はいくつかの課題を抱えており、その課題を克服する新たな手法として、RNNとは完全に異なるアプローチを取るTransformerが登場しました。し... 続きを読む
AI 時代のコードの書き方, あるいは Copilot に優しくするプロンプターになる方法
Copilot をオープンベータ直後から長く使っていて、また補助的に ChatGPT も使いながらコードを書いていて、なんとなくコツがわかるようになってきた。 自分は生成モデルのことは表面的な理解しかしてない。雑にバックプロパゲーションの実装の写経したり、Transformer の解説とかは読んだが、にわかの域を出ていない。 ... 続きを読む
Metaが既存の生成AIにあるトークン制限をはるかに上回る100万トークン超のコンテンツ生成を可能にする次世代AIアーキテクチャ「Megabyte」を発表
MetaのAI研究チームが、100万トークンを超えるテキストや画像、オーディオ形式などのコンテンツを生成できる可能性を持つ「Megabyte(メガバイト)」のアーキテクチャを提唱しました。GPT-4やBardなどのAIモデルの基盤となっているアーキテクチャは「Transformer」ですが、MegabyteをAIモデルに採用することで、より高度で... 続きを読む
ChatGPTなどの対話型AIの基礎となっている「Attention」を可視化した「Attention Viz」
ChatGPTやBing Chatの背景にある大規模言語モデルの多くは、Googleが開発したニューラルネットワークアーキテクチャーの「Transformer」を採用しています。このTransformerの鍵になるのが「Self-Attention」というシステムです。このSelf-Attentionを視覚化するためのツール「Attention Viz」を、ハーバード大学とGoogle... 続きを読む
ジェネレーティブAIの基礎を築いた論文「Attention Is All You Need」著者たちの今——期待される〝OpenAIマフィア〟の出現 - BRIDGE(ブリッジ)テクノロジー&スタートアップ情報
2017年の画期的な研究論文「Attention Is All You Need」で、Google は、テキストや画像データ間の連続した関係や深い意味を強力なニューラルネットワークで学習する、つまり AI をより本物の「人」に近づける言語モデル「Transformer」を紹介した。 Image credit: Google 2017年、Google は画期的な論文「Attention Is ... 続きを読む
GPTの仕組みと限界についての考察(2.1) - conceptualization
全3回のシリーズパート2の本記事では、GPTの能力と可能性をAttention/Transformerの仕組みをふまえて考察します。 というつもりでしたが、凄く長くなってしまったのでパート2は以下の3回に分けようと思います。 (2.1)各技術の定性的な説明(本記事) (2.2)Transformerのアルゴリズム詳細 (2.3)GPTの能力と可能性... 続きを読む
数式を使わないTransformerの解説(前編) - conceptualization
最近話題のmidjourneyやDALL-E、凄いですよね。中身はディープラーニング(DNN)のようです。DNNといっても色んな技術がありますが、それらにはTransformerという手法が使われています。本記事は、その手法がどんなものであるかを数式を使わずに説明してみよう、という主旨になります。 ※なお本記事は機械学習のプロの研... 続きを読む
GPTの仕組みと限界についての考察(1) - conceptualization
GPT4が登場してChatGPTが盛り上がってますね。 本記事は、GPT(を支えるTransformerという仕組み)をChatGPTユーザにとって分かりやすく説明し、その能力と限界についての見通しをよくしよう、という趣旨になります。 少し長くなりそうなので、全部で記事を3回に分けようと思います。 (1)大まかな背景と概要:本記事 ... 続きを読む
GPTを超える大規模言語アーキテクチャ「Hyena」とは何か?
GPTを超える大規模言語アーキテクチャ「Hyena」とは何か?:清水亮の「世界を変えるAI」(1/2 ページ) 広く使われているGPT3やChatGPTといったいわゆる「Transformer(トランスフォーマー)」というモデルは、パラメータ数が多く、しかも計算量が膨大であるため、利用料金が高い上に動作が遅いと言う問題がある。Hyena... 続きを読む
「ChatGPT」に浮かれる人が知らない恐ろしい未来
新井紀子氏はChatGPTの爆発的な人気に潜む危うさを語った(写真:梅谷秀司、ChatGPTのログイン画像キャプチャ) 2022年11月の公開から瞬く間に大旋風を巻き起こしたAIチャットボット「ChatGPT」。その技術を自社の検索エンジン「Bing」に取り入れたマイクロソフトと、生成AIの進化に貢献した深層学習の手法「Transformer... 続きを読む
DiffusionによるText2Imageの系譜と生成画像が動き出すまで
Transcript DiffusionによるText2Imageの 系譜と生成画像が動き出すまで 清水 遼平 株式会社ディー・エヌ・エー Oct 13, 2022 first edition Feb 28, 2023 last update 清水 遼平 ❖ DeNA 22新卒 データ本部AI技術開発部在籍。ZENKIGENで業務委託。 最近『30分で完全理解するTransformerの世界』という記事を書きました。 ... 続きを読む
(数式を使わない) Transformer の直感的な説明 / 真面目なプログラマのためのディープラーニング入門
(数式を使わない) Transformer の直感的な説明 RNN の欠点 Transformer はこれをどう解決したか Transformer の動作原理 複数の要素間の関係を考慮する (Self-Attention、自己注意) 要素の順序を考慮する (Positional Encoding、位置エンコーディング) まとめ 概要: ChatGPT などで使われている Transformer モデルは、 ... 続きを読む
Transformerに自分の好みのDLsite音声作品を学習させて、癖に刺さる新作を毎日通知するシステムを作った話 - Qiita
Transformerに自分の好みのDLsite音声作品を学習させて、癖に刺さる新作を毎日通知するシステムを作った話 作ったもの DLsiteの新作音声作品をクローリング -> 好みかどうか推論 -> 好みならSlack通知をするシステムを完全サーバーレス(AWS SAM)で構築しました。さらなる精度向上のため、Slackメッセージのボタンをも... 続きを読む
ネットワーク分析から直感的に理解するTransformerの仕組みと処理の流れ - あつまれ統計の森
昨今のDeepLearningの研究を席巻するTransformerの解説は複雑なものが多く、なかなか直感的に理解するのは難しいです。そこで当記事では「グラフ理論」や「ネットワーク分析」の知見を元に直感的にTransformerを理解できるように取りまとめを行いました。 概要 Transformerの解説などには難しいものが多いですが、基本的... 続きを読む
30分で完全理解するTransformerの世界
はじめに 初めまして。ZENKIGENデータサイエンスチームの清水です。正式な所属はDeNAデータ本部AI技術開発部なのですが、業務委託という形で今年度から主に深層学習系の開発に携わっています。 深層学習界隈では、2017年に衝撃的なタイトル(Attention Is All You Need)の論文が発表されてから早5年半、元出自の機械翻... 続きを読む
Transformer モデルの仕組みを JAX/Flax で実装しながら解説してみる(パート1) - めもめも
なんの話かと言うと 最近、大規模言語モデルを用いたチャットシステムがよく話題になりますが、言語モデルの性能が大きく向上するきっかけとなったのが、下記の論文で公表された「Transformer」のアーキテクチャーです。 arxiv.org ここでは、JAX/Flax を用いて Transformer を実装しながら、その仕組みを解説していきま... 続きを読む
Transformerを用いてオノマトペから環境音を合成する手法をPyTorchで実装した(Transformer版 Onoma-to-Wave) - 備忘録
はじめに 事前準備 実装の概要 環境音合成実験 実験条件 実験結果 実装の舞台裏など おわりに はじめに 以前、Onoma-to-Waveを実装した記事を書いたことがあった: tam5917.hatenablog.com Onoma-to-Waveとはオノマトペ(文字列)を環境音(スペクトログラム)に変換するモデルである。RNNに基づくencoderとdecoderから... 続きを読む
著者陣の視点からVision Transformer入門の執筆の背景と書評を書きます - Seitaro Shinagawaの雑記帳
こんにちは、品川です。Vision Transformer入門という本の執筆に参加しました。いよいよ本格的な販売がはじまります。どんな本なのか注目してくださってる方もいらっしゃると思うので、著者陣の一人の視点から執筆の背景と書評を少しだけ書こうと思います。 gihyo.jp 執筆の背景 書評 第1章 TransformerからVision Trans... 続きを読む