タグ 横田研究室
人気順 5 users 50 users 100 users 500 users 1000 users(1 - 3 / 3件)
「大規模言語モデルの開発」に関するまとめ資料 東工大・岡崎教授が公開 全85ページ
岡崎教授率いる岡崎研究室と、東京工業大学学術国際情報センターの横田理央教授が率いる横田研究室、産業技術総合研究所による合同研究チームは23年12月、LLM「Swallow」を発表。この開発を通して得たノウハウなども紹介している。 関連記事 生成AIを巡る日本の現状は? 東大・松尾教授の考察資料が無料公開 「1年間、... 続きを読む
大規模言語モデルの開発
2024年度 人工知能学会全国大会(第38回)チュートリアル講演1 本講演では、大規模言語モデルの開発に必要な基礎および最新動向を概観する。その後、東京工業大学情報理工学院の岡崎研究室と横田研究室、産業技術総合研究所の研究チームで開発された大規模言語モデルSwallowの開発経験を踏まえ、学習データの構築、モデ... 続きを読む
大規模言語モデル(LLM)の作り方 Megatron-DeepSpeed編
はじめに Turing 株式会社のリサーチチームでインターンをしている東京工業大学 B4 横田研究室の藤井(@okoge_kaz)です。 大規模言語モデル(Large Language Model: LLM)への注目がGPT-4のリリース以降高まっていますが、LLMを作るための知見は十分に共有されているとは言い難いと個人的に感じています。 Turingでは、Visi... 続きを読む
(1 - 3 / 3件)