タグ Transformerベース
人気順 10 users 50 users 100 users 500 users 1000 usersマイクロソフト、軽量かつ高性能な大規模言語モデル「phi-1」を発表
Microsoft ResearchのAI研究チームは6月20日(現地時間)、わずか13億パラメーターと従来のものよりもサイズが小さいにも関わらず「GPT-3.5(1750億パラメーター)」を上回る成績を収めたTransformerベースの大規模言語モデル「phi-1」を発表した。このモデルは間もなく「Hugging Face」で公開される予定だといいう。 ベ... 続きを読む
Microsoftがたった13億のパラメーターでGPT-3.5超えのHumanEval50.6%をたたき出す「phi-1」を発表
LLaMaやFalconといった小型の大規模言語モデル(LLM)が矢継ぎ早にリリースされる中、Microsoft ResearchのAI研究チームが、プレプリントサーバーのarXivで、Transformerベースのモデル「phi-1」を発表しました。このモデルは、パラメーター数がGPT-3.5の100分の1以下の13億しかないにもかかわらず、テスト用データセット... 続きを読む
シングルGPUで動作するTransformer相当のRNNモデル RWKV-Raven-14Bを試してみた | DevelopersIO
こんちには。 データアナリティクス事業本部 インテグレーション部 機械学習チームの中村です。 今回はシングルGPUで動作するTransformer相当のRNNモデル、という噂のRWKVについて試してみたいと思います。 RWKVとは TransformerベースのLLMと同等の性能を持つ、並列化可能なRNNモデルであり、Attentionフリー(Attention... 続きを読む
BERTを量子化して高速かつ軽量にする - moriyamaのエンジニアリング備忘録
こんにちは、@vimmodeです。自然言語界隈ではBERTを始めとしたTransformerベースの手法の進化が目覚ましいですが、実運用されている話はあまり聞きません。 その理由としてモデルのサイズの大きさと推論速度の遅さに一定起因すると感じており、この記事はその解消になり得る量子化と呼ばれる手法の紹介とPyTorchで実装さ... 続きを読む