タグ「Transformerベース」

タグ Transformerベース

新着順人気順 5 users 10 users 50 users 100 users 500 users 1000 users

(1 - 4 / 4件)

マイクロソフト、軽量かつ高性能な大規模言語モデル「phi-1」を発表

2023/06/23 134 users phi-1 マイクロソフト Hugging Face 成績

Microsoft ResearchのAI研究チームは6月20日（現地時間）、わずか13億パラメーターと従来のものよりもサイズが小さいにも関わらず「GPT-3.5（1750億パラメーター）」を上回る成績を収めたTransformerベースの大規模言語モデル「phi-1」を発表した。このモデルは間もなく「Hugging Face」で公開される予定だといいう。ベ... 続きを読む

Microsoftがたった13億のパラメーターでGPT-3.5超えのHumanEval50.6％をたたき出す「phi-1」を発表

2023/06/22 179 users パラメーター phi-1 Microsoft LLM 発表

LLaMaやFalconといった小型の大規模言語モデル(LLM)が矢継ぎ早にリリースされる中、Microsoft ResearchのAI研究チームが、プレプリントサーバーのarXivで、Transformerベースのモデル「phi-1」を発表しました。このモデルは、パラメーター数がGPT-3.5の100分の1以下の13億しかないにもかかわらず、テスト用データセット... 続きを読む

シングルGPUで動作するTransformer相当のRNNモデル　RWKV-Raven-14Bを試してみた | DevelopersIO

2023/04/10 7 users DevelopersIO LLM シングルGPU RWKV

こんちには。データアナリティクス事業本部インテグレーション部機械学習チームの中村です。今回はシングルGPUで動作するTransformer相当のRNNモデル、という噂のRWKVについて試してみたいと思います。 RWKVとは TransformerベースのLLMと同等の性能を持つ、並列化可能なRNNモデルであり、Attentionフリー(Attention... 続きを読む

BERTを量子化して高速かつ軽量にする - moriyamaのエンジニアリング備忘録

2020/04/10 19 users Bert moriyama PyTorch vimmode

こんにちは、@vimmodeです。自然言語界隈ではBERTを始めとしたTransformerベースの手法の進化が目覚ましいですが、実運用されている話はあまり聞きません。その理由としてモデルのサイズの大きさと推論速度の遅さに一定起因すると感じており、この記事はその解消になり得る量子化と呼ばれる手法の紹介とPyTorchで実装さ... 続きを読む

(1 - 4 / 4件)