タグ 高速推論
人気順 10 users 50 users 100 users 500 users 1000 usersvLLMで独自実装モデルを高速推論させる
はじめに チューリング生成AIチームの荒居です。 この記事は生成AIアドベントカレンダー2024の4日目の記事です。 この記事では、動画生成モデルを題材に、vLLMを用いて独自のマルチモーダルモデルを推論させる方法について解説します。vLLMはLLMの高速推論・サービングのライブラリで、LlamaやQwenなどの有名なモデルに... 続きを読む
HuggingFace での Llama 2 の使い方|npaka
以下の記事が面白かったので、軽くまとめました。 ・Llama 2 is here - get it on Hugging Face 1. Llama 2「Llama 2」は、Metaが開発した、7B・13B・70B パラメータのLLMです。 長いコンテキスト長 (4,000トークン) や、70B モデルの高速推論のためのグループ化されたクエリアテンションなど、「Llama 1」と比べて大幅... 続きを読む
Google Colab で RWKV を試す|npaka|note
「Google Colab」で「RWKV」を試したので、まとめました。 【注意】「RWKV」のチャットデモを実行するには、「Google Colab Pro/Pro+」の「プレミア」が必要です。 1. RWKV「RWKV」は、TransformerレベルのLLM性能を備えたRNNです。高性能、高速推論、VRAMの節約、高速学習、無限の文脈長、自由な埋め込みを実現していま... 続きを読む