タグ「vLLM」 - はてブログ

タグ vLLM

新着順人気順 5 users 10 users 50 users 100 users 500 users 1000 users

(1 - 3 / 3件)

vLLMで独自実装モデルを高速推論させる

2024/12/04 9 users LLM Llama Qwen サービングマルチモーダルモデル

はじめにチューリング生成AIチームの荒居です。この記事は生成AIアドベントカレンダー2024の4日目の記事です。この記事では、動画生成モデルを題材に、vLLMを用いて独自のマルチモーダルモデルを推論させる方法について解説します。vLLMはLLMの高速推論・サービングのライブラリで、LlamaやQwenなどの有名なモデルに... 続きを読む

自宅のPCでLLMが動く！オープンソースの視点からひも解く生成AIの現在と未来

2024/09/26 14 users LLM レッドハット LangChain OSS 生成AI

プライベート・ビジネスを問わず活用が進む生成AI。そんな生成AIの進化を支えるのが、OSSだ。AIシステムを支えるコアソフトウェアのLangChainやvLLMは、代表例の1つ。しかも最近は生成AI自体がOSSとして提供されており、ローカルでLLMを実行できるところまできている。本セッションでは、レッドハットでスペシャリストソ... 続きを読む

大規模言語モデルの出力スピードを最大24倍に高めるライブラリ「vLLM」が登場、メモリ効率を高める新たな仕組み「PagedAttention」とは？

2023/06/22 14 users Transformers スループットライブラリモデル

大規模言語モデルを利用する際には、モデルそのものだけでなく、モデルを扱うためのライブラリが必要になってきます。多くの場合Transformersというライブラリが使用されていますが、「PagedAttention」という仕組みを導入した新たなライブラリ「vLLM」を利用することでスループットを最大24倍に向上できることが大規模... 続きを読む

(1 - 3 / 3件)

タグ vLLM

vLLMで独自実装モデルを高速推論させる

自宅のPCでLLMが動く！オープンソースの視点からひも解く生成AIの現在と未来

大規模言語モデルの出力スピードを最大24倍に高めるライブラリ「vLLM」が登場、メモリ効率を高める新たな仕組み「PagedAttention」とは？

本日の新着エントリー

本日の人気エントリー

1年前の人気エントリー

先週のランキング

人気エントリーにあるタグ

最近の注目エントリー

最近の注目タグ

タグ vLLM

vLLMで独自実装モデルを高速推論させる

自宅のPCでLLMが動く！ オープンソースの視点からひも解く生成AIの現在と未来

大規模言語モデルの出力スピードを最大24倍に高めるライブラリ「vLLM」が登場、メモリ効率を高める新たな仕組み「PagedAttention」とは？

本日の新着エントリー

本日の人気エントリー

1年前の人気エントリー

先週のランキング

人気エントリーにあるタグ

最近の注目エントリー

最近の注目タグ

自宅のPCでLLMが動く！オープンソースの視点からひも解く生成AIの現在と未来