はてブログ

はてなブックマーク新着エントリーの過去ログサイトです。



タグ vLLM

新着順 人気順 5 users 10 users 50 users 100 users 500 users 1000 users
 
(1 - 4 / 4件)
 

vLLMを利用したLLM推論高速化テクニック - Taste of Tech Topics

2024/12/24 このエントリーをはてなブックマークに追加 19 users Instapaper Pocket Tweet Facebook Share Evernote Clip Taste of Tech Topics

皆さんこんにちは Acroquestのデータサイエンスチーム「YAMALEX」のチームリーダ、@tereka114です。 YAMALEXチームでは、コンペティションへの参加や自社製品開発、技術研究などに日々取り組んでいます。 大規模言語モデル(通称:LLM)は近年、非常に注目される技術となりました。 ただ、7Bや13Bといった巨大モデルのパ... 続きを読む

vLLMで独自実装モデルを高速推論させる

2024/12/04 このエントリーをはてなブックマークに追加 9 users Instapaper Pocket Tweet Facebook Share Evernote Clip LLM Qwen Llama サービング マルチモーダルモデル

はじめに チューリング生成AIチームの荒居です。 この記事は生成AIアドベントカレンダー2024の4日目の記事です。 この記事では、動画生成モデルを題材に、vLLMを用いて独自のマルチモーダルモデルを推論させる方法について解説します。vLLMはLLMの高速推論・サービングのライブラリで、LlamaやQwenなどの有名なモデルに... 続きを読む

自宅のPCでLLMが動く! オープンソースの視点からひも解く生成AIの現在と未来

2024/09/26 このエントリーをはてなブックマークに追加 14 users Instapaper Pocket Tweet Facebook Share Evernote Clip LLM レッドハット LangChain OSS 生成AI

プライベート・ビジネスを問わず活用が進む生成AI。そんな生成AIの進化を支えるのが、OSSだ。AIシステムを支えるコアソフトウェアのLangChainやvLLMは、代表例の1つ。しかも最近は生成AI自体がOSSとして提供されており、ローカルでLLMを実行できるところまできている。本セッションでは、レッドハットでスペシャリストソ... 続きを読む

大規模言語モデルの出力スピードを最大24倍に高めるライブラリ「vLLM」が登場、メモリ効率を高める新たな仕組み「PagedAttention」とは?

2023/06/22 このエントリーをはてなブックマークに追加 14 users Instapaper Pocket Tweet Facebook Share Evernote Clip Transformers スループット ライブラリ モデル

大規模言語モデルを利用する際には、モデルそのものだけでなく、モデルを扱うためのライブラリが必要になってきます。多くの場合Transformersというライブラリが使用されていますが、「PagedAttention」という仕組みを導入した新たなライブラリ「vLLM」を利用することでスループットを最大24倍に向上できることが大規模... 続きを読む

 
(1 - 4 / 4件)