タグ「推論速度」 - はてブログ

タグ推論速度

新着順人気順 5 users 10 users 50 users 100 users 500 users 1000 users

(1 - 4 / 4件)

【LCM】512×512pxの画像を0.02秒でリアルタイム画風変換する

2023/11/28 18 users LCM タスク一昨日 img2img 03秒

はじめにこんにちは。一昨日、土日を1日潰してLatent Cosistency Model（LCM）の推論高速化に取り組んでみたところ、そこそこ上手くいき、512×512pxの画像をimage-to-image(img2img)するタスクにおいてRTX3090で26fps、A100で33fpsの推論速度が出るようになりました。【追記】RTX4090だと45fps出たそうなので、記事の... 続きを読む

BERTの推論速度を最大10倍にしてデプロイした話とそのTips - JX通信社エンジニアブログ

2021/08/26 23 users Bert Tips JX通信社エンジニアブログ最大10倍

背景はじめまして、JX通信社でインターンをしている原田です。近年深層学習ではモデルが肥大化する傾向にあります。2020年にopen aiが示したScaling Laws（[2001.08361] Scaling Laws for Neural Language Models）の衝撃は記憶に新しく、MLP-Mixerが示したように、モデルを大きくすればAttention構造やCNNでさえも不... 続きを読む

BERTを量子化して高速かつ軽量にする - moriyamaのエンジニアリング備忘録

2020/04/10 19 users Bert vimmode moriyama PyTorch

こんにちは、@vimmodeです。自然言語界隈ではBERTを始めとしたTransformerベースの手法の進化が目覚ましいですが、実運用されている話はあまり聞きません。その理由としてモデルのサイズの大きさと推論速度の遅さに一定起因すると感じており、この記事はその解消になり得る量子化と呼ばれる手法の紹介とPyTorchで実装さ... 続きを読む

ONNXを使って推論速度を高速にしてみる - BASE開発チームブログ

2019/12/15 5 users TensorFlow PyTorch ONNX 齋藤

この記事はBASE Advent Calendar 2019の15日目の記事です。 devblog.thebase.in DataStrategyの齋藤(@pigooosuke)が担当します。 ONNXの概要 Open Neural Network Exchange(ONNX)とは、機械学習モデルを表現するフォーマット形式のことです。ONNXを活用すると、PyTorch, Tensorflow, Scikit-learnなどの各種フレームワー... 続きを読む

(1 - 4 / 4件)