タグ「RLHF」 - はてブログ

タグ RLHF

新着順人気順 5 users 10 users 50 users 100 users 500 users 1000 users

(1 - 6 / 6件)

OpenAI、ChatGPTが画像を分析する『GPT-4V（ビジョン）』を発表。安全性、嗜好性、福祉機能を強化 | AIDB

2023/09/26 15 users OpenAI chatgpt AIDB DALL-E ビジョン

画像出力の不明点と可能性現時点でGPT-4Vが画像を出力できるかどうかについては、公式な情報はありません。しかし、OpenAIが開発したDALL-Eなどの画像生成AIとの連携が将来的には考えられる（発表済み）ため、この点には注目が集まっています。 RLHF（人間フィードバック強化学習）による嗜好性の学習 GPT-4Vは、人間フ... 続きを読む

ChatGPTを支えた高品質AI作成手法「RLHF」の中身はこんな感じ、面倒なデータ入力・整理はオープンソースでセルフホスト可能なプラットフォーム「Argilla」が便利

2023/06/10 104 users chatgpt プラットフォームセルフホスト実用手法

RLHFとは「人間の評価による強化学習」のことで、大規模言語モデルをChatGPTなどの実用レベルに至る品質にまで高めた実績のある手法です。RLHFでは教師データを作成したり、大規模言語モデルの回答を評価したりする際に人間がデータを入力する必要があり、特に複数人で作業する場合にデータの管理が大変になってしまうも... 続きを読む

StackLLaMA : RLHFでLLaMAを学習するための実践ガイド｜npaka

2023/05/27 11 users Llama npaka Stack Exchange 学習

以下の記事が面白かったので、簡単にまとめました。・StackLLaMA: A hands-on guide to train LLaMA with RLHF 1. はじめにこの記事では、「SFT」「RM」「RLHF」の組み合わせで、「Stack Exchange」の質問に答える「StackLLaMA」の学習の全ステップを紹介します。・SFT (Supervised Fine-tuning) : 教師ありファインチ... 続きを読む

LLM の LoRA / RLHF によるファインチューニング用のツールキットまとめ｜npaka

2023/05/13 21 users LLM ファインチューニング LoRa npaka 手法

「LLM」の「LoRA」「RLHF」によるファインチューニング用のツールキットをまとめました。 1. PEFT「PEFT」は、モデルの全体のファインチューニングなしに、事前学習済みの言語モデルをさまざまな下流タスクに適応させることができるパッケージです。現在サポートしている手法は、次の4つです。・LoRA ・Prefix Tuning ... 続きを読む

RLHF (人間のフィードバックからの強化学習) の図解｜npaka｜note

2023/04/27 47 users 文脈目覚ましい成果 Note フィードバック入力プロンプト

以下の記事が面白かったので、軽く要約しました。・Illustrating Reinforcement Learning from Human Feedback (RLHF) 1. はじめに言語モデルは、人間の入力プロンプトから多様で説得力のあるテキストを生成することで、ここ数年、目覚ましい成果をあげています。しかし、「良い」テキストかどうかは、主観的で文脈に依... 続きを読む

ChatGPTのようなモデルを高速生成するツール、Microsoftが開発　「既存技術の15倍以上」うたう

2023/04/13 12 users chatgpt パラメータ Microsoft 学習速度学習

米Microsoftは4月12日、ChatGPTのようなモデルを生成できるツール「DeepSpeed-Chat」を公開した。GPU1台で100億以上のパラメータを持つモデルの学習ができる上、学習速度も既存技術の15倍以上としている。 DeepSpeed-ChatはChatGPTでも採用されている学習手法「RLHF」を効率的に実行するためのツール。これまでは高価なG... 続きを読む

(1 - 6 / 6件)

タグ RLHF

OpenAI、ChatGPTが画像を分析する『GPT-4V（ビジョン）』を発表。安全性、嗜好性、福祉機能を強化 | AIDB

ChatGPTを支えた高品質AI作成手法「RLHF」の中身はこんな感じ、面倒なデータ入力・整理はオープンソースでセルフホスト可能なプラットフォーム「Argilla」が便利

StackLLaMA : RLHFでLLaMAを学習するための実践ガイド｜npaka

LLM の LoRA / RLHF によるファインチューニング用のツールキットまとめ｜npaka

RLHF (人間のフィードバックからの強化学習) の図解｜npaka｜note

ChatGPTのようなモデルを高速生成するツール、Microsoftが開発　「既存技術の15倍以上」うたう

本日の新着エントリー

本日の人気エントリー

1年前の人気エントリー

先週のランキング

人気エントリーにあるタグ

最近の注目エントリー

最近の注目タグ

タグ RLHF

OpenAI、ChatGPTが画像を分析する『GPT-4V（ビジョン）』を発表。安全性、嗜好性、福祉機能を強化 | AIDB

ChatGPTを支えた高品質AI作成手法「RLHF」の中身はこんな感じ、面倒なデータ入力・整理はオープンソースでセルフホスト可能なプラットフォーム「Argilla」が便利

StackLLaMA : RLHFでLLaMAを学習するための実践ガイド｜npaka

LLM の LoRA / RLHF によるファインチューニング用のツールキットまとめ ｜npaka

RLHF (人間のフィードバックからの強化学習) の図解｜npaka｜note

ChatGPTのようなモデルを高速生成するツール、Microsoftが開発 「既存技術の15倍以上」うたう

本日の新着エントリー

本日の人気エントリー

1年前の人気エントリー

先週のランキング

人気エントリーにあるタグ

最近の注目エントリー

最近の注目タグ

LLM の LoRA / RLHF によるファインチューニング用のツールキットまとめ｜npaka

ChatGPTのようなモデルを高速生成するツール、Microsoftが開発　「既存技術の15倍以上」うたう