はてブログ

はてなブックマーク新着エントリーの過去ログサイトです。



タグ RLHF

新着順 人気順 5 users 10 users 50 users 100 users 500 users 1000 users
 
(1 - 9 / 9件)
 

OpenAI、ChatGPTが画像を分析する『GPT-4V(ビジョン)』を発表。安全性、嗜好性、福祉機能を強化 | AIDB

2023/09/26 このエントリーをはてなブックマークに追加 15 users Instapaper Pocket Tweet Facebook Share Evernote Clip OpenAI chatgpt AIDB DALL-E ビジョン

画像出力の不明点と可能性 現時点でGPT-4Vが画像を出力できるかどうかについては、公式な情報はありません。しかし、OpenAIが開発したDALL-Eなどの画像生成AIとの連携が将来的には考えられる(発表済み)ため、この点には注目が集まっています。 RLHF(人間フィードバック強化学習)による嗜好性の学習 GPT-4Vは、人間フ... 続きを読む

ChatGPTを支えた高品質AI作成手法「RLHF」の中身はこんな感じ、面倒なデータ入力・整理はオープンソースでセルフホスト可能なプラットフォーム「Argilla」が便利

2023/06/10 このエントリーをはてなブックマークに追加 104 users Instapaper Pocket Tweet Facebook Share Evernote Clip chatgpt プラットフォーム セルフホスト 実用 手法

RLHFとは「人間の評価による強化学習」のことで、大規模言語モデルをChatGPTなどの実用レベルに至る品質にまで高めた実績のある手法です。RLHFでは教師データを作成したり、大規模言語モデルの回答を評価したりする際に人間がデータを入力する必要があり、特に複数人で作業する場合にデータの管理が大変になってしまうも... 続きを読む

StackLLaMA : RLHFでLLaMAを学習するための実践ガイド|npaka

2023/05/27 このエントリーをはてなブックマークに追加 11 users Instapaper Pocket Tweet Facebook Share Evernote Clip Llama npaka Stack Exchange 学習

以下の記事が面白かったので、簡単にまとめました。 ・StackLLaMA: A hands-on guide to train LLaMA with RLHF 1. はじめにこの記事では、「SFT」「RM」「RLHF」の組み合わせで、「Stack Exchange」の質問に答える「StackLLaMA」の学習の全ステップを紹介します。 ・SFT (Supervised Fine-tuning) : 教師ありファインチ... 続きを読む

人間による評価をシミュレートすることで高速&安価にチャットAIの学習を進められるツール「AlpacaFarm」がスタンフォード大学のチームによって作成される

2023/05/24 このエントリーをはてなブックマークに追加 8 users Instapaper Pocket Tweet Facebook Share Evernote Clip Reinforcement Learning 欠点 実在

大規模言語モデルの学習においては、実際の人間による評価をモデルの出力に反映させる「Reinforcement Learning from Human Feedback(RLHF)」が行われます。しかし、RLHFは実在の人間を使うため報酬の支払いでコストがかさんだり、フィードバックを回収するまでに時間がかかるなどの欠点が存在していました。「AlpacaFar... 続きを読む

LLM の LoRA / RLHF によるファインチューニング用のツールキットまとめ |npaka

2023/05/13 このエントリーをはてなブックマークに追加 21 users Instapaper Pocket Tweet Facebook Share Evernote Clip LLM ファインチューニング LoRa npaka 手法

「LLM」の「LoRA」「RLHF」によるファインチューニング用のツールキットをまとめました。 1. PEFT「PEFT」は、モデルの全体のファインチューニングなしに、事前学習済みの言語モデルをさまざまな下流タスクに適応させることができるパッケージです。 現在サポートしている手法は、次の4つです。 ・LoRA ・Prefix Tuning ... 続きを読む

RLHF (人間のフィードバックからの強化学習) の図解|npaka|note

2023/04/27 このエントリーをはてなブックマークに追加 47 users Instapaper Pocket Tweet Facebook Share Evernote Clip 文脈 目覚ましい成果 Note フィードバック 入力プロンプト

以下の記事が面白かったので、軽く要約しました。 ・Illustrating Reinforcement Learning from Human Feedback (RLHF) 1. はじめに言語モデルは、人間の入力プロンプトから多様で説得力のあるテキストを生成することで、ここ数年、目覚ましい成果をあげています。しかし、「良い」テキストかどうかは、主観的で文脈に依... 続きを読む

大規模言語モデルのための強化学習|npaka|note

2023/04/24 このエントリーをはてなブックマークに追加 9 users Instapaper Pocket Tweet Facebook Share Evernote Clip npaka|note 強化学習 言語モデル LLM 学習

以下の記事が面白かったので、軽く要約しました。 ・Reinforcement Learning for Language Models 1. はじめに「ChatGPT」とそれに続く「大規模言語モデル」(LLM)のリリースに伴い、「RLHF」の重要性が議論されました。しかし、なぜ「強化学習」が「教師あり学習」よりも言語モデルの学習に適しているのか疑問に思いまし... 続きを読む

ChatGPTのようなモデルを高速生成するツール、Microsoftが開発 「既存技術の15倍以上」うたう

2023/04/13 このエントリーをはてなブックマークに追加 12 users Instapaper Pocket Tweet Facebook Share Evernote Clip chatgpt パラメータ Microsoft 学習速度 学習

米Microsoftは4月12日、ChatGPTのようなモデルを生成できるツール「DeepSpeed-Chat」を公開した。GPU1台で100億以上のパラメータを持つモデルの学習ができる上、学習速度も既存技術の15倍以上としている。 DeepSpeed-ChatはChatGPTでも採用されている学習手法「RLHF」を効率的に実行するためのツール。これまでは高価なG... 続きを読む

ChatGPTなどに使われる大規模言語モデルを従来のシステムよりも15倍高速・低コストで学習できる「DeepSpeed-Chat」をMicrosoftが公開

2023/04/13 このエントリーをはてなブックマークに追加 9 users Instapaper Pocket Tweet Facebook Share Evernote Clip chatgpt エンドツーエンド OpenAI コーディング

OpenAIが提供する「ChatGPT」などのチャットAIは要約やコーディング、翻訳などを人間の専門家以上の精度で実行できると報告されています。しかしチャットAIの訓練に必要な人間のフィードバックに基づいた強化学習(RLHF)を実行するエンドツーエンドなパイプラインが存在せず、最先端のチャットAIの訓練を行うことは困難で... 続きを読む

 
(1 - 9 / 9件)