はてブログ

はてなブックマーク新着エントリーの過去ログサイトです。



タグ RLHF

新着順 人気順 5 users 10 users 50 users 100 users 500 users 1000 users
 
(1 - 6 / 6件)
 

OpenAI、ChatGPTが画像を分析する『GPT-4V(ビジョン)』を発表。安全性、嗜好性、福祉機能を強化 | AIDB

2023/09/26 このエントリーをはてなブックマークに追加 15 users Instapaper Pocket Tweet Facebook Share Evernote Clip OpenAI chatgpt AIDB DALL-E ビジョン

画像出力の不明点と可能性 現時点でGPT-4Vが画像を出力できるかどうかについては、公式な情報はありません。しかし、OpenAIが開発したDALL-Eなどの画像生成AIとの連携が将来的には考えられる(発表済み)ため、この点には注目が集まっています。 RLHF(人間フィードバック強化学習)による嗜好性の学習 GPT-4Vは、人間フ... 続きを読む

ChatGPTを支えた高品質AI作成手法「RLHF」の中身はこんな感じ、面倒なデータ入力・整理はオープンソースでセルフホスト可能なプラットフォーム「Argilla」が便利

2023/06/10 このエントリーをはてなブックマークに追加 104 users Instapaper Pocket Tweet Facebook Share Evernote Clip chatgpt プラットフォーム セルフホスト 実用 手法

RLHFとは「人間の評価による強化学習」のことで、大規模言語モデルをChatGPTなどの実用レベルに至る品質にまで高めた実績のある手法です。RLHFでは教師データを作成したり、大規模言語モデルの回答を評価したりする際に人間がデータを入力する必要があり、特に複数人で作業する場合にデータの管理が大変になってしまうも... 続きを読む

StackLLaMA : RLHFでLLaMAを学習するための実践ガイド|npaka

2023/05/27 このエントリーをはてなブックマークに追加 11 users Instapaper Pocket Tweet Facebook Share Evernote Clip Llama npaka Stack Exchange 学習

以下の記事が面白かったので、簡単にまとめました。 ・StackLLaMA: A hands-on guide to train LLaMA with RLHF 1. はじめにこの記事では、「SFT」「RM」「RLHF」の組み合わせで、「Stack Exchange」の質問に答える「StackLLaMA」の学習の全ステップを紹介します。 ・SFT (Supervised Fine-tuning) : 教師ありファインチ... 続きを読む

LLM の LoRA / RLHF によるファインチューニング用のツールキットまとめ |npaka

2023/05/13 このエントリーをはてなブックマークに追加 21 users Instapaper Pocket Tweet Facebook Share Evernote Clip LLM ファインチューニング LoRa npaka 手法

「LLM」の「LoRA」「RLHF」によるファインチューニング用のツールキットをまとめました。 1. PEFT「PEFT」は、モデルの全体のファインチューニングなしに、事前学習済みの言語モデルをさまざまな下流タスクに適応させることができるパッケージです。 現在サポートしている手法は、次の4つです。 ・LoRA ・Prefix Tuning ... 続きを読む

RLHF (人間のフィードバックからの強化学習) の図解|npaka|note

2023/04/27 このエントリーをはてなブックマークに追加 47 users Instapaper Pocket Tweet Facebook Share Evernote Clip 文脈 目覚ましい成果 Note フィードバック 入力プロンプト

以下の記事が面白かったので、軽く要約しました。 ・Illustrating Reinforcement Learning from Human Feedback (RLHF) 1. はじめに言語モデルは、人間の入力プロンプトから多様で説得力のあるテキストを生成することで、ここ数年、目覚ましい成果をあげています。しかし、「良い」テキストかどうかは、主観的で文脈に依... 続きを読む

ChatGPTのようなモデルを高速生成するツール、Microsoftが開発 「既存技術の15倍以上」うたう

2023/04/13 このエントリーをはてなブックマークに追加 12 users Instapaper Pocket Tweet Facebook Share Evernote Clip chatgpt パラメータ Microsoft 学習速度 学習

米Microsoftは4月12日、ChatGPTのようなモデルを生成できるツール「DeepSpeed-Chat」を公開した。GPU1台で100億以上のパラメータを持つモデルの学習ができる上、学習速度も既存技術の15倍以上としている。 DeepSpeed-ChatはChatGPTでも採用されている学習手法「RLHF」を効率的に実行するためのツール。これまでは高価なG... 続きを読む

 
(1 - 6 / 6件)