タグ npaka
人気順 5 users 50 users 100 users 500 users 1000 usersGemini 2.0 の 3D Spatial Understanding を試す|npaka
「Gemini 2.0」の「3D Spatial Understanding」を試したのでまとめました。 ・Pointing and 3D Spatial Understanding with Gemini 2.0 (Experimental) 1. 3D Spatial Understanding「3D Spatial Understanding」(3次元空間認識) は、2D画像や動画から、現実世界の3次元空間を理解する能力や技術のことです。 【注意】3D... 続きを読む
YomiToku で漫画のOCRを試す|npaka
「YomiToku」で漫画のOCRを試したのでまとめました。 1. YomiToku「YomiToku」は、ローカルサーバーで実行可能かつ、日本語文書に特化したOCRおよびドキュメント画像解析を行うPythonパッケージです。 2. Google Colabでの実行「Google Colab」での実行手順は、次のとおりです。 (1) パッケージのインストール。 # パッ... 続きを読む
ChatGPT の Canvas の概要|npaka
以下の記事が面白かったので簡単にまとめました。 ・Introducing canvas 1. Canvas「Canvas」は、プロジェクト作成やコーディングで 「ChatGPT」と連携するための新しいインターフェースです。別ウィンドウで開き、「ChatGPT」と共同でプロジェクトに取り組むことができます。このベータ版では、会話だけでなく、隣り合... 続きを読む
Llama 3.2 の使い方|npaka
以下の記事が面白かったので、簡単にまとめました。 ・Llama can now see and run on your device - welcome Llama 3.2 1. Llama 3.2 Vision 11B・90B1-1. Llama 3.2 Vision 11B・90B「Llama 3.2 Vision 11B・90B」は、Metaがリリースした最も強力なオープンマルチモーダルモデルです。画像+テキストのプロンプトでは英... 続きを読む
【Gemini本発売記念】npaka による マルチモーダルとローカルLLMの現在と未来
Taking LLMs out of the black box: A practical guide to human-in-the-loop distillation 続きを読む
Luma Dream Machine プロンプトガイド|npaka
以下の記事が面白かったので、簡単にまとめました。 ・FAQ and Prompt Guide: Luma Dream Machine 1. Image to Video のプロンプトガイド・生成ページの画像アイコンをクリックして JPG、JPEG、PNG画像をアップロードします。シーンを説明するプロンプトを提供することもできます。 ・「Enhance Prompt」を有効にすると... 続きを読む
GPT-4o の概要|npaka
以下の記事が面白かったので、簡単にまとめました。 ・Hello GPT-4o 1. GPT-4o「GPT-4o」 (「omni」の「o」) は、人間とコンピュータのより自然な対話に向けた一歩です。テキスト、音声、画像のあらゆる組み合わせを入力として受け入れ、テキスト、音声、画像の出力のあらゆる組み合わせを生成します。 音声入力にはわず... 続きを読む
Dify の ワークフロー の概要|npaka
以下の記事が面白かったので、簡単にまとめました。 ・Workflow - Dify 1. ワークフロー1-1. ワークフロー「ワークフロー」は、複雑なタスクを小さな「ノード」に分割することで、LLMアプリケーションのモデル推論への依存を減らし、システムの説明可能性、安定性、耐障害性を向上させます。 「ワークフロー」の種類は、... 続きを読む
Google Colab で LLaMA-Factory を試す|npaka
「Google Colab」で「LLaMA-Factory」を試したので、まとめました。 【注意】Google Colab Pro/Pro+のA100で動作確認しています。 1. LLaMA-Factory「LLaMA-Factory」は、WebUIによる簡単操作でLLMを学習できるLLMファインチューニングフレームワークです。 サポートするモデルは、次のとおりです。 サポートする学習法... 続きを読む
Gemini Pro のリリースの概要|npaka
以下の記事が面白かったので、かるくまとめました。 ・It’s time for developers and enterprises to build with Gemini Pro 1. Gemini Pro のリリースの概要「Gemini Pro」の最初のバージョンが、「Gemini API」を介してアクセスできるようになりました。 ・「Gemini Pro」は、ベンチマークで他の同様のサイズのモデル... 続きを読む
Google Colab で Gemini Pro を試す|npaka
「Google Colab」で「Gemini Pro」を試したので、まとめました。 1. Gemini Pro「Gemini Pro」は、Googleの最新AIモデルの1つです。「Gemini Pro」の最初のバージョンが、「Gemini API」で利用できるようになりました。 3. テキスト生成の実行Colabでのテキスト生成の実行手順は、次のとおりです。 (1) パッケージのイン... 続きを読む
LangChain への OpenAIのRAG戦略の適用|npaka
以下の記事が面白かったので、かるくまとめました。 ・Applying OpenAI's RAG Strategies 1. はじめに「Open AI」はデモデーで一連のRAG実験を報告しました。評価指標はアプリケーションによって異なりますが、何が機能し、何が機能しなかったかを確認するのは興味深いことです。以下では、各手法を説明し、それぞれを自... 続きを読む
OpenAI の Assistant Playground の Code Interpreter を試す|npaka
「OpenAI」の 「Assistant Playground」の「Code Interpreter」を試したので、まとめました。 前回 1. Code Interpreter「Code Interpreter」は、アシスタントがサンドボックス実行環境でPythonコードを作成および実行できるツールです。さまざまなデータと形式を含むファイルを処理し、データとグラフの画像を含むファ... 続きを読む
LangChain クイックスタートガイド - Python版|npaka
Python版の「LangChain」のクイックスタートガイドをまとめました。 ・LangChain v0.0.329 (2023/11/3) 1. LangChain「LangChain」は、「大規模言語モデル」 (LLM : Large language models) と連携するアプリの開発を支援するライブラリです。 「LLM」という革新的テクノロジーによって、開発者は今まで不可能だったこと... 続きを読む
大規模モデルを単一GPUで効率的に学習する方法|npaka
A以下の記事が面白かったので、かるくまとめました。 ・Methods and tools for efficient training on a single GPU 1. LLMを単一GPUで効率的に学習する方法大規模モデルの学習では、次の2つを考慮する必要があります。 ・スループット・学習時間 ・モデルのパフォーマンス 「スループット」 (サンプル / 秒) を最大化す... 続きを読む
Streamlit 入門|npaka
「Streamlit」の使い方をまとめました。 1. Streamlit「Streamlit」は、機械学習およびデータサイエンスのためのWebアプリケーションフレームを簡単に作成して共有できるPythonライブラリです。 2. HelloWorldの作成HelloWorldの作成手順は、次のとおりです。 (1) Pythonの仮想環境の準備。 (2) パッケージのインストー... 続きを読む
LLMのファインチューニング で 何ができて 何ができないのか|npaka
LLMのファインチューニングで何ができて、何ができないのかまとめました。 1. LLMのファインチューニングLLMのファインチューニングの目的は、「特定のアプリケーションのニーズとデータに基づいて、モデルの出力の品質を向上させること」にあります。 OpenAIのドキュメントには、次のように記述されています。 ファイン... 続きを読む
OpenAIのファインチューニングAPIによる GPT-4 から GPT-3.5 への蒸留を試す|npaka
OpenAIのファインチューニングAPIによる GPT-4 から GPT-3.5 への蒸留を試したのでまとめました。 1. GPT-4 から GPT-3.5 への蒸留「LlamaIndex」で、OpenAIのファインチューニングAPIによる GPT-4 から GPT-3.5 への蒸留のColabが提供されてたので、それをベースに独自データで試してみました。 具体的には、「GPT-4」... 続きを読む
OpenAI API の ファインチューニングガイド|npaka
1. ファインチューニングの利点ファインチューニングの利点は、次のとおりです。 (1) プロンプトよりも高品質な応答 (2) プロンプトに収まりきらないより多くの例の適用 (3) プロンプトの短縮によるトークン数 (コスト) の節約 (4) プロンプトの短縮による処理時間の短縮 モデルは膨大な量のテキストで事前学習されてお... 続きを読む
GitHub Copilot Labs の使い方|npaka
1. GitHub Copilot Labs「GitHub Copilot Labs」は、「GitHub Copilot」の実験的な機能を提供するVSCode拡張です。 以下の機能を提供しています。 ・コードの説明 ・コードを別の言語に翻訳 ・コードのブラッシュアップ ・読みやすさの向上 ・型の追加 ・バグ修正 ・デバッグコードの追加・削除 ・コードをステップ毎に... 続きを読む
『OpenAI GPT-4/ChatGPT/LangChain 人工知能プログラミング実践入門』 が発売になります。|npaka
この本は、「GPT-4」「ChatGPT」「LangChain」を活用して「チャットAI」を開発するための入門書です。 対象読者は、 ・チャットAIのしくみを知りたい人 ・チャットAIに知識や計算の能力を与えて仕事を自動化したい人 ・会話ロボットやAITuberなどの会話エンジンとして使いたい人 ・自分のアプリケーションにチャットUIを... 続きを読む
StackLLaMA : RLHFでLLaMAを学習するための実践ガイド|npaka
以下の記事が面白かったので、簡単にまとめました。 ・StackLLaMA: A hands-on guide to train LLaMA with RLHF 1. はじめにこの記事では、「SFT」「RM」「RLHF」の組み合わせで、「Stack Exchange」の質問に答える「StackLLaMA」の学習の全ステップを紹介します。 ・SFT (Supervised Fine-tuning) : 教師ありファインチ... 続きを読む
LLM の LoRA / RLHF によるファインチューニング用のツールキットまとめ |npaka
「LLM」の「LoRA」「RLHF」によるファインチューニング用のツールキットをまとめました。 1. PEFT「PEFT」は、モデルの全体のファインチューニングなしに、事前学習済みの言語モデルをさまざまな下流タスクに適応させることができるパッケージです。 現在サポートしている手法は、次の4つです。 ・LoRA ・Prefix Tuning ... 続きを読む