タグ「npaka」 - はてブログ

タグ npaka

新着順人気順 5 users 10 users 50 users 100 users 500 users 1000 users

(1 - 25 / 39件)

Computer-Using Agent の概要｜npaka

2025/01/23 8 users Computer-Using Agent CUA 概要画面

以下の記事が面白かったので、簡単にまとめました。・Computer-Using Agent 1. Computer-Using Agent「Computer-Using Agent」(CUA) は、「GPT-4o」の視覚機能と強化学習による高度な推論機能を組み合わせたモデルです。人間と同じように、画面に表示されるボタン、メニュー、テキストフィールドなどのグラフィカルユ... 続きを読む

DeepSeek-R1 の概要｜npaka

2025/01/22 10 users OpenAI DeepSeek deepseek-ai 性能

「DeepSeek-R1」の概要をまとめました。 1. DeepSeek-R1「DeepSeek-R1」は、「DeepSeek」が開発した、オープンで高性能なReasoning能力を持つ大規模言語モデルです。2025年1月に発表され、OpenAIのo1と同等の性能を持つとされています。・deepseek-ai/DeepSeek-R1 特徴は、次のとおりです。・強力なReasoning能力強化... 続きを読む

Gemini 2.0 の 3D Spatial Understanding を試す｜npaka

2024/12/14 11 users experimental 能力 Gemini 2.0 技術

「Gemini 2.0」の「3D Spatial Understanding」を試したのでまとめました。・Pointing and 3D Spatial Understanding with Gemini 2.0 (Experimental) 1. 3D Spatial Understanding「3D Spatial Understanding」(3次元空間認識) は、2D画像や動画から、現実世界の3次元空間を理解する能力や技術のことです。【注意】3D... 続きを読む

YomiToku で漫画のOCRを試す｜npaka

2024/11/26 13 users YomiToku OCR ローカルサーバー漫画インストール

「YomiToku」で漫画のOCRを試したのでまとめました。 1. YomiToku「YomiToku」は、ローカルサーバーで実行可能かつ、日本語文書に特化したOCRおよびドキュメント画像解析を行うPythonパッケージです。 2. Google Colabでの実行「Google Colab」での実行手順は、次のとおりです。 (1) パッケージのインストール。 # パッ... 続きを読む

ChatGPT の Canvas の概要｜npaka

2024/10/04 22 users chatgpt canvas コーディングベータ版共同

以下の記事が面白かったので簡単にまとめました。・Introducing canvas 1. Canvas「Canvas」は、プロジェクト作成やコーディングで「ChatGPT」と連携するための新しいインターフェースです。別ウィンドウで開き、「ChatGPT」と共同でプロジェクトに取り組むことができます。このベータ版では、会話だけでなく、隣り合... 続きを読む

OpenAI の Realtime API の使い方｜npaka

2024/10/03 7 users ネイ function calling OpenAI API

以下の記事が面白かったので、簡単にまとめました。・Realtime API 1. Realtime API「Realtime API」は、低遅延のマルチモーダル会話エクスペリエンスを構築できるAPIです。現在、入力と出力の両方でテキストと音声がサポートされており、「Function Calling」もサポートされています。特徴は次のとおりです。・ネイ... 続きを読む

Llama 3.2 の使い方｜npaka

2024/09/28 39 users 使い方

以下の記事が面白かったので、簡単にまとめました。・Llama can now see and run on your device - welcome Llama 3.2 1. Llama 3.2 Vision 11B・90B1-1. Llama 3.2 Vision 11B・90B「Llama 3.2 Vision 11B・90B」は、Metaがリリースした最も強力なオープンマルチモーダルモデルです。画像+テキストのプロンプトでは英... 続きを読む

Anthropic Consoleでプロンプトの生成・テスト・評価を試す｜npaka

2024/07/10 6 users プロンプトタスク文書手順生成

2. プロンプトの生成・テスト・評価プロンプトの生成・テスト・評価の手順は、次のとおりです。 2-1. プロンプトの生成(1) 「Anthropic Console」を開き、「Generate a prompt」をクリック。 (2) 作成したいプロンプトのタスクを入力。今回は、「文書を最大10個の箇条書きにまとめる」と入力し、「Generate Prompt」ボ... 続きを読む

【Gemini本発売記念】npaka によるマルチモーダルとローカルLLMの現在と未来

2024/06/28 12 users マルチモーダルローカルLLM 未来

Taking LLMs out of the black box: A practical guide to human-in-the-loop distillation 続きを読む

Luma Dream Machine プロンプトガイド｜npaka

2024/06/17 66 users プロンプト jpg JPEG PNG画像シーン

以下の記事が面白かったので、簡単にまとめました。・FAQ and Prompt Guide: Luma Dream Machine 1. Image to Video のプロンプトガイド・生成ページの画像アイコンをクリックして JPG、JPEG、PNG画像をアップロードします。シーンを説明するプロンプトを提供することもできます。・「Enhance Prompt」を有効にすると... 続きを読む

GPT-4o の概要｜npaka

2024/05/13 237 users Omni GPT-4o 対話出力コンピュータ

以下の記事が面白かったので、簡単にまとめました。・Hello GPT-4o 1. GPT-4o「GPT-4o」 (「omni」の「o」) は、人間とコンピュータのより自然な対話に向けた一歩です。テキスト、音声、画像のあらゆる組み合わせを入力として受け入れ、テキスト、音声、画像の出力のあらゆる組み合わせを生成します。音声入力にはわず... 続きを読む

OpenAI の Model Spec の概要｜npaka

2024/05/13 7 users OpenAI example chatgpt ドラフト一連

以下の記事が面白かったので、簡単にまとめました。 Exampleは省略してるので元記事で確認してください。・Model Spec (2024/05/08) 1. Model Spec の概要1-1. Model Spec の概要これは「Model Spec」の最初のドラフトであり、OpenAI APIおよびChatGPTでのモデルの望ましい動作を指定する文書です。これには、一連の中... 続きを読む

Dify のワークフローの概要｜npaka

2024/05/04 21 users Dify workflow LLMアプリケーションノート

以下の記事が面白かったので、簡単にまとめました。・Workflow - Dify 1. ワークフロー1-1. ワークフロー「ワークフロー」は、複雑なタスクを小さな「ノード」に分割することで、LLMアプリケーションのモデル推論への依存を減らし、システムの説明可能性、安定性、耐障害性を向上させます。「ワークフロー」の種類は、... 続きを読む

Google Colab で Llama 3 のファインチューニングを試す｜npaka

2024/04/22 8 users ファインチューニング Meta Colab とおり動作

「Google Colab」での「Llama 3」のファインチューニングを試したので、まとめました。【注意】Google Colab Pro/Pro+のA100で動作確認しています。 1. Llama 3「Llama 3」は、Metaが開発したオープンモデルです。 2. 学習Colabでの学習手順は、次のとおりです。 (1) Colabのノートブックを開き、メニュー「編集 → ノー... 続きを読む

Command R の概要｜npaka

2024/04/05 5 users LLM Rag Embedding Cohere Tool

以下の記事が面白かったので、簡単にまとめました。・Command R: Retrieval-Augmented Generation at Production Scale 1. Command R「Command R」は、「RAG」や「Tool」などの長いコンテキストタスク向けに最適化されたLLMです。CohereのEmbeddingおよびRerankと連携して動作するように設計されており、RAGアプリケー... 続きを読む

OpenAI Sora の概要｜npaka

2024/02/16 5 users OpenAI Sora 概要

以下の記事が面白かったので、簡単にまとめました。・Sora 1. Sora「Sora」は、テキスト指示から現実的で想像力に富んだシーンを作成できる、Text-to-Videoモデルです。 OpenAIでは、人々が現実世界の相互作用を必要とする問題を解決するのに役立つ学習モデルを目標に、動いている物理的な世界を理解してシミュレートす... 続きを読む

Google Colab で LLaMA-Factory を試す｜npaka

2024/01/02 12 users WebUI LLM Google Colab 動作とおり

「Google Colab」で「LLaMA-Factory」を試したので、まとめました。【注意】Google Colab Pro/Pro+のA100で動作確認しています。 1. LLaMA-Factory「LLaMA-Factory」は、WebUIによる簡単操作でLLMを学習できるLLMファインチューニングフレームワークです。サポートするモデルは、次のとおりです。サポートする学習法... 続きを読む

Gemini Pro のリリースの概要｜npaka

2023/12/13 10 users ベンチマーク Gemini API 最初バージョンモデル

以下の記事が面白かったので、かるくまとめました。・It’s time for developers and enterprises to build with Gemini Pro 1. Gemini Pro のリリースの概要「Gemini Pro」の最初のバージョンが、「Gemini API」を介してアクセスできるようになりました。・「Gemini Pro」は、ベンチマークで他の同様のサイズのモデル... 続きを読む

Google Colab で Gemini Pro を試す｜npaka

2023/12/13 18 users 実行Colab Gemini API テキスト生成とおり

「Google Colab」で「Gemini Pro」を試したので、まとめました。 1. Gemini Pro「Gemini Pro」は、Googleの最新AIモデルの1つです。「Gemini Pro」の最初のバージョンが、「Gemini API」で利用できるようになりました。 3. テキスト生成の実行Colabでのテキスト生成の実行手順は、次のとおりです。 (1) パッケージのイン... 続きを読む

LangChain への OpenAIのRAG戦略の適用｜npaka

2023/11/17 11 users OpenAI LangChain 適用

以下の記事が面白かったので、かるくまとめました。・Applying OpenAI's RAG Strategies 1. はじめに「Open AI」はデモデーで一連のRAG実験を報告しました。評価指標はアプリケーションによって異なりますが、何が機能し、何が機能しなかったかを確認するのは興味深いことです。以下では、各手法を説明し、それぞれを自... 続きを読む

OpenAI の Assistant Playground の Code Interpreter を試す｜npaka

2023/11/12 26 users OpenAI Code Interpreter ファグラフ

「OpenAI」の「Assistant Playground」の「Code Interpreter」を試したので、まとめました。前回 1. Code Interpreter「Code Interpreter」は、アシスタントがサンドボックス実行環境でPythonコードを作成および実行できるツールです。さまざまなデータと形式を含むファイルを処理し、データとグラフの画像を含むファ... 続きを読む

Google Colab で OpenAI API の Code Interpreter を試す｜npaka

2023/11/11 8 users Python タスク API AIアシスタント前回

「Google Colab」で「OpenAI API」の「Code Interpreter」を試したので、まとめました。前回 1. Code Interpreter「Assistant API」は、さまざまなタスクを実行できる強力な「AIアシスタント」を作成するためのAPIです。「Assistant API」は現在、次の3つのツールをサポートしています。・Code Interpreter : Python... 続きを読む

LangChain クイックスタートガイド - Python版｜npaka

2023/11/03 28 users LLM models クイックスタートガイド Python版

Python版の「LangChain」のクイックスタートガイドをまとめました。・LangChain v0.0.329 (2023/11/3) 1. LangChain「LangChain」は、「大規模言語モデル」 (LLM : Large language models) と連携するアプリの開発を支援するライブラリです。「LLM」という革新的テクノロジーによって、開発者は今まで不可能だったこと... 続きを読む

大規模モデルを単一GPUで効率的に学習する方法｜npaka

2023/10/02 13 users LLM スループット大規模モデルパフォーマンスサンプル

A以下の記事が面白かったので、かるくまとめました。・Methods and tools for efficient training on a single GPU 1. LLMを単一GPUで効率的に学習する方法大規模モデルの学習では、次の2つを考慮する必要があります。・スループット・学習時間・モデルのパフォーマンス「スループット」 (サンプル / 秒) を最大化す... 続きを読む

Google Colab で Xwin-LM-70B-V0.1-GPTQ を試す。｜npaka

2023/09/22 8 users GPT-4 ベンチマーク Google Colab 動作 1位

「Google Colab」で「Xwin-LM-70B-V0.1-GPTQ」を試したので、まとめました。【注意】Google Colab Pro/Pro+のA100で70Bを動作確認しています。 1. Xwin-LM-70B-V0.1-GPTQ「Xwin-LM」は、ベンチマーク「AlpacaEval」で「GPT-4」を追い抜き1位を獲得したモデルです。今回は、「TheBloke/Xwin-LM-70B-V0.1-GPTQ」を利用し... 続きを読む