はてブログ

はてなブックマーク新着エントリーの過去ログサイトです。



タグ 大規模言語モデル

新着順 人気順 5 users 10 users 50 users 100 users 500 users 1000 users
 
(1 - 25 / 83件)

日本特有の知識に特化した大規模言語モデルの学習および評価

2024/11/19 このエントリーをはてなブックマークに追加 12 users Instapaper Pocket Tweet Facebook Share Evernote Clip 学習 知識 評価 日本

一方で、法令・公的文書だけを見て質問を作成するためには高度な専門性が要求されるため、この作問方法はとても負荷の高い作業でした。また、特定の法律を知っているか否かを測る一問一答形式の評価データが過度に多くなる傾向もあり、ELYZA-tasks-100 を作成する際に重視した「役に立つ」という観点が欠如してしまうと... 続きを読む

大規模言語モデルとチェスAIで対決させるとほとんどの大規模言語モデルがズタボロに負ける中なぜか「gpt-3.5-turbo-instruct」だけが圧倒的勝利

2024/11/15 このエントリーをはてなブックマークに追加 26 users Instapaper Pocket Tweet Facebook Share Evernote Clip 興隆 チェス ズダボロ チェスAI 好成績

AIが興隆を迎える近年、さまざまな企業が独自の大規模言語モデルをリリースしています。こうした大規模言語モデルをチェスの標準的なAIと対戦させた結果、多くの大規模言語モデルが惨敗する中、「gpt-3.5-turbo-instruct」だけが好成績を残したことが報告されています。 Something weird is happening with LLMs and che... 続きを読む

25グラムの「AIレコーダー」が“仕事”を激変させる? サッと録音→GPT-4oですぐ要約 話題のガジェットを使ってみた

2024/11/13 このエントリーをはてなブックマークに追加 18 users Instapaper Pocket Tweet Facebook Share Evernote Clip 要約 GPT-4o AIレコーダー ガジェット 録音

2024年12月、ウェアラブル型の“AIデバイス”が日本に上陸する。生成AIとボイスレコーダーを組み合わせた米Nicebuildの「PLAUD NotePin」(プラウド ノートピン)だ。本体価格は2万8600円。腕時計やピンバッジのように身に着けて会話を録音し、米OpenAIの大規模言語モデル(LLM)「GPT-4o」と連携して文字起こしや要約がで... 続きを読む

完全にオープンで再現可能な大規模言語モデル「OpenCoder」がリリースされる

2024/11/11 このエントリーをはてなブックマークに追加 13 users Instapaper Pocket Tweet Facebook Share Evernote Clip 上海 再現 オープンソース AI企業 チーム

上海のAI企業「INF Technology」やオープンソースのAI研究コミュニティ「M-A-P」などに在籍する研究者のチームにより、最終モデルだけでなくトレーニングデータやデータ処理パイプラインなど、モデルを再現するのに必要な情報全てがオープンな大規模言語モデル「OpenCoder」が公開されました。 OpenCoder: Top-Tier Open... 続きを読む

「RAG」とは何か? なぜ“LLMの限界”を突破できるのか

2024/10/08 このエントリーをはてなブックマークに追加 10 users Instapaper Pocket Tweet Facebook Share Evernote Clip LLM Rag ハルシネーション 人工知能 課題克服

関連キーワード 人工知能 大規模言語モデル(LLM)を活用する上で大きな課題となるのが、ハルシネーション(事実に基づかない回答を出力すること)のリスクだ。こうしたLLMの課題克服に役立つ技術として「RAG」(検索拡張生成)が注目されている。RAGはLLMの回答精度向上にどう役立つのか。その仕組みを解説する。 なぜ... 続きを読む

生成AIを活用したシステム開発の現状と展望 - 生成AI時代を見据えたシステム開発に向けて - |日本総研

2024/09/30 このエントリーをはてなブックマークに追加 15 users Instapaper Pocket Tweet Facebook Share Evernote Clip 生成AI 展望 生成AI時代 日本総研 現状

現在、大規模言語モデル(LLM)に代表される生成AIがシステム開発の領域において注目を浴びており、システム開発プロセス全体の効率化から、特定の業務における自動化まで、その応用範囲は広がり続けている。本レポートでは、生成AIを用いたシステム開発についての現状を整理し、生成AIによって今後のシステム開発がどのよ... 続きを読む

富士通、大規模言語モデル「Takane」提供開始 「世界一の日本語性能を持つ」とうたう

2024/09/30 このエントリーをはてなブックマークに追加 42 users Instapaper Pocket Tweet Facebook Share Evernote Clip LLM 富士通 Cohere 日本語性能 カナダ

富士通は9月30日、カナダのAIスタートアップ企業Cohereと共同開発した大規模言語モデル(LLM)「Takane」の提供を始めた。富士通のAIサービス「Fujitsu Kozuchi」を通じて提供。同社はこのLLMについて「世界一の日本語性能を持つ」とうたっている。 Takaneは、CohereのLLM「Command R+」をベースに、日本語に特化させる... 続きを読む

15時間で学べるAI学習決定版。グーグルが提供する無料の機械学習集中講座が大幅刷新され、LLMもカバー | DevelopersIO

2024/09/09 このエントリーをはてなブックマークに追加 632 users Instapaper Pocket Tweet Facebook Share Evernote Clip LLM Transformer DevelopersIO

15時間で学べるAI学習決定版。グーグルが提供する無料の機械学習集中講座が大幅刷新され、LLMもカバー Googleが提供する無料の機械学習の集中講座はご存知でしょうか? 機械学習に関する幅広いテーマを座学・動画・実験・コーディングといった様々なアプローチで15時間で学べます。しかも無料です。 このコンテンツはもと... 続きを読む

大規模言語モデルの仕組みが目で見てわかる「Transformer Explainer」

2024/08/15 このエントリーをはてなブックマークに追加 21 users Instapaper Pocket Tweet Facebook Share Evernote Clip Transformer 言語モデル Claude Llama

GPT-4やLlama、Claudeといった大規模言語モデルは、2017年にGoogleの研究者が発表した「Transformer」というフレームワークの上に構築されています。このTransformerをベースにしたAIモデルがどのように機能するのかを視覚化したツール「Transformer Explainer」が、ジョージア工科大学のPolo Club of Data Scienceによ... 続きを読む

数学を解ける言語モデル「Qwen2-Math」が登場、GPT-4o超えの数学性能

2024/08/10 このエントリーをはてなブックマークに追加 20 users Instapaper Pocket Tweet Facebook Share Evernote Clip 数学 クローズドソース 言語モデル GPT-4o 数学特化

中国のAI研究チームが数学特化の大規模言語モデル「Qwen2-Math」を公開しました。Qwen2-MathはGPT-4oやGemini-1.5-Proなどのクローズドソースの大規模言語モデルをしのぐ数学性能を備えています。 Introducing Qwen2-Math | Qwen https://qwenlm.github.io/blog/qwen2-math/ QwenLM/Qwen2-Math: A series of math-specif... 続きを読む

「Llama 3.1」の日本語追加学習モデル、サイバーエージェントが公開 SNSでは「爆速すぎる」の声

2024/07/26 このエントリーをはてなブックマークに追加 27 users Instapaper Pocket Tweet Facebook Share Evernote Clip サイバーエージェント 爆速 LLM Meta 米Meta

サイバーエージェントは7月26日、米Metaの最新AIモデル「Llama 3.1 70B」を使った新たな大規模言語モデル(LLM)を公開した。Llama 3.1 70Bをベースに、日本語データを追加学習させたもので、Hugging Face上で公開している。ライセンスはMetaの「Llama 3.1 Community License」に基づいており、商用利用可能だが、利用規... 続きを読む

C/C++の脆弱性をLLMで検出 Googleが新研究開発プロジェクト「Naptime」を発表

2024/06/28 このエントリーをはてなブックマークに追加 16 users Instapaper Pocket Tweet Facebook Share Evernote Clip LLM インタラクション あー 検出 AIエージェント

Googleは2024年6月20日(現地時間)、脆弱(ぜいじゃく)性の検出に大規模言語モデル(LLM)を活用する新しい研究開発プロジェクト「Naptime(お昼寝タイム)」を発表した。 C/C++の脆弱性検出はLLMに任せて“お昼寝しよう” NaptimeはAIエージェントとターゲットコードベース間のインタラクションを中心に構築されたアー... 続きを読む

「よーしパパ、Ollama で Llama-3-ELYZA-JP-8B 動かしちゃうぞー」 - Qiita

2024/06/28 このエントリーをはてなブックマークに追加 65 users Instapaper Pocket Tweet Facebook Share Evernote Clip Qiita Ollama 仮名 はしもと パパ

はじめに こんにちは、KDDIアジャイル開発センターのはしもと(仮名)です。 エンドレス水出しコーヒーの時期になりましたね。 今回は、Ollama を使って日本語に特化した大規模言語モデル Llama-3-ELYZA-JP-8B を動かす方法をご紹介します。 このモデルは、日本語の処理能力が高く、比較的軽量なので、ローカル環境での... 続きを読む

デコンパイルに特化した大規模言語モデル「LLM4Decompile」の登場

2024/06/27 このエントリーをはてなブックマークに追加 57 users Instapaper Pocket Tweet Facebook Share Evernote Clip デコンパイル 要点 焦点 再コンパイル ベンチマーク

3つの要点 ✔️ デコンパイルに特化した初のオープンソースモデル「LLM4Decompile」を開発 ✔️ モデルに新しい学習目的を導入し、デコンパイルの精度向上を実現 ✔️ 再コンパイルと再実行可能性に焦点を当てたデコンパイルのための初の標準化されたベンチマークを構築 LLM4Decompile: Decompiling Binary Code with Large Langu... 続きを読む

無料で自分専用のAIを日本語のウェブサイトやファイルを指定して作れるGoogleのAIサービス「NotebookLM」の使い方レビュー

2024/06/07 このエントリーをはてなブックマークに追加 12 users Instapaper Pocket Tweet Facebook Share Evernote Clip NotebookLM GEMINI Research 要約

GeminiやPaLM 2といった大規模言語モデルを使って任意のテキストの要約や提案をしてくれるGoogleのメモ作成アプリ「NotebookLM」が、日本語を含む200以上の国や地域に対応しました。記事作成時点では試験的に無料提供されているとのことで、実際に「NotebookLM」を使ってみました。 NotebookLM | Note Taking & Research... 続きを読む

スーパーコンピュータ「富岳」で学習した大規模言語モデル「Fugaku-LLM」を公開 日本語能力に長け、研究・ビジネス利用にも期待

2024/05/10 このエントリーをはてなブックマークに追加 11 users Instapaper Pocket Tweet Facebook Share Evernote Clip 要点 分散並列学習 Fugaku-LLM AI基盤モデル 性能

要点 日本の計算機技術を用いて開発した日本語能力に優れた大規模言語モデルを公開 スーパーコンピュータ「富岳」の性能を最大限に活用した分散並列学習を実現 AI基盤モデルを科学研究に活用する「AI for Science」など革新的な研究やビジネスにつながる 概要 東京工業大学 学術国際情報センターの横田理央教授の研究チ... 続きを読む

スーパーコンピュータ「富岳」で学習した大規模言語モデル「Fugaku-LLM」を公開 : 富士通

2024/05/10 このエントリーをはてなブックマークに追加 14 users Instapaper Pocket Tweet Facebook Share Evernote Clip Fugaku-LLM 要点 富士通 富岳 理化学研究所

PRESS RELEASE 2024年5月10日 東京工業大学 東北大学 富士通株式会社 理化学研究所 名古屋大学 株式会社サイバーエージェント Kotoba Technolgies Inc. スーパーコンピュータ「富岳」で学習した大規模言語モデル「Fugaku-LLM」を公開 日本語能力に長け、研究・ビジネス利用にも期待 要点 日本の計算機技術を用いて開発し... 続きを読む

NEC、世界トップレベル性能の高速な大規模言語モデル (LLM) cotomi Pro / cotomi Light を開発

2024/04/24 このエントリーをはてなブックマークに追加 11 users Instapaper Pocket Tweet Facebook Share Evernote Clip LLM cotomi アーキテクチャ NEC 生成AI

NECは、LLM(Large Language Model:大規模言語モデル)「cotomi(注1)」のラインアップ拡充のため、学習データやアーキテクチャを刷新した「cotomi Pro」「cotomi Light」を開発しました。 昨今の生成AIの急速な発展に伴い、様々な企業や公共機関が、LLMを活用した業務変革の検討・検証を進めています。具体的な活用シーン... 続きを読む

日本語対応でGPT-4よりも高性能な大規模言語モデル「Command R+」が登場したので使ってみた、無料でダウンロードしてローカル動作も可能

2024/04/08 このエントリーをはてなブックマークに追加 19 users Instapaper Pocket Tweet Facebook Share Evernote Clip GPT-4 Cohere ローカル動作 Command R

AI開発企業のCohereがGPT-4と同等の性能を備えた大規模言語モデル「Command R+」を発表しました。Command R+は日本語での応答にも対応しており、ローカルにダウンロードして実行可能なほか、ウェブ上で実行できるチャットアプリのデモも公開されています。 Introducing Command R+: A Scalable LLM Built for Business... 続きを読む

マイクロソフト、「Copilot」無料版にも「GPT-4 Turbo」を搭載

2024/03/14 このエントリーをはてなブックマークに追加 26 users Instapaper Pocket Tweet Facebook Share Evernote Clip LLM COPILOT chatgpt 脚注機能 HTML

印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます 「Microsoft Copilot」の無料版は、より高度な大規模言語モデル(LLM)や、脚注機能、インターネットへのアクセス機能といった、「ChatGPT」の無料版に備わっていない数多くの... 続きを読む

ChatGPTや大規模言語モデル(LLM)から隠された情報や一部機能を盗み出す攻撃手法が登場

2024/03/13 このエントリーをはてなブックマークに追加 11 users Instapaper Pocket Tweet Facebook Share Evernote Clip LLM abs OpenAI chatgpt チャットAI

OpenAIのチャットAIであるChatGPTや、Googleの開発する大規模言語モデル(LLM)のPaLM-2などから、機密情報や一部機能を盗み出すことができる「モデル窃盗攻撃(model-stealing attack)」を、AI研究者が発表しました。 [2403.06634] Stealing Part of a Production Language Model https://arxiv.org/abs/2403.06634 Google... 続きを読む

イーロン・マスク氏、米OpenAIとサム・アルトマンCEOを提訴 「営利追及するのは契約違反」

2024/03/01 このエントリーをはてなブックマークに追加 14 users Instapaper Pocket Tweet Facebook Share Evernote Clip 提訴 サム 米OpenAI アルトマンCEO OpenAI

マスク氏の弁護士は「米Microsoftが出資するOpenAIが営利を追求しているのは契約違反だ」と主張。また「大規模言語モデル『GPT-4』の設計を完全に秘密にしていた」とも話している。 マスク氏は15年にOpenAIを共同で創業したが、18年に同社の理事会から退いていた。 関連記事 「サム・アルトマン解任騒動」とは何だったの... 続きを読む

「社内のアレ分からん、教えてAI」を支援 Microsoftの“自社版ChatGPT作成サービス”、外部データ取り込み機能が正式リリース

2024/02/21 このエントリーをはてなブックマークに追加 202 users Instapaper Pocket Tweet Facebook Share Evernote Clip アレ 正式リリース 外部データ 機能 Rag

米Microsoftは2月20日(現地時間)、大規模言語モデル「GPT-4」などのAPIを同社のクラウド上で使える「Azure OpenAI Service」の外部データ連携機能「On Your Data」を正式リリースした。これまではパブリックプレビュー版として提供していた。 On Your Dataはいわゆる「RAG」(大規模言語モデルに外部データベースの情... 続きを読む

Appleが画像を見て質問に答えられる大規模言語モデル「Ferret」を開発、ウェイトの情報が公開される

2023/12/25 このエントリーをはてなブックマークに追加 17 users Instapaper Pocket Tweet Facebook Share Evernote Clip Ferret github.com ウエイト タスク テキスト

画像とテキストを組み合わせてタスクをこなせるマルチモーダル大規模言語モデルの「Ferret」のウェイト情報をAppleが公開しました。ウェイトのデータはCC-BY-NCライセンスでの提供となっており、研究目的でのみ利用可能です。 apple/ml-ferret https://github.com/apple/ml-ferret Ferretは2023年10月30日に公開されたマ... 続きを読む

大規模言語モデルへの入力プロンプトを意味を保ったまま高度に圧縮する技術「LLMLingua」をMicrosoftが開発

2023/12/19 このエントリーをはてなブックマークに追加 10 users Instapaper Pocket Tweet Facebook Share Evernote Clip プロンプト Microsoft 入力プロンプト API 精度

近年はさまざまな大規模言語モデルが台頭し、入力するプロンプトを工夫することで高精度な回答を得る方法も数多く生み出されています。しかし、入力プロンプトがあまりにも長くなりすぎると、チャットウィンドウの上限を超えてしまったり、APIのコストが増大してしまったりするデメリットも生じます。そこでMicrosoft Re... 続きを読む

 
(1 - 25 / 83件)