タグ 大規模言語モデル
人気順 5 users 50 users 100 users 500 users 1000 users日本特有の知識に特化した大規模言語モデルの学習および評価
一方で、法令・公的文書だけを見て質問を作成するためには高度な専門性が要求されるため、この作問方法はとても負荷の高い作業でした。また、特定の法律を知っているか否かを測る一問一答形式の評価データが過度に多くなる傾向もあり、ELYZA-tasks-100 を作成する際に重視した「役に立つ」という観点が欠如してしまうと... 続きを読む
大規模言語モデルとチェスAIで対決させるとほとんどの大規模言語モデルがズタボロに負ける中なぜか「gpt-3.5-turbo-instruct」だけが圧倒的勝利
AIが興隆を迎える近年、さまざまな企業が独自の大規模言語モデルをリリースしています。こうした大規模言語モデルをチェスの標準的なAIと対戦させた結果、多くの大規模言語モデルが惨敗する中、「gpt-3.5-turbo-instruct」だけが好成績を残したことが報告されています。 Something weird is happening with LLMs and che... 続きを読む
25グラムの「AIレコーダー」が“仕事”を激変させる? サッと録音→GPT-4oですぐ要約 話題のガジェットを使ってみた
2024年12月、ウェアラブル型の“AIデバイス”が日本に上陸する。生成AIとボイスレコーダーを組み合わせた米Nicebuildの「PLAUD NotePin」(プラウド ノートピン)だ。本体価格は2万8600円。腕時計やピンバッジのように身に着けて会話を録音し、米OpenAIの大規模言語モデル(LLM)「GPT-4o」と連携して文字起こしや要約がで... 続きを読む
完全にオープンで再現可能な大規模言語モデル「OpenCoder」がリリースされる
上海のAI企業「INF Technology」やオープンソースのAI研究コミュニティ「M-A-P」などに在籍する研究者のチームにより、最終モデルだけでなくトレーニングデータやデータ処理パイプラインなど、モデルを再現するのに必要な情報全てがオープンな大規模言語モデル「OpenCoder」が公開されました。 OpenCoder: Top-Tier Open... 続きを読む
「RAG」とは何か? なぜ“LLMの限界”を突破できるのか
関連キーワード 人工知能 大規模言語モデル(LLM)を活用する上で大きな課題となるのが、ハルシネーション(事実に基づかない回答を出力すること)のリスクだ。こうしたLLMの課題克服に役立つ技術として「RAG」(検索拡張生成)が注目されている。RAGはLLMの回答精度向上にどう役立つのか。その仕組みを解説する。 なぜ... 続きを読む
生成AIを活用したシステム開発の現状と展望 - 生成AI時代を見据えたシステム開発に向けて - |日本総研
現在、大規模言語モデル(LLM)に代表される生成AIがシステム開発の領域において注目を浴びており、システム開発プロセス全体の効率化から、特定の業務における自動化まで、その応用範囲は広がり続けている。本レポートでは、生成AIを用いたシステム開発についての現状を整理し、生成AIによって今後のシステム開発がどのよ... 続きを読む
富士通、大規模言語モデル「Takane」提供開始 「世界一の日本語性能を持つ」とうたう
富士通は9月30日、カナダのAIスタートアップ企業Cohereと共同開発した大規模言語モデル(LLM)「Takane」の提供を始めた。富士通のAIサービス「Fujitsu Kozuchi」を通じて提供。同社はこのLLMについて「世界一の日本語性能を持つ」とうたっている。 Takaneは、CohereのLLM「Command R+」をベースに、日本語に特化させる... 続きを読む
15時間で学べるAI学習決定版。グーグルが提供する無料の機械学習集中講座が大幅刷新され、LLMもカバー | DevelopersIO
15時間で学べるAI学習決定版。グーグルが提供する無料の機械学習集中講座が大幅刷新され、LLMもカバー Googleが提供する無料の機械学習の集中講座はご存知でしょうか? 機械学習に関する幅広いテーマを座学・動画・実験・コーディングといった様々なアプローチで15時間で学べます。しかも無料です。 このコンテンツはもと... 続きを読む
大規模言語モデルの仕組みが目で見てわかる「Transformer Explainer」
GPT-4やLlama、Claudeといった大規模言語モデルは、2017年にGoogleの研究者が発表した「Transformer」というフレームワークの上に構築されています。このTransformerをベースにしたAIモデルがどのように機能するのかを視覚化したツール「Transformer Explainer」が、ジョージア工科大学のPolo Club of Data Scienceによ... 続きを読む
数学を解ける言語モデル「Qwen2-Math」が登場、GPT-4o超えの数学性能
中国のAI研究チームが数学特化の大規模言語モデル「Qwen2-Math」を公開しました。Qwen2-MathはGPT-4oやGemini-1.5-Proなどのクローズドソースの大規模言語モデルをしのぐ数学性能を備えています。 Introducing Qwen2-Math | Qwen https://qwenlm.github.io/blog/qwen2-math/ QwenLM/Qwen2-Math: A series of math-specif... 続きを読む
「Llama 3.1」の日本語追加学習モデル、サイバーエージェントが公開 SNSでは「爆速すぎる」の声
サイバーエージェントは7月26日、米Metaの最新AIモデル「Llama 3.1 70B」を使った新たな大規模言語モデル(LLM)を公開した。Llama 3.1 70Bをベースに、日本語データを追加学習させたもので、Hugging Face上で公開している。ライセンスはMetaの「Llama 3.1 Community License」に基づいており、商用利用可能だが、利用規... 続きを読む
C/C++の脆弱性をLLMで検出 Googleが新研究開発プロジェクト「Naptime」を発表
Googleは2024年6月20日(現地時間)、脆弱(ぜいじゃく)性の検出に大規模言語モデル(LLM)を活用する新しい研究開発プロジェクト「Naptime(お昼寝タイム)」を発表した。 C/C++の脆弱性検出はLLMに任せて“お昼寝しよう” NaptimeはAIエージェントとターゲットコードベース間のインタラクションを中心に構築されたアー... 続きを読む
「よーしパパ、Ollama で Llama-3-ELYZA-JP-8B 動かしちゃうぞー」 - Qiita
はじめに こんにちは、KDDIアジャイル開発センターのはしもと(仮名)です。 エンドレス水出しコーヒーの時期になりましたね。 今回は、Ollama を使って日本語に特化した大規模言語モデル Llama-3-ELYZA-JP-8B を動かす方法をご紹介します。 このモデルは、日本語の処理能力が高く、比較的軽量なので、ローカル環境での... 続きを読む
デコンパイルに特化した大規模言語モデル「LLM4Decompile」の登場
3つの要点 ✔️ デコンパイルに特化した初のオープンソースモデル「LLM4Decompile」を開発 ✔️ モデルに新しい学習目的を導入し、デコンパイルの精度向上を実現 ✔️ 再コンパイルと再実行可能性に焦点を当てたデコンパイルのための初の標準化されたベンチマークを構築 LLM4Decompile: Decompiling Binary Code with Large Langu... 続きを読む
無料で自分専用のAIを日本語のウェブサイトやファイルを指定して作れるGoogleのAIサービス「NotebookLM」の使い方レビュー
GeminiやPaLM 2といった大規模言語モデルを使って任意のテキストの要約や提案をしてくれるGoogleのメモ作成アプリ「NotebookLM」が、日本語を含む200以上の国や地域に対応しました。記事作成時点では試験的に無料提供されているとのことで、実際に「NotebookLM」を使ってみました。 NotebookLM | Note Taking & Research... 続きを読む
スーパーコンピュータ「富岳」で学習した大規模言語モデル「Fugaku-LLM」を公開 日本語能力に長け、研究・ビジネス利用にも期待
要点 日本の計算機技術を用いて開発した日本語能力に優れた大規模言語モデルを公開 スーパーコンピュータ「富岳」の性能を最大限に活用した分散並列学習を実現 AI基盤モデルを科学研究に活用する「AI for Science」など革新的な研究やビジネスにつながる 概要 東京工業大学 学術国際情報センターの横田理央教授の研究チ... 続きを読む
スーパーコンピュータ「富岳」で学習した大規模言語モデル「Fugaku-LLM」を公開 : 富士通
PRESS RELEASE 2024年5月10日 東京工業大学 東北大学 富士通株式会社 理化学研究所 名古屋大学 株式会社サイバーエージェント Kotoba Technolgies Inc. スーパーコンピュータ「富岳」で学習した大規模言語モデル「Fugaku-LLM」を公開 日本語能力に長け、研究・ビジネス利用にも期待 要点 日本の計算機技術を用いて開発し... 続きを読む
NEC、世界トップレベル性能の高速な大規模言語モデル (LLM) cotomi Pro / cotomi Light を開発
NECは、LLM(Large Language Model:大規模言語モデル)「cotomi(注1)」のラインアップ拡充のため、学習データやアーキテクチャを刷新した「cotomi Pro」「cotomi Light」を開発しました。 昨今の生成AIの急速な発展に伴い、様々な企業や公共機関が、LLMを活用した業務変革の検討・検証を進めています。具体的な活用シーン... 続きを読む
日本語対応でGPT-4よりも高性能な大規模言語モデル「Command R+」が登場したので使ってみた、無料でダウンロードしてローカル動作も可能
AI開発企業のCohereがGPT-4と同等の性能を備えた大規模言語モデル「Command R+」を発表しました。Command R+は日本語での応答にも対応しており、ローカルにダウンロードして実行可能なほか、ウェブ上で実行できるチャットアプリのデモも公開されています。 Introducing Command R+: A Scalable LLM Built for Business... 続きを読む
マイクロソフト、「Copilot」無料版にも「GPT-4 Turbo」を搭載
印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます 「Microsoft Copilot」の無料版は、より高度な大規模言語モデル(LLM)や、脚注機能、インターネットへのアクセス機能といった、「ChatGPT」の無料版に備わっていない数多くの... 続きを読む
ChatGPTや大規模言語モデル(LLM)から隠された情報や一部機能を盗み出す攻撃手法が登場
OpenAIのチャットAIであるChatGPTや、Googleの開発する大規模言語モデル(LLM)のPaLM-2などから、機密情報や一部機能を盗み出すことができる「モデル窃盗攻撃(model-stealing attack)」を、AI研究者が発表しました。 [2403.06634] Stealing Part of a Production Language Model https://arxiv.org/abs/2403.06634 Google... 続きを読む
イーロン・マスク氏、米OpenAIとサム・アルトマンCEOを提訴 「営利追及するのは契約違反」
マスク氏の弁護士は「米Microsoftが出資するOpenAIが営利を追求しているのは契約違反だ」と主張。また「大規模言語モデル『GPT-4』の設計を完全に秘密にしていた」とも話している。 マスク氏は15年にOpenAIを共同で創業したが、18年に同社の理事会から退いていた。 関連記事 「サム・アルトマン解任騒動」とは何だったの... 続きを読む
「社内のアレ分からん、教えてAI」を支援 Microsoftの“自社版ChatGPT作成サービス”、外部データ取り込み機能が正式リリース
米Microsoftは2月20日(現地時間)、大規模言語モデル「GPT-4」などのAPIを同社のクラウド上で使える「Azure OpenAI Service」の外部データ連携機能「On Your Data」を正式リリースした。これまではパブリックプレビュー版として提供していた。 On Your Dataはいわゆる「RAG」(大規模言語モデルに外部データベースの情... 続きを読む
Appleが画像を見て質問に答えられる大規模言語モデル「Ferret」を開発、ウェイトの情報が公開される
画像とテキストを組み合わせてタスクをこなせるマルチモーダル大規模言語モデルの「Ferret」のウェイト情報をAppleが公開しました。ウェイトのデータはCC-BY-NCライセンスでの提供となっており、研究目的でのみ利用可能です。 apple/ml-ferret https://github.com/apple/ml-ferret Ferretは2023年10月30日に公開されたマ... 続きを読む
大規模言語モデルへの入力プロンプトを意味を保ったまま高度に圧縮する技術「LLMLingua」をMicrosoftが開発
近年はさまざまな大規模言語モデルが台頭し、入力するプロンプトを工夫することで高精度な回答を得る方法も数多く生み出されています。しかし、入力プロンプトがあまりにも長くなりすぎると、チャットウィンドウの上限を超えてしまったり、APIのコストが増大してしまったりするデメリットも生じます。そこでMicrosoft Re... 続きを読む