タグ 大規模言語モデル
人気順 10 users 50 users 100 users 500 users 1000 users日本特有の知識に特化した大規模言語モデルの学習および評価
一方で、法令・公的文書だけを見て質問を作成するためには高度な専門性が要求されるため、この作問方法はとても負荷の高い作業でした。また、特定の法律を知っているか否かを測る一問一答形式の評価データが過度に多くなる傾向もあり、ELYZA-tasks-100 を作成する際に重視した「役に立つ」という観点が欠如してしまうと... 続きを読む
大規模言語モデルとチェスAIで対決させるとほとんどの大規模言語モデルがズタボロに負ける中なぜか「gpt-3.5-turbo-instruct」だけが圧倒的勝利
AIが興隆を迎える近年、さまざまな企業が独自の大規模言語モデルをリリースしています。こうした大規模言語モデルをチェスの標準的なAIと対戦させた結果、多くの大規模言語モデルが惨敗する中、「gpt-3.5-turbo-instruct」だけが好成績を残したことが報告されています。 Something weird is happening with LLMs and che... 続きを読む
25グラムの「AIレコーダー」が“仕事”を激変させる? サッと録音→GPT-4oですぐ要約 話題のガジェットを使ってみた
2024年12月、ウェアラブル型の“AIデバイス”が日本に上陸する。生成AIとボイスレコーダーを組み合わせた米Nicebuildの「PLAUD NotePin」(プラウド ノートピン)だ。本体価格は2万8600円。腕時計やピンバッジのように身に着けて会話を録音し、米OpenAIの大規模言語モデル(LLM)「GPT-4o」と連携して文字起こしや要約がで... 続きを読む
完全にオープンで再現可能な大規模言語モデル「OpenCoder」がリリースされる
上海のAI企業「INF Technology」やオープンソースのAI研究コミュニティ「M-A-P」などに在籍する研究者のチームにより、最終モデルだけでなくトレーニングデータやデータ処理パイプラインなど、モデルを再現するのに必要な情報全てがオープンな大規模言語モデル「OpenCoder」が公開されました。 OpenCoder: Top-Tier Open... 続きを読む
「RAG」とは何か? なぜ“LLMの限界”を突破できるのか
関連キーワード 人工知能 大規模言語モデル(LLM)を活用する上で大きな課題となるのが、ハルシネーション(事実に基づかない回答を出力すること)のリスクだ。こうしたLLMの課題克服に役立つ技術として「RAG」(検索拡張生成)が注目されている。RAGはLLMの回答精度向上にどう役立つのか。その仕組みを解説する。 なぜ... 続きを読む
Llama 3.1 Swallow – Swallow LLM
Llama 3.1 Swallow Llama 3.1 SwallowはLlama 3.1の英語の能力を維持しながら、日本語の能力を強化した大規模言語モデル (8B, 70B) です。モデルのパラメータ(重み)がHuggingFace上で公開されていますので、Llama 3.1ライセンスに従う限り、研究や商業目的などで利用できます。Llama 3.1 Swallowは米Meta社のLlama 3.1... 続きを読む
生成AIを活用したシステム開発の現状と展望 - 生成AI時代を見据えたシステム開発に向けて - |日本総研
現在、大規模言語モデル(LLM)に代表される生成AIがシステム開発の領域において注目を浴びており、システム開発プロセス全体の効率化から、特定の業務における自動化まで、その応用範囲は広がり続けている。本レポートでは、生成AIを用いたシステム開発についての現状を整理し、生成AIによって今後のシステム開発がどのよ... 続きを読む
富士通、大規模言語モデル「Takane」提供開始 「世界一の日本語性能を持つ」とうたう
富士通は9月30日、カナダのAIスタートアップ企業Cohereと共同開発した大規模言語モデル(LLM)「Takane」の提供を始めた。富士通のAIサービス「Fujitsu Kozuchi」を通じて提供。同社はこのLLMについて「世界一の日本語性能を持つ」とうたっている。 Takaneは、CohereのLLM「Command R+」をベースに、日本語に特化させる... 続きを読む
15時間で学べるAI学習決定版。グーグルが提供する無料の機械学習集中講座が大幅刷新され、LLMもカバー | DevelopersIO
15時間で学べるAI学習決定版。グーグルが提供する無料の機械学習集中講座が大幅刷新され、LLMもカバー Googleが提供する無料の機械学習の集中講座はご存知でしょうか? 機械学習に関する幅広いテーマを座学・動画・実験・コーディングといった様々なアプローチで15時間で学べます。しかも無料です。 このコンテンツはもと... 続きを読む
大規模言語モデルの仕組みが目で見てわかる「Transformer Explainer」
GPT-4やLlama、Claudeといった大規模言語モデルは、2017年にGoogleの研究者が発表した「Transformer」というフレームワークの上に構築されています。このTransformerをベースにしたAIモデルがどのように機能するのかを視覚化したツール「Transformer Explainer」が、ジョージア工科大学のPolo Club of Data Scienceによ... 続きを読む
数学を解ける言語モデル「Qwen2-Math」が登場、GPT-4o超えの数学性能
中国のAI研究チームが数学特化の大規模言語モデル「Qwen2-Math」を公開しました。Qwen2-MathはGPT-4oやGemini-1.5-Proなどのクローズドソースの大規模言語モデルをしのぐ数学性能を備えています。 Introducing Qwen2-Math | Qwen https://qwenlm.github.io/blog/qwen2-math/ QwenLM/Qwen2-Math: A series of math-specif... 続きを読む
「Llama 3.1」の日本語追加学習モデル、サイバーエージェントが公開 SNSでは「爆速すぎる」の声
サイバーエージェントは7月26日、米Metaの最新AIモデル「Llama 3.1 70B」を使った新たな大規模言語モデル(LLM)を公開した。Llama 3.1 70Bをベースに、日本語データを追加学習させたもので、Hugging Face上で公開している。ライセンスはMetaの「Llama 3.1 Community License」に基づいており、商用利用可能だが、利用規... 続きを読む
チャットAI「Claude」にAndroid版
米Anthropicは7月16日(現地時間)、生成AIチャット「Claude」のAndroidアプリ版を公開した。Web版と同様、大規模言語モデル「Claude 3.5 Sonnet」とのチャットなど、基本的な機能を無料で利用できる。 日本語でのコミュニケーションも可能で、画像のアップロードにも対応。有料プランに登録すれば「Claude 3 Opus」など... 続きを読む
C/C++の脆弱性をLLMで検出 Googleが新研究開発プロジェクト「Naptime」を発表
Googleは2024年6月20日(現地時間)、脆弱(ぜいじゃく)性の検出に大規模言語モデル(LLM)を活用する新しい研究開発プロジェクト「Naptime(お昼寝タイム)」を発表した。 C/C++の脆弱性検出はLLMに任せて“お昼寝しよう” NaptimeはAIエージェントとターゲットコードベース間のインタラクションを中心に構築されたアー... 続きを読む
「よーしパパ、Ollama で Llama-3-ELYZA-JP-8B 動かしちゃうぞー」 - Qiita
はじめに こんにちは、KDDIアジャイル開発センターのはしもと(仮名)です。 エンドレス水出しコーヒーの時期になりましたね。 今回は、Ollama を使って日本語に特化した大規模言語モデル Llama-3-ELYZA-JP-8B を動かす方法をご紹介します。 このモデルは、日本語の処理能力が高く、比較的軽量なので、ローカル環境での... 続きを読む
デコンパイルに特化した大規模言語モデル「LLM4Decompile」の登場
3つの要点 ✔️ デコンパイルに特化した初のオープンソースモデル「LLM4Decompile」を開発 ✔️ モデルに新しい学習目的を導入し、デコンパイルの精度向上を実現 ✔️ 再コンパイルと再実行可能性に焦点を当てたデコンパイルのための初の標準化されたベンチマークを構築 LLM4Decompile: Decompiling Binary Code with Large Langu... 続きを読む
「オープンソース」を称するAIモデルは実際どのくらいオープンなのか?
近年発展を遂げているAI分野では、OpenAIの大規模言語モデル「GPT」がクローズドで開発されている一方、MetaのLLaMAやGoogleのGemmaなどの大規模言語モデルはオープンでの開発が進められています。しかし、「オープンソースで開発を進めている」と称する言語モデルであっても、どの程度オープンなのかは不透明です。そこ... 続きを読む
無料で自分専用のAIを日本語のウェブサイトやファイルを指定して作れるGoogleのAIサービス「NotebookLM」の使い方レビュー
GeminiやPaLM 2といった大規模言語モデルを使って任意のテキストの要約や提案をしてくれるGoogleのメモ作成アプリ「NotebookLM」が、日本語を含む200以上の国や地域に対応しました。記事作成時点では試験的に無料提供されているとのことで、実際に「NotebookLM」を使ってみました。 NotebookLM | Note Taking & Research... 続きを読む
中国製GPUで学習した純中国製LLM「MT-infini-3B」が「Llama3-8B」を超える性能を示し中国単独で高性能AIを開発できることが明らかに
中国に拠点を置くGPUメーカーの「摩爾線程(Moore Threads)」が、自社製GPUを用いて大規模言語モデル「MT-infini-3B」を開発したことを発表しました。MT-infini-3BはNVIDIA製GPUを用いて学習した大規模言語モデルと同等以上の性能を備えているそうです。 摩尔线程携手无问芯穹:基于夸娥千卡智算集群的“MT-infini-3B”大模... 続きを読む
OpenAI、大規模言語モデル「GPT-4o」発表
スーパーコンピュータ「富岳」で学習した大規模言語モデル「Fugaku-LLM」を公開 日本語能力に長け、研究・ビジネス利用にも期待
要点 日本の計算機技術を用いて開発した日本語能力に優れた大規模言語モデルを公開 スーパーコンピュータ「富岳」の性能を最大限に活用した分散並列学習を実現 AI基盤モデルを科学研究に活用する「AI for Science」など革新的な研究やビジネスにつながる 概要 東京工業大学 学術国際情報センターの横田理央教授の研究チ... 続きを読む
スーパーコンピュータ「富岳」で学習した大規模言語モデル「Fugaku-LLM」を公開 : 富士通
PRESS RELEASE 2024年5月10日 東京工業大学 東北大学 富士通株式会社 理化学研究所 名古屋大学 株式会社サイバーエージェント Kotoba Technolgies Inc. スーパーコンピュータ「富岳」で学習した大規模言語モデル「Fugaku-LLM」を公開 日本語能力に長け、研究・ビジネス利用にも期待 要点 日本の計算機技術を用いて開発し... 続きを読む
MicrosoftによるOpenAIへの巨額の投資は「GoogleのAI研究が進み過ぎている」という懸念がきっかけだったことが明らかに
Microsoftは2019年にOpenAIに10億ドル(約1560億円)を投資。2020年9月にはOpenAIの大規模言語モデル(LLM)であるGPT-3の独占ライセンスをMicrosoftが取得。さらに2023年1月には、MicrosoftがOpenAIに数十億ドル(数千億円)規模の出資を行い長期的なパートナーシップを結びました。年々関係を深めるMicrosoftとOpenAIですが... 続きを読む
謎の生成AI「gpt2」登場で騒然 次世代のGPT? アルトマンCEOも言及
生成AIブームの火付け役となった「ChatGPT」を提供する米OpenAIは、2023年3月に高性能な大規模言語モデル(LLM)「GPT-4」を提供して以来、次の高性能モデルについて沈黙を守り続けている。そんな中、LLMを比較できるWebサービス上にOpenAIのものらしき謎の高性能なLLMが現れた。同社のサム・アルトマンCEOも言及してお... 続きを読む
無料で商用利用可能なSQL生成・コーディング・命令フォローなどのエンタープライズタスクに最適化された大規模言語モデル「Snowflake Arctic」が登場
クラウドベースのデータウェアハウスサービスを展開する企業のSnowflakeが、トップレベルのエンタープライズ向け大規模言語モデル(LLM)として「Snowflake Arctic」をリリースしました。Apacheライセンス バージョン2.0で提供されるオープンなモデルとなっており、無料で商用利用も可能です。 Snowflake Arctic - LLM for... 続きを読む