タグ 言語モデル
人気順 5 users 50 users 100 users 500 users 1000 usersMicrosoftの検索エンジンBingがTransformerからLLMとSLMの組み合わせに移行&TensorRT-LLMの統合を発表
Microsoftは検索エンジンのBingで、これまでGoogleが開発した機械学習モデルの「Transformer」を採用してきました。しかし、Transformerに限界が訪れたとして、大規模言語モデル(LLM)と小規模言語モデル(SLM)の組み合わせに移行すると発表しています。さらに、ワークフローにNVIDIAが開発している「TensorRT-LLM」を統合... 続きを読む
生成AIサービスに個人情報をアップロードしたくない!! Windowsローカルで大規模言語モデル(LLM)を利用する
生成AIサービスに個人情報をアップロードしたくない!! Windowsローカルで大規模言語モデル(LLM)を利用する:Tech TIPS ChatGPTやMicrosoft Copilotなどの生成AIサービスが便利なのは分かるが、いざ使おうと思うと「情報漏えいなどが心配」と感じていないだろうか。そんな心配がある場合、手元のWindows 10/11上でLL... 続きを読む
「Xのアルゴリズム」は数日であなたの政治的意見を変えられる――米スタンフォード大が1000人以上で検証
研究チームは、大規模言語モデル(LLM)を活用し、政治的に分極化をもたらす可能性のあるコンテンツへの影響を調べるため、リアルタイムでXのフィードを再ランク付けするアプローチを開発し、ユーザーへの影響を調査した。 実験では、Xのユーザー1256人の協力を得て10日間実施。ブラウザ拡張機能を使用してフィードをリ... 続きを読む
2.5兆トークンを学習したOSSのコード生成LLM「OpenCoder」公開 プロジェクトが明す、コードLLM構築に重要な3要素とは
OpenCoderプロジェクトは2024年11月8日(米国時間)、オープンソースソフトウェア(OSS)のLLM(大規模言語モデル)、「OpenCoder」を公開した。同プロジェクトは以下のように説明している。 OpenCoderは、トップクラスのコード生成LLMの性能に匹敵する、オープンで再現可能なコードLLMファミリーだ。本プロジェクトでは... 続きを読む
日本語のAIで使う大規模言語モデル性能を評価する「オープン日本語LLMリーダーボード」公開
16種類以上のNLP(自然言語処理)タスクを用いて日本語の大規模言語モデル(LLM)の性能評価と分析を行う「オープン日本語LLMリーダーボード」が公開されました。構築には国立情報学研究所をはじめとする日本語LLMの研究開発を行う組織横断プロジェクト「LLM-jp」が携わっています。 Open Japanese LLM Leaderboard - a Hugg... 続きを読む
国産AIスタートアップ・PFNが“生成AI向けプロセッサ”独自開発、2026年提供へ 「GPUの10倍高速で省電力」
AIスタートアップ・Preferred Networks(東京都千代田区、以下PFN)は11月15日、大大規模言語モデルなど生成AI向けの独自プロセッサ「MN-Core L1000」の開発を始めると発表した。生成AIの推論時に、GPUなどの既存プロセッサに比べ最大10倍の高速処理を目指す。提供予定は2026年。 PFNでは16年から、深層学習の特徴である... 続きを読む
大規模言語モデルとチェスAIで対決させるとほとんどの大規模言語モデルがズタボロに負ける中なぜか「gpt-3.5-turbo-instruct」だけが圧倒的勝利
AIが興隆を迎える近年、さまざまな企業が独自の大規模言語モデルをリリースしています。こうした大規模言語モデルをチェスの標準的なAIと対戦させた結果、多くの大規模言語モデルが惨敗する中、「gpt-3.5-turbo-instruct」だけが好成績を残したことが報告されています。 Something weird is happening with LLMs and che... 続きを読む
AIへの「ビジュアルプロンプトインジェクション」攻撃とは何か?
大規模言語モデル(LLM)のセキュリティを研究するスタートアップ・Lakeraのエンジニアであるダニエル・ティンブレル氏が、画像認識も可能なチャットボットAIに対する「ビジュアルプロンプトインジェクション」攻撃について解説しています。 The Beginner's Guide to Visual Prompt Injections: Invisibility Cloaks, Cann... 続きを読む
オープンソースのコーディング支援AI「Qwen2.5-Coder」シリーズの性能はGPT-4oに匹敵、64GBのRAM&M2搭載MacBook Proでもローカル実行可能
中国・Alibabaグループが開発する大規模言語モデル(LLM)「Qwen」の研究チームが、コード生成や補完、数学の推論タスクに特化したLLM「Qwen2.5-Coder」の新モデルを2024年11月12日にリリースしました。Qwen2.5-Coderのコーディング機能はGPT-4oに匹敵し、パラメータ数も最大320億で、M2搭載MacBook Pro上でも実行できたこ... 続きを読む
ソフトバンク、4600億パラメータの日本語特化LLMを公開 「日本でも大規模なAI作れると証明」
ソフトバンクは11月8日、4600億パラメータの大規模言語モデル(LLM)「Sarashina2-8x70B」を公開した。国内で開発しており、日本語に特化したモデルだという。2025年3月期第2四半期の決算説明に登壇した宮川潤一CEOは「日本でも大規模なAIを作れると証明した」と語った。 開発を担当したグループ会社・SB Intuitionsによ... 続きを読む
RAGよりも高性能で安い、生成AIの精度を高める「メニーショットICL」の威力
生成AI(人工知能)の精度を高める手法として、大規模言語モデル(LLM)と検索エンジンを組み合わせたRAG(Retrieval Augmented Generation、検索拡張生成)の利用が盛んだ。ところが米Google(グーグル)によれば、RAGよりも性能を高めやすい手法があるのだという。「メニーショットICL(Many-Shot In-Context Learning... 続きを読む
[速報]GitHub CopilotでGemini 1.5 Pro、Claude 3.5 Sonnetが選択可能に。OpenAIのGPT-4o、o1-preview、o1-miniにも対応
基調講演では、GitHub Copilotの新機能としてAnthropicやGoogleの大規模言語モデルが選択可能になることが発表されました。 選択可能になるのはAnthropicのClaude 3.5 Sonnet、GoogleのGemini 1.5 Pro、OpenAIのGPT-4o、o1-preview、o1-miniです。 Claude 3.5 Sonnetは本発表と同時にGitHub Copilotで利用可能となり、Go... 続きを読む
AI、ついにパソコンを使えるようになってしまう Anthropic「Claude 3.5 Sonnet」新機能
AI企業のAnthropicは10月23日、大規模言語モデル「Claude 3.5 Sonnet」の刷新と、新モデル「Claude 3.5 Haiku」の導入を発表した。Claude 3.5 Sonnetには、AIモデルが人間のようにコンピューターを操作できるようになる新機能「コンピューター使用」が追加された。 アップデート版のClaude 3.5 Sonnetは、特にコーディン... 続きを読む
GPT-4やClaudeなどの大規模言語モデルが抱える「ストロベリー問題」とは?
大規模言語モデル(LLM)をベースにしたAIは高い能力を発揮できる一方で、ウソにダマされやすいといった特徴があったり、算数の文章題への推論能力が小学生未満という研究結果があったりと、脆弱(ぜいじゃく)さについてもしばしば指摘されます。AIの能力の限界を示す「ストロベリー問題」という脆弱性について、機械学習エ... 続きを読む
「現在のLLMに真の推論は困難」──Appleの研究者らが論文発表
米AppleのAI研究者らは10月7日(現地時間)、「GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models」(LLMにおける数学的推論の限界を理解する)という論文を発表した。 この論文は、LLM(大規模言語モデル)が、本当に人間のように論理的に考えて問題を解けるのか、とい... 続きを読む
ChatGPTのo1は「ノーベル賞ものだと思う」──孫正義氏による“成年の主張”
「これ(o1)はノーベル賞ものだと思う」──ソフトバンクグループの孫正義代表取締役社長兼社長は10月3日、グループの定例イベント「SoftBank World 2024」(東京都港区)の基調講演で、米OpenAIが9月に発表したLLM(大規模言語モデル)「o1」に受けたという感動をこう表現した。 2023年のSoftBank Worldでは「ChatGPTを... 続きを読む
富士通、大規模言語モデル「Takane」提供開始 「世界一の日本語性能を持つ」とうたう
富士通は9月30日、カナダのAIスタートアップ企業Cohereと共同開発した大規模言語モデル(LLM)「Takane」の提供を始めた。富士通のAIサービス「Fujitsu Kozuchi」を通じて提供。同社はこのLLMについて「世界一の日本語性能を持つ」とうたっている。 Takaneは、CohereのLLM「Command R+」をベースに、日本語に特化させる... 続きを読む
世界最大級の図書館は「AI訓練データの宝庫」だ | Forbes JAPAN 公式サイト(フォーブス ジャパン)
1億8000万点にも及ぶ書籍や資料を所蔵する世界最大級の図書館が、人工知能(AI)スタートアップからの熱い注目を浴びている。それらの企業は、大規模言語モデル(LLM)の訓練に使用可能で、訴訟リスクのないコンテンツを探しているからだ。 1800年に合衆国議会の図書室として発足したワシントンDCの米国議会図書館(Libr... 続きを読む
RAG の精度を向上させる Advanced RAG on AWS の道標 | Amazon Web Services
Amazon Web Services ブログ RAG の精度を向上させる Advanced RAG on AWS の道標 生成 AI の進化と共に、大規模言語モデル (LLM) を活用したアプリケーション開発が急速に広がっています。その中で、検索拡張生成 (Retrieval-Augmented Generation; RAG) は、LLM に対して最新の情報や特定のドメイン知識を組み込むため... 続きを読む
“学習データも全てオープン”なLLM、NIIが公開 GPT-3級モデルのプレビュー版
国立情報学研究所(NII)は9月17日、パラメータ数約1720億の大規模言語モデル(LLM)のプレビュー版「LLM-jp-3 172B beta1」を公開した。NIIが開発するLLMは、データをフルスクラッチで学習しており、AIモデルの他に学習データもオープンになっているのが特徴。プレビュー版モデルは、学習データの約3分の1までを学習し... 続きを読む
PythonでPDFからテキスト/表情報の抽出精度を比較してみた - Taste of Tech Topics
はじめに こんにちは。ついにジム通いを始めて四六時中筋肉痛を感じながら過ごしているイワツカです。 最近はLLM(大規模言語モデル)とRAG(検索拡張生成)を用いて企業内ドキュメントを活用する取り組みが多く見受けられます。 ドキュメントは基本PDFで保存されているため、PDFからテキストを抽出して、検索対象にする... 続きを読む
全ベンチマークでGPT-4oを上回る世界トップのオープンソース大規模言語モデル「Reflection 70B」が登場、Llama 3.1 70B Instructをベースにリフレクションチューニングを施す
大規模言語モデル(LLM)が自分の間違いを修正できるように開発されたトレーニング手法の「リフレクションチューニング」を用いてトレーニングされたオープンソースのLLM「Reflection 70B」が発表されました。 HyperWrite debuts Reflection 70B, most powerful open source LLM | VentureBeat https://venturebeat.com/ai... 続きを読む
【海外で話題】GitHub Copilotは不要だ、自分で作ればいい — オープンソースのAIコードアシスタント「Continue」がすごい
8月19日、海外の技術情報メディアTheRegisterが「自分で作ればGitHub Copilotは不要」と題した記事を公開した。この記事では、オープンソースのAIコードアシスタント「Continue」を中心に、どのようにしてLLM(大規模言語モデル)をローカル環境で実行し、IDEに統合するかについて解説している。 Continueをインストール... 続きを読む
Difyで複数のLLMを切り替えるチャットを実現する - Taste of Tech Topics
こんにちは、新人エンジニアの前田です。 最近、南海トラフ地震の臨時情報や台風などもあったりして、自衛のための事前準備は欠かせないなと思いました。 さて、今回はDifyを使って複数の大規模言語モデル(LLM)を切り替えるチャットチャットボットを作ってみたいと思います。 なぜ、この内容をやってみようかと思った... 続きを読む
大規模言語モデルの仕組みが目で見てわかる「Transformer Explainer」
GPT-4やLlama、Claudeといった大規模言語モデルは、2017年にGoogleの研究者が発表した「Transformer」というフレームワークの上に構築されています。このTransformerをベースにしたAIモデルがどのように機能するのかを視覚化したツール「Transformer Explainer」が、ジョージア工科大学のPolo Club of Data Scienceによ... 続きを読む