タグ パラメーター数
人気順 10 users 50 users 100 users 500 users 1000 usersMicrosoftが軽量なのにGPT-4oを圧倒的に上回る数学性能を発揮するAIモデル「Phi-4」をリリース
Microsoftが言語モデル「Phi-4」を2024年12月13日にリリースしました。Phi-4のパラメーター数は140億で主要な大規模言語モデルと比べると小規模ですが、数学性能では最上位クラスの性能を発揮します。 Introducing Phi-4: Microsoft’s Newest Small Language Model Specializing in Complex Reasoning | Microsoft Commu... 続きを読む
AIのスケーリング則が限界に直面、「学習データや学習量を増やせばAIの性能が上がる」という状況はすでに終わっている
AIのスケーリング則は2020年1月にOpenAIが提唱した法則で、「AIモデルの性能は、『学習に使われるデータの規模』『学習に使われる計算量』『モデルのパラメーター数』が増加するほど強化される」というものです。この法則について、AIの動向に詳しいゲイリー・マーカス氏が「AI業界ではスケーリング則が通用しなくなって... 続きを読む
孫正義氏、「日本的な生成AI」をバッサリ--「『パラメーターが少ないから効率的』は予算がない言い訳」
ソフトバンクグループで代表取締役会長兼社長執行役員を務める孫正義氏は10月3日、自社イベント「SoftBank World 2024」に登壇。パラメーター数を抑えた生成AIについて本質的ではないとの認識を示した。 孫正義氏は「人間の脳のニューロンが100兆個あり、その1万分の1は金魚。知能はニューロンの数におおむね比例する。... 続きを読む
経済情報特化の生成AI、日経が開発 40年分の記事学習 - 日本経済新聞
日本経済新聞社は24日、経済情報に特化した生成AI(人工知能)の基盤技術を開発したと発表した。大規模言語モデルと呼ばれるもので、約40年分の日経グループの新聞や雑誌の記事を学習させた。記事の要約機能などで活用を見込む。大規模言語モデルの名称は「NIKKEI Language Model」。性能の指標となる「パラメーター数」... 続きを読む
NTT、生成AIサービス開始 LLM「tsuzumi」消費電力抑制に強み - 日本経済新聞
NTTは25日、生成AI(人工知能)の基盤となる独自開発の大規模言語モデル(LLM)「tsuzumi(つづみ)」のサービス提供を同日始めたと発表した。すでに500以上の企業や自治体から導入相談が寄せられているという。日本語の文章の流ちょうさに強みを持ち、性能の指標となるパラメーター数を小さくすることで消費電力など運... 続きを読む
NTT、国産の生成AI「tsuzumi」サービス開始--「2027年に売上1000億円」と島田社長
日本電信電話(NTT)は3月25日、独自に開発した大規模言語モデル(LLM)「tsuzumi」の商用提供を企業向けに開始した。代表取締役社長を務める島田明氏は「2027年までに売上1000億円を目指す」と述べた。 tsuzumiは、NTTが2023年11月に発表した国産LLMだ。特徴の1つはモデルを大幅に軽量化した点で、パラメーター数は軽量... 続きを読む
ChatGPTを超えるという大規模言語モデル「OpenChat」をローカルで動作させて実力を確かめてみた
OpenChatはオープンソースの大規模言語モデルです。OpenChatのうち2023年11月にリリースされたOpenChat-3.5-7Bモデルはパラメーター数が70億しかないにもかかわらず2023年3月時点のChatGPTを超えるベンチマーク結果を出すほど性能が高いモデルとのことなので、実際に使って試してみました。 imoneoi/openchat: OpenChat:... 続きを読む
世界を変えた画像生成AI、さらに進化「Stable Diffusion XL(SDXL)」いよいよ正式公開 (1/4)
Stability AIは6月26日、画像生成AIの最新モデル「Stable Diffusion XL」を発表しました(「画像生成AI『Stable Diffusion』最高性能の新モデル『SDXL 0.9』一般的なPCで実行可能」)。パラメーター数がオリジナルのStable Diffusionの9億から23億へと大幅に拡大され、描写力が飛躍的に上昇したモデルです。正式版のSDXL... 続きを読む
Stable Diffusionの改良版「Stable Diffusion XL(SDXL)」の技術レポートが公開
画像生成AI・Stable Diffusionからパラメーター数が大幅に増加した新モデル「Stable Diffusion XL(SDXL)」の技術レポートが公開されました。 generative-models/assets/sdxl_report.pdf at main · Stability-AI/generative-models · GitHub https://github.com/Stability-AI/generative-models/blob/main/assets/sdxl_re... 続きを読む
Microsoftがたった13億のパラメーターでGPT-3.5超えのHumanEval50.6%をたたき出す「phi-1」を発表
LLaMaやFalconといった小型の大規模言語モデル(LLM)が矢継ぎ早にリリースされる中、Microsoft ResearchのAI研究チームが、プレプリントサーバーのarXivで、Transformerベースのモデル「phi-1」を発表しました。このモデルは、パラメーター数がGPT-3.5の100分の1以下の13億しかないにもかかわらず、テスト用データセット... 続きを読む
GPUメモリが小さくてもパラメーター数が大きい言語モデルをトレーニング可能になる手法「QLoRA」が登場、一体どんな手法なのか?
GPT-1は1億1700万個のパラメーターを持つ言語モデルで、GPT-2では15億、GPT-3では1750億とパラメーター数が増加するにつれて言語モデルの性能が上がってきています。しかしパラメーター数が増加するにつれてトレーニングに必要なデータの数やトレーニング中に使用するメモリの量も増加し、トレーニングのコストが大きく... 続きを読む
「人間の子供が聞く量の単語」のみで大規模言語モデルを新たにトレーニングするチャレンジ「BabyLM Challenge」が開催中、誰でも挑戦可能
チャットAIに用いられる大規模言語モデルの性能は、パラメーター数やトレーニングデータの量が増えるほど上昇するというのが通説ですが、この通説に反して「少ないデータ量で高性能な言語モデルを作成する」というチャレンジ「BabyLM Challenge」が開催されています。 babylm.github.io https://babylm.github.io/ 大規... 続きを読む
言語モデルのスケーリング則(Scaling Laws for Neural Language Models)とは?
言語モデルのスケーリング則(Scaling Laws for Neural Language Models)とは?:AI・機械学習の用語辞典 用語「スケーリング則」について説明。自然言語処理モデルのサイズ(=パラメーター数)や、データセットのサイズ、トレーニングに使用される計算量が増えるほど、より高い性能を発揮できる、という法則を指す。 ... 続きを読む
Intelが毎秒200京回計算するスパコンを使って1兆パラメーターのジェネレーティブAIを開発中
IntelがジェネレーティブAIの開発に取り組んでいることを発表しました。ジェネレーティブAIはIntel製スーパーコンピューター「Aurora」を用いて開発される予定で、パラメーター数は1兆に及ぶとされています。 Broad, Open HPC+AI Portfolio Powers Performance, Generative AI for Science https://www.intel.com/conten... 続きを読む
ChatGPT(GPT-4)がすごすぎる シンギュラリティも近い? (1/3)
毎日のようにOpenAIの対話AI「ChatGPT」を使いまくっています。チャット履歴が戻ってきてよかったなぁと(※3月20日、不具合によりチャット履歴が閉じていた件)。あれがなくなったら死んでしまうというくらいの気持ちでしたから……。 それにしても3月15日にリリースされたGPT-4モデルはすごいですね。パラメーター数で言... 続きを読む
オープンAIが巨大言語モデルGPT-4の重要情報を公開せず、AIの性能向上に深まる謎
米OpenAI(オープンAI)が2023年3月中旬にリリースした最新の巨大言語モデルGPT-4については、大きな「謎」がある。機械学習モデルの規模(パラメーター数)や学習させたデータ量が明らかにされていないのだ。 2020年発表の「スケーリング則」がここにきて話題に オープンAIが2022年11月にリリースしたAI(人工知能)チ... 続きを読む
メタ、「GPT-3並み」の大規模言語モデルを研究者向けに無償提供
メタ(旧フェイスブック)AIラボは、自社開発した大規模言語モデル「OPT」を研究者向けに無償で提供を開始した。オープンAIの「GPT-3」と同じパラメーター数を持つ。同モデルの構築方法や訓練方法の詳細も公開しており、巨大テック企業の取り組みとしては異例だ。 by Will Douglas Heaven2022.05.09 24 18 2 1 メタ(旧... 続きを読む