はてブログ

はてなブックマーク新着エントリーの過去ログサイトです。



タグ 大規模言語モデル

新着順 人気順 5 users 10 users 50 users 100 users 500 users 1000 users
 
(1 - 25 / 92件)

無料で商用利用可能なSQL生成・コーディング・命令フォローなどのエンタープライズタスクに最適化された大規模言語モデル「Snowflake Arctic」が登場

2024/04/26 このエントリーをはてなブックマークに追加 6 users Instapaper Pocket Tweet Facebook Share Evernote Clip コーディング 商用利用 LLM 登場 Snowflake

クラウドベースのデータウェアハウスサービスを展開する企業のSnowflakeが、トップレベルのエンタープライズ向け大規模言語モデル(LLM)として「Snowflake Arctic」をリリースしました。Apacheライセンス バージョン2.0で提供されるオープンなモデルとなっており、無料で商用利用も可能です。 Snowflake Arctic - LLM for... 続きを読む

NEC、世界トップレベル性能の高速な大規模言語モデル (LLM) cotomi Pro / cotomi Light を開発

2024/04/24 このエントリーをはてなブックマークに追加 11 users Instapaper Pocket Tweet Facebook Share Evernote Clip LLM cotomi アーキテクチャ NEC 生成AI

NECは、LLM(Large Language Model:大規模言語モデル)「cotomi(注1)」のラインアップ拡充のため、学習データやアーキテクチャを刷新した「cotomi Pro」「cotomi Light」を開発しました。 昨今の生成AIの急速な発展に伴い、様々な企業や公共機関が、LLMを活用した業務変革の検討・検証を進めています。具体的な活用シーン... 続きを読む

日本語対応でGPT-4よりも高性能な大規模言語モデル「Command R+」が登場したので使ってみた、無料でダウンロードしてローカル動作も可能

2024/04/08 このエントリーをはてなブックマークに追加 19 users Instapaper Pocket Tweet Facebook Share Evernote Clip GPT-4 Cohere ローカル動作 Command R

AI開発企業のCohereがGPT-4と同等の性能を備えた大規模言語モデル「Command R+」を発表しました。Command R+は日本語での応答にも対応しており、ローカルにダウンロードして実行可能なほか、ウェブ上で実行できるチャットアプリのデモも公開されています。 Introducing Command R+: A Scalable LLM Built for Business... 続きを読む

「Llama 2-7B」の1万分の1以下の学習コストなのにLlama 2-7Bを上回る大規模言語モデル「JetMoE-8B」が登場

2024/04/05 このエントリーをはてなブックマークに追加 6 users Instapaper Pocket Tweet Facebook Share Evernote Clip 学習コスト 言語モデル Meta 登場 Git

数千億円をかけた訓練リソースを用いるMetaの「Llama 2-7B」を上回る性能を持ちながら、学習コストは1000万円以下に抑えられるという大規模言語モデル「JetMoE-8B」が登場しました。 JetMoE https://research.myshell.ai/jetmoe GitHub - myshell-ai/JetMoE: Reaching LLaMA2 Performance with 0.1M Dollars https://git... 続きを読む

「Claude 3 Opus」が「GPT-4」を抜き1位に--Chatbot Arenaランキングで(ZDNET Japan) - Yahoo!ニュース

2024/03/29 このエントリーをはてなブックマークに追加 6 users Instapaper Pocket Tweet Facebook Share Evernote Clip GPT-4 ZDNet Japan Yahoo LLM デス

人工知能(AI)スタートアップのAnthropicが提供する大規模言語モデル(LLM)「Claude 3 Opus」が米国時間3月26日、AIチャットボットの能力を比較できる「Chatbot Arena」のランキングで、OpenAIの「GPT-4」を抜いて、首位に輝いた。 【画像】Chatbot Arenaの順位表 Chatbot Arenaは、さまざまなAIモデルの有効性をテス... 続きを読む

楽天グループが大規模言語モデルを公開 Mistralベースの70億パラメータ 商用利用も可能

2024/03/21 このエントリーをはてなブックマークに追加 8 users Instapaper Pocket Tweet Facebook Share Evernote Clip 言語モデル 商用利用 楽天グループ 70億パラメータ LLM

楽天グループは3月21日、日本語に特化した大規模言語モデル(LLM)「Rakuten AI 7B」などを公開した。フランスのAIスタートアップ・Mistral AIのLLM「Mistral-7B-v0.1」をベースに開発した70億パラメータのLLM。ライセンスは「Apache 2.0」で、Hugging Faceからダウンロードできる。商用利用も可能。 インストラクション... 続きを読む

OpenAIの次世代大規模言語モデル「GPT-5」が2024年夏に公開されるとの報道

2024/03/21 このエントリーをはてなブックマークに追加 5 users Instapaper Pocket Tweet Facebook Share Evernote Clip OpenAI GPT-4 GPT-5 サム アルトマンCEO

OpenAIの大規模言語モデル「GPT-5」が2024年の夏頃に登場すると報じられています。既存のGPT-4からメジャーアップデートを果たすのか、あるいはGPT-4.5のような形になるのかは不明ですが、サム・アルトマンCEOが「前より良くなっている」と話したと報じられています。 GPT-5 might arrive this summer as a “materially ... 続きを読む

マイクロソフト、「Copilot」無料版にも「GPT-4 Turbo」を搭載

2024/03/14 このエントリーをはてなブックマークに追加 26 users Instapaper Pocket Tweet Facebook Share Evernote Clip LLM COPILOT chatgpt 脚注機能 HTML

印刷する メールで送る テキスト HTML 電子書籍 PDF ダウンロード テキスト 電子書籍 PDF クリップした記事をMyページから読むことができます 「Microsoft Copilot」の無料版は、より高度な大規模言語モデル(LLM)や、脚注機能、インターネットへのアクセス機能といった、「ChatGPT」の無料版に備わっていない数多くの... 続きを読む

ChatGPTや大規模言語モデル(LLM)から隠された情報や一部機能を盗み出す攻撃手法が登場

2024/03/13 このエントリーをはてなブックマークに追加 11 users Instapaper Pocket Tweet Facebook Share Evernote Clip LLM abs OpenAI chatgpt チャットAI

OpenAIのチャットAIであるChatGPTや、Googleの開発する大規模言語モデル(LLM)のPaLM-2などから、機密情報や一部機能を盗み出すことができる「モデル窃盗攻撃(model-stealing attack)」を、AI研究者が発表しました。 [2403.06634] Stealing Part of a Production Language Model https://arxiv.org/abs/2403.06634 Google... 続きを読む

イーロン・マスク氏、米OpenAIとサム・アルトマンCEOを提訴 「営利追及するのは契約違反」

2024/03/01 このエントリーをはてなブックマークに追加 14 users Instapaper Pocket Tweet Facebook Share Evernote Clip 提訴 サム 米OpenAI アルトマンCEO OpenAI

マスク氏の弁護士は「米Microsoftが出資するOpenAIが営利を追求しているのは契約違反だ」と主張。また「大規模言語モデル『GPT-4』の設計を完全に秘密にしていた」とも話している。 マスク氏は15年にOpenAIを共同で創業したが、18年に同社の理事会から退いていた。 関連記事 「サム・アルトマン解任騒動」とは何だったの... 続きを読む

米メタ、AI言語モデル最新版を今年7月リリースへ=報道

2024/02/28 このエントリーをはてなブックマークに追加 8 users Instapaper Pocket Tweet Facebook Share Evernote Clip 米メタ 報道 TAB Llama 7月リリース

米メタはAI(人工知能)大規模言語モデルの最新版「LLaMA(ラマ)3」を今年7月にリリースする予定だ。2022年12月撮影(2024年 ロイター/Yves Herman) [28日 ロイター] - 米メタ(META.O), opens new tabはAI(人工知能)大規模言語モデルの最新版「LLaMA(ラマ)3」を今年7月にリリース... 続きを読む

「社内のアレ分からん、教えてAI」を支援 Microsoftの“自社版ChatGPT作成サービス”、外部データ取り込み機能が正式リリース

2024/02/21 このエントリーをはてなブックマークに追加 202 users Instapaper Pocket Tweet Facebook Share Evernote Clip アレ 正式リリース 外部データ 機能 Rag

米Microsoftは2月20日(現地時間)、大規模言語モデル「GPT-4」などのAPIを同社のクラウド上で使える「Azure OpenAI Service」の外部データ連携機能「On Your Data」を正式リリースした。これまではパブリックプレビュー版として提供していた。 On Your Dataはいわゆる「RAG」(大規模言語モデルに外部データベースの情... 続きを読む

中国で続々とAIモデルが承認され中国国内のAI産業は10兆円規模の市場に

2024/01/30 このエントリーをはてなブックマークに追加 6 users Instapaper Pocket Tweet Facebook Share Evernote Clip AI産業 AIモデル 市場 中国 中国国内

IT大手のBaiduが「すべての点でGPT-4に匹敵する」という大規模言語モデル「Ernie 4.0」を発表しているように、中国も人工知能関連の産業を積極的に推進していて、いまや市場は5000億元(約10兆円)規模になっていることが明らかになりました。 又有一批大模型及应用产品通过备案 https://www.stcn.com/article/detail/1106... 続きを読む

生成AIアプリ開発フレームワーク「LangChain」、安定版(v0.1.0)を公開

2024/01/29 このエントリーをはてなブックマークに追加 6 users Instapaper Pocket Tweet Facebook Share Evernote Clip LangChain LLM オープンソースフレームワーク

LangChainプロジェクトは2024年1月8日(米国時間)、大規模言語モデル(LLM)を活用した生成AI(人工知能)アプリケーションを開発するためのオープンソースフレームワーク「LangChain」の安定版(v0.1.0)を公開した。 LangChainは、LLMを活用した生成アプリケーション開発を支援するオープンソースのフレームワークだ... 続きを読む

Appleが画像を見て質問に答えられる大規模言語モデル「Ferret」を開発、ウェイトの情報が公開される

2023/12/25 このエントリーをはてなブックマークに追加 17 users Instapaper Pocket Tweet Facebook Share Evernote Clip Ferret github.com ウエイト タスク テキスト

画像とテキストを組み合わせてタスクをこなせるマルチモーダル大規模言語モデルの「Ferret」のウェイト情報をAppleが公開しました。ウェイトのデータはCC-BY-NCライセンスでの提供となっており、研究目的でのみ利用可能です。 apple/ml-ferret https://github.com/apple/ml-ferret Ferretは2023年10月30日に公開されたマ... 続きを読む

さまざまなチャットAIがどれくらい幻覚を見るのかをランキングにした「Hallucination Leaderboard」が公表される

2023/12/24 このエントリーをはてなブックマークに追加 6 users Instapaper Pocket Tweet Facebook Share Evernote Clip 幻覚 chatgpt チャットAI 一方 ランキング

ChatGPTなどの大規模言語モデルは、まるで人間かのようにすらすらと言葉を操ることができますが、一方で事実とは異なる内容をあたかも真実であるかのように話す「幻覚」が発生することもあります。AI企業のVectaraが、さまざまな大規模言語モデルにおいてどれくらい幻覚が発生するのかを調査した結果を公表しました。 ve... 続きを読む

東工大と産総研、英語の言語理解や対話で高い能力を持つ大規模言語モデル「Swallow」を公開 #SwallowLLM|AICU media

2023/12/20 このエントリーをはてなブックマークに追加 8 users Instapaper Pocket Tweet Facebook Share Evernote Clip Swallow LLM 語彙 対話 産総研

今回公開したLLMは、英語の言語理解や対話で高い能力を持つ大規模言語モデル・米Meta社「Llama 2」の日本語能力を拡張することで「Swallow」を構築。拡張前の Llama2 のの高い言語処理能力を維持しながら日本語能力を強化するため、言語モデルに日本語の文字や単語などの語彙を追加したうえで、新たに開発した日本語デー... 続きを読む

大規模言語モデルへの入力プロンプトを意味を保ったまま高度に圧縮する技術「LLMLingua」をMicrosoftが開発

2023/12/19 このエントリーをはてなブックマークに追加 10 users Instapaper Pocket Tweet Facebook Share Evernote Clip プロンプト Microsoft 入力プロンプト API 精度

近年はさまざまな大規模言語モデルが台頭し、入力するプロンプトを工夫することで高精度な回答を得る方法も数多く生み出されています。しかし、入力プロンプトがあまりにも長くなりすぎると、チャットウィンドウの上限を超えてしまったり、APIのコストが増大してしまったりするデメリットも生じます。そこでMicrosoft Re... 続きを読む

心を読んでテキストに変換する「BrainGPT」が登場、実験の様子がムービーで確認可能

2023/12/18 このエントリーをはてなブックマークに追加 15 users Instapaper Pocket Tweet Facebook Share Evernote Clip カンファレンスイベント NeurIPS 脳波 ムービー 実験

2023年12月10日から16日にかけて行われた機械学習と計算論的神経科学のカンファレンスイベント「NeurIPS」において、シドニー工科大学の研究チームによる「生の脳波を直接言語に翻訳する」という大規模言語モデル「BrainGPT」の論文が注目論文として選出されました。 New Mind-Reading "BrainGPT" Turns Thoughts Into T... 続きを読む

Google、医療特化の大規模言語モデル「MedLM」の提供開始

2023/12/14 このエントリーをはてなブックマークに追加 11 users Instapaper Pocket Tweet Facebook Share Evernote Clip LLM Google 提供開始 米国 医療用途

Googleは、医療業界向けの新たなLLM「MedLM」を米国で提供開始した。「PaLM 2」ベースのLLMを医療関連の膨大なデータセットでトレーニングしたもの。医療研究、医療診断、医療文書作成など、多様な医療用途に使用できるとしている。 米Googleは12月13日(現地時間)、医療業界向けの新しい大規模言語モデル(LLM)、「Me... 続きを読む

Google、論文・レポート作成を生成AIが支援「NotebookLM」公開、Geminiを導入

2023/12/09 このエントリーをはてなブックマークに追加 106 users Instapaper Pocket Tweet Facebook Share Evernote Clip GEMINI NotebookLM LLM 論文 生成AI

米Googleは12月8日(現地時間)、Googleラボが初期テスターに提供していたAIノートブック「NotebookLM」(実験製品)を、米国で18歳以上が利用できるようにした。これは今年5月に開発者カンファレンスにおいて、「Project Tailwind」という名称で紹介されたツールであり、オンラインノートに大規模言語モデル(LLM)によ... 続きを読む

「医療」に特化したオープンソースの大規模言語モデル「Meditron」が登場

2023/12/03 このエントリーをはてなブックマークに追加 13 users Instapaper Pocket Tweet Facebook Share Evernote Clip LLM Meta 言語モデル オープンソース 医療

Metaの大規模言語モデル(LLM)である「Llama 2」をベースに医学書でトレーニングした、医療専門のLLMスイート「Meditron」が登場しました。登場直後であるため正規採用はまだ推奨されていないものの、医療分野に関する能力がGPT-3.5を上回っていることが報告されています。 [2311.16079] MEDITRON-70B: Scaling Medical P... 続きを読む

[速報]AWS、大規模言語モデルのトレーニングに最適化した独自プロセッサ「AWS Trainium2」発表。前モデルより最大4倍のトレーニング性能。AWS re:Invent 2023

2023/11/28 このエントリーをはてなブックマークに追加 5 users Instapaper Pocket Tweet Facebook Share Evernote Clip プロセッサ ラスベガス パラメータ AWS 基調講演

Amazon Web Services(AWS)は、ラスベガスで開催中のイベント「AWS re:Invent 2023」の基調講演で、AIのトレーニングに最適化した独自プロセッサ「AWS Trainium2」を発表しました。 Trainium2は、最大数兆個のパラメータを持つ基盤モデルおよび大規模言語モデルのトレーニング用に設計されています。 2020年に発表され... 続きを読む

ChatGPTを超えるという大規模言語モデル「OpenChat」をローカルで動作させて実力を確かめてみた

2023/11/26 このエントリーをはてなブックマークに追加 17 users Instapaper Pocket Tweet Facebook Share Evernote Clip OpenChat chatgpt パラメーター数 実力 実際

OpenChatはオープンソースの大規模言語モデルです。OpenChatのうち2023年11月にリリースされたOpenChat-3.5-7Bモデルはパラメーター数が70億しかないにもかかわらず2023年3月時点のChatGPTを超えるベンチマーク結果を出すほど性能が高いモデルとのことなので、実際に使って試してみました。 imoneoi/openchat: OpenChat:... 続きを読む

大規模言語モデル(LLM)をLoRAで強化する際に役立つ情報を研究者が公開

2023/11/23 このエントリーをはてなブックマークに追加 8 users Instapaper Pocket Tweet Facebook Share Evernote Clip LLM LoRa Low-Rank https 言語モデル

LoRAは画像生成モデルや大規模言語モデル(LLM)に追加の情報を学習させてモデルを微調整できる仕組みです。LoRAを用いてLLMを強化する際に役立つ情報をAI研究者のセバスチャン・ラシュカ氏が解説しています。 Practical Tips for Finetuning LLMs Using LoRA (Low-Rank Adaptation) https://magazine.sebastianraschka.co... 続きを読む

 
(1 - 25 / 92件)