タグ arXiv.org
人気順 10 users 50 users 100 users 500 users 1000 users自分がロボットでないことを示すGoogleの「reCAPTCHA v2」をAIで突破することに成功
Googleはボットからのアクセスを防ぐためのシステムとして「reCAPTCHA」を提供しています。このreCAPTCHAのバージョン2(v2)を、AIで突破することに成功したと報告されました。 [2409.08831] Breaking reCAPTCHAv2 https://arxiv.org/abs/2409.08831 AI model beats CAPTCHA every time https://techxplore.com/news/2024... 続きを読む
Googleの研究チームがゲームエンジンとして機能するAIモデル「GameNGen」を発表、入力に合わせて20fpsでDOOMを描画可能で実際のプレイムービーもあり
Googleの研究者4名のチームが、ゲームエンジンとして機能するAIモデル「GameNGen」の論文を発表するとともに実際にFPSゲームのDoomをプレイするムービーを公開しました。 GameNGen https://gamengen.github.io/ [2408.14837] Diffusion Models Are Real-Time Game Engines https://arxiv.org/abs/2408.14837 研究チーム... 続きを読む
RAGのSurvey論文からRAG関連技術を俯瞰する - 元生技のデータサイエンティストのメモ帳
大規模言語モデル (LLM) の学習データに含まれない知識(各社の特有の書類など)を踏まえてLLMに回答させる際に最早必須となってきたRAG (Retrieval-Augumented Generation)。 今回はそんなRAGのSurvey論文を元に、RAGの変遷や構成要素、新たに出てきた技術を俯瞰していきます。 Survey論文へのリンクはこちら arxiv.org... 続きを読む
【サーベイ論文まとめ】RAG(Retrieval-Augmented Generation) - Qiita
『Retrieval-Augmented Generation for Large Language Models: A Survey(以下、RAG Survey論文と表記)』の内容について以下、取りまとめました。 https://arxiv.org/abs/2312.10997v5 概要 RAG研究のまとめ RAG Survey論文 Fig.1 上記では、RAGの研究が「Fine-tuning」・「Pre-training」・「Inference」の3種類に分類... 続きを読む
OpenAIのGPT-4はCVEのセキュリティ勧告を読むことで実際の脆弱性を悪用できることが明らかに
OpenAIが開発する大規模言語モデル(LLM)のGPT-4は、一般公開されている脆弱(ぜいじゃく)性を悪用してサイバー攻撃を成功させることが可能であることが最新の研究により明らかになりました。 [2404.08144] LLM Agents can Autonomously Exploit One-day Vulnerabilities https://arxiv.org/abs/2404.08144 GPT-4 can expl... 続きを読む
GoogleがAIに無限の長さのテキストを処理できる能力を与える技術を発表
Googleの研究者が、大規模言語モデル(LLM)に無限の長さのテキストを処理させる手法だという「Infini-attention」に関する論文を発表しました。 [2404.07143] Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention https://arxiv.org/abs/2404.07143 Google’s new technique gives L... 続きを読む
Appleがスマホの画面を認識できるマルチモーダルLLM「Ferret-UI」を発表、SiriがiPhoneアプリのUIを理解できるようになる可能性も
Appleの研究者が、スマートフォンのアプリUIを理解するために設計したマルチモーダル大規模言語モデル(MLLM)の「Ferret-UI」を開発したという論文を、未査読論文リポジトリであるarXivで公開しました。 [2404.05719] Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs https://arxiv.org/abs/2404.0571... 続きを読む
ChatGPTや大規模言語モデル(LLM)から隠された情報や一部機能を盗み出す攻撃手法が登場
OpenAIのチャットAIであるChatGPTや、Googleの開発する大規模言語モデル(LLM)のPaLM-2などから、機密情報や一部機能を盗み出すことができる「モデル窃盗攻撃(model-stealing attack)」を、AI研究者が発表しました。 [2403.06634] Stealing Part of a Production Language Model https://arxiv.org/abs/2403.06634 Google... 続きを読む
速報:話題の 1ビットLLMとは何か?|寺田英雄(㈱オープンストリームCTO)
2024-02-27にarXiv公開され,昨日(2024-02-28)あたりから日本のAI・LLM界隈でも大きな話題になっている、マイクロソフトの研究チームが発表した 1ビットLLMであるが、これは、かつてB-DCGAN(https://link.springer.com/chapter/10.1007/978-3-030-36708-4_5; arXiv:https://arxiv.org/abs/1803.10930 )という「1ビッ... 続きを読む
Microsoftが1.58ビットの大規模言語モデルをリリース、行列計算を足し算にできて計算コスト激減へ
Microsoftの研究チームがモデルのウェイトを「-1」「0」「1」の3つの値のみにすることで大規模言語モデルの計算コストを激減させることに成功したと発表しました。 [2402.17764] The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits https://arxiv.org/abs/2402.17764 従来のモデルであれば入力に対して... 続きを読む
Appleがプロンプトを入力するだけで静止画をアニメーション化してくれるAIツール「Keyframer」を発表
Appleの研究チームが2024年2月8日、大規模言語モデルを活用して、静止画をアニメーション化するAIツール「Keyframer」を発表しました。 Keyframer: Empowering Animation Design using Large Language Models https://arxiv.org/pdf/2402.06071.pdf Apple researchers unveil 'Keyframer': An AI tool that animates sti... 続きを読む
高解像度のAI画像を0.5秒で吐き出すオープンソースの画像生成モデル「PixArt-δ」が登場
Huawei Noah's Ark Labや大連理工大学、Hugging Faceらの研究者らが、テキストから画像を生成するフレームワークである「PixArt-δ(デルタ)」を発表しました。 [2401.05252] PIXART-δ: Fast and Controllable Image Generation with Latent Consistency Models https://arxiv.org/abs/2401.05252 Meet PIXART-δ: The Next... 続きを読む
1960年代のチャットボット「ELIZA」がチューリングテストでOpenAIの「GPT-3.5」を破る
対話相手が機械なのか人間に予想してもらう「チューリングテスト」の結果、「ChatGPT」に使われるOpenAIの言語モデル「GPT-3.5」が1960年代のチャットボット「ELIZA」に敗北したことがわかりました。 [2310.20216] Does GPT-4 Pass the Turing Test? https://arxiv.org/abs/2310.20216 1960s chatbot ELIZA beat OpenAI’... 続きを読む
オセロの必勝法が見つかった件 | やねうら王 公式サイト
すごいニュースが飛び込んできた。オセロの必勝法が見つかったのだ。正確に言うとオセロが弱解決された。まずはその論文を紹介する。 Othello is Solved : https://arxiv.org/abs/2310.19387 「弱解決(weakly solved)」を簡単に言うと、初期局面からの双方最善手を打つ時の結論(勝敗)がわかったと言う意味である。8×8の... 続きを読む
オセロが解決される、双方が最善手を打った場合最終局面は引き分けになることが明らかに
2023年10月30日に「オセロが解決された」というタイトルの論文が世界最大のプレプリント(査読前論文)サーバーarXivに投稿されました。論文によると、双方が最善手を打った場合の最終局面は引き分けになると述べられています。 [2310.19387] Othello is Solved https://arxiv.org/abs/2310.19387 オセロは約10の58乗通り... 続きを読む
AIに「それがファイナルアンサーなの?」「全力を尽くして」といった感情的な命令文を伝えるとパフォーマンスが向上する
文章を機械的に処理する大規模言語モデル(LLM)に「自分を信じて」といった感情的な言葉を投げかけると、パフォーマンスが向上することがわかりました。 Large Language Models Understand and Can Be Enhanced by Emotional Stimuli (PDFファイル)https://arxiv.org/pdf/2307.11760.pdf Emotional prompts can enhance A... 続きを読む
生成AIの飛躍的性能アップの秘密「グロッキング」とは?
ChatGPTなどの優れたAIモデルを開発するAI研究団体のOpenAIが発見した、ディープラーニングにおける最も魅力的な謎のひとつとされる「グロッキング」について、GoogleのAI研究者が位相変化との関係を指摘しています。 [2301.05217] Progress measures for grokking via mechanistic interpretability https://arxiv.org/... 続きを読む
「就くのが困難」「給料が高い」「プログラムとライティング」などがGPTに奪われやすい仕事!?OpenAIから発表された論文への反応
sazan @sazan_dev OpenAIからヤバすぎる論文出た。必読 * 就くのが困難な仕事ほどGPTに置き換えられやすい * 給料が高い仕事ほど(略 * プログラミングとライティングを使う仕事が(略 * どのような仕事がなくなるかを人間とGPT-4に聞いたところ、双方ともほぼ同じ答えを返してきた…😅 arxiv.org/abs/2303.10130 2023-03... 続きを読む
わずか100秒のモーションデータから94%の精度でVRユーザーを特定できることが5万人以上のBeat Saberプレーヤーからの匿名化されたデータで判明
人気アプリ「Beat Saber」の5万人以上のプレイヤーの匿名化されたVRデータ記録250万件を分析し、わずか100秒間のモーションデータから94%以上の精度でユーザーを一意に特定できるという研究結果を示した論文が、未査読論文リポジトリのarxiv.orgに掲載されています。 [2302.08927] Unique Identification of 50,000+ Vi... 続きを読む
Transformer モデルの仕組みを JAX/Flax で実装しながら解説してみる(パート1) - めもめも
なんの話かと言うと 最近、大規模言語モデルを用いたチャットシステムがよく話題になりますが、言語モデルの性能が大きく向上するきっかけとなったのが、下記の論文で公表された「Transformer」のアーキテクチャーです。 arxiv.org ここでは、JAX/Flax を用いて Transformer を実装しながら、その仕組みを解説していきま... 続きを読む
ネット掲示板の投稿から精神疾患を検出するAIが誕生
アメリカ・ダートマス大学の研究チームが英語圏最大のソーシャル掲示板・Redditの投稿から精神疾患を検出するAIを開発しました。 Emotion-based Modeling of Mental Disorders on Social MediaEmotion-based Modeling of Mental Disorders on Social Media - 2201.09451.pdf (PDFファイル)https://arxiv.org/pdf/2201.09... 続きを読む
中国のグレートファイアウォールは31万個以上のドメインをブロックしていると判明 - GIGAZINE
中国政府が運用している国内のインターネット検閲システム「グレートファイアウォール」について行われた研究で、グレートファイアウォールがどのようなドメインをブロックしているのかが明らかになりました。 [2106.02167] How Great is the Great Firewall? Measuring China's DNS Censorship https://arxiv.org/abs/2... 続きを読む
Googleのエンジニアが人間がコーディングを行うよりも高速で自己進化するAI「AutoML-Zero」を発表 - GIGAZINE
Googleのエンジニアチームが、基本的な数理演算のみを使って最適な機械学習アルゴリズムを自動的に発見する人工知能(AI)「AutoML-Zero」を発表しました。 [2003.03384] AutoML-Zero: Evolving Machine Learning Algorithms From Scratch https://arxiv.org/abs/2003.03384 Artificial intelligence is evolving all by i... 続きを読む
画像から説明文を生成するShow and Tellの論文要約 - Qiita
Help us understand the problem. What is going on with this article? Show and Tell: A Neural Image Caption Generator Oriol Vinyals, Alexander Toshev, Samy Bengio, Dumitru Erhan 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) https://arxiv.org/abs/1411.4555 本記事で読んだのは... 続きを読む
高精度でテキスト分類を行えるAIの環境を用意しました【BERT】 - ニートの言葉
こんにちは、あんどう(@t_andou)です。 最近、自然言語処理のAIの一種であるBERTをよく触っています。 今回はBERTのソースを読まなくてもサクッと試せる環境を用意しましたので、メモとして残しておきます。 BERTとはどういうものか 画像引用:https://arxiv.org/pdf/1810.04805.pdf 凄くざっくりと説明すると、BERTと... 続きを読む