タグ テキストデータ
人気順 10 users 50 users 100 users 500 users 1000 usersNDL古典籍OCR-Liteの公開について | NDLラボ
2024年11月26日 NDL古典籍OCR-Liteの公開について NDLラボ公式GitHub(外部サイト)から、NDL古典籍OCR-Liteを公開しました。 NDL古典籍OCR-Liteは、ノートパソコン等の一般的な家庭用コンピュータやOS環境で、江戸期以前の和古書、清代以前の漢籍といった古典籍資料のデジタル化画像からテキストデータが作成できる軽量... 続きを読む
自由記述のアンケートデータがあったときに実施すべき4つの分析手法 - Qiita
アンケートには、数値で回答をする設問があったり、自由記述の回答をする設問があったりすることが一般的です。 そして、数値の回答に関しては、集計して性別や年代など回答者の属性ごとにスコアを比べたり、質問間の相関を調べて、分析を進めることが可能です。 一方で、自由記述の回答の場合、膨大なテキストデータを... 続きを読む
Excelに毎度同じWebサイト上のテキストデータをまとめる苦行は自動化で解脱!【残業を減らす!Officeテクニック】
ChatGPTに単語を「永遠に」繰り返すよう促すことでトレーニングに使われた膨大なテキストデータを吐き出させる攻撃手法をGoogleの研究者らが開発
ChatGPTのトレーニングにはインターネットから取得したデータが利用されていますが、具体的なデータの中身は非公開となっています。「同じ単語を繰り返して」という単純な命令を行う事でChatGPTにトレーニングデータを出力させることに成功したとGoogleの研究者らが発表しました。 Extracting Training Data from ChatGP... 続きを読む
AIの進化が止まらない→スクショを送るだけでゲームも作れる、バグも修正できる、宿題もやってくれる、認証システムも……
OpenAIが提供するChatGPT Visionは画像の認識や分析に長けた機能 (要:$20/月のChatGPT Plusアカウント) 例えば、バグが起こっている様子をスクショして送れば、AIがソースコードの問題箇所を検出し、訂正したコードを送ってくれる ほかには手書きの文字を読み込んでテキストデータにしたり、画像を認識してその状況を... 続きを読む
ChatGPTは史上最高の小説家になりうるーーSF作家 樋口恭介が考える、生成AIの知性
樋口恭介『構造素子』(早川書房) 文章、画像、音楽、動画など幅広い分野の生成AIがあるなか、とりわけ昨今注目が集まっているのはChatGPTだ。インターネット上の大量のテキストデータを学習した、いわゆる大規模言語モデル(LLM)で、ユーザーがチャットで質問や指示を投げかけると、高精度の回答をまるで人間であるか... 続きを読む
外部データをRetrievalしてLLM活用する上での課題と対策案 - ABEJA Tech Blog
はじめに ABEJAでデータサイエンティストをしている服部です。 今回はLLMで外部データを使うケースについてのお話をしたいと思います。 はじめに LLMと外部データの利用 RetrievalとLLM 0. (事前準備)参照したいテキストデータをDBに格納 1. ユーザの入力文とのテキスト類似度を計算して、関連テキストを抽出する(Retrie... 続きを読む
グーグルの新AIモデル「PaLM2」、どれほどパフォーマンスが改善されたのか? GPT4との比較 | AMP[アンプ] - ビジネスインスピレーションメディア
ChatGPTに対抗して、グーグルが新たなAIモデル「PaLM2」をリリースした。このモデルは、前モデルとなる「PaLM」よりも約5倍のテキストデータ(トークン)を学習に使用しつつも、そのサイズ(パラメータ数)は小さくなっており、より効率化されたモデルとしてテック界隈では話題となっている。 パラメータ数は、PaLMが540... 続きを読む
「大規模言語モデル(LLM)カオスマップ」2023年度6月版が公開
株式会社ANOBAKAは、直近の大規模言語モデル(LLM:Large Language Models)の開発競争の激化を受け、Generative AI領域で起業を考えている人への参考情報として「大規模言語モデル(LLM)カオスマップ」2023年度6月版を公開したと発表した。 大規模言語モデル(LLM:Large Language Models)とは、大量のテキストデータ... 続きを読む
ChatGPTで記憶を持たせる|ナッピー通信|note
こんにちは代表のサル君です。今日はChatGPTに記憶を持たせる方法を紹介します。 ChatGPTと記憶力ChatGPTは、大量のテキストデータをトレーニングデータとして使用し、そのデータを元に自然言語テキストを生成することができます。しかし、個別の対話の詳細を長期的に覚えることはできません。これは、ChatGPTが非常に大... 続きを読む
【完全保存版】GPT を特定の目的に特化させて扱う (Fine-tuning, Prompt, Index, etc.) - Qiita
【完全保存版】GPT を特定の目的に特化させて扱う (Fine-tuning, Prompt, Index, etc.) ChatGPT に代表される今日の AI ブームを牽引しているのは 大規模言語モデル(Large-scale Language Model, LLM) と言っても過言ではないでしょう。LLM とは大量のテキストデータを使ってトレーニングされた自然言語処理のモデルで... 続きを読む
入江 慎吾 / AI研究 on Twitter: "感動!自動でゆっくり動画がつくれるプログラムが完成した!添付のような動画がテーマ渡すだけで自動でできあがります。 - ChatGPTにテーマを渡して脚本作成 -
感動!自動でゆっくり動画がつくれるプログラムが完成した!添付のような動画がテーマ渡すだけで自動でできあがります。 - ChatGPTにテーマを渡して脚本作成 - テキストデータから音声データを作成 - remotionで動画生成… https://t.co/avlMM7VSvF 続きを読む
ChatGPTの言語モデル「GPT-3.5」、司法試験を受ける 結果は?
法律は言語の使用に大きく依存する分野だ。法令や規制、契約、特許、司法判断などの文書を継続的に作成し、膨大な量のテキストデータを生成している。 他方で、OpenAIのGPT(Generative Pre-trained Transformer)などの登場により大規模言語モデル(LLM)が注目されてきた。最近ではGPT-3.5と呼ばれる「text-davinci-00... 続きを読む
人工知能(ChatGPT)と対話してレポートを書いてみた
Reading Monkey ChatGPTについてブログ記事を書こうと思います。アドバイスしてください。 ChatGPT ChatGPTは、自然言語処理タスクのためのトランスフォーマー・ベースのモデルで、大量のテキストデータを学習しています。 ブログ記事を書く際には、ChatGPTの特徴や使用方法について説明し、実際に使用した例や、改良の... 続きを読む
幻冬舎が記事をNFT化へ Web3.0系エンジニアとシステム開発
幻冬舎は9月5日、記事をブロックチェーン上に保存するシステム「あたらしい経済 ON-CHAIN WEB APP(NECO)」を開発したと発表した。メディアの廃刊やサイバー攻撃があってもコンテンツデータが消えないとしている。 NFT(非代替性トークン)の発行時に、記事タイトルとサムネイル画像のURL、本文のテキストデータをjson... 続きを読む
琉球王国交流史・近代沖縄史料デジタルアーカイブ | 琉球王国交流史デジタルアーカイブの公開資料の拡充について(2022/8/4)
浦添市教育委員会発行『琉球王国評定所文書』 下記の通り、浦添市教育委員会の協力を得て、琉球王国交流史デジタルアーカイブの公開資料に『琉球王国評定所文書』(1~18・補遺別巻等)を追加いたしました。なおPDFの公開は著作者の承諾が得られたものに限り、第1~3巻についてはテキストデータも公開しています。 今... 続きを読む
明治期の本もテキスト化、国立国会図書館が特注OCRに込めた狙い
「(古い資料の)本文検索ができるようになれば、新たな本の価値を届けられる」。国立国会図書館次世代システム開発研究室の徳原直子室長は力を込める。 国立国会図書館(NDL)は2022年4月25日、新たに開発した「NDLOCR」をオープンソースとして公開した。NDLOCRは、書籍や雑誌などの画像データから本文のテキストデータ... 続きを読む
西大寺本金光明最勝王経平安初期点の「ひまわり」用XMLを読み解く - kzhr's diary
国立国語研究所からこの11月30日に「西大寺本金光明最勝王経平安初期点」訓読文の「ひまわり」用XMLとテキストデータが公開されました。 www2.ninjal.ac.jp 今回は、そのXMLについて読み解いてみたいと思います。 (当初は書きかけで公開していました。これで完全版です。) 西大寺本金光明最勝王経平安初期点って? 西... 続きを読む
正規表現を用いる際のパフォーマンスチェックリスト - ヤドカリラボ
Python で正規表現を書いて分析や機械学習のモデル構築、予測に活用する際には、正規表現実行時のパフォーマンスが足かせとなる場合があります。 正規表現の処理に用いられる実行時間がどのくらいになるかはテキストデータの分量や機械学習モデルの精度検証の実行回数に応じて変わってきます。 一つのテキストデータに対... 続きを読む
PDFからテキストを抽出するのはなぜ難しいのか? - GIGAZINE
PDFファイルは、どんな環境のPCでもテキストや画像の表示を崩すことなく見られるデータ形式です。しかし、PDFからテキストデータをコピーしようとすると、うまく選択できなかったり、テキストの内容がおかしくなってしまったりすることがあります。なぜPDFファイルからのテキスト抽出が難しいのかを、PDFファイルのテキ... 続きを読む
不均衡データ分類問題をDNNで解くときの under sampling + bagging 的なアプローチ - BASE開発チームブログ
はじめに こんにちは、Data Strategy所属の岡です。グループ会社BASE BANKで分析/モデリングなども兼務しています。 テキストデータを特徴量にもつ不均衡データ分類問題をDNNで解きたくなった際、下記の論文を参考にしたのでその内容を紹介します。 https://users.cs.fiu.edu/~chens/PDF/ISM15.pdf 不均衡データ分類問題... 続きを読む
ちょっと面白いスクリプト!グラフやチャートを手書き風のラフな感じにするJavaScriptライブラリ -roughViz | コリス
手書きスタイルのグラフやチャートを簡単に作成できるJavaScriptライブラリを紹介します。手書きの度合いも調整でき、ちょとラフな感じ、雑な感じ、かなり雑な感じ、ぐちゃぐちゃな感じにもできます。 グラフやチャートに使用するデータは外部.csvファイルにも、カンマ区切りのテキストデータにも対応しています。 rough... 続きを読む
サービス内のトレンドを把握するために、テキストデータを可視化・通知してくれるslack botを作った話 - コネヒト開発者ブログ
本記事はコネヒト Advent Calendar 2019 17日目の記事です。 こんにちは!MLエンジニアの野澤(@takapy0210)です! 今回は、ママリ内に日々蓄積されているテキストデータを良い感じに可視化して、定期的にslack通知する仕組みを実装したお話です。 ※下記で使用している画像やデータに関しては、あくまでママリ内での傾... 続きを読む
音声認識とは|最新技術や基礎知識・仕組み・現在の事例を解説 | Ledge.ai
ディープラーニングの登場やスマートフォンへの搭載により、急速に普及したAI(人工知能)の技術に「音声認識」があります。本稿では、「音声認識」の定義から仕組み、事例、技術動向について詳しく解説します。 Photo by Kristin Baldeschwiler on Pixabay 音声認識とは、コンピュータにより音声データをテキストデータ... 続きを読む
音声認識AIで文字起こし「easy writer」正式サービス開始 | HON.jp News Blog
株式会社Books&Companyは8月1日、AI文章生成サービス「easy writer」の正式サービスを開始した。音声認識AIにより、音声データを簡単にテキストデータへ変換し、編集作業や確認も行えるツールとなっている。 easy writerは、同社代表の野村衛氏が編集者として2000人以上にインタビューし数多くの原稿を書いてきた経験... 続きを読む