タグ「テキストデータ」

タグテキストデータ

新着順人気順 5 users 10 users 50 users 100 users 500 users 1000 users

(1 - 25 / 70件)

NDL古典籍OCR-Liteの公開について | NDLラボ

2024/11/26 10 users NDLラボ漢籍古典籍資料江戸期以前ノートパソコン

2024年11月26日 NDL古典籍OCR-Liteの公開について NDLラボ公式GitHub（外部サイト）から、NDL古典籍OCR-Liteを公開しました。 NDL古典籍OCR-Liteは、ノートパソコン等の一般的な家庭用コンピュータやOS環境で、江戸期以前の和古書、清代以前の漢籍といった古典籍資料のデジタル化画像からテキストデータが作成できる軽量... 続きを読む

Excelに毎度同じWebサイト上のテキストデータをまとめる苦行は自動化で解脱！【残業を減らす！Officeテクニック】

2023/12/18 19 users 解脱苦行 Excel Officeテクニック残業

ChatGPTに単語を「永遠に」繰り返すよう促すことでトレーニングに使われた膨大なテキストデータを吐き出させる攻撃手法をGoogleの研究者らが開発

2023/11/30 13 users chatgpt 命令単語攻撃手法トレーニング

ChatGPTのトレーニングにはインターネットから取得したデータが利用されていますが、具体的なデータの中身は非公開となっています。「同じ単語を繰り返して」という単純な命令を行う事でChatGPTにトレーニングデータを出力させることに成功したとGoogleの研究者らが発表しました。 Extracting Training Data from ChatGP... 続きを読む

AIの進化が止まらない→スクショを送るだけでゲームも作れる、バグも修正できる、宿題もやってくれる、認証システムも……

2023/10/20 122 users スクショ宿題パク OpenAI 進化

OpenAIが提供するChatGPT Visionは画像の認識や分析に長けた機能（要：$20/月のChatGPT Plusアカウント）例えば、バグが起こっている様子をスクショして送れば、AIがソースコードの問題箇所を検出し、訂正したコードを送ってくれるほかには手書きの文字を読み込んでテキストデータにしたり、画像を認識してその状況を... 続きを読む

ChatGPTは史上最高の小説家になりうるーーSF作家樋口恭介が考える、生成AIの知性

2023/09/23 12 users chatgpt 樋口恭介 LLM 知性生成AI

樋口恭介『構造素子』（早川書房）文章、画像、音楽、動画など幅広い分野の生成AIがあるなか、とりわけ昨今注目が集まっているのはChatGPTだ。インターネット上の大量のテキストデータを学習した、いわゆる大規模言語モデル（LLM）で、ユーザーがチャットで質問や指示を投げかけると、高精度の回答をまるで人間であるか... 続きを読む

外部データをRetrievalしてLLM活用する上での課題と対策案 - ABEJA Tech Blog

2023/07/03 17 users ABEJA Tech Blog 課題対策案外部データ服部

はじめに ABEJAでデータサイエンティストをしている服部です。今回はLLMで外部データを使うケースについてのお話をしたいと思います。はじめに LLMと外部データの利用 RetrievalとLLM 0. (事前準備)参照したいテキストデータをDBに格納 1. ユーザの入力文とのテキスト類似度を計算して、関連テキストを抽出する(Retrie... 続きを読む

「大規模言語モデル（LLM）カオスマップ」2023年度6月版が公開

2023/06/07 144 users LLM 激化直近カオスマップ起業

株式会社ANOBAKAは、直近の大規模言語モデル（LLM：Large Language Models）の開発競争の激化を受け、Generative AI領域で起業を考えている人への参考情報として「大規模言語モデル（LLM）カオスマップ」2023年度6月版を公開したと発表した。大規模言語モデル（LLM：Large Language Models）とは、大量のテキストデータ... 続きを読む

ChatGPTで記憶を持たせる｜ナッピー通信｜note

2023/04/16 140 users chatgpt Note 対話個別記憶

こんにちは代表のサル君です。今日はChatGPTに記憶を持たせる方法を紹介します。 ChatGPTと記憶力ChatGPTは、大量のテキストデータをトレーニングデータとして使用し、そのデータを元に自然言語テキストを生成することができます。しかし、個別の対話の詳細を長期的に覚えることはできません。これは、ChatGPTが非常に大... 続きを読む

【完全保存版】GPT を特定の目的に特化させて扱う (Fine-tuning, Prompt, Index, etc.) - Qiita

2023/03/30 804 users prompt LLM Fine-tuning GPT 過言

【完全保存版】GPT を特定の目的に特化させて扱う (Fine-tuning, Prompt, Index, etc.) ChatGPT に代表される今日の AI ブームを牽引しているのは大規模言語モデル（Large-scale Language Model, LLM）と言っても過言ではないでしょう。LLM とは大量のテキストデータを使ってトレーニングされた自然言語処理のモデルで... 続きを読む

ChatGPTの言語モデル「GPT-3.5」、司法試験を受ける　結果は？

2023/01/17 19 users chatgpt LLM GPT OpenAI 司法試験

法律は言語の使用に大きく依存する分野だ。法令や規制、契約、特許、司法判断などの文書を継続的に作成し、膨大な量のテキストデータを生成している。他方で、OpenAIのGPT（Generative Pre-trained Transformer）などの登場により大規模言語モデル（LLM）が注目されてきた。最近ではGPT-3.5と呼ばれる「text-davinci-00... 続きを読む

人工知能（ChatGPT）と対話してレポートを書いてみた

2023/01/15 10 users chatgpt 人工知能改良言語処理タスクレポート

Reading Monkey ChatGPTについてブログ記事を書こうと思います。アドバイスしてください。 ChatGPT ChatGPTは、自然言語処理タスクのためのトランスフォーマー・ベースのモデルで、大量のテキストデータを学習しています。ブログ記事を書く際には、ChatGPTの特徴や使用方法について説明し、実際に使用した例や、改良の... 続きを読む

幻冬舎が記事をNFT化へ　Web3.0系エンジニアとシステム開発

2022/09/05 120 users NFT化幻冬舎システム開発 NECO JSON

幻冬舎は9月5日、記事をブロックチェーン上に保存するシステム「あたらしい経済 ON-CHAIN WEB APP（NECO）」を開発したと発表した。メディアの廃刊やサイバー攻撃があってもコンテンツデータが消えないとしている。 NFT（非代替性トークン）の発行時に、記事タイトルとサムネイル画像のURL、本文のテキストデータをjson... 続きを読む

明治期の本もテキスト化、国立国会図書館が特注OCRに込めた狙い

2022/05/16 13 users NDL NDLOCR 国立国会図書館明治期テキスト化

「（古い資料の）本文検索ができるようになれば、新たな本の価値を届けられる」。国立国会図書館次世代システム開発研究室の徳原直子室長は力を込める。国立国会図書館（NDL）は2022年4月25日、新たに開発した「NDLOCR」をオープンソースとして公開した。NDLOCRは、書籍や雑誌などの画像データから本文のテキストデータ... 続きを読む

西大寺本金光明最勝王経平安初期点の「ひまわり」用XMLを読み解く - kzhr's diary

2021/12/08 10 users ひまわり XML 当初国立国語研究所完全版

国立国語研究所からこの11月30日に「西大寺本金光明最勝王経平安初期点」訓読文の「ひまわり」用XMLとテキストデータが公開されました。 www2.ninjal.ac.jp 今回は、そのXMLについて読み解いてみたいと思います。（当初は書きかけで公開していました。これで完全版です。）西大寺本金光明最勝王経平安初期点って？西... 続きを読む

正規表現を用いる際のパフォーマンスチェックリスト - ヤドカリラボ

2020/03/06 23 users 足かせ分量 Python 正規表現予測

Python で正規表現を書いて分析や機械学習のモデル構築、予測に活用する際には、正規表現実行時のパフォーマンスが足かせとなる場合があります。正規表現の処理に用いられる実行時間がどのくらいになるかはテキストデータの分量や機械学習モデルの精度検証の実行回数に応じて変わってきます。一つのテキストデータに対... 続きを読む

PDFからテキストを抽出するのはなぜ難しいのか？ - GIGAZINE

2020/03/04 14 users てき GIGAZINE テキスト抽出 PDFファイル PDF

PDFファイルは、どんな環境のPCでもテキストや画像の表示を崩すことなく見られるデータ形式です。しかし、PDFからテキストデータをコピーしようとすると、うまく選択できなかったり、テキストの内容がおかしくなってしまったりすることがあります。なぜPDFファイルからのテキスト抽出が難しいのかを、PDFファイルのテキ... 続きを読む

不均衡データ分類問題をDNNで解くときの under sampling + bagging 的なアプローチ - BASE開発チームブログ

2020/02/29 11 users DNN モデリング論文 PDF アプローチ

はじめにこんにちは、Data Strategy所属の岡です。グループ会社BASE BANKで分析/モデリングなども兼務しています。テキストデータを特徴量にもつ不均衡データ分類問題をDNNで解きたくなった際、下記の論文を参考にしたのでその内容を紹介します。 https://users.cs.fiu.edu/~chens/PDF/ISM15.pdf 不均衡データ分類問題... 続きを読む

ちょっと面白いスクリプト！グラフやチャートを手書き風のラフな感じにするJavaScriptライブラリ -roughViz | コリス

2019/12/18 17 users コリス Rough カンマ区切りスクリプト度合い

手書きスタイルのグラフやチャートを簡単に作成できるJavaScriptライブラリを紹介します。手書きの度合いも調整でき、ちょとラフな感じ、雑な感じ、かなり雑な感じ、ぐちゃぐちゃな感じにもできます。グラフやチャートに使用するデータは外部.csvファイルにも、カンマ区切りのテキストデータにも対応しています。 rough... 続きを読む

音声認識とは｜最新技術や基礎知識・仕組み・現在の事例を解説 | Ledge.ai

2019/11/14 18 users ディープラーニング本稿 Ledge.ai 人工知能定義

ディープラーニングの登場やスマートフォンへの搭載により、急速に普及したAI（人工知能）の技術に「音声認識」があります。本稿では、「音声認識」の定義から仕組み、事例、技術動向について詳しく解説します。 Photo by Kristin Baldeschwiler on Pixabay 音声認識とは、コンピュータにより音声データをテキストデータ... 続きを読む

音声認識AIで文字起こし「easy writer」正式サービス開始 | HON.jp News Blog

2019/08/01 28 users 原稿 hon.jp 音声認識AI ツール正式サービス

株式会社Books&Companyは8月1日、AI文章生成サービス「easy writer」の正式サービスを開始した。音声認識AIにより、音声データを簡単にテキストデータへ変換し、編集作業や確認も行えるツールとなっている。　easy writerは、同社代表の野村衛氏が編集者として2000人以上にインタビューし数多くの原稿を書いてきた経験... 続きを読む

[Python]機械学習などでテキストデータを特徴量にする際のソースコード集 | かものはしの分析ブログ

2019/06/23 387 users パシ Python テキストマイニング機械学習 GitHub

都内の事業会社で分析やWebマーケティングの仕事をしています。大学・大学院では経済学を通じて統計解析を行うなどしておりました。企業に勤めてからは、機械学習やテキストマイニング、クローリング技術などに関心を持っています。 Twitterアカウント Mr_Sakaue( SKUE ) GitHub 読書メーターほしいものリストテキスト... 続きを読む

全体の行数がわからないデータからランダムにN行取り出す - Qiita

2019/04/16 23 users シャッフル Qiita メモリランダム N行

テキストデータからランダムにN行取り出す方法ですが、まず「シャッフルしてN行取り出す」というのがあります。しかし、データが大きいとシャッフルにも大量のメモリが必要になるので、別の方法を考えたいところです。ここで、全体の行数がわかっていれば簡単に書ける（後で書きます）ところですが、一度行数を調べて... 続きを読む

マイクロソフト、テキストデータをDNAに変換する装置を開発。将来はデータセンターをサイコロ大に - Engadget 日本版

2019/03/22 58 users マイクロソフト DNA 手のひら概念実証装置

マイクロソフトが、ワシントン大学と共同でデジタルデータをDNAに変換・保存する初めての装置を開発しました。マイクロソフトは、この装置による概念実証がDNAストレージ技術を進歩させ、データセンター規模の情報を手のひらに乗るほどの大きさのDNAに記録できるようにしたいと考えています。続きを読む

生TensorFlow七転八倒記(10)：テキストデータをTF-Hubでfeature vectorに直してからt-SNEにかけてみる - 六本木で働くデータサイエンティストのブログ

2019/02/06 14 users T-SNE 備忘録六本木データサイエンティスト番外編

今回もただの備忘録ですが、どちらかというと番外編です。TensorFlow部分はあくまでもTF-Hubでテキストデータをfeature vectorに直すところまでのみで、そこから先は今まであまり試してこなかったt-SNE (t-distributed stochastic neighbor embedding)を使っています。参考にした記事は以下の3点です。ということで、... 続きを読む

ブラウザ上で複数のテキストをコピー可能になる拡張機能「Multicopy」を使ってみた - GIGAZINE

2019/01/14 58 users ブラウジング GIGAZINE メモリ一度 PC作業

テキストデータなどをPC上のメモリにコピーして任意に貼り付けることができるクリップボード機能は効率的なPC作業やブラウジングに不可欠ですが、一度にひとつしかコピーできず、新しくコピーすると前のデータは消えてしまうので、「さっきコピーしたテキストはどこのページにあったっけ」と探した経験がある人も多いは... 続きを読む

(1 - 25 / 70件)

次の25件 »