はてブログ

はてなブックマーク新着エントリーの過去ログサイトです。



タグ テキストデータ

新着順 人気順 5 users 10 users 50 users 100 users 500 users 1000 users
 
(1 - 25 / 69件)

Excelに毎度同じWebサイト上のテキストデータをまとめる苦行は自動化で解脱!【残業を減らす!Officeテクニック】

2023/12/18 このエントリーをはてなブックマークに追加 19 users Instapaper Pocket Tweet Facebook Share Evernote Clip 解脱 苦行 Excel Officeテクニック 残業

続きを読む

ChatGPTに単語を「永遠に」繰り返すよう促すことでトレーニングに使われた膨大なテキストデータを吐き出させる攻撃手法をGoogleの研究者らが開発

2023/11/30 このエントリーをはてなブックマークに追加 13 users Instapaper Pocket Tweet Facebook Share Evernote Clip chatgpt 命令 単語 攻撃手法 トレーニング

ChatGPTのトレーニングにはインターネットから取得したデータが利用されていますが、具体的なデータの中身は非公開となっています。「同じ単語を繰り返して」という単純な命令を行う事でChatGPTにトレーニングデータを出力させることに成功したとGoogleの研究者らが発表しました。 Extracting Training Data from ChatGP... 続きを読む

AIの進化が止まらない→スクショを送るだけでゲームも作れる、バグも修正できる、宿題もやってくれる、認証システムも……

2023/10/20 このエントリーをはてなブックマークに追加 122 users Instapaper Pocket Tweet Facebook Share Evernote Clip スクショ 宿題 パク OpenAI 進化

OpenAIが提供するChatGPT Visionは画像の認識や分析に長けた機能 (要:$20/月のChatGPT Plusアカウント) 例えば、バグが起こっている様子をスクショして送れば、AIがソースコードの問題箇所を検出し、訂正したコードを送ってくれる ほかには手書きの文字を読み込んでテキストデータにしたり、画像を認識してその状況を... 続きを読む

ChatGPTは史上最高の小説家になりうるーーSF作家 樋口恭介が考える、生成AIの知性

2023/09/23 このエントリーをはてなブックマークに追加 12 users Instapaper Pocket Tweet Facebook Share Evernote Clip chatgpt 樋口恭介 LLM 知性 生成AI

樋口恭介『構造素子』(早川書房) 文章、画像、音楽、動画など幅広い分野の生成AIがあるなか、とりわけ昨今注目が集まっているのはChatGPTだ。インターネット上の大量のテキストデータを学習した、いわゆる大規模言語モデル(LLM)で、ユーザーがチャットで質問や指示を投げかけると、高精度の回答をまるで人間であるか... 続きを読む

外部データをRetrievalしてLLM活用する上での課題と対策案 - ABEJA Tech Blog

2023/07/03 このエントリーをはてなブックマークに追加 17 users Instapaper Pocket Tweet Facebook Share Evernote Clip ABEJA Tech Blog 課題 対策案 外部データ 服部

はじめに ABEJAでデータサイエンティストをしている服部です。 今回はLLMで外部データを使うケースについてのお話をしたいと思います。 はじめに LLMと外部データの利用 RetrievalとLLM 0. (事前準備)参照したいテキストデータをDBに格納 1. ユーザの入力文とのテキスト類似度を計算して、関連テキストを抽出する(Retrie... 続きを読む

「大規模言語モデル(LLM)カオスマップ」2023年度6月版が公開

2023/06/07 このエントリーをはてなブックマークに追加 144 users Instapaper Pocket Tweet Facebook Share Evernote Clip LLM 激化 直近 カオスマップ 起業

株式会社ANOBAKAは、直近の大規模言語モデル(LLM:Large Language Models)の開発競争の激化を受け、Generative AI領域で起業を考えている人への参考情報として「大規模言語モデル(LLM)カオスマップ」2023年度6月版を公開したと発表した。 大規模言語モデル(LLM:Large Language Models)とは、大量のテキストデータ... 続きを読む

ChatGPTで記憶を持たせる|ナッピー通信|note

2023/04/16 このエントリーをはてなブックマークに追加 140 users Instapaper Pocket Tweet Facebook Share Evernote Clip chatgpt Note 対話 個別 記憶

こんにちは代表のサル君です。今日はChatGPTに記憶を持たせる方法を紹介します。 ChatGPTと記憶力ChatGPTは、大量のテキストデータをトレーニングデータとして使用し、そのデータを元に自然言語テキストを生成することができます。しかし、個別の対話の詳細を長期的に覚えることはできません。これは、ChatGPTが非常に大... 続きを読む

【完全保存版】GPT を特定の目的に特化させて扱う (Fine-tuning, Prompt, Index, etc.) - Qiita

2023/03/30 このエントリーをはてなブックマークに追加 804 users Instapaper Pocket Tweet Facebook Share Evernote Clip prompt LLM Fine-tuning GPT 過言

【完全保存版】GPT を特定の目的に特化させて扱う (Fine-tuning, Prompt, Index, etc.) ChatGPT に代表される今日の AI ブームを牽引しているのは 大規模言語モデル(Large-scale Language Model, LLM) と言っても過言ではないでしょう。LLM とは大量のテキストデータを使ってトレーニングされた自然言語処理のモデルで... 続きを読む

ChatGPTの言語モデル「GPT-3.5」、司法試験を受ける 結果は?

2023/01/17 このエントリーをはてなブックマークに追加 19 users Instapaper Pocket Tweet Facebook Share Evernote Clip chatgpt LLM GPT OpenAI 司法試験

法律は言語の使用に大きく依存する分野だ。法令や規制、契約、特許、司法判断などの文書を継続的に作成し、膨大な量のテキストデータを生成している。 他方で、OpenAIのGPT(Generative Pre-trained Transformer)などの登場により大規模言語モデル(LLM)が注目されてきた。最近ではGPT-3.5と呼ばれる「text-davinci-00... 続きを読む

人工知能(ChatGPT)と対話してレポートを書いてみた

2023/01/15 このエントリーをはてなブックマークに追加 10 users Instapaper Pocket Tweet Facebook Share Evernote Clip chatgpt 人工知能 改良 言語処理タスク レポート

Reading Monkey ChatGPTについてブログ記事を書こうと思います。アドバイスしてください。 ChatGPT ChatGPTは、自然言語処理タスクのためのトランスフォーマー・ベースのモデルで、大量のテキストデータを学習しています。 ブログ記事を書く際には、ChatGPTの特徴や使用方法について説明し、実際に使用した例や、改良の... 続きを読む

幻冬舎が記事をNFT化へ Web3.0系エンジニアとシステム開発

2022/09/05 このエントリーをはてなブックマークに追加 120 users Instapaper Pocket Tweet Facebook Share Evernote Clip NFT化 幻冬舎 システム開発 NECO JSON

幻冬舎は9月5日、記事をブロックチェーン上に保存するシステム「あたらしい経済 ON-CHAIN WEB APP(NECO)」を開発したと発表した。メディアの廃刊やサイバー攻撃があってもコンテンツデータが消えないとしている。 NFT(非代替性トークン)の発行時に、記事タイトルとサムネイル画像のURL、本文のテキストデータをjson... 続きを読む

明治期の本もテキスト化、国立国会図書館が特注OCRに込めた狙い

2022/05/16 このエントリーをはてなブックマークに追加 13 users Instapaper Pocket Tweet Facebook Share Evernote Clip NDL NDLOCR 国立国会図書館 明治期 テキスト化

「(古い資料の)本文検索ができるようになれば、新たな本の価値を届けられる」。国立国会図書館次世代システム開発研究室の徳原直子室長は力を込める。 国立国会図書館(NDL)は2022年4月25日、新たに開発した「NDLOCR」をオープンソースとして公開した。NDLOCRは、書籍や雑誌などの画像データから本文のテキストデータ... 続きを読む

西大寺本金光明最勝王経平安初期点の「ひまわり」用XMLを読み解く - kzhr's diary

2021/12/08 このエントリーをはてなブックマークに追加 10 users Instapaper Pocket Tweet Facebook Share Evernote Clip ひまわり XML 当初 国立国語研究所 完全版

国立国語研究所からこの11月30日に「西大寺本金光明最勝王経平安初期点」訓読文の「ひまわり」用XMLとテキストデータが公開されました。 www2.ninjal.ac.jp 今回は、そのXMLについて読み解いてみたいと思います。 (当初は書きかけで公開していました。これで完全版です。) 西大寺本金光明最勝王経平安初期点って? 西... 続きを読む

正規表現を用いる際のパフォーマンスチェックリスト - ヤドカリラボ

2020/03/06 このエントリーをはてなブックマークに追加 23 users Instapaper Pocket Tweet Facebook Share Evernote Clip 足かせ 分量 Python 正規表現 予測

Python で正規表現を書いて分析や機械学習のモデル構築、予測に活用する際には、正規表現実行時のパフォーマンスが足かせとなる場合があります。 正規表現の処理に用いられる実行時間がどのくらいになるかはテキストデータの分量や機械学習モデルの精度検証の実行回数に応じて変わってきます。 一つのテキストデータに対... 続きを読む

PDFからテキストを抽出するのはなぜ難しいのか? - GIGAZINE

2020/03/04 このエントリーをはてなブックマークに追加 14 users Instapaper Pocket Tweet Facebook Share Evernote Clip てき GIGAZINE テキスト抽出 PDFファイル PDF

PDFファイルは、どんな環境のPCでもテキストや画像の表示を崩すことなく見られるデータ形式です。しかし、PDFからテキストデータをコピーしようとすると、うまく選択できなかったり、テキストの内容がおかしくなってしまったりすることがあります。なぜPDFファイルからのテキスト抽出が難しいのかを、PDFファイルのテキ... 続きを読む

不均衡データ分類問題をDNNで解くときの under sampling + bagging 的なアプローチ - BASE開発チームブログ

2020/02/29 このエントリーをはてなブックマークに追加 11 users Instapaper Pocket Tweet Facebook Share Evernote Clip DNN モデリング 論文 PDF アプローチ

はじめに こんにちは、Data Strategy所属の岡です。グループ会社BASE BANKで分析/モデリングなども兼務しています。 テキストデータを特徴量にもつ不均衡データ分類問題をDNNで解きたくなった際、下記の論文を参考にしたのでその内容を紹介します。 https://users.cs.fiu.edu/~chens/PDF/ISM15.pdf 不均衡データ分類問題... 続きを読む

ちょっと面白いスクリプト!グラフやチャートを手書き風のラフな感じにするJavaScriptライブラリ -roughViz | コリス

2019/12/18 このエントリーをはてなブックマークに追加 17 users Instapaper Pocket Tweet Facebook Share Evernote Clip コリス Rough カンマ区切り スクリプト 度合い

手書きスタイルのグラフやチャートを簡単に作成できるJavaScriptライブラリを紹介します。手書きの度合いも調整でき、ちょとラフな感じ、雑な感じ、かなり雑な感じ、ぐちゃぐちゃな感じにもできます。 グラフやチャートに使用するデータは外部.csvファイルにも、カンマ区切りのテキストデータにも対応しています。 rough... 続きを読む

音声認識とは|最新技術や基礎知識・仕組み・現在の事例を解説 | Ledge.ai

2019/11/14 このエントリーをはてなブックマークに追加 18 users Instapaper Pocket Tweet Facebook Share Evernote Clip ディープラーニング 本稿 Ledge.ai 人工知能 定義

ディープラーニングの登場やスマートフォンへの搭載により、急速に普及したAI(人工知能)の技術に「音声認識」があります。本稿では、「音声認識」の定義から仕組み、事例、技術動向について詳しく解説します。 Photo by Kristin Baldeschwiler on Pixabay 音声認識とは、コンピュータにより音声データをテキストデータ... 続きを読む

音声認識AIで文字起こし「easy writer」正式サービス開始 | HON.jp News Blog

2019/08/01 このエントリーをはてなブックマークに追加 28 users Instapaper Pocket Tweet Facebook Share Evernote Clip 原稿 hon.jp 音声認識AI ツール 正式サービス

株式会社Books&Companyは8月1日、AI文章生成サービス「easy writer」の正式サービスを開始した。音声認識AIにより、音声データを簡単にテキストデータへ変換し、編集作業や確認も行えるツールとなっている。  easy writerは、同社代表の野村衛氏が編集者として2000人以上にインタビューし数多くの原稿を書いてきた経験... 続きを読む

[Python]機械学習などでテキストデータを特徴量にする際のソースコード集 | かものはしの分析ブログ

2019/06/23 このエントリーをはてなブックマークに追加 387 users Instapaper Pocket Tweet Facebook Share Evernote Clip パシ Python テキストマイニング 機械学習 GitHub

都内の事業会社で分析やWebマーケティングの仕事をしています。大学・大学院では経済学を通じて統計解析を行うなどしておりました。企業に勤めてからは、機械学習やテキストマイニング、クローリング技術などに関心を持っています。 Twitterアカウント Mr_Sakaue( SKUE ) GitHub 読書メーター ほしいものリスト テキスト... 続きを読む

全体の行数がわからないデータからランダムにN行取り出す - Qiita

2019/04/16 このエントリーをはてなブックマークに追加 23 users Instapaper Pocket Tweet Facebook Share Evernote Clip シャッフル Qiita メモリ ランダム N行

テキストデータからランダムにN行取り出す方法ですが、まず「シャッフルしてN行取り出す」というのがあります。 しかし、データが大きいとシャッフルにも大量のメモリが必要になるので、別の方法を考えたいところです。 ここで、全体の行数がわかっていれば簡単に書ける(後で書きます)ところですが、一度行数を調べて... 続きを読む

マイクロソフト、テキストデータをDNAに変換する装置を開発。将来はデータセンターをサイコロ大に - Engadget 日本版

2019/03/22 このエントリーをはてなブックマークに追加 58 users Instapaper Pocket Tweet Facebook Share Evernote Clip マイクロソフト DNA 手のひら 概念実証 装置

マイクロソフトが、ワシントン大学と共同でデジタルデータをDNAに変換・保存する初めての装置を開発しました。マイクロソフトは、この装置による概念実証がDNAストレージ技術を進歩させ、データセンター規模の情報を手のひらに乗るほどの大きさのDNAに記録できるようにしたいと考えています。 続きを読む

生TensorFlow七転八倒記(10):テキストデータをTF-Hubでfeature vectorに直してからt-SNEにかけてみる - 六本木で働くデータサイエンティストのブログ

2019/02/06 このエントリーをはてなブックマークに追加 14 users Instapaper Pocket Tweet Facebook Share Evernote Clip T-SNE 備忘録 六本木 データサイエンティスト 番外編

今回もただの備忘録ですが、どちらかというと番外編です。TensorFlow部分はあくまでもTF-Hubでテキストデータをfeature vectorに直すところまでのみで、そこから先は今まであまり試してこなかったt-SNE (t-distributed stochastic neighbor embedding)を使っています。 参考にした記事は以下の3点です。 ということで、... 続きを読む

ブラウザ上で複数のテキストをコピー可能になる拡張機能「Multicopy」を使ってみた - GIGAZINE

2019/01/14 このエントリーをはてなブックマークに追加 58 users Instapaper Pocket Tweet Facebook Share Evernote Clip ブラウジング GIGAZINE メモリ 一度 PC作業

テキストデータなどをPC上のメモリにコピーして任意に貼り付けることができるクリップボード機能は効率的なPC作業やブラウジングに不可欠ですが、一度にひとつしかコピーできず、新しくコピーすると前のデータは消えてしまうので、「さっきコピーしたテキストはどこのページにあったっけ」と探した経験がある人も多いは... 続きを読む

Dropboxにユーザーのすべての画像とPDFを自動的にOCRする機能が登場 | TechCrunch Japan

2018/10/10 このエントリーをはてなブックマークに追加 23 users Instapaper Pocket Tweet Facebook Share Evernote Clip Dropbox TechCrunch JAPAN PDF

Enterprise Dropboxに、一部のユーザーが待ち焦がれていたと思われる便利な機能がやってきた。それは画像やPDFファイル中の文字を自動的にテキストデータへ書き起こす光学式文字認識(optical character recognition/reader, OCR)機能だ。これからは、セーブした写真をかき回してレシートを探さなくてもよいし、目的の情... 続きを読む

 
(1 - 25 / 69件)