タグ 文書データ
人気順 10 users 50 users 100 users 500 users 1000 users日本語に特化したOCR、文書画像解析Pythonパッケージ「YomiToku」を公開しました|Kotaro.Kinoshita
はじめに最近、LLMへのRAGを用いた文書データの連携等を目的に海外を中心にOCRや文書画像解析技術に関連する新しいサービスが活発にリリースされています。 しかし、その多くは日本語をメインターゲットに開発されているわけではありません。日本語文書は、英数字に加えて、ひらがな、漢字、記号など数千種類の文字を識... 続きを読む
LLMを利用したRAG(Retrieval Augmented Generation)と著作権侵害|知的財産・IT・人工知能・ベンチャービジネスの法律相談なら【STORIA法律事務所】
1 はじめに 近時、LLMを利用し、社内外の文書データを用いた精度の高いチャットボットを構築するために、RAG(Retrieval Augmented Generation)という手法が注目されています。 LLMをそのまま利用してチャットボットの構築を行うと、通常、LLMが学習したときのデータに含まれている内容以外に関する質問には回答ができ... 続きを読む
ノーコードで文章のカテゴリを分類するAIを作成できる無料サイト | Ledge.ai
株式会社ユーザーローカルは2021年1月8日から、「ユーザーローカル テキスト自動分類AI」を無償提供した。Webブラウザから文書データを入力すると、すぐに人工知能(AI)が自動でどのカテゴリにマッチしているかを判定し、レーダーチャートで可視化できる。 「ニュース分類」 「感情分類」 あらかじめ利用できるAIとして... 続きを読む
霞ヶ関でパスワード付きzipファイルを廃止へ 平井デジタル相 - ITmedia NEWS
平井卓也デジタル改革担当相が中央省庁の職員が文書データの送信で使用するパスワード付きzipファイルを廃止する方針であると明らかにした。「デジタル改革アイデアボックス」の意見を採用した。 平井卓也デジタル改革担当相は11月17日の定例会見で、中央省庁の職員が文書などのデータをメールで送信する際に使うパスワ... 続きを読む
B'zの歌詞をPythonと機械学習で分析してみた 〜LDA編〜 - データサイエンティスト見習いの日常
1. 本Part概要 前PartではB'zの歌詞を「TF-IDF」を用いた分析を行いました。 本Partではトピックモデルの一つである「LDA」を用いた分析についてお話しします。 pira-nino.hatenablog.com 2. LDAとは 2.1 LDAのイメージ 先に簡単な説明をしてしまいます。 LDAは「たくさんの文書データから単語のグルーピングを行う」モ... 続きを読む
CIAがUFOについての「Xファイル」を公式サイトで公開、ダウンロード可能に - GIGAZINE
宇宙人を乗せて飛来すると言われる未確認飛行物体「 UFO 」は今も昔も世界中の人々の関心を集めているわけですが、アメリカのCIA(中央情報局)は1940年代から1950年代にかけて調査が行われたUFOに関する文書を公開しました。CIA自らが「 Xファイル 」と呼ぶ文書データは、CIAのサイトで公開されて誰でもダウンロードして読めるようになっています。 Take a Peek Into Our “X... 続きを読む
北朝鮮のエリート工作員を逮捕 : 2chコピペ保存道場
北朝鮮のエリート工作員を逮捕 591 名前:名無し三等兵[sage] 投稿日:2013/01/11(金) 13:22:02.05 ID:??? 日本で生まれ育った男の裏の顔は、スパイ映画さながらに暗号を操る北朝鮮のエリート工作員だった。 大阪府警が10日、北の工作員と断定した兵庫県尼崎市の運送会社社長、吉田誠一容疑者(42)。 押収パソコンからは文書データを画像データ に変換する北仕様の特殊暗号化... 続きを読む
北朝鮮スパイの運送会社社長、映画さながら暗号駆使 - MSN産経ニュース
日本で生まれ育った男の裏の顔は、スパイ映画さながらに暗号を操る北朝鮮のエリート工作員だった。大阪府警が10日、北の工作員と断定した兵庫県尼崎市の運送会社社長、吉田誠一容疑者(42)。押収パソコンからは文書データを画像データに変換する北仕様の特殊暗号化ソフトも見つかり、北スパイが暗躍する実態が生々しく浮かんだ。 平壌は「父」、北京は「母」、防衛省は「京都大」、自衛隊は「大阪大」…。吉田容疑者が北の軍... 続きを読む
MinHashによる高速な類似検索 : Preferred Research
年が明けてもう一ヶ月経ちましたね.岡野原です.今日はMinHashと呼ばれる手法を紹介します.これは特徴ベクトルの高速な類似検索に利用することができます(クローラーの文脈だとShingleとして知られている).今や世の中のあらゆる種類のデータが,高次元のバイナリベクトルからなる特徴ベクトルで表されて処理されるようになってきました.例えば文書データであれば文書中に出現する単語やキーワードの出現情報を... 続きを読む
Passion For The Future: フリーの高機能画像認識 SmartOCR Lite
フリーの高機能画像認識 SmartOCR Lite スポンサード リンク ・SmartOCR Lite http://www.smartread.biz/index.htm フリーソフトでは珍しい高機能な画像認識ソフト(OCR)。スキャナで読み取った文書データや、デジカメの画像、Web上の画像ファイルなどから、文字列を自動検出し、テキストデータとして抽出することができる。ルビや表組など複雑な背景も... 続きを読む