タグ 文書データ
人気順 5 users 10 users 50 users 500 users 1000 users日本語に特化したOCR、文書画像解析Pythonパッケージ「YomiToku」を公開しました|Kotaro.Kinoshita
はじめに最近、LLMへのRAGを用いた文書データの連携等を目的に海外を中心にOCRや文書画像解析技術に関連する新しいサービスが活発にリリースされています。 しかし、その多くは日本語をメインターゲットに開発されているわけではありません。日本語文書は、英数字に加えて、ひらがな、漢字、記号など数千種類の文字を識... 続きを読む
霞ヶ関でパスワード付きzipファイルを廃止へ 平井デジタル相 - ITmedia NEWS
平井卓也デジタル改革担当相が中央省庁の職員が文書データの送信で使用するパスワード付きzipファイルを廃止する方針であると明らかにした。「デジタル改革アイデアボックス」の意見を採用した。 平井卓也デジタル改革担当相は11月17日の定例会見で、中央省庁の職員が文書などのデータをメールで送信する際に使うパスワ... 続きを読む
B'zの歌詞をPythonと機械学習で分析してみた 〜LDA編〜 - データサイエンティスト見習いの日常
1. 本Part概要 前PartではB'zの歌詞を「TF-IDF」を用いた分析を行いました。 本Partではトピックモデルの一つである「LDA」を用いた分析についてお話しします。 pira-nino.hatenablog.com 2. LDAとは 2.1 LDAのイメージ 先に簡単な説明をしてしまいます。 LDAは「たくさんの文書データから単語のグルーピングを行う」モ... 続きを読む
MinHashによる高速な類似検索 : Preferred Research
年が明けてもう一ヶ月経ちましたね.岡野原です.今日はMinHashと呼ばれる手法を紹介します.これは特徴ベクトルの高速な類似検索に利用することができます(クローラーの文脈だとShingleとして知られている).今や世の中のあらゆる種類のデータが,高次元のバイナリベクトルからなる特徴ベクトルで表されて処理されるようになってきました.例えば文書データであれば文書中に出現する単語やキーワードの出現情報を... 続きを読む