タグ OCR
人気順 5 users 50 users 100 users 500 users 1000 usersWASMでOCR使ってみた
これは SMat Advent Calendar 2024 の12/17分の記事です。 弊社では「SmartMat Cloud」というIoT重量計 x SaaSでモノの流れを可視化するサービスを提供しております。最近お客様がスムーズにオンボーディングできるように、スマホのweb appのプロトタイプを作っております。当時のスプリントのゴールは商品の初回登録の... 続きを読む
YomiToku で漫画のOCRを試す|npaka
「YomiToku」で漫画のOCRを試したのでまとめました。 1. YomiToku「YomiToku」は、ローカルサーバーで実行可能かつ、日本語文書に特化したOCRおよびドキュメント画像解析を行うPythonパッケージです。 2. Google Colabでの実行「Google Colab」での実行手順は、次のとおりです。 (1) パッケージのインストール。 # パッ... 続きを読む
日本語に特化したOCR、文書画像解析Pythonパッケージ「YomiToku」を公開しました|Kotaro.Kinoshita
はじめに最近、LLMへのRAGを用いた文書データの連携等を目的に海外を中心にOCRや文書画像解析技術に関連する新しいサービスが活発にリリースされています。 しかし、その多くは日本語をメインターゲットに開発されているわけではありません。日本語文書は、英数字に加えて、ひらがな、漢字、記号など数千種類の文字を識... 続きを読む
工数6割削減! 生成AIとOCRを組み合わせ、店舗毎に形式が異なるレストランメニューを読み取らせてみた - Tabelog Tech Blog
目次 目次 1. はじめに 2. プロジェクトの内容と成果 2.1. メニュー入稿業務の説明 2.2. 作業効率化のためのツール開発 2.3. 成果 3. メニュー抽出処理の詳細 3.1. OCR技術 3.2. 生成AIとOCRを組み合わせたメニューデータ抽出方法 3.3. ストリーミング対応 3.4. 斜め画像への対応 3.5. メニュー画像タイプごとの抽出精度... 続きを読む
OCRはもう不要?視覚的特徴とテキストを高精度に捉える!次世代マルチモーダルAI『MPLUG-DOCOWL2』登場! - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 株式会社ulusageの技術ブログ生成AIです!今回は、PDF解析とドキュメントインテリジェンスの最先端技術 「MPLUG-DOCOWL2」 について、解説していきます。このモデルは、高解像度の... 続きを読む
OCRでECに受注データを導入する4つの方法
OCR(Optical Character Recognition、光学文字認識)とは、紙や画像ファイルの文字をカメラやスキャンで読み取り、デジタルデータに変換する技術です。ECの受発注システムにOCR機能を実装してFAXや手書きなどの紙や画像からテキスト情報を抽出し、ECのデジタルデータとして取り扱えるようになります。 紙や画像の情報を... 続きを読む
帝国議会会議録検索システムで全期間の本文テキストデータが利用できるようになりました(付・プレスリリース)|国立国会図書館―National Diet Library
2024年8月23日 帝国議会会議録検索システムで全期間の本文テキストデータが利用できるようになりました(付・プレスリリース) 国立国会図書館は、帝国議会会議録検索システムにおいて、戦前・戦中期分(明治23(1890)年11月~昭和20(1945)年8月)の速記録の画像データ(合計約27万ページ)からOCR(光学的文字認識)... 続きを読む
GPT-4oをOCRとして使う - Re:ゼロから始めるML生活
OpenAIからChatGPT-4oが発表されましたが、皆さんガンガンつかっていますでしょうか? さて、このChatGPT-4oですが、テキスト以外のデータも使用できるようになっているという特徴があります。 普通にテキストでのやり取りをしつつも画像データを扱えるということで、「実はこれいい感じのOCRとして使えるんじゃね?」っ... 続きを読む
「Opera」が「Google Cloud」と提携、AIモデル「Gemini」を統合へ/AI機能「Aria」に画像を理解する力。被写体や撮影場所を調べたり、OCRとして機能
「OneNote」に統合された新しい「付箋」アプリ、すべてのユーザーが利用可能に/スクリーンショット、OCR(画像のテキスト認識)、ソースURLの自動追加などに対応
GPT-4oを使って2Dの図面から3DのCADモデルを作る
はじめに 株式会社ファースト・オートメーションCTOの田中(しろくま)です! 先日、 OpenAIからGPT-4oがリリース されました。 いろいろGPT-4oに関して調べていると、スピードが速くなっていたり、音声も直接扱えてマルチモーダル化が進んでいたりするようなのですが、画像に関して GPT-4-turboに比べ、認識やOCRの精度が... 続きを読む
無料&ブラウザ上でPDF・JPEG・PNG・GIFファイルからOCRによるテキスト抽出ができる「OCR PDFs and images directly in your browser」
PNG・JPEG・GIFといった画像ファイルやPDFファイルから、TesseractによるOCR(光学文字認識)でテキストを抽出できる「OCR PDFs and images directly in your browser」をエンジニアのサイモン・ウィルソン氏が公開しました。OCR PDFs and images directly in your browserはすべての処理をブラウザ上で実行するため、ファ... 続きを読む
GPT-4Vのモデルを利用してOCRできるか試してみた - Taste of Tech Topics
こんにちは、安部です。 気温の上下に翻弄されて最近風邪をひいてしまいましたが、皆さま元気にお過ごしでしょうか。 今回は、GPT-4Vのモデルを利用して、OCRができるか試していきます。 GPT-4Vによって、「ChatGPTに目ができた」などと騒がれましたが、文字認識はどれくらいできるのでしょうか? 得意分野ではなさそう... 続きを読む
GoogleがLLMで「非構造化文書」高精度テキスト抽出OCR『LMDX』発表。Bardを強化する可能性 | AIDB
ホーム AI論文紹介, OCR, 大規模言語モデル GoogleがLLMで「非構造化文書」高精度テキスト抽出OCR『LMDX』発表。Bardを強化する可能性 マイページに保存最終更新日:2023/09/28 Googleは、非構造化文書(例えばレシートなど)から高精度にテキストを抽出するOCR(Optical Character Recognition)技術『LMDX(Language M... 続きを読む
数式や文章がぐにゃぐにゃに曲がった論文PDFでもくっきり認識する画期的なOCR『Nougat』 | AIDB
マイページに保存最終更新日:2023/09/05 科学的知識は主に書籍や科学誌に保存されていますが、PDF形式が一般的です。しかし、この形式は特に数学的表現においてセマンティック情報の損失を引き起こします。この問題に対処するために、Meta AIの研究チームは『Nougat(Neural Optical Understanding for Academic Docume... 続きを読む
OCRは「マリオプラザーズ」の夢を見る | Colorful Pieces of Game
『ちょっとは正しいゲームの歴史』…というか、ともかく「ゲームの歴史」を批判するシリーズで困らされたのがOCRだった。 Kindle本からテキストで全部コピー出来ればいいのだけど、Kindleは出版社それぞれがコピーできる量を規制していて(当たり前だ)、それを超える量はコピーのしようがない。 そしていうまでもなく、... 続きを読む
アノテーションなのに手入力ゼロ!?バクラクのOCRを支えるアノテーション基盤(アプリケーション編) - LayerX エンジニアブログ
こんにちは、全ての経済活動をデジタル化したいTomoakiです。 バクラクのOCR バクラクでは請求書や領収書をはじめ、国税関係書類に対してOCRを実行し入力のサジェストを行うことで、ユーザーが書類の内容を手入力する手間を省いています。例えばこちらの領収書、日付、金額、支払先を自動で読み取ってユーザーにサジェス... 続きを読む
国立国会図書館 NDL on Twitter: "国立国会図書館は、令和3年度にオープンソースのOCR(光学式文字認識)処理プログラム #NDLOCR を開発し、GitHubでソースコードを公開しています。商用・非商用
国立国会図書館は、令和3年度にオープンソースのOCR(光学式文字認識)処理プログラム #NDLOCR を開発し、GitHubでソースコードを公開しています。商用・非商用を問わず自由な利用が可能です。 NDLOCRについては国立国会… https://t.co/lXcBvWDClj 続きを読む
OCRの精度を担保するテスト基盤アーキテクチャ - LayerX エンジニアブログ
こんにちは!LayerXバクラク事業部 OCRチーム ソフトウェアエンジニアの秋野(@akino_1027)です。 この記事では、バクラクシリーズの機能であるOCRのテスト基盤について紹介していきます。 ※本記事は LayerX Tech Advent Calendar 2022 11日目の記事となります。 背景 バクラクでは手入力ゼロを目指すべく、 OCR機能(... 続きを読む
機械学習でハタラクをバクラクにするために LayerX に入社しました #LayerX|yu-ya4|note
こんにちは、2022年9月1日に LayerX にフルタイムの機械学習エンジニアとして入社した松村 優也(@yu__ya4)と申します。バクラク事業部の AI-OCRチームに所属しています。チーム名の通り、請求書や領収書といった帳票の画像データを読み取り、人間が手入力せずとも必要な項目を自動で抽出してデータ化する OCR 機能の開発... 続きを読む
OCR処理プログラム及び学習用データセットの公開について | NDLラボ
2022年04月25日 NDLラボのGitHubから、次の2件を公開しました。ライセンスや詳細については、各リポジトリのREADMEをご参照ください。 NDLOCR 国立国会図書館(以下、「当館」とします。)が令和3年度に株式会社モルフォAIソリューションズに委託して実施したOCR処理プログラムの研究開発事業の成果である、日本語のOCR... 続きを読む
Pythonで始める ドキュメント・インテリジェンス入門 / Introduction to Document Intelligence with Python
Transcript PythonͰ࢝ΊΔ υΩϡϝϯτɾΠϯςϦδΣϯεೖ 2021/10/1 5 Ubieגࣜձࣾ @yag_ays 2 Ԟా ༟थ Yuki Okuda Recruit → Sansan → Ubie @yag_ays ࣗݾհ https://yag-ays.github.io/ © Ubie, Inc. 3 ຊൃදʹ͍ͭͯ • ֓ཁ • υΩϡϝϯτɾΠϯςϦδΣϯεͷ֓ཁͷհ • PythonΛͬͨ։ൃࣄྫΛ௨ͯ͡ɺඞཁͱͳΔٕज़ཁૉʹ͍ͭͯհ • ࣮ࡍͷαʔϏε։ൃʹऔΓΉʹ͋ͨͬͯͷɺൃలతͳؔ࿈τϐοΫΛհ • ରͱ͢Δਓ • OCRը૾ղੳΛͬͨΞϓϦέʔγϣϯΛ࡞Γ͍ͨ։ൃऀ • ը૾ॲཧࣗવݴޠॲཧͷ࣮αʔ... 続きを読む
画像の中の文字を認識してくれるオープンソースのOCR「PaddleOCR」レビュー - GIGAZINE
画像に含まれる文字をテキストデータ化する光学文字認識(OCR)は、請求書やレシート、名刺などの印刷物をデジタル化する手法として広く使われています。そんなOCRをディープラーニングフレームワークで実現したのが、オープンソースのOCRシステム「PP-OCRv2」のデモ版となる「PaddleOCR」です。 PaddleOCR - a Hugging Fa... 続きを読む
Windows 10の標準機能だけで画像からテキストを抽出する方法 | マイナビニュース
画像ファイルからテキストを抽出したい場合、何らかのOCR(光学式文字認識)ソフトウェアを利用するのが一般的だ。しかし、BetaNewsは1月6日(米国時間)、「Windows 10 has a secret way to grab text from images」において、特定のソフトウェアを使わずに、Windows 10に付属する標準機能だけでテキストの抽出を行う方法... 続きを読む
AIによる「超」軽量なOCR(文字認識)システムが登場【GitHub】 | アイブン
光学式文字認識(OCR)システムは、文書の電子化・工場での文字自動検出・オンライン教育・地図作成など幅広く使用されています。 BaiduのYuning Duらは、超軽量のOCRシステムであるPP-OCRを提案しています。 文字認識結果(図は論文から引用) PP-OCRはテキスト検出、検出フレーム修正などで構成されています。全体のサイ... 続きを読む