タグ 正規表現マッチ
人気順 5 users 50 users 100 users 500 users 1000 users英文を一文ずつに分割してGoogle翻訳へ投げるAlfred Workflowを作った - ぽよメモ
これまでに作ったAlfred Workflow poyo.hatenablog.jp poyo.hatenablog.jp これまでに作ったAlfred Workflow これは何? 論文PDFの問題 環境 sentence-splitter 準備 使い方 注意点 一文ごとに分解する機能は単なる正規表現マッチとIFの羅列 ピリオドが無い場合は文字列分解できない. 意図的に混入されているハイフンを... 続きを読む
Go - Luceneで使われてるFSTを実装してみた(正規表現マッチ:VMアプローチへの招待) - Qiita
入力と出力のペアに対して,上のようなグラフを作るのが目標です.テーブルの出力のとこは数字が書いてありますが,文字列だと思ってとらえて下さい.map だと出力は1つに限られちゃいますが,ひとつの入力に対して出力が複数あってもいいです.たとえば入力 "feb" に対して,出力は "28" と "29" があります.(2月は28日と29日のときがありますね). ノードの部分が状態で,そこから出ている矢印... 続きを読む
Perlの m// は中身が固定文字列だと爆速になる - Islands in the byte stream
Perlの話題を日本語で – Lingr で出た話題です。Perlの正規表現マッチはパターンが単純だと index() とおなじく Boyer-Moorアルゴリズムで検索するので非常に高速です。要は最適化のつもりでパターンマッチをindex()に書き換えるのは無意味なのです。ソースは pp.c や regexec.c あたりを fbm_instr() で検索かな? ドキュメントもどこかで読んだ気が... 続きを読む
Ruby の invalid byte sequence in UTF-8 例外を encode("UTF-8", "UTF-8") で回避するのはおかしいよ、という話 : sonotsのblog
こんにちは @sonots です。 Ruby の invalid byte sequence in UTF-8 例外を encode("UTF-8", "UTF-8") で回避するのはおかしいよ、という話をします。 Ruby 1.9 でUTF-8的に正しくないバイト列がある文字列を扱っていると、正規表現マッチや gsub といったメソッドを使っているところで ArgumentError: inva... 続きを読む