タグ 正規化
人気順 5 users 10 users 100 users 500 users 1000 usersとにかく日本の住所のヤバさをもっと知るべきだと思います|inuro
「住所の揺らぎ程度のことにAIを使いたいだとかデジタル音痴」だの「住所の正規化なんてExcelで2時間あれば作れそう」だの、たいへんフットワークの軽やかな言説の数々に、位置情報界隈のみならず住所の正規化や名寄せに少しでも関わったことのあるエンジニアが総立ちでマサカリを投げていたのも記憶に新しい今日この頃... 続きを読む
住所の正規化は沼である。
杉原航太 @kota_sugihara 河野太郎がマイナンバーカードの住所照合についてデジタル音痴ぶりを如何なく発揮した件 河野大臣『問題は住所が「港区赤坂一丁目2の3」と書く人もいれば、「港区赤坂1-2-3」と書く人もいる…(中略)将来的にはAIの技術を使って表記揺れを判断することがあり得るかもしれない。』… twitter.com/... 続きを読む
日本の住所の正規化に本気で取り組んでみたら大変すぎて鼻血が出た。 - Qiita
先日、弊社では Community Geocoder というサービスをリリースしました。 Community Geocoder 紹介記事 さて、このジオコーダーは、住所を正規化してそれを「大字町丁目コード」という12桁の数字に変換し、そのコードをファイル名として GitHub ページ上に大量においた JSON ファイルにアクセスして緯度経度を取得すると... 続きを読む
経産省発の npm モジュール!住所や電話番号の正規化、ジオコーディングなどができる IMI コンポーネントツールを試した! - Geolonia developer's blog
Photo by Luiz Centenaro on Unsplash Code for Japan の関さんが SNS でシェアしてて知ったのですが、経産省さんがなにやらオープンソースで住所や電話番号の正規化などなどをするツールを公開したとのこと。 https://info.gbiz.go.jp/tools/imi_tools/ 経産省が住所変換や法人種別名、電話番号の正規化に使えるIMIコン... 続きを読む
文字コード再入門 ─ Unicodeでのサロゲートペア、結合文字、正規化、書記素クラスタを理解しよう! - エンジニアHub|若手Webエンジニアのキャリアを考える!
ソフトウェア開発に携わる方の多くは、何らかの形で文字コードに触れることがあるでしょう。文字や記号をコンピュータ上でデータとして扱うには、文字コードの知識が必要不可欠です。 本稿では、書籍『プログラマのための文字コード技術入門』の著者である矢野啓介さんが、知っておきたい基礎知識を分かりやすく解説しま... 続きを読む
アンチパターンから学ぶ RDBの正しい設計 / learn-from-failure-2 - Speaker Deck
■PHPerKaigi 2019の登壇資料です - https://phperkaigi.jp/2019/ - https://fortee.jp/phperkaigi-2019/proposal/328896eb-c084-41c9-847f-f0512a538811 ■前作 - 失敗から学ぶ、RDBの正規化の話 - https://soudai.hatenablog.com/entry/learn-from-failure-1 続きを読む
機械学習で株価予測~scikit-learnで株価予測④:世界の主要指数の追加~ │ 似非ITエンジニアからの脱却
機械学習で株価を予測することに挑戦していきます。今回は世界の主要指数を説明変数に加え、精度を改善できるかを確認します。 関連記事 機械学習で株価予測~scikit-learnで株価予測①~ 機械学習で株価予測~scikit-learnで株価予測②:特徴量選択とデータの標準化、正規化~ 機械学習で株価予測~scikit-learnで株価予... 続きを読む
機械学習で株価予測~scikit-learnで株価予測②:特徴量選択とデータの標準化、正規化~ │ 似非ITエンジニアからの脱却
機械学習で株価を予測することに挑戦していきます。前回に引き続き、scikit-learnで過去の株価データを基に学習し、株価予測を行います。今回は特徴量選択とデータの標準化、正規化を実践します。 前回:機械学習で株価予測~scikit-learnで株価予測①~ 環境 OS:Windows10 Python:3.6.5 sklearn:0.19.2 概要 目標 様々... 続きを読む
Encoder-Decoder でレシピの材料名を正規化する - クックパッド開発者ブログ
2017 - 10 - 30 Encoder-Decoder でレシピの材料名を正規化する 研究開発部の原島です。部のマネージメントのかたわら、自然言語処理関連の開発に従事しています。本エントリでは、最近社内で開発した自然言語処理システムを紹介します。 ■ 「しょうゆ」のバリエーションは 100 種類以上 クックパッドで以前から解決したかった課題の一つに材料の名前(以下、材料名)の正規化があります... 続きを読む
Electronを使ってMac向けのアプリを開発する時のファイル名の扱いについて (所謂UTF-8-MAC問題) - Qiita
以前Nodeで作っていたものをElectronで作り直していて、同じ問題にまたハマったので書いておく。 所謂、UTF-8-MAC問題である。もう遥か昔にNodeでハマった時の記事がある。 node.jsでUTF-8-MACを扱う - joker1007の日記 Macのファイルシステムはファイル名に対してNFDとかいう正規化を行っていて、ファイルシステムにアクセスする時に勝手に変換しやがる仕組みにな... 続きを読む
食べログのレビュー点数を正規化する Chrome Extension - Tatsuhiko Miyagawa's blog
A weblog about Programming, Tech, gadgets, Japan and San Francisco. Tabelog is well known for its score system very crowded between 3.1 and 3.5. Most restaurants over 4 stars (or even 3.5) are excepti... 続きを読む
Swiftでの文字列比較におけるUnicode正規化を巡る注意点 - Qiita
Stringの比較は正規化をかけた上で行われる Swiftの文字列比較は,Unicode正規化をかけた上で行われます。 たとえば,次の例をご覧ください。 let gaC = "\u{304C}" // 「が」の結合形 let gaD = "\u{304B}\u{3099}" // 「が」の分解形 // NSString としての文字数(UTF16での文字数)は異なる (gaC as NSStrin... 続きを読む
∞-gram を使った短文言語判定
∞-gram を使った短文言語判定 - Presentation Transcript ∞-gram による短文言語判定 2011/11/23 TokyoNLP #8 中谷 秀洋@サイボウズ・ラボ @shuyo / id:n_shuyo アジェンダ• 言語判定• 極大部分文字列• 実装• コーパス作りと正規化• 評価 言語判定 これ何語?• Ik kan er nooit tegen als me... 続きを読む
開発メモ: UTF-8とUCS-4の変換メモ
UTF-8とUCS-4の相互変換をC/C++で書いた時のメモ。たぶんまた自分で読むので。 背景 文字のちょっとした正規化などの処理をしたいがiconvやICUなどの巨大なライブラリは使いたくないということがたまにある。嚴密な文字列処理をしたい場合にはそれらのライブラリを使った方が安全だし確実であることは言うまでもないが、ちょっとしたユーティリティを作るのにはちょっとオーバースペックである。 一方で... 続きを読む
「DBを正規化すると遅くなる」は誤解,実証実験の結果が公開に:IT Pro
データ・モデリングの普及団体,DOA+コンソーシアムはこのほど,リレーショナル・データベース管理システム(RDBMS)の処理性能に関する実証試験を行い,調査結果を公開した。「データを正規化してデータベースに実装すると,処理性能が低下する」という“誤解”を正すため,実証実験を行ったという。 データを正規化して実装したときと,非正規化して実装したときの処理性能の違いを調べた結果,「正規化して実装したデ... 続きを読む