タグ 文書中
人気順 5 users 10 users 50 users 500 users 1000 usersご注意! プライバシーへの懸念の高まりを受けてAppleはデバイスIDにアクセスするアプリを拒絶し始めた
オンラインのプライバシー問題に関して議会がさらに厳しい視線を向ける中、Appleは今週からUDIDにアクセスするアプリを拒絶し始めた。UDIDというのはiPhoneとiPadに割り当てられた1台ごとに異なるデバイスIDだ。 6ヶ月以上前からAppleはこの点についてiOS関連の文書中で、将来UDIDを無効にする予定だとしてデベロッパーに注意を喚起していた。 しかしプライバシー問題について議会やメデ... 続きを読む
MinHashによる高速な類似検索 : Preferred Research
年が明けてもう一ヶ月経ちましたね.岡野原です.今日はMinHashと呼ばれる手法を紹介します.これは特徴ベクトルの高速な類似検索に利用することができます(クローラーの文脈だとShingleとして知られている).今や世の中のあらゆる種類のデータが,高次元のバイナリベクトルからなる特徴ベクトルで表されて処理されるようになってきました.例えば文書データであれば文書中に出現する単語やキーワードの出現情報を... 続きを読む
きまぐれ日記: キーワード抽出: tf-idf の意味づけ
単語の重み付けの古典的な方法に tf-idf があります。文書中の各単語の tf-idf 値計算し、値でソートすると、その文書に特徴的な単語リストを得ることができます。 http://nais.to/~yto/clog/2005-10-12-1.html tf-idf は、単なるヒューリスティックスだと考えられていましたが、最近言語モデルに基づく情報検索手法がさかんに研究されるようになり、tf*i... 続きを読む