タグ 類似度
人気順 5 users 50 users 100 users 500 users 1000 users数字300桁を適当に言う→数列から96%以上で誰が言ったか特定 数列には個人の「クセ」が現れる
115人の参加者を対象に、1~9までの数字を使って300桁のランダムな数列を2回生成してもらう実験を行った。参加者には、数字の出現頻度ができるだけ均等になるよう意識しながら、なるべく予測不能な数列を生成するよう求めた。 そして、2つの数列の類似度を定量化する独自の手法を用いて分析したところ、わずか300桁の数... 続きを読む
OpenAIのEmbeddings APIを使って文の意味上の類似度を計算
はじめに おはようございます。こんにちは。こんばんは。 GMOアドマーケティングのY-Kです。 前にBERTを使って文をベクトルに変換してからなんやかんやする記事を書いてから約半年が経過したのですが、その間にChatGPTが大きく流行り、言語生成系AIに大きな風が吹きました。 というわけで今回は、OpenAIのEmbeddings API... 続きを読む
ヤフコメ、上位に多様な意見を表示する独自AI導入 エコーチェンバー現象の軽減に期待
ヤフーは4月18日、「Yahoo!ニュース」のコメント欄(通称:ヤフコメ)により多様な意見が上位に表示されやすくなる独自AI「コメント多様化モデル」を導入すると発表した。コメント欄の「おすすめ順」表示に適用する。 各コメントを内容を分析し、類似度によってグループ分け。各グループから抽出した代表的なコメントを... 続きを読む
「一番厨ニ臭いホトトギス詠んだ奴優勝」の中で元ネタと類似度が高い奴優勝 - Qiita
概要 だいぶ前に「一番厨ニ臭いホトトギス詠んだ奴優勝1」というネタがありまして。 哭かぬなら 虚無に誘え(いざなえ) 時鳥(ホトトギス) とか 哭け 我が漆黒の刄 炎斗闘斬(ホトトギス) みたいなやつです。 どの作品も好きなんですが、この手のって元ネタとあまりかけ離れすぎていてもダメで、元ネタと似た形や意味を保ち... 続きを読む
scikit-learn-contrib の Metric Learning を試す - u++の備忘録
Metric Learning について Metric Learning は、データの教師情報を基にデータ間の距離や類似度などの Metric を学習する手法です。日本語で手軽に読める記事だと、*1, *2 などが詳しいです。 このたび、phalanx さんの tweet *3で、 Metric Learning の基礎的なアルゴリズムのいくつかが scikit-learn-contrib *4に搭載... 続きを読む
BERTは本当に人間を超えているのか?自然言語処理の実態と本当の活用方法 | 人工知能ニュースメディア AINOW
Google AI Languageチームが2018年10月に発表した自然言語処理のモデル「BERT」は、質疑応答や自然言語推論といったさまざまな自然言語処理のタスクにおいて先行する言語モデルを凌駕する性能を実現しました。 国内では、2019年2月にチャットボットシステムを展開する株式会社サイシードが、「BERT」を文章の類似度を算... 続きを読む
類似画像検索のための、Pythonを使った近似最近傍探索【入門】
今回はAnnoyというライブラリを使って、Pythonで簡単に近似最近傍探索を行う方法について説明します。 近似最近傍探索は類似画像検索などに用いられる技術です。 類似画像検索は「特徴量抽出」と「特徴量の類似度計算」を組み合わせることで実現されます。CNNなどを使って得られた得られた特徴量を元に、特徴量の類似度... 続きを読む
機械学習初心者向け、Word2VecとDoc2Vecでディープラーニングやってみた - paiza開発日誌
2017 - 03 - 16 機械学習初心者向け、Word2VecとDoc2Vecでディープラーニングやってみた 機械学習 秋山です。 機械学習 が人気ですが、「Word2Vec」「Doc2Vec」という、文章などを分析する ニューラルネットワーク モデルを知っていますか? すごーく簡単に言うと、「Word2Vec」は単語の類似度のベクトル、「Doc2Vec」は文章の類似度のベクトルを表現します。... 続きを読む
PostgreSQL Deep Dive: コサイン類似度に基づくソート処理の実装方法とその性能比較
文書の類似度を計算する方法に「コサイン類似度」を用いる方法があります。 これは、出現する単語を出現回数などで数値化して、空間ベクトルに変換した上でベクトル同士の類似度を計算する、という手法です。 コサイン類似度 http://www.cse.kyoto-su.ac.jp/~g0846020/keywords/cosinSimilarity.html 最近、このコサイン類似度を使って、似ているデータ... 続きを読む
LDA - 実況タイムラインとトピックモデルでプリキュアのエピソード間の類似度計算できるかな - Qiita
本記事は プリキュアAdvent Calendar 2015 の18日目の記事です。なお本日は12/19ですがプリキュアを愛する皆さんなら海より広い心で許してくれるって私、信じてる! Introduction あのアニメの、あの話とあの話の類似度が計算したい、あるいは類似する話同士でクラスタリングをしたい。そういう時どういう手段があるでしょうか。 一つの手法として、Twitterの実況タイムライン... 続きを読む
Gyazo、かすかな記憶を頼りに画像を探せる連想検索「Ivy Search」 MAUは1000万人突破 | TechCrunch Japan
フォルダやファイル名をつけて画像を管理している人にとって、「あの画像どこだっけ?」というのはよくある話だ。画像にタグを付けてあとで検索すればいいという人も、そもそものタグを思い出せないこともある。そんな問題を解決する検索機能を、スクリーンショットツール「Gyazo」が発表した。6月29日以降、有料ユーザーに対して順次公開。その後は無料ユーザーも利用できるようにする。 画像の類似度を自動算出→似てい... 続きを読む
2枚の顔写真から「類似度」を計算できるマイクロソフトの新ツール « WIRED.jp
TEXT BY KATIE COLLINS IMAGES COURTESY OF MICROSOFT/SCREENSHOT TRANSLATION BY RYO OGATA, HIROKO GOHARA/GALILEO WIRED NEWS(UK) 結果は67%。 マイクロソフトは数週間前、写真から人の年齢と性別を推測する顔分析ツール「HOW OLD DO I LOOK?」を発表した。その結果に、... 続きを読む
「関連する○○」機能を手軽に実現できる。そう、Elasticsearch ならね。 - クックパッド開発者ブログ
2014-09-24 「関連する○○」機能を手軽に実現できる。そう、Elasticsearch ならね。 セコン (id:secondlife, @hotchpotch) です。ウェブサービスにはよく「このエントリーに関連するブログ記事」や「このレシピに関連するレシピ」という機能が実現されてますよね。さて、この機能はどのように実現すれば良いでしょうか。例えば tf-idf で単語の類似度を求め…と... 続きを読む
Trigram という gem を作りました - milk1000cc's blog
2 つの文字列の類似度を計算する Trigram という gem を作りました。 https://github.com/milk1000cc/trigram Trigram.compare 'he is genius', 'he is genius' # => 1 Trigram.compare 'he is genius', 'he is very genius' # => 0.5625 Tri... 続きを読む
情報が集まる「界隈」を見つけ出せ!同ジャンルのサイトを探すテクニック5選 :教えて君.net
検索エンジンやソーシャルサービスなど、新しい情報を運んで来てくれるサービスは発達しているが、今見ているサイトと関連性の深いサイトを探すとなると、既存のサービスではなかなか難しい。 そんなときや役立つのが、類似サイトをピックアップしてくれるサービスやツールだ。タグやユーザー評価により、類似度を数値化して、似ている順に表示してくれるので、高い精度で関連性の高いサイトを見つけ出すことができる。特に、複数... 続きを読む
「フランス語とイタリア語の語彙は方言程度の違いしかないらしい」海外の反応|暇は無味無臭の劇薬
Comment by bewbie 今日学んだこと フランス語とイタリア語の語彙の類似度は0.89ある。 なお一般的に類似度が0.85以上あればその言語は方言だと考えられている。 <各言語の語彙の類似係数> Indo-European languages reddit.com/r/todayilearned/comments/11b0fg/til_french_and_italian_have_a... 続きを読む
アップルとサムスンの方針の違いが一発で見て分かる画像 - GIGAZINE
AppleとSamsungといえば、スマートフォンやタブレット市場で特許訴訟を起こしたり起こされたり殴ったり殴られたりして何がなんだかわけがわからないことになっており、互いに互いをパクリだと罵り合う仲となっていますが、個別製品の類似度はあるものの、両社の方針の差は露骨です。 Coffee Time: Market Share vs Profit - journal - minimally mini... 続きを読む
The YouTube video recommendation system (Recsys 2010) 読んだメモ - 糞ネット弁慶
The YouTube video recommendation system 概要youtubeにおける動画推薦の話.アルゴリズムを一言で表現すると,協調フィルタリングではなく,動画をノード,類似度をエッジに持つ重み付き無向グラフにおける幅優先探索みたいな感じ. 関連論文読んでないけどVideo suggestion and discovery for youtube 目的ユーザにビデオを推薦す... 続きを読む
自然言語処理における類似度学習(機械学習における距離学習)について - 生駒日記
Twitter でグラフ理論に関する話題が上がっていたので、最近調べている距離学習(distance metric learning)について少しまとめてみる。カーネルとか距離(類似度)とかを学習するという話(カーネルというのは2点間の近さを測る関数だと思ってもらえれば)。この分野では Liu Yang によるA comprehensive survey on distance metric le... 続きを読む
livedoor Developers Blog:String::Trigram でテキストの類似度を測る - livedoor Blog(ブログ)
こんにちは。検索グループ解析チームの nabokov7 です。 今回は、livedoor キーワードでの事例より、テキストの類似度を測るのに便利な手法を紹介します。 livedoor キーワードは、livedoor ブログでその日その日で話題になった語をランキング表示するサービスです。 当初、はてなキーワードやWikipediaを足して2で割ったようなサービスを作れといった開き直った指示のもとで開... 続きを読む
10GBのテキストを1秒で検索できる検索エンジン「QuickSolution 4.1」
東京ビッグサイトで7月1日まで開催中の「第14回ソフトウェア開発環境展」で、住友電工情報システムが類似情報検索エンジン「QuickSolution 4.1」をデモンストレーションしている。 QuickSolutionでは、入力された文章をN文字の文字列として区切る「N-gram方式」で検索キーワードやフレーズを区切り、文字列と検索対象のファイルとの類似度を計算することで自然文検索を実現した。検索... 続きを読む