タグ ベクトル化
人気順 10 users 50 users 100 users 500 users 1000 users似た文書をベクトル検索で探し出したい ~SentenceTransformersとFaissで効率的にベクトル検索~
はじめに この記事では、ベクトル検索で似た文書を検索するコードを解説します。具体的には、Sentence Transformersライブラリを用いてベクトル化、Faissという近似最近傍探索ライブラリを用いて高速な検索を行います。 用語説明 ベクトル検索 ... 文書の検索にベクトルを使用する方法。例えば、文書に映画に関する内容... 続きを読む
新サービス「Tangolf」をはてラボでリリースしました - Hatelabo Developer Blog
本日、はてなスタッフ id:nakataki による新サービス「Tangolf」をはてラボにリリースしました。読み方は、「たんごるふ」です。 https://tangolf.hatelabo.jp/ Tangolfとは? Tangolfは、単語をベクトル化し、「意味を足し引き」して遊ぶゴルフゲームです。 表示されるお題に近い意味を持つ「4文字以内の読みの単語」を... 続きを読む
Rustで実装する乱数生成のベクトル化 - NTT Communications Engineers' Blog
この記事は、 NTT Communications Advent Calendar 2022 22日目の記事です。 はじめに こんにちは、イノベーションセンターの鈴ヶ嶺(@suzu_3_14159265)です。普段は、クラウド・ハイブリッドクラウド・エッジデバイスなどを利用したAI/MLシステムに関する業務に従事しています。 本日は、Rustでベクトル化された乱数生成... 続きを読む
flairを使って最速でNLPのベースラインモデルを作る - moriyamaのエンジニアリング備忘録
自然言語処理に限らず、機械学習関連のプロジェクトではスタート時は、なるべく複雑なコーディングをせずにシンプルなベースラインモデルを低コストで作成し、そこからデータの傾向やタスクの複雑さを把握することが重要です。 ところが自然言語処理では前処理のコストが高く、最低限でも単語分割、ベクトル化、深層学習... 続きを読む
たった一文でPandasのapplyメソッドを高速化する方法(検証計算あり) - Qiita
以下では、DaskやPandasなどと比較して、swifterがどの程度高速なのかを検証したいと思います。 swifterはベクトル化可能な場合とそうでない場合で挙動が異なるので、各々の場合を検証します。 使用したPCのスペックはIntel Core i5-8350U @1.70GHz、メモリが16GBです。 ベクトル化可能な場合 swifterはベクトル化可能な... 続きを読む
Pythonのfor文は遅い? - atsuoishimoto's diary
2018 - 01 - 06 Pythonのfor文は遅い? bicycle1885.hatenablog.com こちらの記事を拝見していて、ちょっと気になったので注釈。 Python やRを使っている人で、ある程度重い計算をする人達には半ば常識になっていることとして、いわゆる「for文を使ってはいけない。ベクトル化*1しろ。」という助言があります。 これは、 Python やRのような インタ... 続きを読む
協調フィルタリングで声優の流行を可視化する - Qiita
出演者が大勢いる声優イベントに参加すると、当然自分が知らない声優さんもいらっしゃいます。そんな時、出演者の立ち位置や評価を俯瞰できるといいなーと思うことがあったので、簡単に作ってみました。 大体以下のようなテーマで取り組みました。 ある声優がどのようなクラスタに属していて誰に支持されているのかがわかる その声優の流行がわかる 1.は声優とファンのインタラクションを利用して声優をベクトル化できればク... 続きを読む
MeCabをブーストさせよう - Qiita
はじめに MeCabとは日本語の形態素解析器をいいます。ここで、形態素というのは言語で意味を持つ最小単位のことです。分割された単語をベクトル化したり、各語彙の頻度を調べたりするために、最小単位に分割するモチベーションが生じます。 そもそもなぜ、形態素解析なんかやるの?っていう動機については、 http://qiita.com/Hironsan/items/2466fe0f344115aff177 ... 続きを読む
文章をベクトル化して類似文章の検索 - Qiita
Doc2Vecで類似文章を検索してみたので、実装を紹介します。 Doc2Vecとは コンピュータが自然言語を処理するためには、まず人間の言葉をコンピュータで扱える値にする必要があります。 単語の意味をベクトル化する手法として Word2Vec が存在します。 詳しくはリンク先がとてもわかりやすいのですが、ざっくり言うと前後n単語のリストでその単語を表現します。 こうすることで、例えば「犬」と「猫」... 続きを読む
クマのプーさん Mugcup Collection | アリュージョニストの推薦図書に僕が推薦したい人たち
「おまwアホかw」って感じでとんでもないこと言ってる人。脳みそ見てみたい人いっぱいいます。幻想再帰のアリュージョニストの推薦図書に僕が推薦したいそういう人たち並べる。個人的な印象つき。 ニーチェ ほとんど直感で書いてるっぽいのに未来人たちにたくさんヒントを与えた狂人。人間観察マニアなのを生かして人心と社会をベクトル化した。中二病的なカッコいい言い回しを多用する。 フロイト インテリで敬虔なおっさん... 続きを読む
言語処理のための機械学習入門
言語処理のための機械学習入門 2.4 文書に対する前処理とデータスパースネス問題 2.5 単語のベクトル表現 2.6 文書や単語の確率分布による表現 河野和平 ストップワード • 話題の種類と関連性を持たない単語 – the,is,haveなどはどんな文書にでも出現する。 • 文書のクラスタリングなどの場合 – ストップワードに関する情報は重要でない。 – ストップワードを削除してベクトル化を行... 続きを読む
Jubatus Blog: プラグインの作り方
海野です。今日はJubatusのプラグインの作り方を解説します。一般的な機械学習ライブラリではベクトル化したデータしか受け付けないものが多いです。 しかし、実際にライブラリを利用してみるとわかるのですが、生データからベクトルへの変換は意外と面倒です。 その割には、典型的な変換方法はそれほど種類があるわけでもありません。 また、特徴変換がパフォーマンス上クリティカルになることがあります。そこでJub... 続きを読む