タグ 特徴量
新着順 10 users 50 users 100 users 500 users 1000 users大規模言語モデルは、絵文字の分散表現をどう見るか - YANS2023ブース展示|セコン / @hotchpotch
くふうカンパニーの舘野(@hotchpotch)です。先日行われたYANS2023にスポンサー企業として参加し、ブースで「大規模言語モデルは絵文字の分散表現をどう見るか」という展示を行いました。 Webブラウザー上で、絵文字の分散表現(特徴量)を使ってインタラクティブにぐりぐり動かしながら、色々な視点から絵文字を見ることが... 続きを読む
機械学習やレコメンドでよく見る「特徴量」の本質とは――「行列分解」の基本を図版とPythonコードで理解する:「AI」エンジニアになるための「基礎数学」再入門(14) - @IT
機械学習やレコメンドでよく見る「特徴量」の本質とは――「行列分解」の基本を図版とPythonコードで理解する:「AI」エンジニアになるための「基礎数学」再入門(14) AIに欠かせない数学を、プログラミング言語Pythonを使って高校生の学習範囲から学び直す連載。今回は行列の計算分解について、図版とPythonコードを交え... 続きを読む
特徴量エンジニアリングのライブラリ xfeat を使ってみて便利だったこと - Taste of Tech Topics
こんにちは。機械学習エンジニアをしている古賀です。 最近は愉快な上司@tereka114 のもと、精度の上がらないモデルに四苦八苦しています。 そんな私が普段データ分析をする際に難しいことの一つとして、特徴量エンジニアリングがあります。 特徴量エンジニアリングとは、元のデータに新たな特徴量を追加することでモデ... 続きを読む
Python: Null Importance を使った特徴量選択について - CUBE SUGAR CONTAINER
今回は特徴量選択 (Feature Selection) の手法のひとつとして使われることのある Null Importance を試してみる。 Null Importance というのは、目的変数をシャッフルして意味がなくなった状態で学習させたモデルから得られる特徴量の重要度を指す。 では、それを使ってどのように特徴量選択をするかというと、シャッフ... 続きを読む
世界初!教師データなしで高次元データの特徴を正確に獲得できるAI技術を開発 : 富士通
English PRESS RELEASE (技術) 2020年7月13日 株式会社富士通研究所 世界初!教師データなしで高次元データの特徴を正確に獲得できるAI技術を開発 様々なAI技術の判断精度向上に貢献 株式会社富士通研究所(注1)は、AIによる検知・判断における精度向上に向け、高次元データの分布・確率などの本質的な特徴量を正確に... 続きを読む
Feature Importanceって結局何なの?|Yotaro Katayama|note
この記事の目的GBDT(Gradient Boosting Decesion Tree)のような、決定木をアンサンブルする手法において、特徴量の重要性を定量化し、特徴量選択などに用いられる”Feature Importance”という値があります。 本記事では、この値が実際にはどういう計算で出力されているのかについて、コードと手計算を通じて納得すること... 続きを読む
次元の呪い(Curse of dimensionality)とは?:AI・機械学習の用語辞典 - @IT
用語「次元の呪い」について説明。特徴量などの次元が多くなるほど、必要な訓練データの量が「指数関数」的に増えてしまう現象を指す。 連載目次 用語解説 次元の呪い(Curse of dimensionality)とは、次元(=ニューラルネットワークで言うと入力データとなる特徴量)の数が増えるほど、正確に一般化する(=高い精度... 続きを読む
不均衡データ分類問題をDNNで解くときの under sampling + bagging 的なアプローチ - BASE開発チームブログ
はじめに こんにちは、Data Strategy所属の岡です。グループ会社BASE BANKで分析/モデリングなども兼務しています。 テキストデータを特徴量にもつ不均衡データ分類問題をDNNで解きたくなった際、下記の論文を参考にしたのでその内容を紹介します。 https://users.cs.fiu.edu/~chens/PDF/ISM15.pdf 不均衡データ分類問題... 続きを読む
Pytorchでモデル構築するとき、torchsummaryがマジ使える件について - Qiita
はじめに 自分でモデルを構築していて、私はいつも全結合層につなぐ前に「あれ、インプットの特徴量っていくつだ?」ってなります。よくprint(model)と打つとモデルの構造は理解できるが、FeatureMapのサイズまでは確認出来ません。そこで便利なのがtorchsummaryというものです。 torchsummaryは何者か? 簡単に言うと、特... 続きを読む
開発効率とサービス競争力を上げる 機械学習のために整備した「3種類の特徴量」について解説 - ログミーTech
開発効率とサービス競争力を上げる 機械学習のために整備した「3種類の特徴量」について解説 Feature as a Service at Data Labs #2/2 2019年11月20、21日、LINE株式会社が主催するエンジニア向け技術カンファレンス「LINE DEVELOPER DAY 2019」が開催されました。20日は「Engineering」をテーマに技術的な内容のセッシ... 続きを読む
実践データサイエンス─サンプルコードと図表で学ぶ、前処理・モデル評価・パラメータチューニング - エンジニアHub|若手Webエンジニアのキャリアを考える!
データサイエンティストとしてのスキルを向上させるには、データの前処理や特徴量の作成、モデルの評価・訓練、ハイパーパラメータの調整など、広域にわたる知識を身に付ける必要があります。 この記事は、そうした知識を「サンプルコードと図表を見ながら、分かりやすく学習できること」を目指して作成されました。記事... 続きを読む
CycleGANで効果を発揮!画像の構造を抽出する特徴量"MIND"を実装してみる - エムスリーテックブログ
初めまして!2019年8月中旬からエムスリー エンジニアリングG AIチームで10日間インターンに参加した三澤です。インターンでは「CycleGANを用いてモダリティ(CT, MRI, PETなどの画像撮影装置)の違う画像の変換に関する手法」に関する論文について、Surveyと実装をしました。CycleGANというのは「夏の風景画と冬の風景画... 続きを読む
NEC、ディープラーニングに必要な学習データを半減、中間層で得られる特徴量を意図的に変化 | IT Leaders
IT Leaders トップ > テクノロジー一覧 > AI > 市場動向 > NEC、ディープラーニングに必要な学習データを半減、中間層で得られる特徴量を意図的に変化 AI AI記事一覧へ [市場動向] NEC、ディープラーニングに必要な学習データを半減、中間層で得られる特徴量を意図的に変化 2019年8月19日(月)日川 佳三(IT Leaders... 続きを読む
特徴量重要度にバイアスが生じる状況ご存知ですか? - 学習する天然ニューラルネット
なぜこの記事を書いたのか? 決定木をベースにしたアルゴリズムのほとんどに特徴量重要度という指標が存在する。データに対する知識が少ない場合はこの指標を見て特徴量に対する洞察深めることができる。KaggleではEDAのときにとりあえず重要度を見てみるなんてこともするようだ。 しかし、この特徴量重要度にはバイアス... 続きを読む
[Python]機械学習などでテキストデータを特徴量にする際のソースコード集 | かものはしの分析ブログ
都内の事業会社で分析やWebマーケティングの仕事をしています。大学・大学院では経済学を通じて統計解析を行うなどしておりました。企業に勤めてからは、機械学習やテキストマイニング、クローリング技術などに関心を持っています。 Twitterアカウント Mr_Sakaue( SKUE ) GitHub 読書メーター ほしいものリスト テキスト... 続きを読む
小説家になろうを機械学習でデータ分析してブックマーク10以上を獲得しやすい条件を探す - Qiita
はじめに これを書いてる人の機械学習・データ分析のスキルはpythonの拡張子が.pyであることを知ってから10日目ぐらい、「決定木」「最小二乗法」「特徴量」「RMSE」といった単語を初めて見てから7日目ぐらいといったレベルです。なのでより良い方法がある場合や、分析の途中間違っている箇所などがあればコメント欄等で... 続きを読む
Python: RFE (Recursive Feature Elimination) で特徴量を選択してみる - CUBE SUGAR CONTAINER
今回は RFE (Recursive Feature Elimination) と呼ばれる手法を使って特徴量選択 (Feature Selection) してみる。 教師データの中には、モデルの性能に寄与しない特徴量が含まれている場合がある。 アルゴリズムがノイズに対して理想的にロバストであれば、有効な特徴量だけを読み取って学習するため特徴量選択は不要か... 続きを読む
「Prophet」とは――Facebook製時系列予測OSSは何が便利なのか (2/2):非統計家が高精度な時系列予測を行えるProphet(前編) - @IT
しかし、この作業はもはや「職人芸」といえるでしょう。データを注意深く観察し、ドメイン知識も利用しながら慎重に特徴量を設計する必要があります。当然必要とする工数も大きく、時系列予測の案件では最も苦労するところといっても過言ではありません。 ちなみに、「年、月、日、曜日など考えられるものを全部入れて変... 続きを読む
不動産価格分析とモデルの作成とクローム拡張 - にほんごのれんしゅう
序 機械学習で不動産を予想する意味 特徴量から重要度を知ることができる EndUserにとって嬉しいことは? 線形モデルならばChrome ExtentionなどJavaScriptなどにモデルを埋め込むこともでき、意思決定の補助材料などとして、不動産の情報の正当性を推し量る事ができる 管理会社にとって嬉しいことは? 特徴量の重要度が... 続きを読む
ThisWaifuDoesNotExist.net – 「存在しない俺の嫁(waifu)」画像を作ってくれるサイト | 秋元@サイボウズラボ・プログラマー・ブログ
先週ご紹介した、thispersondoesnotexist.com は、StyleGAN を使って実在するかのような顔写真を生成してくれるサービスでした。 その時に、同じ StyleGAN を使って、「実在しない絵画」や「実在しないアニメ絵」を作った人たちがいたことも紹介しましたが、顔写真だけではなく、特徴量のデータを使えば様々な画像の合成... 続きを読む
ランダムフォレストと検定を用いた特徴量選択手法 Boruta - 機械学習を学習する天然ニューラルネットワーク
特徴量選択とは Borutaとは とりあえず使ってみる ベースラインの判別 Borutaの判別 Borutaのアイデアの概要 Borutaのアルゴリズム 1. 判別に寄与しないはずの偽の特徴量を作る。 2. 偽の特徴量と一緒にランダムフォレストを訓練。 3. 各特徴量の重要度と偽の特徴量の特徴量を比較。 4. 複数回比較し検定を行うことで、... 続きを読む
Python: 特徴量の重要度を Permutation Importance で計測する - CUBE SUGAR CONTAINER
学習させた機械学習モデルにおいて、どの特徴量がどれくらい性能に寄与しているのかを知りたい場合がある。 すごく効く特徴があれば、それについてもっと深掘りしたいし、あるいは全く効かないものがあるなら取り除くことも考えられる。 使うフレームワークやモデルによっては特徴量の重要度を確認するための API が用意... 続きを読む
ChainerでWaveNetによる音声合成のチュートリアルを書いてみた - 金融と工学のあいだ
Introduction このチュートリアルではWaveNetを使ったボコーダーにより人の音声を合成します。 ボコーダーとは、音声をパラメータ化した入力を元に音声を合成することです。例えば、ロボットボイスは、人の音声からその発話の特徴量をパラメータとして取得し、それを元にロボットの音色の音声を合成しています。そのため... 続きを読む
類似画像検索のための、Pythonを使った近似最近傍探索【入門】
今回はAnnoyというライブラリを使って、Pythonで簡単に近似最近傍探索を行う方法について説明します。 近似最近傍探索は類似画像検索などに用いられる技術です。 類似画像検索は「特徴量抽出」と「特徴量の類似度計算」を組み合わせることで実現されます。CNNなどを使って得られた得られた特徴量を元に、特徴量の類似度... 続きを読む
生TensorFlow七転八倒記(6):TensorFlow Hubのtext embeddingsを使って日本語テキストを分類してみた - 六本木で働くデータサイエンティストのブログ
だいぶ久しぶりの生TensorFlow七転八倒記です。今回もただの備忘録につき、何一つ新しいことも参考になることも書いておりませんので、何か調べ物でたどり着かれた方はこの記事のリンク先などなどをご覧ください。 今回やろうと思ったのはテキスト分類です。というのは、従前はテキスト分類と言えば特徴量(=単語)がス... 続きを読む