タグ 特徴量
人気順 5 users 50 users 100 users 500 users 1000 users大規模言語モデルは、絵文字の分散表現をどう見るか - YANS2023ブース展示|セコン / @hotchpotch
くふうカンパニーの舘野(@hotchpotch)です。先日行われたYANS2023にスポンサー企業として参加し、ブースで「大規模言語モデルは絵文字の分散表現をどう見るか」という展示を行いました。 Webブラウザー上で、絵文字の分散表現(特徴量)を使ってインタラクティブにぐりぐり動かしながら、色々な視点から絵文字を見ることが... 続きを読む
Feature Importanceって結局何なの?|Yotaro Katayama|note
この記事の目的GBDT(Gradient Boosting Decesion Tree)のような、決定木をアンサンブルする手法において、特徴量の重要性を定量化し、特徴量選択などに用いられる”Feature Importance”という値があります。 本記事では、この値が実際にはどういう計算で出力されているのかについて、コードと手計算を通じて納得すること... 続きを読む
次元の呪い(Curse of dimensionality)とは?:AI・機械学習の用語辞典 - @IT
用語「次元の呪い」について説明。特徴量などの次元が多くなるほど、必要な訓練データの量が「指数関数」的に増えてしまう現象を指す。 連載目次 用語解説 次元の呪い(Curse of dimensionality)とは、次元(=ニューラルネットワークで言うと入力データとなる特徴量)の数が増えるほど、正確に一般化する(=高い精度... 続きを読む
不均衡データ分類問題をDNNで解くときの under sampling + bagging 的なアプローチ - BASE開発チームブログ
はじめに こんにちは、Data Strategy所属の岡です。グループ会社BASE BANKで分析/モデリングなども兼務しています。 テキストデータを特徴量にもつ不均衡データ分類問題をDNNで解きたくなった際、下記の論文を参考にしたのでその内容を紹介します。 https://users.cs.fiu.edu/~chens/PDF/ISM15.pdf 不均衡データ分類問題... 続きを読む
Pytorchでモデル構築するとき、torchsummaryがマジ使える件について - Qiita
はじめに 自分でモデルを構築していて、私はいつも全結合層につなぐ前に「あれ、インプットの特徴量っていくつだ?」ってなります。よくprint(model)と打つとモデルの構造は理解できるが、FeatureMapのサイズまでは確認出来ません。そこで便利なのがtorchsummaryというものです。 torchsummaryは何者か? 簡単に言うと、特... 続きを読む
開発効率とサービス競争力を上げる 機械学習のために整備した「3種類の特徴量」について解説 - ログミーTech
開発効率とサービス競争力を上げる 機械学習のために整備した「3種類の特徴量」について解説 Feature as a Service at Data Labs #2/2 2019年11月20、21日、LINE株式会社が主催するエンジニア向け技術カンファレンス「LINE DEVELOPER DAY 2019」が開催されました。20日は「Engineering」をテーマに技術的な内容のセッシ... 続きを読む
実践データサイエンス─サンプルコードと図表で学ぶ、前処理・モデル評価・パラメータチューニング - エンジニアHub|若手Webエンジニアのキャリアを考える!
データサイエンティストとしてのスキルを向上させるには、データの前処理や特徴量の作成、モデルの評価・訓練、ハイパーパラメータの調整など、広域にわたる知識を身に付ける必要があります。 この記事は、そうした知識を「サンプルコードと図表を見ながら、分かりやすく学習できること」を目指して作成されました。記事... 続きを読む
NEC、ディープラーニングに必要な学習データを半減、中間層で得られる特徴量を意図的に変化 | IT Leaders
IT Leaders トップ > テクノロジー一覧 > AI > 市場動向 > NEC、ディープラーニングに必要な学習データを半減、中間層で得られる特徴量を意図的に変化 AI AI記事一覧へ [市場動向] NEC、ディープラーニングに必要な学習データを半減、中間層で得られる特徴量を意図的に変化 2019年8月19日(月)日川 佳三(IT Leaders... 続きを読む
特徴量重要度にバイアスが生じる状況ご存知ですか? - 学習する天然ニューラルネット
なぜこの記事を書いたのか? 決定木をベースにしたアルゴリズムのほとんどに特徴量重要度という指標が存在する。データに対する知識が少ない場合はこの指標を見て特徴量に対する洞察深めることができる。KaggleではEDAのときにとりあえず重要度を見てみるなんてこともするようだ。 しかし、この特徴量重要度にはバイアス... 続きを読む
[Python]機械学習などでテキストデータを特徴量にする際のソースコード集 | かものはしの分析ブログ
都内の事業会社で分析やWebマーケティングの仕事をしています。大学・大学院では経済学を通じて統計解析を行うなどしておりました。企業に勤めてからは、機械学習やテキストマイニング、クローリング技術などに関心を持っています。 Twitterアカウント Mr_Sakaue( SKUE ) GitHub 読書メーター ほしいものリスト テキスト... 続きを読む
小説家になろうを機械学習でデータ分析してブックマーク10以上を獲得しやすい条件を探す - Qiita
はじめに これを書いてる人の機械学習・データ分析のスキルはpythonの拡張子が.pyであることを知ってから10日目ぐらい、「決定木」「最小二乗法」「特徴量」「RMSE」といった単語を初めて見てから7日目ぐらいといったレベルです。なのでより良い方法がある場合や、分析の途中間違っている箇所などがあればコメント欄等で... 続きを読む
Python: RFE (Recursive Feature Elimination) で特徴量を選択してみる - CUBE SUGAR CONTAINER
今回は RFE (Recursive Feature Elimination) と呼ばれる手法を使って特徴量選択 (Feature Selection) してみる。 教師データの中には、モデルの性能に寄与しない特徴量が含まれている場合がある。 アルゴリズムがノイズに対して理想的にロバストであれば、有効な特徴量だけを読み取って学習するため特徴量選択は不要か... 続きを読む
不動産価格分析とモデルの作成とクローム拡張 - にほんごのれんしゅう
序 機械学習で不動産を予想する意味 特徴量から重要度を知ることができる EndUserにとって嬉しいことは? 線形モデルならばChrome ExtentionなどJavaScriptなどにモデルを埋め込むこともでき、意思決定の補助材料などとして、不動産の情報の正当性を推し量る事ができる 管理会社にとって嬉しいことは? 特徴量の重要度が... 続きを読む
ThisWaifuDoesNotExist.net – 「存在しない俺の嫁(waifu)」画像を作ってくれるサイト | 秋元@サイボウズラボ・プログラマー・ブログ
先週ご紹介した、thispersondoesnotexist.com は、StyleGAN を使って実在するかのような顔写真を生成してくれるサービスでした。 その時に、同じ StyleGAN を使って、「実在しない絵画」や「実在しないアニメ絵」を作った人たちがいたことも紹介しましたが、顔写真だけではなく、特徴量のデータを使えば様々な画像の合成... 続きを読む
ランダムフォレストと検定を用いた特徴量選択手法 Boruta - 機械学習を学習する天然ニューラルネットワーク
特徴量選択とは Borutaとは とりあえず使ってみる ベースラインの判別 Borutaの判別 Borutaのアイデアの概要 Borutaのアルゴリズム 1. 判別に寄与しないはずの偽の特徴量を作る。 2. 偽の特徴量と一緒にランダムフォレストを訓練。 3. 各特徴量の重要度と偽の特徴量の特徴量を比較。 4. 複数回比較し検定を行うことで、... 続きを読む
Python: 特徴量の重要度を Permutation Importance で計測する - CUBE SUGAR CONTAINER
学習させた機械学習モデルにおいて、どの特徴量がどれくらい性能に寄与しているのかを知りたい場合がある。 すごく効く特徴があれば、それについてもっと深掘りしたいし、あるいは全く効かないものがあるなら取り除くことも考えられる。 使うフレームワークやモデルによっては特徴量の重要度を確認するための API が用意... 続きを読む
ChainerでWaveNetによる音声合成のチュートリアルを書いてみた - 金融と工学のあいだ
Introduction このチュートリアルではWaveNetを使ったボコーダーにより人の音声を合成します。 ボコーダーとは、音声をパラメータ化した入力を元に音声を合成することです。例えば、ロボットボイスは、人の音声からその発話の特徴量をパラメータとして取得し、それを元にロボットの音色の音声を合成しています。そのため... 続きを読む
類似画像検索のための、Pythonを使った近似最近傍探索【入門】
今回はAnnoyというライブラリを使って、Pythonで簡単に近似最近傍探索を行う方法について説明します。 近似最近傍探索は類似画像検索などに用いられる技術です。 類似画像検索は「特徴量抽出」と「特徴量の類似度計算」を組み合わせることで実現されます。CNNなどを使って得られた得られた特徴量を元に、特徴量の類似度... 続きを読む
生TensorFlow七転八倒記(6):TensorFlow Hubのtext embeddingsを使って日本語テキストを分類してみた - 六本木で働くデータサイエンティストのブログ
だいぶ久しぶりの生TensorFlow七転八倒記です。今回もただの備忘録につき、何一つ新しいことも参考になることも書いておりませんので、何か調べ物でたどり着かれた方はこの記事のリンク先などなどをご覧ください。 今回やろうと思ったのはテキスト分類です。というのは、従前はテキスト分類と言えば特徴量(=単語)がス... 続きを読む
KaggleのWinner solutionにもなった「K近傍を用いた特徴量抽出」のPython実装 - u++の備忘録
今回は、KaggleのWinner solutionにもなった「K近傍を用いた特徴量抽出」を紹介します。 Rでの実装は公開されていますが、Pythonでの実装は確認できなかったので、自前のPython実装も公開しています。 github.com アルゴリズムの概要 近傍数を、分類するクラス数をとした場合に、アルゴリズムは個の特徴量を生成します。... 続きを読む
深層学習を使って楽曲のアーティスト分類をやってみた! - Platinum Data Blog by BrainPad
2018 - 04 - 17 深層学習を使って楽曲のアーティスト分類をやってみた! 深層学習を使った音声データによる楽曲分類を実施しました!楽曲の特徴を表すメル周波数スペクトログラムを用いて、その楽曲のアーティストを推定します。 こんにちは、アナリティクスサービス本部の井出です。 今回のブログは、音声データをテーマとして取り上げ、 音声データの特徴量 深層学習による楽曲のアーティスト分類 について... 続きを読む
Rでスパースモデリング:Elastic Net回帰についてまとめてみる - データサイエンティスト(仮)
2017 - 11 - 18 Rでスパースモデリング:Elastic Net回帰についてまとめてみる R スパースモデリング 導入 回帰モデル構築の際、汎化性能を向上させるために 正則化 の手法がたびたび用いられます。これは、考えているデータ数に対して特徴量の数が非常に多い場合や、特徴量間に強い相関(多重共線性)がある場合に有効な方法となっています。このような場合に、通常の回帰モデル構築の際に用い... 続きを読む
AlphaGo と AlphaGo Zero の自己対戦による学習部分の違い - うどん記
2017 - 10 - 29 AlphaGo と AlphaGo Zero の自己対戦による学習部分の違い 流し読みだとちゃんと分からなかったのでメモ。 準備(AlphaGo) policy network : 盤面とその特徴量を入力として受け取り、各マスに打つ確率を返す ニューラルネット 。 value network: 盤面とその特徴量を入力として受け取り、その盤面での勝率を返す ニューラルネ... 続きを読む
[OpenCV][WebAssembly]ブラウザで2画像の特徴量比較してみる - Qiita
はじめに このエントリは、画像解析ライブラリであるOpenCVをWeb Assemblyとしてビルドしてブラウザで動かす、というのを一通りやってみたメモです。 主なコンテンツとして下記を含みます。 OpenCVのwasmビルド方法、.wasmのカスタマイズ方法 性能改善(モジュールのキャッシュ、Web Workersなど) 動作はここから確認できます 。 お題 主な主眼は「ブラウザでOpenCV動... 続きを読む
レコメンドに画像の情報を活用する方法 - VASILY DEVELOPERS BLOG
2017 - 05 - 31 レコメンドに画像の情報を活用する方法 Chainer Python 機械学習 データ データサイエンティストの中村です。 ファッションアイテムの画像から抽出した特徴量は検索以外にも利用することができます。 今回はレコメンドにおける画像特徴量の活用について、以下の3トピックを考えてみたいと思います。 画像特徴量を利用したコンテンツベースレコメンド モデルベース協調フィル... 続きを読む