タグ u++
人気順 5 users 50 users 100 users 500 users 1000 users【書籍メモ】『PythonではじめるKaggleスタートブック』(講談社) - u++の備忘録
共著で執筆した、3月17日発売の『PythonではじめるKaggleスタートブック』(講談社)が手元に届きました。 本記事では、本書の関連リンクをまとめました。以前に書いた告知記事については、補足情報も付与します。 Amazon www.amazon.co.jp サンプルコード github.com 告知記事 upura.hatenablog.com 告知記事の補足 1. ... 続きを読む
「Data Gateway Talk vol.5」に参加しました&全発表まとめ #dgtalk - u++の備忘録
データアナリスト/データサイエンティストの登竜門 (Gateway to Success) となることを目指した勉強会「Data Gateway Talk vol.5」に参加しました。 data-gateway-talk.connpass.com 対象を絞った勉強会で以前から関心はあり、今回が初参加です。 本記事では、全発表について概要と所感を述べます。 データ分析業務を1年... 続きを読む
Pythonを用いたKaggle入門書を2020年3月に講談社から出版します - u++の備忘録
このたびご縁があり、Pythonを用いたKaggle入門書を講談社から出版する運びとなりました*1。現在デザインや校正などを進めている段階で、発売開始は2020年3月を予定しています。 同人誌ながら累計2500部以上を売り上げている『Kaggleのチュートリアル』*2を執筆したカレーさんとの共著です。 私がQiitaに投稿した「Kaggl... 続きを読む
「初手LightGBM」をする7つの理由 - u++の備忘録
Kaggleなどのデータ分析コンペでテーブルデータを扱う場合、最近は取りあえずLightGBMを利用する場合が多いです。 本記事では、初手の機械学習アルゴリズムとして「LightGBM」*1を採用する理由を紹介します。あくまで2019年10月末時点での個人の主観なので、ご参考までにご覧いただければと思います。 1. 欠損値をそのま... 続きを読む
【書評】『Kaggleで勝つデータ分析の技術』(技術評論社) - u++の備忘録
限定の先行販売*1で紙版を入手した『Kaggleで勝つデータ分析の技術』(技術評論社)を読みました。なお電子版をご恵贈いただく予定です。 gihyo.jp 10月7日の発売を待たずして Amazon*2のベストセラー1位になるなど、注目を集めています。 既に著者の一人である threecourse さんは、執筆者視点で見どころを紹介していま... 続きを読む
scikit-learn-contrib の Metric Learning を試す - u++の備忘録
Metric Learning について Metric Learning は、データの教師情報を基にデータ間の距離や類似度などの Metric を学習する手法です。日本語で手軽に読める記事だと、*1, *2 などが詳しいです。 このたび、phalanx さんの tweet *3で、 Metric Learning の基礎的なアルゴリズムのいくつかが scikit-learn-contrib *4に搭載... 続きを読む
「長さの近いデータを同じbatchに入れる」の性能劣化と速度 - u++の備忘録
先のKaggle Tokyo Meetup #6 でのtksさんの発表で触れられた「長さの近いデータを同じbatchに入れる」について、チームで参加した「Jigsaw Unintended Bias in Toxicity Classification | Kaggle」にて同じような取り組みをしていました。 本記事では、Jigsawコンペにおける「長さの近いデータを同じbatchに入れる」処理... 続きを読む
Kaggleにおける「特徴量エンジニアリング」の位置づけ 〜『機械学習のための特徴量エンジニアリング』に寄せて〜 - u++の備忘録
はじめに 『機械学習のための特徴量エンジニアリング』の書誌情報 Kaggleのワークフロー 1. (探索的データ分析) 2. ベースラインモデルの構築 3. Validationの構築 4. 特徴量エンジニアリング 5. ハイパーパラメータ調整 6. アンサンブル 『機械学習のための特徴量エンジニアリング』の貢献箇所 Kaggle観点で本書をオ... 続きを読む
【Kaggleのフォルダ構成や管理方法】タイタニック用のGitHubリポジトリを公開しました - u++の備忘録
はじめに Kaggleのタイタニック GitHubリポジトリ 執筆の経緯 大まかな方針 参考にした情報 フォルダ構成 configs data input output features logs models notebook scripts utils 計算の実行 Git管理 おわりに はじめに 本記事では、Kaggle用フォルダ構成や管理方法について、現時点での自己流の方法をまとめます。「... 続きを読む
【論文メモ】非専門家向けの調査に基づく、インタラクティブな機械学習ツールの設計 - u++の備忘録
Grounding Interactive Machine Learning Tool Design in How Non-Experts Actually Build Models Machine Learning (ML)の「非専門家」が実際にMLソリューションを構築する方法を調査 非専門家特有の可能性と、陥りやすい落とし穴が明らかになった 例えば、accuracyがパフォーマンスの単一の尺度として認識され、問題あ... 続きを読む
技術書典5で弊社の機械学習活用事例を紹介します - u++の備忘録
2018年10月8日に池袋サンシャインシティで開催される技術書典5に、弊社のエンジニア有志で執筆した書籍を頒布します。 techbookfest.org 私は第1章「機械学習を用いた日経電子版Proのユーザ分析」を担当しました。 私は弊社にて、営業・マーケティング向けのデータ分析や、業務効率化のための環境整備を担当してい... 続きを読む
KaggleのWinner solutionにもなった「K近傍を用いた特徴量抽出」のPython実装 - u++の備忘録
今回は、KaggleのWinner solutionにもなった「K近傍を用いた特徴量抽出」を紹介します。 Rでの実装は公開されていますが、Pythonでの実装は確認できなかったので、自前のPython実装も公開しています。 github.com アルゴリズムの概要 近傍数を、分類するクラス数をとした場合に、アルゴリズムは個の特徴量を生成します。... 続きを読む