タグ「u++」 - はてブログ

タグ u++

新着順人気順 5 users 10 users 50 users 100 users 500 users 1000 users

(1 - 12 / 12件)

【書籍メモ】『PythonではじめるKaggleスタートブック』（講談社） - u++の備忘録

2020/03/14 19 users 備忘録 github.com Python 共著補足

共著で執筆した、3月17日発売の『PythonではじめるKaggleスタートブック』（講談社）が手元に届きました。本記事では、本書の関連リンクをまとめました。以前に書いた告知記事については、補足情報も付与します。 Amazon www.amazon.co.jp サンプルコード github.com 告知記事 upura.hatenablog.com 告知記事の補足 1. ... 続きを読む

「Data Gateway Talk vol.5」に参加しました＆全発表まとめ #dgtalk - u++の備忘録

2020/01/16 13 users 所感備忘録データサイエンティスト登竜門関心

データアナリスト/データサイエンティストの登竜門 (Gateway to Success) となることを目指した勉強会「Data Gateway Talk vol.5」に参加しました。 data-gateway-talk.connpass.com 対象を絞った勉強会で以前から関心はあり、今回が初参加です。本記事では、全発表について概要と所感を述べます。データ分析業務を1年... 続きを読む

Pythonを用いたKaggle入門書を2020年3月に講談社から出版します - u++の備忘録

2019/12/04 11 users 備忘録 Python Qiita Kaggle 共著

このたびご縁があり、Pythonを用いたKaggle入門書を講談社から出版する運びとなりました*1。現在デザインや校正などを進めている段階で、発売開始は2020年3月を予定しています。同人誌ながら累計2500部以上を売り上げている『Kaggleのチュートリアル』*2を執筆したカレーさんとの共著です。私がQiitaに投稿した「Kaggl... 続きを読む

「初手LightGBM」をする7つの理由 - u++の備忘録

2019/10/29 57 users Kaggle LightGBM 初手備忘録主観

Kaggleなどのデータ分析コンペでテーブルデータを扱う場合、最近は取りあえずLightGBMを利用する場合が多いです。本記事では、初手の機械学習アルゴリズムとして「LightGBM」*1を採用する理由を紹介します。あくまで2019年10月末時点での個人の主観なので、ご参考までにご覧いただければと思います。 1. 欠損値をそのま... 続きを読む

【書評】『Kaggleで勝つデータ分析の技術』（技術評論社） - u++の備忘録

2019/10/02 75 users Kaggle 備忘録 gihyo.jp 書評見どころ

限定の先行販売*1で紙版を入手した『Kaggleで勝つデータ分析の技術』（技術評論社）を読みました。なお電子版をご恵贈いただく予定です。 gihyo.jp 10月7日の発売を待たずして Amazon*2のベストセラー1位になるなど、注目を集めています。既に著者の一人である threecourse さんは、執筆者視点で見どころを紹介していま... 続きを読む

scikit-learn-contrib の Metric Learning を試す - u++の備忘録

2019/08/18 38 users 備忘録 Metric Learning Tweet 手法たび

Metric Learning について Metric Learning は、データの教師情報を基にデータ間の距離や類似度などの Metric を学習する手法です。日本語で手軽に読める記事だと、*1, *2 などが詳しいです。このたび、phalanx さんの tweet *3で、 Metric Learning の基礎的なアルゴリズムのいくつかが scikit-learn-contrib *4に搭載... 続きを読む

「長さの近いデータを同じbatchに入れる」の性能劣化と速度 - u++の備忘録

2019/07/16 10 users Batch Kaggle 備忘録速度性能劣化

先のKaggle Tokyo Meetup #6 でのtksさんの発表で触れられた「長さの近いデータを同じbatchに入れる」について、チームで参加した「Jigsaw Unintended Bias in Toxicity Classification | Kaggle」にて同じような取り組みをしていました。本記事では、Jigsawコンペにおける「長さの近いデータを同じbatchに入れる」処理... 続きを読む

Kaggleにおける「特徴量エンジニアリング」の位置づけ　〜『機械学習のための特徴量エンジニアリング』に寄せて〜 - u++の備忘録

2019/02/22 214 users ワークフローアンサンブル本書 Kaggle 備忘録

はじめに『機械学習のための特徴量エンジニアリング』の書誌情報 Kaggleのワークフロー 1. （探索的データ分析） 2. ベースラインモデルの構築 3. Validationの構築 4. 特徴量エンジニアリング 5. ハイパーパラメータ調整 6. アンサンブル『機械学習のための特徴量エンジニアリング』の貢献箇所 Kaggle観点で本書をオ... 続きを読む

【Kaggleのフォルダ構成や管理方法】タイタニック用のGitHubリポジトリを公開しました - u++の備忘録

2018/12/28 178 users Kaggle GitHubリポジトリタイタニック備忘録

はじめに Kaggleのタイタニック GitHubリポジトリ執筆の経緯大まかな方針参考にした情報フォルダ構成 configs data input output features logs models notebook scripts utils 計算の実行 Git管理おわりにはじめに本記事では、Kaggle用フォルダ構成や管理方法について、現時点での自己流の方法をまとめます。「... 続きを読む

【論文メモ】非専門家向けの調査に基づく、インタラクティブな機械学習ツールの設計 - u++の備忘録

2018/11/17 25 users 備忘録インタラクティブ論文メモ accuracy 設計

Grounding Interactive Machine Learning Tool Design in How Non-Experts Actually Build Models Machine Learning (ML)の「非専門家」が実際にMLソリューションを構築する方法を調査非専門家特有の可能性と、陥りやすい落とし穴が明らかになった例えば、accuracyがパフォーマンスの単一の尺度として認識され、問題あ... 続きを読む

技術書典5で弊社の機械学習活用事例を紹介します - u++の備忘録

2018/10/04 26 users 備忘録ユーザ分析データ分析池袋サンシャインシティ弊社

2018年10月8日に池袋サンシャインシティで開催される技術書典5に、弊社のエンジニア有志で執筆した書籍を頒布します。 techbookfest.org 私は第1章「機械学習を用いた日経電子版Proのユーザ分析」を担当しました。私は弊社にて、営業・マーケティング向けのデータ分析や、業務効率化のための環境整備を担当してい... 続きを読む

KaggleのWinner solutionにもなった「K近傍を用いた特徴量抽出」のPython実装 - u++の備忘録

2018/06/23 143 users Kaggle github.com 備忘録自前アルゴリズム

今回は、KaggleのWinner solutionにもなった「K近傍を用いた特徴量抽出」を紹介します。 Rでの実装は公開されていますが、Pythonでの実装は確認できなかったので、自前のPython実装も公開しています。 github.com アルゴリズムの概要近傍数を、分類するクラス数をとした場合に、アルゴリズムは個の特徴量を生成します。... 続きを読む