タグ データサイエンティスト
人気順 10 users 50 users 100 users 500 users 1000 users『因果推論』(金本拓:オーム社)は因果推論に留まらず現代的なマーケティング分析手法まで網羅したバイブル - 渋谷駅前で働くデータサイエンティストのブログ
因果推論: 基礎から機械学習・時系列解析・因果探索を用いた意思決定のアプローチ 作者:金本 拓オーム社Amazon 著者の金本さんからご指名でご恵贈いただいたのが、こちらの『因果推論 ―基礎から機械学習・時系列解析・因果探索を用いた意思決定のアプローチ―』です。正直に白状しますと、因果推論とタイトルにつく技術書... 続きを読む
2024年版:独断と偏見で選ぶ、データ分析職の方々にお薦めしたいホットトピックス&定番の書籍リスト - 渋谷駅前で働くデータサイエンティストのブログ
毎年四の五の言いながら書いている推薦書籍リスト記事ですが、何だかんだで今年も書くことにしました。なお昨年度版の記事を上にリンクしておきましたので、以前のバージョンを読まれたい方はそちらをお読みください。 今回のバージョンでは、趣向をちょっと変えて「定番」と「注目分野」というように分けました。何故こ... 続きを読む
「入試に数学を課さないデータサイエンス学部」は是か非か - 渋谷駅前で働くデータサイエンティストのブログ
最近の話ですが、以下のようなニュースが話題になっているのを見かけました。 データサイエンス系の学部は文理融合の学びを掲げ、文系の受験生も集めるため、受験科目に「数学」を含まない入試方式を設ける大学も少なくない。河合塾によると、私立大のデータサイエンス系学部・学科における昨春の一般選抜のうち、数学を... 続きを読む
ヒトだからこそ価値を出せる余地は、AIやデータサイエンスの「外側」の本質への関わり方にある - 渋谷駅前で働くデータサイエンティストのブログ
恒例の年末振り返り記事ですが、もうタイトルが示す通りです。例年通りであれば淡々と1年間の業界動向や個人的な学び、はたまたちょっとした私事などを綴るのですが、今年はたまたま良いお題がやってきたのでまず最初にその話を書こうと思います。 生成AIの爆発的な普及と、それに伴って生じた課題 AIやデータサイエンス... 続きを読む
機械学習におけるEDAって結局何するの? - ABEJA Tech Blog
ABEJAでデータサイエンティストをしている服部です。 「EDAって結局何したらいいの?」っていう声をよく聞く気がするので、無謀にも今回はEDAについて記事を書いてみました。 本記事はABEJAアドベントカレンダー2023 25日目の記事です。 EDAとは EDAは「Exploratory Data Analysis」の略で「探索的データ分析」と日本語... 続きを読む
趣味でKaggleを始めたことをきっかけにデータサイエンティストになった話 - Qiita
Kaggleアドベントカレンダー2023の19日目の記事です. TL;DR データ分析未経験からkaggleでどんなことを学んだか 想像していたデータ分析と実業務とのGap kaggleやっていて良かったこと、kaggleでは学ばなかったこと はじめに 趣味でkaggleを始めたことをきっかけに、現在はデータ分析の仕事をしています。 Muj!rush!と... 続きを読む
「仮説ドリブン」という名の甘い罠 - 渋谷駅前で働くデータサイエンティストのブログ
今回の記事では、ちょっと感覚的でふわっとした話をしようと思います。それは「『仮説ドリブン』という考え方には往々にして落とし穴があるのではないか?」という問題提起です。 そもそも、「仮説ドリブン」(仮説駆動型:hypothesis-driven)というアプローチは実験科学分野出身の我が身にとっては、個人的には馴染み... 続きを読む
データサイエンティストに必要な3つのスキルセットとは?くわしく解説
会社のDX推進に欠かせないデータサイエンティストですが、具体的にどのようなスキルを備えている必要があるのでしょうか。今回は一般社団法人データサイエンティスト協会が公開している「データサイエンティストスキルチェックリストver5」の内容に則り、データサイエンティストに求められる3つのスキルセットを解説しま... 続きを読む
コードレビューの思想や心構え - Qiita
株式会社ブレインパッドでデータサイエンティストをしているasanoです。 この記事はBrainPad Advent Calender 2023 1日目の記事シリーズ2です。 ※シリーズ1は@fuyu_quantさんの入力プロンプトを復元する技術 #ChatGPTです! 今日はコードレビューの思想や心構えについて書きます。 はじめに コードレビューをより生産的... 続きを読む
「能力が低いほど自分を過大評価する」というダニング=クルーガー効果への反論がさらなる反論を呼ぶ
ダニング=クルーガー効果は「実力の低い人は自分の実力を過大評価する傾向がある」という認知バイアスについての仮説です。この効果が本当に存在するのかについて、政治経済学者のブレア・フィックスさんとデータサイエンティストのダニエル・アンダーソンさんがそれぞれの意見をブログに投稿しています。 The Dunning-... 続きを読む
中学英語レベルの純日本人理系大学生が、1ヶ月ちょいでAI駆使して卒論7割終わらせながらTOEIC 900超えた話 - Qiita
中学英語レベルの純日本人理系大学生が、1ヶ月ちょいでAI駆使して卒論7割終わらせながらTOEIC 900超えた話PythonAITOEICChatGPTclaude はじめに データサイエンティストを目指して日々勉強している、慶應大学理工学部4年生(2023.11.14時点) 取得資格、コンペ優勝経験など、リアルタイムの情報は👇👇👇をみてね X: @A7_... 続きを読む
データセットの本質的な性質を踏まえないデータ分析には、大抵何の意味もない - 渋谷駅前で働くデータサイエンティストのブログ
前回のブログ記事は、論文紹介という地味なテーマだったにしてはだいぶ話題を呼んだ*1ようで、個人的にはちょっと意外な感があったのでした。確かに、今をときめくTransformerにも苦手なものがあるという指摘は、NN一強の現代にあってはセンセーショナルなものと受け止められても不思議はなかったかと思います。 しかし... 続きを読む
2023年版「データサイエンティストスキルチェックリスト」が無料公開 生成AIの利活用スキルなどを追加
データサイエンティスト協会は10月30日、「データサイエンティストスキルチェックリスト」の第5版を公開した。データサイエンティストに必要とされるスキルをまとめたもので、新たに生成AIに関する項目を加えた。同協会のWebサイトで無料でダウンロードできる。 2021年に公開した第4版から内容を改修したもので、生成AI... 続きを読む
「機械学習で時系列予測はできるのか」論議がTransformerと共に帰ってきた - 渋谷駅前で働くデータサイエンティストのブログ
先日、こちらのポストをお見かけしました。 AI技術開発部の高橋が社内勉強会の資料「時系列予測にTransformerを使うのは有効か?」を公開しました。 論文Are Transformers Effective for Time Series Forecastingの紹介を中心に、時系列予測について解説しています。ぜひご覧ください。https://t.co/LplxTT8b1d pic.twit... 続きを読む
新卒向け「統計学の基礎」100ページ超 SaaS企業が無料で資料公開
今回の無料公開は、ブレインパッドで働く有志のデータサイエンティストが技術資料などを外部に発信するプロジェクト「OpenBrainPad」の一環。「統計学をこれから学ぶ人も復習する人もぜひ利用してほしい」(ブレインパッド)という。同プロジェクトでは、過去にはプログラムのバージョンを管理するシステム「Git」のハン... 続きを読む
コンペで使える!?LightGBMで実装する3つの弱教師あり学習 - ABEJA Tech Blog
ABEJAでデータサイエンティストをしている小林です。 今回は、もしかしたらいつか業務や機械学習コンペに役立つかもしれない情報、LightGBMで弱教師あり学習を行う方法についてお話します。 コードはこちらで公開しております。 目次 はじめに 弱教師あり学習の例(マルチインスタンス学習) LightGBMで弱教師あり学習が... 続きを読む
10年経ってもついに消えずに残った、データサイエンティストという職業 - 渋谷駅前で働くデータサイエンティストのブログ
このブログでも何度か引用しているこちらの記事で、「データサイエンティストという職業は10年以内に消える」という趣旨の議論がされていたのがちょうど10年前の2013年でした。ちなみにこの記事はついているブックマーク数に比して当時は結構注目を集めたという記憶があり、割と業界内では「確かにこんな中途半端な職業... 続きを読む
3年ぶりに帰ってきた!数字から見るテクノロジー本部2023 後編 - techtekt
こんにちは! techtekt編集部です。 パーソルキャリアではたらくエンジニア、デザイナー、データサイエンティストなどの専門職が集う「テクノロジー本部」のリアルな実態を伝えるアンケート調査記事、後編です。 前編に続き、後編はメンバーのはたらく環境やパーソルキャリアではたらくオススメポイントなどを聞いてみ... 続きを読む
画像生成AI「Stable Diffusion」に「悪い例を集めたLoRA」を組み合わせて高品質な画像を生成する手法が登場、簡単に試せるデモも公開されたので試してみた
2023年7月に公開された「Stable Diffusion XL 1.0(SDXL 1.0)」は既存のStability AI製モデルと比べて高品質な画像を生成できるだけでなく、LoRAによる生成画像の調整にも対応しています。データサイエンティストのマックス・ウルフ氏は「悪い例」を集めて作成したLoRAを用いてSDXL 1.0による生成画像の品質をさらに向上... 続きを読む
3年ぶりに帰ってきた!数字から見るテクノロジー本部2023 前編 - techtekt
こんにちは! techtekt編集部です。 パーソルキャリアではたらくエンジニア、デザイナー、データサイエンティストなどの専門職が集う「テクノロジー本部」。これまでも数多くのインタビューやレポートを通じて、さまざまな側面をお伝えしてきました。 中でも、2020年に公開した社員アンケート調査記事、「数字から見る... 続きを読む
NN研究における再現性にまつわるエトセトラ - 渋谷駅前で働くデータサイエンティストのブログ
先日、ふとしたきっかけでしましま先生*1がこちらの論文について触れられているのを見かけたのでした。 これは推薦システム分野におけるNN研究の再現性について検証した2019年の論文で、近年のトップ会議*2に採択されたNN手法18個に対して再現を試みたところ、「reasonableな」努力で再現できたのはわずかに7個に過ぎず... 続きを読む
GPTが単純に回答するだけでなく、動的に振る舞えるようになる Groundingを使ったプロンプティング「ReAct」の流れ
ユーザーの立場ではAIネイティブな働き方が身近に迫っており、データサイエンティストやMLエンジニアにとってはGPTを活用した開発を意識する必要が出てくる中、マイクロソフトの取り組みやML開発のパラダイムシフトをご紹介する「ChatGPTによって描かれる未来とAI開発の変遷」。ここで日本マイクロソフト株式会社の蒲生... 続きを読む
ChatGPTの新機能「Code interpreter」にアパレル店舗の売上分析をお願いしたらデータサイエンティストが不要になった|GPTimes
ChatGPTの新機能「Code interpreter」にアパレル店舗の売上分析をお願いしたらデータサイエンティストが不要になった 2023年7月7日頃に日本でも利用できるようになったChatGPTの新機能「Code interpreter」が凄いと話題なので、架空のアパレル店舗の売上データを元に売上を上げるための分析を依頼してみました。 どうせ... 続きを読む
外部データをRetrievalしてLLM活用する上での課題と対策案 - ABEJA Tech Blog
はじめに ABEJAでデータサイエンティストをしている服部です。 今回はLLMで外部データを使うケースについてのお話をしたいと思います。 はじめに LLMと外部データの利用 RetrievalとLLM 0. (事前準備)参照したいテキストデータをDBに格納 1. ユーザの入力文とのテキスト類似度を計算して、関連テキストを抽出する(Retrie... 続きを読む
エンジニア・データ分析職の方々にお薦めしたい、LLM時代に不可欠な教養が身に付くテキスト3選 - 渋谷駅前で働くデータサイエンティストのブログ
(『IT Text 自然語処理の基礎』より) 3ヶ月ほど前に空前のLLMブームについて概観する記事を書きましたが、それ以降も世間のLLMに対する狂騒ぶりは収まるどころかますます拍車がかかるという有様で、あまつさえ僕自身の仕事における日常業務にもじわじわと影響が及びつつあり、今後も良きにつけ悪しきにつけLLMと共生し... 続きを読む