タグ データサイエンティスト
人気順 10 users 50 users 100 users 500 users 1000 users"#国民民主党に騙されたな"をポストしたアカウントの素性を調べる|破綻国家研究所
どうも、データサイエンティストで飯を食ってる破綻国家研究所です。 今回は本題にあるように、"#国民民主党に騙されたな"をポストしたアカウントの素性を調べてみました。 はじめに2024/10/31 の15時半くらいのこと。私が休憩がてらスマホでXを見ていると #国民民主党に騙されたな がトレンド入り。 「あー、いつものや... 続きを読む
欠損値処理に関する備忘録 - 渋谷駅前で働くデータサイエンティストのブログ
最近某所で話題になっていたのが「欠損値処理はどうやるべきか」というテーマ。これは太古の昔から「荒れるテーマ」として有名で、今回も大いに荒れていて傍観している側としては面白かったんですが(笑)、古老ともあろう身がただ面白がっているだけでは自分を含めて誰の学びにもならないので、良い機会ということでち... 続きを読む
「エンジニアはビジネスを学べ!」に違和感を感じるあなたへ|AIcia Solid Laboratory
まず結論!IT エンジニアやデータサイエンティストと呼ばれる人には2種類います。 「ビジネスマンの中の技術担当」「技術者の中のビジネス領域担当」です。 ビジネスマンの中の技術担当なら、ビジネスも学んだほうがいいです。 技術者の中のビジネス領域担当なら、技術を学んだほうが良いです。 自分がどちらかを見極め... 続きを読む
機械学習パイプラインLuigiのタスク同士の関係を良い感じに可視化する方法 - ドワンゴ教育サービス開発者ブログ
はじめに ドワンゴ教育事業でデータサイエンティストとして働いている中井です。 この記事では、PythonのパイプラインパッケージであるLuigiで構築したパイプラインにおいて、それを構成するタスク間の依存関係・タスクのグループ間(task_namespace で分けられる)の依存関係を良い感じに出力する方法についてお話しし... 続きを読む
「見せかけの回帰」の復習 - 渋谷駅前で働くデータサイエンティストのブログ
先日のことですが、Querie.meでこんな質疑がありました。 これは非常にご尤もなご意見であり、実際この問題提起に近いシチュエーションを見かけたことは五本の指では数え切れないくらいあります。ということで、今回の記事では元々の問題意識ともいえる「見せかけの回帰」について、久しぶりにちょっと復習を兼ねて書い... 続きを読む
偏りのあるコインを使ってより厳密に五分五分の確率を判定するにはどうすればいいのか?
コインを投げた時に表が出る確率と裏が出る確率は理論上等しく2分の1になります。ここで、表が出る確率が2分の1にならない「偏りのあるコイン」を想定した時、「偏りのあるコインを使って2分の1という公平な確率を表現するためにはどのように操作すればいいのか」という問題について、データサイエンティストのマートン... 続きを読む
AIや機械学習が持て囃されて、統計分析やデータ可視化がいまいち主流になれない理由 - 渋谷駅前で働くデータサイエンティストのブログ
先日のことですが、こんなことを放言したら思いの外伸びてしまいました。 データ可視化は一時期物凄く流行った割に今はパッとしない印象があるんだけど、それは結局のところデータ可視化が「見る人に『考えさせる』仕組み」だからだと思う。現実の世の中では、大半の人々は自分の頭で考えたくなんかなくて、確実に当たる... 続きを読む
技術者も知っておくべきプレゼン資料作成術:社内研修会レポート - Insight Edge Tech Blog
Introduction こんにちは、データサイエンティストの善之です。 Insight Edgeの分析チームでは、有志が技術テーマについて1時間枠で講義し、チーム内でディスカッションを行う「技術研修会」を不定期に実施しています。 先日の研修会では、チーム内でのアンケート結果から最も希望が多かった「プレゼン資料作成術」をテ... 続きを読む
『ベイズデータ解析』はベイズ統計学を用いる全ての実務家が座右に置くべき第一級の鈍器 - 渋谷駅前で働くデータサイエンティストのブログ
ベイズデータ解析(第3版) 森北出版Amazon 先日のことですが、『ベイズデータ解析』を訳者のお一人菅澤さんからご恵贈いただきました。もう一目見ただけで「鈍器」以外の語が出てこないくらいの立派な鈍器で(笑)、原著のBDA3*1に負けないくらいの鈍器っぷりが見事な一冊です。菅澤さんといえば名著『標準ベイズ統計学』... 続きを読む
実務において回帰分析を行うに当たっての注意点を改めて挙げてみる - 渋谷駅前で働くデータサイエンティストのブログ
先日のことですが、以下のニュースが統計的学習モデル界隈で話題になっていました。 肝心の箇所が会員限定コンテンツなので簡潔にまとめると、従来モデルよりも説明変数に入れる海域の数を増やした上で、Lasso(L1正則化)回帰で多重共線性を抑えつつ汎化性能を高めるというアプローチを取った、というお話です*1。これ... 続きを読む
RAGのSurvey論文からRAG関連技術を俯瞰する - 元生技のデータサイエンティストのメモ帳
大規模言語モデル (LLM) の学習データに含まれない知識(各社の特有の書類など)を踏まえてLLMに回答させる際に最早必須となってきたRAG (Retrieval-Augumented Generation)。 今回はそんなRAGのSurvey論文を元に、RAGの変遷や構成要素、新たに出てきた技術を俯瞰していきます。 Survey論文へのリンクはこちら arxiv.org... 続きを読む
イケてるダッシュボードを作りたい!アナリストが自分自身の仕事を分析してみた - MonotaRO Tech Blog
こんにちは!MonotaROで3年ほどアナリストをしている杉田です。1年前にマーケティング部門マーケティングサイエンスグループに異動し、現在はマーケティング施策の効果検証手法や売上予測手法の改善に取り組んでいます。データサイエンス領域でのスキルアップを目指しており、アナリストとデータサイエンティストの間と... 続きを読む
自動プロンプト最適化をやってみた - Algomatic Tech Blog
はじめまして!データサイエンティストの山内(@jof_5)です。 本記事では、日々、プロンプト開発されている皆様に向けて、プロンプトを効率的に開発する手法の一つである「自動プロンプト最適化」について記載いたします。 1. プロンプトエンジニアリングの必要性と課題 2. 自動プロンプト最適化について 2-0. 最適なプロ... 続きを読む
機械学習を使う仕事に比して、統計学を使う仕事が産業界に少ない理由 - 渋谷駅前で働くデータサイエンティストのブログ
近年のデータサイエンティスト界隈では、僕が以前スキル要件記事でも提唱した通りの「ソフトウェアエンジニアの延長としての機械学習エンジニア」(機械学習メイン)と「アナリストの延長としてのデータサイエンティスト」(統計学メイン)とにキャリアもポジションもカルチャーも分化するようになって久しい印象がある... 続きを読む
生成AIによる「慣用表現の『乗っ取り』」と、その根底にある別の問題と - 渋谷駅前で働くデータサイエンティストのブログ
かなり前から「ChatGPTに学術論文を(英語で)書かせると"delve"のような普段使わないような単語が多く使われるのでバレやすい」という話がSNS以下各所で頻繁に噂されていたんですが*1、最近になってこの件について面白いpreprintが発表されていたのを知りました。それがこちらです。 もう読んで字の如しで「ChatGPTが登... 続きを読む
過学習(過剰適合)のはなし - 渋谷駅前で働くデータサイエンティストのブログ
すっかりおじさんになってしまった身としては近年の日本のミュージックシーンに極めて疎くなって久しいのですが、最近になってAdoさん*1の楽曲に『過学習』というタイトルのものがあるということを知ったのでした。 一体どこで「過学習」なんてマニアックなテクニカルタームが存在することを知って、あまつさえ楽曲のタ... 続きを読む
36歳でFIREしたデータサイエンティストが、資産形成に役立てた3つのチャートを共有してくれた
上のチャートには、2024年の1月と2月の支出が記録されていて、このチャートをゴールドシュタイン氏は毎朝確認する。 まず、ゴールドシュタイン氏は支出を「固定費(Fixed)」と「変動費(Variable)」の2項目に大別する。その下に食費、家族、娯楽、罪悪感のある楽しみなどといったカテゴリーを設けている。 それぞれのカテ... 続きを読む
『因果推論』(金本拓:オーム社)は因果推論に留まらず現代的なマーケティング分析手法まで網羅したバイブル - 渋谷駅前で働くデータサイエンティストのブログ
因果推論: 基礎から機械学習・時系列解析・因果探索を用いた意思決定のアプローチ 作者:金本 拓オーム社Amazon 著者の金本さんからご指名でご恵贈いただいたのが、こちらの『因果推論 ―基礎から機械学習・時系列解析・因果探索を用いた意思決定のアプローチ―』です。正直に白状しますと、因果推論とタイトルにつく技術書... 続きを読む
2024年版:独断と偏見で選ぶ、データ分析職の方々にお薦めしたいホットトピックス&定番の書籍リスト - 渋谷駅前で働くデータサイエンティストのブログ
毎年四の五の言いながら書いている推薦書籍リスト記事ですが、何だかんだで今年も書くことにしました。なお昨年度版の記事を上にリンクしておきましたので、以前のバージョンを読まれたい方はそちらをお読みください。 今回のバージョンでは、趣向をちょっと変えて「定番」と「注目分野」というように分けました。何故こ... 続きを読む
「入試に数学を課さないデータサイエンス学部」は是か非か - 渋谷駅前で働くデータサイエンティストのブログ
最近の話ですが、以下のようなニュースが話題になっているのを見かけました。 データサイエンス系の学部は文理融合の学びを掲げ、文系の受験生も集めるため、受験科目に「数学」を含まない入試方式を設ける大学も少なくない。河合塾によると、私立大のデータサイエンス系学部・学科における昨春の一般選抜のうち、数学を... 続きを読む
ヒトだからこそ価値を出せる余地は、AIやデータサイエンスの「外側」の本質への関わり方にある - 渋谷駅前で働くデータサイエンティストのブログ
恒例の年末振り返り記事ですが、もうタイトルが示す通りです。例年通りであれば淡々と1年間の業界動向や個人的な学び、はたまたちょっとした私事などを綴るのですが、今年はたまたま良いお題がやってきたのでまず最初にその話を書こうと思います。 生成AIの爆発的な普及と、それに伴って生じた課題 AIやデータサイエンス... 続きを読む
機械学習におけるEDAって結局何するの? - ABEJA Tech Blog
ABEJAでデータサイエンティストをしている服部です。 「EDAって結局何したらいいの?」っていう声をよく聞く気がするので、無謀にも今回はEDAについて記事を書いてみました。 本記事はABEJAアドベントカレンダー2023 25日目の記事です。 EDAとは EDAは「Exploratory Data Analysis」の略で「探索的データ分析」と日本語... 続きを読む
趣味でKaggleを始めたことをきっかけにデータサイエンティストになった話 - Qiita
Kaggleアドベントカレンダー2023の19日目の記事です. TL;DR データ分析未経験からkaggleでどんなことを学んだか 想像していたデータ分析と実業務とのGap kaggleやっていて良かったこと、kaggleでは学ばなかったこと はじめに 趣味でkaggleを始めたことをきっかけに、現在はデータ分析の仕事をしています。 Muj!rush!と... 続きを読む
「仮説ドリブン」という名の甘い罠 - 渋谷駅前で働くデータサイエンティストのブログ
今回の記事では、ちょっと感覚的でふわっとした話をしようと思います。それは「『仮説ドリブン』という考え方には往々にして落とし穴があるのではないか?」という問題提起です。 そもそも、「仮説ドリブン」(仮説駆動型:hypothesis-driven)というアプローチは実験科学分野出身の我が身にとっては、個人的には馴染み... 続きを読む
データサイエンティストに必要な3つのスキルセットとは?くわしく解説
会社のDX推進に欠かせないデータサイエンティストですが、具体的にどのようなスキルを備えている必要があるのでしょうか。今回は一般社団法人データサイエンティスト協会が公開している「データサイエンティストスキルチェックリストver5」の内容に則り、データサイエンティストに求められる3つのスキルセットを解説しま... 続きを読む