タグ データサイエンティスト
人気順 5 users 10 users 100 users 500 users 1000 users"#国民民主党に騙されたな"をポストしたアカウントの素性を調べる|破綻国家研究所
どうも、データサイエンティストで飯を食ってる破綻国家研究所です。 今回は本題にあるように、"#国民民主党に騙されたな"をポストしたアカウントの素性を調べてみました。 はじめに2024/10/31 の15時半くらいのこと。私が休憩がてらスマホでXを見ていると #国民民主党に騙されたな がトレンド入り。 「あー、いつものや... 続きを読む
「エンジニアはビジネスを学べ!」に違和感を感じるあなたへ|AIcia Solid Laboratory
まず結論!IT エンジニアやデータサイエンティストと呼ばれる人には2種類います。 「ビジネスマンの中の技術担当」「技術者の中のビジネス領域担当」です。 ビジネスマンの中の技術担当なら、ビジネスも学んだほうがいいです。 技術者の中のビジネス領域担当なら、技術を学んだほうが良いです。 自分がどちらかを見極め... 続きを読む
「見せかけの回帰」の復習 - 渋谷駅前で働くデータサイエンティストのブログ
先日のことですが、Querie.meでこんな質疑がありました。 これは非常にご尤もなご意見であり、実際この問題提起に近いシチュエーションを見かけたことは五本の指では数え切れないくらいあります。ということで、今回の記事では元々の問題意識ともいえる「見せかけの回帰」について、久しぶりにちょっと復習を兼ねて書い... 続きを読む
AIや機械学習が持て囃されて、統計分析やデータ可視化がいまいち主流になれない理由 - 渋谷駅前で働くデータサイエンティストのブログ
先日のことですが、こんなことを放言したら思いの外伸びてしまいました。 データ可視化は一時期物凄く流行った割に今はパッとしない印象があるんだけど、それは結局のところデータ可視化が「見る人に『考えさせる』仕組み」だからだと思う。現実の世の中では、大半の人々は自分の頭で考えたくなんかなくて、確実に当たる... 続きを読む
技術者も知っておくべきプレゼン資料作成術:社内研修会レポート - Insight Edge Tech Blog
Introduction こんにちは、データサイエンティストの善之です。 Insight Edgeの分析チームでは、有志が技術テーマについて1時間枠で講義し、チーム内でディスカッションを行う「技術研修会」を不定期に実施しています。 先日の研修会では、チーム内でのアンケート結果から最も希望が多かった「プレゼン資料作成術」をテ... 続きを読む
『ベイズデータ解析』はベイズ統計学を用いる全ての実務家が座右に置くべき第一級の鈍器 - 渋谷駅前で働くデータサイエンティストのブログ
ベイズデータ解析(第3版) 森北出版Amazon 先日のことですが、『ベイズデータ解析』を訳者のお一人菅澤さんからご恵贈いただきました。もう一目見ただけで「鈍器」以外の語が出てこないくらいの立派な鈍器で(笑)、原著のBDA3*1に負けないくらいの鈍器っぷりが見事な一冊です。菅澤さんといえば名著『標準ベイズ統計学』... 続きを読む
実務において回帰分析を行うに当たっての注意点を改めて挙げてみる - 渋谷駅前で働くデータサイエンティストのブログ
先日のことですが、以下のニュースが統計的学習モデル界隈で話題になっていました。 肝心の箇所が会員限定コンテンツなので簡潔にまとめると、従来モデルよりも説明変数に入れる海域の数を増やした上で、Lasso(L1正則化)回帰で多重共線性を抑えつつ汎化性能を高めるというアプローチを取った、というお話です*1。これ... 続きを読む
RAGのSurvey論文からRAG関連技術を俯瞰する - 元生技のデータサイエンティストのメモ帳
大規模言語モデル (LLM) の学習データに含まれない知識(各社の特有の書類など)を踏まえてLLMに回答させる際に最早必須となってきたRAG (Retrieval-Augumented Generation)。 今回はそんなRAGのSurvey論文を元に、RAGの変遷や構成要素、新たに出てきた技術を俯瞰していきます。 Survey論文へのリンクはこちら arxiv.org... 続きを読む
自動プロンプト最適化をやってみた - Algomatic Tech Blog
はじめまして!データサイエンティストの山内(@jof_5)です。 本記事では、日々、プロンプト開発されている皆様に向けて、プロンプトを効率的に開発する手法の一つである「自動プロンプト最適化」について記載いたします。 1. プロンプトエンジニアリングの必要性と課題 2. 自動プロンプト最適化について 2-0. 最適なプロ... 続きを読む
生成AIによる「慣用表現の『乗っ取り』」と、その根底にある別の問題と - 渋谷駅前で働くデータサイエンティストのブログ
かなり前から「ChatGPTに学術論文を(英語で)書かせると"delve"のような普段使わないような単語が多く使われるのでバレやすい」という話がSNS以下各所で頻繁に噂されていたんですが*1、最近になってこの件について面白いpreprintが発表されていたのを知りました。それがこちらです。 もう読んで字の如しで「ChatGPTが登... 続きを読む
36歳でFIREしたデータサイエンティストが、資産形成に役立てた3つのチャートを共有してくれた
上のチャートには、2024年の1月と2月の支出が記録されていて、このチャートをゴールドシュタイン氏は毎朝確認する。 まず、ゴールドシュタイン氏は支出を「固定費(Fixed)」と「変動費(Variable)」の2項目に大別する。その下に食費、家族、娯楽、罪悪感のある楽しみなどといったカテゴリーを設けている。 それぞれのカテ... 続きを読む
『因果推論』(金本拓:オーム社)は因果推論に留まらず現代的なマーケティング分析手法まで網羅したバイブル - 渋谷駅前で働くデータサイエンティストのブログ
因果推論: 基礎から機械学習・時系列解析・因果探索を用いた意思決定のアプローチ 作者:金本 拓オーム社Amazon 著者の金本さんからご指名でご恵贈いただいたのが、こちらの『因果推論 ―基礎から機械学習・時系列解析・因果探索を用いた意思決定のアプローチ―』です。正直に白状しますと、因果推論とタイトルにつく技術書... 続きを読む
2024年版:独断と偏見で選ぶ、データ分析職の方々にお薦めしたいホットトピックス&定番の書籍リスト - 渋谷駅前で働くデータサイエンティストのブログ
毎年四の五の言いながら書いている推薦書籍リスト記事ですが、何だかんだで今年も書くことにしました。なお昨年度版の記事を上にリンクしておきましたので、以前のバージョンを読まれたい方はそちらをお読みください。 今回のバージョンでは、趣向をちょっと変えて「定番」と「注目分野」というように分けました。何故こ... 続きを読む
「入試に数学を課さないデータサイエンス学部」は是か非か - 渋谷駅前で働くデータサイエンティストのブログ
最近の話ですが、以下のようなニュースが話題になっているのを見かけました。 データサイエンス系の学部は文理融合の学びを掲げ、文系の受験生も集めるため、受験科目に「数学」を含まない入試方式を設ける大学も少なくない。河合塾によると、私立大のデータサイエンス系学部・学科における昨春の一般選抜のうち、数学を... 続きを読む
趣味でKaggleを始めたことをきっかけにデータサイエンティストになった話 - Qiita
Kaggleアドベントカレンダー2023の19日目の記事です. TL;DR データ分析未経験からkaggleでどんなことを学んだか 想像していたデータ分析と実業務とのGap kaggleやっていて良かったこと、kaggleでは学ばなかったこと はじめに 趣味でkaggleを始めたことをきっかけに、現在はデータ分析の仕事をしています。 Muj!rush!と... 続きを読む
「仮説ドリブン」という名の甘い罠 - 渋谷駅前で働くデータサイエンティストのブログ
今回の記事では、ちょっと感覚的でふわっとした話をしようと思います。それは「『仮説ドリブン』という考え方には往々にして落とし穴があるのではないか?」という問題提起です。 そもそも、「仮説ドリブン」(仮説駆動型:hypothesis-driven)というアプローチは実験科学分野出身の我が身にとっては、個人的には馴染み... 続きを読む
中学英語レベルの純日本人理系大学生が、1ヶ月ちょいでAI駆使して卒論7割終わらせながらTOEIC 900超えた話 - Qiita
中学英語レベルの純日本人理系大学生が、1ヶ月ちょいでAI駆使して卒論7割終わらせながらTOEIC 900超えた話PythonAITOEICChatGPTclaude はじめに データサイエンティストを目指して日々勉強している、慶應大学理工学部4年生(2023.11.14時点) 取得資格、コンペ優勝経験など、リアルタイムの情報は👇👇👇をみてね X: @A7_... 続きを読む
データセットの本質的な性質を踏まえないデータ分析には、大抵何の意味もない - 渋谷駅前で働くデータサイエンティストのブログ
前回のブログ記事は、論文紹介という地味なテーマだったにしてはだいぶ話題を呼んだ*1ようで、個人的にはちょっと意外な感があったのでした。確かに、今をときめくTransformerにも苦手なものがあるという指摘は、NN一強の現代にあってはセンセーショナルなものと受け止められても不思議はなかったかと思います。 しかし... 続きを読む
2023年版「データサイエンティストスキルチェックリスト」が無料公開 生成AIの利活用スキルなどを追加
データサイエンティスト協会は10月30日、「データサイエンティストスキルチェックリスト」の第5版を公開した。データサイエンティストに必要とされるスキルをまとめたもので、新たに生成AIに関する項目を加えた。同協会のWebサイトで無料でダウンロードできる。 2021年に公開した第4版から内容を改修したもので、生成AI... 続きを読む
「機械学習で時系列予測はできるのか」論議がTransformerと共に帰ってきた - 渋谷駅前で働くデータサイエンティストのブログ
先日、こちらのポストをお見かけしました。 AI技術開発部の高橋が社内勉強会の資料「時系列予測にTransformerを使うのは有効か?」を公開しました。 論文Are Transformers Effective for Time Series Forecastingの紹介を中心に、時系列予測について解説しています。ぜひご覧ください。https://t.co/LplxTT8b1d pic.twit... 続きを読む
新卒向け「統計学の基礎」100ページ超 SaaS企業が無料で資料公開
今回の無料公開は、ブレインパッドで働く有志のデータサイエンティストが技術資料などを外部に発信するプロジェクト「OpenBrainPad」の一環。「統計学をこれから学ぶ人も復習する人もぜひ利用してほしい」(ブレインパッド)という。同プロジェクトでは、過去にはプログラムのバージョンを管理するシステム「Git」のハン... 続きを読む
10年経ってもついに消えずに残った、データサイエンティストという職業 - 渋谷駅前で働くデータサイエンティストのブログ
このブログでも何度か引用しているこちらの記事で、「データサイエンティストという職業は10年以内に消える」という趣旨の議論がされていたのがちょうど10年前の2013年でした。ちなみにこの記事はついているブックマーク数に比して当時は結構注目を集めたという記憶があり、割と業界内では「確かにこんな中途半端な職業... 続きを読む
GPTが単純に回答するだけでなく、動的に振る舞えるようになる Groundingを使ったプロンプティング「ReAct」の流れ
ユーザーの立場ではAIネイティブな働き方が身近に迫っており、データサイエンティストやMLエンジニアにとってはGPTを活用した開発を意識する必要が出てくる中、マイクロソフトの取り組みやML開発のパラダイムシフトをご紹介する「ChatGPTによって描かれる未来とAI開発の変遷」。ここで日本マイクロソフト株式会社の蒲生... 続きを読む
ChatGPTの新機能「Code interpreter」にアパレル店舗の売上分析をお願いしたらデータサイエンティストが不要になった|GPTimes
ChatGPTの新機能「Code interpreter」にアパレル店舗の売上分析をお願いしたらデータサイエンティストが不要になった 2023年7月7日頃に日本でも利用できるようになったChatGPTの新機能「Code interpreter」が凄いと話題なので、架空のアパレル店舗の売上データを元に売上を上げるための分析を依頼してみました。 どうせ... 続きを読む
エンジニア・データ分析職の方々にお薦めしたい、LLM時代に不可欠な教養が身に付くテキスト3選 - 渋谷駅前で働くデータサイエンティストのブログ
(『IT Text 自然語処理の基礎』より) 3ヶ月ほど前に空前のLLMブームについて概観する記事を書きましたが、それ以降も世間のLLMに対する狂騒ぶりは収まるどころかますます拍車がかかるという有様で、あまつさえ僕自身の仕事における日常業務にもじわじわと影響が及びつつあり、今後も良きにつけ悪しきにつけLLMと共生し... 続きを読む