タグ データサイエンティスト
人気順 10 users 50 users 100 users 500 users 1000 users多重共線性のはなし - 渋谷駅前で働くデータサイエンティストのブログ
どうも昨年末にあちこちで多重共線性についての議論がなされていたようなんですが、些事にかまけていた僕はすっかりそのウェーブに乗り損ねてしまっていたのでした。そこで、今年最初の記事では遅ればせながらそのウェーブに乗る形で、また今までに学んだり調べてきたりしてきたことの備忘録も兼ねて、多重共線性につい... 続きを読む
肩こりが気になって本格的な古式マッサージに行ったあとで左腕と顔が痺れてきた→Xでアドバイスをもらい救急車で運ばれることに
ほんだたかと@Mellon @t_honda 博士(工学) 。メロンという会社(melloninc.jp)でデータサイエンティストをやっています。 AI人材マッチングプラットフォーム『Amie』(amie.melloninc.jp)も運営しています。 takatohonda.github.io/jp ほんだたかと@Mellon @t_honda デスクワークの肩こりが気になるので本格的なタイ... 続きを読む
AIに「もっといいコードを書いて」と繰り返し要求するとコードの実行速度は向上するがバグが増えるという報告
近年のAI分野の発展により、一部のソフトウェア開発者らはAIを使ってコードを生成するようになっており、AIを使ってプログラミングをサポートするツールも登場しています。そんな中でデータサイエンティストのマックス・ウルフ氏が、AIに「もっといいコードを書いて」と繰り返し要求し続けるとどうなるのかを実験した結... 続きを読む
機械学習エンジニアやデータサイエンティストにもウケるノベルティが作りたい - エムスリーテックブログ
ギークな技術者の皆様、こんにちは。メリークリスマス。 リモートワークで運動不足を感じているため、VTuberのリングフィットアドベンチャーのプレイ動画を見て気を紛らわしています、VPoEの河合(@vaaaaanquish)です。 本記事はエムスリーアドベントカレンダー2024の最終日の記事にあたります。 エムスリーアドベントカ... 続きを読む
入社エントリ 〜金融機関からの転職者からみたInsight Edgeの幅広さ〜 - Insight Edge Tech Blog
Insight Edge(以降IE)でデータサイエンティストをしております市川です。技術部の分析チームと、戦略企画部に属しております。この12月現在で入社7ヶ月が経過しましたので振り返りと学びをシェアできればと考えております! 自己紹介と入社のきっかけ 自己紹介 私の経歴を簡単に紹介しますと、 転職は3回目ですが、途中... 続きを読む
ビジネス実務で「正しいデータ分析」を行うということ - 渋谷駅前で働くデータサイエンティストのブログ
一般に、ビジネス実務におけるデータ分析というと、経営者や各種ビジネス部門の責任者といったステークホルダーたちが「ビジネス上の意思決定のためのエビデンス」を得る目的で、往々にして社内外のデータ分析の専門家たちに依頼して実施させるものであることが多いかと思います。 そうすると、データ分析業界では太古の... 続きを読む
入社エントリ〜転職半年の目から見た Insight Edge〜 - Insight Edge Tech Blog
はじめに はじめまして、5月に入社したデータサイエンティストの白井です! 入社して半年ほど経ち、会社や仕事のことが少しずつ見えてきたこのタイミングで、改めて転職時の思いの振り返りと、実際働いてみた上でのInsight Edgeについて、書いてみようと思います。 Insight Edgeでは”入社エントリ”という形で記事を作る... 続きを読む
LLMには"Super Weights"があるという話と、現実のヒトの脳との関連性を考えてみる - 渋谷駅前で働くデータサイエンティストのブログ
X (Twitter)を眺めていたら、面白そうな論文が流れてきました。それがこちらです。 実際に流れてきたのはこちらの紹介記事なんですが、その要約を読んだ限りでもなかなかに興味深い現象であるように思われます。 ということで、何番煎じかもはや分かりませんがこのブログでも備忘録的に取り上げてみようと思います。が、... 続きを読む
松尾研究所のデータサイエンティストが今年の業務に役立ったと思う本10選
こんにちは、株式会社松尾研究所シニアデータサイエンティストの浮田です。本記事は、松尾研究所 Advent Calendar 2024の記事です。 私は今年、業務周辺のビジネス書や技術書を読むのに時間を割くよう心がけてきました。これはビジネススキルにしろ技術にしろ、業務ドリブンに都度調べるだけでは習得できるスキルに限界... 続きを読む
"#国民民主党に騙されたな"をポストしたアカウントの素性を調べる|破綻国家研究所
どうも、データサイエンティストで飯を食ってる破綻国家研究所です。 今回は本題にあるように、"#国民民主党に騙されたな"をポストしたアカウントの素性を調べてみました。 はじめに2024/10/31 の15時半くらいのこと。私が休憩がてらスマホでXを見ていると #国民民主党に騙されたな がトレンド入り。 「あー、いつものや... 続きを読む
欠損値処理に関する備忘録 - 渋谷駅前で働くデータサイエンティストのブログ
最近某所で話題になっていたのが「欠損値処理はどうやるべきか」というテーマ。これは太古の昔から「荒れるテーマ」として有名で、今回も大いに荒れていて傍観している側としては面白かったんですが(笑)、古老ともあろう身がただ面白がっているだけでは自分を含めて誰の学びにもならないので、良い機会ということでち... 続きを読む
「エンジニアはビジネスを学べ!」に違和感を感じるあなたへ|AIcia Solid Laboratory
まず結論!IT エンジニアやデータサイエンティストと呼ばれる人には2種類います。 「ビジネスマンの中の技術担当」「技術者の中のビジネス領域担当」です。 ビジネスマンの中の技術担当なら、ビジネスも学んだほうがいいです。 技術者の中のビジネス領域担当なら、技術を学んだほうが良いです。 自分がどちらかを見極め... 続きを読む
機械学習パイプラインLuigiのタスク同士の関係を良い感じに可視化する方法 - ドワンゴ教育サービス開発者ブログ
はじめに ドワンゴ教育事業でデータサイエンティストとして働いている中井です。 この記事では、PythonのパイプラインパッケージであるLuigiで構築したパイプラインにおいて、それを構成するタスク間の依存関係・タスクのグループ間(task_namespace で分けられる)の依存関係を良い感じに出力する方法についてお話しし... 続きを読む
「見せかけの回帰」の復習 - 渋谷駅前で働くデータサイエンティストのブログ
先日のことですが、Querie.meでこんな質疑がありました。 これは非常にご尤もなご意見であり、実際この問題提起に近いシチュエーションを見かけたことは五本の指では数え切れないくらいあります。ということで、今回の記事では元々の問題意識ともいえる「見せかけの回帰」について、久しぶりにちょっと復習を兼ねて書い... 続きを読む
偏りのあるコインを使ってより厳密に五分五分の確率を判定するにはどうすればいいのか?
コインを投げた時に表が出る確率と裏が出る確率は理論上等しく2分の1になります。ここで、表が出る確率が2分の1にならない「偏りのあるコイン」を想定した時、「偏りのあるコインを使って2分の1という公平な確率を表現するためにはどのように操作すればいいのか」という問題について、データサイエンティストのマートン... 続きを読む
AIや機械学習が持て囃されて、統計分析やデータ可視化がいまいち主流になれない理由 - 渋谷駅前で働くデータサイエンティストのブログ
先日のことですが、こんなことを放言したら思いの外伸びてしまいました。 データ可視化は一時期物凄く流行った割に今はパッとしない印象があるんだけど、それは結局のところデータ可視化が「見る人に『考えさせる』仕組み」だからだと思う。現実の世の中では、大半の人々は自分の頭で考えたくなんかなくて、確実に当たる... 続きを読む
技術者も知っておくべきプレゼン資料作成術:社内研修会レポート - Insight Edge Tech Blog
Introduction こんにちは、データサイエンティストの善之です。 Insight Edgeの分析チームでは、有志が技術テーマについて1時間枠で講義し、チーム内でディスカッションを行う「技術研修会」を不定期に実施しています。 先日の研修会では、チーム内でのアンケート結果から最も希望が多かった「プレゼン資料作成術」をテ... 続きを読む
『ベイズデータ解析』はベイズ統計学を用いる全ての実務家が座右に置くべき第一級の鈍器 - 渋谷駅前で働くデータサイエンティストのブログ
ベイズデータ解析(第3版) 森北出版Amazon 先日のことですが、『ベイズデータ解析』を訳者のお一人菅澤さんからご恵贈いただきました。もう一目見ただけで「鈍器」以外の語が出てこないくらいの立派な鈍器で(笑)、原著のBDA3*1に負けないくらいの鈍器っぷりが見事な一冊です。菅澤さんといえば名著『標準ベイズ統計学』... 続きを読む
実務において回帰分析を行うに当たっての注意点を改めて挙げてみる - 渋谷駅前で働くデータサイエンティストのブログ
先日のことですが、以下のニュースが統計的学習モデル界隈で話題になっていました。 肝心の箇所が会員限定コンテンツなので簡潔にまとめると、従来モデルよりも説明変数に入れる海域の数を増やした上で、Lasso(L1正則化)回帰で多重共線性を抑えつつ汎化性能を高めるというアプローチを取った、というお話です*1。これ... 続きを読む
RAGのSurvey論文からRAG関連技術を俯瞰する - 元生技のデータサイエンティストのメモ帳
大規模言語モデル (LLM) の学習データに含まれない知識(各社の特有の書類など)を踏まえてLLMに回答させる際に最早必須となってきたRAG (Retrieval-Augumented Generation)。 今回はそんなRAGのSurvey論文を元に、RAGの変遷や構成要素、新たに出てきた技術を俯瞰していきます。 Survey論文へのリンクはこちら arxiv.org... 続きを読む
イケてるダッシュボードを作りたい!アナリストが自分自身の仕事を分析してみた - MonotaRO Tech Blog
こんにちは!MonotaROで3年ほどアナリストをしている杉田です。1年前にマーケティング部門マーケティングサイエンスグループに異動し、現在はマーケティング施策の効果検証手法や売上予測手法の改善に取り組んでいます。データサイエンス領域でのスキルアップを目指しており、アナリストとデータサイエンティストの間と... 続きを読む
自動プロンプト最適化をやってみた - Algomatic Tech Blog
はじめまして!データサイエンティストの山内(@jof_5)です。 本記事では、日々、プロンプト開発されている皆様に向けて、プロンプトを効率的に開発する手法の一つである「自動プロンプト最適化」について記載いたします。 1. プロンプトエンジニアリングの必要性と課題 2. 自動プロンプト最適化について 2-0. 最適なプロ... 続きを読む
機械学習を使う仕事に比して、統計学を使う仕事が産業界に少ない理由 - 渋谷駅前で働くデータサイエンティストのブログ
近年のデータサイエンティスト界隈では、僕が以前スキル要件記事でも提唱した通りの「ソフトウェアエンジニアの延長としての機械学習エンジニア」(機械学習メイン)と「アナリストの延長としてのデータサイエンティスト」(統計学メイン)とにキャリアもポジションもカルチャーも分化するようになって久しい印象がある... 続きを読む
生成AIによる「慣用表現の『乗っ取り』」と、その根底にある別の問題と - 渋谷駅前で働くデータサイエンティストのブログ
かなり前から「ChatGPTに学術論文を(英語で)書かせると"delve"のような普段使わないような単語が多く使われるのでバレやすい」という話がSNS以下各所で頻繁に噂されていたんですが*1、最近になってこの件について面白いpreprintが発表されていたのを知りました。それがこちらです。 もう読んで字の如しで「ChatGPTが登... 続きを読む
過学習(過剰適合)のはなし - 渋谷駅前で働くデータサイエンティストのブログ
すっかりおじさんになってしまった身としては近年の日本のミュージックシーンに極めて疎くなって久しいのですが、最近になってAdoさん*1の楽曲に『過学習』というタイトルのものがあるということを知ったのでした。 一体どこで「過学習」なんてマニアックなテクニカルタームが存在することを知って、あまつさえ楽曲のタ... 続きを読む