タグ Kaggleコンペ
人気順 5 users 50 users 100 users 500 users 1000 users(1 - 2 / 2件)
KaggleのNLPコンペで初手に使える可視化 〜BERTopicを用いた文書クラスタリングと可視化〜
BERTopic は、Transformersを用いて文書のトピックモデリングを行うためのPythonライブラリです。本記事では、自分がKaggleコンペの初手EDAによく使うコードをまとめました。 入出力のイメージ 入力: 文章のリスト (例:["I am sure some bashers of Pens fans ...", "My brother is in the market for a high-perform... 続きを読む
1100万行・32GB超の巨大CSVファイルの基本統計量を4GBメモリマシンで算出する - Qiita
はじめに この記事は,Kaggle Advent Calendar 2022第6日目の記事になります。 本記事では、 32GB超のCSVデータの基本統計量を、小規模マシンでも省メモリかつ高速に計算するテクニック について解説します。 Kaggleコンペに限らず、 マシンスペックが低いため、大きなデータセットを満足に処理できず困っている 毎回行... 続きを読む
(1 - 2 / 2件)