タグ Techブログ
人気順 10 users 50 users 100 users 500 users 1000 users差分指向テスト(DOT: Difference Oriented Testing)という考え方 - Techブログ - MNTSQ, Ltd.
はじめに MNTSQ(モンテスキュー)株式会社 フロントエンド担当の安積です。 入社して4ヶ月とちょっと。 コードに取り組もうと入社して、まさに日々格闘しております。 私の後ろの席にはこんなバズ記事書く人や、こんなイカつい記事書く人が座ってまして、そんなプレッシャー期待の中からお送りいたします。 tech.mntsq.co... 続きを読む
Ubuntu を業務PCで使いつづけて3年が経ちました。 〜Web開発にmacOSじゃなくて大丈夫なのか気になる方へ〜 - Techブログ - MNTSQ, Ltd.
MNTSQ(モンテスキュー)株式会社 ソフトウェアエンジニアの沼井です。 普段はRailsでのバックエンド開発をしつつ、Elasticsearchによる全文検索処理やインデクシングまわりの開発にも取り組んでいます。 私は現在、 Thinkpad X1 Carbon (2021年版)にUbuntu 20.04をインストールして開発を行なっています。MNTSQ社以前の経... 続きを読む
Pythonで省メモリに大量の文字列を扱う工夫 - Techブログ - MNTSQ, Ltd.
たくさんの文字列(や離散的な符号列)をメモリに載せないといけないんだけど、いろんな制約があって通常のList[str]では載らない…ということありませんか?(まぁあんまりなさそうですね) たまたまそういうことがあったので、その際に検討した内容をまとめておきます TL;DR メモリをもっと増やしましょう 富豪的に解決... 続きを読む
公開されている日本の企業名辞書の紹介 - Techブログ - MNTSQ, Ltd.
特許・契約書・有価証券報告書・企業関連ニュースなど、実応用上の自然言語処理では、会社名を認識したいという場面に非常に多く出くわす。 会社名らしい文字列をテキストから抽出することは、形態素解析の辞書を用いたり固有表現抽出モデルを学習することである程度実現される一方で、抽出した会社名をレコード化して分... 続きを読む
pythonの依存関係解析ツール、pydepsを使う - Techブログ - MNTSQ, Ltd.
はじめに 皆様はpythonで書かれたソフトウェアのリアーキテクティング1をどのように進めていますでしょうか? 既存のソフトウェアに新規機能が追加しにくいとか、機能が修正しにくい等の問題がある場合にリアーキテクティングは有効です。 リアーキテクティングの初手としては既存のソフトウェアが抱える課題の洗い出し... 続きを読む
身近なデータで30分クッキング:Google Meetのログを解析してみる編 - Techブログ - MNTSQ, Ltd.
最近、身近なスモールデータをさくっと分析してみる機会があったので、過程をまとめてみました。スモールデータの解析であっても、前処理、可視化、示唆出しなどデータ分析に必要な所作というのは変わりません。ステップに分けながら紹介したいと思います。 今回はツールにGoogle Spreadsheetしか使っていないので、ノン... 続きを読む
101回目のDocker入門 - Techブログ - MNTSQ, Ltd.
あなたはDockerに何回入門しただろうか? 何度あのクジラを見て頭を抱えたことだろうか? 今回あなたを「とりあえずDockerを使ってワールドプレスを表示する」ところまで道案内しようと思う。 そう、夢はでっかく世界に羽ばたかないとね。 間違えた、ワードプレスだ。 Dockerって何 ワードプレスって何 Dockerでワードプ... 続きを読む
python3.8 から新しく導入された Literal type について - Techブログ - MNTSQ, Ltd.
はじめに pythonの関数に与える引数として特定の値のみを許容したいときはないでしょうか? そのようなときに、動的に引数の値をチェックして範囲外のものを除外するアサーションや、Enumを用いてとりうる値を絞ることが考えられます。 ですが、前者は動的な値検査しか行えず、後者についてはAPIの引数の型をEnumに変更... 続きを読む
Transformersを用いた固有表現抽出のtips - Techブログ - MNTSQ, Ltd.
TL;DR TransformersのNERではFast Tokenizerを使うことで、サブトークン ↔ ラベルのアラインメントが実装できる。 長いテキスト入力については、無駄なpaddingを最小限にとどめて高速処理するために、入力を固定長分割するのが良い。 検出漏れが問題になるようであれば、ストライド付きのwindow処理を追加するのが良い。... 続きを読む
JuliaとPythonを併用したデータ処理のススメ - Techブログ - MNTSQ, Ltd.
Pythonでデータ処理をしている際、numpyにはまらないごちゃごちゃした前処理があり、ちょっと遅いんだよなぁ。。。となること、ないでしょうか。 ルーチンになっている解析であれば高速化を頑張る意味がありそうですが、新しい解析を試行錯誤している最中など、わざわざ高速化のためのコードをガリガリ書いていくのは辛... 続きを読む
150社のTechブログを分析して見えた、エンジニアが今転職するべき企業ランキング!(データ&クローラーも全公開)
PHPカンファレンス、PyCon JP、builderscon tokyo などのカンファレンスでの登壇についての記事が書かれていました。 これらのカンファレンスで登壇するには、 CfP (発表の募集) に応募して発表の内容がそのカンファレンスの主旨や技術的に価値があると主催者に判断される必要があります。 なのでカンファレンスで登壇す... 続きを読む
そのTechブログ本当に必要ですか? - ブログの「撮れ高」 #PRLT - Speaker Deck
「採用広報」を語る広報LT大会#17@サイボウズ #PRLT 登壇資料 #エンジニア採用 #広報 #Techブログ #技術ブログ あたりの小ネタです. 続きを読む
そのTechブログ本当に必要ですか? - ブログの「撮れ高」 #PRLT - Speaker Deck
「採用広報」を語る広報LT大会#17@サイボウズ #PRLT 登壇資料 #エンジニア採用 #広報 #Techブログ #技術ブログ あたりの小ネタです. 続きを読む
【Techブログ】XGBoostにおける単調性制約について調べてみた | Sansan株式会社
お久しぶりです。DSOC R&Dグループの 中野 です。 今回は、機械学習界隈の皆さんが大好きな XGBoost の一機能と Probability calibration について調べたことを報告します。 背景 社内で解釈しやすい決定木について議論する機会があり、勾配ブースティングのライブラリーであるXGBoostでは 単調性制約 を加えることができることを紹介しました。その場では、「指定した上... 続きを読む
【Techブログ】Pythonで書かれたOSSのコードを最適化してPull Requestがマージされるまで | Sansan株式会社
はじめまして。2018年1月に入社した奥田( @yag_ays )です。 先日、scikit-learn-contribの1つであるCategory Encodersの最適化を実装したPull Requestがマージされたので、そこに至るまでのプロファイルや最適化の過程を紹介したいと思います。 普段、私の仕事は機械学習やデータ分析がメインで、あまりPythonの処理レベルで早いコードを書いたりする... 続きを読む
livedoor Techブログ : Androidを「貧血チェックガジェット」化する!
はじめまして。今回のTechブログを担当する@ianim4です。 まだ、本当の名前はありません。 今回のお題Tech ブログ、スマフォシリーズもだいぶ回を重ねて参りました。今回は、そろそろ何か作ってみましょうと言う事で技術のライブドアとして何がいいかなと、考えてみます… 思いつかないときは、逆立ちをして、数秒待ちます。 はっちゃけた!(古 貧血チェックガジェットを作ることになりました。 どういった... 続きを読む