はてブログ

はてなブックマーク新着エントリーの過去ログサイトです。



タグ Out-of-the-box

新着順 人気順 5 users 10 users 50 users 100 users 500 users 1000 users
 
(1 - 7 / 7件)
 

精度向上のために機械学習プロダクト全体をフルスクラッチで書き直した話 - Out-of-the-box

2021/02/02 このエントリーをはてなブックマークに追加 8 users Instapaper Pocket Tweet Facebook Share Evernote Clip フルスクラッチ Ubie 入社 機械学習エンジニア 半年

2020年7月から医療スタートアップのUbieで機械学習エンジニアをしています。ようやく入社から半年くらいが経ちましたので、ここ最近やっていた仕事として、機械学習プロダクトの精度向上のためにシステム全体をフルスクラッチでかつ一人で実装し直した話をしたいと思います。 機械学習は既に様々な会社でプロダクトに組... 続きを読む

Sansanを退職してUbieに入社します - Out-of-the-box

2020/06/01 このエントリーをはてなブックマークに追加 12 users Instapaper Pocket Tweet Facebook Share Evernote Clip Sansan Ubie

2018年1月より2年半勤めたSansan株式会社を退社して、2020年7月よりUbie株式会社に入社します。現在は現職の有給消化中で少し気が早いですが、退職エントリを書きたいと思います。前回の転職エントリは手短だったので、今回は自分の仕事内容と絡めつつ互いの会社のことやデータサイエンスのキャリアのことについて長めに... 続きを読む

pytorchでBERTの日本語学習済みモデルを利用する - 文章埋め込み編 - Out-of-the-box

2019/06/06 このエントリーをはてなブックマークに追加 16 users Instapaper Pocket Tweet Facebook Share Evernote Clip Bert PyTorch

概要 BERT (Bidirectional Encoder Representations from Transformers) は、NAACL2019で論文が発表される前から大きな注目を浴びていた強力な言語モデルです。これまで提案されてきたELMoやOpenAI-GPTと比較して、双方向コンテキストを同時に学習するモデルを提案し、大規模コーパスを用いた事前学習とタスク固有のfine... 続きを読む

SWEM: 単語埋め込みのみを使うシンプルな文章埋め込み - Out-of-the-box

2019/05/29 このエントリーをはてなブックマークに追加 14 users Instapaper Pocket Tweet Facebook Share Evernote Clip Doc2Vec 単語 分散表現 手法 文章

単語埋め込み (Word Embedding) のみを利用して文章埋め込み (Sentence Embedding) を計算するSWEM (Simple Word-Embedding-based Methods) を実装しました。 概要 文章に対する固定次元の分散表現を得る手法としては、doc2vecやSkip-thoughts、テキスト間の含意関係を学習することで分散表現を得るinfersent、最近では... 続きを読む

深層学習時代の言語判定の最新動向 - Out-of-the-box

2019/05/05 このエントリーをはてなブックマークに追加 24 users Instapaper Pocket Tweet Facebook Share Evernote Clip 言語 言語判定 文字列 深層学習時代 概要

概要 言語判定(Language identification)とは、与えられた文字列が何語で書かれているかを判定するタスクです。例えば「こんにちは」なら日本語、「Hello World.」なら英語といったように、世界各国で話されている言語のうち何に属するかを推定するというものです。 これだけ聞くと非常に簡単な問題のように思えますよ... 続きを読む

Out-of-the-box - 単語埋め込みにおけるout-of-vocabularyの対応 - magnitudeの初期化

2019/02/28 このエントリーをはてなブックマークに追加 20 users Instapaper Pocket Tweet Facebook Share Evernote Clip EMNLP Kaggle ライブラリ 論文 文字列

概要 magnitudeという単語埋め込みを扱うライブラリには、単語を構成する文字列を考慮したout-of-vocabularyの初期化の方法が実装されています。EMNLP 2018の論文と実際のコードを元に、その初期化の方法を実装して試してみました。 背景 KaggleのQuora Insincere Questionsコンペを終えて KaggleのQuora Insecure Quest... 続きを読む

Out-of-the-box - A La Carte Embeddingの実装

2018/12/07 このエントリーをはてなブックマークに追加 27 users Instapaper Pocket Tweet Facebook Share Evernote Clip Ngram 既知 実装 文脈 単語

ACL2018にて発表された“A La Carte Embedding: Cheap but Effective Induction of Semantic Feature Vectors”を実装しました。未知語やngramなどの単語埋め込みを既知の学習済みベクトルから計算する手法です。 この記事はSansan Advent Calendar 2018 の8日目の記事です。 概要 “A La Carte Embedding”は、文脈における... 続きを読む

 
(1 - 7 / 7件)