タグ ABEJA Tech Blog
人気順 10 users 50 users 100 users 500 users 1000 usersMegatron-LMとGKEで作るMixtral 8x7Bを語彙拡張継続事前学習 Part1 ~学習コードとモデルの先行公開~ - ABEJA Tech Blog
こんにちは!ABEJAでデータサイエンティストをしている大谷です。 ABEJAは国立研究開発法人新エネルギー・産業技術総合開発機構(以下「NEDO」)が公募した「ポスト5G情報通信システム基盤強化研究開発事業/ポスト5G情報通信システムの開発」に当社提案の「LLMの社会実装に向けた特化型モデルの元となる汎化的LLM」が採... 続きを読む
社内用語集を気軽に質問できるSlackBotを作ってみた (RAGの応用アプリ) - ABEJA Tech Blog
こんにちは!株式会社 ABEJA で ABEJA Platform 開発を行っている坂井(GitHub : @Yagami360)です。 LangChain を使用すれば、RAG [Retrieval Augment Generation] を使用した LLM アプリケーションを簡単に作成できるので便利ですよね。 今回 LangChain での RAG を使用して、LLM が学習に使用していない特定ドメイン... 続きを読む
機械学習におけるEDAって結局何するの? - ABEJA Tech Blog
ABEJAでデータサイエンティストをしている服部です。 「EDAって結局何したらいいの?」っていう声をよく聞く気がするので、無謀にも今回はEDAについて記事を書いてみました。 本記事はABEJAアドベントカレンダー2023 25日目の記事です。 EDAとは EDAは「Exploratory Data Analysis」の略で「探索的データ分析」と日本語... 続きを読む
AWS Config が高いと感じたら。AWS Config のコストを15分の1に下げた話 - ABEJA Tech Blog
切っ掛けと問題の認識 AWS Config のカウント数の監視 対象外にしたいリソースが見つかったら AWS Config 側で除外する 実際のコスト削減効果 なぜもともとコストが高かったのか まとめ こんにちは、ABEJAの村主です。 今回は、意外にも高額になりがちなAWS Configのコスト削減について、どのように対応したかをご紹介し... 続きを読む
色々な生成AIモデルをColabで動かして今年を振り返る - ABEJA Tech Blog
こんにちは、ラボで研究開発をしたりプロトタイプを作っている藤本(X(Twitter))です。ここ近年、生成AIの勢いが凄いです。最近は一夜明けたら世界が変わっているみたいなことがしょっちゅう起きています。そんな状況なので、なかなか世の中についていくのが難しいのではないかと思います。そこで今回は、これまでに色々... 続きを読む
GitHub Copilot はどのようにして空気を読むか? - ABEJA Tech Blog
"Everything is true," he said. "Everything anybody has ever thought." この記事は ABEJA Advent Calendar 2023 の 17 日目の記事です。 こんにちは。システム開発部の石川 (@ishikawa) です。昨年のいまごろは Objective-C ばかり書いていましたが、今年は念願の Swift で QR コードリーダーを書き直したり、React N... 続きを読む
LangChainを使わない - ABEJA Tech Blog
TL; DR LangChainのメリデメを整理する過程で、今となってはopenai-pythonのうちChatGPTのAPIをを簡単に取り回せる程度のシンプルなライブラリがあるだけでも十分便利なんじゃないかと思ったので、ライブラリを個人で作ってみました。(バージョン0.0.1なのでちょっとお粗末な所もありますが) github.com はじめに こん... 続きを読む
コンペで使える!?LightGBMで実装する3つの弱教師あり学習 - ABEJA Tech Blog
ABEJAでデータサイエンティストをしている小林です。 今回は、もしかしたらいつか業務や機械学習コンペに役立つかもしれない情報、LightGBMで弱教師あり学習を行う方法についてお話します。 コードはこちらで公開しております。 目次 はじめに 弱教師あり学習の例(マルチインスタンス学習) LightGBMで弱教師あり学習が... 続きを読む
ChatGPT の仕組みを理解する(前編) - ABEJA Tech Blog
こんにちは!株式会社 ABEJA で ABEJA Platform 開発を行っている坂井(@Yagami360)です。世間では ChatGPT などの大規模言語モデル(LLM)による対話型 AI が盛り上がってますね。クオリティーも凄いし AI 業界以外でも盛り上がってると嬉しいですよね。この数年で一段と AI の社会実装が業界以外の人にも目に見える形... 続きを読む
外部データをRetrievalしてLLM活用する上での課題と対策案 - ABEJA Tech Blog
はじめに ABEJAでデータサイエンティストをしている服部です。 今回はLLMで外部データを使うケースについてのお話をしたいと思います。 はじめに LLMと外部データの利用 RetrievalとLLM 0. (事前準備)参照したいテキストデータをDBに格納 1. ユーザの入力文とのテキスト類似度を計算して、関連テキストを抽出する(Retrie... 続きを読む
暗号の歴史と現代暗号の基礎理論(RSA, 楕円曲線)-前半- - ABEJA Tech Blog
はじめに このブログに書かれていること 自己紹介 注意 Part1 古典暗号 2つの暗号方式 スキュタレー暗号 アルゴリズムと鍵 シーザー暗号 原理 頻度分析 アルベルティ暗号 ヴィジュネル暗号 如何にしてヴィジュネル暗号は破られたか Part2 近代暗号 エニグマ エニグマの登場 エニグマの基本構造 如何にしてエニグマは突破... 続きを読む
暗号の歴史と現代暗号の基礎理論(RSA, 楕円曲線)-後半- - ABEJA Tech Blog
はじめに このブログに書かれていること 自己紹介 注意 Part3 現代の暗号 共通鍵暗号方式と鍵配送問題 鍵配送問題とは? 共通鍵暗号方式と公開鍵暗号方式の違いとメリット・デメリット RSA暗号 RSAで使われる鍵 処理手順 暗号化の手順 復号化の手順 RSA暗号の数学的背景 一次不定式が自然数解を持つ理由 eとLの関係性 そ... 続きを読む
つよつよ自作PC作成日記 ~RTX4090で最強の推論環境を作る~ - ABEJA Tech Blog
こんにちは。 2022/09にABEJAに入社したシステムエンジニアの中島です。 本記事はABEJAアドベントカレンダー2022の22日目の記事です! 目次 目次 初めに 動機 0日目 機材購入 1日目 構成 機材確認 マザーボードへのCPU取り付け ケースへのクーラー取り付け マザーボードのケースへの取り付け 2日目 テスト テスト失敗 ->... 続きを読む
Stable Diffusion の仕組みを理解する - ABEJA Tech Blog
この記事は、ABEJAアドベントカレンダー2022 の 19 日目の記事です。 こんにちは!株式会社 ABEJA で ABEJA Platform 開発を行っている坂井です。 世間では Diffusion Model 使った AI による画像生成が流行っているみたいですね。 自分は元々 Computer Vision 系の機械学習エンジニアだったんですが、この1年くらいは ... 続きを読む
AI生成物と著作権とAI倫理 - ABEJA Tech Blog
本記事はABEJAアドベントカレンダー2022の17日目の記事です!昨日に引き続き担当の古川です! 昨日の予告通り生成AIによるAI生成物の著作権と倫理の話です。 生成AIと言っても主に念頭に置いているのは画像生成AIです(議論の発端自体はmimicやMidjourneyです。)。ただ、他のコンテンツを生成するAIにも基本的には同じ... 続きを読む
非エンジニアがNotion+Wraptasをつかって、一ヵ月で採用サイトをつくった話 - ABEJA Tech Blog
はじめまして! コーポレートデザイン統括部人事グループの本坊といいます。 ABEJAアドベントカレンダー2022の15日目の記事を担当させていただきます。 ABEJAでは、エンジニアやデータサイエンティストだけでなく、ビジネス職含め、様々なポジションで仲間を募集しています! 少しでも興味がある方は、情報交換からでも... 続きを読む
GPTでKey作品の名言から文章を生成してみた - ABEJA Tech Blog
目次 目次 はじめに そもそもGPTとは 日本語データセットで学習されたGPT 入力文章 GPTによる生成コード 出力結果 ChatGPTで生成 まとめ ABEJAについて はじめに 本記事はABEJAアドベントカレンダー2022の13日目の記事です。 こんにちは!カスタマーサクセス統括部 データサイエンスグループでインターンをやらせていた... 続きを読む
オフィスDXを支える技術2022年版(チャットツール連携編) - ABEJA Tech Blog
ABEJA Advent Calendar 2022 11日目の記事です。昨日は服部さんの夫婦で納得の土地探しをするためにLINE Bot作ったりデータサイエンスした話でした。 はじめに こんにちは、こんばんは、おはようございます、エンジニアの小笠原(@seiro-ogasawara)です。 去年の Advent Calendar で @toshitanian がオフィスDXを支える技... 続きを読む
夫婦で納得の土地探しをするためにLINE Bot作ったりデータサイエンスした話 - ABEJA Tech Blog
皆さんこんにちは! ABEJAでデータサイエンティストをしている服部といいます。 本記事はABEJA Advent Calendar2022の10日目の記事になります。 背景 引っ越しから2年.... データサイエンティストとしてのリベンジ 前回の反省を踏まえて.... 1. お得そうに見える土地には絶対に理由がある 2. 土地の数はせいぜい限られて... 続きを読む
野球の投球の「危険度」を予測してみた ~「あ、この球、打たれるわ」をAIで判断~ - ABEJA Tech Blog
目次 目次 はじめに アイデア 検証方法 データ準備 分析アプローチ データ取得 前処理・特徴量エンジニアリング 学習 結果 考察 まとめ ABEJAについて はじめに はじめまして!今年2月にABEJAにデータサイエンティストとして入社しました真鍋と申します。 こちらは、ABEJAアドベントカレンダー2022の2日目の記事になりま... 続きを読む
掃除ロボットをかゆいところまで手の届く仕様に改造する - ABEJA Tech Blog
はじめに 本記事はABEJA Advent Calendar 2022 1本目の記事です。 こんにちは、メカやロボットが大好きな栗林です。本日ご紹介するのは清掃ロボットの制御システムをRaspberry Piから操作する方法についてです! URYYYYYYYY!! 過去の記事など tech-blog.abeja.asia tech-blog.abeja.asia ※ 例によって、本記事でおこなっ... 続きを読む
Kaggle Days World Championshipで優勝した話 - ABEJA Tech Blog
ABEJAでデータサイエンティストをしている服部です。 2022年10月28, 29日にバルセロナにてKaggle Days World Championship Finalというデータサイエンスに関するイベント兼コンペティションが開催され、そこに参加しました。そして幸いなことに私の所属するチームが優勝することができました!! 本記事では今回のイベン... 続きを読む
GPT-neoxの学習用にマルチノード並列学習環境を整えた with DeepSpeed - ABEJA Tech Blog
1. はじめに 2. 並列学習環境を調べる 並列学習方法を調べる ネットワーク、コンピューティング周りを調べる 3. インフラ環境を構築する コンパクトプレースメントポリシーの作成 Compute Engine を起動する (Fast Socket と gVNIC を利用する) 4. まずはシングルノードで動かす 5. 次はマルチ環境で動かす w/ Docker リ... 続きを読む
ABEJAで作った大規模GPTモデルとその道のり - ABEJA Tech Blog
1. はじめに 2. そもそもGPTとは?? 3. ABEJAで作ったGPTモデルについて 3.1 モデルサイズ 3.2 データセット Wikipedia CC100 OSCAR mC4 3.3 参考にしたコード 3.4 モデルの学習 せっかくここまで育てたモデルが・・・ 4. 技術的な工夫点 4.1 データセットの前処理 4.2 GPT-neoxの活用 4.3 並列VMでの学習 4.4 モデルアー... 続きを読む
Firebase Realtime Databaseの利用料増加問題をFirestore移行で解決した話 (年間数百万削減) - ABEJA Tech Blog
はじめに ある日、このようなIssueが起票されました。 背景を話すと、Insight for Retail の顧客管理システムは5年ほど前にFirebaseで作成されております。 事業を切り開いていった先人たちには足を向けて寝られないのですが、サービスの成長に伴いマイクロサービス化していった結果、この顧客管理システムのRealtime Da... 続きを読む