タグ SREチーム
人気順 10 users 50 users 100 users 500 users 1000 usersアンチウイルスソフト Antivirus for Amazon S3 を本番環境に導入してみてわかったメリット・デメリット - ANDPAD Tech Blog
こんにちは。SREチームの吉澤です。 アンドパッドでは最近、AWSのS3バケット上のファイルをスキャンするために、アンチウイルスソフト Antivirus for Amazon S3 を本番環境に導入しました。その結果、私たちの要件はほぼ全て満たされたうえに、従来比で大幅なコスト削減を実現できました。 Antivirus for Amazon S3につ... 続きを読む
pull requestを利用したいい感じのECS feature環境管理方法を考えた - Nealle Developer's Blog
はじめに SREチームの大木です。スノボの季節がもう終わりかけており、さみしい限りです。 feature staging環境*( 以下 feature環境 )自体のライフサイクルや管理をどうするか問題、なかなかどこも苦労していると思いますが、その中で今回それなりにいい感じの回答を出せたと思うので共有したいと思います。 *呼び方はpr... 続きを読む
Fargate Spotを本番運用するための監視の実践 - KAYAC engineers' blog
SREチームの橋本です。SRE連載の3月号となります。 Amazon ECSのコスト最適化においてはFargate Spotが有効な手段となりますが、いつ中断されるか分からない性質上、その監視も併せて実施していく必要があります。今回はそのFargate Spotを本番環境で運用しているプロジェクトにおける取り組みを紹介します。 背景 Farga... 続きを読む
Ruby 3.3でのアップデートも要チェック!まちのコインでYJITを有効化したはなし - KAYAC engineers' blog
SREチームの長田です。 今回はRubyのJITコンパイラであるYJITのはなしです。 カヤックが開発・運用している地域通貨サービス「まちのコイン」は、Ruby on Railsを使用しています。 このまちのコインにてYJITを有効化し、その結果どのような影響があったのかを紹介します。 coin.machino.co YJITとは YJITは RubyのJITコ... 続きを読む
CloudFront FunctionsをテストするOSS、cfftを公開しました - KAYAC engineers' blog
SREチームの藤原です。 今回は Amazon CloudFront Functions をテストするためのOSSとして、cfft というものを書いたので紹介します。 github.com 3行でまとめ CloudFront Functionsのテストは手元ではできなくて面倒です CloudFront Functionsをテストする cfft というOSSを書きました KeyValueStoreの操作を含め、便利... 続きを読む
イオンの長い歴史と複雑なシステムに挑むSREチームがつくった「信頼」を勝ち取るための4つの行動指針|イオン・エンジニアインタビュー |AEON TECH HUB
イオンスマートテクノロジー・SREチームでリーダーを務める香西のインタビューです。来期にむけたSREチームのミッションや行動指針に込められた想い、入社時のエピソード、行動力の源泉などを伺いました。 続きを読む
デプロイ対象環境ごとに別々のSlackチャンネルに通知するGitHub Actionsの実装例 - KAYAC engineers' blog
SREチームの長田です。 SRE関連の記事としては今年最初の記事になります。 今年も定期的にSREチームメンバーによる記事を投稿していく予定です。 よろしくお願いします。 さて、今回はGitHub Actionsのはなしです。 TL;DR デプロイを実行するGitHub Actionsの実行状況を デプロイ対象環境ごとに別々のSlackチャンネルに... 続きを読む
SREエンジニアのSLI/SLO導入への挑戦 - ぐるなびをちょっと良くするエンジニアブログ
こんにちは。データ・AI戦略部 SREチームの小野です。2020年8月に入社してから早3年。SREエンジニアとして、日々業務改善に励んでいます。 ここ一年ほど、DAOという組織改善プロジェクトを推進してきました。このプロジェクトは組織内で発生するあらゆるイベントを「機能」として定義・実装し、それらを束ねてサービスと... 続きを読む
2023年から始めたSREチームの情報発信とプロポーザル供養の話 - ANDPAD Tech Blog
こんにちは。SREチームの吉澤(写真左)です。 この記事では、今年2023年にアンドパッドSREチームが情報発信を強化するために行った活動と、プロポーザルが不採択になり続けるなかで、少しずつ情報発信できるようになってきた現状をご紹介します。私たちと同様、採用強化のための情報発信に苦戦しているSRE・インフラチ... 続きを読む
EC2とcronで動いていたバッチ基盤をマネージド化した - Uzabase for Engineers
概要 ソーシャル経済メディア「NewsPicks」SREチームの中川です。 皆さんはバッチ処理基盤はどうされていますでしょうか。 NewsPicks では少し前まではそれらをEC2、cronの組み合わせで動作させていました。 何年も前からこの仕組みだったのですがSREとしてはEC2の面倒見るのも手間ですし、それ以上にcronを変更する際の... 続きを読む
SREエンジニアがヘルプデスク体制を作ってみた話 - ぐるなびをちょっと良くするエンジニアブログ
こんにちは。データ・AI戦略部 SREチームの小野です。2020年8月に入社してから早3年。SREエンジニアとして、日々業務改善に励んでいます。 ここ一年ほど、SRE業務の一環で組織作りに挑戦しています。SREエンジニアの責務は自社サービスを安定稼働させ障害に強い基盤を作ることであり、どちらかというと「システム」に焦... 続きを読む
2023年のSREチームのAWSコスト削減を振り返る - Uzabase for Engineers
概要 全般 何はともあれコストタグ Cost Explorer でリソース別にコストを見よう IaC化しよう QuickSight も使おう 稼働時間対応する際はマスタカレンダを用意したい コンピューティング、コンテナ関連 EC2 定時バッチはマネージド化しよう EBS, Snapshot, AMI, EIP を消す ECS Container Insights の有効/無効を使い分... 続きを読む
共有会をより効果的にするために考えたあれやこれ - エムスリーテックブログ
この記事は エムスリー Advent Calendar 2023 の 8 日目の記事です。 前日は小栗さんによる kannonを実プロダクトに組み込んで3倍高速化を達成した話 でした こんにちは、SREチームの後藤です。 エムスリーでは各チームのSREが集まって情報共有をする SRE Meetup という共有会を7月から新たに始めました。 このように情... 続きを読む
タスクランナーとしてのmakeを使う際の工夫と注意点 - KAYAC engineers' blog
SREチームの長田です。 みなさま開発・運用上の定形オペレーションに伴うタスク実行をどのように管理していますか? 今回は make をタスクランナーとして使う例を紹介します。 タスクランナーがほしい タスクランナーを使う主なモチベーションは以下の2つです。 タスクをリスト化したい タスクの実行インターフェイスを... 続きを読む
New RelicのSLOモニタリング+バーンレートアラートをCDK for Terraform(cdktf)でIaC管理する - Uzabase for Engineers
こんにちは、ソーシャル経済メディア「NewsPicks」でSREをしている飯野です。 今回はSREで行ったNew RelicをCDK for TerraformでIaC管理する話を紹介したいと思います。 SLOモニタリングをSREチームだけで行うのは難しい CDK for Terraformとcdktf-newrelic-provider 追記 IaCで作成する内容 CDK for Terraformで実装し... 続きを読む
Terraform(AWS)の構成を公開します
はじめに アプリボット SREチームの一条です。 弊社ではAWSやGCPの構築にTerraformを利用しています。 IaC(Infrastructure as Code)には欠かせないTerraformですが、長らく運用していく中で様々な課題に直面し、その度に構成や運用ルールを更新していきました。 しかし、まだ完璧な構成ではないと思っています。 なぜ... 続きを読む
SREチームのリーダーになって1年経過した|あんどぅ
SIerから事業会社のエンジニアに転職後、SREチームのリーダーになって1年経過※したので、個人的なふりかえりのためにやったことを言語化し整理します。 ※ 本当は7月で1年なので先月書きたかったけど、7月は評価と目標設定に加えて障害対応などが重なりめちゃくちゃ忙しかった。。。 筆者の略歴SIerで10年半、インフラ主... 続きを読む
「“HOW”を自分たちで考える楽しさ」がある。ユーザー数1500万人を超える「家族アルバム みてね」のSREとして働く魅力とは?
ユーザー数1500万人を超える「家族アルバム みてね」のインフラを支え、ユーザーと開発者の双方によりよい体験を提供するために全力を尽くしている、みてねSREチームにお話を聞いてきました。 「家族アルバム みてね(以下:みてね)」はユーザー数1500万人を突破し(※1)、写真・動画の月間アップロード枚数は2.7億枚に... 続きを読む
MackerelとGrafana OnCallを連携しました - KAYAC engineers' blog
SREチームの藤原です。今回は監視サービスのMackerelと、障害発生時に担当者へのオンコールを自動化するGrafana OnCallを連携してみた話です。SRE連載 6月号になります。 3行でまとめ MackerelとGrafana OnCallを連携しました MackerelのアラートWebhookをGrafana OnCallのWebhookに変換するproxyをAWS Lambdaで作りまし... 続きを読む
SREチームがNew Relicを使って AWSコスト最適化に貢献した話 | ドクセル
NRUG (New Relic User Group) SRE支部 Vol.3 の発表資料です https://nrug-sre.connpass.com/event/285748/ 続きを読む
postfixによる大量メール送信にまつわる問題と対処 - エムスリーテックブログ
【SREチーム ブログリレー2回目】 お疲れ様です。エンジニアリンググループ、コアSREの山本です。 前回ブログリレー1回目の記事で大量メール送信のために基本設定について書かせていただきました。 www.m3tech.blog 今回はそれを受けて構築したサーバで実際に発生したいくつかの問題、その問題への対処といったものを書... 続きを読む
mirage-ecsで各メンバー専用開発サーバーを実現!まちのコインの運用事例を紹介します - KAYAC engineers' blog
SREチームの長田です。 突然ですが、 mirage-ecs というツールをご存知でしょうか? 今回はこのツールをまちのコインの開発チームでの使用例をもとに紹介します。 coin.machino.co mirage-ecs を使うと動作確認用のサーバー環境を、サーバーサイドのエンジニアでなくとも自由にいくつでも立ち上げることができるようにな... 続きを読む
Amazon ECSのタスクを常に新鮮に保つ仕組みをStep Functionsで - KAYAC engineers' blog
SREチームの藤原です。今回はAmazon ECSのサービス内のタスクを定期的に再起動することで、日々のメンテナンスコストを削減する話です。SRE連載 3月号になります。 3行でまとめ ECS Fargateのタスクは時々再起動が必要 人間が対応するのは面倒 Step Functionsを定期実行して常に新鮮なタスクに入れ換えて予防しよう ECS ... 続きを読む
3/9(木) Google Cloud 主催 Innovators Live Japan に市川が登壇します! - KAYAC engineers' blog
SREチーム(新卒)の市川恭佑です。 Google Cloud が主催するオンライン形式のイベント Innovators Live Japan につきまして、この度、3月9日(木)開催のウェビナー「実録!SRE」の1コーナーを担当することになりました。 cloudonair.withgoogle.com 最年少なのに何故かトリですが、たぶん特別な理由はないので、リラッ... 続きを読む
【解説編】CircleCIからOIDCを用いて安全にGoogle Cloudにアクセスする - KAYAC engineers' blog
SREチーム(新卒)の市川恭佑です。これはカヤックSRE連載の2月号です。 よく見ると投稿日が3月になっていますが、どちらかと言うと2月が28日までしかない方に問題があるので、大丈夫です。(何が?) ということで、2023年も滑り出し好調のカヤックSRE連載ですが、前回の記事ではCircleCIからGoogle CloudにOIDCでアクセス... 続きを読む