タグ SREチーム
人気順 5 users 50 users 100 users 500 users 1000 usersAWS Security HubとSlackを利用して、セキュリティ状況の監視運用を効率化したお話 - Uzabase for Engineers
はじめに 初めまして!ソーシャル経済メディア「NewsPicks」SREチーム・新卒エンジニアの樋渡です。今回は「AWS Security Hub」と「Slack」を用いて、弊社で利用しているAWSリソースの監視運用を効率化したお話です。 お話の内容 年々増加するサイバー攻撃に対抗するため、セキュリティ対策は日々重要度が増してきていま... 続きを読む
アンチウイルスソフト Antivirus for Amazon S3 を本番環境に導入してみてわかったメリット・デメリット - ANDPAD Tech Blog
こんにちは。SREチームの吉澤です。 アンドパッドでは最近、AWSのS3バケット上のファイルをスキャンするために、アンチウイルスソフト Antivirus for Amazon S3 を本番環境に導入しました。その結果、私たちの要件はほぼ全て満たされたうえに、従来比で大幅なコスト削減を実現できました。 Antivirus for Amazon S3につ... 続きを読む
Fargate Spotを本番運用するための監視の実践 - KAYAC engineers' blog
SREチームの橋本です。SRE連載の3月号となります。 Amazon ECSのコスト最適化においてはFargate Spotが有効な手段となりますが、いつ中断されるか分からない性質上、その監視も併せて実施していく必要があります。今回はそのFargate Spotを本番環境で運用しているプロジェクトにおける取り組みを紹介します。 背景 Farga... 続きを読む
CloudFront FunctionsをテストするOSS、cfftを公開しました - KAYAC engineers' blog
SREチームの藤原です。 今回は Amazon CloudFront Functions をテストするためのOSSとして、cfft というものを書いたので紹介します。 github.com 3行でまとめ CloudFront Functionsのテストは手元ではできなくて面倒です CloudFront Functionsをテストする cfft というOSSを書きました KeyValueStoreの操作を含め、便利... 続きを読む
イオンの長い歴史と複雑なシステムに挑むSREチームがつくった「信頼」を勝ち取るための4つの行動指針|イオン・エンジニアインタビュー |AEON TECH HUB
イオンスマートテクノロジー・SREチームでリーダーを務める香西のインタビューです。来期にむけたSREチームのミッションや行動指針に込められた想い、入社時のエピソード、行動力の源泉などを伺いました。 続きを読む
SREエンジニアのSLI/SLO導入への挑戦 - ぐるなびをちょっと良くするエンジニアブログ
こんにちは。データ・AI戦略部 SREチームの小野です。2020年8月に入社してから早3年。SREエンジニアとして、日々業務改善に励んでいます。 ここ一年ほど、DAOという組織改善プロジェクトを推進してきました。このプロジェクトは組織内で発生するあらゆるイベントを「機能」として定義・実装し、それらを束ねてサービスと... 続きを読む
EC2とcronで動いていたバッチ基盤をマネージド化した - Uzabase for Engineers
概要 ソーシャル経済メディア「NewsPicks」SREチームの中川です。 皆さんはバッチ処理基盤はどうされていますでしょうか。 NewsPicks では少し前まではそれらをEC2、cronの組み合わせで動作させていました。 何年も前からこの仕組みだったのですがSREとしてはEC2の面倒見るのも手間ですし、それ以上にcronを変更する際の... 続きを読む
SREエンジニアがヘルプデスク体制を作ってみた話 - ぐるなびをちょっと良くするエンジニアブログ
こんにちは。データ・AI戦略部 SREチームの小野です。2020年8月に入社してから早3年。SREエンジニアとして、日々業務改善に励んでいます。 ここ一年ほど、SRE業務の一環で組織作りに挑戦しています。SREエンジニアの責務は自社サービスを安定稼働させ障害に強い基盤を作ることであり、どちらかというと「システム」に焦... 続きを読む
2023年のSREチームのAWSコスト削減を振り返る - Uzabase for Engineers
概要 全般 何はともあれコストタグ Cost Explorer でリソース別にコストを見よう IaC化しよう QuickSight も使おう 稼働時間対応する際はマスタカレンダを用意したい コンピューティング、コンテナ関連 EC2 定時バッチはマネージド化しよう EBS, Snapshot, AMI, EIP を消す ECS Container Insights の有効/無効を使い分... 続きを読む
共有会をより効果的にするために考えたあれやこれ - エムスリーテックブログ
この記事は エムスリー Advent Calendar 2023 の 8 日目の記事です。 前日は小栗さんによる kannonを実プロダクトに組み込んで3倍高速化を達成した話 でした こんにちは、SREチームの後藤です。 エムスリーでは各チームのSREが集まって情報共有をする SRE Meetup という共有会を7月から新たに始めました。 このように情... 続きを読む
タスクランナーとしてのmakeを使う際の工夫と注意点 - KAYAC engineers' blog
SREチームの長田です。 みなさま開発・運用上の定形オペレーションに伴うタスク実行をどのように管理していますか? 今回は make をタスクランナーとして使う例を紹介します。 タスクランナーがほしい タスクランナーを使う主なモチベーションは以下の2つです。 タスクをリスト化したい タスクの実行インターフェイスを... 続きを読む
New RelicのSLOモニタリング+バーンレートアラートをCDK for Terraform(cdktf)でIaC管理する - Uzabase for Engineers
こんにちは、ソーシャル経済メディア「NewsPicks」でSREをしている飯野です。 今回はSREで行ったNew RelicをCDK for TerraformでIaC管理する話を紹介したいと思います。 SLOモニタリングをSREチームだけで行うのは難しい CDK for Terraformとcdktf-newrelic-provider 追記 IaCで作成する内容 CDK for Terraformで実装し... 続きを読む
SREチームのリーダーになって1年経過した|あんどぅ
SIerから事業会社のエンジニアに転職後、SREチームのリーダーになって1年経過※したので、個人的なふりかえりのためにやったことを言語化し整理します。 ※ 本当は7月で1年なので先月書きたかったけど、7月は評価と目標設定に加えて障害対応などが重なりめちゃくちゃ忙しかった。。。 筆者の略歴SIerで10年半、インフラ主... 続きを読む
「“HOW”を自分たちで考える楽しさ」がある。ユーザー数1500万人を超える「家族アルバム みてね」のSREとして働く魅力とは?
ユーザー数1500万人を超える「家族アルバム みてね」のインフラを支え、ユーザーと開発者の双方によりよい体験を提供するために全力を尽くしている、みてねSREチームにお話を聞いてきました。 「家族アルバム みてね(以下:みてね)」はユーザー数1500万人を突破し(※1)、写真・動画の月間アップロード枚数は2.7億枚に... 続きを読む
SREチームがNew Relicを使って AWSコスト最適化に貢献した話 | ドクセル
NRUG (New Relic User Group) SRE支部 Vol.3 の発表資料です https://nrug-sre.connpass.com/event/285748/ 続きを読む
postfixによる大量メール送信にまつわる問題と対処 - エムスリーテックブログ
【SREチーム ブログリレー2回目】 お疲れ様です。エンジニアリンググループ、コアSREの山本です。 前回ブログリレー1回目の記事で大量メール送信のために基本設定について書かせていただきました。 www.m3tech.blog 今回はそれを受けて構築したサーバで実際に発生したいくつかの問題、その問題への対処といったものを書... 続きを読む
mirage-ecsで各メンバー専用開発サーバーを実現!まちのコインの運用事例を紹介します - KAYAC engineers' blog
SREチームの長田です。 突然ですが、 mirage-ecs というツールをご存知でしょうか? 今回はこのツールをまちのコインの開発チームでの使用例をもとに紹介します。 coin.machino.co mirage-ecs を使うと動作確認用のサーバー環境を、サーバーサイドのエンジニアでなくとも自由にいくつでも立ち上げることができるようにな... 続きを読む
Amazon ECSのタスクを常に新鮮に保つ仕組みをStep Functionsで - KAYAC engineers' blog
SREチームの藤原です。今回はAmazon ECSのサービス内のタスクを定期的に再起動することで、日々のメンテナンスコストを削減する話です。SRE連載 3月号になります。 3行でまとめ ECS Fargateのタスクは時々再起動が必要 人間が対応するのは面倒 Step Functionsを定期実行して常に新鮮なタスクに入れ換えて予防しよう ECS ... 続きを読む
Terraformのリファクタリング始めました - VisasQ Dev Blog
こんにちは、プラットフォーム開発グループ SREチームの西川 (@taxin_tt) です。 皆さんTerraform使ってますか? 弊社では既存サービスのマイクロサービス化を進めており、GCPベースのインフラはTerraformを利用して整備するようにしています。 一方で、サービス数の増加などに比例してtfファイルのコード量も増えていき... 続きを読む
AWS Fargate/Fargate Spotのハイブリッド利用をCDKで実装したら料金が半額になった話 - Uzabase for Engineers
こんにちは。NewsPicksのWeb Reader Experience Unitで学生インターンをしている西(@yukinissie)です。 昨年の 9 月までSREチームに所属しており、その頃にNewsPicksの全ての常駐バッチサーバーをAWS CDKを用いてAWS FargateとAWS Fragate Spotを併用するようにさせましましたのでコストの変化や工夫した点についてご... 続きを読む
Terraform管理されたステージング環境・本番環境の差異を検出したくて頑張っている話 - KAYAC engineers' blog
SREチームの橋本です。今回はステージング環境の運用でありがちな本番との差分に対処する試みを紹介します。 背景 ステージング環境について、例えばIT用語辞典では ステージング環境とは、情報システムやソフトウェアの開発の最終段階で検証用に用意される、実際の運用環境と変わらない環境のこと。 と説明しています。... 続きを読む
Aurora MySQL 2.x で運用している本番DBから Aurora Serverless v2 な調査用DBを作成してみる - Yappli Tech Blog
SREチームの中原です。 Aurora MySQL 2.x で運用している本番DBから Aurora Serverless v2 な調査用DBを作成する方法について書いてみます。 TL;DR Aurora MySQL 2.x で運用しているDBでも Serverless v2 な調査用DB立てられるよ ただし毎回メジャーバージョンアップの処理が必要なので時間かかるよ (弊社の環境で1.5〜3... 続きを読む
ecrm - Amazon ECRから不要イメージを安全に削除するOSSを作った - KAYAC engineers' blog
SREチームの藤原です。今回は、AWSのコンテナレジストリであるAmazon ECRから、不要になったコンテナイメージを安全に削除するツールをOSSとして作った話です。 Amazon ECRのライフサイクルポリシーでは、設定によっては実際に利用中のイメージを削除してしまうことがあります 現在利用中のイメージを避けて、それ以外の... 続きを読む
AWSコスト倍になっちゃった!〜削減への道のり〜 - freee Developers Hub
こんにちは、DevBrandingのellyです。5月20日に配信した「AWSコスト倍になっちゃった!〜削減への道のり〜」の様子をご紹介します。 今回はITストラテジーチームとSREチームから2人のゲストを招いて、freeeで実際に起きたAWSコスト増加の事例をもとに、気がつけば増えるインフラ費用の無駄をどのように見つけ、コスト削... 続きを読む
ステージング環境における検証用データベースの立ち上げを自動化する取り組み - KAYAC engineers' blog
SREチーム(新卒)の市川恭佑です。 カヤックのサービスでは、信頼性の担保を目的として、ステージング環境を作成する方針を取っています。 ステージング環境では、検証の精度を高めるために、量・質ともに本番環境に類似したデータベースが求められる局面が頻出します。 そこで今回は、Tonamel という自社サービスにおけ... 続きを読む