タグ SLO
人気順 5 users 50 users 100 users 500 users 1000 usersSLOの導入は早ければ早いほどよい 〜FAANSの事例とその効果〜 - ZOZO TECH BLOG
はじめに こんにちは、FAANS部バックエンドブロックでFAANSのバックエンドシステムの開発と運用をしている田島です。 2021年11月にZOZOTOWNとアパレルのブランド実店舗をつなぐOMOプラットフォーム「ZOZOMO」が始動しました。FAANSは、ZOZOMOで展開するサービスの1つで、ブランド実店舗で働くショップスタッフ専用の販売... 続きを読む
SLI、SLO、エラーバジェット導入の前に知っておきたいこと | sreake.com | 株式会社スリーシェイク
1. はじめに こんにちは、「信頼性は可用性ではない」を標語にしているnwiizoです。 近年、サービスの信頼性向上に向けた取り組みとして、SLI(Service Level Indicator)、SLO(Service Level Objective)、エラーバジェットという概念が注目を集めています。これらは、Google発祥のSRE(Site Reliability Engineering... 続きを読む
Mackerel で行った障害対応演習を紹介します - Hatena Developer Blog
こんにちは、Mackerel チーム SRE の id:heleeen です。 この記事は、はてなの SRE が毎月交代で書いている SRE 連載の4月号で、先月分は id:taxintt さんのサービスの一般公開前からSLI/SLOと向き合うです。 今回は、先日 Mackerel チームで行った障害対応演習で実施した内容と、どのような学びを得たかについて紹介し... 続きを読む
ヘルスケアデータをGrafanaで見たくない…?〜健康 Reliability Engineering〜
はじめに まずはこちらをご覧ください。 これは私のApple Watchで計測されたヘルスケアデータです。Apple Watchをつけていると、心拍数や歩数、睡眠時間などのデータが自動的にiPhone内に記録されます。 SREなら健康を維持するためにもSLIとSLOを設定して可視化するべきですよね? SREなら健康エラーバジェットが無くな... 続きを読む
クリティカルユーザージャーニーを利用した SLI/SLO の改善 / #mackerelio
AWSでのセキュリティ対策、多少はやってこうぜ! / Let's tackle AWS security measures somewhat 続きを読む
WebアプリケーションにGoの並行処理アーキテクチャを導入してSLOを改善し、WebAPIを100倍速くした話 - スタディサプリ Product Team Blog
こんにちは。スタディサプリの小中高プロダクト基盤開発グループでProduct Platform Engineer兼テックリードをやっている@tooooooooomyです。 今回は、WebアプリケーションにGoの並行処理機構を導入してSLOを改善し、WebAPIを100倍速くした話をしたいと思います。 前提条件 システムを0から作らない場合、アーキテクチャ... 続きを読む
SLOをゼロからつくる
tfnotify - Show Terraform execution plan beautifully on GitHub 続きを読む
SLO サービスレベル目標
TOPICS System/Network 発行年月日 2023年07月11日 発売予定 PRINT LENGTH 432 ISBN 978-4-8144-0034-8 原書 Implementing Service Level Objectives FORMAT Print PDF EPUB サービスレベル目標(SLO)とは、ユーザーの満足度に強い相関があるメトリクスを用いた、開発と運用の目安となるものです。SLOに基づいた運用は... 続きを読む
「LuupにおけるSLOの物語」という題でSLOconf Tokyo 2023に登壇しました
はじめまして、株式会社Luup SREチームに所属しています、ぐりもお(@gr1m0h)です。 Nobl9社が主催する SLOconf というSLO(サービスレベル目標)にフォーカスしたカンファレンスのローカルなコミュニティーイベント、SLOconf Tokyo 2023 に登壇しました。このイベントは、Googleの渋谷オフィスで 5/16 に開催されまし... 続きを読む
我々はこうしてSLI/SLOを設計し 運用を始めました -これからSLI/SLOの運用を始める人に向けて-
SRE大集合!みんなで学ぶ、信頼性を高めるための取り組みLT大会の登壇資料です。 概要 つい先日SLI/SLOの設計が終わりSLOの運用をスタートしましたがそれまでの道のりは楽ではありませんでした。 本LTではCUJの決め方からSLI/SLOの設計と運用を固めるにあたっての進め方についてお話させて頂きます。 以下の聴講者を想定... 続きを読む
Mackerelを使ったSLI/SLOによるサービス運用の紹介 - Mackerel お知らせ #mackerelio
この記事では、Mackerelを使ったSLI/SLOによるサービス運用を紹介します。 SLI/SLOとは何か SLIの実装 SLOの設定 エラーバジェットとは さらに詳しく知るには MackerelでのSLI/SLO運用 SLI/SLOを策定する 可用性の計測 レイテンシの計測 ダッシュボードで定期的に状況を確認する 式による監視でモニタリングする SLI/SLO... 続きを読む
freee での SLO の実践について - freee Developers Hub
Enabling SRE チームの oracle です。 チーム内で SLO の推進を担当しております。 freee での SLO の実践についてご紹介させて頂きます。 改めてSREとは 皆さんご存知のように SRE とは Google 社が実践してきたシステム運用のノウハウを書籍化したことで一般的に知られるようになった言葉です。 日本語版の書籍が発売... 続きを読む
SLI/SLO運用の実践 shimesabaによる指標モニタリング - KAYAC engineers' blog
カヤックSREの池田です。 先月は、カヤックのプロダクトの一つ『Tonamel』で導入したエラーバジェット算出ツール『shimesaba』の話をしました。 techblog.kayac.com github.com 今回は、実際にどのようにSLI/SLOを運用しているのか?という内容をshimesabaを使った設定例を交えつつ話します。 SLI/SLOの運用にお悩みの方... 続きを読む
Google - Site Reliability Engineering
The Art of SLOsは、GoogleのCustomer Reliability Engineeringチームによって開発されたワークショップです。このワークショップの目的は、Googleがサービスの信頼性を計測する方法 サービスレベル指標(SLI) とサービスレベル目標 (SLO)を参加者に紹介し、実際にこれらの計測方法を作成することを体験してもらうことで... 続きを読む
SLOの運用のために OSS shimesabaの導入 - KAYAC engineers' blog
カヤックSREの池田です。今回は、カヤックのプロダクトの一つ『Tonamel』で導入したエラーバジェット算出ツール shimesabaの話をします。 shimesabaとは? github.com shimesabaは監視サービスであるMackerelを用いて、エラーバジェットを計算しサービスメトリックとして投稿することでSLI/SLOの運用を助けるツールです... 続きを読む
たった2ヶ月半でSLOを導入して事業判断に影響を与えた話 - Adwaysエンジニアブログ
こんにちは、広告サービスを担当している飛田です。 今回は "SLO導入で悩んでいる方" に向けて、弊社リワード広告サービスでのSLO策定の取り組みについてお話したいと思います。 そもそもSLOを策定するに至った経緯は二つあります。 ユーザへの影響度合いが分かりづらいパフォーマンス問題などの対応が後回しにされがち... 続きを読む
MackerelでSLI/SLO運用をする際に役立つ機能やツールの紹介 - Mackerel お知らせ #mackerelio
この記事は Mackerel Advent Calendar 2021 の17日目の記事です。 Mackerel SREチームのid:masayoshi です。 今回はAWS ECSとALBで構築したWebアプリケーションを例に、Mackerelを利用したSLI/SLOの設定、運用改善に利用できる機能やツールを紹介したいと思います。 今回紹介する機能やツールの概要図です。 ALB+ECS環境... 続きを読む
MackerelでSLOとエラーバジェットを運用するためのツール shimesaba - KAYAC engineers' blog
この記事はMackerel Advent Calendar 2021の7日目です。 こんにちは、SREチーム所属の@mashiikeです。 皆様はSLOとエラーバジェットという言葉を聞いたことはありますか? サービスの信頼性を保証することを目標するSRE(Site Reliability Engineer/Site Reliability Engineering)の領域に携わってる方なら聞いたこと... 続きを読む
SLOを活用した技術的改善
Transcript 株式会社タイミー 岡野兼也 SLOを活用した技術的改善 @Juju_62q まずは伝えたいこと 継続的な技術的改善、 どうやったらいいの? すぐに気づいてすぐに実行 いや...そんなこといわれても... 今日は技術的改善を 「すぐに気づいてすぐに実行」 する方法を紹介します 目次 • 技術的改善の流れ • 技術的改善の... 続きを読む
アプリケーションの不調を発見し、チームで改善できた話 - 弥生開発者ブログ by Misocaチーム
弥生 Advent Calendar 2020 8日目の記事です。 開発本部の id:mizukmb です。普段はMisocaのインフラの面倒を見たりしています。 Misocaの開発チームでは毎週SLOの状況を共有する時間をとっています。SLOを設定した話は別記事で紹介しています。 tech.misoca.jp 先日、開発チームに共有したところ普段よりもレスポンスタ... 続きを読む
「マンガが快適に読める」を数値化し、SLOをマンガビューワに導入するまで - Hatena Developer Blog
マンガビューワにおけるサービスレベルとは なぜSLOを策定したかったのか サービスレベルを単純に決める 何をサービスレベル指標としてどう計測するか 一般的なSLIの表現 期間を移動しながら集計する アクセスログからサーバーのSLIを計測する PageSpeed Insights APIでフロントエンドを計測 プロダクトオーナーとともに... 続きを読む
モダンなシステムにSLI/SLOを設定するときのベストプラクティス - New Relic公式ブログ
New RelicではどのようにSLI/SLOを定義し、SREを実践しているか。その経験から、SLI/SLOについて解説した記事 Best Practices for Setting SLOs and SLIs For Modern, Complex Systems の翻訳です。 — New Relicのサイト信頼性VPであるMatthew Flamingも、この記事に貢献しています。この記事はサンフランシスコその他で... 続きを読む
Maintain SLO 〜俺たちのSLOはこれからだ!〜 - Mercari Engineering Blog
Merpay Advent Calendar 2019 の14日目は、メルペイSREチームの@Tがお送りします。 本記事では、メルペイSREチームのSLO運用状況について、紹介いたします。 メルペイリリース前 去年のAdventCalendar 2018で、メルカリのWeb MicroservicesにおけるSLI/SLOについて紹介がありました。 tech.mercari.com メルペイでは新規... 続きを読む
Misocaのサービスレベル目標 (SLO) を設定するまでの道のり - Misoca開発者ブログ
Misoca開発メンバー/SREチームの id:mizukmb です。今年も最高気温40度超えの名古屋の夏を乗り切る事ができて安心しています。 今回はSREチームとしてMisocaのパフォーマンス計測を行い、開発向けのサービスレベル目標 (以下、SLO) を設定した話をしようと思います。 実際に計測をはじめる前に すべてを計測できることは... 続きを読む
監視について思うとこ - y-ohgi's blog
TL;DR 監視はユーザーにサービスを提供できているかを観測するための行為 SLI/SLOを定めて、SLOを守れるようにモニタリングする ダッシュボードは定常的に表示しておくものと障害時に活用するものを作ると良い アラートはレベル分けして人間が対応しなければならないものだけ人間へ通知する 監視とは サービスを健全に動... 続きを読む