タグ カオスエンジニアリング
人気順 10 users 50 users 100 users 500 users 1000 users障害への不安をぶっ壊す!カオスエンジニアリングを運用しシステムとチームの耐障害性を高める - ZOZO TECH BLOG
はじめに こんにちは、計測プラットフォーム開発本部SREブロックの山本です。普段はZOZOMATやZOZOGLASSなどの計測技術に関わるシステムの開発、運用に携わっています。 我々のチームは、複数サービスを運用する中で障害対応の経験不足や知見共有の難しさといった課題に直面していました。そこで、半年ほど前にカオスエン... 続きを読む
組織に対するカオスエンジニアリングの実践 - 変化に対応する組織をつくるための課題を探る「カオスWeek」という取り組み - Agile Journey
Agile Journeyをご覧いただき、ありがとうございます。本メディアの運営を担うユーザベースBtoB SaaS事業のCTOを務める林です。本メディアでは、これまで多くの方がアジャイルに関する経験、知見を披露してきてくれましたが、本稿では私たち自身のアジャイルの実践手段のひとつであり、「組織の耐障害性」を高める手段で... 続きを読む
カオスエンジニアリングとは、実験を通してシステムの弱みを明確にすることである。カオスエンジニアリングから継続的検証へ(後編)。JaSST'23 Tokyo基調講演
カオスエンジニアリングとは、実験を通してシステムの弱みを明確にすることである。カオスエンジニアリングから継続的検証へ(後編)。JaSST'23 Tokyo基調講演 Netflixが始めた「カオスエンジニアリング」は、現在では大規模なシステムにおける可用性向上の手法のひとつとして確立し、広く知られるようになりました。 そ... 続きを読む
可用性や安全性を高めつつ、ソフトウェアをシンプルにすることは不可能だ。カオスエンジニアリングから継続的検証へ(中編)。JaSST'23 Tokyo基調講演
可用性や安全性を高めつつ、ソフトウェアをシンプルにすることは不可能だ。カオスエンジニアリングから継続的検証へ(中編)。JaSST'23 Tokyo基調講演 Netflixが始めた「カオスエンジニアリング」は、現在では大規模なシステムにおける可用性向上の手法のひとつとして確立し、広く知られるようになりました。 そのカオス... 続きを読む
複雑なシステムでは、すべての要素が正しくても障害が起きる。カオスエンジニアリングから継続的検証へ(前編)。JaSST'23 Tokyo基調講演
複雑なシステムでは、すべての要素が正しくても障害が起きる。カオスエンジニアリングから継続的検証へ(前編)。JaSST'23 Tokyo基調講演 Netflixが始めた「カオスエンジニアリング」は、現在では大規模なシステムにおける可用性向上の手法のひとつとして確立し、広く知られるようになりました。 そのカオスエンジニアリ... 続きを読む
ヤフーが実践するプロダクション環境でのカオスエンジニアリング
本記事は2022年11月に開催した「Tech-Verse 2022」で発表したセッションを要約したものです。アーカイブ動画を文末に掲載しています。質疑応答の様子も収録されていますのでぜひご覧ください。 突然ですが、みなさんへ質問です。「今この瞬間にシステム障害が起こったら、自信を持って対処できますか?」システム運用者... 続きを読む
保育園にカオスエンジニアリングを提案した話 / Chaos Night #1
保育園にChaos Engineeringを提案した話 / The story of proposing Chaos Engineering to a nursery school 続きを読む
カオスエンジニアリング
カオスエンジニアリング ――回復力のあるシステムの実践 Casey Rosenthal、Nora Jones 著、堀 明子、松浦 隼人 訳 2022年06月17日 発売予定 316ページ ISBN978-4-87311-988-5 原書: Chaos Engineering フォーマット ソフトウェアをはじめとするあらゆるシステムは、発展するにつれて必然的に複雑性が増していきます。 ... 続きを読む
カオスエンジニアリングを組織にも適用。アンチフラジャイルなシステムを目指してユーザベースが発見した問題とは? - はてなニュース
Netflixがシステム運用に取り入れている、カオスエンジニアリング(chaos engineering)という手法があります。例えば機能を冗長化したシステムでも、いざ障害が起きたときに別系統が想定どおり機能するか分からない。そこで実際に動いているシステムで意図的に障害を起こし、挙動を確認してシステムの改善につなげる考... 続きを読む
Microsoft Azure、わざと障害を発生させてサービスの耐障害性を鍛える「Azure Chaos Studio」発表
マイクロソフトは、Microsoft Azure上で人為的に障害や性能低下などを発生させることで、アプリケーションの耐障害性を確認し改善できる、いわゆるカオスエンジニアリングを実現する新サービス「Azure Chaos Studio」をプレビュー版として発表しました。 カオスエンジニアリングはもともと、動画配信サービスのNetflixが... 続きを読む
AWS、わざとクラウド障害を起こす新サービス「AWS Fault Injection Simulator」提供開始。カオスエンジニアリングをマネージドサービスで - Publickey
AWS、わざとクラウド障害を起こす新サービス「AWS Fault Injection Simulator」提供開始。カオスエンジニアリングをマネージドサービスで Amazon Web Services(AWS)は、わざとクラウドの障害を起こすことでアプリケーションの耐障害性を検証できる新サービス「AWS Fault Injection Simulator」の提供を開始したと発表... 続きを読む
[速報]AWS、クラウド障害をわざと起こす「AWS Fault Injection Simulator」発表。カオスエンジニアリングをマネージドサービスで実現。AWS re:Invent 2020 - Publickey
Amazon Web Services(AWS)は、開催中のオンラインイベント「AWS re:Invent 2020」で、アプリケーションに対してクラウド障害のシミュレーションを行える新サービス「AWS Fault Injection Simulator」を発表しました。 クラウド上で稼働するアプリケーションの耐障害性などを高める手法として実際にクラウド障害をわざ... 続きを読む
Kubernetesのカオスエンジニアリング: 一般利用可能になった Chaos Mesh v1.0
原文(投稿日:2020/10/18)へのリンク Chaos Meshチームは、2020年7月にCNCFサンドボックスプロジェクトとして承認された後、Chaos Mesh 1.0の一般提供 (GA) を発表した。Chaos Meshは、Kubernetesアプリケーションでカオスエンジニアリング実験を実行するためのツールである。 Chaos Meshは、オブジェクト定義に標準のCR... 続きを読む
KubernetesのPodやネットワークをわざと落としまくってカオスエンジニアリングのテストができる「Chaos Mesh」がバージョン1.0に到達 - Publickey
KubernetesのPodやネットワークをわざと落としまくってカオスエンジニアリングのテストができる「Chaos Mesh」がバージョン1.0に到達 Kubernetes上のシステムに対してわざと障害を発生させることで、システムの耐障害性のテストを行うためのソフトウェア「Chaos Mesh」がバージョン1.0に到達したことを、Chaos Meshの開... 続きを読む
カオスエンジニアリングによる負荷試験を導入するクックパッドが学んだこと 耐障害性の仮説と検証 - エンジニアHub|若手Webエンジニアのキャリアを考える!
カオスエンジニアリング(Chaos Engineering)とは、稼働中のサービスにあえて擬似的な障害を発生させることで、システムの耐障害性を検証する手法です。動画配信サービスを提供するNetflix社が2011年ごろから実践し、ソフトウェアや情報を積極的に公開したことで世界中から注目されるようになりました。 国内ではまだ導... 続きを読む
5分で学ぶ: カオスエンジニアリングの説明書 - New Relic公式ブログ
この記事はNew RelicのチーフエディタFredric Paulによる記事「Breaking to Learn: Chaos Engineering Explained」の翻訳です。 Netfilxは、ただのインターネット越しのお茶の間TVショーというわけではありません。カオスエンジニアリングという分野の産みの親となったのは、まさに必然といえるでしょう。 この概念は矛... 続きを読む
やってみた、EKSのクラスターにカオスエンジニアリングの実験を実行するチュートリアルを | Developers.IO
どうも、森です。 今月は AWSJ社のChaosConf2019 Recapに行き、カオスエンジニアリングの歴史から最近のトレンドまで学びカオス筋が少しはついてきたと感じています。 【レポート】Chaos Engineering が合うもの/合わないもの – ChaosConf2019 recap – 聞くだけではなく実際にやってみようという天の声(わっしょい)が聞... 続きを読む
Googleが従業員に対して実践している「カオスエンジニアリング」とは? - GIGAZINE
By BrianAJackson サービスやシステムに意図的にトラブルを発生させることで、実際にトラブルが発生した際に的確な対処ができるような訓練を行うことを「カオスエンジニアリング」といいます。Googleが従業員に対して行っている4つのカオスエンジニアリングについて、Googleのエンジニアリングディレクターであるデイブ... 続きを読む
日本企業が「カオスエンジニアリングやっていく宣言」を出せた理由 (1/2):クックパッドに直撃 - @IT
クックパッドが2018年8月2日に公開したブログエントリ「Chaos Engineering やっていく宣言」に大きな反響があった。米国を中心に多くの企業で実践されているが、疑似的とはいえ本番環境に障害を起こさせるというカオスエンジニアリングを日本で実践するのは、まず不可能という向きが多かったからだ。なぜ、クックパッド... 続きを読む
AWS最先進ユーザーNetflix - 「サル軍団」にシステム障害を起こさせる、Netflixの驚異的なトラブル撲滅法:ITpro
Netflixは、わざと本番障害を起こしてすぐ復旧させることを繰り返し、本当の障害発生に備える、という驚くべき手法「カオスエンジニアリング」を実践している。 その効果は実証されている。Netflixが全面的に採用しているAmazon Web Services(AWS)で、2017年2月に中核施設の一つ、米バージニア北部リージョン(広域データセンター群)にて大規模障害が起きたとき、別のリージョンに速... 続きを読む
クラウドのリージョンを丸ごと落とす過酷な試験を実現する「Chaos Kong」、Netflixが発表。「カオスエンジニアリング」の指針も表明 - Publickey
クラウドのリージョンを丸ごと落とす過酷な試験を実現する「Chaos Kong」、Netflixが発表。「カオスエンジニアリング」の指針も表明 動画配信サービスのNetflixが、Amazonクラウド上のサーバをランダムに落とすことでシステムの堅牢性をチェックするという画期的な考え方のツール「Chaos Monkey」を発表したのは2012年でした。 サービス障害を起こさないために、障害を起こし続け... 続きを読む