タグ 障害時
人気順 5 users 10 users 50 users 500 users 1000 users【AWS】障害時の調査事項まとめ ~ELB・ECS・RDS~ - Qiita
はじめに 現在はAWSで構築されたシステムの運用保守業務に携わっており、その一環として障害調査を行うことが多々あります。 少しは経験値が上がったため、障害が発生した際に初動で確認する事項をまとめてみました。 インフラ基盤観点で障害調査を行うさいの参考になれば幸いです。 前提条件 当システムの構成は以下と... 続きを読む
ITインフラの障害時、「今どうなってるんだおじさん」にならないために 必要な心構えを考える
先日、KDDIが大規模な通信障害を起こした。社会インフラである携帯電話に関する障害ということもあって影響は大きく、SNSでもさまざまな話題のタネになった。障害対応をしている真っ最中の現場など、関係各所に「今どうなってるんだ」と怒鳴り込み、解決を遅らせる「今どうなってるんだおじさん」もその一つだ。 例えばa... 続きを読む
監視について思うとこ - y-ohgi's blog
TL;DR 監視はユーザーにサービスを提供できているかを観測するための行為 SLI/SLOを定めて、SLOを守れるようにモニタリングする ダッシュボードは定常的に表示しておくものと障害時に活用するものを作ると良い アラートはレベル分けして人間が対応しなければならないものだけ人間へ通知する 監視とは サービスを健全に動... 続きを読む
AWS - Amazon CloudFront の障害に備えてフェイルオーバーを設定する - Qiita
日本時間 2014/11/27 の AM9時〜AM11時頃まで、全世界的に Amazon CloudFront に障害がありました。 CDNとして CloudFront を利用しつつ、障害時にはフェイルオーバーする方法をまとめました。 S3 CloudFrontのOriginがS3でない場合は、この項の設定は関係ありません。 CloudFrontのOriginとしてS3を使う場合、以下のようにしま... 続きを読む
ConsulによるMySQLフェールオーバー - @ijin
先日(6/22/14)、6月なのにどういう分けか早めに開催されたJuly Tech Festa 2014でConsulについて発表してきた。そのユースケースの一つとしてMySQL failoverをちょっとだけ紹介したので、ここに詳しく書いておく。 MHA MySQLレプリケーションの障害時にフェールオーバーしたい場合、MHAを使うの結構ポピュラー(日本では)だと思います。MHAは最新binlog... 続きを読む
サーバ用途でコンシューマ SSD へ調子に乗って書き込みすぎると壊れるという話 - mura日記 (halfrack)
Crucial M500 の write endurance が 75TB しか無いというのが話題になっていて、同じく 75TB である m4 をわざと虐待していたホストはどうなったのか気になって調べて見たところ、面白い結果が観測されたという話。石橋を叩いて壊し障害時の挙動を見るべく「自社全サービスのアクセスログを受け止める syslog サーバ」という、どう見ても書き込み中心で SSD にやさし... 続きを読む
Hadoopで、かんたん分散処理 (Yahoo! JAPAN Tech Blog)
こんにちは、地域サービス事業部の吉田一星です。 今回は、Hadoopについて、Yahoo!Japanでの実際の使用例を交えながら書きたいと思います。 Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 複数のマシンへの分散処理は、プロセス間通信や、障害時への対応などを考えなければならず、プログラマにとって敷居が高いものですが、 Hadoop... 続きを読む