タグ 障害時
人気順 5 users 50 users 100 users 500 users 1000 users【AWS】障害時の調査事項まとめ ~ELB・ECS・RDS~ - Qiita
はじめに 現在はAWSで構築されたシステムの運用保守業務に携わっており、その一環として障害調査を行うことが多々あります。 少しは経験値が上がったため、障害が発生した際に初動で確認する事項をまとめてみました。 インフラ基盤観点で障害調査を行うさいの参考になれば幸いです。 前提条件 当システムの構成は以下と... 続きを読む
ITインフラの障害時、「今どうなってるんだおじさん」にならないために 必要な心構えを考える
先日、KDDIが大規模な通信障害を起こした。社会インフラである携帯電話に関する障害ということもあって影響は大きく、SNSでもさまざまな話題のタネになった。障害対応をしている真っ最中の現場など、関係各所に「今どうなってるんだ」と怒鳴り込み、解決を遅らせる「今どうなってるんだおじさん」もその一つだ。 例えばa... 続きを読む
Twilioを利用した障害時の自動連絡網システムについて - BASEプロダクトチームブログ
この記事はBASE Advent Calendar 2020の5日目の記事です。 SRE Groupのngswです。 Eコマースプラットフォーム「BASE」における障害発生時に、社内関係者に連絡網に基づいて電話発信するシステムを構築しました。 このエントリでは、その導入までの経緯と具体的な当該システムの説明をします。 TL;DR 「BASE」で問題が発... 続きを読む
Netflixが障害時の負荷分散について説明。優先順位を付けトラフィックを制限 - Engadget 日本版
コロナ禍の中、Netflixの視聴者数は増加しており、それに伴いサーバー負荷も増大していると考えられます。にもかかわらず、地域によっては1時間程度の停止などは発生しているものの、2020年には全世界でのサービス停止などを伴う大規模な障害は発生していません。これは偶然ではなく、Netflixの努力があってのこと。Netf... 続きを読む
東証縛った2つの約束 終日停止、行き場失った3000億円 :日本経済新聞
1日に初めて終日売買停止となった東京証券取引所。システム障害の発端は機器の故障だが、再起動すれば当日中に売買を再開できた。それを妨げたのが故障を検知した後に受けたおよそ3000億円もの注文の取り扱いだ。2012年と18年の障害時に証券会社などと結んだ「約束」が今回、裏目に出た。 「大きな混乱が予想されるので... 続きを読む
監視について思うとこ - y-ohgi's blog
TL;DR 監視はユーザーにサービスを提供できているかを観測するための行為 SLI/SLOを定めて、SLOを守れるようにモニタリングする ダッシュボードは定常的に表示しておくものと障害時に活用するものを作ると良い アラートはレベル分けして人間が対応しなければならないものだけ人間へ通知する 監視とは サービスを健全に動... 続きを読む
専用ドライバ無しでAuroraの高速フェイルオーバーに対応してみる | DevelopersIO
大栗です。 Auroraは通常のRDS for MySQLと比べると元々障害時の復旧が速いのですが、高速フェイルオーバーという2〜3秒でフェイルオーバーができる機能があります。ただし専用のドライバ(MariaDB Connector/Jなど)を利用することが一般的です。先日MySQL用のプロキシサーバであるProxySQLがv2にバージョンアップして... 続きを読む
Office 365の障害時にどうすべきか | 日々徒然
年度明け最初の週末に向けた2018/4/6(金)の夕方、比較的広い範囲のOffice 365の一部テナントでログインに関連する障害が発生しました。 幸か不幸か、私の個人用のテナントや会社で使っているテナントは影響を受けていなかったのですが、色々と気づくことも有ったのでメモ代わりに記しておきたいと思います。 一番最初に気がついたのは、17:36に FacebookのOffice 365コミュニティ ... 続きを読む
Kubernetes で意図的に障害を起こしたらどうなるのか?
Posted on 2018-02-25 Kubernetes を本格的に使っていくにあたり Kubernetes の裏側の仕組みを勉強しています。抽象化が進みブラックボックスになっているものを何となくの知識で運用するのは怖いからです。仕組みをちゃんと理解しているかどうかは障害時にはっきりと現れます。 というわけで、Kubernetes で意図的に障害を起こしたらどうなるのか試してみました。今回は... 続きを読む
AWS - Amazon CloudFront の障害に備えてフェイルオーバーを設定する - Qiita
日本時間 2014/11/27 の AM9時〜AM11時頃まで、全世界的に Amazon CloudFront に障害がありました。 CDNとして CloudFront を利用しつつ、障害時にはフェイルオーバーする方法をまとめました。 S3 CloudFrontのOriginがS3でない場合は、この項の設定は関係ありません。 CloudFrontのOriginとしてS3を使う場合、以下のようにしま... 続きを読む
PR: Amazonクラウドの運用管理を自動化。週末のインスタンス自動停止、ストレージの定期スナップショット、障害時の待機システム自動起動など、すべて「Cloud Automator」で解決 - Publickey
PR: Amazonクラウドの運用管理を自動化。週末のインスタンス自動停止、ストレージの定期スナップショット、障害時の待機システム自動起動など、すべて「Cloud Automator」で解決 クラウドを活用したシステムを効率的に運用しようとすると、さまざまなオペレーションが日常的に発生します。例えば業務時間外にインスタンスを停止してコスト削減、インスタンスのイメージを作成して遠隔地へ定期保存、指定... 続きを読む
米ヒューレット・パッカードが低価格のマネージド仮想プライベートクラウド「HP Helion Managed VPC Lean」を発表。月額約1万7000円で運用サービス付き - Publickey
米ヒューレット・パッカードが低価格のマネージド仮想プライベートクラウド「HP Helion Managed VPC Lean」を発表。月額約1万7000円で運用サービス付き Amazonクラウドなどの一般的に使われているIaaS型のクラウドでは、クラウド上に構築したシステムの運用、例えばバックアップや障害時のフェイルオーバー、OSのパッチ当てといった作業もユーザー自身が行うことになっています。 そ... 続きを読む
ConsulによるMySQLフェールオーバー - @ijin
先日(6/22/14)、6月なのにどういう分けか早めに開催されたJuly Tech Festa 2014でConsulについて発表してきた。そのユースケースの一つとしてMySQL failoverをちょっとだけ紹介したので、ここに詳しく書いておく。 MHA MySQLレプリケーションの障害時にフェールオーバーしたい場合、MHAを使うの結構ポピュラー(日本では)だと思います。MHAは最新binlog... 続きを読む
ConsulによるMySQLフェールオーバー - @ijin
先日(6/22/14)、6月なのにどういう分けか早めに開催されたJuly Tech Festa 2014でConsulについて発表してきた。そのユースケースの一つとしてMySQL failoverをちょっとだけ紹介したので、ここに詳しく書いておく。 MHA MySQLレプリケーションの障害時にフェールオーバーしたい場合、MHAを使うの結構ポピュラー(日本では)だと思います。MHAは最新binlog... 続きを読む
ニュース - JR東日本がiPadを1万4000台導入、メンテナンスや建設部門に:ITpro
東日本旅客鉄道(JR東日本)は2014年6月10日、米アップルのiPadを約1万4000台導入したと発表した。新たに設備メンテナンスや建設部門が導入し、図面やマニュアルを電子化したり、障害時の情報共有を円滑にしたりする。 2014年5月末に導入を終えた。例えば、保線部門の担当者が線路の巡回中に異常を見つけたときに、異常箇所をiPadのカメラで撮影したり、関係者とビデオ通話機能を使ってその場でやり取... 続きを読む
サーバ用途でコンシューマ SSD へ調子に乗って書き込みすぎると壊れるという話 - mura日記 (halfrack)
Crucial M500 の write endurance が 75TB しか無いというのが話題になっていて、同じく 75TB である m4 をわざと虐待していたホストはどうなったのか気になって調べて見たところ、面白い結果が観測されたという話。石橋を叩いて壊し障害時の挙動を見るべく「自社全サービスのアクセスログを受け止める syslog サーバ」という、どう見ても書き込み中心で SSD にやさし... 続きを読む
Hadoopで、かんたん分散処理 (Yahoo! JAPAN Tech Blog)
こんにちは、地域サービス事業部の吉田一星です。 今回は、Hadoopについて、Yahoo!Japanでの実際の使用例を交えながら書きたいと思います。 Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 複数のマシンへの分散処理は、プロセス間通信や、障害時への対応などを考えなければならず、プログラマにとって敷居が高いものですが、 Hadoop... 続きを読む