はてブログ

はてなブックマーク新着エントリーの過去ログサイトです。



タグ 障害発生時

新着順 人気順 5 users 10 users 50 users 100 users 500 users 1000 users
 
(1 - 21 / 21件)
 

Microsoftのクラウドサービス「Microsoft Azure」が停電で一時ダウン、障害発生時は現場にスタッフが3人しかいなかったとMicrosoftが認める

2023/09/06 このエントリーをはてなブックマークに追加 11 users Instapaper Pocket Tweet Facebook Share Evernote Clip クラウドサービス 停電 シドニー Microsoft 事態

現地時間2023年8月30日にオーストラリアのシドニーで、Microsoftのクラウドサービス「Microsoft Azure」のデータセンターで発生した停電によって、サービスが一時的にダウンする事態が発生しました。その後のMicrosoftの分析で、サービス停止時に現場にいた技術者が3人だけだったことが明かされています。 Azure status ... 続きを読む

マスク氏、有事に強いインターネット設備構築目指す台湾に最後通告

2023/07/07 このエントリーをはてなブックマークに追加 194 users Instapaper Pocket Tweet Facebook Share Evernote Clip 有事 Leo 最後通告 台湾 標的

台湾のインターネットをほぼ全面的に支えているのは14本の海底ケーブルだ。台湾が中国と戦争することになれば、これが格好の標的になるだろう。 中国との緊張が高まる中、台湾政府は域内の通信体制強化を目指し、障害発生時に接続を支援できるような低軌道(LEO)衛星システムを求めて世界各国を訪問している。 イー... 続きを読む

MackerelとGrafana OnCallを連携しました - KAYAC engineers' blog

2023/06/28 このエントリーをはてなブックマークに追加 6 users Instapaper Pocket Tweet Facebook Share Evernote Clip WebHook mackerel Proxy SRE連載 藤原

SREチームの藤原です。今回は監視サービスのMackerelと、障害発生時に担当者へのオンコールを自動化するGrafana OnCallを連携してみた話です。SRE連載 6月号になります。 3行でまとめ MackerelとGrafana OnCallを連携しました MackerelのアラートWebhookをGrafana OnCallのWebhookに変換するproxyをAWS Lambdaで作りまし... 続きを読む

メリット多し! 格安SIMを使って固定回線風に使う方法やルーターを考える (1/2)

2022/07/31 このエントリーをはてなブックマークに追加 15 users Instapaper Pocket Tweet Facebook Share Evernote Clip モバイルルーター バックアップ モバイル回線 ルーター 選択肢

自宅のインターネット回線としてモバイル回線を使うことは、金銭的なメリットのほか、障害発生時のバックアップとしてもメリットがある。そこで今、モバイル回線を固定回線風に使うためのモバイルルーターやサービスにどんな選択肢があるか調べた。 コスト面でも、障害対策としても注目される モバイル回線の固定回線的... 続きを読む

なぜ「SIMカードなし」のスマホから緊急通報を利用できないのか?

2022/07/13 このエントリーをはてなブックマークに追加 185 users Instapaper Pocket Tweet Facebook Share Evernote Clip 緊急通報 SIMカード KDDI スマホ 通信障

7月2日から発生したKDDIの通信障害により、緊急通報が利用できない事態に陥りました。こうした状況を受け、障害発生時には緊急通報だけでも他社回線を使って発信できないのかという指摘も出始めています。一方、SIMカードのない状態で緊急通報は利用できないのでしょうか。 7月2日未明に発生した、KDDIの大規模な通信障... 続きを読む

障害発生時に担当者へのオンコールを自動化「Grafana OnCall」がオープンソースで公開

2022/06/15 このエントリーをはてなブックマークに追加 173 users Instapaper Pocket Tweet Facebook Share Evernote Clip オンコール オープンソース Prometheus 自動化 公開

クラウド対応のログ可視化ツールとして知られる「Grafana」や監視システム「Prometheus」などを開発し提供するGrafana Labsは、障害発生時に担当者へのオンコールを自動化できるオンコールマネジメントソフトウェア「Grafana OnCall」をオープンソースで公開したことを明らかにしました。 Introducing the newest member... 続きを読む

【保存版】東京リージョンの AWS 障害発生時にクラスメソッドのテクニカルサポートチームがやっていること | DevelopersIO

2021/03/29 このエントリーをはてなブックマークに追加 191 users Instapaper Pocket Tweet Facebook Share Evernote Clip DevelopersIO クラスメソッド AWS 保存版

どのような事前準備をしているか 有事の際は想定外のことが発生しやすく、事前準備をしていないと冷静な対応が難しくなります。 いきなりしっかりした事前準備をすることは難しいので、徐々に成熟度を上げていきます。 本章では以下の観点で、事前準備についてご紹介します。 手順書 自動化 訓練 手順書 フローやチェッ... 続きを読む

SingleAZ配置のEC2インスタンスで障害発生時の影響を最小化する | DevelopersIO

2019/08/27 このエントリーをはてなブックマークに追加 90 users Instapaper Pocket Tweet Facebook Share Evernote Clip 西澤 DevelopersIO 東京リージョン 一方 最小限

西澤です。8/23(金)に東京リージョンにおいて大規模な障害が発生し、多くのシステムが影響を受けました。この障害に際して、可用性を担保する設計の重要性を考えさせられた一方で、切り捨てるものを決め、迅速に復旧し、障害の影響を最小限に抑えることも大切なことだと痛感しました。シングル構成のシステムを運用され... 続きを読む

JR旅客販売総合システムのシステム障害についてまとめてみた - piyolog

2019/02/18 このエントリーをはてなブックマークに追加 27 users Instapaper Pocket Tweet Facebook Share Evernote Clip 特定 JR東海 piyolog 全国各地 発生

2019年2月15日午前中、JR新幹線の自動発券機が全国各地で利用できないシステム障害が発生しました。ここでは関連する情報をまとめます。 障害発生時の状況 2019年2月15日午前5時半頃に不具合が発生していることをJR東海が確認。 利用客が購入時操作する2種類の券売機端末(一部のMV50、MV60)で発生。 特定の条件で購入... 続きを読む

Windows 10でシステムエラー発生時の無駄なメモリ内容の書き込みや再起動を抑制する:Tech TIPS - @IT

2018/11/01 このエントリーをはてなブックマークに追加 19 users Instapaper Pocket Tweet Facebook Share Evernote Clip Tech TIPS メモリ内容 再起動 Windows 1

Windows OSを使っていると、ごくマレだが、何らかの致命的な障害が発生したことによる「ブルースクリーン」が表示されることがある。この際、障害発生時のメモリ内容をファイルに書き込み(メモリダンプ)を行い、自動的に再起動が実行される。 Windows 10のブルースクリーン 致命的な障害が発生すると、このような青い... 続きを読む

DSAS開発者の部屋:LVSの高負荷対策 その2 ~障害の再現とその原因~

2017/09/26 このエントリーをはてなブックマークに追加 47 users Instapaper Pocket Tweet Facebook Share Evernote Clip lvs ロードバランサ 岡村 再現 メモリ周り

こんにちは。インフラ担当の岡村です。 「 LVSの高負荷対策 その1 ~障害発生~ 」の記事で、大量のSYNパケットを受信した際にロードバランサの再起動が発生したことと、その緊急の対策についてご紹介しました。 今回は、再現確認を行い判明した再起動の原因と、LVSに備わっている高負荷対策の機能についてご紹介します。 検証 前回ご紹介した通り、障害発生時のログからメモリ周りが怪しそうでした。 そこで、... 続きを読む

障害発生時に即座に収集したいサーバの状態・14項目」を実際に収集してみた - えいのうにっき

2016/11/20 このエントリーをはてなブックマークに追加 237 users Instapaper Pocket Tweet Facebook Share Evernote Clip 佐野裕 スキルアップ インフラ インフラエンジニア 作者

2016 - 11 - 20 「障害発生時に即座に収集したいサーバの状態・14項目」を実際に収集してみた 技術 インフラ 本 僕はインフラエンジニアではないし、そうだったこともないのだけど、いま「インフラエンジニアの教科書2」という本を読んでいる。 インフラエンジニアの教科書2 スキルアップに効く技術と知識 作者: 佐野裕 出版社/メーカー: シーアンドアール研究所 発売日: 2016/08/26... 続きを読む

ヤフーメール:障害で258万通消失 97万人宛て - 毎日新聞

2015/09/06 このエントリーをはてなブックマークに追加 16 users Instapaper Pocket Tweet Facebook Share Evernote Clip ヤフーメール 送受信 消失 毎日新聞 ヤフー

無料メールサービス「ヤフーメール」で8月、約260万人に影響するアクセス障害が起きた問題で、サービスを提供するヤフー(東京都港区)は6日、約97万人宛てのメール約258万通が消失したと発表した。 障害は8月28日に発生。ヤフーメール利用者のうち約260万人が一時、メールの送受信ができない状態となった。メール情報などの流出はないという。 ヤフーは障害発生時、「メールの消失はない」としていたが、その後... 続きを読む

障害発生時にも漏れなし! Zabbixの監視アラートでRedmine上にチケットを起票する仕組みをつくろう (1/4):CodeZine

2015/01/22 このエントリーをはてなブックマークに追加 158 users Instapaper Pocket Tweet Facebook Share Evernote Clip CodeZine Zabbix アラート チケット きっかけ

今回は、システム監視ツール「Zabbix」が発したアラートをきっかけとして、障害の詳細情報などを記述したチケットをRedmine上へ起票する仕組みを作ります。障害発生時はその対応に追われ、Redmineチケットの起票を忘れがちです。障害の詳細情報と、対応完了までの記録をきちんと残すために、こうした仕組みを構築することをお勧めします。 障害発生時でも確実にチケットを起票できますか? 前回は、Redm... 続きを読む

Amazon Auroraの耐障害性について調べてみた | Developers.IO

2014/12/16 このエントリーをはてなブックマークに追加 33 users Instapaper Pocket Tweet Facebook Share Evernote Clip Developers.IO 耐障害性 Aurora 障害 設計

Amazon Auroraの耐障害性について プレビュー版のAmazon Aurora使えるようになったので色々試しています。Auroraには耐障害性(フォールト・トレランス)の仕組みがあり、何かしらの障害に対してサービスが継続的に停止しないような設計になっています。新しいDBエンジンということで、障害発生時にどのように対応すれば良いのか分かっていない方も多いかと思います。今回は、Auroraがど... 続きを読む

ニュース - オレガ、ストレージ仮想化ソフト新版で遠隔レプリカによるHAを可能に:ITpro

2013/08/01 このエントリーをはてなブックマークに追加 10 users Instapaper Pocket Tweet Facebook Share Evernote Clip HA レプリカ ボリューム ストレージ仮想化 継続

オレガは2013年7月31日、ストレージ仮想化ソフトの新版「VVAULT 5.0」(写真)の提供を開始した。新版では、データのレプリケーション時にアクセス権限情報もコピーすることによって、障害発生時にレプリカのボリュームをそのままマスターボリュームとして継続利用できるようにした。 VVAULTは、Windows上で動作するストレージ仮想化ソフトである(関連記事:オレガがストレージ仮想化ソフトのDL... 続きを読む

ほかにも影響を受けたサイトが存在?:LinkedInでアクセス障害、原因はDNSハイジャックとの指摘 - @IT

2013/06/20 このエントリーをはてなブックマークに追加 19 users Instapaper Pocket Tweet Facebook Share Evernote Clip LinkedIn DNSハイジャック Twitter DNS

6月20日、ビジネス向けSNSのLinkedInが、「DNSの問題」により約1時間にわたってアクセスできなくなる事態が発生した。障害発生時はLinkedInにアクセスしてもドメイン販売用のページが表示される状態になっていたが、現在ではほぼ復旧しているという。 LinkedInはこれまでのところ、Twitterでの発言以外には詳細を明らかにしていない。 app.netの共同創設者、Bryan Ber... 続きを読む

障害発生時にZabbixサーバーから電話を掛けさせる方法

2013/05/23 このエントリーをはてなブックマークに追加 108 users Instapaper Pocket Tweet Facebook Share Evernote Clip Zabbix 監視サーバー 電話 http 実行

Zabbixサーバー障害発生時に自動的に電話を掛けさせる方法 Zabbixからの電話発信方法 http://www.slideshare.net/BlueSkyDetector/zabbixjp-study-20100730-2nd-session 実行にはX Windowが必要ですが、幸いなことに監視サーバーにはX Windowが入っています。 俺のZabbixがこんなに可愛いわけがない ~おか... 続きを読む

リブセンス運営の求人サイト「ジョブセンス」が個人情報漏洩 :ベンチャーニュース:Venture Now(ベンチャーナウ)

2013/02/28 このエントリーをはてなブックマークに追加 23 users Instapaper Pocket Tweet Facebook Share Evernote Clip リブセンス 性別 Venture Now 氏名 経由

リブセンスは28日、システム障害発生により同社運営のアルバイト求人サイト「ジョブセンス」において、サイトへアクセスしたユーザーが一時的に顧客情報を閲覧できる状態になっていたことを明らかにした。 閲覧可能となっていた情報は、「ジョブセンス」利用企業最大444社459名の個人情報(企業名、氏名)。障害発生時に「ジョブセンス」経由でアルバイト求人へ応募した求職者最大1,673名の個人情報(氏名、性別、電... 続きを読む

AWS:Route 53のDNSフェイルオーバー機能を利用したリージョンを跨いだバックアップサイトの構築(S3編) | クラスメソッド開発ブログ

2013/02/13 このエントリーをはてなブックマークに追加 50 users Instapaper Pocket Tweet Facebook Share Evernote Clip リージョン DNSフェイルオーバー機能 AWS バックアップ

■Route 53へのフェイルオーバー機能とヘルスチェック機能の追加 先日のAWSよりRoute 53へのフェイルオーバー機能とヘルスチェック機能の追加に関しての発表がありました。 AWSでWebサイトなどをホストする場合、障害発生時に一時的にSorry Pageを表示したり、バックアップのWebサイトに切り替えたりといったことを自動的に行うことはこれまで比較的難しいかったと思います。 今回、Ro... 続きを読む

「障害発生の多いサーバーは選定対象から外す」、43%の企業が回答 - クラウド Watch

2012/04/12 このエントリーをはてなブックマークに追加 12 users Instapaper Pocket Tweet Facebook Share Evernote Clip 回答 クラウド Watch 選定対象 障害発生 保守

「障害発生の多いサーバーは選定対象から外す」、43%の企業が回答 IDC Japan株式会社は12日、国内x86サーバーサポートに関する調査結果を発表した。x86サーバーを導入後、サーバーの品質、信頼性、障害発生時のベンダー対応などについてどのように評価しているかを、従業員10名以上のユーザー企業を対象に行った調査。 これによると、「過去3年間において運用・保守・管理するx86サーバーの台数が増加... 続きを読む

 
(1 - 21 / 21件)