はてブログ

はてなブックマーク新着エントリーの過去ログサイトです。



タグ 障害対応

新着順 人気順 5 users 10 users 50 users 100 users 500 users 1000 users
 
(1 - 25 / 48件)

障害対応で大切だと感じていることのまとめ - Qiita

2024/01/18 このエントリーをはてなブックマークに追加 310 users Instapaper Pocket Tweet Facebook Share Evernote Clip まとめ - Qiita 一昨日 操作ミス ユーザー 影響

私個人の障害対応の経験と 一昨日参加したIncident Response Meetup vol.1での学びから 障害対応において大切だと感じていることをまとめる。 障害とは リリース後のシステムにおいてシステムの不具合やユーザーの操作ミスによってユーザー業務に影響が出ているもしくは出る恐れがあるもの。 障害対応の目的 システムを... 続きを読む

NTTデータ、全銀ネットの障害対応を説明--根本原因にめども「包括的な点検が必要」

2023/11/06 このエントリーをはてなブックマークに追加 10 users Instapaper Pocket Tweet Facebook Share Evernote Clip 点検 NTTデータ 根本原因 全銀ネット 更改

全銀ネットでは、障害発生直前の10月7~9日に、全銀システムと金融機関の接続を中継するリレーコンピューター(RC)の更改作業を行った。NTTデータは全銀システムに携わっており、旧RC(RC17シリーズ)を新RC(RC23シリーズ)に更改するプロジェクトを担当している。更改は、金融機関で設置、稼働するRC17シリーズをRC23... 続きを読む

全銀システムの障害対応で『LTOテープでデータ転送』伝説の年寄り出てきたみたいなアツさがある「訓練あるよね」

2023/10/15 このエントリーをはてなブックマークに追加 22 users Instapaper Pocket Tweet Facebook Share Evernote Clip 年寄り 訓練 アツさ 伝説 データ転送

加藤公一(はむかず) @hamukazu 「LTO(Linear Tape-Open)テープの持ち込みによって処理するようにした。」 キター! xtech.nikkei.com/atcl/nxt/news/… 2023-10-11 21:17:52 加藤公一(はむかず) @hamukazu Kimikazu Kato, ソフトバンク株式会社。博士(情報理工学)。修士は数学(代数幾何学)。にゃーんと鳴く狂犬... 続きを読む

ポストモーテム会を行って障害対応の改善を図った話 - LIFULL Creators Blog

2023/09/30 このエントリーをはてなブックマークに追加 9 users Instapaper Pocket Tweet Facebook Share Evernote Clip TypeScript サーバサイドエンジニア Ruby 改善

プロダクトエンジニアリング部の吉田と申します。 普段はRubyやTypeScriptといった言語を使ったサーバサイドエンジニアをしています。 今回、サイトの閲覧障害をきっかけに行ったポストモーテム会が個人的にとても有意義だと感じたので紹介させてください。 障害分析レポートの紹介 弊社では障害が起きた場合、障害分析... 続きを読む

「こんな僕でも結婚できました」の内容がなかなか凄い→「20代で禿げていた」「デートドタキャンの理由が障害対応」「彼女の年収を超えたことがない」

2023/08/12 このエントリーをはてなブックマークに追加 17 users Instapaper Pocket Tweet Facebook Share Evernote Clip 年収 彼女 理由 内容 20代

無能なボンブ@ITエンジニアのまとめ @itengr_matome 経歴だけ無駄に長い、ほぼ何もできない自営業のITエンジニアです。自分への戒めにごく稀に辛辣なツイートをします。独身の方、お仕事・プライベートに悩んでいる方、短気な方はご注意ください。X(Twitter)のみんなは、ITエンジニアのいいところをXeetしてますが、ボ... 続きを読む

SREチームのリーダーになって1年経過した|あんどぅ

2023/08/06 このエントリーをはてなブックマークに追加 28 users Instapaper Pocket Tweet Facebook Share Evernote Clip アンド SIer SREチーム 筆者 リーダー

SIerから事業会社のエンジニアに転職後、SREチームのリーダーになって1年経過※したので、個人的なふりかえりのためにやったことを言語化し整理します。 ※ 本当は7月で1年なので先月書きたかったけど、7月は評価と目標設定に加えて障害対応などが重なりめちゃくちゃ忙しかった。。。 筆者の略歴SIerで10年半、インフラ主... 続きを読む

YAPC::Kyoto 2023で障害対応について登壇してきた #yapcjapan - 地方エンジニアの学習日記

2023/03/21 このエントリーをはてなブックマークに追加 9 users Instapaper Pocket Tweet Facebook Share Evernote Clip Twitter YAPC yapcjapan 登壇 満席

yapcjapan.org YAPC::Kyoto 2023で登壇してきました!これまでオフラインイベントで登壇といえば少人数でのイベントくらいでこの規模で話すのは初だったので緊張してましたが始まってしまえばとても楽しめて話せてとても良い機会になりました!ありがとうございます!ほぼ満席(多分)で発表後の質問やTwitterでも反響があ... 続きを読む

YAPC::Kyoto 2023でベストトーク賞をいただきました #yapcjapan - たまめも(tech)

2023/03/20 このエントリーをはてなブックマークに追加 11 users Instapaper Pocket Tweet Facebook Share Evernote Clip YAPC CloudFlare yapcjapan tech

なんと4年ぶりのYAPC!超楽しかったです!!!!! あまり多くトークを観られなかった(後日動画で追っかけます!)のですが、渡部さんの障害対応・訓練のお話は明日から早速使えるネタをたくさんいただけて大変勉強になりました。またCloudflareなどまだ自分がプロダクションで採用したことがない技術の話がたくさん聴... 続きを読む

私がインフラ運用保守で意識して行っていること(コラム) - Qiita

2023/03/05 このエントリーをはてなブックマークに追加 190 users Instapaper Pocket Tweet Facebook Share Evernote Clip 過信 Qiita 油断 インフラ 運用保守

~はじめに~ 運用保守は、手順書通りするだけの楽な業務と勘違いしていませんか? 私は3年間運用保守(インフラ)に携わり、手順書作成や障害対応/調査、運用支援など様々なことを行ってきました。そんな私が思うに運用保守は、全くそんな楽な業務でありません。 運用保守は過信と油断をすれば、すぐに業務影響を出してし... 続きを読む

CREのおしごと〜エンジニアチーム編〜 - Link and Motivation Developers' Blog

2022/11/11 このエントリーをはてなブックマークに追加 18 users Instapaper Pocket Tweet Facebook Share Evernote Clip cre リンクアンドモチベーション Waka 新卒 Blog

はじめまして、新卒からCREグループに配属されて2年目のWakaです。 この記事では、CREのエンジニアチームが「日々取り組んでいること」と「心がけていること」をご紹介いたします。 そもそもリンクアンドモチベーションのCREとは? エンジニアチームって何しているの? プロダクト対応 仕様確認 障害対応 イレギュラー対... 続きを読む

微増益になるはずが──KDDI、障害対応・燃料高騰で約150億円 今後の対策にも500億円

2022/11/02 このエントリーをはてなブックマークに追加 7 users Instapaper Pocket Tweet Facebook Share Evernote Clip KDDI 燃料高騰 VoLTE 対策 ネットワーク

KDDIは今後、通信障害対策として500億円を追加投資してネットワークの仮想化を進めるとしている。現在、同社の5Gネットワークは全面的に仮想化ができているが、VoLTEのネットワークは古いまま。もともと仮想化の予定はあったが、追加投資のうち300億円程度を使ってこの取り組みを加速する。 今後は、仮想化により運用の... 続きを読む

ITインフラの障害時、「今どうなってるんだおじさん」にならないために 必要な心構えを考える

2022/09/13 このエントリーをはてなブックマークに追加 205 users Instapaper Pocket Tweet Facebook Share Evernote Clip 心構え KDDI タネ ITインフラ おじさん

先日、KDDIが大規模な通信障害を起こした。社会インフラである携帯電話に関する障害ということもあって影響は大きく、SNSでもさまざまな話題のタネになった。障害対応をしている真っ最中の現場など、関係各所に「今どうなってるんだ」と怒鳴り込み、解決を遅らせる「今どうなってるんだおじさん」もその一つだ。 例えばa... 続きを読む

木原官房副長官、KDDIの障害対応めぐり「周知・広報に責任を果たしたといえない」

2022/07/06 このエントリーをはてなブックマークに追加 13 users Instapaper Pocket Tweet Facebook Share Evernote Clip KDDI 周知 木原官房副長官 広報 責任

続きを読む

auなどKDDIの障害対応「もっと顧客目線で」 総務省が異例指示

2022/07/05 このエントリーをはてなブックマークに追加 6 users Instapaper Pocket Tweet Facebook Share Evernote Clip KDDI 日経 全面 総務省 複製

日経の記事利用サービスについて 企業での記事共有や会議資料への転載・複製、注文印刷などをご希望の方は、リンク先をご覧ください。 詳しくはこちら KDDIが起こした大規模な通信障害は5日夕にも全面復旧する見通しとなった。初動体制では原因や復旧時期などの情報開示が乏しく、利用者や企業が混乱した。問題視した総... 続きを読む

失敗して攻め続けるために - freeeのエンジニアが障害対応で実践していること - freee Developers Blog

2021/09/28 このエントリーをはてなブックマークに追加 24 users Instapaper Pocket Tweet Facebook Share Evernote Clip freee エンジニア

2015年10月入社でコアエンジンチームの@kompiroと申します。普段は下記の3つの業務に従事しています。 お客様が自社の情報を把握するためのデータアグリゲーション機能の開発 マイクロサービスに切り出したデータアグリゲーション機能をEKSに移行 チーム横断で開発者のみんなが開発しやすい環境の構築 そんな私ですが、... 続きを読む

Webアプリケーションの障害対応について改めて意識すべき点ややれると良いことをまとめる - stefafafan の fa は3つです

2020/09/07 このエントリーをはてなブックマークに追加 46 users Instapaper Pocket Tweet Facebook Share Evernote Clip Webアプリケーションエンジニア stefafafan

Webアプリケーションエンジニアをやっていると時たま障害が発生し復旧作業にあたるのだが、人によって「障害対応が得意」だったり「苦手」だったりする。ただ、障害対応時の「良い動き」というのが実際どういうものなのかというのが自分の中でふんわりしていたので、ざっくりはてブで「障害対応」で検索していくつかのエ... 続きを読む

Webサービスの障害対応のときの思考過程 - ぱいぱいにっき

2020/08/30 このエントリーをはてなブックマークに追加 296 users Instapaper Pocket Tweet Facebook Share Evernote Clip 筆者 スキル ぱいぱいにっき スピード 正確さ

起こってほしくはないのですが、あらゆるWebサービスは完璧に動作する状態を維持することは難しく、やはり障害対応・トラブルシューティングといった作業が発生します。 筆者は普段仕事で障害対応を不幸なことによくやるのですが、障害対応のスキルというのはスピードや判断の正確さが求められるせいか、今までやったこ... 続きを読む

オミカレにおけるAWS SQS/Lambda/CloudWatchの障害対応 | uedy

2020/04/20 このエントリーをはてなブックマークに追加 30 users Instapaper Pocket Tweet Facebook Share Evernote Clip CloudWatch Lambda SQS オミカレ AWS

2020年4月20日18:58頃に発生したSQS/Lambda/CloudWatchの障害への対応 オミカレでもAWSのSQS/Lambda/CloudWatchを利用している。主にメールやPush通知を送信しており、これが止まれば 会員登録・予約 などの様々なユーザー体験が損なわれる。 なので対応を議論していたところ 天才的ひらめきですぐに移すことに取り掛か... 続きを読む

システム障害対応の最中に感染し、全員が自宅待機を命じられたらどうなる? | 日経クロステック(xTECH)

2020/03/26 このエントリーをはてなブックマークに追加 17 users Instapaper Pocket Tweet Facebook Share Evernote Clip 感染拡 新型コロナウイルス xTech 議論 現場

「システムの障害対応をしている最中に関係者全員が自宅待機を命じられたらどうしますか」 知り合いのベテラン技術者からこんな書き出しのメールが送られてきた。新型コロナウイルスの感染拡⼤を受け、情報システムを担当する現場では同様の議論が避けられなくなっているはずだ。 情報システムにトラブルが起き、止まっ... 続きを読む

「すごく丁寧」「好感が持てる」──スマホゲーム「偽りのアリス」の障害、運営元が図解 ネットで話題に - ITmedia NEWS

2019/12/20 このエントリーをはてなブックマークに追加 19 users Instapaper Pocket Tweet Facebook Share Evernote Clip 図解 好感 丁寧 アリス ITmedia News

スマホゲーム「偽りのアリス」で12月18日に発生した不具合について、運営元が障害対応の詳細を図解で説明。ネットで「ここまで詳しい障害説明は初めてだわ」「すごく丁寧」などと話題に。 「ここまで詳しい障害説明は初めてだわ」「すごく丁寧」──スマートフォンゲーム「偽りのアリス」で12月18日に発生した不具合につい... 続きを読む

障害対応からOSSへコントリビューションを行った時の話 | リクルートテクノロジーズ メンバーズブログ

2019/12/18 このエントリーをはてなブックマークに追加 13 users Instapaper Pocket Tweet Facebook Share Evernote Clip コントリビューション OSS 宮地 リクルートテクノロジーズ

この記事は Recruit Engineers Advent Calendar 2019 の 18日目の記事です。 リクルートテクノロジーズでインフラエンジニアをやっている宮地(@int_tt)です。 今回は今年起きた障害への対応と、OSSへのコントリビューションまでのお話をしたいと思います。 はじめに 僕の担当しているプロダクトではコンテナ環境で運用し... 続きを読む

Rails開発で障害対応を減らすには? システム障害との向き合い方 Part2 - ログミーTech

2019/07/01 このエントリーをはてなブックマークに追加 22 users Instapaper Pocket Tweet Facebook Share Evernote Clip Rails開発 ログミーTech Ruby エンジニア 技術

2019年3月2日、TECH PLAY SHIBUYAにて「TokyoGirls.rb Meetup vol.1」が開催されました。女性でも参加しやすい、Ruby勉強会を目指して開催された本イベント。4人のエンジニアが登壇し、Rubyにまつわることをはじめとしたさまざまな技術の話題を語りました。プレゼンテーション「システム障害との向き合い方」に登壇した... 続きを読む

システム障害との向き合い方 @sinamon129 #tokyogirlsrb - Speaker Deck

2019/03/02 このエントリーをはてなブックマークに追加 250 users Instapaper Pocket Tweet Facebook Share Evernote Clip techplay.jp フェーズ 大小 沢山 習熟度

これまで大小様々なシステム障害に遭遇してきましたが、障害対応から学ぶことは沢山あります。 いろんな習熟度のフェーズで障害発生を学びに変えるための行動事例や、webアプリケーション開発において障害対応を減らすためにできることなどをお話しできればと思います。 TokyoGirls.rb Meetup vol.1 https://techplay.jp... 続きを読む

PagerDutyを導入して障害対応の体制と運用ルールを確立しました - LCL Engineers' Blog

2018/11/30 このエントリーをはてなブックマークに追加 68 users Instapaper Pocket Tweet Facebook Share Evernote Clip PagerDuty LCL LCL Engineers 古賀

Webエンジニアの古賀です。LCLでは、障害対応の強化の一つとして多機能な通知機能を持つPagerDutyを導入しました。 組織的な対応シフト・フローが組めるようになり、精神的にとても安心できるようになったので紹介させていただきます。 pagerduty.digitalstacks.net 導入前の課題 LCLでは、Mackerelを利用して各サーバの... 続きを読む

9/26(水)に発生した障害の詳細報告とその後の取り組みについて - Mackerel ブログ #mackerelio

2018/10/15 このエントリーをはてなブックマークに追加 31 users Instapaper Pocket Tweet Facebook Share Evernote Clip mackerelio redis 障害 仮説検証 復旧作業

9/26(水)に発生した障害の詳細報告とその後の取り組みについてお知らせいたします。 発生時間 当日のタイムライン(いずれも日本時間) 10:51 Redisのフェイルオーバーと障害発生 10:55 復旧作業と障害継続 11:00-14:50 障害対応 15:20 復旧確認 障害発生の原因について 仮説検証について 今後の対応 Redisフェイルオーバ... 続きを読む

 
(1 - 25 / 48件)