タグ 障害対応
人気順 5 users 50 users 100 users 500 users 1000 usersシステム障害を素早く解決するための考え方・工夫について - Uzabase for Engineers
この記事は NewsPicks Advent Calendar 2024 の12日目の記事です。 こんにちは。ソーシャル経済メディア「NewsPicks」エンジニアの桐畑です。 今回は「システム障害を素早く解決するための考え方・工夫について」というテーマでお伝えしたいと思います。 NewsPicksサービス状況・障害対応 障害の原因分類 障害の原因特定... 続きを読む
ペアーズにおけるAmazon Bedrockを⽤いた障害対応⽀援 ⽣成AIツールの導⼊事例 @ 20241115配信AWSウェビナー登壇
2024/11/15 AWS オンラインセミナー、「生成 AI が切り拓く、今後のエンジニアリング環境」での発表資料になります。 https://pages.awscloud.com/eib-aiml-241115-reg.html 続きを読む
効果的なオンコール対応と障害対応
20240906_JAWS_Yamanashi_#1_leap_beyond_the_AWS_all_certifications 続きを読む
障害対応を属人化させない。「全員インシデントコマンダー」体制を根付かせた、山本五十六の格言【NewsPicks SRE 安藤裕紀】 | レバテックラボ(レバテックLAB)
TOPインタビュー障害対応を属人化させない。「全員インシデントコマンダー」体制を根付かせた、山本五十六の格言【NewsPicks SRE 安藤裕紀】 障害対応を属人化させない。「全員インシデントコマンダー」体制を根付かせた、山本五十六の格言【NewsPicks SRE 安藤裕紀】 2024年8月26日 ユーザベース NewsPicks事業 SREチー... 続きを読む
障害対応を楽しむ7つのコツ
Bring your app’s core features to users with App Intents とか App Intents 関連の要約 続きを読む
障害対応におけるポストモーテムのご紹介 - Findy Tech Blog
こんにちは、ファインディ株式会社で機械学習エンジニアをしていますsasanoshouta(@Edyyyyon)です。この記事は、ファインディでインシデントが発生した際に行なっているポストモーテムの運用とその様子について、先日発生したインシデントを元に紹介をする記事となっています。 今回発生したインシデントについて まず、... 続きを読む
OOMしたCronJobのメモリ制限を「いい感じ」に増やし、不必要な課金・障害対応を減らす - エムスリーテックブログ
初めまして、2024年3月後半にエムスリーのAI・機械学習チームで10日間インターンに参加させていただいた東(@azuma_alvin)です。 もしタイトルが何かに似ていると感じた方がいれば、只者ではないと思われます。 洗練されたデザインでかっこいいと思ったエムスリーオフィスの受付の写真 この記事では、KubernetesのCronJ... 続きを読む
障害対応で大切だと感じていることのまとめ - Qiita
私個人の障害対応の経験と 一昨日参加したIncident Response Meetup vol.1での学びから 障害対応において大切だと感じていることをまとめる。 障害とは リリース後のシステムにおいてシステムの不具合やユーザーの操作ミスによってユーザー業務に影響が出ているもしくは出る恐れがあるもの。 障害対応の目的 システムを... 続きを読む
NTTデータ、全銀ネットの障害対応を説明--根本原因にめども「包括的な点検が必要」
全銀ネットでは、障害発生直前の10月7~9日に、全銀システムと金融機関の接続を中継するリレーコンピューター(RC)の更改作業を行った。NTTデータは全銀システムに携わっており、旧RC(RC17シリーズ)を新RC(RC23シリーズ)に更改するプロジェクトを担当している。更改は、金融機関で設置、稼働するRC17シリーズをRC23... 続きを読む
全銀システムの障害対応で『LTOテープでデータ転送』伝説の年寄り出てきたみたいなアツさがある「訓練あるよね」
加藤公一(はむかず) @hamukazu 「LTO(Linear Tape-Open)テープの持ち込みによって処理するようにした。」 キター! xtech.nikkei.com/atcl/nxt/news/… 2023-10-11 21:17:52 加藤公一(はむかず) @hamukazu Kimikazu Kato, ソフトバンク株式会社。博士(情報理工学)。修士は数学(代数幾何学)。にゃーんと鳴く狂犬... 続きを読む
「こんな僕でも結婚できました」の内容がなかなか凄い→「20代で禿げていた」「デートドタキャンの理由が障害対応」「彼女の年収を超えたことがない」
無能なボンブ@ITエンジニアのまとめ @itengr_matome 経歴だけ無駄に長い、ほぼ何もできない自営業のITエンジニアです。自分への戒めにごく稀に辛辣なツイートをします。独身の方、お仕事・プライベートに悩んでいる方、短気な方はご注意ください。X(Twitter)のみんなは、ITエンジニアのいいところをXeetしてますが、ボ... 続きを読む
SREチームのリーダーになって1年経過した|あんどぅ
SIerから事業会社のエンジニアに転職後、SREチームのリーダーになって1年経過※したので、個人的なふりかえりのためにやったことを言語化し整理します。 ※ 本当は7月で1年なので先月書きたかったけど、7月は評価と目標設定に加えて障害対応などが重なりめちゃくちゃ忙しかった。。。 筆者の略歴SIerで10年半、インフラ主... 続きを読む
YAPC::Kyoto 2023でベストトーク賞をいただきました #yapcjapan - たまめも(tech)
なんと4年ぶりのYAPC!超楽しかったです!!!!! あまり多くトークを観られなかった(後日動画で追っかけます!)のですが、渡部さんの障害対応・訓練のお話は明日から早速使えるネタをたくさんいただけて大変勉強になりました。またCloudflareなどまだ自分がプロダクションで採用したことがない技術の話がたくさん聴... 続きを読む
私がインフラ運用保守で意識して行っていること(コラム) - Qiita
~はじめに~ 運用保守は、手順書通りするだけの楽な業務と勘違いしていませんか? 私は3年間運用保守(インフラ)に携わり、手順書作成や障害対応/調査、運用支援など様々なことを行ってきました。そんな私が思うに運用保守は、全くそんな楽な業務でありません。 運用保守は過信と油断をすれば、すぐに業務影響を出してし... 続きを読む
CREのおしごと〜エンジニアチーム編〜 - Link and Motivation Developers' Blog
はじめまして、新卒からCREグループに配属されて2年目のWakaです。 この記事では、CREのエンジニアチームが「日々取り組んでいること」と「心がけていること」をご紹介いたします。 そもそもリンクアンドモチベーションのCREとは? エンジニアチームって何しているの? プロダクト対応 仕様確認 障害対応 イレギュラー対... 続きを読む
ITインフラの障害時、「今どうなってるんだおじさん」にならないために 必要な心構えを考える
先日、KDDIが大規模な通信障害を起こした。社会インフラである携帯電話に関する障害ということもあって影響は大きく、SNSでもさまざまな話題のタネになった。障害対応をしている真っ最中の現場など、関係各所に「今どうなってるんだ」と怒鳴り込み、解決を遅らせる「今どうなってるんだおじさん」もその一つだ。 例えばa... 続きを読む
木原官房副長官、KDDIの障害対応めぐり「周知・広報に責任を果たしたといえない」
失敗して攻め続けるために - freeeのエンジニアが障害対応で実践していること - freee Developers Blog
2015年10月入社でコアエンジンチームの@kompiroと申します。普段は下記の3つの業務に従事しています。 お客様が自社の情報を把握するためのデータアグリゲーション機能の開発 マイクロサービスに切り出したデータアグリゲーション機能をEKSに移行 チーム横断で開発者のみんなが開発しやすい環境の構築 そんな私ですが、... 続きを読む
Webアプリケーションの障害対応について改めて意識すべき点ややれると良いことをまとめる - stefafafan の fa は3つです
Webアプリケーションエンジニアをやっていると時たま障害が発生し復旧作業にあたるのだが、人によって「障害対応が得意」だったり「苦手」だったりする。ただ、障害対応時の「良い動き」というのが実際どういうものなのかというのが自分の中でふんわりしていたので、ざっくりはてブで「障害対応」で検索していくつかのエ... 続きを読む
Webサービスの障害対応のときの思考過程 - ぱいぱいにっき
起こってほしくはないのですが、あらゆるWebサービスは完璧に動作する状態を維持することは難しく、やはり障害対応・トラブルシューティングといった作業が発生します。 筆者は普段仕事で障害対応を不幸なことによくやるのですが、障害対応のスキルというのはスピードや判断の正確さが求められるせいか、今までやったこ... 続きを読む
オミカレにおけるAWS SQS/Lambda/CloudWatchの障害対応 | uedy
2020年4月20日18:58頃に発生したSQS/Lambda/CloudWatchの障害への対応 オミカレでもAWSのSQS/Lambda/CloudWatchを利用している。主にメールやPush通知を送信しており、これが止まれば 会員登録・予約 などの様々なユーザー体験が損なわれる。 なので対応を議論していたところ 天才的ひらめきですぐに移すことに取り掛か... 続きを読む
システム障害対応の最中に感染し、全員が自宅待機を命じられたらどうなる? | 日経クロステック(xTECH)
「システムの障害対応をしている最中に関係者全員が自宅待機を命じられたらどうしますか」 知り合いのベテラン技術者からこんな書き出しのメールが送られてきた。新型コロナウイルスの感染拡⼤を受け、情報システムを担当する現場では同様の議論が避けられなくなっているはずだ。 情報システムにトラブルが起き、止まっ... 続きを読む
「すごく丁寧」「好感が持てる」──スマホゲーム「偽りのアリス」の障害、運営元が図解 ネットで話題に - ITmedia NEWS
スマホゲーム「偽りのアリス」で12月18日に発生した不具合について、運営元が障害対応の詳細を図解で説明。ネットで「ここまで詳しい障害説明は初めてだわ」「すごく丁寧」などと話題に。 「ここまで詳しい障害説明は初めてだわ」「すごく丁寧」──スマートフォンゲーム「偽りのアリス」で12月18日に発生した不具合につい... 続きを読む
障害対応からOSSへコントリビューションを行った時の話 | リクルートテクノロジーズ メンバーズブログ
この記事は Recruit Engineers Advent Calendar 2019 の 18日目の記事です。 リクルートテクノロジーズでインフラエンジニアをやっている宮地(@int_tt)です。 今回は今年起きた障害への対応と、OSSへのコントリビューションまでのお話をしたいと思います。 はじめに 僕の担当しているプロダクトではコンテナ環境で運用し... 続きを読む
Rails開発で障害対応を減らすには? システム障害との向き合い方 Part2 - ログミーTech
2019年3月2日、TECH PLAY SHIBUYAにて「TokyoGirls.rb Meetup vol.1」が開催されました。女性でも参加しやすい、Ruby勉強会を目指して開催された本イベント。4人のエンジニアが登壇し、Rubyにまつわることをはじめとしたさまざまな技術の話題を語りました。プレゼンテーション「システム障害との向き合い方」に登壇した... 続きを読む