サーバ運用部門

お知らせ#004 【最終報告】10/27サーバ障害について

概要

ご報告

2023/10/26の昼から2023/10/27の1時頃まで断続的にサーバがダウンし、星海天測団の各種サービスがご利用頂けない事態となりました。

原因は二つあり、まず一つは背後でDockerを動かし、Ubuntu本体に影響を及ぼしたこと。二つ目は対処の為にデスクトップ接続を用いたことでクラッシュを誘発したことです。

デスクトップ接続は今回の場合SSH接続不可の為、やむを得ない選択でしたが、必要以上に長期間接続してしましました。

再発防止策として以下の通り実行致します。

  • サーバを「本番用」として明確に位置付け、一切の試験的な取り組みを行わない
  • サーバに対するデスクトップ接続を極力行わない、行う場合は通常メンテナンスと同様に告知を行う

この度はご迷惑お掛けして、申し訳ございませんでした。

経過及び原因と対応の報告

事象①:2023/10/26 12:00より16:47までサーバーがダウン

原因①:背後でDockerを動かしたことで、サーバがクラッシュした、もしくはポート占領された(観測された事象としてはSSHの接続不可能)

原因②:Misskeyが稼働しない原因をNginxの設定が書き換えられた、Redisの不具合が発生したと推測してしまったが、実際にはRedis-serverが起動していなかった

対応:以後はSSH不可のためデスクトップにて対応

対応①:強制再起動

対応②:タイムシフトで前日の状態に戻す

対応③:タイムシフトで現在時点に復帰させる(対応②に効果が無く、デメリットの方が大きいと判断したため)

対応④:ドライバ不具合により、強制再起動。後にApache2が正常に稼働することを確認

対応⑤:Misskeyを直接起動し、原因推測。Redis-serverの起動について特定

事象②:2023/10/26 16:50頃、再度サーバクラッシュ

原因①:デスクトップ接続していたことで、ドライバ由来のクラッシュが発生した

原因②:クラッシュの原因を、デスクトップ接続を「切った」ことと推測した

対応①:デスクトップを接続しながら様子を見ることにする

事象③:2023/10/26 22:16~2023/10/27 00:41のサーバクラッシュ

原因①:画面出力ドライバ由来のクラッシュ

※以下の記事に詳細を説明しています。

お知らせ#003 10/27メンテナンスのお知らせ
https://seitendan.com/?p=60

対応①:デスクトップを接続しない状態での強制再起動

コメントを残す

*