News

「さくらのクラウド」ストレージネットワーク障害に関するご報告(3月16日更新)

                               2011年12月26日掲載
                               2012年03月16日更新
お客様各位
                          さくらインターネット株式会社

 平素よりさくらインターネットに格別のご愛顧を賜り、誠にありがとうございます。

 今回の「さくらのクラウド」の障害により、お客様には多大なご迷惑をお掛けいたしま
したこと、謹んでお詫び申し上げます。

 本障害について、以下にて概要および対策に関してご報告いたします。

                  <記>
【2012年3月16日更新内容】

■ホストサーバのダウンに関する状況と対策
引き続きカーネルの解析を進めております。現在の対応はストレージの設定見直
しによる顕在化抑制を行っております。

■ストレージのパフォーマンス悪化に関する状況と対策
3月初旬より断続的にストレージのパフォーマンスが低下する症状のお問い合わせ
を頂き、弊社も状況を把握しております。
症状は一定以上のアクセス負荷が発生した場合に確認されており、その際は弊社
想定よりも大幅にパフォーマンス低下していると捉えております。
パフォーマンス低下の原因箇所はストレージシステム上にあり、現在対策の
有効性を確認しております。

■新ストレージ装置の追加について
2月24日にお知らせしました新ストレージ装置の追加を行い、現在新規アカウント
を作成された場合は新ストレージ装置に接続されます。
新たなご利用開始による既存ストレージのアクセス負荷上昇を抑えるものとして
実施いたしました。現状では、新しいストレージのご利用は新規アカウントに
限られております。既にご利用頂いているお客様のデータやテンプレートを
新しいストレージに移転させる機能については、今後、提供させて頂く予定です。

■追加されたストレージの利用方法について
新規アカウントで作成されたサーバ、ディスクは全て新しいストレージへ接続さ
れます。新規アカウントの作成方法について以下ご案内いたします。

【1】 コントロールパネル 右上の「設定」をクリックします。

【2】 画面、左のメニューにある「アカウント管理」をクリックします。

【3】「アカウント管理」の画面が表示されるので、右上にある「追加」を
   クリックします。

【4】アカウント情報の設定画面になります。名前・アカウント名・パスワード
   を入力後「作成」ボタンを押してください。

【5】ログアウトして、アカウント選択画面から先ほど作成したアカウントを
   選択してください。このアカウントで作成したデータについては、新しい
  ストレージに保存されます。

================================================================================
【2012年2月24日更新内容】

■ホストサーバのダウンに関する状況と対策
引き続きカーネルの解析を進めるとともに、現象の顕在化を抑えるべく、ストレージの設
定の見直しを進めております。これにより現状では顕在化しにくい状況となっております。

■2月22日に発生した障害について
ストレージ装置を管理しているシステムプログラムにおいて、複製や削除等の処理が集中
する場合に、ストレージアクセスに支障が出る障害が発生致しました。現在、ファイルシ
ステムへの処理オペレーションについて見直しを行い、サービスに問題がないよう変更を
行いました。

■ストレージに関する状況と対策
お客様サーバの増加に伴うディスクI/Oの増大に対処するため、ストレージの増強を実施
することと致しました。その最初のステップとして、ストレージ装置を追加し処理の分散
を実施します。

================================================================================
【2012年1月27日更新内容】

■ストレージへのアクセス上限の緩和
大量のディスクアクセスの影響を防ぐために、サーバ毎にストレージへのアクセス上限の
設定を行っておりましたが、ストレージの設定変更を行い、1月24日午前10時と1月27日13
時の二度に渡りアクセス上限を緩和する処置を実施いたしました。
これにより、ディスクアクセスが極端に遅くなる事象について改善しております。
今後はアクセス上限をさらに緩和できるよう、ストレージおよびサーバ設定の調整を引き
続き行っていきます。

================================================================================
【2012年1月13日更新内容】

■障害の内容
ホストサーバとストレージの間において、ディスクアクセスが増加した際に、
お客様サーバのレスポンス悪化やサーバダウンが発生しておりました。

■原因
さくらのクラウドではお客様サーバのデータを集中型のストレージに格納しております。
このストレージに対し大量のディスクアクセスが発生した際に、ホストサーバとスト
レージの通信が途絶する症状を確認いたしました。
また、この影響によりストレージネットワークの一時的な停止や、ホストサーバが
ダウンに至るケースを確認いたしました。
ホストサーバのダウンについては、カーネルダンプを解析した結果、当社で採用して
いる仮想化基盤(KVM)のバグであることを確認いたしました。

■現在の対策
障害に至る症状は、大量のディスクアクセスが影響を与えていることから、現在ホスト
サーバ毎にストレージへのアクセス上限の設定しております。
また、ストレージネットワークの停止を予防するために、定期的なネットワークの
リセットを行っております。
こちらの対策以降、意図しないストレージネットワークの停止は発生しておらず、
ホストサーバのダウンに至るケースについても大きく低下しております。

■現在の影響
上記のアクセス上限設定に伴い、サーバ上のディスクアクセスが極端に遅くなる事象を
確認しております。
その為、安定性を優先しながら、一部のサーバにおいて徐々に上限設定の緩和を行って
おります。
なお、現状でも一部のホストサーバダウンが発生している事から、根本的な解消に至る
までは、慎重に取り組みを行っております。

■問題解消に向けて
本日、テスト環境の拡張が完了し、本番環境と同様の負荷でテストを行えるように
なっております。
現在は、様々な対策によってストレージネットワークの停止は発生しておりませんが、
テスト環境においてストレージネットワークのダウンに関する根本的な原因の究明を
進めております。
また、ホストサーバのダウンの原因となっている、仮想化基盤(KVM)のバグ修正を
進めております。
これらの対策に加えて、現在のアクセス上限設定を緩和したうえでの安定性の確認を
進め、安定性面、性能面での根本的な解決を目指します。

■作業中のプログラムバグによるお客様データ損傷について
今回の不具合に関連し、解約されたお客様のデータの一部が正常に削除されない
事象が発生しておりました。
この不具合対処過程においてプログラムバグにより、お客様ご利用中ディスクデータの
一部が削除される事象が発生いたしております。
対象となった53件のお客様には個別にご連絡をいたしておりますが、削除等の重大な
影響を与える管理機能およびその操作については、バグによって影響が発生しないよう
手順等の変更を行っております。
また、データをバックアップするシステムは用意されているものの、今回の高負荷の
影響によってバックアップが行えない状況となっており、早期の問題解消を進め、
定期的なバックアップ実施を行います。

■ご利用中のお客様へ
今回の障害においては、原因となる個所が複数にわたるほか、検証環境と実環境で
一部異なる点などがあり、原因究明に時間がかかる事態となりました。
また、対処の過程においてデータ削除の不適切なオペレーションが発生することと
なりました。
さらに、お客様へのご説明が不足していることなど、多くの反省点があると認識
しており、問題解消に努めるとともに、ご案内の改善を進めてまいります。
本件の経過および対応状況につきましては引き続きご報告いたします。

================================================================================
【2012年1月5日追記内容】

 お伝えしておりましたサービス料金の無料対象期間につきまして、以下のように
 変更いたします。

 変更前:2011年12月1日(木)~2011年12月25日(日)
   ↓     ↓     ↓
 変更後:2011年12月1日(木)~2011年12月31日(土) (12月ご利用分全額)

 なお、本件の対策により一部のお客様において快適にご利用いただけない事象が
 発生しており、現在システム設定の見直しと改善を継続して実施しております。
 http://www.sakura.ad.jp/news/sakurainfo/newsentry.php?id=604

================================================================================
■障害発生日時
 12月9日(金)~12月24日(土)

■障害内容説明
 12月9日以降、「さくらのクラウド」における複数回の障害発生につきまして、障害の
原因と実施いたしました障害対策についてご報告をいたします。

 この事象は、「さくらのクラウド」にて使用しておりますストレージシステムに関連す
るものであり、ご利用中のお客様におかれましては、ホストサーバがダウンし収容された
お客様のサーバにアクセスできなくなる現象や、ディスクに対する読み込み・書き込み処
理が不定期に失敗し、ご利用中にサーバのエラーログおよびコンソール画面にその症状が
出力される現象が発生いたしました。

 原因としては、特定パターンの通信がストレージネットワーク用のインターフェースに
影響し、通信障害が発生しておりました。

■障害対策
 ホストサーバとストレージシステム間の通信において悪影響を及ぼすパターンを
 特定し、以下の対策を講じました。

 ・通信障害を起こすパターンを検出し、その発生を未然に防ぐ構成および設定の導入

 ・関連するKernelパラメーターチューニングによるストレージシステムの耐障害性向上

 12月25日現在、上記の対策を完了し、ホストサーバとストレージへシステム間の通信
 障害の発生を防止しております。

■お客様への課金につきまして
 12月1日から12月25日までに「さくらのクラウド」をご利用いただいたお客様に対し
て、ご利用料金を無料にさせていただきます。

 この対応については弊社にて実施いたしますので、お客様によるお手続きはございませ
ん。

 今回の障害により、ご利用中のお客様には多大なご迷惑をお掛けいたしましたこと、
重ねてお詫び申し上げます。