WDのHDDが壊れたのでRMAで交換した

 ReadyNASで使用中のWDのHDDについて、管理コンソール上に警告が表示されたため、WDへRMA申請を行い交換しました。
 以下に、問題検知からディスク交換完了までの一連の流れを記録しておきます。
 

問題検知

NASの管理コンソール上で警告発生

 NETGEARのRN104というNASで使用していたWestern Digitalの3TB HDD、WD30EZRZ-00Z5HB0について"Detected increasing ATA error count"という警告メッセージが表示されました。
RN104管理コンソール上に表示された警告
 RN104は4 Bay構成なのですが、私の環境では2組のRAID1ペアとして運用しています。そのうちの一つ(上記スクリーンショットのdata2)のボリュームについて"ボリュームは劣化しています"と表示されています。ここでいう「劣化」は英語表記でいうところの"degrade"を意味しており、要はRAID1ストレージとして適切に機能していないことを表しているようです。
 

NASの管理コンソール上でログ確認

 ログを確認してみると、気づいていなかっただけで数か月前から大量に"ディスク: ATA error countの増加を検出しました: これは不具合が起こる可能性を示しています。"という同様の警告ログが特定のHDDに対して出力されていました。
RN104警告ログ

 また、警告だけではなく、"ディスク: チャンネル4(Internal)に接続されたディスクのステータスがONLINEからFAILEDに変更されました。"、"ディスク: 代替処理された不良セクタ数の増加を検出しました。: これは不具合が起こる可能性を示しています。データ冗長性を維持するために、このディスクを交換する準備をしてください。"という2つのエラーログも出力されていました。
RN104エラーログ
 このログから、問題のディスクは自動でOFFLINEにされており、管理コンソール上で「劣化」と表示されている状態は既にRAID1の片系が失われた状態となっていることが判りました。
 

現状調査

 NASの管理コンソール上で確認したエラーログは、不具合の可能性を予告するだけではなく、ディスク交換にまで踏み込んだメッセージとなっていました。SSHでログインしてSMART情報を確認するとともに、念のためNASから取り外して当該ディスクの現状をWindows PCからも確認してみます。

smartctlで確認

 ReadyNASSSHアクセスを有効にし、SSHでログイン後、smartctlコマンド実行します。

# smartctl --all /dev/sda
smartctl 6.6 2017-11-05 r4594 [armv7l-linux-4.4.157.armada.1] (local build)
Copyright (C) 2002-17, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Western Digital Blue
Device Model:     WDC WD30EZRZ-00Z5HB0
Serial Number:    WD-WCC*********
LU WWN Device Id: 5 ****** *********
Firmware Version: 80.00A80
User Capacity:    3,000,592,982,016 bytes [3.00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    5400 rpm
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ACS-2 (minor revision not indicated)
SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is:    Thu May  9 02:09:46 2019 JST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: FAILED!
Drive failure expected in less than 24 hours. SAVE ALL DATA.
See vendor-specific Attribute list for failed Attributes.

General SMART Values:
Offline data collection status:  (0x84) Offline data collection activity
                                        was suspended by an interrupting command from host.
                                        Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                (41280) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   2) minutes.
Extended self-test routine
recommended polling time:        ( 414) minutes.
Conveyance self-test routine
recommended polling time:        (   5) minutes.
SCT capabilities:              (0x7035) SCT Status supported.
                                        SCT Feature Control supported.
                                        SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   182   180   021    Pre-fail  Always       -       5891
  4 Start_Stop_Count        0x0032   099   099   000    Old_age   Always       -       1744
  5 Reallocated_Sector_Ct   0x0033   133   133   140    Pre-fail  Always   FAILING_NOW 1967
  7 Seek_Error_Rate         0x002e   200   196   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   089   088   000    Old_age   Always       -       8283
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   253   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       4
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       0
193 Load_Cycle_Count        0x0032   182   182   000    Old_age   Always       -       56421
194 Temperature_Celsius     0x0022   121   108   000    Old_age   Always       -       29
196 Reallocated_Event_Count 0x0032   138   138   000    Old_age   Always       -       62
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       0
~以下略~

 ”SMART overall-health self-assessment test result: FAILED!”, "Drive failure expected in less than 24 hours. SAVE ALL DATA."すなわち、「SMART自己診断テスト結果:失敗」、「24時間以内のHDD故障(failure)が予期される。全データを保存せよ。」といった出力が確認できます。
 また、SMART ID#05がFAILING_NOW表示されていることが確認できます。

CrystalDiskInfoで確認

 smartctlで確認したのと同様に、SMART ID#05の"Reallocated Sectors Count"のRawValueが0x07AF*1となっています。この結果、CrystalDiskInfoで異常として表示されています。すなわちReadyNASのログでいうところの「ATA error countの増加」はこの再割り当てセクタ数が増加し続けていることを表していると考えられます。
CrystalDiskIno(WD30EZRZ-00Z5HB0)
 

 以上のことから、当該ディスクをこのまま使い続けるのはデータ損失のリスクが高いと考えられますので、修理または交換が必要であると判断しました。

RMA申請

 通常、海外メーカーの製品の修理といえば購入した販売店や輸入代理店が修理や返品の窓口となるように思えますが、Western Digital製品の場合は違います。当該ディスクは購入から2年間のRMA(Return Material Authorization)期間があり、指定の方法で返品することで代品を受け取ることができますが、返品先は販売店や輸入代理店ではありません。例えば、私が購入した個体はNTT-Xで購入したテックウインド扱いのものですが、販売店であるNTT-Xや代理店であるテックウインドが修理や返品の窓口として機能するわけではありません。

WD SUPPORT PORTAL

 RMA申請をするには、WD SUPPORT PORTALに新規会員登録したうえで、RMAリクエストを作成し、RMA番号を発行する必要があります。
Welcome to the WD SUPPORT PORTAL
 WD SUPPORT PORTALWestern DigitalドメインではないURLのため不安を感じるかも知れませんが、SalesForceのサービスを使っているようです*2

 ここにRMAリクエストを作成するまでのスクリーンショットでも貼れれば役に立つかと思うのですが、私の場合は会員登録後に何故かRMAリクエスト作成ボタンが現れず、サポートに連絡してRMAリクエストを作成してもらうというイレギュラーな手順を踏んだため、WD SUPPORT PORTALの操作について紹介できる情報は持っていません。
 

返品するディスクの準備

 不具合が発生したHDDでもデータは読みだせますし、不具合が発生したからと言って不十分な梱包で返送していいわけでもありませんので、適切に準備する必要があります。
不具合が発生したWD30EZRZ-00Z5HB0

データ消去

 当然ながら返品するディスクは実使用していた個体ですから、データが記録されています。Western Digitalが返品されたディスクを無分別に第三者に流出させるとは思えませんが、返品過程の物流ルート上での紛失等のリスクも加味し、念のため返品前に消去することにします*3
 今回はWindows PCに接続して、DiskPartユーティリティで削除することにしました。が、当該ディスクを選択して完全消去(clean all)を試みるも、以下のようにエラーが発生してしまいました。

DISKPART> list disk

  ディスク      状態           サイズ   空き   ダイナ GPT
  ###                                          ミック
  ------------  -------------  -------  -------  ---  ---
  ディスク 0    オンライン           447 GB      0 B
* ディスク 1    オンライン          2794 GB      0 B        *

DISKPART> select disk 1

ディスク 1 が選択されました。

DISKPART> list partition

  Partition ###  Type                Size     Offset
  -------------  ------------------  -------  -------
  Partition 1    不明                4096 MB    32 KB
  Partition 2    不明                 512 MB  4096 MB
  Partition 3    不明                2790 GB  4608 MB

DISKPART> clean all

DiskPart にエラーが発生しました: デバイスで重大なハードウェア エラーが発生したため、要求が失敗しました。
詳細については、システム イベント ログを参照してください。

 コンソール出力に従ってイベントログを確認してみると、ハードウェアエラーでI/O操作に失敗したと記録されています。
Windowsイベントログ
 SMARTで確認された再割り当てセクタ数の増加以外にも、順調(!?)に何らかの不具合が生じつつあるようです。

 ここで、試しにエクスプローラからクイックフォーマットを試行したところ、少なくとも見かけ上は成功しました。改めてDiskPartユーティリティで完全消去を試みると、今度は消去できました。

DISKPART> list disk

  ディスク      状態           サイズ   空き   ダイナ GPT
  ###                                          ミック
  ------------  -------------  -------  -------  ---  ---
  ディスク 0    オンライン           447 GB      0 B
  ディスク 1    オンライン          2794 GB  1024 KB        *

DISKPART> select disk 1

ディスク 1 が選択されました。

DISKPART> list partition

  Partition ###  Type                Size     Offset
  -------------  ------------------  -------  -------
  Partition 1    予約                  15 MB    17 KB
  Partition 2    プライマリ             2794 GB    16 MB

DISKPART> clean all

DiskPart はディスクを正常にクリーンな状態にしました。
梱包

 適当な梱包で送り返すとRMAが無効になることがあるようですので、WDの規定通りに梱包します。

  • 内蔵ドライブをESD(帯電防止)バックに入れます
  • バッグを厚さ2インチ(約5センチ)のバブルラップで包むか、固定可能な発泡緩衝材で包みます。
  • 頑丈な段ボールの箱に入れます。ボール紙は輸送中の取り扱いに耐えられないため、使用しないでください。段ボール箱に破損がなく、構造的な欠陥がないことを確認してください。RMAラベルを印刷し、箱に貼り付けてください。箱の外側、3側面に太字でRMA番号を明記してください。
  • 複数の製品を発送する場合は、各製品を上記の手順に従って個別に正しく梱包する必要があります。ハードディスクドライブが箱の中で接触したり動いたりしないようにしてください。すべての製品を個別の帯電防止バッグに入れ、頑丈な段ボールの箱に入れてください。可能な場合は、Western Digitalの元の梱包材を利用してください。輸送中に移動したり、沈む可能性がある玉状の発泡スチロール材や梱包材は使用しないでください。

Packing Information | WD Support

 「5センチのバブルラップ」はいわゆるプチプチのことですが、5センチの厚さなんて用意できないので、「Western Digitalの元の梱包材」に相当するテックウインドの化粧箱を使用することにしました。ESDバッグも元の梱包で使用されていたものを再利用することにしました。
 つまり、返品するHDDをESD保護バッグに入れて、プリプチで包んでテックウインドの化粧箱に入れてたものをプチプチで包んで、手元にあったAmazonの段ボールに収めて梱包としました。
 なお、WDの指示通りPDFを印刷した紙に、通関情報に誤りが無いよという署名と日付をサインした紙を同梱するのを忘れないようにします。
 また、外箱(私の場合Amazonの段ボール)の3辺にRMA番号を明示せよと指示されてもいるので、忘れずに油性ペンで書いておきます。

発送~

 RMAで送り返すHDDの送料は自己負担する必要があります*4。といっても、海外拠点まで自腹で送る必要はなく、発送先は幸い日本国内で東京都港区の三菱倉庫が指定されています。私は都内からの発送で、ゆうパックが最安のようなのでゆうパックで発送しました。
 ゆうパックの追跡機能で確認すると、発送翌日に三菱倉庫には到着していますが、WD SUPPORT PORTAL上のステータスは変化しませんでした。
 発送日以降のイベントを整理すると以下のようになり、グローバル物流の威力を見せつけられます。

Day Event description
0日目 ゆうパックで発送した日
1日目 三菱倉庫に到着した日(ゆうぱっく)
3日目 WD SUPPORT PORTALのReceived Dateがこの日
3日目 WD SUPPORT PORTALのShipped Dateもこの日
4日目 ベトナムのダナンからホーチミンに到着(FedEx)
5日目 インドネシアジャカルタに到着(FedEx)
5日目 シンガポールに到着(FedEx)
6日目 中国の広州市に到着(FedEx)
7日目 成田に到着、通関処理(FedEx)
8日目 西濃運輸が届けに来た日

 なお、WD SUPPORT PORTALでShipped Dateが表示されても、当初は追跡番号(Tracking#)がTBAすなわち判明次第通知という表示になっていますが、数日すると判ります。追跡番号が判ればFedExの追跡画面で現在地が判ります。また、日本到着後にFedExを実際に届けに来る宅配業者がどこなのかはオンラインでは判りません(電話でFedExに問い合わせると判るそうです)。私の場合は西濃運輸が届けに来ました。
 

届いたHDD

外箱

正面

 FedExの追跡画面でも判っていたことですが、発送元国はベトナムです。ラベルからは発送元はWDではなく、GREYSTONE DATA SYSTEMSというベトナム企業であることも読み取れます。
外箱ラベル(正面)

底面

 底面にはビニールに入った伝票らしきものが貼られています。こちらにもGREYSTONE DATA SYSTEMSの表記がありますが、併せてO/B Western Digital Technologiesの表記もあります。ここでのO/Bは恐らく"On Behalf"の略で、WDに代わってGREYSTONEが返送してるよという意味だと思われます。
外箱伝票(底面)

側面

 このラベルから読み取れる情報は私にはありませんでした。
外箱ラベル(側面)

内箱

 内箱と書きましたが、正確には箱は1つで、外側のプチプチを剥いた後に出てくる箱に貼られているラベルです。
 WD MODEL NUMBERとして、WD30EZRZ-00GXCB0の表記がされています。
内箱ラベル

HDD

 私が返送したHDDはWD BlueシリーズのWD30EZRZ-00Z5HB0でしたが、先述の通り交換されたHDDはWD30EZRZ-00GXCB0に代わっています(この枝番違いの差異については後述)。
 HDD本体のラベルもWD Blueの青ラベルではなく、シンプルな白黒でRecertified 3TBの表記になっています。事前に「交換の製品は新品ではなく良品となる」旨案内されていましたので、特に文句はありません。
WD30EZRZ-00GXCB0ラベル
 なお、原産国表記は元のHDDと同じくタイ製で、返送元であるベトナム製ではありません。このことから、GREYSTONE DATA SYSTEMSはリファービッシュ的な作業を請け負っているわけではなく、単なる流通業者なのかもしれません。
 

動作確認

 事前に案内のあった通り良品には違いないのでしょうけれど、"Recertified"の意味するところが不明確で、がっつり使われた中古品だったりすると心配なので実使用に入る前に確認してみます。また、複数国を跨いだ空輸や西濃運輸の陸運でHDDにダメージが発生している可能性も加味して、全領域に正常に記録できるかの確認も行っておくことにします。

CrystalDiskInfo

 SMART情報を確認する限りでは、使用時間0時間・電源投入回数1回と、まっさらな新品同様の状態のようです。
CrystalDiskInfo(WD30EZRZ-00GXCB0)
 また、不具合品のWD30EZRZ-00Z5HB0と比較すると、WD30EZRZ-00GXCB0は対応規格がACS-2からACS-3 Revision 4にアップデートされているのが違いのようです*5

書き込みテスト

 前述のDiskPartでclean allコマンドを実行すると全領域を削除しにかかります。すなわち全領域に対して書き込みが行えることの簡易的な確認としても有効です。実際に実行しましたが、エラーは発生せず無事に終了しましたので、特に輸送時のダメージも受けていなさそうです。
 

ReadyNASRAID復旧

HDD取り付け

 不良を起こしたWD30EZRZ-00Z5HB0を外したスペースに、WD30EZRZ-00GXCB0を取り付けます。通電したまま取り付けできるようですが、念のためシャットダウンした状態で作業しました。

NASの管理コンソールの状態変化

 RAIDのリビルド操作などが必要かと思いましたが、特に何もしなくても自動的に再構築が開始されました。以下に、画面の状態変化だけ掲載しておきます。

HDD取り付け前

 「ボリュームは劣化しています」表記とともに、HDDが1本存在しないことがグラフィカルに表示されています。
HDD取り付け前

HDD取り付け後

 「ボリュームは劣化しています」表記の下に再構築の進捗状況が表示されています。またHDDが4本揃って2系統のRAID1ボリュームが存在することもグラフィカルに表示されています。
HDD取り付け後

RAID再構築中のHDDの状態表示(生き残っている方)

 元から生き残っている方の古いHDDはONLINE表示であり、このボリュームへのアクセスも可能です。ただし、再構築のパフォーマンスを考慮すると、書き込みはもちろんですが読み出しも控えた方が良いでしょう。
RAID再構築中のHDDの状態表示(生き残っている方)

RAID再構築中のHDDの状態表示(交換した方)

 交換した方のHDDはRESYNC表示となっています。
RAID再構築中のHDDの状態表示(交換した方)

再構築中のログ出力

 "ボリュームの再構築が開始しました"という出力が確認できます。
再構築中のログ出力

再構築中のプロセス動作状況

 SSHでログインしてtopコマンドで確認してみると、以下のようになっていました。実際のI/Oを司っているkworkerと、RAIDを司るmd系のプロセス*6が頑張って*7動いているのが確認できます。
再構築中のプロセス動作状況

RAID再構築完了後のHDDの状態表示

 ディスクの状態は2台ともにONLINE表示となります。また、「ボリュームは劣化しています」表示も消えます。
RAID再構築完了後のHDDの状態表示

RAID再構築完了後のログ出力

 同一時刻に"ボリュームがresyncしました", "ボリュームの状態はDegradedからRedundantへ変更されました", "チャンネル(Internal)に接続されたディスクのステータスがRESYNCからONLINEに変更されました"の3つの出力が確認できます。
RAID再構築完了後のログ出力
 

雑感

  • WDのRMA申請やその後の一連のフローはWebシステムに不具合が起きなければそれなりに使えると思われる
    • が、国内の販売店や代理店でサポートが受けられるのが普通だと思っていると、驚くかもしれない
    • WD SUPPORT PORTALの使用に英語は必須ではないが、極度に英語が苦手な人は一部に残る英語表記が嫌かもしれない
    • 不具合品の発送から交換品の受け取りまで1週間強で済んだので、海外拠点とやり取りするリードタイムのようなものはそれほど感じない
  • ReadyNASは何もしなくても再構築してくれるので便利
    • とは言え、このディスクを元にこのディスクに同期するよっていう確認はあったほうが嬉しいと思う(何らかのレアケースで、新規追加した空のHDDの内容を、生き残った片系のHDDにオーバーライトされたりしたら怖いので)
  • ReadyNASは数か月前から障害検知していたのに気づかなかった
    • 管理コンソールに頻繁にログインするわけでもないので、今後のために障害メール通知機能を有効化した
      • 早速、空き容量低下警告がメールで飛んできて、これはこれで煩わしいかも…と思ったが、警告イベントは選択できる模様
  • WDのHDDだから特別壊れにくいといったことは無い(特別壊れやすいといったことも無い)
    • ReadyNASの4 Bayのうち、WDとSeagateのHDDを2台ずつ装着していたが、今回壊れたのはWD
      • ただし、NAS用に推奨されるWD RedではなくケチってWD Blueを使っていたし、Seagateの方はNAS用のNAS HDDを使っている
      • と言っても複数ユーザーで同時アクセス&こまめに書き換えのような使い方ではなく、シングルユーザでアーカイブ目的で粛々と新規ファイルが書き込まれるだけの使い方であり、24時間通電されていることを除けば、一般のPCに搭載されるより負荷は低いはずなのだが…
      • WD Blueでも壊れなかった方の片系は普通に動作し続けており、製品として壊れやすいとかロット不良ではなく、単に個体不良だったと想像される
    • 今回のReady NAS以外でも複数のNASを使っており、それらのHDDにはWD以外にSeagateTOSHIBAや旧Samsung製などが使われているが、壊れたのは今回のWD30EZRZ-00Z5HB0が初
    • 製造メーカーにかかわらずHDDやSSDを使用していれば、NASだろうとPCだろうと壊れるときは壊れるので、いつ壊れてもいいように、重要データはミラーリングやバックアップが大切

 



以上。

*1:10進数表現にして1967回で、ReadyNASのエラーログ出力と一致します。

*2:本件とは無関係ですが、タムロンのレンズ修理もSalesForceでした。 ⇒ タムロンのレンズを修理に出した - 記憶は人なり

*3:もちろん、スピンアップすらしないようなレベルの故障の場合は、予めデータ消去を行うことは不可能ですが。

*4:本件とは直接の関係はありませんが、SamsungのSDカードが壊れて保証を適用する場合も送料自己負担でした。⇒ SamsungのSDカードが壊れたので10年保証を使ってみた - 記憶は人なり

*5:両規格の違いについては把握できていません。

*6:ReadyNASの特徴のX-RAIDを使わずにRAID1を使っていると、普通(?)のmdが動いているようですね。

*7:ReadyNAS RN104はシングルコアのARMv7プロセッサのMarvell Armada 370/XPを搭載していますが、load averageが1超えてます。