ReadyNASで使用中のWDのHDDについて、管理コンソール上に警告が表示されたため、WDへRMA申請を行い交換しました。
以下に、問題検知からディスク交換完了までの一連の流れを記録しておきます。
問題検知
NASの管理コンソール上で警告発生
NETGEARのRN104というNASで使用していたWestern Digitalの3TB HDD、WD30EZRZ-00Z5HB0について"Detected increasing ATA error count"という警告メッセージが表示されました。
RN104は4 Bay構成なのですが、私の環境では2組のRAID1ペアとして運用しています。そのうちの一つ(上記スクリーンショットのdata2)のボリュームについて"ボリュームは劣化しています"と表示されています。ここでいう「劣化」は英語表記でいうところの"degrade"を意味しており、要はRAID1ストレージとして適切に機能していないことを表しているようです。
NASの管理コンソール上でログ確認
ログを確認してみると、気づいていなかっただけで数か月前から大量に"ディスク: ATA error countの増加を検出しました: これは不具合が起こる可能性を示しています。"という同様の警告ログが特定のHDDに対して出力されていました。
また、警告だけではなく、"ディスク: チャンネル4(Internal)に接続されたディスクのステータスがONLINEからFAILEDに変更されました。"、"ディスク: 代替処理された不良セクタ数の増加を検出しました。: これは不具合が起こる可能性を示しています。データ冗長性を維持するために、このディスクを交換する準備をしてください。"という2つのエラーログも出力されていました。
このログから、問題のディスクは自動でOFFLINEにされており、管理コンソール上で「劣化」と表示されている状態は既にRAID1の片系が失われた状態となっていることが判りました。
現状調査
NASの管理コンソール上で確認したエラーログは、不具合の可能性を予告するだけではなく、ディスク交換にまで踏み込んだメッセージとなっていました。SSHでログインしてSMART情報を確認するとともに、念のためNASから取り外して当該ディスクの現状をWindows PCからも確認してみます。
smartctlで確認
ReadyNASのSSHアクセスを有効にし、SSHでログイン後、smartctlコマンド実行します。
# smartctl --all /dev/sda smartctl 6.6 2017-11-05 r4594 [armv7l-linux-4.4.157.armada.1] (local build) Copyright (C) 2002-17, Bruce Allen, Christian Franke, www.smartmontools.org === START OF INFORMATION SECTION === Model Family: Western Digital Blue Device Model: WDC WD30EZRZ-00Z5HB0 Serial Number: WD-WCC********* LU WWN Device Id: 5 ****** ********* Firmware Version: 80.00A80 User Capacity: 3,000,592,982,016 bytes [3.00 TB] Sector Sizes: 512 bytes logical, 4096 bytes physical Rotation Rate: 5400 rpm Device is: In smartctl database [for details use: -P show] ATA Version is: ACS-2 (minor revision not indicated) SATA Version is: SATA 3.0, 6.0 Gb/s (current: 6.0 Gb/s) Local Time is: Thu May 9 02:09:46 2019 JST SMART support is: Available - device has SMART capability. SMART support is: Enabled === START OF READ SMART DATA SECTION === SMART overall-health self-assessment test result: FAILED! Drive failure expected in less than 24 hours. SAVE ALL DATA. See vendor-specific Attribute list for failed Attributes. General SMART Values: Offline data collection status: (0x84) Offline data collection activity was suspended by an interrupting command from host. Auto Offline Data Collection: Enabled. Self-test execution status: ( 0) The previous self-test routine completed without error or no self-test has ever been run. Total time to complete Offline data collection: (41280) seconds. Offline data collection capabilities: (0x7b) SMART execute Offline immediate. Auto Offline data collection on/off support. Suspend Offline collection upon new command. Offline surface scan supported. Self-test supported. Conveyance Self-test supported. Selective Self-test supported. SMART capabilities: (0x0003) Saves SMART data before entering power-saving mode. Supports SMART auto save timer. Error logging capability: (0x01) Error logging supported. General Purpose Logging supported. Short self-test routine recommended polling time: ( 2) minutes. Extended self-test routine recommended polling time: ( 414) minutes. Conveyance self-test routine recommended polling time: ( 5) minutes. SCT capabilities: (0x7035) SCT Status supported. SCT Feature Control supported. SCT Data Table supported. SMART Attributes Data Structure revision number: 16 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0 3 Spin_Up_Time 0x0027 182 180 021 Pre-fail Always - 5891 4 Start_Stop_Count 0x0032 099 099 000 Old_age Always - 1744 5 Reallocated_Sector_Ct 0x0033 133 133 140 Pre-fail Always FAILING_NOW 1967 7 Seek_Error_Rate 0x002e 200 196 000 Old_age Always - 0 9 Power_On_Hours 0x0032 089 088 000 Old_age Always - 8283 10 Spin_Retry_Count 0x0032 100 100 000 Old_age Always - 0 11 Calibration_Retry_Count 0x0032 100 253 000 Old_age Always - 0 12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 4 192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 0 193 Load_Cycle_Count 0x0032 182 182 000 Old_age Always - 56421 194 Temperature_Celsius 0x0022 121 108 000 Old_age Always - 29 196 Reallocated_Event_Count 0x0032 138 138 000 Old_age Always - 62 197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0 198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 0 199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0 200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 0 ~以下略~
”SMART overall-health self-assessment test result: FAILED!”, "Drive failure expected in less than 24 hours. SAVE ALL DATA."すなわち、「SMART自己診断テスト結果:失敗」、「24時間以内のHDD故障(failure)が予期される。全データを保存せよ。」といった出力が確認できます。
また、SMART ID#05がFAILING_NOW表示されていることが確認できます。
CrystalDiskInfoで確認
smartctlで確認したのと同様に、SMART ID#05の"Reallocated Sectors Count"のRawValueが0x07AF*1となっています。この結果、CrystalDiskInfoで異常として表示されています。すなわちReadyNASのログでいうところの「ATA error countの増加」はこの再割り当てセクタ数が増加し続けていることを表していると考えられます。
以上のことから、当該ディスクをこのまま使い続けるのはデータ損失のリスクが高いと考えられますので、修理または交換が必要であると判断しました。
RMA申請
通常、海外メーカーの製品の修理といえば購入した販売店や輸入代理店が修理や返品の窓口となるように思えますが、Western Digital製品の場合は違います。当該ディスクは購入から2年間のRMA(Return Material Authorization)期間があり、指定の方法で返品することで代品を受け取ることができますが、返品先は販売店や輸入代理店ではありません。例えば、私が購入した個体はNTT-Xで購入したテックウインド扱いのものですが、販売店であるNTT-Xや代理店であるテックウインドが修理や返品の窓口として機能するわけではありません。
WD SUPPORT PORTAL
RMA申請をするには、WD SUPPORT PORTALに新規会員登録したうえで、RMAリクエストを作成し、RMA番号を発行する必要があります。
Welcome to the WD SUPPORT PORTAL
WD SUPPORT PORTALはWestern DigitalドメインではないURLのため不安を感じるかも知れませんが、SalesForceのサービスを使っているようです*2。
ここにRMAリクエストを作成するまでのスクリーンショットでも貼れれば役に立つかと思うのですが、私の場合は会員登録後に何故かRMAリクエスト作成ボタンが現れず、サポートに連絡してRMAリクエストを作成してもらうというイレギュラーな手順を踏んだため、WD SUPPORT PORTALの操作について紹介できる情報は持っていません。
返品するディスクの準備
不具合が発生したHDDでもデータは読みだせますし、不具合が発生したからと言って不十分な梱包で返送していいわけでもありませんので、適切に準備する必要があります。
データ消去
当然ながら返品するディスクは実使用していた個体ですから、データが記録されています。Western Digitalが返品されたディスクを無分別に第三者に流出させるとは思えませんが、返品過程の物流ルート上での紛失等のリスクも加味し、念のため返品前に消去することにします*3。
今回はWindows PCに接続して、DiskPartユーティリティで削除することにしました。が、当該ディスクを選択して完全消去(clean all)を試みるも、以下のようにエラーが発生してしまいました。
DISKPART> list disk ディスク 状態 サイズ 空き ダイナ GPT ### ミック ------------ ------------- ------- ------- --- --- ディスク 0 オンライン 447 GB 0 B * ディスク 1 オンライン 2794 GB 0 B * DISKPART> select disk 1 ディスク 1 が選択されました。 DISKPART> list partition Partition ### Type Size Offset ------------- ------------------ ------- ------- Partition 1 不明 4096 MB 32 KB Partition 2 不明 512 MB 4096 MB Partition 3 不明 2790 GB 4608 MB DISKPART> clean all DiskPart にエラーが発生しました: デバイスで重大なハードウェア エラーが発生したため、要求が失敗しました。 詳細については、システム イベント ログを参照してください。
コンソール出力に従ってイベントログを確認してみると、ハードウェアエラーでI/O操作に失敗したと記録されています。
SMARTで確認された再割り当てセクタ数の増加以外にも、順調(!?)に何らかの不具合が生じつつあるようです。
ここで、試しにエクスプローラからクイックフォーマットを試行したところ、少なくとも見かけ上は成功しました。改めてDiskPartユーティリティで完全消去を試みると、今度は消去できました。
DISKPART> list disk ディスク 状態 サイズ 空き ダイナ GPT ### ミック ------------ ------------- ------- ------- --- --- ディスク 0 オンライン 447 GB 0 B ディスク 1 オンライン 2794 GB 1024 KB * DISKPART> select disk 1 ディスク 1 が選択されました。 DISKPART> list partition Partition ### Type Size Offset ------------- ------------------ ------- ------- Partition 1 予約 15 MB 17 KB Partition 2 プライマリ 2794 GB 16 MB DISKPART> clean all DiskPart はディスクを正常にクリーンな状態にしました。
梱包
適当な梱包で送り返すとRMAが無効になることがあるようですので、WDの規定通りに梱包します。
- 内蔵ドライブをESD(帯電防止)バックに入れます
- バッグを厚さ2インチ(約5センチ)のバブルラップで包むか、固定可能な発泡緩衝材で包みます。
- 頑丈な段ボールの箱に入れます。ボール紙は輸送中の取り扱いに耐えられないため、使用しないでください。段ボール箱に破損がなく、構造的な欠陥がないことを確認してください。RMAラベルを印刷し、箱に貼り付けてください。箱の外側、3側面に太字でRMA番号を明記してください。
- 複数の製品を発送する場合は、各製品を上記の手順に従って個別に正しく梱包する必要があります。ハードディスクドライブが箱の中で接触したり動いたりしないようにしてください。すべての製品を個別の帯電防止バッグに入れ、頑丈な段ボールの箱に入れてください。可能な場合は、Western Digitalの元の梱包材を利用してください。輸送中に移動したり、沈む可能性がある玉状の発泡スチロール材や梱包材は使用しないでください。
Packing Information | WD Support
「5センチのバブルラップ」はいわゆるプチプチのことですが、5センチの厚さなんて用意できないので、「Western Digitalの元の梱包材」に相当するテックウインドの化粧箱を使用することにしました。ESDバッグも元の梱包で使用されていたものを再利用することにしました。
つまり、返品するHDDをESD保護バッグに入れて、プリプチで包んでテックウインドの化粧箱に入れてたものをプチプチで包んで、手元にあったAmazonの段ボールに収めて梱包としました。
なお、WDの指示通りPDFを印刷した紙に、通関情報に誤りが無いよという署名と日付をサインした紙を同梱するのを忘れないようにします。
また、外箱(私の場合Amazonの段ボール)の3辺にRMA番号を明示せよと指示されてもいるので、忘れずに油性ペンで書いておきます。
発送~
RMAで送り返すHDDの送料は自己負担する必要があります*4。といっても、海外拠点まで自腹で送る必要はなく、発送先は幸い日本国内で東京都港区の三菱倉庫が指定されています。私は都内からの発送で、ゆうパックが最安のようなのでゆうパックで発送しました。
ゆうパックの追跡機能で確認すると、発送翌日に三菱倉庫には到着していますが、WD SUPPORT PORTAL上のステータスは変化しませんでした。
発送日以降のイベントを整理すると以下のようになり、グローバル物流の威力を見せつけられます。
Day | Event description |
---|---|
0日目 | ゆうパックで発送した日 |
1日目 | 三菱倉庫に到着した日(ゆうぱっく) |
3日目 | WD SUPPORT PORTALのReceived Dateがこの日 |
3日目 | WD SUPPORT PORTALのShipped Dateもこの日 |
4日目 | ベトナムのダナンからホーチミンに到着(FedEx) |
5日目 | インドネシアのジャカルタに到着(FedEx) |
5日目 | シンガポールに到着(FedEx) |
6日目 | 中国の広州市に到着(FedEx) |
7日目 | 成田に到着、通関処理(FedEx) |
8日目 | 西濃運輸が届けに来た日 |
なお、WD SUPPORT PORTALでShipped Dateが表示されても、当初は追跡番号(Tracking#)がTBAすなわち判明次第通知という表示になっていますが、数日すると判ります。追跡番号が判ればFedExの追跡画面で現在地が判ります。また、日本到着後にFedExを実際に届けに来る宅配業者がどこなのかはオンラインでは判りません(電話でFedExに問い合わせると判るそうです)。私の場合は西濃運輸が届けに来ました。
届いたHDD
外箱
底面
底面にはビニールに入った伝票らしきものが貼られています。こちらにもGREYSTONE DATA SYSTEMSの表記がありますが、併せてO/B Western Digital Technologiesの表記もあります。ここでのO/Bは恐らく"On Behalf"の略で、WDに代わってGREYSTONEが返送してるよという意味だと思われます。
側面
このラベルから読み取れる情報は私にはありませんでした。
内箱
内箱と書きましたが、正確には箱は1つで、外側のプチプチを剥いた後に出てくる箱に貼られているラベルです。
WD MODEL NUMBERとして、WD30EZRZ-00GXCB0の表記がされています。
HDD
私が返送したHDDはWD BlueシリーズのWD30EZRZ-00Z5HB0でしたが、先述の通り交換されたHDDはWD30EZRZ-00GXCB0に代わっています(この枝番違いの差異については後述)。
HDD本体のラベルもWD Blueの青ラベルではなく、シンプルな白黒でRecertified 3TBの表記になっています。事前に「交換の製品は新品ではなく良品となる」旨案内されていましたので、特に文句はありません。
なお、原産国表記は元のHDDと同じくタイ製で、返送元であるベトナム製ではありません。このことから、GREYSTONE DATA SYSTEMSはリファービッシュ的な作業を請け負っているわけではなく、単なる流通業者なのかもしれません。
動作確認
事前に案内のあった通り良品には違いないのでしょうけれど、"Recertified"の意味するところが不明確で、がっつり使われた中古品だったりすると心配なので実使用に入る前に確認してみます。また、複数国を跨いだ空輸や西濃運輸の陸運でHDDにダメージが発生している可能性も加味して、全領域に正常に記録できるかの確認も行っておくことにします。
CrystalDiskInfo
SMART情報を確認する限りでは、使用時間0時間・電源投入回数1回と、まっさらな新品同様の状態のようです。
また、不具合品のWD30EZRZ-00Z5HB0と比較すると、WD30EZRZ-00GXCB0は対応規格がACS-2からACS-3 Revision 4にアップデートされているのが違いのようです*5。
書き込みテスト
前述のDiskPartでclean allコマンドを実行すると全領域を削除しにかかります。すなわち全領域に対して書き込みが行えることの簡易的な確認としても有効です。実際に実行しましたが、エラーは発生せず無事に終了しましたので、特に輸送時のダメージも受けていなさそうです。
ReadyNASのRAID復旧
HDD取り付け
不良を起こしたWD30EZRZ-00Z5HB0を外したスペースに、WD30EZRZ-00GXCB0を取り付けます。通電したまま取り付けできるようですが、念のためシャットダウンした状態で作業しました。
NASの管理コンソールの状態変化
RAIDのリビルド操作などが必要かと思いましたが、特に何もしなくても自動的に再構築が開始されました。以下に、画面の状態変化だけ掲載しておきます。
HDD取り付け前
「ボリュームは劣化しています」表記とともに、HDDが1本存在しないことがグラフィカルに表示されています。
HDD取り付け後
「ボリュームは劣化しています」表記の下に再構築の進捗状況が表示されています。またHDDが4本揃って2系統のRAID1ボリュームが存在することもグラフィカルに表示されています。
RAID再構築中のHDDの状態表示(生き残っている方)
元から生き残っている方の古いHDDはONLINE表示であり、このボリュームへのアクセスも可能です。ただし、再構築のパフォーマンスを考慮すると、書き込みはもちろんですが読み出しも控えた方が良いでしょう。
RAID再構築中のHDDの状態表示(交換した方)
交換した方のHDDはRESYNC表示となっています。
再構築中のログ出力
"ボリュームの再構築が開始しました"という出力が確認できます。
再構築中のプロセス動作状況
SSHでログインしてtopコマンドで確認してみると、以下のようになっていました。実際のI/Oを司っているkworkerと、RAIDを司るmd系のプロセス*6が頑張って*7動いているのが確認できます。
RAID再構築完了後のHDDの状態表示
ディスクの状態は2台ともにONLINE表示となります。また、「ボリュームは劣化しています」表示も消えます。
RAID再構築完了後のログ出力
同一時刻に"ボリュームがresyncしました", "ボリュームの状態はDegradedからRedundantへ変更されました", "チャンネル(Internal)に接続されたディスクのステータスがRESYNCからONLINEに変更されました"の3つの出力が確認できます。
雑感
- WDのRMA申請やその後の一連のフローはWebシステムに不具合が起きなければそれなりに使えると思われる
- ReadyNASは何もしなくても再構築してくれるので便利
- とは言え、このディスクを元にこのディスクに同期するよっていう確認はあったほうが嬉しいと思う(何らかのレアケースで、新規追加した空のHDDの内容を、生き残った片系のHDDにオーバーライトされたりしたら怖いので)
- ReadyNASは数か月前から障害検知していたのに気づかなかった
- 管理コンソールに頻繁にログインするわけでもないので、今後のために障害メール通知機能を有効化した
- 早速、空き容量低下警告がメールで飛んできて、これはこれで煩わしいかも…と思ったが、警告イベントは選択できる模様
- 管理コンソールに頻繁にログインするわけでもないので、今後のために障害メール通知機能を有効化した
- WDのHDDだから特別壊れにくいといったことは無い(特別壊れやすいといったことも無い)
以上。
*1:10進数表現にして1967回で、ReadyNASのエラーログ出力と一致します。
*2:本件とは無関係ですが、タムロンのレンズ修理もSalesForceでした。 ⇒ タムロンのレンズを修理に出した - 記憶は人なり
*3:もちろん、スピンアップすらしないようなレベルの故障の場合は、予めデータ消去を行うことは不可能ですが。
*4:本件とは直接の関係はありませんが、SamsungのSDカードが壊れて保証を適用する場合も送料自己負担でした。⇒ SamsungのSDカードが壊れたので10年保証を使ってみた - 記憶は人なり
*5:両規格の違いについては把握できていません。
*6:ReadyNASの特徴のX-RAIDを使わずにRAID1を使っていると、普通(?)のmdが動いているようですね。
*7:ReadyNAS RN104はシングルコアのARMv7プロセッサのMarvell Armada 370/XPを搭載していますが、load averageが1超えてます。