HDDが壊れるとどういう挙動を示すか?
サーバーに繋いでたバックアップ用のHDDが壊れました。その他、過去にいくつかのHDDを壊して得た知見っぽい形をした何か。
なおここから先、独自研究しかないので信頼性については話半分で読むこと。
スポンサーリンク
注意点
いくつか。
- 民生用のHDDをサーバー用として24365で使いました、普通じゃない使い方/環境下での壊れ方です
- 民生用=SATAです、普通の市販品。SASなどではありません
- 参考のために具体的な製品名は出しますが、決してHDDの品質が悪いという訳ではありません
- あくまで例、事例の1つなので全てのHDDが同じように壊れる訳ではありません
- バックアップはきちんと取りましょう(もっとも、今回壊れたのはそのバックアップ用のHDDなのですが……)
- 独自研究なので過信しない事
以上です。鵜呑みにしたら壊れたとか言われても知らねーしとしか言えないので。
故障したHDD
こちらがバックアップ用に使用していたHDD。Intelli Parkは無効にしていた。
これは元々他の用途で使っていたのですが代替処理保留中のセクタが1つ出たので念のために使用を中止、バックアップ用に格下げしたHDDです。(結局そのあと3年ぐらい耐えたんですけどね)
それと、こちらは監視カメラで使っていたHDD。こちらは新品購入です。
物理的な問題で高温になる場所で監視カメラとかいうひたすら書き込み続けるハードな用途。そりゃ死ぬわ。
この2台、両方とも同じような壊れ方をしていてSMARTの値がとんでもない事になっています。(後述)
「同じロットのHDDをRAID1にすると同じタイミングでぶっ壊れるぞ」とか聞いたことがあるけど、こういう事かも知れない。(ちなみにこのHDDはRAIDにはしていない)
WDばっかり壊れてるのはWDの品質が悪いとかじゃなくて単にウチで使ってるのがWDばかりだからです。(過去にはSeagateとかも壊してる。TOSHIBAとかHGSTは壊れたことがない、そもそも購入数が少ないので)
状況
バックアップ用のHDDは毎日走らせてるバックアップ処理がコケてたのでログを見たらI/Oエラーが山のように出ていた、という状況。(crontabのログってのはこういう時に必要なんですよ、/dev/nullに捨ててる人は今すぐきちんとログを取得するように設定しなさい)
経験ある人には分かると思うのですが、ディスクがリードオンリーになっていました。(不良になっているセクタからの読み取りでタイムアウト->OSが不具合有と認識してリードオンリー化、だと思います)
それに気付いてから再度マウントしなおしましたが、またすぐにリードオンリーにされました。
監視カメラで使用していたHDDはレコーダーの挙動が怪しくなって「もしかして?」と思って取り外したらHDDが死んでた、というパターンです。これじゃあ監視カメラの意味がねぇ!!
検証
幸いな事にどのHDDも重要なデータは入っていないので迷わず破壊検証できる。
S.M.A.R.T.の値
バックアップ用HDDの方はZabbixでSMARTを取得していた。そのグラフが以下の通り。
途中の線がない部分がリードオンリーになっていた時です。再起動するたびにエラーが増えている。
そのあと不良セクタが爆増
実際のSMARTは以下の通り。
代替処理保留中のセクタ数もなかなかだが、CRCエラーの数も無視できない。
使用時間は約29000時間、3年とちょっとです。民生用のHDDでムチャクチャな使い方をしている割には長生きした方だと思います。(電源投入回数と使用時間の比率からサーバーで使っていたことも分かる)
とはいえこんなのは序の口、ヤバいのは監視カメラ用のHDDの方。
まさかの代替処理保留中のセクタ数がカンストである。恐らくピッタリ65535じゃないのはカンストした後にセクタ代替処理が行われたからだと予想(65535=FFFF、16bit符号なし整数の最大値)
奇妙なことに代替処理済のセクタ数がどちらも同じ。
スキャンしてみる
HD Tuneで全域スキャンしてみた。めっちゃ時間かかった。
HD Tuneだと何故か途中で止まってしまったので別のソフトでも試してみた。
ちなみにプラッタに物理的な損傷がある場合は模様になるらしい。今回のHDDはそうではなかった。
どちらにせよSMARTの値からして既に故障しているのは明らかなので、復旧を試みようとは思わなかった。
分解してみる
分解します、要らないので。
ついでに分解用の星型ドライバーのアフィ貼っちゃうぞ~、ペターー。
プラッタは鏡面の如くキラキラなので写真を撮るのが難しい、気を付けないと僕のイケメンがネットに流出しちゃう~w(はぁ?)
という冗談はともかく、以前突然死したHDDを分解した際は端っこの方にある白いフィルターみたいな奴が黒ずんでいた。
しかし今回のHDDはそのような変化は見当たらず、もちろん傷などもない。物理的な損傷ではなく純粋な寿命と考えるべきか?
プラッタ移植したら動かないかな……と思わなくもない(普通に考えて無理です)が、そんなことをする余裕があるのなら買い直した方がマシだ。
まとめ
「で?この記事から何が分かるの?」という話になるが、実はこの記事からは何も分からない。
でもそれで終わらせるわけにはいかないので、個人的な現段階での認識を記載しておく。
- 異様に遅くなったりフリーズしたりし始めたら危ない
- SMARTの値が急増したら寿命
- ちゃんと冷却していても壊れるときは壊れる(してなくても壊れないときは壊れない)
- 壊れる前に兆候が出るか(特にSMARTの値が変化するか)は運次第(過去に突然死した経験が二回ある)
どのHDDでも共通していたのは、壊れるよりある程度前から「応答が返らなくなる」という挙動をし始める事(というかその挙動を指して故障って言うんだし)。
厄介なことに、この応答が返らないという挙動はあるソフトウェアがファイルをオープン/ロックしたまま、という状況でも起きる。(違いとして、HDD故障ならどのファイルやソフトウェアでも発生し、オープンされっぱなしの時は特定のファイルでだけ発生する、という事かな)
それと、不良セクタに関しては代替処理"待ち"が1~10くらいなら割と問題なく1~3年くらいは使えたりする。(運次第だが)
逆に代替処理"済み"が出始めたら割とヤバイ。(それでも1つくらいなら1年くらい持ったけど)
どちらであれど数値が増え始めたらもうダメだと思った方がいい。
要するに「ケチ臭い事せずにしっかりバックアップ取っておけ」ですわ。壊れることを前提に設計する、以上。