SMART

S.M.A.R.T.

SMART (від англ. Self-monitoring, analysis and reporting technology - технологія самоконтролю, аналізу та звітності) - технологія оцінки стану жорсткого диска вбудованою апаратурою самодіагностики, а також механізм передбачення часу виходу його з ладу.

Історія

Перший жорсткий диск, що володіє системою самодіагностики, був представлений в 1992 році фірмою IBM в дискових масивах IBM 9337 для серверів AS / 400, що використовують IBM 0662 SCSI-2 диски. Технологія була названа Predictive Failure Analysis (PFA). Вимірювалося кілька ключових параметрів, їх оцінка проводилася безпосередньо контролером диска. Результат був обмежений лише одним бітом: або все в порядку, або диск може незабаром вийти з ладу. Пізніше компаніями Compaq, Seagate, Quantum і Conner була розроблена інша технологія, названа IntelliSafe. У ній був загальний протокол видачі інформації про стан жорсткого диска, але вимірювані параметри і їх пороги кожна компанія визначала самостійно.

На початку 1995 року Compaq запропонувала стандартизувати технологію. Компанії IBM, Seagate, Quantum, Conner і Western Digital (остання на той момент ще не мала системи відстеження параметрів жорсткого диска) підтримали цю ідею. За основу була взята технологія IntelliSafe. Спільно розроблений стандарт назвали SMART Стандарт SMART I передбачав моніторинг основних параметрів і запускався тільки після команди.

У розробці SMART II брала участь Hitachi, яка запропонувала методику повної самодіагностики накопичувача (extended self-test), також з'явилася функція журналирования помилок. В SMART III з'явилася функція виявлення дефектів поверхні і можливість їх відновлення «прозоро» для користувача.

опис

SMART проводить спостереження за основними характеристиками накопичувача, кожна з яких отримує оцінку. Характеристики можна розбити на дві групи:

  • 1) параметри, що відображають процес природного старіння жорсткого диска (число обертів шпинделя, число переміщень головок, кількість циклів включення-виключення);
  • 2) поточні параметри накопичувача (висота головок над поверхнею диска, число перепризначених секторів, час пошуку доріжки і кількість помилок пошуку).

Дані зберігаються в шістнадцятковому вигляді, званому raw value ( «сирі значення»), а потім перераховуються в value - значення, яке символізує надійність щодо деякого еталонного значення. Зазвичай value розташовується в діапазоні від 0 до 100 (деякі атрибути мають значення від 0 до 200 і від 0 до 253).

Висока оцінка говорить про відсутність змін даного параметра або повільному його погіршенні. Низька - про можливий збій незабаром.

Значення, менше, ніж мінімальна, при якому виробником гарантується безвідмовна робота накопичувача, означає вихід вузла з ладу.

Технологія SMART дозволяє здійснювати:

  • 1) моніторинг параметрів стану;
  • 2) сканування поверхні;
  • 3) сканування поверхні з автоматичною заміною сумнівних секторів на надійні.

Слід зауважити, що технологія SMART дозволяє прогнозувати вихід пристрою з ладу в результаті механічних несправностей, що становить близько 60% причин поломки жорсткого диска. Передбачити наслідки стрибка напруги або механічного удару SMART не спроможна.

Слід зазначити, що накопичувачі не можуть самостійно повідомляти про свій стан за допомогою технології SMART, однак для цього існують спеціальні програми. Таким чином, використання технології SMART неможливо без наявності наступних двох складових:

  • 1) ПО, вбудованого в контролер накопичувача;
  • 2) Зовнішнього ПО, вбудованого в хост.

Програми, що відображають стан SMART-атрибутів, працюють за таким алгоритмом:

  • Перевірка наявності підтримки накопичувачем технології SMART;
  • Посилка команди запиту SMART-таблиць;
  • Отримання таблиць в буфер додатки;
  • Розшифровка табличних структур, витяг номера атрибута і його числового значення;
  • Зіставлення стандартизованих номерів атрибутів їх назвами (іноді - в залежності від типу, моделі або виробника, як, наприклад, в програмі Victoria);
  • Висновок числових значень в зручному для сприйняття вигляді (наприклад, конвертація шістнадцятирічних значень в десяткові);
  • Витяг з таблиць прапорів атрибутів (ознак, що характеризують призначення атрибута в даному накопичувачі, наприклад, «життєво важливий» або «лічильник»);
  • Висновок загального стану пристрою на підставі всіх таблиць, значень і прапорів.

атрибути SMART

Таблиця відомих атрибутів SMART виглядає наступним чином:

Hex ім'я атрибута Краще якщо ... опис
01 01 Raw Read Error Rate
менше
Частота помилок при читанні даних з диска, походження яких зумовлено апаратною частиною диска.
Для всіх дисків Seagate, Samsung (сімейства F1 і новіші) і Fujitsu 2,5? це - число внутрішніх корекцій даних, проведених до видачі в інтерфейс, отже на лякаюче величезні цифри можна реагувати спокійно.
02 02 Throughput Performance
більше
Загальна продуктивність диска. Якщо значення атрибута зменшується, то велика ймовірність, що з диском є ​​проблеми.
03 03 Spin-Up Time
менше
Час розкрутки пакета дисків зі стану спокою до робочої швидкості.
Зростає при зносі механіки (підвищене тертя в підшипнику і т. П.), Також може свідчити про неякісне харчування (наприклад, просідання напруги при старті диска).
04 04 Start / Stop Count Повне число циклів запуск-зупинка шпинделя. У дисків деяких виробників (наприклад, Seagate) - лічильник включення режиму енергозбереження. В поле raw value зберігається загальна кількість запусків / зупинок диска.
05 05 Reallocated Sectors Count
менше
Число операцій перепризначення секторів. Коли диск виявляє помилку читання / запису, він позначає сектор «перепризначеним» і переносить дані в спеціально відведену резервну область. Ось чому на сучасних жорстких дисках можна побачити bad-блоки - всі вони заховані в перепризначених секторах. Цей процес називають remapping, а перепризначений сектор - remap. Чим більше значення, тим гірше стан поверхні дисків. Поле raw value містить загальну кількість перепризначених секторів.
Зростання значення цього атрибута може свідчити про погіршення стану поверхні млинців диска.
06 06 Read Channel Margin Запас каналу читання. Призначення цього атрибута не документовано. У сучасних накопичувачах не використовується.
07 07 Seek Error Rate
менше
Частота помилок при позиціонуванні блоку магнітних головок. Чим їх більше, тим гірше стан механіки і / або поверхні жорсткого диска. Також на значення параметра може вплинути перегрів і зовнішні вібрації (наприклад, від сусідніх дисків в кошику).
08 08 Seek Time Performance
більше
Середня продуктивність операції позиціонування магнітними головками. Якщо значення атрибута зменшується (уповільнення позиціонування), то велика ймовірність проблем з механічною частиною приводу головок.
09 09 Power-on Time Count (Power-On Hours)
менше
Число годин (хвилин, секунд - в залежності від виробника), проведених у включеному стані. Як порогового значення для нього вибирається паспортне час напрацювання на відмову (MTBF - mean time between failure).
10 0A Spin-Up Retry Count
менше
Число повторних спроб розкрутки дисків до робочої швидкості в разі, якщо перша спроба була невдалою. Якщо значення атрибута збільшується, то велика ймовірність неполадок з механічною частиною.
11 0B Recalibration Retries
менше
Кількість повторів запитів рекалібровкі в разі, якщо перша спроба була невдалою. Якщо значення атрибута збільшується, то велика ймовірність проблем з механічною частиною.
12 0C Device Power Cycle Count Кількість повних циклів включення-виключення диска.
13 0D Soft Read Error Rate
менше
Число помилок при читанні, з вини програмного забезпечення, які не піддалися виправленню. Всі помилки мають не механічну природу і вказують лише на неправильну розмітку / взаємодія з диском програм або операційної системи.
184 B8 End-to-End error
менше
Даний атрибут - частина технології HP SMART IV - означає, що після передачі даних через кеш-пам'ять парність даних між хостом і жорстким диском не збігається.
187 BB Reported UNC Errors
менше
Помилки, які не могли бути відновлені, використовуючи методи усунення помилки апаратними засобами.
188 BC Command Timeout
менше
Кількість перерваних операцій у зв'язку з HDD тайм-аут. Зазвичай це значення атрибута має дорівнювати нулю, і, якщо значення набагато вище нуля, то, швидше за все, там будуть якісь серйозні проблеми з харчуванням або окислені кабелі для передачі даних.
190 BE Airflow Temperature (WDC)
менше
Температура повітря всередині корпусу жорсткого диска. Для дисків Seagate розраховується за формулою (100 - HDA temperature). Для дисків Western Digital - (125- HDA).
191 BF G-sense error rate
менше
Кількість помилок, що виникають в результаті ударних навантажень. Атрибут зберігає свідчення вбудованого акселерометра, який фіксує всі удари, поштовхи, падіння і навіть неакуратну установку диска в корпус комп'ютера.
192 C0 Power-off retract count
менше
Число циклів виключень або аварійних відмов (включень / виключень харчування накопичувача).
193 C1 Load / Unload Cycle
менше
Кількість циклів переміщення блоку магнітних головок в паркувальну зону / в робоче положення.
194 C2 HDA temperature
менше
Тут зберігаються свідчення вбудованого термодатчика для механічної частини диска - банки (HDA - Hard Disk Assembly). Інформація знімається з вбудованого термодатчика, яким служить одна з магнітних головок, зазвичай нижня в банку. У бітових полях атрибута фіксуються поточна, мінімальна і максимальна температура. Не всі програми, що працюють з SMART, правильно розбирають ці поля, так що до їх показаннями варто ставитися критично.
195 C3 Hardware ECC Recovered
менше
Число корекції помилок апаратною частиною диска (читання, позиціонування, передача по зовнішньому інтерфейсу). На дисках з SATA-інтерфейсом значення нерідко погіршується при підвищенні частоти системної шини - SATA дуже чутливий до розгону.
196 C4 Reallocation Event Count
менше
Число операцій перепризначення. В поле «raw value» атрибута зберігається загальне число спроб перенесення інформації з перепризначених секторів в резервну область. Враховуються як успішні, так і неуспішні спроби.
197 C5 Current Pending Sector Count
менше
Число секторів, які є кандидатами на заміну. Вони не були ще визначені як погані, але зчитування з них відрізняється від читання стабільного сектору, це так звані підозрілі або нестабільні сектора. У разі успішного подальшого прочитання сектора він виключається з числа кандидатів. У разі повторних помилкових читань накопичувач намагається відновити його і виконує операцію перепризначення (remapping).
Зростання значення цього атрибута може свідчити про зниження фізичної деградації жорсткого диска.
198 C6 Uncorrectable Sector Count
менше
Число не коригуються (засобами диска) секторів. У разі збільшення числа помилок, велика ймовірність критичних дефектів поверхні і / або механіки накопичувача.
199 C7 UltraDMA CRC Error Count
менше
Число помилок, що виникають при передачі даних по зовнішньому інтерфейсу в режимі UltraDMA (порушення цілісності пакетів і т. П.). Зростання цього атрибута свідчить про погане (мятом, перекрученому) кабелі і поганих контактах. Також подібні помилки з'являються при розгоні шини PCI, збої харчування, сильних електромагнітних наводках, а іноді і з вини драйвера.
Можливо причина в неякісному шлейфі. Для виправлення спробуйте використовувати SATA шлейф без клямок, що має щільне з'єднання з контактами диска.
200 C8 Write Error Rate /
Multi-Zone Error Rate
менше
Показує загальна кількість помилок, що відбуваються під час запису сектора. Показує загальне число помилок запису на диск. Може служити показником якості поверхні і механіки накопичувача.
201 C9 Soft read error rate
менше
Частота появи «програмних» помилок при читанні даних з диска.

Цей параметр показує частоту появи помилок при операціях читання з поверхні диска з вини програмного забезпечення, а не апаратної частини накопичувача.

202 CA Data Address Mark errors
менше
Number of Data Address Mark (DAM) errors (or) vendor-specific.
203 CB Run out cancel
менше
Кількість помилок ECC.
204 CC Soft ECC correction
менше
Кількість помилок ECC, скоригованих програмним способом.
205 CD Thermal asperity rate (TAR)
менше
Number of thermal asperity errors.
206 CE Flying height Висота між головкою і поверхнею диска.
207 CF Spin high current
менше
Величина сили струму при розкручуванні диска.
208 D0 Spin buzz Number of buzz routines to spin up the drive.
209 D1 Offline seek performance Продуктивність пошуку під час офлайнових операцій (Drive's seek performance during offline operations.)
220 DC Disk Shift
менше
Дистанція зміщення блоку дисків щодо шпинделя. В основному виникає через удар або падіння. Одиниця виміру невідома. При збільшенні атрибута диск швидко стає непрацездатним.
221 DD G-Sense Error Rate
менше
Число помилок, що виникли через зовнішніх навантажень і ударів. Атрибут зберігає свідчення вбудованого датчика удару.
222 DE Loaded Hours Час, проведений блоком магнітних головок між вивантаженням з паркувального області в робочу область диска і завантаженням блоку назад в паркувальну область.
223 DF Load / Unload Retry Count Кількість нових спроб вивантажень / завантажень блоку магнітних головок в / з паркувального області після невдалої спроби.
224 E0 Load Friction
менше
Величина сили тертя блоку магнітних головок під час його розвантаження з паркувального області.
225 E1 Load Cycle Count
менше
Кількість циклів переміщення блоку магнітних головок в паркувальну область.
226 E2 Load 'In'-time Час, за який привід вивантажує магнітні головки з паркувального області на робочу поверхню диска.
227 E3 Torque Amplification Count
менше
Кількість спроб компенсувати крутний момент.
228 E4 Power-Off Retract Cycle
менше
Кількість повторів автоматичного паркування блоку магнітних головок в результаті виключення живлення.
230 E6 GMR Head Amplitude Амплітуда «тремтіння» (відстань повторюваного переміщення блоку магнітних головок).
231 E7 Temperature
менше
Температура жорсткого диска.
240 F0 Head flying hours Загальний час знаходження блоку головок в робочому положенні в годиннику.
250 FA Read error retry rate
менше
Число помилок під час читання жорсткого диска.

де:

  • більше - Більше значення параметра краще
  • менше - Менше значення параметра краще
  • Критичний параметр - червоний фон рядка