Saltar al contenido

Cómo interpretar estos datos de smartctl (smartmon)

Basta ya de buscar por todo internet porque estás al lugar exacto, tenemos la respuesta que quieres sin liarte.

Solución:

Solución 1:

Para los discos Seagate (y posiblemente algunos antiguos de WD también), Seek_Error_Rate y Raw_Read_Error_Rate son números de 48 bits, donde los 16 bits más significativos son un recuento de errores y los 32 bits bajos son una cantidad de operaciones.

% python
>>> 200009354607 & 0xFFFFFFFF
2440858991
>>> (200009354607 & 0xFFFF00000000) >> 32
46

Entonces su disco ha realizado 2440858991 búsquedas, de las cuales 46 fallaron. Mi experiencia con las unidades Seagate es que tienden a fallar cuando el número de errores supera los 1000. YMMV.

Solución 2:

La “tasa de error de búsqueda” y la “tasa de error de lectura sin procesar” RAW_VALUES son prácticamente insignificantes para cualquiera que no sea el soporte de Seagate. Como señalaron otros, es más probable que los valores sin procesar de parámetros como “recuento de sectores reasignados” o entradas en el registro de errores de la unidad indiquen una mayor probabilidad de falla.

Pero puede echar un vistazo a los datos interpretados en las columnas VALOR, PEOR y UMBRAL que deben leerse como indicadores:

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH
  7 Seek_Error_Rate         0x000f   077   060   030

Lo que significa que su índice de error de búsqueda actualmente se considera “77% bueno” y SMART lo informa como un problema cuando alcanza el “30% bueno”. Había sido tan bajo como “60% bueno” una vez, pero se ha recuperado mágicamente desde entonces. Tenga en cuenta que los valores interpretados son calculados internamente por la lógica SMART de la unidad y que el fabricante puede publicar o no el cálculo exacto y, por lo general, el usuario no puede modificarlo.

Personalmente, considero que una unidad que contiene entradas de registro de errores “falla” e insto a que se reemplace tan pronto como ocurran. Pero en general, los datos SMART han resultado ser un indicador bastante débil para la predicción de fallas, como descubrió un artículo de investigación publicado por Google.


Solución 3:

En mi experiencia, Seagates tiene números extraños para esos dos SMART attributes. Cuando diagnostico un Seagate, tiendo a ignorarlos y mirar más de cerca otros campos como Recuento de sectores reasignados. Por supuesto, en caso de duda, reemplace la unidad, pero incluso los nuevos Seagates tendrán números altos para esos attributes.


Solución 4:

Me di cuenta de que esta discusión es un poco antigua, pero quiero agregar mis 2 centavos. He descubierto que la información inteligente es un buen indicador de prefallo. Cuando se dispare un umbral inteligente, reemplace la unidad. Para eso están esos umbrales.

La gran mayoría de las veces comenzará a ver sectores defectuosos. Esa es una señal segura de que la unidad está comenzando a fallar. SMART me ha salvado muchas veces. Uso el software RAID 1 y es muy útil ya que simplemente reemplaza la unidad que falla y reconstruye la array.

También realizo autopruebas cortas y largas semanalmente.

smartctl -t short /dev/sda
smartctl -t long /dev/sda 

O agréguelo /etc/smartd.conf y pídale que le envíe un correo electrónico si hay errores

/dev/sda -s L/../../3/22 -I 194 -m [email protected]
/dev/sdb -s L/../../7/22 -I 194 -m [email protected]

Asegúrese de instalar logwatch y redirigir la raíz a una dirección de correo electrónico y verifique los correos electrónicos diarios de logwatch. Las banderas disparadas de SMARTD aparecerán allí, pero no sirve de nada si nadie está monitoreando eso regularmente.


Solución 5:

Perdón por cometer nigromancia en esta publicación, pero en mi experiencia, los campos “Tasa de error de lectura sin procesar” y “ECC de hardware recuperado” para una unidad Seagate literalmente desaparecerán por todo el lugar e incrementar constantemente en el rango de billones en cuyo punto volverán a cero para continuar el proceso nuevamente. Tengo un Seagate ST9750420AS que ha tenido ese problema desde el primer día y todavía funciona muy bien incluso después de varios años y más de 3500 horas de uso.

Creo que esos campos se pueden ignorar de manera segura si está ejecutando uno en su caso. Solo asegúrese de que los dos campos informen el mismo número y estén sincronizados constantemente. Si no lo son… bueno… Eso en realidad podría significar un problema.

Aquí tienes las reseñas y calificaciones

Eres capaz de sustentar nuestra función poniendo un comentario y dejando una valoración te lo agradecemos.

¡Haz clic para puntuar esta entrada!
(Votos: 0 Promedio: 0)



Utiliza Nuestro Buscador

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *