Explicamos cómo sustituir un disco duro averiado en una SAN NetApp. Cuando la SAN tiene unos años puede que algún disco duro muestre una alerta, tanto desde el LED naranja del propio disco duro como en la consola de administración de la SAN. Mostramos paso a paso cómo quitar el disco duro y sustituirlo por uno nuevo o reciclado.
- Requisitos para sustituir disco duro averiado en SAN NetApp.
- Proceso para sustituir el disco duro averiado por uno nuevo o reciclado en una SAN NetApp.
Requisitos para sustituir disco duro averiado en SAN NetApp
Deberemos disponer de una SAN NetApp y de un disco duro de las mismas características que el averiado (sea nuevo o reutilizado). La SAN NetApp FAS3220 cuenta con tres tipos de discos: SSD (solo para el sistema operativo y la caché), SATA y SAS. Por lo tanto lo primero que tendremos que hacer es ver qué tipo de disco se ha averiado para adquirir uno de las mismas características.
Necesitaremos saber una de las IP de gestión de las controladoras de la SAN, necesaria para acceder por SSH a su consola, para la sustitución del disco duro. También deberemos saber usuario y contraseña de acceso.
Cuando un disco duro se avería en una SAN NetApp nos mostrará la alerta en el propio disco duro, en el LED indicativo de error (naranja):
Y también desde la consola de NetApp OnCommand System Manager:
- Critical: the is 1 failed disk.
- Critical: insufficient spare disks.
Normalmente cada agregado suele tener dos discos duros en hot spare, que no se usan, a la espera de que se rompa uno para entrar en funcionamiento en el agregado sustituyendo al averiado. Cuando se avería un disco duro la SAN entra en estado crítico porque si se rompe un segundos disco duro sin haber sustituido a tiempo el averiado podría perderse información. En función de los discos en hot spare soportará uno o dos discos averiados a la vez por agregado. Por ello es importante realizar la sustitución del disco averiado cuanto antes.
Si la SAN NetApp tiene soporte y garantía y tiene habilitado el aviso automático, probablemente se pondrán en contacto con nosotros desde NetApp para que un técnico sustituya el disco. Pero en el caso en que no haya soporte, como el modelo FAS3220 que está descontinuado, tendremos que adquirir el disco nosotros y sustituirlo. En este artículo explicamos cómo hacerlo.
Proceso para sustituir el disco duro averiado por uno nuevo o reciclado en una SAN NetApp
En primer lugar comprobaremos el disco duro averiado, podemos hacerlo accediendo a NetApp OnCommand System Manager o bien por consola. La forma más rápida es por consola, como explicamos a continuación. Además de que necesitaremos acceder por consola para el proceso de sustitución del disco.
Descargaremos PuTTY y lo ejecutaremos. Necesitaremos saber la IP de gestión de una de las controladoras de la SAN. Desde PuTTY accederemos a esa IP:
Nos solicitará usuario y contraseña, la introduciremos:
Una vez en la consola (shell de comandos) de la SAN podremos ejecutar el siguiente comando para comprobar el estado de todos los discos duros de todas las controladoras:
disk show -v
El disco averiado nos lo marcará con «FAILED» en la columna «POOL»:
Anotaremos el identificador del disco averiado, en el caso de la imagen, el: 0a.10.4, en la columna «DISK» el que está marcado como «FAILED» en la columna «POOL». También anotaremos la controladora a la que estaba asignado el disco averiado, aparece en la columna «OWNER».
Extraeremos físicamente el disco duro averiado de su slot. Nos esperaremos un par de minutos. Una vez transcurridos insertaremos el disco duro nuevo o reutilizado. Volveremos a esperaremos otro par de minutos para que la SAN lo reconozca. Transcurrido este tiempo, con el disco duro averiado sustituido, ejecutaremos el siguiente comando:
disk show -n
El comando anterior nos mostrará aquellos discos duros que no tengan asignación, donde «OWNER» estará vacío. Debe mostrar únicamente el disco duro nuevo insertado, en nuestro caso en el slot 0a.10.4.
Si no aparece el disco duro será porque aún no lo ha terminado de detectar la SAN. Y si no aparece transcurridos unos minutos puede ser porque no sea compatible con nuestra SAN.
Procederemos a asignar el disco duro a su controladora correspondiente, a la controladora a la que estaba asignado el averiado, dato que teníamos anotado anteriormente de la columna «OWNER». Para la asignación ejecutaremos el siguiente comando:
disk assign -o NOMBRE_CONTROLADORA Identificador_Slot
Donde sustituiremos «NOMBRE_CONTROLADORA» por el nombre de la controladora que tenía asignado el disco y «Identificador_Slot» por el identificador del disco sustituido, en nuestro caso 0a.10.4.
Volveremos a comprobar el estado del disco asignado con el comando:
vol status -f
Si el disco duro no es original de NetApp veremos que nos lo ha marcado como «bad label». En este caso tendremos que hacer un proceso para «formatearlo» (que explicamos a continuación).
Como decimos, si el estado del disco es «bad label», como se ve en la columna «RAID Disk» de la imagen anterior, necesitaremos hacer el siguiente proceso para que la SAN lo reconozca.
Ejecutaremos el siguiente comando para acceder al modo privilegiado. Este modo es peligroso porque podemos ejecutar comandos que eliminen información, por lo tanto procederemos con mucha precaución:
priv set advanced
Sabremos que estamos en el modo avanzado porque nos mostrará un asterisco al final del prompt. Una vez en este modo ejecutaremos el siguiente comando, siempre asegurándonos de introducir correctamente el identificador del disco que hemos insertado nuevo, en nuestro caso el 0a.10.4:
disk unfail -s 0a.10.4
El comando anterior marcará el disco como correcto, por lo que ya no aparecerá ni como bad label ni como broken. Ejecutando el siguiente comando podremos comprobar que ya no tenemos discos en modo «broken»:
vol status -f
Nos devolverá «Broken disks (empty)».
También podremos comprobar que el disco duro ha quedado en estado correcto (asignado a una controladora) con el comando:
disk show
Por último, debemos hacer una especie de «formateo» (zeroed) al disco, para que quede preparado para su uso. Ejecutaremos el siguiente comando, teniendo en cuenta que borrará toda la información que pueda contener el disco, por ello es muy importante que estemos totalmente seguros de cuál es el identificador del disco (su bahía física), que es el que estamos usando en todo el artículo, el que obtuvimos en el primer paso del artículo.
Cuando tengamos la certeza de cuál es el identificador del disco ejecutaremos el siguiente comando para «prepararlo» para su uso:
disk zero spares
El proceso anterior tardará varios minutos, en función del tamaño del disco. Podremos ver el progreso ejecutando el siguiente comando:
aggr status -s
Una vez concluido el proceso el nuevo disco duro pasará a formar parte del grupo de hot spare. Este grupo de discos solo entra en uso cuando algún otro disco duro se avería: