Reinstalar el sistema de virtualización Proxmox VE en un nodo perteneciente a un clúster, con almacenamiento en hiperconvergencia Ceph y pool OSD.
En primer lugar, nos aseguraremos de que disponemos de espacio y pools OSD suficientes en el resto de nodos para poder permitirnos el apagado y desconexión de uno de ellos. Esto es lo habitual si tenemos Ceph sobre Proxmox y, disponemos, de tres nodos con sus OSD correspondientes bien distribuidos en discos y espacio.
Cuando tenemos un nodo con problemas en el sistema operativo Proxmox VE o bien simplemente queremos cambiar el SO Proxmox de unidad, como es el caso que nos ocupa, previamente intentaremos obtener toda la información del nodo (nombre, IP, discos, OSD, etc.), por si queremos «recuperarlo» posteriormente con la misma configuración.
Dado que cuando hagamos el proceso el servicio de almacenamiento compartido Ceph perderá uno o varios OSD (los discos que tenga conectados y activos en los OSD el nodo a reinstalar/eliminar), el clúster quedará en modo de aviso y, probablemente, en función del número de nodos y de discos del servicio Ceph, quedará en estado degradado, por lo que no soportará la pérdida de más discos sin pérdida de información. Por ello, es muy recomendable tener copia de seguridad de todas las máquinas virtuales y contenedores antes de iniciar este proceso.
En nuestro laboratorio disponemos de tres nodos en clúster Proxmox VE 8.4, con Ceph para compartir el almacenamiento. El nodo 3 (proxmox3, con IP 192.168.1.109) tiene el sistema operativo Proxmox VE en una unidad de disco con 80GB (marca Maxtor):

Que está dando problemas, cuando arranca, inicia un procedimiento de recuperación de ficheros:
/dev/mapper/proxmox3–vg-root: recovering journal
/dev/mapper/proxmox3–vg-root: clean … files, … bloc
De momento, se recupera y arranca correctamente. Pero esta degradación puede ir a más, así que, como solución, reinstalaremos Proxmox VE en otra nueva unidad de disco, que ya hemos conectado al equipo (disco duro de 500GB, marca WDC):

Tras verificar que disponemos de un quorum suficiente en el clúster y que podemos prescindir de los OSD del nodo a «eliminar», deshabilitaremos el uso de los OSD del nodo a eliminar. Para ello, seleccionaremos el nodo que queremos eliminar o reinstalar [1] (podemos hacer el proceso desde cualquier otro nodo del clúster con Ceph), pulsaremos en «Ceph» y en «OSD» [2]. Seleccionaremos el OSD correspondiente al nodo que queramos eliminar [3] y pulsaremos en «Out» [4]:

Repetiremos el proceso para todos los OSD del nodo a reinstalar/eliminar. Todos deben quedar en «up/out»:

Tras pasarlo a estado «out», los eliminaremos del pool OSD seleccionando cada uno de ellos y pulsando en «Stop»:

Repetiremos el proceso para todos los OSD del nodo a reinstalar/eliminar. Todos deben quedar en estado «down/out»:

El resto de OSD del resto de nodos que componen el clúster deben asumir esta «pérdida» y no debe perderse ningún dato. Todas las máquinas virtuales deben permanecer encendidas y con conectividad y acceso a disco:

Como hemos comentado al principio, el servicio Ceph quedará en estado HEALTH_WARN, indicando avisos de este estilo:
|
1 2 |
Degraded data redundancy: 81698/245094 objects degraded (33.333%), 33 pgs degraded, 33 pgs undersized pg 1.0 is stuck undersized for 2m, current state active+undersized+degraded, last acting [1,5] |

En este momento y mientras no recuperemos los OSD del nodo perdido, el almacenamiento quedará en «peligro», dado que es muy probable que no soporte la pérdida de otro OSD (otro disco) sin que se pierda información. Por ello, sin más dilación, procederemos a reinstalar el sistema Proxmox VE en el nuevo disco de 500GB (o donde consideremos, hasta incluso en una unidad USB o pendrive podría instalarse). En el siguiente tutorial explicamos cómo instalar Proxmox VE desde cero en un equipo físico:
En este otro tutorial explicamos cómo instalar Proxmox VE en un equipo con Linux Debian 12 ya instalado:
Tras reinstalar el SO Proxmox VE en el nuevo disco duro, lo agregaremos al clúster, tal y como indicamos en este tutorial:
Y recrearemos los OSD, tal y como indicamos en este tutorial:

El número de objetos degradados irá reduciéndose poco a poco tras agregar los OSD del nuevo nodo. Además, deberemos agregar el nuevo nodo como monitor de Ceph, tal y como indicamos en este tutorial:

Si se produce algún error al agregar el nodo como monitor de Ceph:

Podremos eliminarlo/agregarlo de forma manual, como indicamos en este tutorial:
