troubleshooting – ¿Cómo investigar el cierre inesperado del servidor Linux?

Pregunta:

En un nuevo servidor Xeon 55XX con 4xSSD en el raid 10 con Debian 6, he experimentado 2 cierres aleatorios dentro de las dos semanas posteriores a la construcción del servidor. Mirar los registros de ancho de banda antes de apagar no indica nada inusual. La carga del servidor suele ser muy baja (alrededor de 1) y está ubicado muy lejos. No parece haber ningún corte de energía mientras el servidor no funcionaba.

Sé que miro / var / log pero no estoy seguro de qué registros debo investigar y qué debo buscar. Así que aprecia tus sugerencias.

Respuesta:

Primero, debo preguntar: ¿"cierres"? ¿Quiere decir que la máquina se reinicia o realmente se detiene? Si se detiene, está mal configurado (quizás en BIOS) o algo está apagando activamente la máquina (es decir, init 0).

De lo contrario, su candidato principal sería / var / log / syslog y /var/log/kern.log ya que su problema suena como un pánico del kernel o una falla de hardware provocada por el software. Por supuesto, si el servidor ejecuta algún servicio (por ejemplo, apache) también puede darte una pista.

A menudo, en situaciones como esta, se generan entradas de registro, pero debido a que la máquina tiene dificultades, no logra escribir las entradas en el disco. Si la caja está colocada, es probable que el socio colo la conecte a una consola en serie. Ahí es donde buscaría si no encontrara nada sospechoso en los registros anteriores.

Si la máquina no está conectada a una consola en serie y no hay nada en el registro, es posible que desee considerar enviar syslog a una caja diferente a través de la red. Quizás la interfaz de red sobreviva un poco más y los mensajes de registro se puedan leer en el servidor de syslog. Eche un vistazo a rsyslog o syslog-ng.

ACTUALIZAR:

Estoy de acuerdo con @Johann a continuación. La causa más probable de la interrupción es el perro guardián de la temperatura del procesador. Intente verificar / trazar la temperatura en el cuadro a través de lmsensors o smartctl (generalmente el más fácil). Encuentro que collectd no tiene paralelo en el seguimiento de una gran cantidad de variables a lo largo del tiempo. Puede hacer tanto sensores IPMI como lm y hddtemp. Además, algunos BIOS: es registran eventos de interrupción de temperatura.

Leave a Comment

Your email address will not be published.

Scroll to Top

istanbul avukat

-

web tasarım