martedì 10 luglio 2012

Ha un problema con i nodi di essere rimosso dal socio attivo del cluster di failover?


Benvenuti nel blog AskCore. Oggi ci accingiamo a parlare di nodi sono stati tolti dal socio attivo del cluster di failover in modo casuale. Se si riscontrano problemi con un nodo che viene rimosso dall'appartenenza, state vedendo manifestazioni di questo tipo registrati nel Registro eventi di sistema:
immagine
Questo evento viene registrato in tutti i nodi del cluster tranne che per il nodo che è stato rimosso. La ragione di questo evento è perché uno dei nodi del cluster contrassegnato come tale nodo verso il basso. Esso notifica quindi tutti gli altri nodi dell'evento. Quando i nodi vengono notificati, si interrompere e distruggere il loro battito cardiaco connessioni al nodo abbattuto.
Che cosa ha causato il nodo deve essere segnato?
Tutti i nodi in un cluster di failover Windows 2008 o 2008 R2 comunicare tra loro attraverso le reti che sono impostati su Consenti rete di comunicazione del cluster su questa rete . I nodi invierà pacchetti heartbeat attraverso queste reti a tutti gli altri nodi. Questi pacchetti dovrebbero essere ricevuti dagli altri nodi e quindi una risposta viene inviata. Ogni nodo del cluster ha i suoi propri battiti che sta andando a monitorare per garantire la rete è attiva e gli altri nodi sono in crescita. L'esempio che segue dovrebbe aiutare a chiarire questo:
immagine
Se uno di questi pacchetti non vengono restituiti, quindi il battito cardiaco specifico viene considerato guasto. Ad esempio, W2K8-R2-NODE2 invia una richiesta e riceve una risposta da W2K8-R2-NODE1 ad un pacchetto battito cardiaco in modo che determina la rete e il nodo è alto. Se W2K8-R2-NODE1 invia una richiesta a W2K8-R2-NODE2 e W2K8-R2-NODE1 non ottiene la risposta, è considerato un battito cardiaco perduto e W2K8-R2-NODE1 tiene traccia di esso. Questa risposta può avere perso W2K8-R2-NODE1 mostrano la rete fino a quando un'altra richiesta battito cardiaco è ricevuto.
Per impostazione predefinita, i nodi del cluster hanno un limite di 5 fallimenti in 5 secondi prima che la connessione è segnato. Quindi, se W2K8-R2-NODE1 non riceve la risposta 5 volte nel periodo di tempo, essa ritiene che determinata rotta da W2K8-R2-NODE2 essere giù. Se altre vie sono ancora considerati up, W2K8-R2-NODE2 rimarrà come membro attivo.
Se tutte le strade sono destinate alla W2K8-R2-NODE2, viene rimosso dal socio attivo del cluster di failover e l'evento 1135 che si vede nella prima sezione viene registrato. On W2K8-R2-NODE2, il servizio cluster viene interrotto e poi ripreso in modo che possa cercare di rientrare nel Cluster.
Per ulteriori informazioni su come gestiamo percorsi specifici che vanno giù con 3 o più nodi, si prega di fare riferimento a "partizionato" Cluster Networks blog che è stato scritto da Jeff Hughes.
Ora che sappiamo come il processo heartbeat funziona, quali sono alcune delle cause note per il processo a fallire.
1. Effettivi di rete guasti hardware. Se il pacchetto viene perso sul filo intermedio tra i nodi, allora i battiti del cuore avrà esito negativo. Una traccia di rete da entrambi i nodi coinvolti rivelerà tale.
2. Il profilo per le connessioni di rete potrebbe essere che rimbalza dal dominio al pubblico e torna di nuovo al dominio. Durante la transizione di questi cambiamenti, rete I / O può essere bloccato. È possibile controllare per vedere se questo è il caso, cercando il log profilo di rete operativa. È possibile trovare questo registro aprendo il Visualizzatore eventi e navigando verso: Registri applicazioni e servizi \ Microsoft \ Windows \ NetworkProfile \ Operativo. Guarda gli eventi di questo registro sul nodo che è stato menzionato nel ID evento: 1135 e vedere se il profilo stava cambiando in questo momento. Se è così, si prega di consultare l'articolo KB " I cambiamenti di percorso di rete del profilo da "Domain" a "pubblico" in Windows 7 o Windows Server 2008 R2 ".
3. Hai IPv6 abilitata sui server, ma hanno le seguenti due regole per disabili in entrata e in uscita nel firewall di Windows:
  • Nucleo Networking - Discovery Neighbor Advertisement
  • Nucleo Networking - Neighbor Discovery
4. Anti-virus software può interferire con questo processo. Se ritieni che questo, test disattivando o disinstallare il software. Fate questo a vostro rischio e pericolo perché sarà protetto da virus, a questo punto.
5. La latenza della rete potrebbe anche causare questo accada. I pacchetti non possono essere persi tra i nodi, ma non possono raggiungere i nodi abbastanza in fretta prima che il periodo di timeout.
6. IPv6 è il protocollo predefinito del clustering di failover, che utilizzerà per i suoi battiti cardiaci. Lo stesso battito cardiaco è una rete unicast UDP pacchetto che comunica sulla porta 3343. Se ci sono switch, firewall o router non configurati correttamente per consentire il traffico attraverso questa, si può questioni come questa.
7. IPsec rinfresca politica di sicurezza possono anche causare questo problema. Il problema specifico è che durante un criterio IPSec gruppo di aggiornare tutte le associazioni di sicurezza IPSec (SA) sono abbattute da Windows Firewall con protezione avanzata (WFAS). Mentre ciò accade, tutta la connettività di rete è bloccata. Quando si ri-negoziazione delle associazioni di protezione se ci sono ritardi nella esegue l'autenticazione con Active Directory, questi ritardi (in cui tutte le comunicazioni di rete è bloccata) verranno bloccati anche i battiti cardiaci del cluster da ottenere attraverso la salute e causare il monitoraggio per individuare i nodi del cluster, come verso il basso se non lo fanno risponde entro la soglia di 5 secondi.
Questi sono i motivi più comuni che questi eventi vengono registrati, ma potrebbero esserci anche altre ragioni. Il punto di questo blog è stato quello di darvi qualche informazione in processo e anche dare idee di cosa cercare.Alcuni sollevano i seguenti valori ai loro valori massimi per cercare di ottenere il problema di smettere.

Parametro
Predefinito
Gamma
SameSubnetDelay
1000 millisecondi
250-2000 millisecondi
CrossSubnetDelay
1000 millisecondi
250-4000 millisecondi
SameSubnetThreshold
5
3-10
CrossSubnetThreshold
5
3-10
L'aumento di questi valori al loro massimo può effettuare la rimozione dell'evento e il nodo andare via, solo, nasconde il problema. Essa non risolve nulla. La cosa migliore da fare è scoprire la causa principale dei fallimenti battito cardiaco e farlo riparare. L'unica vera necessità di aumentare questi valori è in uno scenario multi-sito in cui i nodi risiedono in luoghi diversi e latenza di rete non possono essere superati.

Nessun commento:

Posta un commento

Nota. Solo i membri di questo blog possono postare un commento.