<?xml version="1.0" encoding="UTF-8"?>
<rss xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:taxo="http://purl.org/rss/1.0/modules/taxonomy/" version="2.0">
  <channel>
    <title>topic Multi-Domain (MDS/DMS) — HA, Sync e Troubleshooting Avançado (Runbook de Campo) in Brazil</title>
    <link>https://community.checkpoint.com/t5/Brazil/Multi-Domain-MDS-DMS-HA-Sync-e-Troubleshooting-Avan%C3%A7ado-Runbook/m-p/274382#M49</link>
    <description>&lt;H2&gt;&lt;STRONG&gt; Multi-Domain (MDS/DMS) — HA, Sync e Troubleshooting Avançado (Runbook de Campo)&lt;/STRONG&gt;&lt;/H2&gt;
&lt;P&gt;&lt;STRONG&gt;Escopo:&lt;/STRONG&gt; troubleshooting operacional e arquitetura de &lt;STRONG&gt;Multi-Domain Security Management (MDS/DMS)&lt;/STRONG&gt;, com foco em &lt;STRONG&gt;HA&lt;/STRONG&gt;, &lt;STRONG&gt;sincronização&lt;/STRONG&gt;, &lt;STRONG&gt;coleta de evidências&lt;/STRONG&gt; e &lt;STRONG&gt;ações seguras&lt;/STRONG&gt;.&lt;/P&gt;
&lt;H3&gt;Tese operacional&lt;/H3&gt;
&lt;P&gt;Em Multi-Domain, a maioria dos incidentes “parece” SmartConsole/publish/sync — mas o MTTR explode por dois motivos clássicos:&lt;/P&gt;
&lt;OL&gt;
&lt;LI&gt;
&lt;P&gt;o time coleta logs no &lt;STRONG&gt;contexto errado&lt;/STRONG&gt; (MDS vs Domain), e&lt;/P&gt;
&lt;/LI&gt;
&lt;LI&gt;
&lt;P&gt;executa ações disruptivas (restart/failover) &lt;STRONG&gt;antes de evidência mínima&lt;/STRONG&gt;.&lt;/P&gt;
&lt;/LI&gt;
&lt;/OL&gt;
&lt;H1&gt;&amp;nbsp;&lt;/H1&gt;
&lt;H1&gt;1) Modelo mental de arquitetura (o que importa na prática)&lt;/H1&gt;
&lt;H2&gt;1.1 MDS vs DMS (conceitos-chave)&lt;/H2&gt;
&lt;UL&gt;
&lt;LI&gt;
&lt;P&gt;&lt;STRONG&gt;MDS (Multi-Domain Server):&lt;/STRONG&gt; hospeda a camada multi-domain e os Domains (DMS).&lt;/P&gt;
&lt;/LI&gt;
&lt;LI&gt;
&lt;P&gt;&lt;STRONG&gt;DMS (Domain Management Server):&lt;/STRONG&gt; management de &lt;STRONG&gt;um domínio específico&lt;/STRONG&gt; (objetos/políticas/gateways daquele Domain).&lt;/P&gt;
&lt;/LI&gt;
&lt;/UL&gt;
&lt;H2&gt;1.2 HA — onde muita gente erra&lt;/H2&gt;
&lt;UL&gt;
&lt;LI&gt;
&lt;P&gt;&lt;STRONG&gt;HA de Domain (DMS HA):&lt;/STRONG&gt; por Domain, tipicamente &lt;STRONG&gt;1 Active + 1..N Standby&lt;/STRONG&gt;.&lt;/P&gt;
&lt;UL&gt;
&lt;LI&gt;
&lt;P&gt;A operação de “troca” (promoção) é &lt;STRONG&gt;operacional/manual&lt;/STRONG&gt; (não assuma failover mágico).&lt;/P&gt;
&lt;/LI&gt;
&lt;/UL&gt;
&lt;/LI&gt;
&lt;LI&gt;
&lt;P&gt;&lt;STRONG&gt;HA de MDS:&lt;/STRONG&gt; HA entre servidores do Multi-Domain; em muitos ambientes existe MDS primário/secundário e distribuição de carga por Domains ativos (depende do design).&lt;/P&gt;
&lt;/LI&gt;
&lt;/UL&gt;
&lt;BLOCKQUOTE&gt;
&lt;P&gt;Regra TAC: &lt;STRONG&gt;MDS “UP” não garante Domain “UP”&lt;/STRONG&gt;. Sempre valide por Domain.&lt;/P&gt;
&lt;/BLOCKQUOTE&gt;
&lt;H1&gt;&amp;nbsp;&lt;/H1&gt;
&lt;H1&gt;2) Regra nº1: Contexto correto (mdsenv) — sem isso você está “cego”&lt;/H1&gt;
&lt;H2&gt;2.1 Listar Domains / estado geral&lt;/H2&gt;
&lt;P&gt;&lt;span class="lia-unicode-emoji" title=":white_heavy_check_mark:"&gt;✅&lt;/span&gt; Para &lt;STRONG&gt;listar Domains&lt;/STRONG&gt; e estado de processos, use:&lt;/P&gt;
&lt;PRE&gt;&lt;CODE class="language-bash"&gt;mdsstat
&lt;/CODE&gt;&lt;/PRE&gt;
&lt;H2&gt;2.2 O que &lt;CODE&gt;mdsenv&lt;/CODE&gt; faz (correção importante)&lt;/H2&gt;
&lt;UL&gt;
&lt;LI&gt;
&lt;P&gt;&lt;CODE&gt;mdsenv&lt;/CODE&gt; &lt;STRONG&gt;sem argumentos&lt;/STRONG&gt; &lt;STRONG&gt;não lista&lt;/STRONG&gt; Domains. Ele serve para &lt;STRONG&gt;mostrar/ajustar o contexto atual&lt;/STRONG&gt;.&lt;/P&gt;
&lt;/LI&gt;
&lt;LI&gt;
&lt;P&gt;Para trocar contexto para um Domain específico:&lt;/P&gt;
&lt;/LI&gt;
&lt;/UL&gt;
&lt;PRE&gt;&lt;CODE class="language-bash"&gt;mdsenv &amp;lt;DomainName&amp;gt;
&lt;/CODE&gt;&lt;/PRE&gt;
&lt;H3&gt;2.3 Verificar se você está no Domain certo (validação TAC)&lt;/H3&gt;
&lt;P&gt;Após &lt;CODE&gt;mdsenv &amp;lt;DomainName&amp;gt;&lt;/CODE&gt;, valide imediatamente:&lt;/P&gt;
&lt;PRE&gt;&lt;CODE class="language-bash"&gt;echo $FWDIR
echo $MDS_FWDIR
&lt;/CODE&gt;&lt;/PRE&gt;
&lt;P&gt;&lt;STRONG&gt;Interpretação prática&lt;/STRONG&gt;&lt;/P&gt;
&lt;UL&gt;
&lt;LI&gt;
&lt;P&gt;&lt;CODE&gt;echo $FWDIR&lt;/CODE&gt; deve apontar para o diretório do &lt;STRONG&gt;contexto atual&lt;/STRONG&gt; (se você entrou no Domain correto, vai refletir isso).&lt;/P&gt;
&lt;/LI&gt;
&lt;LI&gt;
&lt;P&gt;Se você não valida o contexto, corre o risco de coletar logs do lugar errado e perder tempo.&lt;/P&gt;
&lt;/LI&gt;
&lt;/UL&gt;
&lt;H1&gt;&amp;nbsp;&lt;/H1&gt;
&lt;H1&gt;3) Runbook rápido “15 minutos” (triagem com evidência)&lt;/H1&gt;
&lt;H2&gt;3.1 Baseline de saúde (MDS-level)&lt;/H2&gt;
&lt;OL&gt;
&lt;LI&gt;
&lt;P&gt;No MDS:&lt;/P&gt;
&lt;/LI&gt;
&lt;/OL&gt;
&lt;PRE&gt;&lt;CODE class="language-bash"&gt;mdsstat
&lt;/CODE&gt;&lt;/PRE&gt;
&lt;P&gt;Procure:&lt;/P&gt;
&lt;UL&gt;
&lt;LI&gt;
&lt;P&gt;Domains com status anormal&lt;/P&gt;
&lt;/LI&gt;
&lt;LI&gt;
&lt;P&gt;processos críticos “down”&lt;/P&gt;
&lt;/LI&gt;
&lt;LI&gt;
&lt;P&gt;flapping (sobe/desce)&lt;/P&gt;
&lt;/LI&gt;
&lt;/UL&gt;
&lt;BLOCKQUOTE&gt;
&lt;P&gt;Importante: &lt;STRONG&gt;não reinicie nada ainda&lt;/STRONG&gt;. Primeiro identifique &lt;EM&gt;qual Domain&lt;/EM&gt; e &lt;EM&gt;qual camada&lt;/EM&gt;.&lt;/P&gt;
&lt;/BLOCKQUOTE&gt;
&lt;H2&gt;3.2 Entrar no Domain afetado&lt;/H2&gt;
&lt;OL start="2"&gt;
&lt;LI&gt;
&lt;P&gt;Entre no Domain suspeito:&lt;/P&gt;
&lt;/LI&gt;
&lt;/OL&gt;
&lt;PRE&gt;&lt;CODE class="language-bash"&gt;mdsenv &amp;lt;DomainName&amp;gt;
echo $FWDIR
&lt;/CODE&gt;&lt;/PRE&gt;
&lt;H2&gt;3.3 Logs em tempo real (durante reprodução)&lt;/H2&gt;
&lt;OL start="3"&gt;
&lt;LI&gt;
&lt;P&gt;Acompanhe logs principais (no contexto correto):&lt;/P&gt;
&lt;/LI&gt;
&lt;/OL&gt;
&lt;PRE&gt;&lt;CODE class="language-bash"&gt;tail -F $FWDIR/log/fwd.elg
tail -F $CPDIR/log/cpd.elg
&lt;/CODE&gt;&lt;/PRE&gt;
&lt;H3&gt;Correção (cpm.elg / asm.elg)&lt;/H3&gt;
&lt;UL&gt;
&lt;LI&gt;
&lt;P&gt;O arquivo &lt;CODE&gt;$FWDIR/log/cpm.elg&lt;/CODE&gt; &lt;STRONG&gt;pode não existir&lt;/STRONG&gt; em todas as versões/implementações.&lt;/P&gt;
&lt;/LI&gt;
&lt;LI&gt;
&lt;P&gt;Em alguns casos, o troubleshooting de management envolve outros logs (ex.: &lt;CODE&gt;asm.elg&lt;/CODE&gt;).&lt;/P&gt;
&lt;/LI&gt;
&lt;/UL&gt;
&lt;P&gt;&lt;span class="lia-unicode-emoji" title=":white_heavy_check_mark:"&gt;✅&lt;/span&gt; Regra TAC: &lt;STRONG&gt;verifique o que existe antes&lt;/STRONG&gt;:&lt;/P&gt;
&lt;PRE&gt;&lt;CODE class="language-bash"&gt;ls -lh $FWDIR/log | egrep "cpm|asm"
&lt;/CODE&gt;&lt;/PRE&gt;
&lt;P&gt;Depois faça o tail no arquivo presente:&lt;/P&gt;
&lt;PRE&gt;&lt;CODE class="language-bash"&gt;tail -F $FWDIR/log/&amp;lt;arquivo_encontrado&amp;gt;.elg
&lt;/CODE&gt;&lt;/PRE&gt;
&lt;H1&gt;&amp;nbsp;&lt;/H1&gt;
&lt;H1&gt;4) Parar/Subir um Domain (ação cirúrgica e correta)&lt;/H1&gt;
&lt;H2&gt;Correção importante (nome vs IP)&lt;/H2&gt;
&lt;P&gt;Os comandos corretos e recomendados são:&lt;/P&gt;
&lt;PRE&gt;&lt;CODE class="language-bash"&gt;mdsstop_customer &amp;lt;DMS_Name&amp;gt;
mdsstart_customer &amp;lt;DMS_Name&amp;gt;
&lt;/CODE&gt;&lt;/PRE&gt;
&lt;P&gt;&lt;span class="lia-unicode-emoji" title=":pushpin:"&gt;📌&lt;/span&gt; &lt;STRONG&gt;Preferir sempre o nome&lt;/STRONG&gt; conforme aparece no &lt;CODE&gt;mdsstat&lt;/CODE&gt;.&lt;BR /&gt;O uso de IP &lt;STRONG&gt;não é a prática recomendada&lt;/STRONG&gt; e pode não ser suportado dependendo do ambiente/versão.&lt;/P&gt;
&lt;H3&gt;Sequência TAC recomendada&lt;/H3&gt;
&lt;OL&gt;
&lt;LI&gt;
&lt;P&gt;Coletar evidência mínima (logs + &lt;CODE&gt;mdsstat&lt;/CODE&gt;)&lt;/P&gt;
&lt;/LI&gt;
&lt;LI&gt;
&lt;P&gt;Executar ação controlada:&lt;/P&gt;
&lt;/LI&gt;
&lt;/OL&gt;
&lt;PRE&gt;&lt;CODE class="language-bash"&gt;mdsstop_customer &amp;lt;DMS_Name&amp;gt;
mdsstart_customer &amp;lt;DMS_Name&amp;gt;
mdsstat
&lt;/CODE&gt;&lt;/PRE&gt;
&lt;H1&gt;&amp;nbsp;&lt;/H1&gt;
&lt;H1&gt;5) Sincronização / inconsistência entre peers (quando suspeitar)&lt;/H1&gt;
&lt;P&gt;Sintomas típicos:&lt;/P&gt;
&lt;UL&gt;
&lt;LI&gt;
&lt;P&gt;objetos/policies “diferentes” entre peers&lt;/P&gt;
&lt;/LI&gt;
&lt;LI&gt;
&lt;P&gt;policy install funciona em um lado e falha no outro sem motivo claro&lt;/P&gt;
&lt;/LI&gt;
&lt;LI&gt;
&lt;P&gt;comportamento divergente após mudança/upgrade&lt;/P&gt;
&lt;/LI&gt;
&lt;/UL&gt;
&lt;P&gt;&lt;STRONG&gt;TAC approach&lt;/STRONG&gt;&lt;/P&gt;
&lt;UL&gt;
&lt;LI&gt;
&lt;P&gt;Sempre compare logs e estado &lt;STRONG&gt;nos dois peers&lt;/STRONG&gt;&lt;/P&gt;
&lt;/LI&gt;
&lt;LI&gt;
&lt;P&gt;Primeiro confirme que houve &lt;STRONG&gt;Publish&lt;/STRONG&gt; (mudança não publicada não replica)&lt;/P&gt;
&lt;/LI&gt;
&lt;/UL&gt;
&lt;BLOCKQUOTE&gt;
&lt;P&gt;Se o problema for realmente drift de HA, a correção costuma ser pelo fluxo de HA/SYNC do SmartConsole (sincronização do peer), não “restart aleatório”.&lt;/P&gt;
&lt;/BLOCKQUOTE&gt;
&lt;H1&gt;&amp;nbsp;&lt;/H1&gt;
&lt;H1&gt;6) Backup/Restore em HA (o que não pode faltar)&lt;/H1&gt;
&lt;H2&gt;6.1 Execução&lt;/H2&gt;
&lt;UL&gt;
&lt;LI&gt;
&lt;P&gt;Backups em HA devem ser tratados como operação coordenada&lt;/P&gt;
&lt;/LI&gt;
&lt;LI&gt;
&lt;P&gt;Evite mudanças durante backup&lt;/P&gt;
&lt;/LI&gt;
&lt;/UL&gt;
&lt;P&gt;Comandos:&lt;/P&gt;
&lt;PRE&gt;&lt;CODE class="language-bash"&gt;mds_backup
mds_restore
&lt;/CODE&gt;&lt;/PRE&gt;
&lt;H2&gt;6.2 Pós-restore (correção obrigatória)&lt;/H2&gt;
&lt;P&gt;Após &lt;CODE&gt;mds_restore&lt;/CODE&gt;, sempre valide saúde antes de liberar:&lt;/P&gt;
&lt;PRE&gt;&lt;CODE class="language-bash"&gt;mdsstat
&lt;/CODE&gt;&lt;/PRE&gt;
&lt;P&gt;E para Domains críticos:&lt;/P&gt;
&lt;PRE&gt;&lt;CODE class="language-bash"&gt;mdsenv &amp;lt;DomainName&amp;gt;
echo $FWDIR
# checar logs e processos relevantes
&lt;/CODE&gt;&lt;/PRE&gt;
&lt;H1&gt;&amp;nbsp;&lt;/H1&gt;
&lt;H1&gt;7) Debug de kernel (avançado) — nunca sem filtro&lt;/H1&gt;
&lt;H2&gt;Correção do seu item&lt;/H2&gt;
&lt;P&gt;Não recomende debug amplo em produção. Sempre use:&lt;/P&gt;
&lt;PRE&gt;&lt;CODE class="language-bash"&gt;fw ctl debug -m &amp;lt;module&amp;gt; &amp;lt;flags&amp;gt;
&lt;/CODE&gt;&lt;/PRE&gt;
&lt;H3&gt;Exemplo (genérico) para quedas/drops (com cautela)&lt;/H3&gt;
&lt;UL&gt;
&lt;LI&gt;
&lt;P&gt;Use janela curta e foco no módulo relevante.&lt;/P&gt;
&lt;/LI&gt;
&lt;LI&gt;
&lt;P&gt;Evite “all” e evite deixar debug ligado.&lt;/P&gt;
&lt;/LI&gt;
&lt;/UL&gt;
&lt;P&gt;Sequência segura (exemplo):&lt;/P&gt;
&lt;PRE&gt;&lt;CODE class="language-bash"&gt;fw ctl debug -m fw + drop
fw ctl kdebug -f
# reproduza por 30–60s
fw ctl debug 0
&lt;/CODE&gt;&lt;/PRE&gt;
&lt;BLOCKQUOTE&gt;
&lt;P&gt;TAC rule: debug de kernel sem filtro e sem janela controlada = risco de degradação/perda de evidência útil.&lt;/P&gt;
&lt;/BLOCKQUOTE&gt;
&lt;H1&gt;&amp;nbsp;&lt;/H1&gt;
&lt;H1&gt;8)&lt;/img&gt; Armadilhas comuns (incidentes recorrentes)&lt;/H1&gt;
&lt;UL&gt;
&lt;LI&gt;
&lt;P&gt;Rodar &lt;CODE&gt;tail&lt;/CODE&gt; sem &lt;CODE&gt;mdsenv &amp;lt;Domain&amp;gt;&lt;/CODE&gt; → logs “do lugar errado”&lt;/P&gt;
&lt;/LI&gt;
&lt;LI&gt;
&lt;P&gt;Assumir que &lt;CODE&gt;mdsenv&lt;/CODE&gt; lista Domains → quem lista é &lt;CODE&gt;mdsstat&lt;/CODE&gt;&lt;/P&gt;
&lt;/LI&gt;
&lt;LI&gt;
&lt;P&gt;Reiniciar Domain sem evidência mínima → mascara causa raiz (disco/locks/conectividade)&lt;/P&gt;
&lt;/LI&gt;
&lt;LI&gt;
&lt;P&gt;Restore sem validar &lt;CODE&gt;mdsstat&lt;/CODE&gt; → ambiente “volta” parcialmente e vira incidente em cascata&lt;/P&gt;
&lt;/LI&gt;
&lt;LI&gt;
&lt;P&gt;Debug kernel amplo em produção → degradação + ruído + RCA impossível&lt;/P&gt;
&lt;/LI&gt;
&lt;/UL&gt;</description>
    <pubDate>Fri, 27 Mar 2026 20:07:25 GMT</pubDate>
    <dc:creator>WiliRGasparetto</dc:creator>
    <dc:date>2026-03-27T20:07:25Z</dc:date>
    <item>
      <title>Multi-Domain (MDS/DMS) — HA, Sync e Troubleshooting Avançado (Runbook de Campo)</title>
      <link>https://community.checkpoint.com/t5/Brazil/Multi-Domain-MDS-DMS-HA-Sync-e-Troubleshooting-Avan%C3%A7ado-Runbook/m-p/274382#M49</link>
      <description>&lt;H2&gt;&lt;STRONG&gt; Multi-Domain (MDS/DMS) — HA, Sync e Troubleshooting Avançado (Runbook de Campo)&lt;/STRONG&gt;&lt;/H2&gt;
&lt;P&gt;&lt;STRONG&gt;Escopo:&lt;/STRONG&gt; troubleshooting operacional e arquitetura de &lt;STRONG&gt;Multi-Domain Security Management (MDS/DMS)&lt;/STRONG&gt;, com foco em &lt;STRONG&gt;HA&lt;/STRONG&gt;, &lt;STRONG&gt;sincronização&lt;/STRONG&gt;, &lt;STRONG&gt;coleta de evidências&lt;/STRONG&gt; e &lt;STRONG&gt;ações seguras&lt;/STRONG&gt;.&lt;/P&gt;
&lt;H3&gt;Tese operacional&lt;/H3&gt;
&lt;P&gt;Em Multi-Domain, a maioria dos incidentes “parece” SmartConsole/publish/sync — mas o MTTR explode por dois motivos clássicos:&lt;/P&gt;
&lt;OL&gt;
&lt;LI&gt;
&lt;P&gt;o time coleta logs no &lt;STRONG&gt;contexto errado&lt;/STRONG&gt; (MDS vs Domain), e&lt;/P&gt;
&lt;/LI&gt;
&lt;LI&gt;
&lt;P&gt;executa ações disruptivas (restart/failover) &lt;STRONG&gt;antes de evidência mínima&lt;/STRONG&gt;.&lt;/P&gt;
&lt;/LI&gt;
&lt;/OL&gt;
&lt;H1&gt;&amp;nbsp;&lt;/H1&gt;
&lt;H1&gt;1) Modelo mental de arquitetura (o que importa na prática)&lt;/H1&gt;
&lt;H2&gt;1.1 MDS vs DMS (conceitos-chave)&lt;/H2&gt;
&lt;UL&gt;
&lt;LI&gt;
&lt;P&gt;&lt;STRONG&gt;MDS (Multi-Domain Server):&lt;/STRONG&gt; hospeda a camada multi-domain e os Domains (DMS).&lt;/P&gt;
&lt;/LI&gt;
&lt;LI&gt;
&lt;P&gt;&lt;STRONG&gt;DMS (Domain Management Server):&lt;/STRONG&gt; management de &lt;STRONG&gt;um domínio específico&lt;/STRONG&gt; (objetos/políticas/gateways daquele Domain).&lt;/P&gt;
&lt;/LI&gt;
&lt;/UL&gt;
&lt;H2&gt;1.2 HA — onde muita gente erra&lt;/H2&gt;
&lt;UL&gt;
&lt;LI&gt;
&lt;P&gt;&lt;STRONG&gt;HA de Domain (DMS HA):&lt;/STRONG&gt; por Domain, tipicamente &lt;STRONG&gt;1 Active + 1..N Standby&lt;/STRONG&gt;.&lt;/P&gt;
&lt;UL&gt;
&lt;LI&gt;
&lt;P&gt;A operação de “troca” (promoção) é &lt;STRONG&gt;operacional/manual&lt;/STRONG&gt; (não assuma failover mágico).&lt;/P&gt;
&lt;/LI&gt;
&lt;/UL&gt;
&lt;/LI&gt;
&lt;LI&gt;
&lt;P&gt;&lt;STRONG&gt;HA de MDS:&lt;/STRONG&gt; HA entre servidores do Multi-Domain; em muitos ambientes existe MDS primário/secundário e distribuição de carga por Domains ativos (depende do design).&lt;/P&gt;
&lt;/LI&gt;
&lt;/UL&gt;
&lt;BLOCKQUOTE&gt;
&lt;P&gt;Regra TAC: &lt;STRONG&gt;MDS “UP” não garante Domain “UP”&lt;/STRONG&gt;. Sempre valide por Domain.&lt;/P&gt;
&lt;/BLOCKQUOTE&gt;
&lt;H1&gt;&amp;nbsp;&lt;/H1&gt;
&lt;H1&gt;2) Regra nº1: Contexto correto (mdsenv) — sem isso você está “cego”&lt;/H1&gt;
&lt;H2&gt;2.1 Listar Domains / estado geral&lt;/H2&gt;
&lt;P&gt;&lt;span class="lia-unicode-emoji" title=":white_heavy_check_mark:"&gt;✅&lt;/span&gt; Para &lt;STRONG&gt;listar Domains&lt;/STRONG&gt; e estado de processos, use:&lt;/P&gt;
&lt;PRE&gt;&lt;CODE class="language-bash"&gt;mdsstat
&lt;/CODE&gt;&lt;/PRE&gt;
&lt;H2&gt;2.2 O que &lt;CODE&gt;mdsenv&lt;/CODE&gt; faz (correção importante)&lt;/H2&gt;
&lt;UL&gt;
&lt;LI&gt;
&lt;P&gt;&lt;CODE&gt;mdsenv&lt;/CODE&gt; &lt;STRONG&gt;sem argumentos&lt;/STRONG&gt; &lt;STRONG&gt;não lista&lt;/STRONG&gt; Domains. Ele serve para &lt;STRONG&gt;mostrar/ajustar o contexto atual&lt;/STRONG&gt;.&lt;/P&gt;
&lt;/LI&gt;
&lt;LI&gt;
&lt;P&gt;Para trocar contexto para um Domain específico:&lt;/P&gt;
&lt;/LI&gt;
&lt;/UL&gt;
&lt;PRE&gt;&lt;CODE class="language-bash"&gt;mdsenv &amp;lt;DomainName&amp;gt;
&lt;/CODE&gt;&lt;/PRE&gt;
&lt;H3&gt;2.3 Verificar se você está no Domain certo (validação TAC)&lt;/H3&gt;
&lt;P&gt;Após &lt;CODE&gt;mdsenv &amp;lt;DomainName&amp;gt;&lt;/CODE&gt;, valide imediatamente:&lt;/P&gt;
&lt;PRE&gt;&lt;CODE class="language-bash"&gt;echo $FWDIR
echo $MDS_FWDIR
&lt;/CODE&gt;&lt;/PRE&gt;
&lt;P&gt;&lt;STRONG&gt;Interpretação prática&lt;/STRONG&gt;&lt;/P&gt;
&lt;UL&gt;
&lt;LI&gt;
&lt;P&gt;&lt;CODE&gt;echo $FWDIR&lt;/CODE&gt; deve apontar para o diretório do &lt;STRONG&gt;contexto atual&lt;/STRONG&gt; (se você entrou no Domain correto, vai refletir isso).&lt;/P&gt;
&lt;/LI&gt;
&lt;LI&gt;
&lt;P&gt;Se você não valida o contexto, corre o risco de coletar logs do lugar errado e perder tempo.&lt;/P&gt;
&lt;/LI&gt;
&lt;/UL&gt;
&lt;H1&gt;&amp;nbsp;&lt;/H1&gt;
&lt;H1&gt;3) Runbook rápido “15 minutos” (triagem com evidência)&lt;/H1&gt;
&lt;H2&gt;3.1 Baseline de saúde (MDS-level)&lt;/H2&gt;
&lt;OL&gt;
&lt;LI&gt;
&lt;P&gt;No MDS:&lt;/P&gt;
&lt;/LI&gt;
&lt;/OL&gt;
&lt;PRE&gt;&lt;CODE class="language-bash"&gt;mdsstat
&lt;/CODE&gt;&lt;/PRE&gt;
&lt;P&gt;Procure:&lt;/P&gt;
&lt;UL&gt;
&lt;LI&gt;
&lt;P&gt;Domains com status anormal&lt;/P&gt;
&lt;/LI&gt;
&lt;LI&gt;
&lt;P&gt;processos críticos “down”&lt;/P&gt;
&lt;/LI&gt;
&lt;LI&gt;
&lt;P&gt;flapping (sobe/desce)&lt;/P&gt;
&lt;/LI&gt;
&lt;/UL&gt;
&lt;BLOCKQUOTE&gt;
&lt;P&gt;Importante: &lt;STRONG&gt;não reinicie nada ainda&lt;/STRONG&gt;. Primeiro identifique &lt;EM&gt;qual Domain&lt;/EM&gt; e &lt;EM&gt;qual camada&lt;/EM&gt;.&lt;/P&gt;
&lt;/BLOCKQUOTE&gt;
&lt;H2&gt;3.2 Entrar no Domain afetado&lt;/H2&gt;
&lt;OL start="2"&gt;
&lt;LI&gt;
&lt;P&gt;Entre no Domain suspeito:&lt;/P&gt;
&lt;/LI&gt;
&lt;/OL&gt;
&lt;PRE&gt;&lt;CODE class="language-bash"&gt;mdsenv &amp;lt;DomainName&amp;gt;
echo $FWDIR
&lt;/CODE&gt;&lt;/PRE&gt;
&lt;H2&gt;3.3 Logs em tempo real (durante reprodução)&lt;/H2&gt;
&lt;OL start="3"&gt;
&lt;LI&gt;
&lt;P&gt;Acompanhe logs principais (no contexto correto):&lt;/P&gt;
&lt;/LI&gt;
&lt;/OL&gt;
&lt;PRE&gt;&lt;CODE class="language-bash"&gt;tail -F $FWDIR/log/fwd.elg
tail -F $CPDIR/log/cpd.elg
&lt;/CODE&gt;&lt;/PRE&gt;
&lt;H3&gt;Correção (cpm.elg / asm.elg)&lt;/H3&gt;
&lt;UL&gt;
&lt;LI&gt;
&lt;P&gt;O arquivo &lt;CODE&gt;$FWDIR/log/cpm.elg&lt;/CODE&gt; &lt;STRONG&gt;pode não existir&lt;/STRONG&gt; em todas as versões/implementações.&lt;/P&gt;
&lt;/LI&gt;
&lt;LI&gt;
&lt;P&gt;Em alguns casos, o troubleshooting de management envolve outros logs (ex.: &lt;CODE&gt;asm.elg&lt;/CODE&gt;).&lt;/P&gt;
&lt;/LI&gt;
&lt;/UL&gt;
&lt;P&gt;&lt;span class="lia-unicode-emoji" title=":white_heavy_check_mark:"&gt;✅&lt;/span&gt; Regra TAC: &lt;STRONG&gt;verifique o que existe antes&lt;/STRONG&gt;:&lt;/P&gt;
&lt;PRE&gt;&lt;CODE class="language-bash"&gt;ls -lh $FWDIR/log | egrep "cpm|asm"
&lt;/CODE&gt;&lt;/PRE&gt;
&lt;P&gt;Depois faça o tail no arquivo presente:&lt;/P&gt;
&lt;PRE&gt;&lt;CODE class="language-bash"&gt;tail -F $FWDIR/log/&amp;lt;arquivo_encontrado&amp;gt;.elg
&lt;/CODE&gt;&lt;/PRE&gt;
&lt;H1&gt;&amp;nbsp;&lt;/H1&gt;
&lt;H1&gt;4) Parar/Subir um Domain (ação cirúrgica e correta)&lt;/H1&gt;
&lt;H2&gt;Correção importante (nome vs IP)&lt;/H2&gt;
&lt;P&gt;Os comandos corretos e recomendados são:&lt;/P&gt;
&lt;PRE&gt;&lt;CODE class="language-bash"&gt;mdsstop_customer &amp;lt;DMS_Name&amp;gt;
mdsstart_customer &amp;lt;DMS_Name&amp;gt;
&lt;/CODE&gt;&lt;/PRE&gt;
&lt;P&gt;&lt;span class="lia-unicode-emoji" title=":pushpin:"&gt;📌&lt;/span&gt; &lt;STRONG&gt;Preferir sempre o nome&lt;/STRONG&gt; conforme aparece no &lt;CODE&gt;mdsstat&lt;/CODE&gt;.&lt;BR /&gt;O uso de IP &lt;STRONG&gt;não é a prática recomendada&lt;/STRONG&gt; e pode não ser suportado dependendo do ambiente/versão.&lt;/P&gt;
&lt;H3&gt;Sequência TAC recomendada&lt;/H3&gt;
&lt;OL&gt;
&lt;LI&gt;
&lt;P&gt;Coletar evidência mínima (logs + &lt;CODE&gt;mdsstat&lt;/CODE&gt;)&lt;/P&gt;
&lt;/LI&gt;
&lt;LI&gt;
&lt;P&gt;Executar ação controlada:&lt;/P&gt;
&lt;/LI&gt;
&lt;/OL&gt;
&lt;PRE&gt;&lt;CODE class="language-bash"&gt;mdsstop_customer &amp;lt;DMS_Name&amp;gt;
mdsstart_customer &amp;lt;DMS_Name&amp;gt;
mdsstat
&lt;/CODE&gt;&lt;/PRE&gt;
&lt;H1&gt;&amp;nbsp;&lt;/H1&gt;
&lt;H1&gt;5) Sincronização / inconsistência entre peers (quando suspeitar)&lt;/H1&gt;
&lt;P&gt;Sintomas típicos:&lt;/P&gt;
&lt;UL&gt;
&lt;LI&gt;
&lt;P&gt;objetos/policies “diferentes” entre peers&lt;/P&gt;
&lt;/LI&gt;
&lt;LI&gt;
&lt;P&gt;policy install funciona em um lado e falha no outro sem motivo claro&lt;/P&gt;
&lt;/LI&gt;
&lt;LI&gt;
&lt;P&gt;comportamento divergente após mudança/upgrade&lt;/P&gt;
&lt;/LI&gt;
&lt;/UL&gt;
&lt;P&gt;&lt;STRONG&gt;TAC approach&lt;/STRONG&gt;&lt;/P&gt;
&lt;UL&gt;
&lt;LI&gt;
&lt;P&gt;Sempre compare logs e estado &lt;STRONG&gt;nos dois peers&lt;/STRONG&gt;&lt;/P&gt;
&lt;/LI&gt;
&lt;LI&gt;
&lt;P&gt;Primeiro confirme que houve &lt;STRONG&gt;Publish&lt;/STRONG&gt; (mudança não publicada não replica)&lt;/P&gt;
&lt;/LI&gt;
&lt;/UL&gt;
&lt;BLOCKQUOTE&gt;
&lt;P&gt;Se o problema for realmente drift de HA, a correção costuma ser pelo fluxo de HA/SYNC do SmartConsole (sincronização do peer), não “restart aleatório”.&lt;/P&gt;
&lt;/BLOCKQUOTE&gt;
&lt;H1&gt;&amp;nbsp;&lt;/H1&gt;
&lt;H1&gt;6) Backup/Restore em HA (o que não pode faltar)&lt;/H1&gt;
&lt;H2&gt;6.1 Execução&lt;/H2&gt;
&lt;UL&gt;
&lt;LI&gt;
&lt;P&gt;Backups em HA devem ser tratados como operação coordenada&lt;/P&gt;
&lt;/LI&gt;
&lt;LI&gt;
&lt;P&gt;Evite mudanças durante backup&lt;/P&gt;
&lt;/LI&gt;
&lt;/UL&gt;
&lt;P&gt;Comandos:&lt;/P&gt;
&lt;PRE&gt;&lt;CODE class="language-bash"&gt;mds_backup
mds_restore
&lt;/CODE&gt;&lt;/PRE&gt;
&lt;H2&gt;6.2 Pós-restore (correção obrigatória)&lt;/H2&gt;
&lt;P&gt;Após &lt;CODE&gt;mds_restore&lt;/CODE&gt;, sempre valide saúde antes de liberar:&lt;/P&gt;
&lt;PRE&gt;&lt;CODE class="language-bash"&gt;mdsstat
&lt;/CODE&gt;&lt;/PRE&gt;
&lt;P&gt;E para Domains críticos:&lt;/P&gt;
&lt;PRE&gt;&lt;CODE class="language-bash"&gt;mdsenv &amp;lt;DomainName&amp;gt;
echo $FWDIR
# checar logs e processos relevantes
&lt;/CODE&gt;&lt;/PRE&gt;
&lt;H1&gt;&amp;nbsp;&lt;/H1&gt;
&lt;H1&gt;7) Debug de kernel (avançado) — nunca sem filtro&lt;/H1&gt;
&lt;H2&gt;Correção do seu item&lt;/H2&gt;
&lt;P&gt;Não recomende debug amplo em produção. Sempre use:&lt;/P&gt;
&lt;PRE&gt;&lt;CODE class="language-bash"&gt;fw ctl debug -m &amp;lt;module&amp;gt; &amp;lt;flags&amp;gt;
&lt;/CODE&gt;&lt;/PRE&gt;
&lt;H3&gt;Exemplo (genérico) para quedas/drops (com cautela)&lt;/H3&gt;
&lt;UL&gt;
&lt;LI&gt;
&lt;P&gt;Use janela curta e foco no módulo relevante.&lt;/P&gt;
&lt;/LI&gt;
&lt;LI&gt;
&lt;P&gt;Evite “all” e evite deixar debug ligado.&lt;/P&gt;
&lt;/LI&gt;
&lt;/UL&gt;
&lt;P&gt;Sequência segura (exemplo):&lt;/P&gt;
&lt;PRE&gt;&lt;CODE class="language-bash"&gt;fw ctl debug -m fw + drop
fw ctl kdebug -f
# reproduza por 30–60s
fw ctl debug 0
&lt;/CODE&gt;&lt;/PRE&gt;
&lt;BLOCKQUOTE&gt;
&lt;P&gt;TAC rule: debug de kernel sem filtro e sem janela controlada = risco de degradação/perda de evidência útil.&lt;/P&gt;
&lt;/BLOCKQUOTE&gt;
&lt;H1&gt;&amp;nbsp;&lt;/H1&gt;
&lt;H1&gt;8)&lt;/img&gt; Armadilhas comuns (incidentes recorrentes)&lt;/H1&gt;
&lt;UL&gt;
&lt;LI&gt;
&lt;P&gt;Rodar &lt;CODE&gt;tail&lt;/CODE&gt; sem &lt;CODE&gt;mdsenv &amp;lt;Domain&amp;gt;&lt;/CODE&gt; → logs “do lugar errado”&lt;/P&gt;
&lt;/LI&gt;
&lt;LI&gt;
&lt;P&gt;Assumir que &lt;CODE&gt;mdsenv&lt;/CODE&gt; lista Domains → quem lista é &lt;CODE&gt;mdsstat&lt;/CODE&gt;&lt;/P&gt;
&lt;/LI&gt;
&lt;LI&gt;
&lt;P&gt;Reiniciar Domain sem evidência mínima → mascara causa raiz (disco/locks/conectividade)&lt;/P&gt;
&lt;/LI&gt;
&lt;LI&gt;
&lt;P&gt;Restore sem validar &lt;CODE&gt;mdsstat&lt;/CODE&gt; → ambiente “volta” parcialmente e vira incidente em cascata&lt;/P&gt;
&lt;/LI&gt;
&lt;LI&gt;
&lt;P&gt;Debug kernel amplo em produção → degradação + ruído + RCA impossível&lt;/P&gt;
&lt;/LI&gt;
&lt;/UL&gt;</description>
      <pubDate>Fri, 27 Mar 2026 20:07:25 GMT</pubDate>
      <guid>https://community.checkpoint.com/t5/Brazil/Multi-Domain-MDS-DMS-HA-Sync-e-Troubleshooting-Avan%C3%A7ado-Runbook/m-p/274382#M49</guid>
      <dc:creator>WiliRGasparetto</dc:creator>
      <dc:date>2026-03-27T20:07:25Z</dc:date>
    </item>
  </channel>
</rss>

