Plano de Contingência do UNIPAM




O Plano de Contingência visa assegurar a continuidade das operações do UNIPAM em casos de indisponibilidade de longa duração dos recursos antes disponíveis e que davam suporte aos serviços do UNIPAM (equipamentos, sistemas de TI, instalações físicas e ativos de informação).

Contempla um Plano de Recuperação de Desastres que visa a recuperação de ambientes críticos de TI, em casos de interrupções decorrentes de desastres, tais como furacões, terremotos, incêndios, falhas elétricas, ameaças bioquímicas e eventos que afetem a disponibilidade de tais ambientes.

Informações detalhadas pertinentes à Política de Backup e ao Plano de Contingência são definidas em documentos técnicos específicos.

O UNIPAM possui um Plano de Atendimento a Emergências (PAE), definido no DA-7.1.4/135-02 (SVN > pasta 135 > subpasta NR 23), o qual norteia a instituição no gerenciamento de questões relativas à forma de atendimento a emergências reais e potenciais.

Identificação Dos Ativos, Serviços E Riscos


Ativos essenciais ao negócio:

  • Rede DADOS: compreende toda a rede física que necessita de um meio de comunicação elétrico ou óptico para transmissão de dados.
  • Rede Wi-Fi: compreende toda a rede que utiliza o ar como conduíte e ondas eletromagnéticas como meio de transporte de informações.
  • CFTV IP: compreende todo o circuito fechado de televisão que realiza o monitoramento dos ambientes físicos do UNIPAM.
  • Storage: parque de servidores dedicados ao backup de arquivos disponíveis em áreas compartilhadas.
  • Data Center: parque de servidores e de passivos de redes dedicados à virtualização de máquina e conectividade entre servidores.
  • Rede Elétrica: compreende toda a rede responsável pelo fornecimento de energia aos blocos e departamentos.

Serviços essenciais ao negócio:

  • Portais e sistemas: conjunto de aplicações de terceiros/legadas e websites, que prestam serviços aos colaboradores e aos corpos discente e docente.
  • Contas e Acesso: serviço de autenticação integrada entre correio eletrônico, portais acadêmicos e administrativos, servidores de compartilhamento de arquivos, Wi-Fi e salas de Informática.
  • Acesso à Internet: permite à comunidade do UNIPAM acessar a rede mundial de computadores.
  • Apoio Pedagógico: parque de equipamentos geridos pelo UNIPAM e disponibilizados aos usuários finais (endpoints), por meio das Salas de Informática, Salas Multimídia, Salas Invertidas, Laboratórios, Salas de Tutorias e Mini Auditórios.

Riscos ao negócio:

  • Ameaças Humanas:
    • Hacker ou Cracker: ameaça que, motivada por ego, aprendizado ou desafio, se utiliza de engenharia social, vulnerabilidades, técnicas de intrusão ou acessos não autorizados para obter vantagens sobre os ativos ou serviços. Ameaça a confidencialidade e integridade do negócio.
    • Crime computacional: visa a destruição de dados, alteração de informações ou ganho financeiro. Se utiliza de técnicas de fraude ou intrusão de sistemas.
    • Espionagem Industrial: por meio de engenharia social, vulnerabilidades, técnicas de intrusão ou acessos não autorizados, visa obter vantagem competitiva comercial, econômica ou estratégica.
  • Ameaças Físicas
    • Incêndio: de causa criminosa ou acidental (problemas elétricos ou reações químicas), exige a evacuação dos espaços físicos e proteção dos ativos essenciais.
    • Incidente climático: provocado por alterações bruscas no clima, tais como inundações, furacões ou terremotos, exigem evacuação dos espaços físicos, realocação dos ativos e serviços essenciais ao negócio.
    • Contaminação: decorrente de ameaças biológicas ou químicas, também exige evacuação dos espaços físicos e isolamento da área de risco.




Times e Responsabilidades


Time de Gerenciamento de Desastres (TGD)

  • O Time de Gerenciamento de Desastres (TGD) é constituído por um pequeno núcleo de executivos que podem atuar durante eventuais crises. Podem ser adicionados colaboradores a esse time para auxiliar na execução do Plano de Recuperação de Desastres.
  • O TGD será acionado em caso de danos às comunicações ou instalações que interrompam significativamente a capacidade de entrega de serviços e produtos.
  • É de responsabilidade do TGD acionar o Time de Recuperação de Desastres (TRD) sempre que necessário e coordenar estrategicamente as ações necessárias para a continuidade do negócio.
  • O TGD é composto pelos seguintes membros:
    • Reitor;
    • Pró-Reitor de Ensino, Pesquisa e Extensão;
    • Pró-Reitor de Planejamento, Administração e Finanças;
    • Diretora de Graduação;
    • Diretor Executivo da FEPAM.

Time de Recuperação de Desastres (TRD)

  • O Time de Recuperação de Desastres (TRD) é composto por um time multidisciplinar, constituído por colaboradores que atuam operacionalmente durante desastres para suas respectivas áreas, quando necessário. O TRD é estrategicamente composto por coordenadores e gerentes de equipes vitais ao negócio do UNIPAM.
  • O TRD será acionado pelo TGD nos momentos de crises e desastres.
  • O TRD deve seguir o Plano de Recuperação de Desastres.
  • O TRD é composto pelos seguintes membros:
    • Redes e Segurança;
    • Informática;
    • Desenvolvimento de Sistemas;
    • Vigilância;
    • Laboratório de Arquitetura e Engenharia (LARE);
    • Telefonia;
    • Brigadistas.




Local De Gerenciamento De Operações


  • Durante eventos de desastres, a estratégia necessária para a recuperação será realizada fisicamente na localidade registrada em documento confidencial e de posse do TGD e TRD.





Plano De Recuperação De Desastres


O Time de Gerenciamento de Desastres deve realizar os seguintes passos para recuperação de desastres:

  • Identificar o tipo de desastre:
    • Incêndio Parcial ou Total?
    • Incidente Climático?
    • Contaminação?
    • Crime Computacional?
    • Espionagem Industrial?
  • Reunir-se no local descrito em Local De Gerenciamento De Operações
  • Coordenar os procedimentos de resposta emergencial.
  • Convocar o Time de Recuperação de Desastres e definir ações estratégicas para a continuidade do negócio, mitigação de danos físicos e de imagem.
  • Verificar a necessidade de incorporar mais colaboradores ou terceiros durante o desastre.
  • Coordenar estrategicamente o deslocamento de colaboradores, alunos e demais ativos corporativos quando necessário.
  • Manter comunicação com fornecedores internos e externos para garantir que serviços básicos continuem operando.
  • Gerenciar a comunicação com a comunidade e a imagem pública da Instituição.
  • Acompanhar e coordenar o TRD durante todo o processo de recuperação e procedimentos de contorno manual.
  • Determinar o fim do desastre.
  • Avaliar o impacto ao negócio.
  • Reavaliar o plano de recuperação de desastres, caso necessário.





Procedimentos De Contorno Manual


CFTV IP
  • Alocar fisicamente servidor de reserva para instalação da gerência do sistema de CFTV IP.
  • Recuperar arquivos de configuração utilizados no CFTV IP e que foram armazenados previamente via backup.
  • Carregar o servidor com os arquivos e parâmetros de configuração anteriormente recuperados.
  • Reconfigurar as câmeras que não tenham conseguido restabelecer contato com o servidor central.

Rede Wi-Fi
  • Em caso de falha da controladora, uma segunda deve assumir manualmente as demais conexões.
  • Realizar login na segunda controladora e autorizar a comunicação com todos os APs.
  • Confirmar a atuação manual da segunda controladora.

Rede de dados
  • Switches:
    • Em caso de pane elétrica, identificar a causa da pane e retirar o switch.
    • Etiquetar o switch com uma notificação de defeito.
    • Alocar switch reserva com a mesma quantidade de portas para substituição.
    • Conectar todas as portas seguindo o mapeamento adequado, caso exista.
    • Recuperar configurações do switch previamente armazenadas por backup, quando necessário.
    • Testar a conectividade entre os ativos ligados ao switch.
  • Gateways e firewalls:
    • Em caso de pane elétrica, identificar a causa da pane e retirar o gateway ou firewall.
    • Etiquetar o gateway ou o firewall com uma notificação de defeito.
    • Alocar gateway ou firewall reserva com a mesma quantidade de portas e capacidade de processamento para substituição.
    • Conectar todas as portas seguindo o mapeamento adequado, caso exista.
    • Recuperar configurações do gateway ou do firewall previamente armazenadas por backup, quando necessário.
    • Testar a conectividade entre os ativos ligados ao gateway ou ao firewall.

Data Center
  • Em caso de perda total de máquinas virtuais, restaurar individualmente cada máquina previamente replicada por meio do vSphere Replication.
  • Em caso de pane elétrica de uma máquina física, as máquinas virtuais são alocadas automaticamente para outra máquina física. Não é necessário intervenção manual.
    • Após a recuperação da máquina física, mover de volta as máquinas virtuais alocadas para a nova máquina.

Storages
  • Em caso de pane elétrica de uma máquina física, ela deve ser isolada e a extensão dos danos físicos deve ser averiguada.
  • Recuperar quaisquer dados de discos físicos ainda saudáveis.
  • Ajustar as rotinas de backup, distribuindo, temporariamente, os backups para os storages restantes.
  • Alocar máquina física de reserva para restauração do sistema operacional e scripts de backup.
  • Configurar máquina reserva e realizar testes manuais de backup.
  • Retornar as rotinas de backup para as configurações iniciais.
  • Caso a operação esteja normalizada, mover os backups temporários para o novo storage.

Rede Elétrica
  • A rede elétrica é atendida por 5 (cinco) subestações diferentes, com subestações isoladas para climatização central.
  • Em caso de queda, um gerador atua automaticamente atendendo toda a carga elétrica.
  • O gerador possui autonomia de 35 horas à plena carga.
  • O gerador é testado automaticamente com periodicidade semanal e acompanhado em sala supervisória.

Portais e Sistemas
  • Em caso de corrupção de dados, violação ou acesso não autorizados dos portais UNIPAM:
    • Interromper as máquinas virtuais envolvidas.
    • Criar uma cópia dessas máquinas no atual estado e desativar suas interfaces de rede.
    • Resumir as máquinas originais e retorná-las a um estágio funcional anterior ao da interrupção.
      • Caso um acesso não-autorizado ou violação for identificada, mitigar o ataque bloqueando os IPs ofensores nos firewalls de borda.
  • Investigar a causa raiz da interrupção e notificar as equipes que administram os portais.

Contas e Acesso
  • Em caso de pane elétrica de uma máquina física responsável pela integração da autenticação de credenciais, ela deve ser isolada e a extensão dos danos físicos deve ser averiguada.
  • Recuperar quaisquer dados de discos físicos ainda saudáveis e armazenar em storage.
  • Alocar máquina física de reserva para restauração do sistema operacional e serviços de autenticação.
  • Configurar máquina reserva utilizando o backup dos arquivos de configuração e realizar testes de conectividade com o servidor de autenticação.

Acesso à Internet
  • Em caso de indisponibilidade de um link, comutar manualmente para um operante.
  • Entrar em contato com a operadora responsável pelo link inoperante e acompanhar as tratativas até a resolução do incidente.
  • Após a normalização do link, retornar ao link normalizado o que foi comutado anteriormente e testar o funcionamento.

Apoio Pedagógico
  • Falha no acesso aos Servidores de gerência de licenças, causando indisponibilidade de alguns softwares, cujas licenças são gerenciadas pelos mesmos.
  • Caso seja identificada falha de conexão com um dos servidores supracitados, verificar se a configuração dos softwares está correta e se é possível acessar os mesmos via acesso remoto.
  • Para eventos onde a indisponibilidade for causada por falha de equipamento de rede como switch e/ou configurações específicas de rede, acionar a Coordenadoria de Redes e Segurança por meio do Sistema Gerenciador de Chamados, informando o problema com o equipamento.
  • Para eventos onde a indisponibilidade for causada por problemas na rede elétrica, acionar a Manutenção Elétrica/LARE via Sistema Gerenciador de Chamados informando o problema.
  • Caso não seja possível estabelecer conexão remota com os servidores e/ou seja identificada falha grave por parte dos mesmos ou apenas dos serviços de gerenciamento de licenças, verificar se há possibilidade de restauração dos serviços.
  • Caso seja identificada a impossibilidade de restauração dos serviços, dar início ao processo de restauração do Backup do servidor. O mesmo será executado por meio de restauração de imagem criada anteriormente com a finalidade de recuperação de desastres.
  • As imagens dos servidores são atualizadas anualmente, ou sempre que ocorre uma atualização de sistema, bem como renovação/alteração de licenças.
  • As imagens dos servidores são criadas pela Redes e Segurança com base em solicitação emitida pela Informática.
  • As informações detalhadas sobre Política de Backup e Plano de Contingência são definidas em documento específico.




Acesse o Catálogo TI completo