O projeto tardigrade protege seus vms contra falhas do host

Índice:

Vídeo: Tardigrades Are the Toughest Animal on Earth that can Survive Space and Volcanoes | The Dodo 2024

Vídeo: Tardigrades Are the Toughest Animal on Earth that can Survive Space and Volcanoes | The Dodo 2024
Anonim

Após várias alterações do Azure e melhorias de segurança nos últimos dois meses, a Microsoft está apresentando o Project Tardigrade como sua mais nova tentativa de tornar o Azure mais confiável.

O Project Tardigrade evita falhas na plataforma

O Project Tardigrade é um novo serviço que visa melhorar a resiliência do Azure. Inclui estratégias de mitigação que protegem as VMs do Azure contra falhas de plataforma.

Veja como Mark Russinovich, diretor de tecnologia do Microsoft Azure, está descrevendo o trabalho atual no Azure:

Nosso objetivo é capacitar as organizações a executar suas cargas de trabalho de maneira confiável no Azure. Com isso como princípio orientador, estamos investindo continuamente na evolução da plataforma Azure para se tornar resiliente a falhas, não apenas para aumentar a produtividade dos negócios, mas também para fornecer uma experiência perfeita ao cliente.

Para evitar impacto em suas cargas de trabalho, o serviço permite que os componentes recuperem automaticamente e se recuperem rapidamente de possíveis falhas, mesmo em falhas críticas do host.

Como o Project Tardigrade funciona?

Aqui está um exemplo de como o fluxo de trabalho de recuperação da Tardigrade funciona:

  • Fase 1: esta etapa não tem impacto na execução de VMs de clientes. Simplesmente recicla todos os serviços em execução no host. Nos raros casos em que o serviço com falha não é reiniciado com êxito, prosseguimos para a Fase 2.
  • Fase 2: Nosso serviço de diagnóstico é executado no host para coletar todos os logs / despejos relevantes sistematicamente, para garantir que possamos diagnosticar minuciosamente o motivo da falha na Fase 1. Essa análise abrangente nos permite 'causar a causa raiz' do problema e, assim, evitar reincidências no futuro.
  • Fase 3: em um nível alto, redefinimos o sistema operacional para um estado íntegro, com impacto mínimo no cliente para atenuar o problema do host. Durante esta fase, preservamos os estados de cada VM na RAM, após o que começamos a redefinir o sistema operacional para um estado íntegro. Enquanto o sistema operacional é redefinido rapidamente por baixo, a execução de aplicativos em todas as VMs hospedadas no servidor "congela" brevemente, pois a CPU é temporariamente suspensa. Essa experiência é semelhante a uma conexão de rede temporariamente perdida, mas retomada rapidamente devido à nova lógica. Depois que o sistema operacional é redefinido com êxito, as VMs consomem seu estado armazenado e retomam a atividade normal, evitando assim qualquer possível reinicialização da VM.

Com isso em mente, o Project Tardigrade garantirá que a falha de qualquer componente único no host não afete todo o sistema. Como tal, as VMs do cliente não serão afetadas por falhas do host.

A Microsoft está trabalhando duro para melhorar e expandir os diferentes cenários de falha do host para garantir que sua plataforma de computação em nuvem esteja mais confiável do que nunca.

Espere novos desenvolvimentos e outras implementações de confiabilidade no futuro próximo.

O projeto tardigrade protege seus vms contra falhas do host