Ufa! Esse fim de ano foi como rapadura: “Foi até doce, mas não estava mole não”. Pra terminar o ano eu tive um maravilhoso problema com o link de acesso a Internet lá do serviço. Que aliás não foi um problema só meu, já que diversas instituições do estado do RJ a qual eu tenho contato relataram estar fora do ar – isso exatamente na sexta-feira 28 de dezembro as 15h. Mas graças a Deus e a equipe de apoio lá da RedeRio quando eu cheguei em casa o problema já tinha sido resolvido me dando assim a oportunidade de enforcar o dia 31 e assim eu pude viajar “quase despreocupado” para bom descanso de 7 dias onde poderia recarregar as minhas baterias para mas um ano.
Para minha tristeza, não precisei mais de um dia para receber a primeira tentativa de telefonema (digo tentativa pois lá na área que estava o sinal de celular é qualificado entre ruim e péssimo e as informações que recebia ou era por SMS ou por mensagens na caixa postal que só podia ler quando estava em algumas regiões com sinal um pouco melhor).
A primeira notícia que recebi no ano de 2008 sobre o trabalho foi super-empolgante: “- Welington, está tudo parado aqui estou ‘rebootando’ todos os servidores.” No dia seguinte recebi outra quse tão boa quanto a primeira: “- Welington, as bases de dados estão fora do ar. Todos os sistemas estão parados.” No mesmo dia ainda, logo após o almoço: “- Welington, todos os no-breaks estão apitando… o que eu faço?”. E só pra não ficar de fora a principal que veio caprichada na sexta-feira 4/1: “- Welington, pelo amor de Deus atende esse telefone, estamos sem link com a Internet e a administração ainda está fechando vários relatórios que o prazo de entrega é até hoje!”
Pobre colega …. não podia ajudá-lo nem se quisesse! Ainda bem que ele foi inteligente e providenciou um meio alternativo para o pessoal fechar os relatórios. Não riam, mas a solução foi pegar uns notebooks com modem e discar via iG para que a administração conseguisse por meio desta conexão enviar os trabalhos, fazendo um revezamento para uso da Internet.
Bem, a sexta-feira passou e segunda-feira eu fui bem cedo para o trabalho. Ao entrar no CPD comecei a caçar os problemas. O primeiro foi o servidor de bases de dados que estava desligado, o problema com os no-breaks deve ter sido sério pois aquele bicho apesar de ser um “Supermicro” horrível e de péssima qualidade, pelo menos tem fonte redundante e ambas ligadas – obviamente em dois UPS distintos. Mas ainda assim ele não aguentou.
O segundo foi a questão com o link. Na realidade temos dois links, sendo um com fantásticos 128kbps, que faz a conexão de uma diretoria carinhosamente chamada de “escola” (talvez porque seja realmente uma escola 😉 e o outro, de 2mbps, que efetivamente nos liga a Internet a partir da RedeRio e para minha tristeza ambos os links estavam com problemas.
Os indicadores luminosos (led) dos equipamentos não deixavam dúvidas que era realmente problema na fibra ótica, mas aquelas fibras eram de responsabilidade da nossa queridíssima “Oi” e ai, lá fui eu as 8h da manhã ligar para o call-center corporativo. Pásmem, fui atendido por um atendente humano rapidamente, não deu nem pra curtir aquela “musiquinha” bacana de espera, a atendente foi super gentil e simpática, só não ofereceu cafezinho porque a xícara não passaria pelo telefone e após ouvir todas as minhas expicações, anotar quase tudo e registrar as solicitações me veio com o prazo de atendimento que seria até as 15:54 daquele dia! (Exatamente esse horário 15:54). Tudo bem … horário informado pelo sistema que calcula isso com base em uma estatística e ela como boa funcionária é obrigada a dizer isso… pra encurtar a história eu fui visitado por alguns técnicos durante toda a segunda e terça. Ou seja levaram dois dias para resolver o problemas, mas resolveram …. menos dois problemas e assim a quarta-feira poderia ser usada para análise de logs dos serviços, verificação de backups etc!
Na quarta-feira 9/1, já tinhamos dois problemas resolvidos, os backups estavam quase em dia e então nos deparamos com outro problema (os logs tiveram que ficar pra depois): O servidor de bases de dados – aquele que estava desligado na segunda-feira – estava com o processo do postmaster caindo com certa freqüência e sem explicação aparente.
Após alguns testes, reboots e telefonemas de várias pessoas querendo explicações sobre o que estava acontecendo pude dar um veredicto parcial. O problema era hardware; não tinha como ser software. O banco caia sempre que executava determinadas funções em uma base especifica, mas no log do postgreSQL não tinha nada que indicasse problemas no sistema lógico.
O veredicto final veio no dia seguinte, quinta-feira, quando pude realmente deixar o serviço fora do ar por mais de alguns minutos e testar os discos SCSI. Pra minha tristeza o disco que estava o sistema começou a apresentar badblocks e eu não podia deixar o sistema fora do ar muito tempo. Mesmo “capenga” ele teria que funcionar. Após uma tentativa frustrada de transferir todo o sistema para o segundo disco (por conta de não conseguir copiar o /dev – ainda vou aprender a fazer isso) acabei parando para analisar a situação e estudar uma saída que teria que ser implementada a partir do dia seguinte.
Na sexta-feira comecei criando um servidor virtual exclusivo só para o MySQL. Para tanto criar uma máquina via assistente do VMware (em breve, se Deus permitir, vou migrar tudo para o Xen), instalei o meu SO preferido para servidor (Debian Etch) e o MySQL 5.0. Como tenho mais a fazer além de ser babá de servidores, isso me consumiu todo o dia e então teria que recuperar os dumps desta base de dados no sábado e domingo – o que fiz a partir de casa com uma conexão SSH, via conexão banda-lerda da Claro 3g (isso é outra história).
Segunda-feira, 14/1. MySQL em dia, todos os sistemas que usam esta base funcionando e com uma sensível melhoria de performance, mesmo com este servidor virtualizado. Agora era vez do PostgreSQL.
Como o PostgreSQL é o nosso banco principal e possui umas aplicações cientificas que rodam consultas pesadas, até que eu consiga replicar esta base eu não posso colocar um servidor virtualizado em produção. Apesar da base ser relativamente pequena – cerca de 2GB – a performance não seria boa. Mas precisava testar se o dump de backup estava legal antes de qualquer coisa e para isso mas uma máquina virtualizada.
Esta nova máquina seria realmente para teste do dump e das configurações da nova base. Tudo perfeito, SO OK, PostgreSQL 8.1 com PostGIS OK.
Terça-feira – hoje – Tudo começou com os dumps restaurados nesse servidor virtual e o teste com algumas aplicações para confirmar se os dados estavam intactos. Testes feitos, tudo aprovado e agora era a vez do servidor real.
O servidor foi encerrado e após um boot com o CD do Debian o SO foi instalado no segundo HD juntamente com o PostgreSQL. Após umas otimizações e a restauração dos dumps das bases tudo estava no ar.
Ufa. Parece que tudo está resolvido, e finalmente o meu feliz ano novo poderá começar.
Vamos ver o que a quarta-feira me aguarda!
Fazendo uma busca geral p/poder contratar a Wel, vi a seu sereno desabafo. Sofro todos os dias no meu trabalho por causa da internet OI VELOX. IMAGINE O CAMINHÃO CARREGADO P/ENTREGA E PARÁ PORQUE A INTERNET ESTÁ FORA DO AR. EU NÃO CONSIGO ENVIAR A NOTA FISCAL. A RECLAMAÇÃO CAI TUDO SOBRE MIM. AGORA VOU JUDAR PARA A WEL. e vc. me chamou atenção. FELIZ ANO NOVO!
Nossa! Este post foi escrito no ano novo de 2008, já se foram 4 anos. Embora nem me lembrasse de tê-lo escrito, com algumas pequenas mudanças em uns números de versões e nomes de sistemas ele parece bastante atual … como a vida de um Sysadmin é repetitiva. 😀
Feliz ano novo para você, Maria do Carmo.