Administracion y Centros de Computo Informaticos: 2012

Por:

Guillermo Ernesto Canales Mancia

Kenny Guadalupe Marroquín Paniagua

En la actualidad todas las empresas protegen su información de muchas maneras, una de las más comunes es almacenarlas en la nube, por su facilidad de acceso, la capacidad de administración y por qué es uno de los medios mas económicos que existen, hay otro sin fin de opciones como los RAID (hace referencia a un sistema de almacenamiento que usan múltiples discos duros o SSD entre los que se distribuyen o replican los datos), los Backups de información, las configuraciones de alta disponibilidad. Pero, cualquiera que sea el medio de protección que se utilice para no perder información importante, puede verse afectada por cualquier desastre ya sea natural o causado por la mano del hombre...

Un desastre se define como una interrupción prolongada de aplicaciones y datos importantes debido a la falta de capacidad de la red o equipo de procesamiento. Por lo tanto, la definición de un desastre que un administrador debe tener en mente, es cualquier evento no planeado que pueda interrumpir la operación normal de la organización.

Los desastres están a la orden del día, por eso las empresas deben mantener un plan emergente ante las amenazas de un desastre con el objetivo de que si sucede algún percance podamos solucionarlo lo mas rápido posible. La planificación implica configurar un sitio remoto en espera de que puede hacerse cargo de aplicaciones y operaciones importantes dentro de un plazo razonable, si ocurre un desastre.

Un buen plan de Recuperación es una meta difícil de alcanzar. El principal obstáculo que surge es el hecho de que no se sabe muy bien qué catástrofes está planeando. Sin embargo se debe estar listo para responder rápidamente ante los problemas y recuperarse del desastre. Además se debe determinar el tiempo de inactividad permitido para el proceso de recuperación. Un plan bien diseñado salva su negocio de un desastre inminente.

La planificación para desastres es fácil de olvidar para un administrador de sistemas, con tanto trabajo y presión no es agradable y siempre pareciera que hay algo más importante que hacer. Sin embargo, dejar pasar la planificación para desastres es una de las peores cosas que un administrador de sistemas puede hacer. Si nos vemos afectados por cualquier fallo el tiempo de trabajo se detiene..

El tiempo de inactividad es caro y esto a consecuencia de:

Ventas perdidas
El costo de tiempo y materiales para reparaciones de hardware
Reducción de reputación de servicio al cliente y la fiabilidad
La pérdida de la buena voluntad y reputación entre los clientes
empleados inactivos y pérdida de productividad

Si se compara el costo de la inactividad con la de su protección de los datos, el costo de la protección de datos no parece caro.

Son muchos los desastres que pueden ocurrir en un centro de datos los más comunes son:

Los desastres ocurridos dentro de un data center pueden ser a causas naturales o artificiales, si bien hay algunas que no se pueden evitar pero si se pueden crear medidas preventivas para evitar daños mayores, entre estas causas tenemos:

Fallas ambientales:

Los problemas pueden ocurrir aun cuando el hardware se está ejecutando perfectamente y aunque el software esté configurado de la forma adecuada. Los problemas más importantes que ocurren fuera del sistema mismo tienen que ver con el ambiente físico en el cual reside el sistema.

Los problemas ambientales se pueden desglosar en cuatro categorías:

Integridad del edificio
Electricidad
Aire acondicionado
Cortes de energía en tiempo prolongados
Ataques terroristas

Tiempo y el mundo exterior:

Lluvias
Incendios
Terremotos

Los desastres naturales no se pueden evitar pero si se pueden crear medidas preventivas para evitar perdidas.

Fallas de Hardware

Es fácil identificar Cuando falla el hardware pues el trabajo se detiene, lo que es difícil es determinar cual fue la causa del problema, este tipo de fallas suelen ser de los mas caros en las empresas pues la solución debe ser pronta y adecuada.

Este tipo de falla es la que mas se debe prever, algunas de las soluciones pueden ser:

1. Mantener partes adicionales de hardware

En este caso es importante tener el repuesto del hardware que se requiere, para ello el administrador debe tener la habilidad de planificar el tipo de hardware que debe mantener para casos de emergencia, este tipo de soluciones requiere dos cosas:

· Alguien está en el sitio con suficientes habilidades para diagnosticar el problema, identificar la parte defectuosa y remplazarla.

Está disponible un repuesto para el hardware defectuoso.

Estas habilidades se obtienen con la experiencia de haber trabajado con hardware con anterioridad.

Mantener hardware almacenado es algo muy delicado pues deben considerarse ciertos factores entre ellos:

Tiempo máximo permitido fuera de servicio
La habilidad requerida para hacer la reparación
El presupuesto disponible para los repuestos
Espacio de almacenamiento requerido para los repuestos
Otro hardware que podría utilizar el mismo repuesto

Todo debe estar bien planificado para no incurrir en gastos innecesarios a la empresa, evitando q la solución prevista sea mas cara que el desastre mismo. Debe considerarse el tipo de repuesto, la ventaja de mantener ese repuesto, las condiciones en que debe mantenerse y si en realidad será efectivo.

1. Contratos de servicios

Los contratos de servicios pasan el problema de las fallas de hardware a alguien más. Lo único que necesita hacer es confirmar que ha ocurrido una falla y que no parece estar relacionado a un problema de software. Simplemente hace la llamada y alguien más aparece para encargarse de que las cosas estén en funcionamiento otra vez

Parece muy simple. Pero hay cosas que se deben considerar para utilizar este tipo de solución

Horas de cobertura
Tiempo de respuesta
Partes disponibles
Presupuesto disponible
Hardware cubierto

Tomando en cuenta que los centros de datos trabajan las 24 horas del día, los 7 días de la semana, las fallas pueden ocurrir en cualquier momento y el resultado puede ser menor si se resuelve inmediatamente por tanto se necesita un servicio emergente que brinden asistencia a cualquier hora. Un servicio de este tipo es casi imposible a menos que este dispuesto a pagar bien. Saldría carísimo, la mayoría de las empresas que brindan este servicio tienen horarios que cumplir, si quiere resultados oportunos usted deberá brindar un poquito de trabajo. Además se debe considerar el tiempo que tardaran en presentarse luego de su llamada.

Fallas de software

Las fallas de software pueden ocurrir en dos maneras:

1. Fallas de sistemas operativos:

En este tipo de fallas el sistema operativo es el responsable de la suspensión de servicio y puede deberse a: caídas del sistema Colgarse o bloquearse Este tipo de fallas puede ser devastadora para la producción,

2. Fallas de aplicaciones:

A diferencia de las fallas del sistema, las fallas de las aplicaciones pueden ser más limitadas en el ámbito de lo que dañan. Dependiendo de la aplicación específica, una sola aplicación que esté fallando puede afectar solamente a un usuario. Por otro lado, si se trata de una aplicación de servidor que está sirviendo a una gran población de aplicaciones clientes, las consecuencias de la falla serían mucho más extensas.

Las fallas de las aplicaciones, igual que otras fallas del sistema, pueden ser causadas por caídas o bloqueos; la única diferencia es que aquí es la aplicación la que se está guindando o fallando.

Ante los problemas de software la herramienta de primer nivel para la solución de este problema es la documentación, ya que tienen la información necesaria para resolver muchos problemas.

Errores humanos.

Las computadoras son realmente perfectas. La razón detrás de esta afirmación es que si usted profundiza lo suficiente, detrás de cada error computacional encontrará el error humano que lo causó. En esta sección se exploran los tipos de errores humanos más comunes y sus impactos.

Cuando las aplicaciones son usadas inapropiadamente, pueden ocurrir varios problemas:

Archivos sobrescritos inadvertidamente
Datos incorrectos utilizados como entrada a una aplicación
Archivos no claramente nombrados u organizados
Archivos borrados accidentalmente

Todo esto puede ser causa de no seguir con los procedimientos establecidos, o se realizan los errores durante estos procedimientos, es decir puede ser causa de descuidos durante la ejecución de los procesos

Los administradores de sistemas ven el resultado de estos errores a diario, especialmente de los usuarios que juran que no cambiaron nada, simplemente la computadora dejo de funcionar. El usuario que afirma esto usualmente no recuerda qué fue lo que hizo.

Errores cometidos durante el mantenimiento

Ud. debe ser capaz de recordar los cambios que realizó durante un mantenimiento si quiere ser capaz de resolver los problemas rápidamente. Un verdadero proceso del control del cambio no es realístico para los cientos de cosas que se hacen durante un día. ¿Qué se puede hacer para seguir las 101 cosas que un administrador de sistemas realiza diariamente?

La respuesta es simple, tome notas.

Errores de Servicio Técnico

En ocasiones las personas que se cree deberían ayudar a mantener sus sistemas funcionando, son los que complican más las cosas. Y es por el hecho de que cualquiera que esté trabajando en una tecnología por alguna razón, arriesga el hacer esa tecnología inoperable. El mismo efecto es en el trabajo cuando los programadores reparan un fallo pero terminan creando otro.

Hardware reparado incorrectamente

En este caso, el técnico falló en diagnosticar el problema correctamente y realizó una reparación innecesaria o el diagnóstico fue correcto, pero la reparación realizada no se llevó a cabo bien. Puede ser que la parte misma remplazada estaba defectuosa, o que no se siguió el procedimiento adecuado cuando se realizó la reparación.

Reparar una cosa y dañar otra

Aunque el diagnostico haya sido el correcto en muchas ocasiones cuando se repara algo no se tiene el cuidad y se daña otra, esto a consecuencia de que no era el adecuado, hay incompatibilidad de hardware o software o simplemente fue un descuido, por tanto antes que el técnico se retire se debe verificar que todo este funcionando correctamente.

Creación, Evaluación e Implementación de un Plan de Recuperación de Desastres

Planear como recuperar los datos puede ser una tarea difícil, los desastres pueden dejar una huella imborrable si no se toman las medidas necesarias para salir de ese problema.

La recuperación de desastres es la habilidad de recuperarse de un evento que impacta el funcionamiento del centro de datos de su organización lo más rápido y completo posible. El tipo de desastre puede variar, pero el objetivo final es siempre el mismo.

Los centros de datos siempre deben tener una copia de seguridad y respaldo, estos con un documento detallado de que hacer en casos de desastres, este puede ser vital para la recuperación del data center.

Para planear como recuperarse de un desastre puede seguir las siguientes fases, el resultado dependerá de la gravedad del asunto:

1. Definir Costos:

Esto es más fácil decirlo que hacerlo. Todo el mundo aprecia la necesidad de un plan de recuperación de datos, pero los beneficios se obtienen sólo durante un desastre. ¿Y, si no ocurre el desastre? Todo el dinero empleado sería en vano. La gente va a señalar que muchas de esas causas a ellos no les afectaran. El segundo problema es que un plan de recuperación de desastres por lo general no parece tan urgente.

Usted debe tomar un enfoque diferente. Vender un programa de recuperación de desastres seria como vender seguros de vida. La mayoría de las personas tienen un seguro de vida, ya que les da tranquilidad saber que si algo llegara a suceder su familia no estaría en problemas financieros.

Si su negocio tiene un desastre y se enfrenta a tiempos de inactividad inesperado, su empresa puede utilizar el plan de recuperación de desastres para recuperar rápidamente aplicaciones de y servicios vitales, evitando así el alto costo asociado con el tiempo de inactividad.

Esto nos lleva a la segunda razón por qué las grandes empresas a nivel mundial necesitan un Plan de recuperación de desastres.

Al determinar el costo por hora de tiempo de inactividad, las empresas consideran varias cosas como la pérdida de productividad de los empleados, pérdida de ventas, el costo de tratar de volver a crear los datos, y la confianza del cliente. Comparar la estimación de costo del tiempo de inactividad y los costos de la implementación de un plan de recuperación de desastre. Es muy probable que el costo del tiempo de inactividad sea mucho mayor que el coste de la protección de los datos.

Para la aprobación de este plan La alta dirección debe sentirse comprendido. Su solución debe abordar estas preocupaciones:

La recuperación de desastres es importante, pero ¿quién lo hará? Se trata de un programa que no genera ingresos.
¿Cuánto costará?
Será suficiente un plan de recuperación de desastres?

Estas preocupaciones no hacen más fácil la planificación, pero una vez se obtiene la aprobación esta listo para la siguiente fase.

Fase 2: Evaluación de Riesgos y Medio Ambiente Existente

Planear cómo va a recuperarse de un desastre puede parecer una enorme trabajo para llevarlo a cabo, ya que debe cubrir no sólo el ambiente cliente-servidor, sino también todo el negocio. Esto incluye redes de área local, conexión a Internet, recuperación del grupo de trabajo, las telecomunicaciones y la red de escritorio. Su red de TI está dispersa en toda la organización. En los primeros días de la computación, la recuperación de desastres fue la planificación de sistemas informáticos, pero ahora ya no se puede separar del negocio.

Debe realizar una lista de los desastres a los que puede ser susceptible como terremotos, incendios, virus, hackers, errores del operador, empleados, hardware o software, y los desastres naturales. Estos son los que debería recibir más atención. Una vez finalizada la lista deberá asignar el impacto de los desastres para el negocio y operaciones.

Identificar las áreas de negocio que sufriría el mayor daño financiero en caso de un desastre. Por último, reunir un equipo y asignar responsabilidades a cada miembro.

Fase 3: Crear Procedimientos para la recuperación de desastres

En esta fase, se establecerá el procedimiento actual para las secuelas de un desastre. Esta fase se llevará la mayor parte del trabajo y del tiempo. El procedimiento debe documentar cómo hacer frente a los diferentes errores que pueden devastar la infraestructura de TI(Tales como la pérdida completa de los servidores, los datos, routers, puentes, comunicación

Enlaces, etc.) .

Al buscar la manera de hacer frente a estas pérdidas, se dará cuenta de que hay soluciones alternativas. La configuración actual no puede tener derechos de emisión por fallas en el sitio o un corte completo de la configuración. Antes de determinar y documentar un proceso de recuperación de desastres, debe rediseñar las configuraciones que no tienen redundancia.

También debe crear una lista de comprobación para verificar si todo ha sido restaurado a su estado normal.

Al final, el plan de recuperación de desastres debe ser completo, integral y actual. Por "Completo", se refiere a que debe ser lo suficientemente detallada para incluir cada etapa de recuperación.

En momentos de estrés, y cuando las personas encargadas no están presentes, debe servir como un paso a paso de cómo hacerlo. Debe ser integral e incluir todos los elementos dentro del centro de datos y por fuera, todos los componentes críticos, y todas las unidades de negocio.

Fase 4: Prueba de los procedimientos

La prueba es la forma más práctica de encontrar fallas en el programa de recuperación de desastres debe resolver antes de que ocurra un desastre. Todo queda en ridículo si su programa de recuperación de desastres no funcionó cuando se necesitaba. Sin embargo, las pruebas de un plan de recuperación de desastres es caro. Los efectos se han generalizado y se necesita tiempo para todos, pero es la única manera de descubrir los defectos y asegurarse de que funcionara cuando se necesite.

Hay varios requisitos previos para una prueba. En primer lugar, elaborar un plan de pruebas y decidir la frecuencia de las pruebas. Esto depende de la rotación de personal y técnicos, cambios en el procedimiento de recuperación de desastres, el sistema y la red. Es difícil o imposibles recrear un verdadero desastre. Estos actos pueden ser peligrosos para s el bienestar de los trabajadores. Si se Decide sobre un simulacro de desastre que no perjudique a nadie. Deberá ser notificada. No es necesario informar a todos de la próxima prueba. Sólo algunos supervisores, gerentes y ejecutivos de la compañía necesitaran saber, ya que el elemento de la sorpresa está más cerca de la realidad. Pero los que saben deberán controlar el estrés emocional, los conflictos y el caos. Finalmente idear una manera de medir el éxito de cada prueba.

Fase 5: Ajustar su plan de recuperación de desastres a cambios y Los avances tecnológicos.

Los sistemas operativos, dispositivos de red, configuración, aplicaciones y otros tecnologías siempre cambian. El plan de recuperación debe mantenerse al día con estos cambios.

Habrá nuevos servidores y aplicaciones añadidas al plan recuperación de desastres. Sea consciente de las últimas tendencias tecnológicas, especialmente aquellas que aumentan la eficiencia de los procedimientos. El tiempo para recuperarse de un desastre es fundamental.

Para establecer lo que se debe hacer en caso de desastres, Los documentos deben ser lo suficientemente simple para que un empleado nuevo pueda comprender y actuar como se debe.

El diseño de una arquitectura tolerante a desastres debe tomar varias medidas para asegurar que los diferentes aspectos de su negocio están protegidos.

Un sitio de respaldo es vital, sin embargo es inútil sin un plan de recuperación de desastres. Un plan de recuperación de desastres indica cada faceta del proceso de recuperación, incluyendo (pero no limitado) a:

Los eventos que denotan posibles desastres
Las personas en la organización que tienen la autoridad para declarar un desastre y por ende, colocar el plan en efecto
La secuencia de eventos necesaria para preparar el sitio de respaldo una vez que se ha declarado un desastre
Los papeles y responsabilidades de todo el personal clave con respecto a llevar a cabo el plan
Un inventario del hardware necesario y del software requerido para restaurar la producción
Un plan listando el personal a cubrir el sitio de respaldo, incluyendo un horario de rotación para soportar las operaciones continuas sin quemar a los miembros del equipo de desastres
La secuencia de eventos necesaria para mover las operaciones desde el sitio de respaldo al nuevo/restaurado centro de datos

Regreso a la normalidad

Eventualmente todos los desastres terminan. El plan de recuperación de desastres debe tomar en cuenta esta fase también. El nuevo centro de datos debe ser equipado con todo el software y hardware necesario; mientras que esta fase a menudo no tiene la naturaleza crítica de las preparaciones efectuadas cuando se declaró inicialmente el desastre, los sitios de respaldo cuestan dinero cada día que son utilizados, por lo que las preocupaciones económicas dictarán que el cambio se lleve a cabo lo más pronto posible.

Se deben hacer y entregar los últimos respaldos desde el sitio de respaldo al nuevo centro de datos. Después de almacenarlos en el nuevo hardware, se puede reactivar la producción en el nuevo centro de datos.

En este punto se puede desarmar el centro de datos de respaldo, con la sección final del plan indicando la disposición de todo el hardware temporal. Finalmente, se hace una revisión de la efectividad del plan, integrando cualquier cambio recomendado por el comité de revisión en una versión actualizada del plan.

Referencia

http://www.catrian.com/backupdes.html

http://alphatire.wikispaces.com/file/view/AuditoriaDataCenterRespaldosContinuidad20111G08.pdf

Administracion y Centros de Computo Informaticos

martes, 20 de noviembre de 2012

RECUPERACION DE DESASTRES

Creación, Evaluación e Implementación de un Plan de Recuperación de Desastres

Regreso a la normalidad