RTO y Continuidad de Negocio: Estrategias para la Resiliencia Empresarial
La continuidad empresarial es el estado en el que una empresa puede continuar sus operaciones durante errores, interrupciones o desastres. El planeamiento de la continuidad empresarial requiere identificar, comprender, clasificar y administrar riesgos. Para controlar o evitar completamente un impacto negativo en la continuidad empresarial, es importante crear de forma proactiva un plan de continuidad empresarial. Un plan de continuidad empresarial se basa en la evaluación de riesgos y en el desarrollo de métodos de control de esos riesgos a través de diversos enfoques.
En este artículo se definen y describen la continuidad empresarial y el planeamiento de la continuidad empresarial en términos de administración de riesgos mediante el diseño de alta disponibilidad y recuperación ante desastres. Es importante comprender y comunicar las expectativas empresariales y las consecuencias de los errores a las partes interesadas importantes, incluidas aquellas que diseñen, implementen y gestionen la carga de trabajo. Esas partes interesadas responden, entonces, compartiendo los costes que implica hacer realidad esa visión.
La Importancia de la Continuidad del Negocio
Las empresas pueden quedarse fuera de juego debido a un ciberataque, un ataque Ransomware, una catástrofe natural (como incendios o inundaciones) y, también, por errores humanos. Dado que estas catástrofes son a menudo inevitables, contar con una infraestructura de TI sólida y establecer tiempos de recuperación y objetivos puntuales y regulares es esencial para reforzar su recuperación.
Las organizaciones que no tienen planes de continuidad del negocio actualizados están en mayor riesgo que las que sí lo tienen. La continuidad del negocio es la idea de que una organización continuará sus operaciones a pesar de catástrofes, sucesos, actos nefastos u otras calamidades que interrumpan temporalmente el curso ordinario de los negocios.
Amenazas a la Continuidad del Negocio
- Interrupciones de energía
- Robo
- Servidores y unidades de disco duro dañadas
- Ciberataques y ransomware
- Tornados, terremotos y huracanes
- Errores humanos
- Problemas de red
- Errores de hardware
- Interrupción de la región
La planeación de continuidad empresarial no solo tiene en cuenta las características de resistencia de la propia plataforma en la nube, sino también las características de la aplicación. Por ejemplo, en un entorno en la nube es habitual que haya errores transitorios o anomalías, incluidas interrupciones breves de red, reinicios de equipos debido a parches, timeouts cuando un servicio está ocupado, etc.
Conceptos Clave en Continuidad Empresarial: RTO y RPO
Cuando se trata de la continuidad del negocio, destacan dos métricas clave: Objetivo de Punto de Recuperación (RPO) y Objetivo de Tiempo de Recuperación (RTO). Ambas métricas son esenciales para desarrollar estrategias efectivas de protección de datos y minimizar las interrupciones y la pérdida de datos durante eventos imprevistos.
Objetivo de Tiempo de Recuperación (RTO)
El objetivo de tiempo de recuperación (RTO) es la duración máxima del tiempo de inactividad aceptable en caso de desastre, donde el "tiempo de inactividad" se define según su especificación. El RTO indica el tiempo entre que ocurre el desastre y se recupera el sistema. Así la empresa tiene que determinar la rapidez con la que necesita recuperar su actividad.
El RTO representa la cantidad de tiempo que una aplicación puede estar fuera de servicio sin que suponga un daño significativo para una empresa y el tiempo que tarda el sistema en pasar de la pérdida a la recuperación. Este proceso de recuperación incluye los pasos que TI debe seguir para devolver la aplicación y sus datos a su estado anterior al desastre. Los RTO requieren que su departamento de TI clasifique primero las aplicaciones en función de su prioridad y del riesgo de pérdida de negocio.
Para aplicaciones de alta prioridad, un RTO se puede expresar con seguridad en segundos, siempre y cuando el departamento de TI haya invertido en servicios de migración tras error. Para su base de evaluación, los RTO representan las necesidades generales de su empresa y determinan cuánto tiempo puede sobrevivir su negocio sin infraestructura ni servicios informáticos.
🔥Que es el RTO y RPO 😱
Objetivo de Punto de Recuperación (RPO)
El objetivo de punto de recuperación (RPO) es la duración máxima de la pérdida de datos que es aceptable durante un desastre. El RPO define la frecuencia con la que se necesitan hacer copias de seguridad de los sistemas de una empresa. La periodicidad con la que se haga dicha tarea determinará el volumen de datos en riesgo de pérdida, por lo que la compañía tendrá que valorar la cantidad que considera tolerable perder en caso de un desastre.
El RPO de su empresa es la cantidad de datos que puede permitirse perder en un desastre y aún así recuperarse. Por ejemplo, si la copia se hace los viernes a las 15:00 h. y el desastre ocurre el viernes a las 13:00 h, la empresa tiene que asumir que todo lo que se ha hecho desde la última copia lo va a perder.
Nota: Aunque el RPO describe una cantidad de datos, se expresa en unidades de tiempo, no en unidades de almacenamiento. Esto se debe a que los datos se generan a un ritmo variable, por lo que no podemos predecir la cantidad exacta que se producirá.
RTO vs. RPO: La Principal Diferencia
La principal diferencia entre RPO y RTO radica en su propósito. El RTO respalda la continuidad del negocio, mientras que el RPO se centra en los datos. En otras palabras, el RTO protege el futuro. El RPO protege todos los datos que tu empresa ha recopilado hasta ahora.
El RPO se basa en respaldos, y la relación es directa: cuanto más frecuentes sean tus copias de seguridad, mejor será tu RPO y menos datos estarán en riesgo de perderse. Llamamos al RPO objetivo de punto de recuperación porque define el punto más reciente del respaldo de datos. Por ejemplo, un RPO de 0 exigiría que cada cambio en los datos se duplicara en tiempo real, eliminando discrepancias entre el respaldo y la producción.
En un mundo perfecto, el RTO y el RPO deberían ser siempre cero. Pero, siendo la vida como es, es poco probable que estas métricas estén a la altura de ese ideal. La realidad es que las empresas no quieren sufrir ningún tiempo de inactividad ni pérdida de datos.
El costo de lograr un OTR o OPR se corresponde con la priorización de aplicaciones y datos del departamento de TI. TI prioriza las aplicaciones y los datos en función de sus ingresos y de sus riesgos. Aunque los OTR y OPR varían en función de la prioridad de las aplicaciones y los datos, es increíblemente costoso para cualquier empresa ofrecer un OTR o OPR casi nulo para todas sus aplicaciones.
Planeamiento de la Continuidad Empresarial y Recuperación ante Desastres (BCDR)
La recuperación ante desastres y la continuidad del negocio (BCDR) se refiere a un proceso que ayuda a las organizaciones a volver a las operaciones comerciales normales si ocurre un desastre. La mayoría de las organizaciones dividen la planificación de la BCDR en dos procesos separados: la continuidad del negocio y la recuperación ante desastres.
La principal diferencia es que los Planes de Continuidad del Negocio (BCP) son proactivos y tienen como objetivo mantener las operaciones antes, durante e inmediatamente después de un desastre. Por otro lado, los Planes de Recuperación ante Desastres (DRP) son reactivos y se centran en cómo responder y recuperarse de un incidente.
Plan de Continuidad Empresarial (BCP)
Un plan de continuidad empresarial no solo tiene en cuenta las características de resistencia de la propia plataforma en la nube, sino también las características de la aplicación. Un BCP debe incluir el plan de recuperación ante desastres (RD), que, como su nombre indica, es un marco para recuperar los sistemas y, lo que es más importante, los datos tras una interrupción inesperada.
Para elaborar un BCP eficaz, primero debe comprender los distintos riesgos a los que se enfrenta su organización. El Análisis del Impacto Empresarial (BIA) es vital en la gestión de riesgos y la resiliencia empresarial. El BIA es el proceso de identificar y evaluar el impacto potencial de un desastre en las operaciones normales. Un BIA sólido incluye una visión general de todas las posibles amenazas y vulnerabilidades existentes (internas y externas) y planes detallados para mitigarlas.
Pasos para un BCP eficaz:
- Identificar riesgos y realizar un Análisis del Impacto Empresarial (BIA): Evaluar funciones como producción, atención al cliente, ventas y marketing y clasificarlas por orden de prioridad. Identificar a un gestor de la continuidad del negocio (BCM) y dejar claro que dicho profesional cuenta con el pleno apoyo de los altos dirigentes. Determina qué funciones y procesos son esenciales para la supervivencia de la organización, y comprende el impacto que tendrían si se interrumpieran.
- Planificar respuestas eficaces: Cuando haya completado su BIA, el siguiente paso en la creación de su BCP es planificar respuestas eficaces a cada una de las amenazas que ha identificado. Evaluar a los proveedores y proveedores de servicios clave por su adaptabilidad y flexibilidad.
- Definir roles y responsabilidades: Este paso dicta cómo responden los miembros clave de su equipo cuando se enfrentan a una crisis o evento disruptivo. Documenta las expectativas de cada miembro del equipo y también los recursos necesarios para que cumplan sus funciones.
- Pruebas y formación constantes: Para ser procesable, debe practicar y perfeccionar constantemente su plan de BCDR. Las pruebas y la formación constantes de los empleados conducen a una implementación fluida cuando se produce un desastre real. Es importante probar la capacidad de la solución de resistir las interrupciones y los errores que considere tener en el ámbito de la alta disponibilidad.
Los planes de continuidad del negocio son tan buenos como los hábitos de las personas que los utilizan. Aunque predecir una catástrofe real es casi imposible, es totalmente posible simular un acontecimiento disruptivo para que el personal pueda practicar las acciones que probablemente tendrán que desempeñar.
Plan de Recuperación ante Desastres (DRP)
Un plan de recuperación ante desastres (DRP) es un plan de acción detallado cuyo objetivo es evitar que se produzcan incidentes de seguridad y mitigar sus consecuencias si llegan a ocurrir. El DRP definitivo no solo proporciona un procedimiento para recuperar datos y sistemas en caso de desastre, sino que también incluye los objetivos de continuidad del negocio, enumera las herramientas y los planes que se han hecho para que la empresa funcione lo antes posible en caso de emergencia de TI y asegurando un traspaso eficiente de información.
Al igual que los BCP, los DRP requieren un BIA, es decir, la definición de funciones y responsabilidades, así como pruebas y perfeccionamiento constantes. Pero como los DRP son de naturaleza más reactiva, se centran más en el análisis de riesgos y en la copia de seguridad y la recuperación de los datos.
Pasos para configurar un DRP:
- Establecer objetivos: Definir el objetivo de RPO (cantidad máxima aceptable de pérdida de datos) y el objetivo de RTO (cantidad máxima de tiempo tolerable para que todos los sistemas críticos vuelvan a estar en línea). También se debe definir el Tiempo de Recuperación del Trabajo (WRT), que es la cantidad máxima de tiempo tolerable necesaria para verificar la integridad del sistema y los datos. La suma de RTO y WRT se define como el Tiempo de Inactividad Máximo Tolerable (MTD).
- Definir prioridades: No todos los sistemas y ubicaciones tienen las mismas prioridades en caso de un desastre. Es fundamental determinar qué es crítico y qué no, y establecer RPO, RTO, WRT y MTD de forma correcta para cada uno.
- Especificar la estrategia de respaldo y recuperación ante desastres: Se puede usar una estrategia diferente de respaldo y recuperación de desastres para cumplir con los requisitos del paso anterior, así como ajustarse a los presupuestos de TI. Hoy en día, todos los escenarios deben cumplir con el Artículo 32 del RGPD, lo que implica copias de seguridad automáticas y frecuentes, protegidas con contraseña, encriptadas, con una copia externa, verificación y pruebas regulares, y acceso restringido.
- Organizar la emergencia: El DRP debe incluir toda la información necesaria para que la empresa sepa qué se debe hacer en caso de desastre. Esto incluye documentación necesaria, credenciales del sistema y contraseñas de respaldo, así como copias digitales y físicas del DRP en múltiples ubicaciones seguras.
Tipos de Planes de Recuperación ante Desastres
- Plan de gestión de crisis: También conocido como plan de gestión de incidentes, es un plan detallado para gestionar un incidente específico.
- Plan de recuperación de un centro de datos: Se centra en la seguridad de las instalaciones de un centro de datos y en su capacidad para volver a funcionar después de un incidente no planificado.
- Planes de recuperación de red: Ayudan a las organizaciones a recuperarse de una interrupción de los servicios de red, incluido el acceso a Internet, los datos móviles, las redes de área local y las redes de área amplia.
- Plan de recuperación virtualizado: Se basa en instancias de máquinas virtuales (VM) que pueden estar listas para funcionar un par de minutos después de una interrupción.
Alta Disponibilidad y Recuperación ante Desastres en la Nube
La alta disponibilidad es el estado en el que una carga de trabajo específica puede mantener su nivel de tiempo de actividad necesario día a día, incluso durante errores transitorios y errores intermitentes. Muchos servicios Azure están diseñados para ser de alta disponibilidad y se pueden usar para crear cargas de trabajo de alta disponibilidad.
El hecho de que una solución en la nube no esté disponible o experimente un problema grave puede afectar gravemente a las operaciones comerciales. Revise los acuerdos de nivel de servicio (SLA) de cada servicio para comprender los niveles de disponibilidad esperados y las condiciones que necesita cumplir.
Elementos de Diseño para Alta Disponibilidad
- Tolerancia a errores: La capacidad de un sistema de seguir funcionando, en alguna capacidad definida, en caso de error. Requiere que las aplicaciones gestionen errores transitorios.
- Escalabilidad y elasticidad: Las capacidades de un sistema para controlar la mayor carga mediante la adición y eliminación de recursos (escalabilidad) y para hacerlo rápidamente a medida que cambian los requisitos (elasticidad).
- Implementación sin tiempo de inactividad: Los enfoques de implementación sin tiempo de inactividad para nuestros propios servicios también se deben usar para los cambios de configuración.
- Ingeniería de caos: Probar la capacidad de la solución para tolerar o recuperarse automáticamente de una variedad de tipos de errores. Es fundamental para las organizaciones maduras con estrictos estándares para la alta disponibilidad.
- Supervisión: Le permite conocer el estado del sistema, incluso cuando se realizan mitigaciones automatizadas. Es fundamental para comprender cómo se comporta la solución y para observar las señales tempranas de errores.
Recuperación ante Desastres en la Nube
Un desastre es un evento distinto, poco común e importante que tiene un impacto mayor y más duradero que el que una aplicación puede mitigar a través del aspecto de alta disponibilidad de su diseño. Muchas organizaciones aceptan el hecho de que, en un escenario de desastre, cierto nivel de tiempo de inactividad o pérdida de datos es inevitable.
DR (recuperación ante desastres) no es una característica automática de Azure. Sin embargo, muchos servicios proporcionan características y funcionalidades que puede usar para admitir las estrategias de recuperación ante desastres.
Estrategias de Recuperación ante Desastres
- Aprovisionamiento de implementación secundaria: Algunos planes de recuperación ante desastres implican el aprovisionamiento de una implementación secundaria en otra ubicación. Si un desastre afecta a la implementación principal de la solución, el tráfico se puede conmutar por error al otro sitio.
- Copias de seguridad: Implican realizar una copia de los datos y almacenarlos de forma segura durante un período de tiempo definido. Deben almacenarse por separado en los datos principales.
- Implementaciones piloto: En la computación en nube, los sitios secundarios o las copias de las cargas de trabajo corporativas pueden ser tan pequeños como una sola máquina virtual (VM) o contenedor. En caso de conmutación por error, esa única máquina virtual o contenedor puede, si es necesario, poner en marcha un proceso automatizado que permita a la organización poner en marcha el resto de la infraestructura.
- Arquitectura "azul-verde": En lugar de tener de cuatro a seis entornos redundantes para el desarrollo y las pruebas y otro distinto para la implementación en producción, una organización implementa solo dos entornos redundantes y distribuidos. Digamos que el entorno "azul" es la producción y el "verde" es el desarrollo y las pruebas. Cuando finaliza el desarrollo, el entorno «verde» se convierte en el entorno de producción principal, y el entorno «azul» se utiliza para el desarrollo, las pruebas y la recuperación ante desastres.
Las expectativas de continuidad del negocio han cambiado a medida que ha evolucionado el panorama tecnológico. La nube es clave de una estrategia de continuidad empresarial eficaz y rentable.
Optimización de RPO y RTO
Para mejorar sus métricas de RTO y RPO, considere las siguientes estrategias:
- Programa copias de seguridad con frecuencia: La regla es simple: cuanto más frecuentes sean tus copias de seguridad, mejor será tu RPO.
- Aprovecha la redundancia: Azure Storage proporciona alta disponibilidad mediante la replicación automática de datos al menos tres veces.
- Sigue un esquema de replicación de datos: Para los sistemas críticos, es recomendable un RPO de 15 minutos para un buen compromiso entre la carga del sistema y el tiempo de procesamiento.
- Pruebas y validación: Practíquelo con regularidad y actualícelo en función de los cambios significativos que sean necesarios. Los RTO no reemplazan las pruebas y la medición.
- Recuperación basada en prioridades: Clasificar las cargas de trabajo en diferentes niveles de importancia crítica en función de su importancia para la empresa.
- Automatización: Es importante automatizar al máximo las operaciones de recuperación, permitiendo que los interesados y los colaboradores se centren en el plan general de continuidad del negocio.
- Almacenamiento fuera de las instalaciones: Cuando se usan copias de seguridad como parte de un plan de recuperación ante desastres, deben almacenarse por separado en los datos principales.
Soluciones de Protección de Datos
HYCU simplifica la consecución de sus objetivos de RPO y RTO con un enfoque de la protección de datos basado en políticas. Su interfaz intuitiva y sus flujos de trabajo automatizados facilitan la definición y el cumplimiento de los objetivos de recuperación en toda su organización. HYCU le permite establecer políticas de recuperación adaptadas a las prioridades de su empresa.
Con la supervisión integrada, los informes y las alertas en tiempo real, HYCU R-Cloud asegura que sus objetivos de recuperación se alinean con los SLA. HYCU proporciona informes detallados de recuperación, lo que le permite verificar que los datos pueden ser restaurados dentro del RTO requerido. HYCU es el único proveedor de protección de datos que supervisa constantemente el RTO de sus copias de seguridad, proporcionando notificaciones en tiempo real si su RTO se sale de la Política aceptable configurada.
La programación inteligente y automática del RPO se incluye con HYCU R-Cloud. Basta con decirle a HYCU R-Cloud qué RPO necesita cada aplicación y R-Cloud se asegurará de que sus datos estén protegidos dentro del SLA dado. No se requieren complejos calendarios ni gestión del rendimiento.
Las avanzadas capacidades de recuperación de HYCU garantizan que los datos puedan restaurarse de forma rápida y fiable, minimizando el tiempo de inactividad y la pérdida de datos. La mayoría de los proveedores tienen la capacidad de personalizar y establecer RPO - esto no es nuevo en la industria, proveedores como Veeam, Commvault, Rubrik y Cohesity todos tienen este conjunto de características.
Donde HYCU destaca entre la multitud es en su inteligencia y simplicidad combinadas, tradicionalmente con otros proveedores, usted necesitará establecer una política, luego establecer un horario para alinear esta política con su RPO deseado - por ejemplo una vez al día para un RPO de 24 horas. Esto está bien a pequeña escala, sin embargo, cuando tiene necesidades a escala, gestionar cientos, si no miles, de políticas programadas a través de un calendario puede ser casi imposible.
Otro ejemplo de solución avanzada es Oracle Cloud Infrastructure Full Stack Disaster Recovery. OCI Full Stack Disaster Recovery organiza la transición de recursos informáticos, bases de datos y aplicaciones entre regiones de OCI de todo el mundo con un solo clic.
