domingo, 1 de abril de 2012

Inseguridad de la información: Asegurar el 99,9% y sobrevivir al 0,1%


Introducción
¿Qué se siente cuando no hay correo electrónico? ¿Qué pasa cuando vas a un banco y te dicen que el sistema ha fallado o no hay línea? ¿Qué sientes cuando no hay internet? Son situaciones donde inmediatamente viene a nuestra mente la pregunta ¿qué pasa con el área de tecnología?, ¿no tienen todo controlado? Pues bien, es importante anotar, que no existe riesgo cero y por tanto la materialización de un evento que genere no disponibilidad será tan relevante como la forma en que mantenemos monitoreo, aseguramiento y verificación de las variables mínimas que nos permitan conocer el umbral de falla que se puede materializar.

En este sentido, cuando experimentamos las “caídas” de un servicio, entendemos que son máquinas las que están detrás de la magia, así como un conjunto de personas y sistemas de monitoreo que son capaces de verificar su funcionamiento y en algunas ocasiones, dependiendo de la formalidad de su operación, establecer pronósticos que permitan anticiparse a posibles fallas que puedan afectar la percepción del tercero frente al consumo de los servicios.

En este sentido, las palabras disponibilidad y continuidad se convierten en parte natural de la planeación de la operación y supervivencia de una empresa, particularmente de aquella que es consciente de que se encuentra en un escenario inestable y que debe estar preparada para brindar el máximo de operación continua con el mínimo de interrupciones, así como parar analizar las condiciones límites de trabajo para aplicar los procedimientos necesarios cuando un desastre o falla total ocurre.

Así las cosas, las empresas en la actualidad, asistiendo al escenario de una operación compartida e integrada con terceros, deben considerar tanto la disponibilidad como la continuidad como elementos naturales de su contratación y responsabilidad con sus clientes, de tal forma que se vaya fortaleciendo la capacidad de recuperación de la infraestructura tecnológica, como base para proteger el valor de la empresa.

En consecuencia, al estar expuestos a fallas de múltiples tipos y condiciones, las organizaciones deben desarrollar no sólo buenas prácticas asociadas con la disponibilidad y la continuidad, sino iniciar el camino de la resiliencia estratégica, como aquella capacidad de convertir las amenazas tanto internas como externas en oportunidades, antes que éstas se conviertan en condiciones insuperables para las organizaciones. (VALIKANGAS, L. 2010, pág.20)

Disponibilidad
De acuerdo con JAYASWAL (2006, pág.6) la disponibilidad es la porción de tiempo en que una aplicación o servicio está en operación para los clientes internos o externos, soportando su trabajo productivo. Mientras más resistente sea el servicio o aplicación frente a las fallas parciales o totales, mayor será su disponibilidad.

Es natural que los usuarios o clientes, quieran que los servicios que utilizan estén disponibles en cada momento, lo que se denomina operación ininterrumpida, sin embargo existen riesgos inherentes a la infraestructura que la soporta que, por más esfuerzos que se adelanten, siempre serán susceptibles de fallas que limiten el uso del servicio o aplicación, generando lo que en la literatura se conoce como downtime o tiempo de inactividad.

En este contexto, se ha acuñado una serie de consideraciones técnicas que ilustran con claridad lo que significa la disponibilidad en términos porcentuales, donde se establecen los porcentajes de tiempos de inactividad, sus valores en términos de días, horas, minutos o segundos, que permiten observar las exigencias que establecen estas métricas para dar cumplimiento con los umbrales de inactividad previstos en cada uno de ellos, bien sean planeados o no.

Porcentaje tiempo de actividad
Tipo disponibilidad
Porcentaje tiempo de inactividad
Inactividad por año
Inactividad por mes
98%
Disponibilidad base
2%
7,3 días
14 horas 36 minutos
99%
Disponibilidad normal
1%
3,65 días
7 horas 18 minutos
99.9%
Alta disponibilidad
0,1%
8 horas 45 minutos
43 minutos 45 segundos
99.99%
Resiliente a fallas
0,01%
52,5 minutos
4 minutos 22 segundos
99.999%
Tolerante a fallas
0,001%
5,25 minutos
26 segundos
100%
Procesamiento continuo
0
0
0
(Adaptado de: JAYASWAL, K. 2006, pág.6 y MARQUIS 2006)

La tabla anterior nos manifiesta que si queremos una operación ininterrumpida o procesamiento continuo se requiere una operación altamente formal, basada en un monitoreo y verificación permanente que más allá de una falla, la infraestructura definida sea lo suficientemente redundante, activa y autoprotegida, de tal forma que no se presente la percepción de inactividad por parte del cliente.

Llegar a una condición como la anterior, es un ejercicio de cero tolerancia al error bien sea humano, de hardware, software o ambiente, que demanda una “perfección” en la gestión de las variables de operación, que raya en una preparación permanente para la falla y la forma como en el mismo instante se toma control y acción para mitigar los efectos de la misma.

Un sistema como el comentado exige mayor inversión en infraestructura, software y aseguramiento de sus componentes, que necesariamente genera mayor exposición a las fallas, dado que igualmente es tecnología y está expuesta a que existan condiciones de operación límite, que impacte el desempeño de la misma. Así las cosas, estamos ante una contradicción de la disponibilidad: queremos una operación perfecta, que está soportada en infraestructura diseñada y construida por seres imperfectos.

Continuidad
En razón con lo anterior y sabiendo que estamos expuestos a riesgos, las organizaciones deben considerar su supervivencia, aún en condiciones extremas, de tal forma que puedan ser viables en el mediano y largo plazo. De acuerdo con SHOEMAKER y COKLIN (2012) la administración de la continuidad de una organización consiste en desarrollar y asegurar un proceso que permita que los elementos críticos de ésta, representados en sus activos de información y capacidades de procesamiento, se mantengan aún cuando exista un desastre o condición adversa.   

Lo anterior necesariamente implica, asegurar los roles y responsabilidades de las personas que participan en este proceso, su adecuado entrenamiento y capacitación, de tal forma que puedan actuar conforme lo que está previsto en los procedimientos y así recuperar las funciones operacionales de la empresa, tanto desde la perspectiva informática como de las actividades de negocio. Generalmente los ambientes de continuidad están asociados con operación en sitios alternos, los cuales deben ser conocidos y mantenidos en óptimas condiciones para albergar la operación de la empresa cuando sea necesario.

Los análisis del nivel de madurez de la continuidad de una empresa están asociados con las capacidades de recuperación que ésta debe desarrollar, cuando se materializa un escenario de falla total que exija a la función de negocio dejar de operar en un contexto y reiniciar sus actividades en otro, sin perjuicio de los impactos que se puedan presentar sobre las infraestructura que lo soporta, los cuales deberán estar considerados dentro de los escenarios de falla que se hayan previsto.

Es claro que el factor crítico de éxito de la continuidad es la preparación, razón por la cual las estrategias y la planeación son elementos fundamentales para asegurar dicho proceso. Si bien no podemos predecir los eventos de falla total que nos puedan ocurrir, si podemos anticipar nuestras acciones y pruebas que nos faciliten actuar de manera natural ante eventos inesperados y devastadores. Muchos de los accidentes o condiciones inseguras durante momentos de crisis, se presentan por la falta de preparación y práctica sistemática de procedimientos, que no habilitan a las personas para actuar conforme lo que se requiere, sino que se dejan llevar por lo que la situación les demanda.

El 11 de septiembre de 2001, quedó claro que la disponibilidad de los servicios basada en ambientes altamente automatizados y asegurados, no fue suficiente para soportar las condiciones inesperadas de un ataque totalmente atípico hasta el momento. Así mismo, se probó de manera extrema que la continuidad frente a circunstancias extremas, con coordinaciones con otros entes de apoyo, aún requiere práctica sistemática aplicada, que permita una recuperación más efectiva y con menos improvisación.

Resiliencia
Define JAYASWAL (2006, pág 17) que la resiliencia o resiliency (en inglés) es una propiedad de un componente que le permite a éste continuar funcionando total o parcialmente luego de una o muchas fallas. Es decir, tendremos mayor resiliencia en la medida que los componentes estén habilitados para detectar y compensar rápidamente las fallas identificadas.

Desde el punto de vista de negocio, VALIKANGAS (2010) entiende la resiliencia como la capacidad que tiene una organización de beneficiarse de eventos inesperados, los cuales pueden contener riesgos, y convertirlos en oportunidades. Esta capacidad, requiere como anota el académico, tomar ventaja de la serendipia o serendipity, es decir, de la sagacidad para ver e interpretar lo que se ha encontrado, lo cual posiblemente dista de lo que originalmente se estaba buscando.

Cuando comparamos las dos definiciones encontramos que la resiliencia es una capacidad de recuperación, aún frente a fallas, pero igualmente el momento concreto para ver “fuera de la caja” y ver más allá de lo que ocurre. En este sentido, desarrollar la resiliencia en las organizaciones, más que prepararse o adaptarse frente a escenario de falla parcial o total, busca desarrollar una capacidad inherente para reinventarse y mantenerse vigente en el entorno y permanecer en el largo plazo.

Podríamos decir que la viabilidad de la organización, podría estar comprometida si ésta no es capaz de desarrollar resiliencia estratégica. Es decir, alcanzar sabiduría en los negocios,  el arte de aventurarse hacia mares profundos y explorar nuevas posibilidades, o como anota DeBONO (1997, pág.46) acerca de la sabiduría, “es la capacidad de imaginar posibilidades y de considerarlas, es la renuncia a dejarse encerrar en juicios fáciles y falsas certezas”

La resiliencia por tanto, vista de manera holística, confronta nuestros modelos de operación personal, empresarial y tecnológica, para buscar nuevas formas de mantenernos despiertos a las realidades inesperadas de la dinámica de las organizaciones y los mercados, para advertir que podemos “eliminar nuestras propias auto-restricciones” y ser capaces de inventar nuevos escenarios de operación que aún esperan por nosotros para ser implementados.

Los conceptos de disponibilidad y continuidad, si bien establecen formas de mantenernos activos y en condiciones de operación confiables, la resiliencia trasciende los mismos para encontrar en las crisis, cambios anticipados; en los efectos de borde, nuevas formas de desaprender y en las condiciones inesperadas, nueva forma de ver la realidad. Así las cosas y como quiera, que estas habilidades no son inherentes a nuestra forma de razonar, habrá que habituarnos a ejercitar nuestra mente y visión estratégica para incorporar la práctica de la resiliencia como factor fundamental para poder planear, es decir, volar y dejar que los vientos nos enseñen y revelen el camino del águila hacia las alturas.

Reflexiones finales
Hemos visto que la disponibilidad, o las estrategias y condiciones requeridas para mantenernos en operación (99,9%), es un factor clave para asegurar que tenemos actividad continua y una forma para responder frente a eventos que puedan generar tiempos de inactividad. Sin embargo, no es suficiente implementar esta característica para mantener la viabilidad de la operación, pues ella está condicionada por la infraestructura que la soporta, que nuevamente se convierte en su propio punto de falla.

La continuidad por su parte es la forma como una organización o individuo debe actuar cuando, se materializa el 0,1% de tiempo de inactividad, es decir los procedimientos que debemos seguir para continuar la operación del negocio y desarrollar las capacidades de recuperación de la infraestructura, ahora en otro contexto y realidad, para lograr una reincorporación adecuada y aseguramiento de la viabilidad de la empresa y  más valiosos activos: las personas, la información y sus locaciones.

La resiliencia, como esa capacidad de continuar operando y recuperarse aún ante la presencia fallas o de aprovechamiento positivo de las situaciones de crisis, es otra condición particular que juega un papel fundamental en el entendimiento de la permanencia de las empresas y sus operaciones. Si bien, los dos conceptos anteriores nos informan sobre formas de prevención y reacción, la resiliencia nos permite desarrollar la capacidad de anticipación e innovación para revelar aquello que se esconde dentro de cada situación límite o inesperada.

No podemos entender la inseguridad de la información en el contexto organizacional, sólo desde las condiciones de inactividad operacional, las fallas parciales o totales de la infraestructura, o los eventos inesperados que alteren la realidad de una empresa, sino como una forma de preparar a las organizaciones para desarrollar y fortalecer su estrategia de cambio, es decir, encontrar en la inevitabilidad de la falla, la forma de entrenar nuestro entendimiento para descubrir las oportunidades y crear la plataforma para hacer que las cosas pasen.

Referencias
JAYASWAL, K. (2006) Administering data centers. John Wiley & Sons. Indianápolis.
MARQUIS, H. (2006) The paradox of 9s. Disponible en: http://www.itsmsolutions.com/newsletters/DITYvol2iss47.htm (Consultado: 31-03-2012)
UPTIME INSTITUTE (2010) Data Center Site Infrastructure Tier Standard: Topology. Disponible en: http://www.uptimeinstitute.com/ (Consultado: 31-03-2012)
VALIKANGAS, L. (2010) The resilient organization. How adaptive cultures thrive even when strategy fails. McGraw Hill.
SHOEMAKER, D. y CONKLIN, A. (2012) Cybersecurity. The essencial body of Knowledge. Cengage Training.
DeBONO, E. (1997) El texto de la sabiduría de Edward DeBono. Editorial Norma