Az igazi ellenállóképesség nem hősies, utolsó pillanatban meghozott döntésekből áll egy válság közepén. Hanem fegyelmezett, előrelátó és időben elvégzett, gyakran „nem látványos” felkészülésből.
Az elmúlt évek tapasztalatai azt mutatják, hogy a nagyvállalatok rendszeresen szembesülnek katasztrofális leállások utáni helyreállítási kihívásokkal – legyen szó felhőszolgáltatás-kiesésekről, regionális áramszünetekről, hurrikánokról, áradásokról vagy téli viharokról. Egyre nyilvánvalóbbá válik, hogy a modern IT-környezetek sokkal sérülékenyebbek, mint amit a vállalati felsővezetés többsége hajlandó elismerni.
Egy téli vihar nem kell, hogy „apokaliptikus” legyen ahhoz, hogy komoly károkat okozzon. Hosszabb áramkimaradások, befagyott infrastruktúra, megközelíthetetlen irodák és regionális internetszolgáltatás-kiesések napokra vagy akár hosszabb időre megbéníthatják a működést. Az igazi ellenállóképesség nem válság közbeni improvizáció, hanem előre elvégzett, fegyelmezett felkészülés.
Íme öt gyakorlati módszer, amellyel a vállalatok megerősíthetik mentési és katasztrófa-helyreállítási stratégiájukat a következő vihar előtt.
1. Valódi regionális diverzitás alkalmazása
Egyetlen adatközpontra – vagy akár egyetlen felhőrégióra – támaszkodni kockázatos. Az adatközponti leállások jelentős része továbbra is időjárás okozta áramkimaradásokra vezethető vissza. Ha egy komoly téli vihar kiüti az egyik elérhetőségi zónát, az alkalmazások leállnak, függetlenül attól, hány „kilences” rendelkezésre állást ígér a szolgáltató.
Az elmúlt években többször láttuk, hogy a régiók közötti infrastruktúra-függőségek is meghibásodnak. Ha egy régió kiesik, a hozzá kapcsolódó régiók is érintettek lehetnek. Még az AWS sem tud teljes rendelkezésre állást garantálni egy régión belül. A 99,5%-os SLA is azért létezik, mert az alapvető szolgáltatások meghatározott régiókhoz kötődnek. Ez az architekturális sajátosság egyhamar nem változik – különösen, ha egyetlen felhőre vagy egyetlen régióra épül a működés.
A megoldás:
A tartalék (failover) környezet teljesen eltérő földrajzi régióban legyen, és automatikusan aktiválható legyen. Ha a helyreállítás emberi beavatkozást igényel egy vihar közepén, a terv már eleve sérülékeny. Olyan eszközöket kell választani, amelyek egyszerűsítik a katasztrófa-helyreállítást, és garantálják az azonnali visszaállítást egy air-gap (logikailag elkülönített) környezetből.
2. Air-gap védelem külső helyszínen – dupla költség nélkül
Ha minden mentés ugyanabban a felhőben van, ahol az éles (production) rendszer fut, az aláássa az ellenállóképességet. Teljes felhőrégiók is kieshetnek. Sok IT-csapat mégis kerüli a többfelhős (multi-cloud) mentéseket a komplexitás és az adatkiáramlási (egress) díjak miatt.
A megoldás:
Modern eszközök már lehetővé teszik az adatok replikálását például AWS és Azure között, vagy rendkívül alacsony költségű objektumtárolóba hosszú távú archiválás céljából – operatív túlburjánzás és dupla számlázás nélkül.
Még jobb, hogy a mai platformok valódi, logikai air-gap megoldásokat is kínálnak különálló felhőkben (például alacsony költségű objektumtárolókban), amelyek elkülönített környezetben izolálják az adatokat, anélkül hogy egy második teljes infrastruktúrát kellene fenntartani. Ezek a megoldások változtathatatlanságot (immutability) is biztosítanak: a mentett adatok nem módosíthatók, nem titkosíthatók és nem törölhetők – még kompromittált hitelesítési adatok vagy rosszindulatú belső szereplők esetén sem.
A cél az, hogy ha az elsődleges felhő elérhetetlenné válik, az adatok ne „tűnjenek el” vele együtt.
3. Számítsunk kibertámadásokra a vihar után – és készüljünk fel rájuk
Az FBI és a CISA is rendszeresen figyelmeztet arra, hogy nagyobb időjárási események után megnő az adathalász (phishing) és zsarolóvírusos támadások száma. A támadók tudják, hogy az IT-csapatok túlterheltek, a folyamatok felborulnak, az alkalmazottak pedig információra éhesek.
A megoldás:
Ez túlmutat az alapvető tudatossági képzésen. Futtassunk „vihar-tematikájú” phishing-szimulációkat a tél előtt – például hamis „áram-helyreállítási” értesítésekkel vagy „vészhelyzeti HR-frissítésekkel”. Készítsük előre a belső kommunikációs csatornákat, hogy mindenki tudja, honnan érkeznek a hivatalos tájékoztatások. És ami a legfontosabb: a mentések legyenek izoláltak, változtathatatlanok és érinthetetlenek – még kompromittált hitelesítés esetén is.
4. Tervezés az „emberi réteg” áramkimaradása esetére
Lehet, hogy a felhő működik – de mi történik, ha az emberek nem? Mi van, ha kulcsfontosságú munkatársak napokig áram nélkül maradnak, nem férnek hozzá dokumentációhoz, vagy nem biztonságos otthoni hálózatról dolgoznak?
A megoldás:
Az ellenállóképesség az emberi erőforrás rendelkezésre állását is jelenti. Képezzünk több szakembert azonos feladatokra (cross-training), osszuk meg a kritikus szerepköröket régiók között, és gondoskodjunk arról, hogy a lényeges dokumentáció offline is elérhető legyen. Kötelező VPN- és többfaktoros hitelesítést (MFA) kell alkalmazni távoli munkavégzés esetén, és számolni kell azzal, hogy hosszan tartó kiesés során az otthoni biztonsági szint romolhat.
Érdemes a hagyományos eszközökön túl is gondolkodni. Ha a Slack, az e-mail vagy a mobilhálózat is kiesik, „off-grid” kommunikációs megoldások – például peer-to-peer üzenetküldés – biztosíthatják a csapatok koordinációját.
5. Az extrém időjárást üzleti kockázatként kezeljük – ne pusztán IT-problémaként
Svédországban és az Egyesült Királyságban a kormányok nyíltan terveznek többhetes szolgáltatáskimaradásokkal. A vállalatoknak is hasonló szemléletet kellene követniük.
A hatékony, hosszú távú felkészülésnek tartalmaznia kell:
- Rendszeres, ütemezett teszteket, amelyek a legrosszabb forgatókönyveket modellezik.
- Teljes környezetre kiterjedő failover-gyakorlatokat, auditálható naplókkal és jelentésekkel.
- A kritikus erőforrások egyértelmű címkézését és priorizálását a helyreállítási sorrend meghatározásához.
- A hálózati és konfigurációs beállítások teljes replikációját, hogy a metaadatok, virtuális gépek és adatbázisok egészséges, működőképes állapotban térjenek vissza.
- Olyan helyreállítási teszteket, amelyekből szándékosan kihagynak kulcsszereplőket, így nem csak a „szokásos szakértők” képesek a rendszer visszaállítására.
A valóság az, hogy az extrém időjárás többé nem kivételes eset. Visszatérő működési kockázat, amely igazgatósági szintű figyelmet és vállalatszintű felkészülést igényel.