Var det for voldsom en trafik på nettet, der fik en enkelt lille enhed i et netværksknudepunkt hos IBM til at opgive ævret? Eller skyldtes den voldsomme ventende trafik, at den lille enhed – et printkort – var gået i stykker? Uanset om det var hønen eller ægget, så endte det som bekendt med gårsdagens kæmpe nedbrud hos IBM. Ramt blev danske sværvægtere som Carlsberg, der på business.dk lige nu raser over nedbrudet, Danske Bank, A.P.Møller og DSV.

IBM håber at få besvaret disse spørgsmål inden dagens udgang, erfarer jeg, men udestående bliver så den allermest prekære side af sagen. At et netværkskort går i stykker er en relativt banalt problem, der normalt aldrig vil give problemer. Der vil være en ”dublet”, som blot overtager arbejdet i samme sekund, så kunderne ikke mærker spor. I går udløste det banale problem imidlertid en dominoeffekt i fejl med voldsomme konsekvenser for kunderne.

Resultatet blev, at IBM fik sat en rekord i konsekvenser af et nedbrud, og vist ikke kun i Danmark. Jovist, har der været en bank herhjemme, der var nede i flere dage (og ja, det var Danske Bank, da man selv kørte it-driften). Visse udenlandske banker har prøvet det samme. Et stort amerikansk hospital har oplevet noget lignende. Faktisk er der ganske mange enkeltstående koncerner, der har måttet bide i græsset grundet it-nedbrud. Men her omfattede nedbruddet mange kunder på en gang.

Men IBM’s danske kunder har jo betalt for at køre på ”fejl-tolerante” systemer – et begreb, der dækker, at uanset hvilken enhed, der går ned, så står der altid en ”dublet” i kulissen parat til at tage over i samme åndedræt. Om det er til netværkskortet, til serveren, til kæmpecomputeren – den såkaldte mainframe – eller til noget helt fjerde. Faktisk kører IBM Danmark en drift, der omfatter hele tre datacentre, som skal kunne tage over for hinanden, skulle det gå galt.

Og alligevel gik det helt galt. Der opstod en dominoeffekt, hvor det ene problem ledte til det næste, der ledte det næste. Hvad gik galt? Var det noget med teknikken, eller skete der en menneskelig fejl? Dette er det allervigtigste spørgsmål, som IBM skal have fundet svar på.

Dominoeffekten efter netværksproblemet slog som bekendt igennem ved 12-tiden i går, men så vidt jeg ved, havde man allerede efter 20 minutter lokaliseret problemet. At der skulle gå helt frem til kl. 19, før der igen kunne blive sat fuld damp på alle kedler, skyldes, at genstart skal ske uendeligt varsomt. Man skal have sikret den helt rette synkronisering alle data hos kunderne.

Tag for eksempel et banksystem. Måske var der 50 kunder, der i de sekunder, hvor det hele gik galt, netop var ved at hæve penge i pengeautomaten. Blev alle transaktioner registreret hele vejen igennem systemet, eller manglede der et par opdateringer? Måske var der 15.000 pengeoverførsler i gang, måske, måske, måske.

Om det er onlinebestillinger af øl, planlægning af ruter for lastbiler, mails til rederiansatte eller banktransaktioner. Der skal 100 procent styr på datas aktualitet og validitet, før der kan gives grønt lys for at køre videre.

Nogle af kunderne kom op at køre relativt hurtigt efter kl. 19. Andre måtte ind i det nye døgn før alt var på plads, hører jeg.

Er det sikrere at tage egen it-drift tilbage i eget hus? Statistisk set vil jeg tro, at svaret er nej, men ved du bedre? Nogle påstår for eksempel, at IBM har problemer med bemandingens kompetence.

PS: IBM foretager jævnligt katastrofeøvelser. Der simuleres, at “et datacenter er oversvømmet”, eller at “en entreprenør har cuttet et kabel” og mere i samme boldgade. Men at lave en komplet simulering af alt, hvad der kan gå galt? Det er der både tekniske forhindringer for, og tankemæssige. Der kan altid opstår samspil, som ingen sjæl havde forudset.

Skriv en kommentar   RSS feed

  1. John Ståhle

    For mig som specialist i test af bl.a. fail-over og infrastruktur “lyder” det, som om kunden ikke selv har foretaget de nødvendige tests for at sikre, at leverandøren kan overholde sine garantier.

    Som bekendt er tillid godt, men kontrol bedre.

  2. Morten V

    Hvis vi ser på hvilke alternativer der ville være mere sikre, så handler det efter min mening ikke om at tage drift tilbage til eget hus, men mere om at se på, om der er behov for en regulering af hvor store datacentre bør være. Kan vi som borgere acceptere at områder som fødevarer, sundhed og finans er truet af fejl i et og samme datacenter?

  3. Henrik Frederiksen

    Hmmm…Viser bare (som overskriften antyder) - at systemer kan være sikre, fejltolerante og dubblerede, men det er mennesker som drifter systemerne. Vi bliver mere og mere (og i virkligheden alt for meget) afhængige af 100% oppetid, netadgang og lynhurtige svartider. Vores systemer skal være fejltolerante - når vi ikke er det. Når Danske Bank oplever fejl, når de selv drifter systemet, så udliciteres det fejlramte. Så nu kan andre få “skylden” når fejlen stadigvæk kan opstå.

    Ikke for at male f….. på væggen, men vi lever på “kanten”. En meget lille fejl kan medføre omfattende og ødelæggende resultater i så store og komplekse systemer, som ingen helt har overblikket over!

    Og hvis ham eller hende HAR overblikket, så kan han/hun jo lige ligge syg, skulle have barsel eller måske blot ønske nye udfordringer og finde noget andet, mindre stressende at få dagene og arbejdslivet til at gå med!

    Måske derfor er det svært at tiltrække unge til IT-uddannelserne…Ingen vil sidde med “aben”.

    Hvem skal nu prøve - efter at også IBM “har fejlet”…Eller kan man forstå, at dette kunne være sket hos/for alle - og at det netop er tidens paradigme. At forstå…

  4. Steen Tuxen

    Dominoeffekt. Ha ha.

    Domino er et IBM produkt/varemærke.

  5. Mogens Nørgaard

    Først og fremmest: Dorte, du ved, at jeg elsker dig højt, men dit indlæg indeholder intet som helst. Nada. Og så skulle du hellere lade være. At du skifter mellem “måske var det X, måske var det y”-indlæg og “fakta”-indlæg a la “… kl 12 kunne man …” og “…Carlsberg…” gør det jo ikke bedre. Du ved intet om sagen og det skriver du så en masse ord om.

    DMdata blev overtaget af IBM og siden er der blevet læsset kunder på. DM ville dengang ikke bekoste et ekstra backbone fordi det koster et halvt nationalt forsvar eller deromkring, og nu er det så tid at bekoste det alligevel…

    Jeg må iøvrigt give indlægsholderne evigt ret: At have så mange kunder samlet ét sted øger ligesom chancen for, at det går galt for mange.

    Hvis man overhovedet kan, synes jeg man skal holde hånden på eget jern et stykke tid endnu :).

    Mvh.

    Mogens

  6. Dorte Toft

    @ Morten V. Ja, det her har noget med stordriftsulemper at gøre. Helt rationelt (økonomisk) vil det nok være galimatias for IBM at oprette et nyt sæt datacentre og så fordele belastningen på dem, men worst case scenarier, som det aktuelle nedbrud gav antydning om, kan måske gøre det rationelt.

    @ Alle. I øvrigt er det ejendommeligt at se, hvorledes de forskellige kunder rammes forskelligt. F.eks. rammes Mærsk stort set kun på den interne post, og i Danske Bank er det kortbetalinger i Finland og Irland, der rammes, foruden de særlige kort, som unge danskere forsynes med. Hos DSV syntes det at være revl og krat. Er det mon en tilfældighed, eller har det noget at gøre med de foranstaltninger, som de enkelte kunder kræver/har implementeret.

    @Steen Tuxen. Den med Domino-varemærket:-) Den havde jeg glemt.

    @Mogens Nørgaard. Du skriver, at jeg intet ved om sagen. Så er det jo godt, at du ALTID ved bedre:-).

    @ Alle. Min gode, meget vidende kollega, Dan Mygind, skriver i et blogindlæg, at problemet med printpladen måske kan skyldes “knurhår”. Læs hans gode indlæg her:
    http://www.computerworld.dk/blog/itkorr/1264

  7. Claus Nielsen

    Jeg glaeder mig til at hoere hvilken liden tue som “vaeltede laesset” denne gang, men jeg tvivler paa at den rigtige historie slipper igennem presseafdelingen i en brugbar form.
    Hvis det virkeligt er en netvaerksdims som er fejlet og den automatiske failover ikke har fungeret er det bare et nyt eksempel paa at automatisk failover ogsaa kan fejle.
    Vi glemmer hele tiden at hver gang vi forhoejer software stacken (og kompleksiteten) stiger mulighederne for fejl samtidigt.

    Det som er det egentlige problem for de store datacentre er kompleksiteten og utraenede medarbejdere. Det er meget vanskeligt at undgaa single-point of failure paa f.eks. stroem eller backbone og instabilitet kan sende kaskader af problemer rundt i infrastrukturen.
    Hvis det virkeligt er lykkedes at stille en korrekt diagnose indenfor 30 minutter maa det vaere ny rekord og et meget simpelt problem i en velkendt komponent. Det maa ogsaa have lettet diagnosen meget at problemet tilsyneladende opstod undenfor dansk arbejdstid. I praksis gaar der nemt 7-8 timer hvor bolden bliver spillet rundt mellem de forskellige teams.

    Skal man holde haanden paa eget jern? Det kommer efter min mening an paa ens ambitionsniveau. Hvis man oensker god og forudsigelig kvalitet paa tilgaengelighed skal man ikke bruge IBM som driftleverandoer, men prisforskellen er ogsaa som forskellem mellem en Michellin restaurant og MacDonald.
    Det vil vaere meget svaert for selv store virksomheder som Maersk at opbygge en kompetent driftorganisation, da kun et faatal kompetente IT-specialister samtidigt er masochister. Driftrollen er jo ikke ligefrem hoejstatus.

    Mvh
    Claus

  8. John Ståhle

    Dorte Toft skriver: “I øvrigt er det ejendommeligt at se, hvorledes de forskellige kunder rammes forskelligt. …”

    Dette er næppe særlig overraskende, idet DMdata/IBM næsten sikkert benytter load-share, således at forskellige systemer hver betjener en andel af de forskellige kundesystemer.

    I princippet medfører load-share (udover selvfølgelig at give mere jævn belastning), at fail-over kan ske hurtigere end hvis alle kundens systemer blev afviklet på én enkelt mainframe. En af fordelene er således, at kun en del af de fejlende systemer skal aktiveres på stand-by-maskinen.

  9. Dorte Toft

    @ Claus Nielsen. Ja, kompleksiteten udgør et uhyre, og det er svært med driftsfolk. Som du skriver er det ikke et statusområde.

    @John Stråhle. Tak for forklaringen. Så forstår jeg det bedre.

    @ Alle. Roskilde kommunes it-chef Ole Bech blogger om it-nedbrudet på Version2.
    http://www.version2.dk/artikel/6937
    Godt indlæg, interessante kommentarer.

  10. Dorte Toft

    Jeg har slettet en kommentar fra Lau Ludvigsen, da der var tale om ren reklame, og det er denne blog ikke åben for. Beklager at det skete med nogen forsinkelse.

  11. Bizzen - IT & Business » Blogarkiv » IBM og CSC styrtdykker på imagefronten i DK

    […] nummer 44 i det årlige imagenummer af Berlingskes Nyhedsmagasin. Og målingen er tilmed sket før nedbrudet, der tidligere i april ramte store virksomheder som Danske Bank, Carlsberg, Arla og […]

  12. Setre P. Olsen

    1010110001 0101010100010001101101 011010 0
    1010010
    1
    1
    011010101010010010101
    10110010010010
    10010010101
    10010
    1010100101010101010010101
    10101001
    1001000100010011110010
    0

Skriv en kommentar

Kun fornavn og efternavn bliver vist i forbindelse med kommentaren. Dog skal alle felter med * (stjerne) udfyldes



Læs vilkår for kommentarer og debat på Berlingske Tidendes websites