16/11/2011
I en verden, hvor digital oppetid er altafgørende, virker ideen om et computersystem, der aldrig går ned, som en drøm. Men for årtier siden gjorde et firma ved navn Tandem Computers denne drøm til virkelighed. De var pionerer inden for fejltolerante computersystemer og skabte en arkitektur så robust, at den blev rygraden i kritiske industrier som bankvæsen, børsmarkeder og pengeautomater (ATM). Selvom navnet Tandem Computers måske ikke er almindeligt kendt i dag, lever deres arv videre. Denne artikel dykker ned i den fascinerende historie om Tandem, deres revolutionerende NonStop-teknologi, og hvad der skete med virksomheden, der nægtede at lade sine systemer fejle.

Grundlæggelsen og NonStop-filosofien
Historien om Tandem Computers begynder i 1974, da en gruppe visionære ingeniører, anført af James Treybig, forlod Hewlett-Packard (HP) med en ambitiøs forretningsplan. Deres mål var at bygge computersystemer, der var immune over for "single point failures" – altså systemer, hvor en enkelt komponents svigt ikke ville føre til et totalt nedbrud. Datidens mainframes og andre systemer havde typisk en fejlrate, der blev målt i dage. Tandem sigtede mod en oppetid, der skulle måles i år.
Det revolutionerende ved Tandems tilgang var, at de ønskede at gøre denne ekstreme pålidelighed økonomisk overkommelig. Mange eksisterende løsninger var ekstremt dyre, hvilket tvang virksomheder til at udvikle komplekse manuelle procedurer for at håndtere nedetid. Tandems filosofi var at bygge et system, der kun var marginalt dyrere end konkurrerende, ikke-fejltolerante systemer. Dette gjorde teknologien tilgængelig for en bredere vifte af kunder, der var afhængige af konstant drift.
Kernen i deres design var en "shared-nothing" arkitektur, som de kaldte NonStop. Ideen var at bygge et system op af flere uafhængige processormoduler, hver med sin egen hukommelse og I/O-controller. Disse moduler var forbundet via en specialdesignet, redundant computerbus kaldet Dynabus. Hvis et modul fejlede, ville et andet øjeblikkeligt kunne overtage dets opgaver uden afbrydelse.
De Tidlige Systemer og Guardian OS
I 1975 var designet af deres første system, "NonStop I", færdigt, og det første eksemplar blev solgt til Citibank i 1976. Et NonStop I-system bestod af mellem 2 og 16 processormoduler. CPU'erne var relativt enkle, baseret på HP3000's 16-bit stack-baserede design, men med 32-bit adressering.
Nøglen til systemets magi var dog ikke kun hardwaren, men i høj grad softwaren. Tandem udviklede et specialiseret operativsystem kaldet Guardian. Mens andre fejltolerante systemer på markedet fungerede ved at genstarte programmer på en backup-CPU, havde Guardian en langt mere sofistikeret tilgang. Alle operationer i Guardian brugte meddelelsesbaseret kommunikation (message passing) og blev "checkpointed" for hver operation. Det betød, at Guardian kunne genstarte en proces fra den præcise instruktion, hvor den fejlede, på en anden CPU. Den stack-baserede processorarkitektur gjorde dette relativt let at implementere, da der var meget lidt "tilstand" at flytte fra en maskine til en anden. Denne evne til problemfri overtagelse var det, der gjorde systemet ægte NonStop.
I 1981 fulgte "NonStop II", som bød på en lille hastighedsforbedring, men en markant opgradering af hukommelsen fra 384 kB til 2 MB pr. CPU og tilføjelsen af et komplet virtuelt hukommelsessystem.
Vækst og Innovation i 80'erne
1980'erne var et årti med markant vækst og innovation for Tandem. I 1983 lancerede de NonStop TXP-systemet, som mere end fordoblede hastigheden og øgede den fysiske hukommelse til 8 MB. Sammen med TXP introducerede de FOX, et nyt fiberoptisk bussystem, der gjorde det muligt at forbinde flere TXP- og NonStop II-systemer i et større netværk med op til 14 noder. Nu kunne Guardian ikke kun flytte opgaver mellem processorer i én maskine, men også mellem hele maskiner i netværket.
I 1986 kom en stor opgradering med NonStop VLX. VLX brugte en ny, hurtigere Dynabus og introducerede FOX II, som øgede afstanden mellem netværksnoder fra 1 km til 4 km. Samtidig lancerede Tandem NonStop CLX, en mindre og billigere maskine i minicomputer-størrelse, rettet mod mindre installationer. CLX blev hurtigt populær og fik løbende hastighedsforbedringer, der gjorde den konkurrencedygtig selv med den større VLX-model.
Databaserevolutionen: NonStop SQL
Et af Tandems mest betydningsfulde bidrag kom i 1986 med introduktionen af verdens første fejltolerante SQL-database: NonStop SQL. Databasen var udviklet på den berømte Ingres-kodebase, men Tandem tilføjede en række funktioner baseret på Guardian for at sikre dataintegritet på tværs af noder. NonStop SQL blev berømt for sin evne til at skalere lineært i ydeevne, efterhånden som flere noder blev tilføjet til systemet. De fleste databaser på den tid nåede hurtigt et ydeevne-plateau, ofte allerede efter to CPU'er. En senere version fra 1989 tilføjede muligheden for transaktioner, der kunne spredes over flere noder – en funktion, der forblev unik i lang tid.
Overgangen til RISC og Himalaya-arkitekturen
I slutningen af 80'erne og starten af 90'erne skiftede computerindustrien fokus fra komplekse CISC-processorer til enklere og hurtigere RISC-arkitekturer. Tandem fulgte denne udvikling. Efter introduktionen af det kraftfulde, men komplekse NonStop Cyclone-system i 1989, lancerede de i 1991 RISC-baserede systemer (Cyclone/R og CLX/R), der kørte på MIPS R3000 CPU'er. Dette var et modigt træk, da eksisterende programmer skrevet til den gamle arkitektur skulle oversættes eller genkompileres. Tandem satsede dog korrekt på, at den hurtige udvikling i RISC-ydeevne hurtigt ville opveje eventuelle indledende ulemper.
I 1993 introducerede Tandem NonStop Himalaya (også kendt som S-serien), som repræsenterede den første fundamentale ændring af NonStop-arkitekturen. Både den interne CPU-bus og den eksterne I/O-bus blev erstattet af et nyt peer-to-peer netværk kaldet ServerNet, som var markant hurtigere. En anden banebrydende tilføjelse var brugen af "lockstep processors". Hver logisk processor i systemet bestod nu af to MIPS CPU'er, der kørte den samme kode i perfekt synkronisering. Hvis resultaterne fra de to CPU'er nogensinde var uenige, blev processoren anset for at være defekt og øjeblikkeligt stoppet. Guardian ville derefter flytte opgaven til en anden processor, præcis som i tidligere systemer, men med den ekstra sikkerhed, at der aldrig blev skrevet forkerte data ud.
Sammenligning af Vigtige Tandem-Systemer
| Model | År | Vigtigste Funktioner |
|---|---|---|
| NonStop I | 1976 | Første fejltolerante system, redundant Dynabus, Guardian OS. |
| NonStop TXP | 1983 | Højere ydeevne, introduktion af FOX fiberoptisk netværk. |
| NonStop SQL | 1986 | Verdens første fejltolerante SQL-database med lineær skalering. |
| NonStop Himalaya | 1993 | Ny ServerNet-arkitektur, MIPS RISC-processorer, "lockstep processors" for dataintegritet. |
Opkøb og Arven efter Tandem
I 1997 blev Tandem Computers opkøbt af Compaq, som ønskede at styrke sit udbud af robuste serverløsninger til erhvervslivet. I en ironisk drejning af historien blev Compaq senere opkøbt af Hewlett-Packard (HP) i 2002, hvilket bragte Tandems teknologi tilbage til sine rødder hos HP, hvor grundlæggerne oprindeligt kom fra.
Men teknologien forsvandt ikke. Tandems NonStop-arkitektur og software lever videre i bedste velgående i dag under navnet HP NonStop. Disse moderne servere bruges stadig i de samme kritiske brancher, hvor nedetid kan have katastrofale økonomiske konsekvenser. Den oprindelige fejltolerante, "shared-nothing" arkitektur, som James Treybig og hans team udtænkte i 1970'erne, er stadig kernen i disse ekstremt pålidelige systemer. Tandem Computers eksisterer måske ikke længere som et selvstændigt firma, men deres vision om et system, der aldrig stopper, er mere relevant end nogensinde.
Ofte Stillede Spørgsmål
- Findes Tandem Computers stadig?
- Nej, ikke som et selvstændigt firma. Det blev opkøbt af Compaq i 1997, som senere blev opkøbt af HP i 2002. Deres teknologi og produktlinje lever dog videre som HP NonStop-servere.
- Hvad var det specielle ved "NonStop" arkitekturen?
- Det var en fejltolerant arkitektur designet til at eliminere nedetid. Den brugte flere uafhængige, redundante processorer, lagerenheder og databusser. Hvis en komponent fejlede, kunne en anden overtage dens opgaver øjeblikkeligt og problemfrit, uden at brugeren bemærkede noget.
- Hvorfor var Guardian-operativsystemet så vigtigt?
- Guardian var hjernen bag NonStop-systemets fejltolerance. Dets unikke evne til at "checkpointe" alle processer betød, at en opgave kunne genstartes fra den præcise instruktion, hvor den fejlede, på en anden processor. Dette sikrede en sømløs overgang og forhindrede tab af data eller afbrydelse af driften.
- Bruges Tandem-teknologi stadig i dag?
- Ja, absolut. Den originale arkitektur er grundlaget for de moderne HP NonStop-servere. Disse systemer anvendes globalt af banker, børser, teleselskaber og andre industrier, hvor oppetid er kritisk.
Hvis du vil læse andre artikler, der ligner Tandem Computers: Historien om NonStop-teknologien, kan du besøge kategorien Teknologi.
