10/09/2004
I den digitale verden fungerer vores servere og systemer som komplekse organismer. Ligesom menneskekroppen kan de udvise symptomer, når noget er galt. En uventet fejlmeddelelse eller et pludseligt datatab kan føles som et alarmerende symptom på en ukendt sygdom. At forstå disse signaler er afgørende for at stille den rette diagnose og iværksætte en effektiv behandling, før tilstanden bliver kritisk. Mange administratorer har oplevet den frygt, der opstår, når et system begynder at opføre sig unormalt – især når det involverer kernen i systemets funktion: datahåndtering. Denne artikel fungerer som en guide til at forstå og diagnosticere nogle af de mest almindelige, men ofte misforståede, lidelser, der kan ramme dit systems lagerinfrastruktur.

Forståelse af 'tabte' I/O-anmodningspakker (IRP)
En af de mest hyppige fejlmeddelelser, som kan skabe forvirring, er en advarsel om, at en I/O-anmodningspakke (IRP - IO Request Packet) er gået tabt eller er blevet genforsøgt. Mange tror fejlagtigt, at dette betyder, at data er gået tabt. Dette er heldigvis sjældent tilfældet. I virkeligheden betyder det, at den operation, som IRP'en repræsenterede, tog for lang tid at fuldføre – den 'timed out'. Som en sikkerhedsforanstaltning forsøger systemet operationen igen.
Man kan tænke på en IRP som en intern besked i operativsystemet. Når et program vil læse eller skrive data, opretter I/O-manageren en IRP for at spore denne opgave, mens den passerer gennem de forskellige driverlag i systemet. Hvis denne besked ikke får svar inden for en bestemt tidsramme, antager systemet, at der er sket en fejl, og sender beskeden igen. Dette sikrer dataintegritet og atomicitet, hvilket betyder, at en operation enten fuldføres korrekt eller slet ikke, hvilket forhindrer korrupte eller ufuldstændige data i at blive skrevet til disken.
Årsagerne til disse timeouts kan være mange og varierede, ligesom symptomerne på en sygdom kan have flere underliggende årsager:
- Overbelastede diske: Hvis disksystemet er meget travlt, f.eks. under en planlagt backup eller en periode med høj aktivitet, kan det simpelthen være for langsomt til at svare i tide.
- Hardware- eller netværksfejl: Et klassisk eksempel er i et SAN-miljø (Storage Area Network) med MPIO (Multi-Path I/O). Hvis et kabel til SAN'et bliver afbrudt, vil den IRP, der blev sendt ad den vej, aldrig blive fuldført. Systemet vil time out og derefter forsøge igen via den alternative, fungerende sti.
- Driverproblemer: Komplekse driverstakke, især med mange filterdrivere (f.eks. fra antivirus eller backup-software), kan forsinke IRP'ens rejse gennem systemet og forårsage timeouts.
- Midlertidige fejl: Nogle gange kan fejlen være flygtig og svær at fastslå, forårsaget af alt fra en midlertidig softwarefejl til eksterne faktorer.
Det er værd at bemærke, at nyere versioner af Windows (fra Windows 8/Server 2012 og frem) er blevet mere 'snakkesalige' omkring disse hændelser. Selvom mekanismen altid har eksisteret, bliver disse genforsøg nu logget som advarsler, hvilket giver administratorer et bedre indblik i systemets helbredstilstand.
Symptomer i virtuelle miljøer: Når gæsten hoster
Kompleksiteten øges, når vi bevæger os ind i virtualiserede miljøer. Her kan fejlmeddelelser inde i en virtuel maskine (gæst) have deres rodårsag i den underliggende infrastruktur (host eller storage). Et typisk scenarie involverer fejl relateret til SCSI-controllere, som f.eks. LSI SAS, inde i en gæst-VM, selvom VM'ens lager ligger på et centralt FC SAN (Fibre Channel Storage Area Network) og ikke på den lokale server.

Når en gæst-VM rapporterer, at den nulstiller eller afbryder SCSI-kommandoer, er det et tegn på, at kommunikationen mellem VM'en og dens virtuelle disk er ustabil. Her er en tjekliste til fejldiagnosticering:
- Undersøg værtens logfiler: Ofte vil 'vmkernel.log' på ESXi-værten afsløre problemer med LUN'er (Logical Unit Numbers) på FC-SAN'et. Dette er patientens centrale journal.
- Tjek for generel langsomhed: Hvis kommandoer på selve ESXi-værten, der interagerer med lageret, er langsomme, indikerer det et problem med selve lagerinfrastrukturen.
- Analyser multipathing-konfigurationen: Fejl i multipathing, hvor der er flere veje til lageret, kan forårsage ustabilitet og timeouts.
- Kontroller swap-fil aktivitet: En forsinkelse i skrivning til VM'ens swap-fil kan være et subtilt tegn på underliggende lagerproblemer.
I disse tilfælde er gæste-VM'en blot budbringeren af dårlige nyheder; den reelle sygdom ligger dybere i infrastrukturen.
Akut tilstand: Når en disk bliver 'RAW'
Den mest skræmmende situation er, når en disk pludselig mister sit filsystem og vises som 'RAW' i Windows. Dette er en kritisk tilstand, hvor alle data på disken øjeblikkeligt bliver utilgængelige. Ofte er denne katastrofe forudgået af de mindre alvorlige symptomer, vi allerede har diskuteret, såsom gentagne advarsler om, at I/O-operationer bliver genforsøgt.
Forestil dig et scenarie: Et system til videoovervågning optager til en dedikeret virtuel disk. Pludselig stopper optagelserne. Ved nærmere eftersyn viser disken sig at være 'RAW', og eventloggen er fyldt med meddelelser som "An error was detected on device \Device\Harddisk1\DR1 during a paging operation" efterfulgt af "The IO operation at logical block address ... for Disk 1 ... was retried."
Dette er et eksempel på, hvordan vedvarende I/O-problemer kan eskalere og i sidste ende føre til korruption af filsystemets metadata. Når systemet ikke længere kan læse filsystemets struktur, markerer det disken som 'RAW'. Den eneste umiddelbare 'behandling' er at genformatere disken, hvilket sletter alle data. Dette løser det akutte problem, men adresserer ikke den underliggende rodårsag.
Frygten for, at dette kunne ske for en OS-disk på en kritisk server, er fuldt berettiget. Det understreger vigtigheden af ikke at ignorere de tidlige advarselssignaler.

Sammenligning af symptomer og mulige årsager
For at give et bedre overblik, er her en tabel, der sammenligner de diskuterede symptomer med deres sandsynlige årsager og førstehjælp.
| Symptom | Mulig Årsag | Diagnostisk Skridt / Førstehjælp |
|---|---|---|
| Advarsel: 'The IO operation... was retried' | Overbelastet disk, midlertidigt netværksproblem, driverkonflikt. | Overvåg diskens ydeevne (Performance Monitor). Tjek fysiske kabler og netværksstier. Gennemgå nyligt installerede drivere. |
| SCSI-fejl inde i en virtuel maskine | Problem på host-niveau: lagerforbindelse (FC/iSCSI), multipathing-fejl, problemer med SAN. | Analyser 'vmkernel.log' på ESXi-værten. Kør diagnostiske kommandoer på hosten for at tjekke lagerrespons. Verificer multipathing-status. |
| Disk vises som 'RAW' | Alvorlig filsystemskorruption forårsaget af vedvarende I/O-fejl, pludseligt strømsvigt, eller hardwarefejl. | Gendan fra backup. Undersøg system- og eventlogs for hændelser, der førte op til fejlen. Kør hardwarediagnostik på de fysiske diske og controlleren. |
Forebyggende pleje og den ultimative sikkerhed
Ligesom med helbred er forebyggende vedligeholdelse nøglen til at undgå digitale katastrofer. Dette inkluderer regelmæssig overvågning af systemets ydeevne og logfiler, opdatering af drivere og firmware til testede og stabile versioner, og sikring af en robust og redundant infrastruktur.
For de teknisk kyndige findes der avancerede diagnostiske værktøjer som Windows Kernel Debugger, der kan bruges til at spore en specifik IRP og se præcis, hvilken driver der sidst håndterede den. Dette er den digitale ækvivalent til en kirurgisk biopsi, der kan give et præcist svar på, hvor problemet ligger.
Men uanset hvor god din overvågning og diagnostik er, er intet system 100% fejlfrit. Den absolut vigtigste beskyttelse mod datatab er en solid og regelmæssigt testet backupstrategi. En backup er din forsikring. Den garanterer, at selvom den værst tænkelige fejl opstår, kan du gendanne dine data og bringe systemet tilbage til en sund tilstand.
Ofte Stillede Spørgsmål (FAQ)
- Betyder en "I/O operation was retried"-fejl, at jeg har mistet data?
- Nej, typisk ikke. Fejlen indikerer, at systemet selv har opdaget et problem og proaktivt forsøger operationen igen for netop at undgå datatab. Det er dog et vigtigt advarselssignal om, at der er en underliggende ustabilitet, som bør undersøges.
- Hvorfor blev min disk pludselig til 'RAW'?
- En disk bliver 'RAW', når operativsystemet ikke længere kan læse filsystemets struktur. Dette er ofte kulminationen på gentagne I/O-fejl, som til sidst korrumperer de kritiske metadata på disken. Andre årsager kan være pludseligt strømsvigt under en skriveoperation eller en alvorlig hardwarefejl.
- Kan en softwareopdatering forårsage disse problemer?
- Ja, absolut. En ny driver (f.eks. til en storage-controller eller netværkskort) eller endda en opdatering til et antivirusprogram kan introducere en fejl eller inkompatibilitet, der forårsager forsinkelser og timeouts i I/O-stakken. Det er altid en god praksis at undersøge nylige systemændringer, når fejl begynder at opstå.
- Hvad er det vigtigste, jeg kan gøre for at beskytte mine data?
- Den absolut vigtigste handling er at implementere og vedligeholde en pålidelig backupstrategi. Backups bør tages regelmæssigt, opbevares på en separat lokation (eller i skyen), og vigtigst af alt, testes periodisk for at sikre, at en gendannelse kan udføres succesfuldt, når det er nødvendigt.
Hvis du vil læse andre artikler, der ligner Når systemet bliver sygt: Diagnose af I/O-fejl, kan du besøge kategorien Sundhed.
