Modul 8 — DIAGNOSTIC HARDWARE
pașii diagnosticului hardware, analiza simptomelor
Începe LecțiaCând o consolă ajunge pe masa de lucru cu simptomul nu pornește sau se oprește singură, un tehnician fără metodologie va înlocui componente la întâmplare, sperând să nimerească defectul. Un tehnician cu metodologie va urma un proces sistematic: reproduce problema, observă simptomele, formulează ipoteze, testează fiecare ipoteză cu instrumente, și izolează cauza reală înainte de a atinge ciocanul de lipit.
Această lecție acoperă pașii diagnosticului hardware — metodologia completă de la simptom la reparație — și analiza simptomelor — cum se interpretează indiciile pe care consola le oferă (LED-uri, sunete, comportamentul ventilatorului, mesaje de eroare) pentru a localiza defectul.
Scopul nu este memorarea unui checklist de diagnostic, ci înțelegerea de ce fiecare simptom are o cauză fizică, cum fiecare cauză poate fi verificată cu un instrument și de ce abordarea sistematică — nu intuiția — este fundația diagnosticului profesional.
1. Să poți REPRODUCE problema la cerere
2. Să reduci sistemul la cea mai simplă formă care încă prezintă problema
3. Să CUNOȘTI cum ar trebui să funcționeze sistemul (pentru a "observa" eroarea)
1. Verifică ÎNTÂI condițiile frecvente sau ușor de testat ("milking the front panel")
Exemplu: verificarea LED-ului imprimantei, cablul bine conectat
2. "Bisecția" sistemului – verificare la jumătatea lanțului de dependențe
Exemplu: a ajuns job-ul la server? → problema e "spre utilizator" sau "spre dispozitiv"
1. Identificarea și descrierea clară a problemei
2. Stabilirea unui timeline de la situația normală la apariția problemei
3. Distingerea între cauza fundamentală și alți factori cauzali (prin event correlation)
4. Stabilirea unui graf cauzal între cauza fundamentală și problemă
• Verificarea registrelor CPU
• Verificarea integrității codului BIOS
• Verificarea componentelor de bază: DMA, timer, interrupt controller
• Inițializarea, dimensionarea și verificarea memoriei principale
• Inițializarea BIOS
• Transferul controlului la extension BIOS (video, SCSI etc.)
• Identificarea și organizarea dispozitivelor de boot
• 1 bip scurt = POST normal, sistem OK
• 2 bipuri scurte = eroare POST, cod pe ecran
• Fără bip = alimentare, system board, CPU deconectat
• Bip continuu = alimentare, system board, RAM sau tastatură
• 1 lung + 2 scurte = problemă display adapter
• 1 = Memory refresh timer error
• 2 = Parity error in base memory (primii 64 KiB)
• 3 = Base memory read/write test error
• 5 = Processor failure
• 8 = Display memory error
• Bipuri continue = niciun modul RAM detectat
• Bipuri scurte constante = alimentare defectă
• Ton lung continuu = defecțiune memorie
• Un lung + două scurte = defecțiune placă video
100-199 = System boards, 200-299 = Memory, 300-399 = Keyboard
400-499 = Monochrome display, 500-599 = Color/graphics display
1700-1799 = Hard drive/adapter
+ Sad Mac icon + 2 string-uri hexazecimale
• Roșu = ROM bad, Galben = CPU exception, Verde = Chip RAM bad, Negru = no CPU
• LED tastatură: 1 flash=ROM, 2=RAM, 3=Watchdog, 4=scurtcircuit
• Oprirea echipamentului defect
• Comutare la echipament redundant
• Trecerea sistemului într-un Safe Mode cu funcționalități limitate
• Condition-based maintenance (pe baza stării)
• Planned preventive maintenance
• Preventive maintenance
• Corrective maintenance (fără diagnostic)
• Verificarea registrelor CPU
• Roșu = ROM bad, Galben = CPU exception, Verde = Chip RAM bad, Negru = no CPU
În contextul consolelor de jocuri, metodologia de diagnostic joacă un rol esențial în funcționarea hardware-ului.
Componentele reale care utilizează pașii diagnosticului hardware se regăsesc în toate consolele moderne.
Troubleshooting = formă de problem solving, aplicată la repararea produselor sau proceselor defecte
Necesar să identifice simptomele, să determine cauza cea mai probabilă, apoi să confirme soluția
Doi pași esențiali: cunoștințe de domeniu apriorice + strategii de căutare
Strategia topografică: ghidată de funcționarea CORECTĂ a dispozitivului ("ce se întâmplă?")
Deep reasoning, reasoning from first principles
Necesită cunoaștere profundă/cauzală/model-based a sistemului
Folosită la defecte noi (novel faults) când experiența nu ajunge
Strategia simptomatică: ghidată de funcționarea ANORMALĂ ("ce e greșit?")
Case-based reasoning sau shallow reasoning
Bazată pe experiență anterioară – conexiuni stabilite între simptome și cauze
Expertul cunoaște cauza pentru că a întâlnit cazuri similare
CEA MAI PUTERNICĂ strategie, cea mai folosită
NU funcționează independent cu probleme cu adevărat noi
Cele două strategii se completează reciproc – simptomatica are nevoie de topografică și invers
PRINCIPIU: corelația NU implică cauzalitate (exemplu: dispozitiv defect după mutare)
1. Să poți REPRODUCE problema la cerere
2. Să reduci sistemul la cea mai simplă formă care încă prezintă problema
3. Să CUNOȘTI cum ar trebui să funcționeze sistemul (pentru a "observa" eroarea)
Considerată degenerată dacă se face fără ipoteză despre cum defectul produce simptomele
Troubleshooting eficient: înțelegerea clară a comportamentului așteptat + simptomele observate
Exemplu: a ajuns job-ul la server? → problema e "spre utilizator" sau "spre dispozitiv"
Problemele reproductibile pot fi izolate și rezolvate în mod fiabil
Efort considerabil se depune adesea pentru a găsi o procedură de reproducere
Cele mai dificile probleme de troubleshooting
În electronică: componente sensibile termic (rezistența variază cu temperatura)
Aer comprimat pentru răcirea punctuală + pistol de căldură pentru încălzire
Intermitent = "problemă pentru care nu există o procedură cunoscută de reproducere consistentă"
Frecvența apariției ≠ procedura cunoscută de reproducere
Uneori trebuie resort la metode statistice
Testele de stres pot determina dacă componente specifice au cedat
Multe probleme apar din cauza defecțiunilor MULTIPLE
Mai ales în sisteme fault-tolerant cu redundanță
Substituția serială poate eșua cu defecte multiple
Înlocuirea cu componente defecte poate CREȘTE numărul de probleme
"Înlocuire" include și ajustare, reglare sau alte modificări
Contactele murdare sau slăbite pot necesita doar curățare/strângere
Management REACTIV: reacție rapidă după apariția problemei, tratarea simptomelor
Exemplu clasic: mașina s-a oprit → siguranța arsă → suprasarcină → lubrifiant insuficient → pompă uzată → resturi metalice în pompă → cauza fundamentală = lipsa filtrului
Rezultatele: afișaj pe panel, output extern, sau stocate pentru diagnostic ulterior
Original IBM: coduri numerice pe portul I/O 0x80, vizibile cu POST card sau logic analyzer
Ulterior: secvențe de bipuri de la PC speaker
Codurile variază între producători de BIOS și chiar între versiuni
IBM original POST beep codes:
• 1 bip scurt = POST normal, sistem OK
• 2 bipuri scurte = eroare POST, cod pe ecran
• Fără bip = alimentare, system board, CPU deconectat
• Bip continuu = alimentare, system board, RAM sau tastatură
• 1 lung + 2 scurte = problemă display adapter
AMI BIOS beep codes:
• 1 = Memory refresh timer error
• 2 = Parity error in base memory (primii 64 KiB)
• 3 = Base memory read/write test error
• 5 = Processor failure
• 8 = Display memory error
• Bipuri continue = niciun modul RAM detectat
CompTIA A+ (examen):
• Bipuri scurte constante = alimentare defectă
• Ton lung continuu = defecțiune memorie
• Un lung + două scurte = defecțiune placă video
IBM POST diagnostic codes (intervale numerice):
100-199 = System boards, 200-299 = Memory, 300-399 = Keyboard
400-499 = Monochrome display, 500-599 = Color/graphics display
1700-1799 = Hard drive/adapter
• LED tastatură: 1 flash=ROM, 2=RAM, 3=Watchdog, 4=scurtcircuit
Defect detectat = când discrepanța (rezidualul) depășește un prag
Izolarea defectului = categorizarea tipului și localizării defecțiunii
• Oprirea echipamentului defect
Metode de colectare date: monitorizarea vibrațiilor, imaging termic, analiza particulelor din ulei
Procesare: analiză spectrală, wavelets, Fourier transform
Root cause failure analysis: identificarea cauzei originale (ex. rulment defect → aliniere greșită la montaj)
Diagnosticul stării nu este suficient → trebuie identificată cauza fundamentală
Strategii de mentenanță:
• Condition-based maintenance (pe baza stării)
• Planned preventive maintenance
• Preventive maintenance
• Corrective maintenance (fără diagnostic)
Care afirmație este corectă despre: Doi pași esențiali?
b) — cunoștințe de domeniu apriorice + strategii de căutare
Care afirmație este corectă despre: Focus inițial?
b) — schimbări recente ale sistemului sau mediului
Care afirmație este corectă despre: Troubleshooting eficient?
a) — înțelegerea clară a comportamentului așteptat + simptomele observate
Care afirmație este corectă despre: În electronică?
c) — componente sensibile termic (rezistența variază cu temperatura)
Care afirmație este corectă despre: Folosită în?
c) — IT operations, manufacturing, telecom, industrial process control, accident analysis
Scenariu: Analizezi un sistem hardware care utilizează conceptul de pașii diagnosticului hardware. Pe baza cunoștințelor din această lecție, răspunde la următoarele întrebări:
1. Troubleshooting = formă de problem solving, aplicată la repararea produselor sau proceselor defecte
2. Doi pași esențiali: cunoștințe de domeniu apriorice + strategii de căutare
3. Focus inițial: schimbări recente ale sistemului sau mediului
Metodologia de troubleshooting: procesul sistematic de diagnosticare și rezolvare a problemelor IT (CompTIA).