Network Troubleshooting Methodology - The Systematic Approach

Na voljo tudi v:

Metodologija za odpravljanje težav v omrežju: sistemski pristop

Zakaj je metodologija pomembna

Problem:

Rešitev:

Stroški reševanja težav z nevarnostmi:

Uvod: Znanstvena metoda, ki se uporablja za mrežno povezovanje

Odpravljanje težav z omrežjem je v osnovi vaja znanstvene metode:

Opazuj
Oblikujte hipotezo
Preizkusite hipotezo
Analiziraj rezultate
Izvajati fiks
Preveri

Ta članek zagotavlja strukturiran okvir za reševanje težav v omrežju, ki preprečuje skupne pasti, kot so:

Potrditev pristranskosti (glej samo za dokaze, ki podpirajo vaše začetno ugibanje)
Naključne spremembe brez diagnoze (pristop "spray in moli")
Določitev simptomov namesto vzrokov korenin
Krožno razhroščevanje brez dokumentiranja tega, kar je bilo preskušeno.

Pet ključnih vprašanj

Preden se potopite v tehnično diagnostiko, odgovorite na teh pet kritičnih vprašanj za zmanjšanje obsega vaše preiskave:

Vprašanje 1: Kaj se je pred kratkim spremenilo?

Dnevniki upravljanja sprememb
Pregled nedavnih zavez v sistemih upravljanja konfiguracij
Vprašaj: "Je včeraj delovalo?"

↓

Vprašanje 2: Koga to zadeva?

Ena naprava: Verjetno lokalna številka (NIC, kabel, konfiguracija)
Ena podmreža: Prehod, DHCP, ali stikalo vprašanje
Vsi: Osrednja infrastruktura, ISP ali razširjeno vprašanje
Posebna aplikacija: Programski strežnik, pravilo požarnega zidu ali DNS

↓

Vprašanje 3: Ali je stalno ali trajno?

Constant: Trda napaka (kabelski izrez, napačna nastavitev, navzdol storitev)
Časovni okvir: Zastoj med delovnim časom, načrtovani procesi
Intermitent/ Random: Dupleksno neskladje, okvara strojne opreme, prekinjena povezava

↓

Vprašanje 4: Ali ga lahko ponovite?

Da: Veliko lažje diagnosticirati (lahko test hipoteze)
Št.: Nastavite spremljanje/logging in počakajte na ponovitev

↓

Vprašanje 5: Kaj vidi druga stran?

Perspektiva odjemalca proti perspektivi strežnika
Zajemanje paketa pri viru proti cilju
Asimetrična pot? Drugačne poti za pošiljanje proti prejemu?

Diagnostični pristop na podlagi modela OSI

Model OSI zagotavlja strukturiran okvir za odpravljanje težav. Delo od plasti 1 (fizično) navzgor, ali od plasti 7 (Application) navzdol, odvisno od simptomov.

Pristop od spodaj navzgor (glavnica 1 → Plast 7)

Kdaj uporabljati:

Plast 1: Fizično

↓

Plast 2: podatkovna povezava

↓

Plast 3: omrežje

↓

Plast 4: Prevoz

↓

Plast 5–7: seja/prikaz/prijava

Top-down pristop (Layer 7 → Plast 1)

Kdaj uporabljati:

Primer:

Začnite na Layer 7 (Ali storitev SharePoint teče? DNS reševanje popraviti IP?) in delo navzdol le, če je potrebno.

Drevo odločanja: Ali je plast 1, 2 ali 3?

Uporabite to hitro diagnostično drevo, da ugotovite, katera plast ne deluje:

Lahko ping localhost (127.0.0.1)?

↓ NE

Problem: Operacijski sistem / Programska oprema

↓ DA

Lahko poiščeš svoj IP naslov?

↓ NO

Problem: Plast 1/2 - Krajevni omrežni vmesnik

↓ YES

Lahko ping privzeto vrata?

↓ NO

Problem: Plast 1/2 - Krajevno omrežje

↓ YES

Lahko ping oddaljeni gostitelj z IP naslovom?

↓ NO

Problem: Plast 3 - Routing

↓ YES

Ali lahko rešite DNS (Nslookup hostname)?

↓ NO

Težava: Nastavitev DNS

↓ YES

Ali lahko dosežete programska vrata (telnet gostiteljska vrata)?

↓ NO

Problem: požarni zid / Blokiranje vrat

↓ YES

Omrežje je v redu - vprašanje plasti programa

Tehnike osamitve

Ko imate hipotezo o vzroku, uporabite te izolacijske tehnike za potrditev ali zavrnitev:

1. Zamenjaj komponente sistemsko

Nasvet:

Menjava kablov z znanim kablom
Preskus na različnih vratih stikala
Poskusite z drugačnim NIC (ali USB omrežnim adapterjem)
Preskus iz različne odjemalne naprave
Premakni na drug VLAN/podnet

2. Zajemanje paketov na več točkah

Zajemanje prometa pri viru, vmesnih točkah in namembnem kraju, da se ugotovi, kje se paketi spustijo ali spremenijo:

# Capture on client
tcpdump -i eth0 -w client.pcap host server.example.com

# Capture on server
tcpdump -i eth0 -w server.pcap host client.example.com

# Compare:
# - Do packets leave client? (check client.pcap)
# - Do packets arrive at server? (check server.pcap)
# - If yes/no: problem is in the path between
# - If yes/yes but server doesn't respond: server-side issue

3. Testiranje zanke

Odprava zunanjih spremenljivk s preskušanjem povezljivosti znotraj ene same naprave:

# Test TCP stack without network
ping 127.0.0.1

# Test application listening locally
telnet localhost 80

# Test loopback on network interface (if supported)
# Some NICs support physical loopback for Layer 1 testing

4. Znano-dobro izhodiščne primerjave

Primerjajte konfiguracijo in vedenje z delovnim sistemom:

# Compare interface settings
diff <(ssh working-switch "show run int gi1/0/1") \
     <(ssh broken-switch "show run int gi1/0/1")

# Compare routing tables
diff <(ssh router1 "show ip route") \
     <(ssh router2 "show ip route")

Dokumentacija med odpravljanjem težav

Pravilna dokumentacija preprečuje krožno razhroščevanje, ko večkrat poskusite isto stvar, ne da bi se tega zavedali.

Predloga za odpravljanje težav

Issue ID: TICKET-12345
Date/Time: 2026-02-02 14:30 UTC
Reported By: Jane Smith (jane.smith@company.com)
Affected Users: ~50 users in Building A, 3rd floor
Symptom: Cannot access file server \\fileserver01

Initial Observations:
- Issue started around 14:00 UTC
- Only affects Building A, 3rd floor
- Other buildings can access fileserver01
- Ping to fileserver01 (10.1.50.10) times out from affected users
- Ping to default gateway (10.1.30.1) succeeds

Tests Performed:
1. [14:35] Checked switch port status: gi1/0/15 is UP/UP
2. [14:38] Checked VLAN assignment: Port is in VLAN 30 (correct)
3. [14:42] Checked interface errors: 1,234 CRC errors on gi1/0/15
4. [14:45] Replaced patch cable - still seeing CRC errors
5. [14:50] Moved uplink to different port (gi1/0/16) - errors persist
6. [14:55] Checked fiber cleanliness - dirty connector found

Root Cause:
Dirty fiber connector on uplink between Building A floor switch
and distribution switch causing CRC errors and packet loss

Resolution:
Cleaned fiber connector with proper cleaning kit. CRC errors
dropped to zero. File server access restored.

Verification:
Users confirmed file server accessible. Monitored for 15 minutes
with no errors.

Time to Resolution: 25 minutes

Zakaj je dokumentacija pomembna:

Študije primerov v resničnem svetu

Študija primera 1: „Omrežje je počasno“ (v bistvu: izčrpavanje TCP oken)

Temptom

Odzivni časi aplikacij podatkovne zbirke so se razgradili s < 100 ms na 5+ sekund. Aplikacijska ekipa je krivila "zamudenost mreže".

Začetna domneva (napačno)

Omrežna prezasedenost
WAN povezava nasičena
ozko grlo požarnega zidu

Diagnostični proces

Preskus pinga:
Preskus pasovne širine (iperf):
Zajemanje paketov:
Pregled strežnika:

Koreninski vzrok

Database strežnik OS pufri so bili premajhni za visoko pasovno širino × zamik izdelka. TCP okno bi se napolnilo, kar bi prisililo pošiljatelja, da počaka.

Ločljivost

# Increased TCP receive buffers on Linux database server
sysctl -w net.ipv4.tcp_rmem="4096 87380 16777216"
sysctl -w net.core.rmem_max=16777216

Naučena lekcija

Ne domnevaj:

Študija primera 2: Intermittent Connectivity (Pravzaprav: Duplex Mismatch)

Symptom

Povezava s strežnikom bi padla naključno, še posebej pod obremenitvijo. Včasih je delovalo dobro, včasih popolnoma neodzivno.

Initial Assumptions (Wrong)

Neuspeh NIC
Slab kabel
Preklopi vprašanje strojne opreme

Diagnostic Process

Pregled vmesnika:
Števci napak:
Pozna trčenja:

Root Cause

Samodejna pogajanja niso uspela. Server se je dogovoril za dupleks. Trki so se pojavili pod obremenitvijo le, ko sta obe strani poskušali oddajati hkrati.

Resolution

! Cisco switch - force full duplex
interface GigabitEthernet1/0/10
 speed 1000
 duplex full

Lesson Learned

Preveri oba konca:

Študija primera 3: "Ne morem doseči določenih spletnih strani" (v bistvu: črna luknja MTU/PMTUD)

Symptom

Uporabniki so lahko brskali po nekaterih spletnih straneh (Google, Yahoo), ne pa po drugih (bančna spletna stran, portal podjetja). Majhne zahteve HTTP so delovale, velike strani so se iztekle.

Initial Assumptions (Wrong)

Izdaja DNS
Požarni zid blokira posebna mesta
Problem usmerjanja ISP

Diagnostic Process

Ločljivost DNS:
Preskus pinga:
Majhna zahteva HTTP (curl):
Velik prenos:
Preskus MTU:ping -M do -s 1472ping -M do -s 1473
Spremljanje ICMP:

Root Cause

Tunel VPN je zmanjšal MTU na 1400, vendar je požarni zid blokiral sporočila ICMP "Fragmentation Need". Pot MTU Discovery (PMTUD) ni mogla delovati, saj je ustvarila črno luknjo MTU. Majhni paketi fit, veliki paketi z DF bit set so tiho spustili.

Resolution

! Implemented TCP MSS clamping on router
interface Tunnel0
 ip tcp adjust-mss 1360

! Alternative: Allow ICMP Type 3 Code 4 through firewall
access-list 101 permit icmp any any packet-too-big

Lesson Learned

Velikost je pomembna:

Študija primera 4: vprašanja kakovosti VoIP (v bistvu: nenastavitev QoS)

Symptom

Glasovni klici so imeli razkošen zvok. Do tega je prišlo samo med delovnim časom (9 minut do 5 minut).

Initial Assumptions (Wrong)

Nezadostna pasovna širina
Strežnik VoIP je preobremenjen
Kakovost povezave ISP

Diagnostic Process

Preskus širine pasu:
Pregled QoS:
Pregled v vrsti:
Zajemanje paketov:

Root Cause

Politika QoS je obstajala, vendar je bilo dodeljevanje pasovne širine obratno: najboljši cilj je dobil 60 %, glas pa 5 %. V delovnih urah, ko se je promet podatkov povečal, so zaradi preplavljanja vrstnega reda spustili glasovne pakete.

Resolution

! Corrected QoS policy
policy-map WAN-QOS
 class VOICE
  priority percent 33
 class VIDEO
  bandwidth percent 25
 class CRITICAL-DATA
  bandwidth percent 20
 class class-default
  bandwidth percent 22

Lesson Learned

Časovno utemeljena vprašanja = zmogljivost:

Referenca ukaza Symptoma

Temptom	Plast	Ukazi za zagon	Kaj iskati
Ni povezave svetlobe	Plast 1	`show interfaces ethtool eth0`	Stanje: dol, brez nosilca, odklopljen kabel
Izguba paketa	Plast 1/2	`show interfaces show interfaces counters errors`	Napake CRC, pritlikavci, velikani, trki, pozni trki
Ne morem ping portala	Plast 2	`arp -a show mac address-table show spanning-tree`	Ni vnosa ARP, MAC ni naučen, STP blokiranje
Ni mogoče doseči oddaljenega podmrežja	Plast 3	`traceroute show ip route show ip route summary`	Manjka pot, napačen naslednji hop, ruting zanka
Povezava zavrnjena	Plast 4	`telnet host port netstat -an tcpdump`	Servis ne posluša, požarni zid blok, TCP RST
Počasna učinkovitost	Plast 4+	`ping (RTT) iperf3 tcpdump show interfaces`	Visoka zakasnitev, omejitev pasovne širine, TCP retransmisije, nič oken
Ni mogoče rešiti imena gostitelja	Plast 7	`nslookup dig cat /etc/resolv.conf`	DNS strežnik nedosegljiv, napačen DNS config, NXDOMAIN
Intermittentne kapljice	Layer 1/2	`ping -f (flood) show logging show interfaces`	Dupleks neusklajenost, neuspešni kabel, rekonvergenca STP
Včasih deluje, ne drugi.	Več	`Extended ping Packet capture Interface statistics`	Vprašanje izravnave obremenitve, asimetrija ECMP, preplavljanje tabele

Kdaj postopevati

Vedite, kdaj je treba preiti na TAC prodajalca ali višje inženirje. Tesnjenje, kadar:

Izčrpali ste vse korake v vaši bazi znanja.
Vprašanje zahteva dostop/odpuste, ki jih nimate
Težava vključuje napako pri prodaji programske opreme ali strojne opreme
Poslovni vpliv je kritičen in časovno občutljiv
Več ekip mora sodelovati (aplikacija + omrežje + strežnik)

Pred eskalacijo:

Popoln opis simptomov
Časovni okvir začetka izdaje
Diagnostični ukazi tečejo in njihov izhod
Nastavitev varnostne kopije
Zajemanje paketov (če je ustrezno)
Kar si že poskusil.

Gradite svojo bazo osebnega znanja

Vsaka seja je priložnost za učenje. Gradite osebno bazo znanja:

1. Ustvarite dnevnik za odpravljanje težav

# Example structure
~/troubleshooting-journal/
├── 2026-01-15-duplex-mismatch.md
├── 2026-01-22-mtu-black-hole.md
├── 2026-02-02-tcp-window-exhaustion.md
└── README.md  # Index of all issues

# Each file contains:
# - Symptom
# - Diagnostic steps
# - Root cause
# - Resolution
# - Lessons learned
# - Related tickets/documentation

2. Zgradite ukazni goljufijski list

Organizirajte pogosto uporabljene ukaze po scenariju za hitro referenco med odpravljanjem težav.

3. Dokumentirajte svoje omrežje

Topološki diagrami (Layer 2 in Plast 3)
Dokumentacija sheme naslovov IP
Naloge VLAN
Standardne konfiguracije (predlogi)
Znano dobro izhodišče (vmesna statistika pred težavami)

Pogostih zdravil proti očem, ki se jih je treba izogibati

Spreminjanje konfiguracij brez razumevanja problema pogosto stvari poslabša ali zakrije pravo vprašanje.

Pogosto so "vprašanja omrežja" aplikacije, strežniki ali problemi na strani strank. Zberi dokaze, preden sprejmeš krivdo.

Tratili boste čas s ponavljanjem testov, ki ste jih že naredili, ali pa ne boste mogli pojasniti kolegom, kaj ste poskusili.

Intermitentne težave so pogosto zgodnji opozorilni znaki bližajočega se neuspeha. Preišči jih, preden postanejo kritični.

Ponovni zagon naprave bi lahko obnovil storitev, vendar če ne ugotovite, zakaj je potrebna ponovna zagon, se bo problem ponovil.

Povzetek: Pregledni seznam za odpravljanje sistemskih težav

Odgovori na pet ključnih vprašanj (Kaj se je spremenilo?) Kdo je prizadet? Stalno ali občasno? Ponovljivo? Kaj vidi druga stran?)
Zberite začetne simptome in poročila uporabnikov
Preveri nedavne spremembe ali vzdrževanje

Metodično delo skozi plasti OSI (od spodaj navzgor ali od zgoraj navzdol)
Med preskušanjem spremenite eno spremenljivko
Dokumentirajte vsak preskus in njegov rezultat
Uporabite zajem paketov za prikaz dejanskega vedenja prometa
Primerjava z znanimi osnovnimi vrednostmi

Preverjanje fiks dejansko rešiti vprašanje
Vzrok in ločljivost dokumenta
Posodobite svojo bazo znanja
Če se nastavitve spremenijo, posodobi dokumentacijo
Razmislite: Ali bi se lahko nadzor tega prijel že prej?

Sklep

Odpravljanje težav z omrežjem je znanost in umetnost. Znanost sledi sistematični metodologiji, pravilno uporablja diagnostična orodja in razume protokole. Umetnost je vedeti, kateri testi najprej teči na podlagi simptomov, prepoznavanje vzorcev iz izkušenj, in vedeti, kdaj za stopnjevanje.

Z upoštevanjem sistematičnega pristopa, opisanega v tem članku – postavljanje pravih vprašanj, metodično delo prek modela OSI, dokumentiranje vaših korakov in učenje iz vsake številke – boste postali učinkovitejši pri odpravljanju težav in se izognili skupnim pastem, ki vodijo do zapravljenega časa in napačnih popravkov.

Zapomni si:

Zadnja posodobitev: 2. februar 2026