Network Troubleshooting Methodology - The Systematic Approach

Metodika řešení problémů sítě: Systematický přístup

Proč je metodika důležitá

Problém: Databázová aplikace je "pomalá". Síťový tým obviňuje server tým. Serverový tým viní síť. Mezitím jsou uživatelé frustrovaní a hodiny jsou promarněny kruhovým laděním.

Řešení: Systematický, vědecký přístup k řešení problémů, který používá důkazy, nikoli předpoklady, k identifikaci základních příčin.

Náklady na haphazard řešení problémů: Plýtvání časem, nesprávné opravy, které zakrývají skutečné problémy, ukazující prsty mezi týmy a degradované zkušenosti uživatelů.

Úvod: Vědecká metoda aplikovaná na síť

Řešení síťových problémů je v zásadě cvičení ve vědecké metodě:

  1. Sledujte. příznaky a shromažďovat data
  2. Vytvořit hypotézu o kořenové příčině
  3. Otestujte hypotézu s diagnostickými nástroji
  4. Analyzovat výsledky a potvrdit nebo odmítnout hypotézu
  5. Provést opravu na základě potvrzené kořenové příčiny
  6. Ověřit problém je vyřešen

Tento článek poskytuje strukturovaný rámec pro řešení problémů v síti, který zabraňuje společným úskalím jako:

  • Potvrzení předpojatosti (hledá pouze důkazy, které podporují váš počáteční odhad)
  • Náhodné změny bez diagnózy (přístup "sprej a modlitba")
  • Nastavování příznaků namísto kořenových příčin
  • Kruhové ladění bez zdokumentování toho, co bylo vyzkoušeno

Pět klíčových otázek

Než se ponoříte do technické diagnostiky, odpovězte na těchto pět kritických otázek, abyste zúžili svůj rozsah vyšetřování:

Otázka 1: Co se v poslední době změnilo?

Změny konfigurace? Nový hardware? Aktualizace softwaru? Topologické úpravy?

  • Kontrolovat protokoly o správě změn
  • Přezkum nedávných závazků v systémech řízení konfigurace
  • Zeptej se: "Fungovalo to včera?"
Otázka 2: Kdo je postižen?

Jeden uživatel? Jedna budova? Všichni? Pouze pro specifické použití?

  • Jedno zařízení: Pravděpodobně místní problém (NIC, kabel, konfigurace)
  • Jedna podsíť: Gateway, DHCP, nebo spínací problém
  • Všichni: Základní infrastruktura, ISP nebo rozšířená problematika
  • Zvláštní aplikace: Aplikační server, pravidlo firewall, nebo DNS
Otázka 3: Je to konstantní nebo přerušované?

Stává se to pořád? Jen v určitých hodinách? Náhodné události?

  • Konstanta: Tvrdé selhání (řezání kabelu, chybná konfigurace, downservice)
  • Časový základ: Přerušení během pracovní doby, plánované procesy
  • Intermitent / Random: Duplex nesoulad, selhání hardware, přerušovaný odkaz
Otázka 4: Můžete to předělat?

Můžete spustit problém na požádání?

  • Ano: Mnohem jednodušší diagnostika (může testovat hypotézy)
  • Ne: Nastavit monitorování / logování a čekat na obnovení
Otázka 5: Co vidí druhá strana?

Zkontrolujte oba konce spoje

  • Náhled klienta vs. pohled serveru
  • Zachycení balíku u zdroje vs. cíl
  • Asymetrické směrování? Různé cesty pro odeslání vs. příjem?

Diagnostický přístup založený na OSI modelech

Model OSI poskytuje strukturovaný rámec pro řešení problémů. Práce od vrstvy 1 (Fyzikální) nahoru, nebo od vrstvy 7 (Aplikace) dolů, v závislosti na symptomech.

Bottom- up approach (vrstva 1 → vrstva 7)

Při použití: Kompletní ztráta konektivity, žádné světlo, nebo fyzické příznaky vrstvy

Vrstva 1: Fyzikální
  • Kontrola: Kabel připojen? Spojovací světla zapnuta? Čistá vláknina?
  • Příkazy: show interfaces, ethtool eth0
  • Hledejte: chyby CRC, kolize, pozdní kolize, kruhy, obři
Vrstva 2: Datový odkaz
  • Kontrola: Správný vlan? Port povolen? Blokování STP?
  • Příkazy: show mac address-table, show spanning-tree
  • Podívejte se na: MAC flapping, STP topologické změny, VLAN neshody
Vrstva 3: Síť
  • Kontrola: Může ping výchozí brána? Kulatý stůl správně?
  • Příkazy: ping, traceroute, show ip route
  • Hledat: Chybějící trasy, nesprávné nexthop, routingové smyčky
Vrstva 4: Doprava
  • Kontrola: Může navázat spojení TCP? Blokování firewallu?
  • Příkazy: telnet host port, netstat -an, zachycení paketu
  • Hledat: TCP přenosy, nula okna, RST pakety
Vrstva 5-7: Sezení / Prezentace / Aplikace
  • Kontrola: DNS řešení? Přihláška? Oprávnění funguje?
  • Příkazy: nslookup, dig, curl -v
  • Podívejte se na: DNS selhání, chyby aplikace, Timeout problémy

Top- Down approach (Layer 7 → Layer 1)

Při použití: Specifické problémy týkající se použití, pokud existuje základní konektivita

Příklad: "Můžu prohledávat internet, ale nemůžu se dostat na stránku společnosti SharePoint."

Začít na Layer 7 (Je SharePoint služba běží? DNS řešení opravy IP?) a pracovat dolů pouze v případě potřeby.

Rozhodovací strom: je to vrstva 1, 2 nebo 3?

Použijte tento rychlý diagnostický strom k určení, která vrstva selhává:

Můžete ping localhost (127.0.0.1)?
↓ NO
Problém: Operační systém / Vydání softwaru

TCP / IP zásobník nefunguje. Zkontrolujte služby OS, znovu nainstalujte síťové ovladače.

↓ ANO
Můžete napíchnout vlastní IP adresu?
↓ NO
Problém: Vrstva 1 / 2 - Rozhraní lokální sítě

NIC deaktivováno, špatný ovladač, kabel odpojen. Kontrola: ip link show nebo Správce zařízení

↓ YES
Můžete ping výchozí brána?
↓ NO
Problém: Vrstva 1 / 2 - Lokální síť

Check: Fyzický kabel, status přepínače, zadání vlakových spojů, ARP tabulka

↓ YES
Můžete ping vzdálený hostitel pomocí IP adresy?
↓ NO
Problém: Vrstva 3 - Směrování

Kontrola: Směrovací stůl, firewall pravidla, ACL. Použití traceroute zjistit, kde se pakety zastaví

↓ YES
Můžete vyřešit DNS (nslookup hostname)?
↓ NO
Problém: Konfigurace DNS

Zkontrolujte: nastavení DNS serveru, dostupnost DNS serveru, blokovací port firewall 53

↓ YES
Dosáhnete aplikačního portu (telnet host port)?
↓ NO
Problém: Firewall / Port Blocking

Kontrola: Firewall pravidla, bezpečnostní skupiny, servis poslech na portu

↓ YES
Síť je OK - Vydání vrstvy aplikace

Problém je v samotné aplikaci, autentizaci nebo konfiguraci aplikace

Izolační techniky

Pokud máte hypotézu o kořenové příčiny, použijte tyto techniky izolace potvrdit nebo odmítnout:

1. Systematicky nahrazovat komponenty

Tip: Změnit jednu proměnnou najednou. Pokud vyměníte jak kabel, tak přepínací port, nebudete vědět, která ho opravila.
  • Swap patch kabel s known- dobrý kabel
  • Zkouška na jiném přepínacím portu
  • Zkuste jiný NIC (nebo USB síťový adaptér)
  • Zkouška z jiného klientského zařízení
  • Přesunout se do různých vlakových / podsítí

2. Zachycení balíčků na více místech

Zachytit provoz ve zdrojích, mezibodech a cílech za účelem zjištění, kde jsou pakety upuštěny nebo upraveny:

# Capture on client tcpdump -i eth0 -w client.pcap host server.example.com # Capture on server tcpdump -i eth0 -w server.pcap host client.example.com # Compare: # - Do packets leave client? (check client.pcap) # - Do packets arrive at server? (check server.pcap) # - If yes/no: problem is in the path between # - If yes/yes but server doesn't respond: server-side issue

3. Zkoušení zpětné vazby

Odstranit vnější proměnné testováním konektivity v rámci jednoho zařízení:

# Test TCP stack without network ping 127.0.0.1 # Test application listening locally telnet localhost 80 # Test loopback on network interface (if supported) # Some NICs support physical loopback for Layer 1 testing

4. Knowngood základní srovnání

Porovnejte konfiguraci a chování s pracovním systémem:

# Compare interface settings diff <(ssh working-switch "show run int gi1/0/1") \ <(ssh broken-switch "show run int gi1/0/1") # Compare routing tables diff <(ssh router1 "show ip route") \ <(ssh router2 "show ip route")

Dokumentace při řešení problémů

Správná dokumentace zabraňuje kruhovému ladění, kde zkoušíte stejnou věc vícekrát, aniž byste si to uvědomili.

Šablona pro řešení problémů

Issue ID: TICKET-12345 Date/Time: 2026-02-02 14:30 UTC Reported By: Jane Smith (jane.smith@company.com) Affected Users: ~50 users in Building A, 3rd floor Symptom: Cannot access file server \\fileserver01 Initial Observations: - Issue started around 14:00 UTC - Only affects Building A, 3rd floor - Other buildings can access fileserver01 - Ping to fileserver01 (10.1.50.10) times out from affected users - Ping to default gateway (10.1.30.1) succeeds Tests Performed: 1. [14:35] Checked switch port status: gi1/0/15 is UP/UP 2. [14:38] Checked VLAN assignment: Port is in VLAN 30 (correct) 3. [14:42] Checked interface errors: 1,234 CRC errors on gi1/0/15 4. [14:45] Replaced patch cable - still seeing CRC errors 5. [14:50] Moved uplink to different port (gi1/0/16) - errors persist 6. [14:55] Checked fiber cleanliness - dirty connector found Root Cause: Dirty fiber connector on uplink between Building A floor switch and distribution switch causing CRC errors and packet loss Resolution: Cleaned fiber connector with proper cleaning kit. CRC errors dropped to zero. File server access restored. Verification: Users confirmed file server accessible. Monitored for 15 minutes with no errors. Time to Resolution: 25 minutes
Proč dokumentace záleží: Bez tohoto záznamu, příště, až někdo uvidí chyby CRC na tomto spínači, mohou ztrácet čas nahrazením kabelů a testováním portů místo toho, aby okamžitě kontroloval čistotu vláken.

Real- World Case Studies

Case Study 1: "The Network is Slow" (Vlastně: TCP Window Exhaustion)

Příznaky

Odezva databázové aplikace se sníží z < 100ms na 5 + sekund. Aplikační tým obvinil "síť latence".

Počáteční předpoklady (nesprávné)

  • Síťové přetížení
  • WAN link nasycený
  • Hranice firewall

Diagnostický proces

  1. Ping test: RTT = 2ms (výborná, vylučuje latenci 3)
  2. Zkouška šířky pásma (iperf): 950 Mbps na 1 Gbps odkaz (bez přetížení)
  3. Zachycení balíčku: Odhalené pakety TCP Zero Window z databázového serveru
  4. Kontrola serveru: Databázový server přijímá buffery = 64KB (malé!)

Kořenová příčina

Databázové servery OS buffery byly příliš malé pro high-šířka pásma × zpoždění produktu. Okno TCP by se naplnilo, nutilo odesílatele čekat.

Usnesení

# Increased TCP receive buffers on Linux database server sysctl -w net.ipv4.tcp_rmem="4096 87380 16777216" sysctl -w net.core.rmem_max=16777216

Poučení

Nepředpokládejte: "Pomalý" neznamená vždy "síťová latence". Vždy shromáždit důkazy (ping pro latentnost, zachycení paketů pro chování) před skákání k závěrům.

Case Study 2: Intermitentní konektivita (Vlastně: Duplex Mismatch)

Symptom

Spojení se serverem by se snížilo náhodně, zejména při zatížení. Někdy to fungovalo dobře, někdy úplně nereagovalo.

Initial Assumptions (Wrong)

  • Chyba NIC
  • Špatný kabel
  • Výměna hardwaru

Diagnostic Process

  1. Kontrola rozhraní: Server NIC = 1000 / Full, Switch port = 1000 / Half (neshoda!)
  2. Chybové čítače: Masivní počet kolizí na přepínači
  3. Pozdní kolize: Ukazatel duplexní nesouladu

Root Cause

Automatické vyjednávání selhalo. Server vyjednal fullduplex, přepínač spadl zpět do poloduplexu. Ke srážkám došlo při zatížení pouze tehdy, když se obě strany snažily vysílat současně.

Resolution

! Cisco switch - force full duplex interface GigabitEthernet1/0/10 speed 1000 duplex full

Lesson Learned

Zkontrolujte oba konce: Stav rozhraní ukazuje dojednaná nastavení. Nesoulad znamená, že autovyjednávání selhalo. Vždy hard-code rychlost / duplex pro servery.

Case Study 3: "Can 't Reach určité webové stránky" (Vlastně: MTU / PMTUD Black Hole)

Symptom

Uživatelé mohli procházet některé webové stránky (Google, Yahoo), ale ne jiné (bankovní stránky, firemní portál). Malé HTTP požadavky pracoval, velké stránky načasovány.

Initial Assumptions (Wrong)

  • Vydání DNS
  • Firewall blokuje konkrétní stránky
  • Problém směrování ISP

Diagnostic Process

  1. DNS rozlišení: Funguje dobře pro všechny stránky
  2. Ping test: Může ping "nedostupné" stránky
  3. Malý HTTP požadavek (curl): Práce pro malé stránky
  4. Velké stažení: Stalls after TCP handshake
  5. Zkouška MTU: ping -M do -s 1472 úspěchy, ping -M do -s 1473 selhání
  6. Monitorování ICMP: Neobdržené zprávy "Fragmentace potřebná" (kód 4 typu 3)

Root Cause

VPN tunel snížil MTU na 1400, ale firewall blokoval ICMP zprávy "Fragmentace potřebná". Cesta MTU Discovery (PMTUD) nemohl fungovat, vytvoření černé díry MTU. Malé pakety sedí, velké pakety s bitem DF byly tiše staženy.

Resolution

! Implemented TCP MSS clamping on router interface Tunnel0 ip tcp adjust-mss 1360 ! Alternative: Allow ICMP Type 3 Code 4 through firewall access-list 101 permit icmp any any packet-too-big

Lesson Learned

Na velikosti záleží: Pokud malé požadavky fungují, ale velké převody selhávají, podezření MTU / fragmentace problémy. Použijte ping s DF bitem k testování dráhy MTU.

Case Study 4: Otázky kvality VoIP (Ve skutečnosti: QoS chybná konfigurace)

Symptom

Hlasové hovory měly pichlavý zvuk, přerušované výpadky. K tomu došlo pouze během pracovní doby (9-5 hodin).

Initial Assumptions (Wrong)

  • Nedostatečná šířka pásma
  • VoIP server přetížen
  • Kvalita připojení ISP

Diagnostic Process

  1. Zkouška šířky pásma: Odkaz pouze 40% využitý během rušné hodiny
  2. Kontrola QoS: Hlasová doprava označená správně DSCP EF (46)
  3. Kontrola fronty: Hlasová fronta měla pouze 5% rozdělení šířky pásma (mělo by být 33%)
  4. Zachycení balíčku: Hlasové pakety se uvolňují během přetížení

Root Cause

QoS politika existovala, ale rozdělení šířky pásma bylo obráceně: best- úsilí dostalo 60%, hlas dostal 5%. Během pracovní doby, kdy se zvýšil datový provoz, byly hlasové pakety upuštěny kvůli přetečení fronty.

Resolution

! Corrected QoS policy policy-map WAN-QOS class VOICE priority percent 33 class VIDEO bandwidth percent 25 class CRITICAL-DATA bandwidth percent 20 class class-default bandwidth percent 22

Lesson Learned

Časové otázky = kapacita: Pokud se problémy vyskytnou jen během pracovní doby, není to těžké selhání, ale kapacita / QoS problém. Zkontrolujte statistiky front, nejen celkovou šířku pásma.

Odkaz na příkaz pomocí příznaků

Příznaky Vrstva Příkazy ke spuštění Co hledat
Žádné světlo spojení Vrstva 1 show interfaces
ethtool eth0
Stav: dole, bez nosiče, kabel odpojen
Ztráta paketu Vrstva 1 / 2 show interfaces
show interfaces counters errors
Chyby CRC, kruhy, obři, kolize, pozdní kolize
Can 't ping gateway Vrstva 2 arp -a
show mac address-table
show spanning-tree
Žádný ARP vstup, MAC se nenaučil, STP blokování
Nedosáhnu na vzdálenou subsíť. Vrstva 3 traceroute
show ip route
show ip route summary
Chybějící trasa, chybný nexthop, směrovací smyčka
Spojení odmítnuto Vrstva 4 telnet host port
netstat -an
tcpdump
Servis neposlouchá, firewall block, TCP RST
Pomalý výkon Vrstva 4 + ping (RTT)
iperf3
tcpdump
show interfaces
Vysoká latence, omezení šířky pásma, TCP přenosy, nulová okna
Nelze vyřešit jméno hostitele Vrstva 7 nslookup
dig
cat /etc/resolv.conf
DNS server nedostupný, špatný DNS config, NXDOMAIN
Intermitentní kapky Layer 1/2 ping -f (flood)
show logging
show interfaces
Duplex nesoulad, selhání kabelu, STP rekonvergence
Někdy funguje, ne jiné. Vícečetné Extended ping
Packet capture
Interface statistics
Vyvažování zatížení, asymetrie ECMP, přetok tabulky stavů

Kdy Escalate

Vědět, kdy eskalovat prodávat TAC nebo senior inženýři. Eskalovat, pokud:

  • Vyčerpal jsi všechny kroky k řešení problémů ve své znalostní základně.
  • Vydání vyžaduje přístup / oprávnění, které nemáte
  • Problém zahrnuje prodejce software chyba nebo hardware defekt
  • Dopad podnikání je kritický a časově citlivý
  • Několik týmů musí spolupracovat (aplikace + síť + server)
Před eskalováním: Dokumentuj všechno, co jsi zkusil. TAC inženýři potřebují tyto informace, aby se zabránilo opakování vašich kroků. Zahrnout:
  • Kompletní popis příznaků
  • Časová osa zahájení emise
  • Diagnostické příkazy běží a jejich výstup
  • Nastavení záloh
  • Zachycení balíčků (je-li to relevantní)
  • Co už jste zkoušeli.

Budování vaší osobní znalostní základny

Každé problémové sezení je poučná příležitost. Vytvořit osobní znalostní základnu:

1. Vytvořit časopis pro řešení problémů

# Example structure ~/troubleshooting-journal/ ├── 2026-01-15-duplex-mismatch.md ├── 2026-01-22-mtu-black-hole.md ├── 2026-02-02-tcp-window-exhaustion.md └── README.md # Index of all issues # Each file contains: # - Symptom # - Diagnostic steps # - Root cause # - Resolution # - Lessons learned # - Related tickets/documentation

2. Vybudovat příkazový Cheat list

Organizovat často používané příkazy podle scénáře pro rychlou referenci při řešení problémů.

3. Dokumentovat svou síť

  • Topologické diagramy (vrstva 2 a vrstva 3)
  • Dokumentace systému IP adres
  • Úkoly podle směrnice o navracení
  • Standardní konfigurace (šablony)
  • Known- good základní linie (statistika rozhraní před problémy)

Časté anti- vzory, aby se zabránilo

NEDĚLAT: Provést náhodné změny bez diagnózy

Změna konfigurace bez pochopení problému často věci zhoršuje nebo maskuje skutečný problém.

Předpokládejme, že síť je vždy na vině.

Často "síťové problémy" jsou problémy s aplikací, serverem nebo klientskými stránkami. Shromážděte důkazy, než přijmete vinu.

Přeskočit dokumentování kroků při řešení problémů

Budete ztrácet čas opakovanými testy, které jste již provedli, nebo nebudete schopni vysvětlit kolegům, co jste zkoušeli.

Ignorovat občasné problémy

Intermitentní problémy jsou často časné varovné příznaky blížícího se selhání. Prozkoumejte je, než se stanou kritickými.

NEDOSTATEČNÉ: Spravte příznaky namísto kořenových příčin

Restartování zařízení může obnovit službu, ale pokud nezjistíte, proč to potřebuje restartovat, problém se obnoví.

Souhrn: Kontrolní seznam systémových problémů

Než začnete

  • Odpovězte na pět klíčových otázek (Co se změnilo? Kdo je ovlivněn? Stálá nebo přerušovaná? Reprodukovatelné? Co vidí druhá strana?
  • Shromáždit počáteční příznaky a uživatelské zprávy
  • Zkontrolujte nedávné změny nebo údržbu

-------------------------------------------------- Během řešení problémů

  • Pracovat metodicky přes OSI vrstvy (zdola nahoru nebo shora dolů)
  • Změnit jednu proměnnou v době testování
  • Dokumentovat každý test a jeho výsledek
  • Použít soubory paketů pro zobrazení aktuálního dopravního chování
  • Porovnat s dobře známými základními liniemi

Po rozlišení

  • Ověřit opravu skutečně vyřešil problém
  • Základní příčina a rozlišení dokumentu
  • Aktualizovat svou znalostní základnu
  • Pokud se konfigurace změnila, aktualizujte dokumentaci
  • Vezměme si: Mohlo by monitorování zachytit to dříve?

Závěr

Síťové řešení problémů je věda i umění. Věda se řídí systematickou metodikou, pomocí diagnostických nástrojů správně, a porozumění protokoly. Umění je vědět, které testy spustit jako první na základě příznaků, rozpoznat vzory ze zkušenosti, a vědět, kdy se stupňovat.

Následováním systematického přístupu uvedeného v tomto článku - pokládání správných otázek, metodicky práce prostřednictvím modelu OSI, dokumentování vašich kroků a učení se z každého problému - se stanete účinnějšími při řešení problémů a vyhnout se společným nástrahám, které vedou k plýtvání časem a nesprávným opravám.

Pamatujte: Cílem není jen obnovit službu, ale pochopit, proč selhala, abyste tomu zabránili.


Aktualizováno: 2. února 2026