Network Troubleshooting Methodology - The Systematic Approach
Metodat e trajtimit të rrjetit: Metodat sistematike
Pse ka rëndësi metoda?
Problemi: Një program i dhënash është "e ulët." Ekipi i rrjetit fajëson ekipin e serverit. Ekipi i serverit fajëson rrjetin. Ndërkohë, përdoruesit janë të zhgënjyer dhe orët harxhohen në debug rrethore.
Zgjidhja: Një metodë sistematike dhe shkencore për të goditur me vështirësi, që përdor prova, jo supozime, për të identifikuar shkaqet rrënjësore.
Kostoja e shoshitjes së Haphazarit: Koha e humbur, ndreq gabim që maskojnë probleme të vërteta, pikat e gishtave midis ekipeve, dhe përvojën e degraduar të përdoruesit.
Futja: Metoda shkencore e aplikuar për rrjetin
Problemi në rrjet është në thelb një ushtrim në metodën shkencore:
- Shiko Simptomat dhe mblidhni të dhënat
- Formoni një hipotezë për
- Vër në provë hipotezën me
- Analizo rezultatet Dhe vërtetone ose mohone.
- a bazuar në shkakun bazë të konfirmuar
- Verifikimi Problemi është zgjidhur
Ky artikull siguron një strukturë të strukturuar për gjuajtjen në rrjet që pengon grackat e zakonshme si:
- Konfirmimi
- Ndryshimet e rastit pa diagnozë (përqasja " Lutu dhe lutu")
- Përcaktimi i simptomave në vend të shkaqeve rrënjësore
- Gjetja e debug cekular pa dokumentuar atë që është provuar
Pesë pyetjet kryesore
Para se të zhytesh në diagnoza teknike, përgjigjju këtyre pesë pyetjeve kritike për të ngushtuar fushën tënde të hetimit:
Ndryshimet e konfigurimit? Një hardware të re? Përditësimet e programeve? Ndryshimet e topologjisë?
- Kontrolli
- Rishikimet e fundit në sistemet e menazhimit të konfigurimit
- Pyet: "Po funksiononte dje?"
Një përdorues? Një ndërtesë? Të gjithë? Aplikim specifik?
- Një dispozitiv: Ka të ngjarë një numër lokal (NIC, kabllor, konfigurim)
- Një nënnet: Porta, DHCP ose çështja e ndryshimit
- Të gjithë: Infrastruktura kore, ISP ose çështja e përhapur
- Program specifik: Aplikativi server, rregulli i firewall-it, ose DNS
Ndodh gjithmonë? Vetëm gjatë disa orëve? Raste të rastit?
- Kontrolli: Dështim i vështirë (prerje e mundshme, konfigurim i gabuar, shërbim i ulur)
- Ora: Pagimi gjatë orëve të biznesit, proceset e planifikuara
- Ndërfaqe (Random): Lidhje e ndërlikuar, hardware e dështuar, lidhje intermitente
A mund ta ndezësh problemin me kërkesën?
- Po: Shumë më e lehtë për t'u diagnostikuar (mund të testojnë hipotezat)
- Jo: Cakto monitorimin/llogaritjen dhe prit përsëritjen
Kontrollo dy skajet e lidhjes
- Perspektiva e klientit kundër server-it
- Kapja e Packet tek burimi kundër destinacionit
- Ametrike? Rrugë të ndryshme për të dërguar të marrë?
Metoda diagnoze e OSI-Bazuar
Modeli OSI ofron një strukturë të strukturuar për të goditur. Punoni nga niveli 1 (Physike) lart ose nga niveli 7 (Aplikimi) në varësi të simptomave.
Në fund
Kur duhet përdorur: Humbje e plotë e lidhjes, pa lidhje me dritën ose simptomat fizike
- Kavo e lidhur? Dritat e lidhjes ndezura? E pastër?
- Komandat:
show interfaces.ethtool eth0 - Shiko për gabimet e CRC-së, përplasjet, përplasjet e vonshme, spatat, gjigandët
- Saktë VLAN? Porta është aktivizuar? Duke bllokuar STP?
- Komandat:
show mac address-table.show spanning-tree - Shiko për: goditje, sTP ndryshon topologji, mospërputhje VLAN
- Kontrolli: A mund të përdoret porta e prezgjedhur? Rikthimi i tabelës saktë?
- Komandat:
ping.traceroute.show ip route - Shiko për: Mungojnë rrugët, jo korrekte në vazhdim-hop, reuting loops
- Kontrolli: A mund të krijohet lidhja TCP? Duke bllokuar portin?
- Komandat:
telnet host port.netstat -anKapja e paketës - Shiko për: Transmetimet TCP, dritaret zero, paketat RST
- DNS? Aplikimi përgjigjet? Autentifikimi punon?
- Komandat:
nslookup.dig.curl -v - Shiko për: DNS dështimet, gabimet e aplikativit, çështjet e skadimit të kohës
Sipër
Kur duhet përdorur: Probleme specifikë aplikativi ku ekziston lidhja bazë
Fillimi i nivelit 7 (A është në funksionim shërbimi i aksioneve? DNS - ja do të zgjidhte të korrigjonte IP - në?) dhe do të punonte vetëm po të ishte e nevojshme.
Pema e vendimit: A është shtresa 1, 2, apo 3?
Përdorimi nga niveli është:
TCP/IP nuk funksionon. Kontrollo shërbimet e OS-së, rilidh shoferët e rrjetit.
NIC u çaktivizua, shofer i gabuar, kablli i palidhur. Kontrolli: ip link show menazhuesi i pajisjeve
Kontrolli: Kablli fizik, ndryshimi i gjendjes së portit, caktimi VLAN, tavolina ARP
Tavolina, rregullat e zjarrit, ACL. Përdoruesi traceroute për të gjetur ku paketat ndalen
Kontrolli: Rregullimet e serverit DNS, disponibiliteti i server-it DNS, firewall bllokimi i portit 53
Kontrolli: Rregullat e Firewall, grupet e sigurisë, shërbimi duke dëgjuar në port
Problemi është me vetë aplikativin, autentifikimin apo konfigurimin e aplikativit
Teknika e izolimit
Kur ke një hipotezë për shkakun e rrënjës, përdori këto teknika izolimi për ta konfirmuar ose hedhur poshtë:
1. Zëvendëso Komponenetet Sistematikisht
- Swap kabllo me kabëll të njohur
- Testi në
- Provo NIC (ose adaptues të rrjetit USB)
- besimtarëve të rinj
- Lëviz nga
2. Kapje në pikat e shumta
Kapin trafikun në burim, pikat e ndërmjetme dhe destinacionin për të identifikuar se ku ulen apo modifikohen paketat:
# Capture on client
tcpdump -i eth0 -w client.pcap host server.example.com
# Capture on server
tcpdump -i eth0 -w server.pcap host client.example.com
# Compare:
# - Do packets leave client? (check client.pcap)
# - Do packets arrive at server? (check server.pcap)
# - If yes/no: problem is in the path between
# - If yes/yes but server doesn't respond: server-side issue
3. Testimi i lakrack
Elimino variacionet e jashtme duke testuar lidhjen brenda një dispozitivi të vetëm:
# Test TCP stack without network
ping 127.0.0.1
# Test application listening locally
telnet localhost 80
# Test loopback on network interface (if supported)
# Some NICs support physical loopback for Layer 1 testing
4. E njohur në bazë të mirë krahason
Krahaso konfigurimin dhe sjelljen kundër një sistemi pune:
# Compare interface settings
diff <(ssh working-switch "show run int gi1/0/1") \
<(ssh broken-switch "show run int gi1/0/1")
# Compare routing tables
diff <(ssh router1 "show ip route") \
<(ssh router2 "show ip route")
Dokumentë gjatë përleshjeve
Dokumentimi i duhur parandalon debug rrethor ku provoni të njëjtën gjë shumë herë pa e kuptuar.
Modeli
Issue ID: TICKET-12345
Date/Time: 2026-02-02 14:30 UTC
Reported By: Jane Smith (jane.smith@company.com)
Affected Users: ~50 users in Building A, 3rd floor
Symptom: Cannot access file server \\fileserver01
Initial Observations:
- Issue started around 14:00 UTC
- Only affects Building A, 3rd floor
- Other buildings can access fileserver01
- Ping to fileserver01 (10.1.50.10) times out from affected users
- Ping to default gateway (10.1.30.1) succeeds
Tests Performed:
1. [14:35] Checked switch port status: gi1/0/15 is UP/UP
2. [14:38] Checked VLAN assignment: Port is in VLAN 30 (correct)
3. [14:42] Checked interface errors: 1,234 CRC errors on gi1/0/15
4. [14:45] Replaced patch cable - still seeing CRC errors
5. [14:50] Moved uplink to different port (gi1/0/16) - errors persist
6. [14:55] Checked fiber cleanliness - dirty connector found
Root Cause:
Dirty fiber connector on uplink between Building A floor switch
and distribution switch causing CRC errors and packet loss
Resolution:
Cleaned fiber connector with proper cleaning kit. CRC errors
dropped to zero. File server access restored.
Verification:
Users confirmed file server accessible. Monitored for 15 minutes
with no errors.
Time to Resolution: 25 minutes
Studimet mbi çështjen reale
Rasti Studim 1: " Rrjeti është i ngadaltë" (Veçanërisht: Eksfaustion TCP Dritare)
Simptom
Koha e reagimit të programit të databazës degraduar nga <100 ms deri në 5+ sekonda. Ekipi i aplikimit fajësoi "të qenit në punë vonë."
unit-format
- Rrjeti
- Lidhje e ngopur
- Firewall
Procesi i diagnostikimit
- Testi: RTT = 2ms (esenciale, përjashton kati i 3-të)
- Testi Bandwidth (eperf): 950 Mbps në 1 Gbps lidhje (pa bllokim)
- Kapja e Paketëve: Discovery TCP Zero dritare paketa nga server-i i të dhënave
- Informacione mbi serverin: Serveri bazë merr bufferët = 64KB (tini!)
Shkaku bazë
Serveri i databazës OS buffers ishte tepër i vogël për prodhimin e vonuar me bandwidth. Dritarja TCP do të mbushet, duke detyruar dërguesin të presë.
Kualiteti
# Increased TCP receive buffers on Linux database server
sysctl -w net.ipv4.tcp_rmem="4096 87380 16777216"
sysctl -w net.core.rmem_max=16777216
Mësimi
Mos supozo: "Slow" nuk do të thotë gjithmonë "të punosh vonë." Para se të arrish në përfundime, mblidhni gjithnjë prova (duke bërë për t'u vonuar, para se të hidheni në përfundime.
Rasti Studimi 2: Lidhja ndërlidhëse (Veçanërisht: Dupleks Mismatch)
Symptom
Lidhja me serverin do të bjerë rastësisht, veçanërisht nën ngarkesë. Ndonjëherë punonte mirë, ndonjëherë krejtësisht indiferente.
Initial Assumptions (Wrong)
- NIK e dështuar
- Kabllo e gabuar
- Kalo
Diagnostic Process
- Inspektimi i interfaqjes: Serveri NIC = 1000/ kompakt, Kalo Port = 1000/Half (mismatch!)
- Gabim Numërim masiv i përplasjeve në portin me çelës
- Përplasjet e fundit: Tregues i mospërputhjeve duplekse
Root Cause
Auto-negociimi dështoi. Serveri negocioi për një marrëveshje të plotë, kalimi u kthye në gjysmë-dupleks. Kollizat ndodhën vetëm nën peshë kur të dyja palët u përpoqën të transmetonin njëkohësisht.
Resolution
! Cisco switch - force full duplex
interface GigabitEthernet1/0/10
speed 1000
duplex full
Lesson Learned
Kontrollo dy skajet: Statusi i interfaqes tregon rregullimet e negociuara. Një mospërputhje do të thotë se auto-negociimi dështoi. Gjithmonë me shpejtësi të madhe për serverat.
Rasti Studim 3: "Nuk mund të arrij në disa site?" (Veçanërisht: MTU/PMTUD Black Hole)
Symptom
Përdoruesit mund të shfletojnë disa faqe në internet (Google, Yahoo), por jo të tjerë (faqet bankare, portalet e kompanisë). Kërkesat për HTTP të vogla u bënë, faqe të mëdha mbaruan.
Initial Assumptions (Wrong)
- Numri DNS
- Firewall
- Problemi i ndërprerjes ISP
Diagnostic Process
- Rezoluta DNS: Punon mirë për të gjitha vendet
- Testi: E pamundur hapja e siteve "të papërballueshme"
- Kërkesë HTTP e vogël (kurl): Punon për faqe të vogla
- E madhe: Vendosje pas dorës së duarve TCP
-
Test MTU:
ping -M do -s 1472Ka sukses.ping -M do -s 1473dështoi - Vëzhgimi i ICMP: Nuk u mor asnjë mesazh "Fragmentation" (type Kodi 3 4)
Root Cause
Tuneli VPN reduktoi MTU në 1400, por Firewall po bllokonte mesazhet "Fragmentimi i nevojshëm." Rruga MTU Discovery (PMTUD) nuk mund të funksiononte, duke krijuar një vrimë të zezë MTU. Paketa të vogla të përshtatshme, paketat e mëdha me të vogla DF u hodhën në heshtje.
Resolution
! Implemented TCP MSS clamping on router
interface Tunnel0
ip tcp adjust-mss 1360
! Alternative: Allow ICMP Type 3 Code 4 through firewall
access-list 101 permit icmp any any packet-too-big
Lesson Learned
Madhësia Nëse kërkesat e vogla punojnë por transferimet e mëdha dështojnë, çështjet e dyshimit MTU/fragment. Përdor ping me DF bit për të testuar pozicionin MTU.
Rasti Studimi 4: Çështjet e Cilësisë VoIP (në fakt: Qos Miskonfigurim)
Symptom
Thirrjet e zërit kishin zë të prerë, rënie të vazhdueshme. Ndodhi vetëm gjatë orëve të biznesit (9am-5pm).
Initial Assumptions (Wrong)
- Lloj i pamjaftueshëm bande
- Serveri VoIP mbingarkohet
- Cilësia e lidhjes ISP
Diagnostic Process
- Testi i Bandwidth: Lidhja vetëm 40% e përdorur gjatë orës së ngarkuar
- Inspektim QoS: Trafiku i zërit i shënuar me DSCP EF (46) korrektësisht
- Kontrolli: Reputacioni i zërit kishte vetëm 5% ndarje të grupit (duhet të jetë 33%)
- Kapja e Paketëve: Paketat e zërit do të hiqen gjatë bllokimit
Root Cause
Politika QOS ekzistonte por ndarja e grupit ishte mbrapsht: më e mira mori 60%, zëri mori 5%. Gjatë orëve të biznesit kur trafiku i të dhënave u rrit, paketat e zërit ranë për shkak të vërshimit të rradhës.
Resolution
! Corrected QoS policy
policy-map WAN-QOS
class VOICE
priority percent 33
class VIDEO
bandwidth percent 25
class CRITICAL-DATA
bandwidth percent 20
class class-default
bandwidth percent 22
Lesson Learned
Çështjet e bazuara në kohë = kapaciteti: Nëse problemet ndodhin vetëm gjatë orëve të ngarkuara, kjo nuk është një dështim i vështirë por një çështje kapacitet/QoS. Kontrollo statistikat në rradhë, jo vetëm bandën totale.
Komanda Referime nga Simptom
| Simptom | Nivel | Komanda për tu ekzekutuar | Çfarë të kërkojmë? |
|---|---|---|---|
| Asnjë dritë lidhje | Niveli 1 | show interfaces |
Gjendja: poshtë, pa transportues, kabllo u çkyç |
| Pascket | niveli | show interfaces |
Gabime të CRC-së, shenja, gjigantë, përplasje, përplasje të vonshme |
| E pamundur hapja e portës | Nivel 2 | arp -a |
Nuk ka hyrje ARP, MAC nuk ka mësuar, STP bllokimi |
| E pamundur arritja e nënnetës remote | Nivel 3 | traceroute |
Mungon rruga, e gabuar në vazhdim-hop, rauting loop |
| Lidhja u anullua | Nivel 4 | telnet host port |
Nuk po dëgjoj, muri i firewall, TCP RST |
| Përformanca e ngadaltë | Nivelet | ping (RTT) |
Shkurtim i lartë, limit i grupit, ritransmetim TCP, zero dritare |
| E pamundur zgjidhja e emrit të host | Nivel 7 | nslookup |
Serveri DNS i paarritshëm, i gabuar DNS config, NXDOMAIN |
| Pikat e intermitente | Layer 1/2 | ping -f (flood) |
Mosfunksionim i ndërlikuar, kabëll i dështuar, STP konvergjencë |
| Punon ndonjëherë, jo të tjerët | Shumëfishe | Extended ping |
Ngarko çështjen e ekuilibrit, ECMP simetria, fluksi i tabelës shtetërore |
Kur duhet të ikim?
Di kur të përshkallëzohemi me shitësin TAC ose inxhinierët e lartë. Eskalate kur:
- I ke harxhuar të gjitha hapat në bazën tënde të njohurisë.
- Çështja kërkon hyrje/misione që nuk i keni
- Problemi është se si shiten insektet ose defektet hardware
- Ndikimi i biznesit është kritik dhe i ndjeshëm nga koha
- Shumë ekipe kanë nevojë të bashkëpunojnë (aplifikojnë rrjetin + server)
- Përshkrimi i simptomave të plota
- nga
- Komandat diagnoze funksionojnë dhe prodhimi i tyre
- Konfigurimi i backup
- Kapja e paketave (nëse është e përshtatshme)
- Çfarë ke provuar tashmë?
Të ndërtojmë njohurinë tonë personale
Çdo seancë me gjuajtje është një mundësi për të mësuar. Ndërtoni një bazë njohurie personale:
1.
# Example structure
~/troubleshooting-journal/
├── 2026-01-15-duplex-mismatch.md
├── 2026-01-22-mtu-black-hole.md
├── 2026-02-02-tcp-window-exhaustion.md
└── README.md # Index of all issues
# Each file contains:
# - Symptom
# - Diagnostic steps
# - Root cause
# - Resolution
# - Lessons learned
# - Related tickets/documentation
2. Ndërtoni një pikë kundimi të komandës
Organizo komandat e përdorura shpesh nga skenari për referencë të shpejtë gjatë përplasjeve.
3. Dokumento rrjetin tënd
- Sipërlogji
- Dokumentimi i skemës së adresës IP
- Detyrat VLAN
- Konfigurimi
- Linjat bazë të njohura ( statistikat e ndërfaqes para problemeve)
Për t'u shmangur nga armiqtë e përbashkët
DON'T: Bëj ndryshime të rastësishme pa diagnozë
Ndryshimi i konfigurimit pa e kuptuar problemin shpesh i bën gjërat më keq ose maskon çështjen e vërtetë.
DON'T: Fshini rrjetin është gjithmonë në gabim
Shpesh "çështjet e punës" janë aplikimi, serveri apo problemet e jashtme të klientëve. Mblidh prova para se të pranosh fajin.
DON'T: Skip duke dokumentuar hapat e tu të përplasjes
Do të harxhosh kohë duke përsëritur testet që ke bërë, ose nuk do të jesh në gjendje t'u shpjegosh kolegëve atë që ke provuar.
DON'T: Shpërfillin çështjet e ndërlidhura
Problemet e vazhdueshme shpesh janë shenja paralajmëruese të dështimit të pashmangshëm. Ndihmoji ata para se të bëhen kritikë.
DONT: Rregullo simptomat në vend të rrënjëve
Nëse nuk e zbulon se si duhet rifilluar, problemi do të përsëritet.
Përmbledhja: Lista e kontrollimit të Trazirave Sistematike
▪ Para se të filloni
- Çfarë ndryshoi? Kush është prekur? Konstante apo intermitente? Reproduktiv? Çfarë sheh ana tjetër?)
- Mblidhni simptomat fillestare dhe raportet e përdoruesit
- Kontrollo për ndryshimet apo mirëmbajtjen e kohëve të fundit
⇩ Gjatë përleshjeve
- Puna
- Ndrysho a në
- Dokumentini çdo test dhe rezultatin e tij
- Përdor kapjet e paketave për të parë sjelljen aktuale të trafikut
- Krahaso me baza të njohura
▪ Pas zgjidhjes
- Verifikimi i ndreqjes në fakt zgjidhi çështjen
- Shkaku dhe rezoluta bazë e dokumentit
- Përditëso bazën e njohurive
- Nëse konfigurimi do të ndryshojë, do të përditësohet dokumentacioni
- Shqyrtoni faktet: A mund ta ketë kapur monitorimi këtë më parë?
Përfundo
Rrjeti është si në shkencë, ashtu edhe në art. Shkenca po ndjek një metodologji sistematike, po përdor siç duhet mjetet diagnostikuese dhe po kupton protokollet. Arti është duke e ditur se cilat analiza do të dalin së pari bazuar në simptoma, duke njohur modelet nga përvoja dhe duke ditur se kur do të përshkallëzohen.
Duke ndjekur metodën sistematike të përshkruar në këtë artikull, duke kërkuar pyetjet e duhura, duke punuar në mënyrë metodike me anë të modelit OSI, duke dokumentuar hapat tuaj dhe duke mësuar nga çdo numër, do të bëheni më të efektshëm për të goditur dhe për të shmangur grackat e përbashkëta që çojnë në kohën e humbur dhe në rregullimet e gabuara.
Mos harroni: Synimi nuk është vetëm të rivendoset shërbimi, por të kuptohet se si dështoi, në mënyrë që të mos ndodhë përsëri.
U rifreskua e fundit: 2 shkurt 202628 Autori: Ekipi Teknik Baud9600