.. titolo: Network Troubleshooting Methodology - The Systematic Approach .. slug: reto-solvado-metodologio .. dato: 2026-02-02 18:00:00 UTC .. etikedoj: retigado, problemo-solvado, metodaro, diagnozo .. kategorio: artikoloj .. ligo: .. priskribo: Sistema, scienca aliro al retaj problemoj, kiu malhelpas malŝpari tempon kaj malĝustajn korektojn .. tajpu: tekston
La Problemo:Apliko de datumbazo estas "malrapida." La reto-teamo kulpigas la servilan teamon. La servila teamo kulpigas la reton. Dume, uzantoj estas frustritaj, kaj horoj estas malŝparitaj en cirkla senararigado.
La Solvo:Sistema, scienca aliro al problemoj, kiu uzas indicon, ne supozojn, por identigi radikajn kaŭzojn.
La Kosto de Hazarda Problemosolvado:Malŝparita tempo, malĝustaj korektoj, kiuj maskas realajn problemojn, fingromontradon inter teamoj, kaj degradita uzantsperto.
Retaj problemoj estas esence ekzerco en la scienca metodo:
Ĉi tiu artikolo disponigas strukturitan kadron por retproblemoj, kiu malhelpas oftajn problemojn kiel:
Antaŭ ol plonĝi en teknikan diagnozon, respondu ĉi tiujn kvin kritikajn demandojn por malgrandigi vian esploran amplekson:
Ŝanĝoj de agordo? Nova aparataro? ?isdatigoj de programaro? Topologiaj modifoj?
Unu uzanto? Unu konstruaĵo? Ĉu ĉiuj? Nur specifa apliko?
Okazas la tutan tempon? Nur dum certaj horoj? Hazardaj okazoj?
Ĉu vi povas ekigi la problemon laŭ postulo?
Kontrolu ambaŭ finojn de la konekto
La OSI-modelo disponigas strukturitan kadron por solvi problemojn. Laboru de Tavolo 1 (Fizika) supren, aŭ de Tavolo 7 (Apliko) malsupren, depende de simptomoj.
Kiam uzi:Kompleta konekteblecperdo, neniu liglumo, aŭ fizikaj tavolsimptomoj
show interfaces, ethtool eth0show mac address-table, show spanning-treeping, traceroute, show ip routetelnet host port, netstat -an, paka kaptonslookup, dig, curl -vKiam uzi:Aplik-specifaj problemoj kie baza konektebleco ekzistas
Komencu ĉe Tavolo 7 (Ĉu SharePoint-servo funkcias? DNS solvas por korekti IP?) kaj malfunkciu nur se necese.
Uzu ĉi tiun rapidan diagnozan arbon por identigi kiu tavolo malsukcesas:
TCP/IP-stako ne funkcias. Kontrolu OS-servojn, reinstalu retajn ŝoforojn.
NIC malŝaltita, malĝusta ŝoforo, kablo malkonektita. Kontrolu:ip link showaŭ Aparato-Administranto
Kontrolu: Fizika kablo, ŝaltila havenostatuso, VLAN-tasko, ARP-tabelo
Kontrolu: Vojetabelo, firewall reguloj, ACLs. Uzutraceroutepor trovi kie pakoj haltas
Kontrolu: DNS-servilo-agordojn, DNS-servila havebleco, fajroŝirmilo blokanta havenon 53
Kontrolu: Reguloj pri fajroŝirmilo, sekurecaj grupoj, servo aŭskultado en haveno
Problemo estas kun la aplikaĵo mem, aŭtentigo aŭ aplikaĵo-agordo
Kiam vi havas hipotezon pri la radika kaŭzo, uzu ĉi tiujn izoligajn teknikojn por konfirmi aŭ malakcepti ĝin:
Kaptu trafikon ĉe fonto, mezaj punktoj kaj celloko por identigi kie pakaĵetoj estas faligitaj aŭ modifitaj:
# Capture on client
tcpdump -i eth0 -w client.pcap host server.example.com
# Capture on server
tcpdump -i eth0 -w server.pcap host client.example.com
# Compare:
# - Do packets leave client? (check client.pcap)
# - Do packets arrive at server? (check server.pcap)
# - If yes/no: problem is in the path between
# - If yes/yes but server doesn't respond: server-side issue
Forigu eksterajn variablojn provante konekteblecon ene de ununura aparato:
# Test TCP stack without network
ping 127.0.0.1
# Test application listening locally
telnet localhost 80
# Test loopback on network interface (if supported)
# Some NICs support physical loopback for Layer 1 testing
Komparu agordon kaj konduton kontraŭ funkcianta sistemo:
# Compare interface settings
diff <(ssh working-switch "show run int gi1/0/1") \
<(ssh broken-switch "show run int gi1/0/1")
# Compare routing tables
diff <(ssh router1 "show ip route") \
<(ssh router2 "show ip route")
Taŭga dokumentado malhelpas cirklan senararigon kie vi provas la saman aferon plurfoje sen rimarki ĝin.
Problema ID: TICKET-12345
Dato/Horo: 2026-02-02 14:30 UTC
Raportita de: Jane Smith (jane.smith@company.com)
Afektitaj Uzantoj: ~50 users in Building A, 3rd floor
Simptomo: Cannot access file server \\fileserver01
Komencaj Observoj:
- Issue started around 14:00 UTC
- Only affects Building A, 3rd floor
- Other buildings can access fileserver01
- Ping to fileserver01 (10.1.50.10) times out from affected users
- Ping to default gateway (10.1.30.1) succeeds
Testoj faritaj:
1. [14:35] Checked switch port status: gi1/0/15 is UP/UP
2. [14:38] Checked VLAN assignment: Port is in VLAN 30 (correct)
3. [14:42] Checked interface errors: 1,234 CRC errors on gi1/0/15
4. [14:45] Replaced patch cable - still seeing CRC errors
5. [14:50] Moved uplink to different port (gi1/0/16) - errors persist
6. [14:55] Checked fiber cleanliness - dirty connector found
Radika Kaŭzo:
Dirty fiber connector on uplink between Building A floor switch
and distribution switch causing CRC errors and packet loss
Rezolucio:
Cleaned fiber connector with proper cleaning kit. CRC errors
dropped to zero. File server access restored.
Konfirmo:
Users confirmed file server accessible. Monitored for 15 minutes
with no errors.
Tempo al Rezolucio: 25 minutes
La respondaj tempoj de datumbazaj aplikaĵoj malpliiĝis de <100ms al 5+ sekundoj. Aplika teamo kulpigis "retan latentecon."
Datumservila OS-bufroj estis tro malgrandaj por alt-bendolarĝo × prokrasta produkto. TCP-fenestro pleniĝus, devigante la sendinton atendi.
# Increased TCP receive buffers on Linux database server
sysctl -w net.ipv4.tcp_rmem="4096 87380 16777216"
sysctl -w net.core.rmem_max=16777216
Ne supozu:"Malrapida" ne ĉiam signifas "retlatenteco". Ĉiam kolektu pruvojn (pingo por latenteco, pakaĵeto por konduto) antaŭ ol salti al konkludoj.
Servila konekto falus hazarde, precipe sub ŝarĝo. Foje funkciis bone, foje tute neresponde.
Aŭtomata intertraktado malsukcesis. Servilo negocis plendupleksa, ŝaltilo falis reen al duonduplex. Kolizioj nur okazis sub ŝarĝo kiam ambaŭ flankoj provis elsendi samtempe.
! Cisco switch - force full duplex
interface GigabitEthernet1/0/10
speed 1000
duplex full
Kontrolu ambaŭ finojn:Interfaco-stato montras la intertraktatajn agordojn. Miskongruo signifas, ke aŭtomata intertraktado malsukcesis. Ĉiam malmola kodo rapido/dupleksa por serviloj.
Uzantoj povus foliumi iujn retejojn (Google, Yahoo) sed ne aliajn (banka retejo, kompania portalo). Malgrandaj HTTP-petoj funkciis, grandaj paĝoj elĉerpiĝis.
ping -M do -s 1472sukcesas,ping -M do -s 1473malsukcesasVPN-tunelo reduktis MTU al 1400, sed fajroŝirmilo blokis ICMP "Fragmentation Needed" mesaĝojn. Path MTU Discovery (PMTUD) ne povis funkcii, kreante MTU nigran truon. Malgrandaj pakaĵoj taŭgas, grandaj pakaĵoj kun DF-bitaro estis silente faligitaj.
! Implemented TCP MSS clamping on router
interface Tunnel0
ip tcp adjust-mss 1360
! Alternative: Allow ICMP Type 3 Code 4 through firewall
access-list 101 permit icmp any any packet-too-big
Grandeco gravas:Se malgrandaj petoj funkcias sed grandaj translokigoj malsukcesas, suspektu problemojn pri MTU/fragmentado. Uzu ping kun DF-bito por testi vojon MTU.
Voĉaj vokoj havis ŝercan aŭdion, intermitaj ĉesoj. Okazis nur dum komercaj horoj (9am-5pm).
QoS-politiko ekzistis sed bendolarĝa asigno estis malantaŭen: plej bona klopodo ricevis 60%, voĉo ricevis 5%. Dum laborhoroj kiam datumtrafiko pliiĝis, voĉpakoj estis faligitaj pro atendovicsuperfluo.
! Corrected QoS policy
policy-map WAN-QOS
class VOICE
priority percent 33
class VIDEO
bandwidth percent 25
class CRITICAL-DATA
bandwidth percent 20
class class-default
bandwidth percent 22
Tempobazitaj aferoj = kapacito:Se problemoj okazas nur dum okupataj horoj, ĝi ne estas malfacila fiasko sed problemo pri kapablo/QoS. Kontrolu vostostatistikojn, ne nur totalan bendolarĝon.
| Simptomo | Tavolo | Komandoj por Kuri | Kion Serĉi |
|---|---|---|---|
| Neniu liglumo | Tavolo 1 | show interfaces |
Statuso: malsupre, neniu portanto, kablo malkonektita |
| Paka perdo | Tavolo 1/2 | show interfaces |
CRC-eraroj, runtoj, gigantoj, kolizioj, malfruaj kolizioj |
| Ne povas ping-enirejon | Tavolo 2 | arp -a |
Neniu ARP-eniro, MAC ne lernita, STP-blokado |
| Ne povas atingi foran subreton | Tavolo 3 | traceroute |
Mankas itinero, malĝusta sekva salto, vojbuklo |
| Konekto rifuzita | Tavolo 4 | telnet host port |
Servo ne aŭskultanta, fajroŝirmilo bloko, TCP RST |
| Malrapida agado | Tavolo 4+ | ping (RTT) |
Alta latencia, bendolarĝa limo, TCP-retransmisioj, nulaj fenestroj |
| Ne povas solvi gastigan nomon | Tavolo 7 | nslookup |
DNS-servilo neatingebla, malĝusta DNS-agordo, NXDOMAIN |
| Intermitaj gutoj | Tavolo 1/2 | ping -f (flood) |
Dupleksa miskongruo, malsukcesa kablo, STP-rekonverĝo |
| Funkcias foje, ne aliaj | Multoblaj | Extended ping |
Ŝarĝekvilibra afero, ECMP-malsimetrio, ŝtattabelo superfluo |
Sciu kiam eskaladi al vendisto TAC aŭ altrangaj inĝenieroj. Pligrandigu kiam:
Ĉiu sesio pri solvo de problemoj estas lerna ŝanco. Konstruu personan sciobazon:
# Example structure
~/troubleshooting-journal/
├── 2026-01-15-duplex-mismatch.md
├── 2026-01-22-mtu-black-hole.md
├── 2026-02-02-tcp-window-exhaustion.md
└── README.md # Index of all issues
# Each file contains:
# - Symptom
# - Diagnostic steps
# - Root cause
# - Resolution
# - Lessons learned
# - Related tickets/documentation
Organizu ofte uzatajn komandojn laŭ scenaro por rapida referenco dum problemoj.
Ŝanĝi agordojn sen kompreni la problemon ofte plimalbonigas aferojn aŭ maskas la veran problemon.
Ofte "retaj problemoj" estas problemoj pri aplikaĵo, servilo aŭ klientflankaj. Kolektu pruvojn antaŭ ol akcepti kulpigon.
Vi perdos tempon ripetante provojn, kiujn vi jam faris, aŭ ne povos klarigi al kolegoj, kion vi provis.
Intermitaj problemoj ofte estas fruaj avertaj signoj de urĝa fiasko. Esploru ilin antaŭ ol ili fariĝos kritikaj.
Rekomenci aparaton povus restarigi servon, sed se vi ne ekscias KIAL ĝi bezonis rekomenci, la problemo rekomenciĝos.
Retaj problemoj estas kaj scienco kaj arto. La scienco sekvas sisteman metodaron, uzanta diagnozajn ilojn ĝuste, kaj komprenante protokolojn. La arto estas scii, kiuj testoj fari unue surbaze de simptomoj, rekoni ŝablonojn de sperto, kaj scii kiam eskaladi.
Sekvante la sisteman aliron skizitan en ĉi tiu artikolo—demandante la ĝustajn demandojn, laborante metode per la OSI-modelo, dokumentante viajn paŝojn, kaj lernante de ĉiu afero—vi fariĝos pli efika ĉe solvi problemojn kaj evitos la komunajn malfacilaĵojn, kiuj kondukas al malŝparo de tempo kaj malĝustaj korektoj.
Memoru:La celo ne estas nur restarigi servon, sed kompreni KIAL ĝi malsukcesis, por ke vi povu malhelpi ĝin denove okazi.
Laste Ĝisdatigita: Februaro 2, 2026 | Aŭtoro: Baud9600 Teknika Teamo