有問題: 數據庫應用程式是"慢". 有網絡團隊指責伺服器團隊. 伺服器團隊指責了網路. 有相關相關相關事由:
解决办法: 有系統地用科學方法去解決問題 它用出證據而不是假想去找出根源
(一)出事成本: 有相關的相關相關相關相關相關事務,
在科學方法上,
有條理地提供網路故障排除框架,
在做技術分辨前 回答這五個關鍵問題以收縮你的調查範圍:
有設定變更嗎? 有新硬件? 有軟體更新? 有地質變化?
就一個用戶? 一幢? 大家? 就特指?
有出事了? 就活到一小時? 有出事了?
有需要能出事?
檢查連接的兩端
OSI模型提供分解故障的结构框架. 第1層 (物理) 向上工作, 第7層 (施用) 根据症狀向下工作.
使用時: 有接通性的損失 有接通的光線 有相關的地區
show interfaces, ethtool eth0show mac address-table, show spanning-treeping, traceroute, show ip routetelnet host port, netstat -an,包抓取nslookup, dig, curl -v使用時: 有基本接通性的應用程式特有問題
在 第 7 層起步( SharePoint 服務正在跑取 ? DNS 解析 IP ? ) 需要時才下載 。
使用此快速介紹樹來辨識哪一層失敗:
TCP/ IP 堆放不起作用 。 請檢查OS服務, 重新安裝網路驅動程式 。
NIC已禁用, 錯誤的驅動程式, 有線接通了 。 檢查: ip link show 或裝置管理員
檢查: 有線, 有切換端口狀態, 有 VLAN 授權, 有 ARP 表格
檢查:跑道表,防火牆規則,ACLs. 使用 traceroute 以找到包到站的位置
檢查: DNS 伺服器設定、 DNS 伺服器可用性、防火牆封鎖連接埠 53.
檢查: 防火牆規則, 安全團體, 在端口收聽服務
有問題是應用程式本身、認證或應用程式設定
有根由的假想出后 就用這些相隔相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相相接相接相接相接相相相相接相接相接相接相接相接相接相接相接相接相相相接相相相相相相相相相相相相
在來源地、中點地點和去向地點捕捉流量以分辨放出或被修改的包:
# Capture on client
tcpdump -i eth0 -w client.pcap host server.example.com
# Capture on server
tcpdump -i eth0 -w server.pcap host client.example.com
# Compare:
# - Do packets leave client? (check client.pcap)
# - Do packets arrive at server? (check server.pcap)
# - If yes/no: problem is in the path between
# - If yes/yes but server doesn't respond: server-side issue
在單一裝置內測試連通性以去除外接變數:
# Test TCP stack without network
ping 127.0.0.1
# Test application listening locally
telnet localhost 80
# Test loopback on network interface (if supported)
# Some NICs support physical loopback for Layer 1 testing
在工作系統上相對設定和行為:
# Compare interface settings
diff <(ssh working-switch "show run int gi1/0/1") \
<(ssh broken-switch "show run int gi1/0/1")
# Compare routing tables
diff <(ssh router1 "show ip route") \
<(ssh router2 "show ip route")
相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相當相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相
Issue ID: TICKET-12345
Date/Time: 2026-02-02 14:30 UTC
Reported By: Jane Smith (jane.smith@company.com)
Affected Users: ~50 users in Building A, 3rd floor
Symptom: Cannot access file server \\fileserver01
Initial Observations:
- Issue started around 14:00 UTC
- Only affects Building A, 3rd floor
- Other buildings can access fileserver01
- Ping to fileserver01 (10.1.50.10) times out from affected users
- Ping to default gateway (10.1.30.1) succeeds
Tests Performed:
1. [14:35] Checked switch port status: gi1/0/15 is UP/UP
2. [14:38] Checked VLAN assignment: Port is in VLAN 30 (correct)
3. [14:42] Checked interface errors: 1,234 CRC errors on gi1/0/15
4. [14:45] Replaced patch cable - still seeing CRC errors
5. [14:50] Moved uplink to different port (gi1/0/16) - errors persist
6. [14:55] Checked fiber cleanliness - dirty connector found
Root Cause:
Dirty fiber connector on uplink between Building A floor switch
and distribution switch causing CRC errors and packet loss
Resolution:
Cleaned fiber connector with proper cleaning kit. CRC errors
dropped to zero. File server access restored.
Verification:
Users confirmed file server accessible. Monitored for 15 minutes
with no errors.
Time to Resolution: 25 minutes
數據庫應用回應時間由 < 100ms 退化至 5+ 秒. 有應用程式被指為"網絡空間"
Database server OS 緩衝器太小了, 無法用高波段width × 延遲產出 。 TCP 視窗會被填滿,迫使發件人等.
# Increased TCP receive buffers on Linux database server
sysctl -w net.ipv4.tcp_rmem="4096 87380 16777216"
sysctl -w net.core.rmem_max=16777216
不要想: "慢"不是"通通""通""通""通""通""通""通""通""通"通"通"通"通"通"通"通"通"通"通"通"通"通"通"通"通"通"通"通"通"通"通"通"通"通"通"通"通"通"通"通"通"通"通"通"通"通"通"通""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""""" 在取出結論前要收集相關相關證據(
伺服器接通會隨機地下降, 尤其是下載. 有時候活得不錯 有時完全沒有反應 有時也完全沒有反應
自動谈判失敗 。 伺服器談妥了全相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相相相接相相接相相接相接相接相接相接相接相接相接相接相接相相接相接相相接相接相相相接相接相接相接相接相接相接相接相相接相接相接相接相接相接相相接相相接相接相相相相相相相相相 相撞只會被下載出 在雙方想同時傳輸相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相相相接相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相
! Cisco switch - force full duplex
interface GigabitEthernet1/0/10
speed 1000
duplex full
檢查兩端: 介面狀態顯示已談妥的設定 。 不匹配就意味著自動谈判失敗了. 伺服器總是用硬碼速度/ 二相通取 。
有的用戶可以瀏覽一些網站(Google, Yahoo),有的用戶可以不浏览(銀行網站,公司出入口). 有小的 HTTP 要求已通通了, 有大頁超時了 。
ping -M do -s 1472 有成功 ping -M do -s 1473 失敗VPN地道把MTU減到1400, 但是防火牆封鎖了 ICMP"需要的破碎"訊息. 路由 MTU Discovery (PMTUD) 無法工作, 產生了 MTU 黑洞 。 有DF相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相相接相接相接相接相接相相接相相相接相相接相接相接相接相接相接相相接相接相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相
! Implemented TCP MSS clamping on router
interface Tunnel0
ip tcp adjust-mss 1360
! Alternative: Allow ICMP Type 3 Code 4 through firewall
access-list 101 permit icmp any any packet-too-big
大小相關: 如果小要求工作而大轉接失敗, 就懷疑MTU/分解問題。 有 DF 位元用 ping去測試路徑 MTU.
有相當多的聲音 有間歇地被取出 就出事了 (9: 00-下午5: 00)
有QoS相關政策, 但相關頻道分配倒了:最佳收視率是60%, 在數據通訊量增加的公用時間, 有聲音被放出,
! Corrected QoS policy
policy-map WAN-QOS
class VOICE
priority percent 33
class VIDEO
bandwidth percent 25
class CRITICAL-DATA
bandwidth percent 20
class class-default
bandwidth percent 22
有時問題相接: 如果只出事于繁忙的時間 就不是一項相當嚴重的失敗 而是一項相關能力問題 檢查排隊數據, 并不只是總帶寬 。
| 有症状 | 層 | 要執行的命令 | 找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找找 |
|---|---|---|---|
| 沒有連接燈 | 第1層 | show interfaces |
狀態: 已下行, 有無傳送器, 有線已取出 |
| 套件損失 | 第1/2層 | show interfaces |
CRC 錯誤 矮子 巨子相撞相撞相撞相撞相撞相撞相撞相撞相撞相撞相撞相撞相撞相撞相撞相撞相撞相撞相撞相撞相撞相撞相撞相撞相撞相撞相撞相撞相撞相撞相撞相撞相撞相撞相撞相撞相撞相撞相撞相撞相撞相撞相接相撞相接相接相接相接相接相接相接相接相接相接相接相接相接相接相相接相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相 |
| 不能接通出入口 | 第2層 | arp -a |
沒有 ARP 項目, MAC 未學取, STP 有阻擋 |
| 無法接通遠端子網 | 第3層 | traceroute |
找不到路由, 下一個跳錯, 路由回路 |
| 連接被拒絕 | 第4層 | telnet host port |
服務不聽取 防火牆區塊 TCP RST |
| 慢效 | 第4層+ | ping (RTT) |
有高空相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相接相相接相相接相接相相相相接相接相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相 |
| 無法解析主機名 | 第7層 | nslookup |
DNS 伺服器無法取用, 錯誤的 DNS 配置, NXDOMAIN |
| 中斷滴出 | Layer 1/2 | ping -f (flood) |
二相不匹配, 有線已失敗, STP 重複 |
| 有時候有活活活活活活活活活活活活活活活活活活活活活 | 多重 | Extended ping |
載入平衡相關問題 ECMP相對相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相相相相相關相關相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相 |
有時候可以升入出品商或高級工程師 在 :
有機會去取出出事端了 建立個人知識基礎:
# Example structure
~/troubleshooting-journal/
├── 2026-01-15-duplex-mismatch.md
├── 2026-01-22-mtu-black-hole.md
├── 2026-02-02-tcp-window-exhaustion.md
└── README.md # Index of all issues
# Each file contains:
# - Symptom
# - Diagnostic steps
# - Root cause
# - Resolution
# - Lessons learned
# - Related tickets/documentation
在排除出故障后用來快速參考 。
在不理解問題而改變相關設定后,
“ 網路問題” 通常是應用程式、 伺服器或客戶端問題 。 在接受指責前先收集證據
你會浪費時間再做你已經做過的測試 或者無法向同僚解釋你所試取的
相接而至的問題也相當相當相當相當相當相關, 在被批判前去調查他們
重啟裝置可能會恢復服務, 但是如果你不知道為什麼需要重啟, 就再出問題了.
在網路上找麻煩是科學和藝術相關 科學正遵循有系統的方法, 正确地使用诊断工具并理解協議。 有相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相關相相相關相關相關相相關相關相相相關相相相關相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相相
透過OSI模式有条不紊地工作, 記錄您所走的步子并學取每出一出事,
記住: 目的不是要恢復服務 而是要明白 它為什麼失敗了 就是為了能防止再出事
作者: Baud9600技術團隊