Network Troubleshooting Methodology - The Systematic Approach
Phương pháp bắn lỗi mạng: Phương pháp hệ thống
Tại sao phương pháp trị liệu là vấn đề
Vấn đề là: Một ứng dụng cơ sở dữ liệu là "ít". Đội mạng đổ lỗi cho đội máy chủ. Đội máy chủ đổ lỗi cho mạng. Trong khi đó, người dùng cảm thấy nản lòng, và họ lãng phí nhiều giờ để sửa đổi vòng tròn.
Giải pháp: Một cách tiếp cận có hệ thống, khoa học để tìm ra vấn đề sử dụng bằng chứng, chứ không phải giả định, để xác định nguyên nhân gốc.
Chi phí của việc bắn phá Haphazard: lãng phí thời gian, không chính xác sửa chữa những vấn đề thực sự, chỉ tay giữa các đội, và kinh nghiệm người dùng suy đồi.
Giới thiệu: Phương pháp khoa học áp dụng cho mạng
Phát hiện vấn đề mạng cơ bản là một bài tập về phương pháp khoa học:
- Quan sát các triệu chứng và thu thập dữ liệu
- Lập một giả thuyết về nguyên nhân gốc
- Kiểm tra giả thuyết có công cụ chẩn đoán
- Phân tích kết quả và xác nhận hoặc bác bỏ giả thuyết
- Sửa chữa dựa trên nguyên nhân gốc đã xác nhận
- Kiểm tra Vấn đề đã được giải quyết
Bài này cung cấp một khuôn khổ có cấu trúc để ngăn ngừa những cạm bẫy thông thường như:
- Xác nhận thành kiến (chỉ tìm bằng chứng ủng hộ phỏng đoán ban đầu)
- Thay đổi ngẫu nhiên mà không có chẩn đoán (cách thức cầu nguyện và cầu nguyện)
- Chữa các triệu chứng thay vì nguyên nhân gốc
- Trao đổi hình tròn mà không có tài liệu về những gì đã được thử
Năm câu hỏi then chốt
Trước khi thâm nhập vào các chẩn đoán kỹ thuật, hãy trả lời năm câu hỏi quan trọng này để thu hẹp phạm vi điều tra của bạn:
Thay đổi cấu hình? Phần cứng mới? Cập nhật phần mềm? Thay đổi đại học?
- Kiểm tra bản ghi quản lý thay đổi
- Xem lại những cam kết gần đây trong hệ thống quản lý cấu hình
- Hỏi: "Hôm qua nó có hiệu quả không?"
Một người dùng? Một tòa nhà? Mọi người? Chỉ ứng dụng cụ thể?
- Một thiết bị: Rất có thể là vấn đề địa phương (NC, cáp, cấu hình)
- Một mạng phụ: Cổng ra, DHCP, hay chuyển đổi vấn đề
- Mọi người: Cơ sở hạ tầng lõi, IPP, hoặc vấn đề phổ biến
- Ứng dụng cụ thể: Máy phục vụ ứng dụng, luật tường lửa, hay DNS
Chuyện này xảy ra suốt sao? Chỉ trong vài giờ? Xảy ra ngẫu nhiên?
- Hằng số: Lỗi cứng (có thể cắt, cấu hình sai, dịch vụ xuống)
- Dựa vào thời gian: Kết hợp trong giờ làm việc, tiến trình sắp xếp
- Liên tục Sai đối xứng hai chiều, thiếu phần cứng, liên kết rời rạc
Bạn có thể kích hoạt vấn đề theo yêu cầu?
- Vâng: Dễ chẩn đoán hơn nhiều (có thể thử nghiệm giả thuyết)
- Không: Cài đặt sự giám sát/long và chờ tái phát
Kiểm tra cả hai đầu của kết nối
- Name
- Bắt gói tin tại điểm đến của nguồn
- Định tuyến đối xứng? Các đường khác nhau để gửi vs nhận được?
Phương pháp chẩn đoán theo mô hình hệ điều hành
Mô hình hệ điều hành cung cấp một khuôn khổ có cấu trúc cho việc giải quyết vấn đề. Làm việc từ lớp 1 (Physical) trở lên, hoặc từ lớp 7 (Apof) xuống, tùy theo triệu chứng.
Cách tiếp cận dưới (Layer 1 lớp 7)
Khi nào cần dùng: Mất kết nối hoàn toàn, không có ánh sáng liên kết, hay triệu chứng của lớp vật lý
- Kiểm tra: kết nối Cable? Bật đèn liên kết? Sạch sẽ?
- Lệnh:
show interfaces.ethtool eth0 - Tìm kiếm: lỗi CEC, va chạm, va chạm muộn, xe đạp, người khổng lồ
- Có đúng VLAN không? Bật cổng? Chặn đường?
- Lệnh:
show mac address-table.show spanning-tree - Tìm kiếm: đập cánh MAC, địa hình SPS thay đổi, thất bại VLAN
- Kiểm tra: có thể mở cổng mặc định không? Bàn nướng đúng không?
- Lệnh:
ping.traceroute.show ip route - Tìm kiếm: thiếu lộ trình, tiếp theo-hop, vòng lặp định tuyến
- Kiểm tra: có thể thiết lập kết nối TCP không? Tường lửa chặn cổng?
- Lệnh:
telnet host port.netstat -an, thu gói - Tìm kiếm: TCP gửi lại, không cửa sổ, gói tin RST
- Kiểm tra: xử lý DNS? Ứng dụng đáp ứng? Xác thực được không?
- Lệnh:
nslookup.dig.curl -v - Tìm: Lỗi DNS, lỗi ứng dụng, vấn đề thời hạn
Cách tiếp cận trên- dưới (Layer 7 lớp 1)
Khi nào cần dùng: Name
Bắt đầu ở lớp 7 ( Dịch vụ Chia sẻ Điểm đang chạy? DNS quyết định sửa IP?) và chỉ làm việc khi cần thiết.
Cây quyết định: Đó là lớp 1, 2, hay 3?
Sử dụng nhanh chóng cây chẩn đoán này để xác định lớp nào đang thất bại:
Hàng nóng không hoạt động được. Kiểm tra dịch vụ hệ điều hành, cài đặt lại các trình điều khiển mạng.
Tắt hệ thống NIC, trình điều khiển sai, chưa cắm dây cáp. Kiểm tra: ip link show hoặc bộ quản lý thiết bị
Kiểm tra: cáp vật lý, chuyển trạng thái cổng, bài tập VLAN, bàn ARP
Kiểm tra: bàn nướng, luật tường lửa, ACL. Dùng traceroute để tìm nơi gói dừng
Kiểm tra: thiết lập máy chủ DNS, máy phục vụ DNS sẵn sàng, tường lửa chặn cổng 53
Kiểm tra: tường lửa quy định, nhóm an ninh, dịch vụ nghe ở cổng.
Vấn đề là bản thân ứng dụng, xác thực hoặc cấu hình ứng dụng
Kỹ thuật tách biệt
Khi bạn có một giả thuyết về nguyên nhân gốc, sử dụng những kỹ thuật tách biệt này để xác nhận hoặc từ chối nó:
1. Thay thế thành phần hệ thống
- Name
- Name
- Thử dùng NIC khác (hoặc trình thích nghi mạng USB)
- Thử ra từ thiết bị khách hàng khác
- Chuyển sang màn hình nền khác
2. Gói gọn tại nhiều điểm
Bắt giữ giao thông tại nguồn, trung gian điểm, và đích để xác định nơi gói được thả hoặc sửa đổi:
# Capture on client
tcpdump -i eth0 -w client.pcap host server.example.com
# Capture on server
tcpdump -i eth0 -w server.pcap host client.example.com
# Compare:
# - Do packets leave client? (check client.pcap)
# - Do packets arrive at server? (check server.pcap)
# - If yes/no: problem is in the path between
# - If yes/yes but server doesn't respond: server-side issue
3. Thử ra vòng lặp
Loại bỏ các biến bên ngoài bằng cách thử nghiệm kết nối trong một thiết bị:
# Test TCP stack without network
ping 127.0.0.1
# Test application listening locally
telnet localhost 80
# Test loopback on network interface (if supported)
# Some NICs support physical loopback for Layer 1 testing
4.
So sánh cấu hình và hành vi với một hệ thống làm việc:
# Compare interface settings
diff <(ssh working-switch "show run int gi1/0/1") \
<(ssh broken-switch "show run int gi1/0/1")
# Compare routing tables
diff <(ssh router1 "show ip route") \
<(ssh router2 "show ip route")
Tài liệu khiêu dâm
Tài liệu chính xác sẽ ngăn chặn việc gỡ lỗi vòng tròn nơi bạn thử làm điều tương tự nhiều lần mà không nhận ra.
Comment
Issue ID: TICKET-12345
Date/Time: 2026-02-02 14:30 UTC
Reported By: Jane Smith (jane.smith@company.com)
Affected Users: ~50 users in Building A, 3rd floor
Symptom: Cannot access file server \\fileserver01
Initial Observations:
- Issue started around 14:00 UTC
- Only affects Building A, 3rd floor
- Other buildings can access fileserver01
- Ping to fileserver01 (10.1.50.10) times out from affected users
- Ping to default gateway (10.1.30.1) succeeds
Tests Performed:
1. [14:35] Checked switch port status: gi1/0/15 is UP/UP
2. [14:38] Checked VLAN assignment: Port is in VLAN 30 (correct)
3. [14:42] Checked interface errors: 1,234 CRC errors on gi1/0/15
4. [14:45] Replaced patch cable - still seeing CRC errors
5. [14:50] Moved uplink to different port (gi1/0/16) - errors persist
6. [14:55] Checked fiber cleanliness - dirty connector found
Root Cause:
Dirty fiber connector on uplink between Building A floor switch
and distribution switch causing CRC errors and packet loss
Resolution:
Cleaned fiber connector with proper cleaning kit. CRC errors
dropped to zero. File server access restored.
Verification:
Users confirmed file server accessible. Monitored for 15 minutes
with no errors.
Time to Resolution: 25 minutes
Nghiên cứu trường hợp trên thế giới
Nghiên cứu 1: " Mạng chậm"
Triệu chứng
Ứng dụng co sở dữ liệu thời gian bị suy giảm từ <100mm đến 5 giây+. Đội ứng dụng đã đổ lỗi cho "sự khoan dung."
Giá trị Ban đầu
- Ngắt mạng
- Liên kết WaN đã bão hoà
- cổ chai
Chẩn đoán
- Kiểm tra bình: RTT = 2mm (hoàn hảo, loại bỏ lớp 3 độ trong suốt)
- Kiểm tra băng thông (iperf): 950 Mbps trên liên kết 1 Gbps (không tắc nghẽn)
- Thu gói tin: Comment
- Kiểm tra máy phục vụ: Máy phục vụ co sở dữ liệu nhận bộ đệm = 64KB (tiny!)
Nguyên nhân gốc
Bộ đệm đệm hệ thống máy phục vụ cơ sở dữ liệu quá nhỏ đối với sản phẩm bị hoãn Cửa sổ TCP sẽ đầy, buộc người gửi phải đợi.
Độ phân giải
# Increased TCP receive buffers on Linux database server
sysctl -w net.ipv4.tcp_rmem="4096 87380 16777216"
sysctl -w net.core.rmem_max=16777216
Bài học đã học
Đừng cho là: "Slow" không phải lúc nào cũng có nghĩa là " network latency." Luôn luôn thu thập bằng chứng (để có sự nhượng bộ, thu thập các hành vi) trước khi đi đến kết luận.
Nghiên cứu 2: Tính kết nối giữa hai chiều
Symptom
Kết nối máy phục vụ sẽ giảm ngẫu nhiên, đặc biệt là khi bị tải. Đôi khi làm việc tốt, đôi khi hoàn toàn không hưởng ứng.
Initial Assumptions (Wrong)
- Comment
- Dây xấu
- Name
Diagnostic Process
- Kiểm tra giao diện: Máy phục vụ NIC = 1000/ bội số, chuyển sang phải = 1000/Half (mis match!)
- Số đếm lỗi: Name
- Vụ va chạm cuối: Comment
Root Cause
Việc thỏa thuận tự động bị lỗi. Máy chủ thương lượng toàn bộ sự phức tạp, công tắc rơi trở lại phân nửa. Các va chạm chỉ xảy ra khi cả hai bên cố gắng truyền tín hiệu cùng lúc.
Resolution
! Cisco switch - force full duplex
interface GigabitEthernet1/0/10
speed 1000
duplex full
Lesson Learned
Kiểm tra cả hai đầu: Trạng thái giao diện cho thấy thiết lập thương lượng. Đánh lạc hướng nghĩa là thương lượng tự động thất bại. Luôn luôn phân tích tốc độ/giải tích cứng cho máy chủ.
Nghiên cứu 3: "Không thể đạt được một số trang web nhất định" (thực tế: lỗ đen MT/MTD)
Symptom
Người dùng có thể duyệt một số trang web (Google, Yahoo) nhưng không có trang khác ( website của Bank, cổng công ty). Các yêu cầu HTTP nhỏ hoạt động, trang lớn đã quá giờ.
Initial Assumptions (Wrong)
- Số DNS
- Tường lửa chặn các nơi cụ thể
- Name
Diagnostic Process
- Độ phân giải DNS: Làm việc tốt cho mọi trang web
- Kiểm tra bình: Name
- Yêu cầu HTTP nhỏ (cril): Làm việc cho các trang nhỏ
- Tải về Tạm dừng sau khi bắt tay TCP
-
Thử nghiệm mT:
ping -M do -s 1472Thành công,ping -M do -s 1473thất bại - Theo dõi ICMP: Không có "cần vận động" (kiểu 3 Mã 4) tin nhắn nhận được
Root Cause
Đường hầm VPN giảm xuống còn 1400, nhưng tường lửa đã chặn các tin nhắn "cần trục trặc". Đường chỉ dẫn cho sự khám phá (MTTTD) không thể hoạt động, tạo ra một lỗ đen đại học. Những gói nhỏ vừa vặn, những gói lớn có DF bit đã được âm thầm thả xuống.
Resolution
! Implemented TCP MSS clamping on router
interface Tunnel0
ip tcp adjust-mss 1360
! Alternative: Allow ICMP Type 3 Code 4 through firewall
access-list 101 permit icmp any any packet-too-big
Lesson Learned
Vấn đề kích cỡ: Nếu những yêu cầu nhỏ có hiệu quả nhưng việc chuyển giao lớn thất bại, nghi ngờ là vấn đề về sự phản ứng nhanh. Sử dụng tín hiệu với DF bit để kiểm tra đường dẫn mU.
Comment
Symptom
Tiếng nói có âm thanh lập dị, bỏ học gián đoạn. Chỉ xảy ra trong giờ làm việc (9m-5pm).
Initial Assumptions (Wrong)
- Băng thông không đủ
- Comment
- Chất lượng kết nối IP
Diagnostic Process
- Thử ra băng thông: Liên kết chỉ được dùng 40% trong giờ bận rộn
- Kiểm tra QoS: Name
- Thanh tra hàng đợi: Hàng đợi tiếng nói chỉ có 5% mã số bandth (nên là 33%)
- Thu gói tin: Name
Root Cause
Chính sách QoS đã tồn tại nhưng định vị bandwid thứ ngược lại: nhà tù tốt nhất nhận được 60%, giọng nói nhận được 5%. Trong giờ làm việc, khi lượng dữ liệu gia tăng, các gói tin bằng giọng nói bị giảm do quá trình xếp hàng.
Resolution
! Corrected QoS policy
policy-map WAN-QOS
class VOICE
priority percent 33
class VIDEO
bandwidth percent 25
class CRITICAL-DATA
bandwidth percent 20
class class-default
bandwidth percent 22
Lesson Learned
Vấn đề dựa trên thời gian = khả năng: Nếu vấn đề chỉ xảy ra trong giờ làm việc bận rộn, nó không phải là một thất bại khó khăn mà là một vấn đề về khả năng/QOS. Kiểm tra thống kê hàng đợi, không chỉ tổng số băng thông.
Lệnh tham chiếu bởi triệu chứng
| Triệu chứng | Lớp | Lệnh cần chạy | Tìm gì? |
|---|---|---|---|
| Không có ánh sáng liên kết | Lớp 1 | show interfaces |
Trạng thái: xuống, không có nhà mang, cáp chưa cắm |
| Mất gói | Lớp 1/2 | show interfaces |
Lỗi CRC, chạy bộ, khổng lồ, va chạm, va chạm muộn |
| Không thể đánh tín hiệu cánh cổng | Lớp 2 | arp -a |
Không có mục nhập ARP, MAC không được học, chặn SP |
| Không thể tới mạng phụ từ xa | Lớp 3 | traceroute |
Mất đường, nhầm người, vòng thời gian |
| Kết nối bị từ chối | Lớp 4 | telnet host port |
Dịch vụ không lắng nghe, tường lửa, TCP RST |
| Hiệu suất chậm | Lớp 4+ | ping (RTT) |
Tần số cao, giới hạn băng thông, chuyển đổi TCP, không cửa sổ |
| Không thể giải quyết tên máy | Lớp 7 | nslookup |
Máy phục vụ DNS không thể tới, sai cấu hình DNS, NXDOMAIN |
| Name | Layer 1/2 | ping -f (flood) |
Sai lầm hai lần, cáp hỏng, việc nhận lại SP |
| Làm việc đôi khi, không phải người khác. | Nhiều | Extended ping |
Tải vấn đề cân bằng, đối xứng ECMP, bàn bang tràn ngập |
Khi leo thang
Biết khi nào để tăng lên để cung cấp cho TAC hoặc kỹ sư cao cấp. Cầu thang khi:
- Anh đã làm cạn kiệt các bước bắn súng trong kiến thức của anh.
- Vấn đề cần thiết truy cập/giải thoát mà bạn không có
- Vấn đề liên quan đến lỗi phần mềm nhà cung cấp hoặc lỗi phần cứng
- Tác động kinh doanh rất quan trọng và thời gian nhạy cảm
- Nhiều đội cần phải cộng tác (App + mạng + máy chủ)
- Mô tả toàn bộ triệu chứng
- Dòng thời gian khi vấn đề bắt đầu
- Name
- Bản sao cấu hình
- Gói tin thu (nếu thích hợp)
- Những gì bạn đã cố gắng
Xây dựng sự hiểu biết căn bản
Mỗi phiên họp bắn súng là một cơ hội học tập. Xây dựng một nền tảng kiến thức cá nhân:
1. Tạo một tập san tìm kiếm rắc rối
# Example structure
~/troubleshooting-journal/
├── 2026-01-15-duplex-mismatch.md
├── 2026-01-22-mtu-black-hole.md
├── 2026-02-02-tcp-window-exhaustion.md
└── README.md # Index of all issues
# Each file contains:
# - Symptom
# - Diagnostic steps
# - Root cause
# - Resolution
# - Lessons learned
# - Related tickets/documentation
Xây dựng một tờ lệnh gian lận
Quản lý các lệnh thường xuyên được sử dụng bởi kịch bản cho tham khảo nhanh trong lúc bắn súng.
3. Tài liệu mạng của bạn
- Sơ đồ địa lý (tiếng latinh 2 và lớp 3)
- sơ đồ địa chỉ IP
- Nhiệm vụ VLAN
- Cấu hình chuẩn
- Đường cơ số tốt được biết (mặt đối mặt với thống kê trước các vấn đề)
Những người chống đối thông thường cần tránh
Không: thay đổi ngẫu nhiên mà không có chẩn đoán
Thay đổi cấu hình mà không hiểu vấn đề thường làm vấn đề tệ hơn hoặc che giấu vấn đề thật sự.
Đừng: giả sử mạng luôn có lỗi
Thường thì "các vấn đề làm việc" là ứng dụng, máy chủ, hoặc các vấn đề bên khách hàng. Thu thập bằng chứng trước khi nhận lỗi.
Bỏ qua việc ghi chép các bước gặp khó khăn
Bạn sẽ lãng phí thời gian lặp lại các xét nghiệm bạn đã làm, hoặc không thể giải thích cho đồng nghiệp những gì bạn đã cố gắng.
Bỏ qua các vấn đề gián đoạn
Những vấn đề nan giải thường là dấu hiệu báo trước về sự thất bại sắp xảy ra. Điều tra họ trước khi họ trở nên chỉ trích.
Chữa các triệu chứng thay vì nguyên nhân gốc
Khởi động lại một thiết bị có thể phục hồi dịch vụ, nhưng nếu bạn không tìm ra tại sao nó cần khởi động lại, vấn đề sẽ tái diễn.
Tóm tắt:
▪ Trước khi bắt đầu
- Trả lời năm câu hỏi then chốt (điều gì đã thay đổi? Ai bị ảnh hưởng? Liên tục hay gián đoạn? Bất khả xâm phạm? Bên kia thấy gì?)
- Thu thập các triệu chứng ban đầu và báo cáo người dùng
- Kiểm tra những thay đổi hoặc bảo trì gần đây
▪ Trong thời gian khó khăn
- Làm việc theo phương pháp thông qua các lớp hệ điều hành (trên hoặc dưới)
- Thay đổi 1 biến cùng lúc khi thử ra
- Name
- Sử dụng thu gói để xem hành vi giao thông thực sự
- So sánh với các đường nền nổi tiếng
▪ Sau sự phân giải
- Kiểm tra việc sửa chữa thực sự giải quyết vấn đề
- Tài liệu gốc gây ra và giải quyết
- Cập nhật kiến thức cơ sở
- Nếu cấu hình bị thay đổi, tài liệu cập nhật
- Hãy suy nghĩ điều này: Việc giám sát có thể xảy ra sớm hơn không?
Kết luận
Hệ thống tìm kiếm rắc rối là cả khoa học và nghệ thuật. Khoa học đang theo đuổi một phương pháp có hệ thống, sử dụng đúng các công cụ chẩn đoán, và hiểu các giao thức. Nghệ thuật là biết được thử nghiệm nào trước tiên dựa trên triệu chứng, nhận dạng các mẫu từ kinh nghiệm, và biết khi nào sẽ tăng lên.
Bằng cách làm theo cách tiếp cận có hệ thống được nêu ra trong bài này - hỏi đúng câu hỏi, làm việc một cách có phương pháp thông qua mô hình hệ điều hành, ghi lại các bước của bạn, và học hỏi từ mỗi vấn đề - bạn sẽ trở nên hiệu quả hơn trong việc bắn rắc rối và tránh những cạm bẫy chung dẫn đến lãng phí thời gian và sửa chữa sai lầm.
Hãy nhớ: Mục tiêu không chỉ là phục hồi dịch vụ, mà còn là để hiểu tại sao nó lại thất bại để ngăn nó xảy ra lần nữa.
Cập nhật cuối: ngày 2 tháng 2 năm 2026 Tác giả: Baud9600 kỹ thuật viên