Network Troubleshooting Methodology - The Systematic Approach

Методологія усунення несправностей мережі: Системний підхід

Чому методологія матриць

Проблема:

Рішення:

Вартість усунення несправностей Haphazard:

Вступ: Науковий метод, що застосовується до мереж

Усунення мережевих неполадок є фундаментально вправою в науковому методі:

  1. Опитування
  2. Форма гіпотези
  3. Тест гіпотези
  4. Аналіз результатів
  5. Впровадження виправлення
  6. Видання

У статті передбачено структуровані рамки для усунення неполадок мережі, що запобігає поширенню підводних каменів:

  • Підтвердження біас (що тільки для доказів, які підтримують вашу початкову здогадку)
  • Випадкові зміни без діагнозу (підхід "спрей і променя")
  • Фіксація симптомів замість кореневих причин
  • Циркулярне відключення без документів, які спробували

П'ять ключових питань

Перед тим як дайвінг в технічну діагностику, відповідь на ці п'ять критичних питань для звуження сфери дослідження:

Питання 1: Що змінено
  • Перевірка журналів управління змінами
  • Огляд останніх рішень в системах управління конфігурацією
  • Запитайте: "Чи він працює вчора?"
й
Питання 2: Хто?
  • Один пристрій: Як і локальний номер (NIC, кабель, конфігурація)
  • Один субнет: Шлюз, DHCP або випуск перемикача
  • Всі: Основна інфраструктура, ISP або поширена проблема
  • Технічний додаток: Сервер додатків, правило брандмауера або DNS
Питання 3: Чи є він Постійний або інтервмітент?
  • Постійний: Жорсткий збій (знімний крій, неправильне налаштування, вниз обслуговування)
  • На основі часу: Витрата під час робочих годин, планові процеси
  • Інтермітент/Рандом: Duplex mismatch, не вдається обладнання, інтермітент посилання
Питання 4: Чи можна його відродити?
  • Так: Чим простіше діагностувати (повідомити гіпотези)
  • Ні: Налаштуйте моніторинг / запис та чекайте на повторення
Питання 5: Що таке інше?
  • Перспектива клієнта проти серверу
  • Захоплення Packet на джерело проти призначення
  • Асиметрична маршрутизація? Різні шляхи відправки проти отримання?

Модельний підхід OSI

Модель OSI забезпечує структуровану раму для усунення несправностей. Робота від шару 1 (Фізична) вгору, або від шару 7 (додаток) вниз, в залежності від симптомів.

Підхід знизу (Layer 1 → Шар 7)

При використанні:

Шар 1: Фізичний
Статус на сервери
Шар 3: мережа
Шар 4: Транспорт
Шар 5-7: Сесія/Презентація/Застосування

Кращий підхід (Layer 7 → Шар 1)

При використанні:

Приклад:

Старт на Layer 7 (Is SharePoint працює? Вирішити DNS виправити IP?) і працювати лише за потреби.

Рішення Дерево: Чи є це шар 1, 2, або 3?

Використовуйте це швидке діагностичне дерево, щоб визначити, який шар не вдається:

Чи можете ви ping localhost (127.0.0.1)?
й
Проблеми: Операційна система / програмне забезпечення
й
Чи можна ви пінгувати власну IP-адресу?
↓ NO
Problem: Шар 1/2 - Інтерфейс локальної мережі
↓ YES
Чи можна ви ping за замовчуванням шлюзу?
↓ NO
Проблеми: Шар 1/2 - локальна мережа
↓ YES
Чи можна ping віддалений хост IP-адреси?
↓ NO
Проблем: Шар 3 - Маршрутизація
↓ YES
Чи можливо ви вирішите DNS (nslookup hostname)?
↓ NO
Problem: Налаштування DNS
↓ YES
Чи можна ви дістатися до порту додатків (телеканал хост)?
↓ NO
Проблем: брандмауер / Порт блокування
↓ YES
Мережа ОК - Випуск шарів додатків

Техніка ізоляції

Якщо у вас є гіпотеза про першопричину, скористайтеся цими методами ізоляції, щоб підтвердити або відхилити її:

1. Замінити компоненти Системно

Порада:
  • Заміна патч-кабелю з відомим
  • Тест на різні порти перемикання
  • Спробуйте різні NIC (або USB адаптер)
  • Тест з різних пристроїв клієнта
  • Перемістити в інший VLAN/subnet

2. Захоплення Packet на декількох точках

Захоплення трафіку на джерело, проміжні точки та призначення для визначення, де пачки падають або модифіковані:

# Capture on client tcpdump -i eth0 -w client.pcap host server.example.com # Capture on server tcpdump -i eth0 -w server.pcap host client.example.com # Compare: # - Do packets leave client? (check client.pcap) # - Do packets arrive at server? (check server.pcap) # - If yes/no: problem is in the path between # - If yes/yes but server doesn't respond: server-side issue

3. Тестування помилок

Використовуються зовнішні змінні шляхом тестування підключення до одного пристрою:

# Test TCP stack without network ping 127.0.0.1 # Test application listening locally telnet localhost 80 # Test loopback on network interface (if supported) # Some NICs support physical loopback for Layer 1 testing

4. Знайте доброї базиліки Порівняння

Порівняти конфігурацію та поведінку від робочої системи:

# Compare interface settings diff <(ssh working-switch "show run int gi1/0/1") \ <(ssh broken-switch "show run int gi1/0/1") # Compare routing tables diff <(ssh router1 "show ip route") \ <(ssh router2 "show ip route")

Документація Під час усунення несправностей

Правильна документація запобігає прискоренню кругових відкладень, де ви намагаєте те ж саме кілька разів без її реалізації.

Шаблон усунення несправностей

Issue ID: TICKET-12345 Date/Time: 2026-02-02 14:30 UTC Reported By: Jane Smith (jane.smith@company.com) Affected Users: ~50 users in Building A, 3rd floor Symptom: Cannot access file server \\fileserver01 Initial Observations: - Issue started around 14:00 UTC - Only affects Building A, 3rd floor - Other buildings can access fileserver01 - Ping to fileserver01 (10.1.50.10) times out from affected users - Ping to default gateway (10.1.30.1) succeeds Tests Performed: 1. [14:35] Checked switch port status: gi1/0/15 is UP/UP 2. [14:38] Checked VLAN assignment: Port is in VLAN 30 (correct) 3. [14:42] Checked interface errors: 1,234 CRC errors on gi1/0/15 4. [14:45] Replaced patch cable - still seeing CRC errors 5. [14:50] Moved uplink to different port (gi1/0/16) - errors persist 6. [14:55] Checked fiber cleanliness - dirty connector found Root Cause: Dirty fiber connector on uplink between Building A floor switch and distribution switch causing CRC errors and packet loss Resolution: Cleaned fiber connector with proper cleaning kit. CRC errors dropped to zero. File server access restored. Verification: Users confirmed file server accessible. Monitored for 15 minutes with no errors. Time to Resolution: 25 minutes
Чому документація матриць:

Real-World Case Дослідження

Case Study 1: "The Network is Slow" (Важливо: Витяг вікна TCP)

Симптом

Терміни відповіді на використання бази даних від <100ms до 5+ секунд. Заявка на участь у тендері "мережі."

Початкові припущення (Wrong)

  • Мережеві заклади
  • WAN посилання насичений
  • Пляшка брандмауера

Діагностичний процес

  1. Тестування Ping:
  2. Тест пропускної здатності (iperf):
  3. захоплення пакета:
  4. Перевірка сервера:

Коричневий

Сервер бази даних OS Buffers були занадто малими для високої пропускної здатності / затримки продукту. Вікно TCP заповнить, зачепивши відправника на очікування.

Рішення

# Increased TCP receive buffers on Linux database server sysctl -w net.ipv4.tcp_rmem="4096 87380 16777216" sysctl -w net.core.rmem_max=16777216

Уроки

Не припустимо:

Case Study 2: Міжвідомча роз'єм (актуально: Duplex Mismatch)

Symptom

З'єднання сервера буде випадковим чином, особливо під навантаженням. Часом працював дрібний, іноді повністю невідповідний.

Initial Assumptions (Wrong)

  • В’язання NIC
  • Поганий кабель
  • Перемикач обладнання

Diagnostic Process

  1. Перевірка інтерфейсу:
  2. Помилка лічильників:
  3. Зіткнення:

Root Cause

Автопоїзд не вдалося. Сервер веде переговори з повним дуплексом, перемикач знизився на півдуплекс. У зв’язку з тим, що обидві сторони намагалися одночасно передавати.

Resolution

! Cisco switch - force full duplex interface GigabitEthernet1/0/10 speed 1000 duplex full

Lesson Learned

Перевірити обидва кінці:

Випадкові дослідження 3: "Чи нема певних веб-сайтів" (включно: MTU/PMTUD Black Hole)

Symptom

Користувачі можуть переглядати деякі веб-сайти (Google, Yahoo), але не інші (банківський сайт, портал компанії). Потрібні HTTP-запити працювали, великі сторінки, що закінчилися.

Initial Assumptions (Wrong)

  • Питання DNS
  • Блокування брандмауера специфічних сайтів
  • ISP проблеми маршрутизації

Diagnostic Process

  1. Розширення DNS:
  2. Тестування Ping:
  3. Невеликий запит HTTP (керівник):
  4. Велике завантаження:
  5. Тест МТУ:ping -M do -s 1472ping -M do -s 1473
  6. Моніторинг ICMP:

Root Cause

VPN тунель зменшено MTU до 1400, але брандмауер був блокуючий ICMP "Фрагментація потрібних" повідомлень. Шлях MTU Discovery (PMTUD) не може працювати, створюючи чорний отвір MTU. Невеликі пакети підходять, великі пакети з набором DF були безглуздими.

Resolution

! Implemented TCP MSS clamping on router interface Tunnel0 ip tcp adjust-mss 1360 ! Alternative: Allow ICMP Type 3 Code 4 through firewall access-list 101 permit icmp any any packet-too-big

Lesson Learned

Розміри:

Case Study 4: Проблеми якості VoIP (актуально: QoS Misconfiguration)

Symptom

Голосові дзвінки мали хоппірний аудіо, переривчасті краплі. За час роботи (9am-5pm).

Initial Assumptions (Wrong)

  • Недостатня пропускна здатність
  • Перевантаження сервера VoIP
  • Якість підключення ISP

Diagnostic Process

  1. Тест пропускної здатності:
  2. Огляд QoS:
  3. Перевірка запитів:
  4. захоплення пакета:

Root Cause

Політика QoS існувала, але розподіл пропускної здатності була заново: найкраща пам'ятка отримала 60%, голос отримав 5%. За час роботи, коли збільшився трафік даних, розпущені голосові пакети через перекриття черги.

Resolution

! Corrected QoS policy policy-map WAN-QOS class VOICE priority percent 33 class VIDEO bandwidth percent 25 class CRITICAL-DATA bandwidth percent 20 class class-default bandwidth percent 22

Lesson Learned

Термінові питання = потужність:

Симптом

Симптом Р Команди для запуску Що дивитися
Немає посилання світла Шар 1 show interfaces
ethtool eth0
Статус: вниз, немає перевізника, кабель не розгорнув
Збиток пакета Шар 1/2 show interfaces
show interfaces counters errors
CRC помилки, рункі, гіганти, зіткнення, пізні зіткнення
Чи не пінг шлюз Шар 2 arp -a
show mac address-table
show spanning-tree
No ARP запис, MAC не навчався, блокування STP
Не досягнете віддаленої підмережі Шар 3 traceroute
show ip route
show ip route summary
Місячний маршрут, виворітний наступний хміль, петлі маршрутизації
З'єднання відмовлено Шар 4 telnet host port
netstat -an
tcpdump
Сервіс не слухайте, блок брандмауера, TCP RST
Повільна продуктивність Шар 4+ ping (RTT)
iperf3
tcpdump
show interfaces
Висока надійність, обмеження пропускної здатності, ретрансмісії TCP, нульові вікна
Чи не вирішувати ім'я хоста Шар 7 nslookup
dig
cat /etc/resolv.conf
DNS сервер ненадійне, неправильне налаштування DNS, NXDOMAIN
Міжмітентні краплі Layer 1/2 ping -f (flood)
show logging
show interfaces
Duplex mismatch, не вдається кабель, STP-відновлення
Працює іноді, не інші Кілька Extended ping
Packet capture
Interface statistics
Видача балансування навантаження, ЕКМП асиметрія, переповнення таблиці

Коли Escalate

Знайте, коли продавець TAC або старших інженерів. Ескорт при:

  • Вимкнено всі етапи усунення неполадок у Вашій базі знань
  • Ви не маєте
  • Problem передбачає наявність дефекту програмного забезпечення або дефекту обладнання
  • Бізнес-ефект є критичним і трудомістким
  • Кілька команд необхідно співпрацювати (додаток + мережа + сервер)
Перед проведенням:
  • Повний опис симптомів
  • Почати час
  • Діагностичне виконання команд та їх виведення
  • Налаштування резервних копій
  • Пакет захоплює (за наявності)
  • Що ви вже пробували

Створення бази знань

Кожна сесія з усунення неполадок - це можливість навчання. Створення бази знань:

1. Створити журнал усунення несправностей

# Example structure ~/troubleshooting-journal/ ├── 2026-01-15-duplex-mismatch.md ├── 2026-01-22-mtu-black-hole.md ├── 2026-02-02-tcp-window-exhaustion.md └── README.md # Index of all issues # Each file contains: # - Symptom # - Diagnostic steps # - Root cause # - Resolution # - Lessons learned # - Related tickets/documentation

2. Побудувати командний знак

Організувати часто використовувані команди за сценарієм швидкого посилання під час усунення несправностей.

3. Документація вашої мережі

  • Топологічні діаграми (Layer 2 і Layer 3)
  • Документація схеми IP-адреси
  • ВЛАСТИВОСТІ
  • Стандартні конфігурації (шаблони)
  • Відомі базові лінії (інтерфейс статистика перед проблемами)

Загальні протипухлинні матеріали, щоб уникнути

浜у 涓 蹇

Зміна конфігурацій без розуміння проблеми часто робить речі гіршими або масками реального питання.

浜у 涓 蹇

Нерідко "мережеві питання" - це додаток, сервер або проблеми з клієнтами. Зберіть докази перед прийняттям полум'я.

❌ DON'T: Пропустити документування ваших кроків усунення несправностей

Ви вже зробили, або не зможете пояснити колегам, які ви спробували.

浜у 涓 蹇

Проблемні задачі часто є ранніми ознаками непередбачуваності. До того, як вони стали критичними.

❌ DON'T: Виправлення симптомів замість кореневих причин

Перезавантаження пристрою може відновити сервіс, але якщо ви не з`ясуєте, що це потрібно перезавантаження, проблема буде повторюватися.

Резюме: Системний контроль усунення несправностей

✓ До початку

  • Відповідь на п'ять ключових питань (Що змінено? Хто постраждалий? Постійні або міжмітентні? Відповідність? Що таке інше?)
  • Знайдіть початкові симптоми та звіти користувачів
  • Перевірка останніх змін або технічного обслуговування

✓ Під час усунення несправностей

  • Спосіб роботи через шари OSI (знизу або зверху вниз)
  • Зміна ONE змінної в часі при тестуванні
  • Документ кожного тесту і його результат
  • Використовуйте палети для перегляду фактичної поведінки трафіку
  • Порівняти з відомими базовими лініями

✓ Після постанови

  • Перевірити виправлення дійсно вирішити проблему
  • Причина кореня документів і роздільна здатність
  • Оновлення бази знань
  • У разі зміни конфігурації, оновлення документації
  • Розглянемо: Чи можна контролювати це раніше?

Висновок

Усунення мережевих проблем – це наука і мистецтво. Наука має наступні систематичні методики, використовуючи діагностичні інструменти правильно, а також протоколи розуміння. Мистецтво знає, які тести для запуску перших за ознаками, розпізнаючи візерунки від досвіду, і знаючи, коли ескалувати.

Після того, як системний підхід, описаний в цій статті, — випробуєте правильні питання, працюючий методично через модель OSI, документуючи ваші кроки, і дізнаючись з кожного питання — ви станете більш ефективним при усунення несправностей і не допускати поширених підводних каменів, які призводять до часу і неправильних фіксацій.

Пам'яті:


Останнє оновлення: 2 лютого 2026 Автор: Baud9600 Технічна команда