Network Troubleshooting Methodology - The Systematic Approach

Также доступно на:

Методология устранения сетевых неполадок: системный подход

Почему методология имеет значение

Проблема: Приложение базы данных «медленно». Сетевая команда обвиняет серверную команду. Серверная команда обвиняет сеть. Между тем, пользователи разочарованы, и часы тратятся на круговую отладку.

Решение: Систематический, научный подход к устранению неполадок, который использует доказательства, а не предположения, для выявления коренных причин.

Стоимость устранения неполадок Haphazard: Потраченное время, неправильные исправления, которые маскируют реальные проблемы, указывание пальцем между командами и ухудшение пользовательского опыта.

Оригинальное название: The Scientific Method Applied to Networking

Устранение неполадок в сети является фундаментальным упражнением в научном методе:

наблюдать Симптомы и сбор данных
Формировать гипотезу О первопричине
Проверьте гипотезу с диагностическими инструментами
Анализ результатов подтвердить или опровергнуть гипотезу
Реализовать исправление Основано на подтвержденной первопричине
проверять Проблема решена

Эта статья предоставляет структурированную структуру для устранения сетевых неполадок, которая предотвращает распространенные подводные камни, такие как:

Предвзятость подтверждения (ищите только доказательства, подтверждающие вашу первоначальную догадку)
Случайные изменения без диагноза («распыление и молитва»)
Устранение симптомов вместо коренных причин
Круговая отладка без документирования того, что было опробовано

Пять ключевых вопросов

Прежде чем погрузиться в техническую диагностику, ответьте на эти пять важных вопросов, чтобы сузить область исследования:

Вопрос 1: Что изменилось за последнее время?

Изменение конфигурации? Новое оборудование? Обновления программного обеспечения? Топологические модификации?

Проверьте журналы управления изменениями
Обзор последних обязательств в системах управления конфигурацией
Спроси: "Работал ли он вчера?"

↓

Вопрос 2: Кто пострадал?

Один пользователь? Одно здание? Всем? Только конкретное применение?

Одно устройство: Вероятно локальная проблема (NIC, кабель, конфигурация)
Одна подсеть: Gateway, DHCP или проблема переключения
Всем: Основная инфраструктура, ISP или широко распространенная проблема
Специальное приложение: Сервер приложений, правило брандмауэра или DNS

↓

Вопрос 3: Постоянны или прерывисты?

Это происходит постоянно? Только в определенные часы? Случайные случаи?

Постоянный: Жесткий отказ (вырезание кабеля, неправильная конфигурация, служба сбоя)
Основанный на времени: Перегрузка в рабочее время, плановые процессы
Прерывистый / Рэндом: Дуплексное несоответствие, отказ оборудования, прерывистая связь

↓

Вопрос 4: Можно ли его воспроизвести?

Можно ли решить проблему по требованию?

Да. Гораздо проще диагностировать (можно проверить гипотезы)
Нет. Настройка мониторинга / регистрации и ожидание рецидива

↓

Вопрос 5: Что видит другая сторона?

Проверьте оба конца соединения

Перспектива клиента против перспективы сервера
Захват пакетов в источнике vs. пункт назначения
Асимметричная маршрутизация? Различные пути для отправки и получения?

Модельный диагностический подход OSI

Модель OSI обеспечивает структурированную структуру для устранения неполадок. Работа от уровня 1 (Физический) вверх или от уровня 7 (Приложение) вниз, в зависимости от симптомов.

Подход снизу вверх (слой 1 → слой 7)

Когда использовать: Полная потеря связи, отсутствие световой связи или симптомы физического уровня

Слой 1: Физический

Проверка: подключен кабель? Зажгите свет? Чистое волокно?
Команды: show interfaces, ethtool eth0
Ищите: ошибки CRC, столкновения, поздние столкновения, ранты, гиганты

↓

Слой 2: Data Link

Проверка: правильный VLAN? Порт включен? Блокировка STP?
Команды: show mac address-table, show spanning-tree
Ищите: MAC, изменения топологии STP, несоответствия VLAN

↓

Уровень 3: Сеть

Проверьте: может ли пинг по умолчанию шлюз? Правильный маршрут?
Команды: ping, traceroute, show ip route
Пропавшие маршруты, неправильный next-hop, петли маршрутизации

↓

Уровень 4: Транспорт

Проверьте: можно ли установить соединение TCP? Брандмауэр блокирует порт?
Команды: telnet host port, netstat -anЗахват пакетов
TCP-ретрансляции, нулевые окна, пакеты RST

↓

Слой 5-7: Сессия/Представление/Приложение

Проверка: решение DNS? Заявка отвечает? Аутентификация работает?
Команды: nslookup, dig, curl -v
Ищите: сбои DNS, ошибки приложений, проблемы с тайм-аутом

Подход сверху вниз (уровень 7 → уровень 1)

Когда использовать: Прикладные проблемы, где существует базовая связь

Пример: Я могу просматривать интернет, но не могу получить доступ к сайту компании SharePoint.

Начните с уровня 7 (работает ли служба SharePoint?) DNS-решение для исправления IP?) и работа вниз только при необходимости.

Дерево решений: это слой 1, 2 или 3?

Используйте это быстрое диагностическое дерево, чтобы определить, какой слой выходит из строя:

Вы можете пинговать localhost (127.0.0.1)?

↓ Нет

Проблема: Операционная система / Проблема программного обеспечения

Стек TCP/IP не работает. Проверьте службы ОС, переустановите сетевые драйверы.

↓ Да

Можете ли вы пинговать свой собственный IP-адрес?

↓ NO

Уровень 1/2 - Локальный сетевой интерфейс

NIC отключен, неправильный водитель, кабель отключен. Проверьте: ip link show Диспетчер устройств

↓ YES

Вы можете использовать шлюз по умолчанию?

↓ NO

Уровень 1/2 - Локальная сеть

Проверка: Физический кабель, состояние порта переключателя, назначение VLAN, таблица ARP

↓ YES

Можно ли пинговать удаленный хост по IP-адресу?

↓ NO

Проблема: Уровень 3 - Маршрутизация

Проверка: таблица маршрутизации, правила брандмауэра, ACL. Использовать traceroute Где останавливаются пакеты

↓ YES

Можете ли вы решить DNS (NSlookup hostname)?

↓ NO

Проблема: конфигурация DNS

Проверка: настройки DNS-сервера, доступность DNS-сервера, брандмауэр блокировки порта 53

↓ YES

Вы можете получить порт приложения (порт хоста сети)?

↓ NO

Проблема: брандмауэр / блокировка портов

Проверка: правила брандмауэра, группы безопасности, сервис прослушивания портов

↓ YES

Сеть в порядке - проблема уровня приложения

Проблема с самим приложением, аутентификацией или конфигурацией приложения

Техника изоляции

Когда у вас есть гипотеза о первопричине, используйте эти методы изоляции, чтобы подтвердить или отвергнуть ее:

1. систематически заменять компоненты

Совет: Изменение одной переменной за раз. Если вы поменяете оба кабеля и порт переключателя, вы не будете знать, кто его починил.

Swap patch кабель с известным хорошим кабелем
Испытание на разных портах переключателей
Попробуйте другой NIC (или сетевой адаптер USB)
Тестирование с разных клиентских устройств
Перейдите в другой VLAN/подсети

2. Захват пакетов в нескольких точках

Захват трафика в исходных, промежуточных точках и пункте назначения для определения того, где пакеты сбрасываются или изменяются:

# Capture on client
tcpdump -i eth0 -w client.pcap host server.example.com

# Capture on server
tcpdump -i eth0 -w server.pcap host client.example.com

# Compare:
# - Do packets leave client? (check client.pcap)
# - Do packets arrive at server? (check server.pcap)
# - If yes/no: problem is in the path between
# - If yes/yes but server doesn't respond: server-side issue

3. Тестирование петля

Исключите внешние переменные, протестировав подключение к одному устройству:

# Test TCP stack without network
ping 127.0.0.1

# Test application listening locally
telnet localhost 80

# Test loopback on network interface (if supported)
# Some NICs support physical loopback for Layer 1 testing

4.Хорошие базовые сравнения

Сравните конфигурацию и поведение с рабочей системой:

# Compare interface settings
diff <(ssh working-switch "show run int gi1/0/1") \
     <(ssh broken-switch "show run int gi1/0/1")

# Compare routing tables
diff <(ssh router1 "show ip route") \
     <(ssh router2 "show ip route")

Документация во время устранения неполадок

Правильная документация предотвращает круговую отладку, когда вы пробуете одно и то же несколько раз, не осознавая этого.

Устранение неполадок Шаблон

Issue ID: TICKET-12345
Date/Time: 2026-02-02 14:30 UTC
Reported By: Jane Smith (jane.smith@company.com)
Affected Users: ~50 users in Building A, 3rd floor
Symptom: Cannot access file server \\fileserver01

Initial Observations:
- Issue started around 14:00 UTC
- Only affects Building A, 3rd floor
- Other buildings can access fileserver01
- Ping to fileserver01 (10.1.50.10) times out from affected users
- Ping to default gateway (10.1.30.1) succeeds

Tests Performed:
1. [14:35] Checked switch port status: gi1/0/15 is UP/UP
2. [14:38] Checked VLAN assignment: Port is in VLAN 30 (correct)
3. [14:42] Checked interface errors: 1,234 CRC errors on gi1/0/15
4. [14:45] Replaced patch cable - still seeing CRC errors
5. [14:50] Moved uplink to different port (gi1/0/16) - errors persist
6. [14:55] Checked fiber cleanliness - dirty connector found

Root Cause:
Dirty fiber connector on uplink between Building A floor switch
and distribution switch causing CRC errors and packet loss

Resolution:
Cleaned fiber connector with proper cleaning kit. CRC errors
dropped to zero. File server access restored.

Verification:
Users confirmed file server accessible. Monitored for 15 minutes
with no errors.

Time to Resolution: 25 minutes

Почему важна документация: Без этой записи в следующий раз, когда кто-то увидит ошибки CRC на этом выключателе, он может потратить время на замену кабелей и тестовых портов вместо немедленной проверки чистоты волокна.

Реальные мировые тематические исследования

Пример 1: «Сеть медленная» (на самом деле: истощение окон TCP)

симптом

Время отклика приложения базы данных ухудшилось с <100 мс до 5+ секунд. Команда приложений обвинила «сетевую задержку».

Первоначальные предположения (ошибочные)

Перегруженность сети
Связь WAN насыщенная
Бутылочное горлышко Firewall

Диагностический процесс

Пинг-тест: RTT = 2 мс (отлично, исключает задержку уровня 3)
Пропускной тест (iperf): 950 Мбит/с на 1 Гбит/с (без заторов)
Захват пакетов: Обнаружены пакеты TCP Zero Window с сервера базы данных
Проверка сервера: Сервер базы данных получает буферы = 64 КБ (крошечный!)

Коренная причина

Буферы ОС сервера баз данных были слишком малы для продукта с высокой пропускной способностью × задержкой. Окно TCP заполняется, заставляя отправителя ждать.

Резолюция

# Increased TCP receive buffers on Linux database server
sysctl -w net.ipv4.tcp_rmem="4096 87380 16777216"
sysctl -w net.core.rmem_max=16777216

Извлеченный урок

Не думайте: "Медленный" не всегда означает "задержка сети". Всегда собирайте доказательства (задержка, захват пакетов для поведения), прежде чем делать выводы.

Тематическое исследование 2: Прерывистая связь (на самом деле: Дуплексное несоответствие)

Symptom

Подключение к серверу будет падать случайным образом, особенно под нагрузкой. Иногда работал нормально, иногда совершенно безответно.

Initial Assumptions (Wrong)

Неудачный NIC
Плохой кабель
Проблема коммутационного оборудования

Diagnostic Process

Проверка интерфейса: Сервер NIC = 1000/Full, порт коммутатора = 1000/Half (mismatch!)
Счетчики ошибок: Огромное количество столкновений в коммутационном порту
Поздние столкновения: Показатель дуплексного несоответствия

Root Cause

Автопереговоры провалились. Сервер договорился о полнодуплексном, переключатель упал обратно на полудуплексный. Столкновения происходили только под нагрузкой, когда обе стороны пытались передавать одновременно.

Resolution

! Cisco switch - force full duplex
interface GigabitEthernet1/0/10
 speed 1000
 duplex full

Lesson Learned

Проверьте оба конца: Статус интерфейса показывает согласованные настройки. Несоответствие означает провал переговоров. Скорость/дуплекс жесткого кода для серверов.

Тематическое исследование 3: «Невозможно достичь определенных веб-сайтов» (на самом деле: Черная дыра MTU / PMTUD)

Symptom

Пользователи могут просматривать некоторые веб-сайты (Google, Yahoo), но не другие (банковский веб-сайт, портал компании). Работали небольшие HTTP-запросы, большие страницы.

Initial Assumptions (Wrong)

Проблема DNS
Firewall блокирует определенные сайты
Проблема маршрутизации ISP

Diagnostic Process

Разрешение DNS: Хорошо работает для всех сайтов
Пинг-тест: Могут ли пинговать «недоступные» сайты
Небольшой HTTP-запрос (curl): Работа для небольших страниц
Большая загрузка: Задержка после рукопожатия TCP
Тест МТУ: ping -M do -s 1472 Успешно, ping -M do -s 1473 провал
Мониторинг ICMP: Не требуется фрагментация (код 4 типа 3)

Root Cause

VPN-туннель уменьшил MTU до 1400, но брандмауэр блокировал сообщения ICMP «Fragmentation Needed». Путь MTU Discovery (PMTUD) не мог работать, создавая черную дыру MTU. Небольшие пакеты, большие пакеты с набором битов DF были тихо сброшены.

Resolution

! Implemented TCP MSS clamping on router
interface Tunnel0
 ip tcp adjust-mss 1360

! Alternative: Allow ICMP Type 3 Code 4 through firewall
access-list 101 permit icmp any any packet-too-big

Lesson Learned

Размер имеет значение: Если небольшие запросы работают, но большие переводы терпят неудачу, подозреваемые проблемы MTU / фрагментации. Используйте ping с битом DF для тестирования пути MTU.

Тематическое исследование 4: проблемы качества VoIP (на самом деле: неправильная конфигурация QoS)

Symptom

Голосовые звонки имели дряблый звук, периодические отсева. Произошло это только в рабочее время (9 утра-5 вечера).

Initial Assumptions (Wrong)

Недостаточная пропускная способность
VoIP-сервер перегружен
Качество подключения ISP

Diagnostic Process

Пропускной тест: Ссылка используется только на 40% в час работы
Проверка QoS: Голосовой трафик, отмеченный DSCP EF (46)
Очередной осмотр: Голосовая очередь имела только 5% распределения полосы пропускания (должна быть 33%).
Захват пакетов: Голосовые пакеты сбрасываются во время заторов

Root Cause

Политика QoS существовала, но распределение пропускной способности было обратным: лучшие усилия получили 60%, голос получил 5%. В рабочее время, когда трафик данных увеличился, голосовые пакеты были удалены из-за переполнения очередей.

Resolution

! Corrected QoS policy
policy-map WAN-QOS
 class VOICE
  priority percent 33
 class VIDEO
  bandwidth percent 25
 class CRITICAL-DATA
  bandwidth percent 20
 class class-default
  bandwidth percent 22

Lesson Learned

Вопросы времени = потенциал: Если проблемы возникают только в напряженные часы, это не тяжелый сбой, а проблема емкости / QoS. Проверьте статистику очередей, а не только общую пропускную способность.

Командная ссылка на Symptom

симптом	слой	Команды для бега	Что искать
Нет никакой связи.	Слой 1	`show interfaces ethtool eth0`	Состояние: вниз, нет носителя, кабель отключен
Потеря пакета	Слой 1/2	`show interfaces show interfaces counters errors`	CRC ошибки, ранты, гиганты, столкновения, поздние столкновения
Не могу пинг шлюз	Слой 2	`arp -a show mac address-table show spanning-tree`	Нет ARP-записи, MAC не изучен, блокировка STP
Не удается добраться до удаленной подсети	Слой 3	`traceroute show ip route show ip route summary`	Пропавший маршрут, неверный следующий прыжок, петля маршрутизации
Подключение отказали	Слой 4	`telnet host port netstat -an tcpdump`	Сервис не слушает, брандмауэр блок, TCP RST
Медленная производительность	Слой 4+	`ping (RTT) iperf3 tcpdump show interfaces`	Высокая задержка, ограничение пропускной способности, ретрансляции TCP, нулевые окна
Не могу определить имя хоста	Слой 7	`nslookup dig cat /etc/resolv.conf`	DNS-сервер недоступен, неправильная конфигурация DNS, NXDOMAIN
Прерывистые падения	Layer 1/2	`ping -f (flood) show logging show interfaces`	Дуплексное несоответствие, отказ кабеля, STP-конвергенция
Иногда работает, а не другие	многократно	`Extended ping Packet capture Interface statistics`	Проблема балансировки нагрузки, асимметрия ECMP, переполнение таблицы состояний

Когда эскалировать

Знайте, когда перейти к поставщику TAC или старшим инженерам. Эскалация когда:

Вы исчерпали все шаги по устранению неполадок в своей базе знаний
Проблема требует доступа / разрешений, которых у вас нет
Проблема связана с ошибкой программного обеспечения поставщика или дефектом оборудования
Влияние бизнеса является критическим и чувствительным ко времени
Несколько команд должны сотрудничать (приложение + сеть + сервер)

Перед эскалацией: Документируйте все, что вы пробовали. Инженеры TAC нуждаются в этой информации, чтобы избежать повторения ваших шагов. Включая:

Полное описание симптома
Сроки начала выпуска
Диагностические команды работают и их выход
Резервное копирование конфигурации
Захват пакетов (если применимо)
Что вы уже пробовали

Создание вашей личной базы знаний

Каждый сеанс устранения неполадок - это возможность обучения. Создайте личную базу знаний:

1.Создать журнал по устранению неполадок

# Example structure
~/troubleshooting-journal/
├── 2026-01-15-duplex-mismatch.md
├── 2026-01-22-mtu-black-hole.md
├── 2026-02-02-tcp-window-exhaustion.md
└── README.md  # Index of all issues

# Each file contains:
# - Symptom
# - Diagnostic steps
# - Root cause
# - Resolution
# - Lessons learned
# - Related tickets/documentation

2.Создать командный чит-лист

Организуйте часто используемые команды по сценарию для быстрой ссылки во время устранения неполадок.

3 Документируйте свою сеть

Диаграммы топологии (слой 2 и слой 3)
Документация по схеме IP-адресов
Задания VLAN
Стандартные конфигурации (шаблоны)
Известные хорошие исходные данные (статистика интерфейса до проблем)

Антипаттерны, которых следует избегать

Не делайте случайных изменений без диагноза

Изменение конфигурации без понимания проблемы часто ухудшает ситуацию или маскирует реальную проблему.

Допустим, сеть всегда виновата

Часто «сетевые проблемы» — это проблемы приложения, сервера или клиента. Соберите доказательства, прежде чем принять вину.

НЕ: Пропустите документирование ваших шагов по устранению неполадок

Вы будете тратить время на повторные тесты или не сможете объяснить коллегам, что вы пробовали.

Не игнорируйте прерывистые проблемы

Прерывистые проблемы часто являются ранними признаками надвигающейся неудачи. Исследуйте их, прежде чем они станут критическими.

Не: Исправьте симптомы вместо коренных причин

Перезагрузка устройства может восстановить обслуживание, но если вы не узнаете, зачем ему нужна перезагрузка, проблема повторится.

Оригинальное название: The Systematic Troubleshooting Checklist

✓ Прежде чем начать

Ответьте на пять ключевых вопросов (Что изменилось?) Кто пострадал? Постоянный или прерывистый? Воспроизводимый? Что видит другая сторона?
Соберите начальные симптомы и отчеты пользователей
Проверьте последние изменения или техническое обслуживание

Во время устранения неполадок

Методически работать через уровни OSI (снизу вверх или сверху вниз)
Изменение одной переменной в момент тестирования
Документирование каждого теста и его результатов
Используйте захват пакетов, чтобы увидеть фактическое поведение трафика
Сравнение с известными хорошими исходными линиями

После решения

Проверьте, действительно ли исправление решило проблему
Корневая причина и резолюция документа
Обновите свою базу знаний
В случае изменения конфигурации обновить документацию
Подумайте: мог ли мониторинг зафиксировать это раньше?

Заключение

Устранение неполадок в сети - это и наука, и искусство. Наука следует систематической методологии, правильно используя диагностические инструменты и понимание протоколов. Искусство заключается в том, чтобы знать, какие тесты следует проводить в первую очередь, основываясь на симптомах, распознавая закономерности из опыта и зная, когда следует наращивать.

Следуя систематическому подходу, изложенному в этой статье, задавая правильные вопросы, методично работая с моделью OSI, документируя свои шаги и изучая каждую проблему, вы станете более эффективными в устранении неполадок и избегании распространенных ошибок, которые приводят к потере времени и неправильным исправлениям.

Запомни: Цель состоит не только в том, чтобы восстановить сервис, но и понять, почему он потерпел неудачу, чтобы вы могли предотвратить его повторение.

Последнее обновление: 2 февраля 2026 | Автор: Baud9600 Техническая команда