Анбик

Четыре этапа для повышения эффективности сети

4 шага для улучшения производительности сетиДокумент без названия

Сеть является основополагающим элементом для большинства организаций, обеспечивая работу ключевых бизнес-приложений, предоставляя информацию для принятия управленческих решений и создавая возможности для взаимодействия с клиентами, партнерами, поставщиками и сотрудниками. В нынешних условиях сеть занимает важнейшую стратегическую позицию, и любые сбои или ухудшение её работы немедленно отражаются на функционировании компании. Чтобы поддерживать необходимый уровень обслуживания, важно решить две основные задачи: применять превентивные меры для улучшения производительности и оперативно устранять возникающие проблемы, чтобы минимизировать время простоя. В данной статье будет представлен подход к решению вопросов, связанных с производительностью сети и приложений, который поможет быстро находить коренные причины неполадок.

Почему могут быть проблемы в сети?

С каждым годом находить истинные причины проблем в корпоративных сетях становится всё сложнее. Виртуализация расширяется за пределы центров обработки данных и охватывает настольные устройства, облачные сервисы становятся всё более распространенными, а использование личных гаджетов на работе (BYOD) уже стало нормой. Проблемы могут возникать из-за увеличивающегося количества Wi-Fi устройств, чрезмерного потребления полосы пропускания несанкционированными приложениями, неправильных конфигураций, недостатков в инфраструктуре доставки приложений и многих других факторов. Повышенное использование голосовых и видеосервисов также добавляет сложности и может привести к исчерпанию доступной полосы пропускания.

Временные и трудозатраты на устранение проблем с производительностью постоянно растут, так как специалистам необходимо определять, кто должен заниматься их решением.

Процесс диагностики сетевых проблем

Для выявления коренных причин проблем с производительностью сети применяется четырехступенчатый процесс.

Инструменты для диагностики можно разделить на две основные группы: системы управления сетью (NMS) и инструменты для захвата и анализа сетевых пакетов.

NMS, как правило, используется на этапе мониторинга и оповещения, позволяя отслеживать работу маршрутизаторов и серверов. Однако некоторые системы управления сетью могут быть сложно настроить, и в результате могут охватывать только устройства третьего уровня, оставляя без внимания коммутаторы второго уровня. Данные о работе устройств могут собираться в течение длительного времени, что затрудняет выявление влияния пиковых нагрузок. К тому же, находясь в центре сети, NMS может давать неточные результаты относительно времени реакции конечных пользователей, так как для тестирования используются разные участки сети.

На этапе устранения неполадок полезность NMS снижается, поскольку они не предоставляют детальной информации, необходимой для полного анализа проблем с производительностью.

Согласно опросу, проведенному компанией NETSCOUT среди 3000 специалистов по сетевым технологиям, 82% респондентов считают низкую производительность сети и приложений серьезной проблемой, а 52% утверждают, что возможности NMS зачастую недостаточны для выявления причин ухудшения работы. Кроме того, 51% опрошенных сообщили, что часто им приходится покидать свои рабочие места для решения проблем.

Для получения более глубокой информации сетевым инженерам следует использовать как бесплатные, так и коммерческие инструменты для захвата и анализа пакетов. Хотя их применение на этапе оповещения ограничено, так как они анализируют лишь одну точку в сети, на этапе анализа причин они проявляют себя наиболее эффективно. Однако для работы с продвинутыми инструментами анализа пакетов требуются высококвалифицированные специалисты, что увеличивает временные затраты на процесс и может привести к возникновению огромного количества пакетов для изучения в различных интерфейсах. Это значительно усложняет и удлиняет процесс диагностики неполадок.

Проблемы в сетевой инфраструктуре

Наличие разрыва между системами управления сетью (NMS), которые не предоставляют детальной информации о сетевой среде, и сложными инструментами для захвата трафика, приводит к увеличению времени, необходимого для решения возникших проблем. Скрытые, периодически возникающие неполадки могут значительно ухудшать производительность и негативно сказываться на репутации ИТ-отдела.

Для оперативного анализа и решения вопросов с производительностью необходимо иметь полное представление о сети. Это может обеспечить специализированное решение для автоматического анализа сетей и приложений, восполняющее недостатки традиционных NMS и инструментов захвата трафика.

Ключевые задачи для решения:

Существует проблема с управляемым оборудованием, которое было выбрано из-за низкой стоимости. В случае возникновения неполадок диагностика становится дорогостоящей, так как такие устройства не предоставляют информацию о состоянии сегментов сети и уровне их загрузки. Например, управляемый коммутатор позволяет сетевому инженеру анализировать порты, выявлять ошибки, оценивать загрузку и определять, кто подключен к каждому порту.

Недостаточная документация сетевой конфигурации остается серьезной проблемой, так как она быстро устаревает при частых изменениях. Физическая трассировка кабелей требует много времени, а без актуальной документации инженеры могут не знать, какие пакеты обрабатываются и куда направляются. Специалистам необходимо иметь инструменты для обнаружения состояния сети в реальном времени.

Объем данных может быть огромен, и проблема может заключаться всего в нескольких пакетах. Использование автоматизированных методов для фильтрации данных позволяет значительно ускорить диагностику, применяя подход анализа «сверху вниз».

Некоторые проблемы могут быть обнаружены инженером только после их возникновения, поэтому нужны средства для захвата и анализа данных за длительные периоды, например, 24 часа, чтобы выявлять кратковременные сбои.

Новые технологии, такие как Ethernet 10 Гбит/с или Wi-Fi 802.11n, могут не контролироваться должным образом. Многие организации не приобретают инструменты для этих технологий, полагая, что увеличение ресурсов решит все проблемы.

Необходимость в выявлении и мониторинге беспроводных устройств становится актуальной, поскольку инженерам нужно отслеживать не только корпоративные, но и личные устройства пользователей, а также выявлять помехи от различных источников, таких как устройства Wi-Fi, Bluetooth, беспроводные телефоны и микроволновые печи, с помощью спектрального анализа.

Кроме того, необходимо выявлять проблемы за пределами сети и предоставлять данные для других ИТ-групп или внешних поставщиков услуг для быстрого устранения неполадок.

Новый подход к решению проблем

Требуется комплексное решение для анализа производительности сети и приложений, которое позволит захватывать все данные и проводить интеллектуальный анализ. Это обеспечит инженеров необходимой информацией для быстрой изоляции причин проблем, а также для определения, находятся ли они за пределами сети. Решение должно собирать, интегрировать, коррелировать и передавать данные, включая потоки, SNMP и информацию от других устройств с высокой степенью детализации, вплоть до одной миллисекунды. Данные отображаются на настраиваемой панели управления, что позволяет применять рабочие процессы для быстрой изоляции причин проблем. Устранение догадок и предоставление логического процесса диагностики сокращает среднее время устранения неполадок и увеличивает эффективность работы сетевых инженеров.

Такое решение охватывает все этапы процесса устранения неполадок и предоставляет необходимую видимость для оптимизации сети.

Первый этап: мониторинг и оповещение

Необходимым компонентом для анализа сетевых проблем является система, которая своевременно извещает о возникновении неполадок. В худшем случае это может быть звонок от пользователя, что ставит инженера в невыгодное положение. Многие системы управления сетью требуют ручной настройки для каждого домена, чтобы обеспечить обнаружение всех устройств. Однако использование решения для непрерывного анализа производительности сети и приложений с автоматическим обнаружением и удобными рабочими процессами упрощает понимание взаимосвязей между устройствами, что значительно сокращает время на настройку и мониторинг.

Постоянный сбор данных производительности, их хранение в базе и отображение на панели мониторинга, настроенной под нужды пользователя, позволяет отслеживать производительность по заданным критериям, например, соглашениям об уровне обслуживания. Все тревожные события мгновенно отображаются в системе, и пользователи могут анализировать проблемы на разных уровнях детализации.

Системы мониторинга могут быть интегрированы с уже существующими инструментами управления, такими как HP OpenView или Tivoli Netcool, и передавать данные и уведомления в системы управления услугами и панели мониторинга.

Второй этап: исследование

Инженеру необходимо оценить масштаб проблемы. Для этого решение должно собирать все актуальные данные, такие как SNMP, потоки, пакеты и время отклика пользователей, и сохранять их для дальнейшего анализа. Инструмент мониторинга производительности сети и приложений способен в реальном времени определять маршрут от клиента до сервиса, что значительно сокращает время для анализа. После этого можно выявить связь между устройствами для мониторинга проблем как во внутренних, так и во внешних сетях. Результаты отображаются в графическом формате, что облегчает интерпретацию данных.

Для достижения оптимальной эффективности система должна поддерживать интерфейсы с пропускной способностью 1 Гбит/с и 10 Гбит/с, а также обеспечивать захват данных с полной скоростью канала. Некоторые решения могут определить маршрут в сети от клиента до сервера, обнаруживая устройства второго и третьего уровня и предоставляя детализированную информацию для выявления источника проблемы. Если причины неполадок связаны с клиентом, инженер должен провести тест на производительность или отклик приложений, чтобы определить, вызвана ли проблема проводной или беспроводной сетью. Интеграция инструментов анализа для обеих сетей в единый интерфейс позволяет выявить источник проблемы с помощью одного теста.

Третий этап: изоляция

На данном этапе неполадка должна быть локализована в определенном сегменте сети, коммутаторе, маршрутизаторе, сервере или приложении. Теперь необходимо проанализировать маршрут, чтобы получить статистику по трафику каждого канала и выяснить, вызваны ли проблемы неисправностями оборудования, кабелей, помехами или перегрузкой трафика.

Одним из главных преимуществ SNMP является возможность изоляции неисправного участка. С его помощью можно опрашивать каждую точку подключения для выявления узких мест в потоке. Это удобно, если устройства управляемые и инженер имеет доступ к ним. В противном случае придется подключать инструменты к каждому каналу, что может занять много времени при большом количестве соединений.

Автоматизированное тестирование состояния сетевой инфраструктуры с помощью системы мониторинга производительности позволяет контролировать все поддерживаемые SNMP-устройства и анализировать потоки приложений, выявляя потерю пакетов или перегрузки. Этот процесс будет быстрым и простым даже для больших сетей.

Некоторые проблемы могут проявляться только в определенных точках. Для их выявления потребуется портативное устройство с широкими возможностями тестирования и необходимыми интерфейсами. С учетом увеличения числа удаленной работы и личных устройств использование таких инструментов становится особенно актуальным.

Портативные приборы могут быть отправлены на удаленные площадки для диагностики состояния неуправляемого оборудования. В идеале инженер должен иметь возможность анализировать маршруты, оценивать состояние инфраструктуры и потоков приложений, а также выявлять помехи от внешних устройств.

Если перегрузки или ошибки не обнаружены, это свидетельствует о том, что проблема не в сети. Однако для подтверждения этого потребуется анализировать каналы в течение определенного времени, чтобы установить, сохраняется ли проблема. Поэтому система мониторинга должна обеспечивать длительное хранение данных для последующего анализа.

ШАГ ЧЕТВЕРТЫЙ: ИЗУЧЕНИЕ ПРИЧИН ПРОБЛЕМ И ИХ УСТРАНЕНИЕ

На этом этапе инженер осуществляет подтверждение причины возникшей проблемы, а также разрабатывает и тестирует соответствующее решение. В случае если проблема не связана с сетью, скоростью отклика сервера или перегрузкой ресурсов, необходимо провести более глубокий анализ, включая захват и исследование сетевых пакетов. Важно начать с изоляции проблемы, определяя, где именно — на уровне сервера, сети или приложения — она возникла, поскольку анализ пакетов требует значительных временных затрат и высокой квалификации.

Для быстрого выявления первопричины рекомендуется сосредоточиться на уровне приложений. Например, если сетевое соединение функционирует нормально, но время отклика оставляет желать лучшего, это может свидетельствовать о проблемах с виртуализированным сервером, приложением, работающим на нескольких уровнях, или о программных ошибках.

Одним из эффективных инструментов является анализатор пакетов, который позволяет увидеть данные на уровне приложений и визуализировать многоуровневые схемы пакетов. Настройка зеркалирования или разветвления соединений относительно проста, однако они могут терять пакеты в условиях интенсивного трафика, а ошибки первого уровня блокируются коммутатором второго уровня. В то же время пассивные разветвители являются более предпочтительными, но их использование может привести к разрыву соединения и недоступности соответствующих сервисов для пользователей. Падение производительности, как правило, не вызывает серьезных проблем, но может затруднить доступ тем, кто использует данный канал для подключения к другим услугам.

Оптимальным решением будет создание сети с заранее настроенными ответвлениями трафика, расположенными перед стойками серверов, центрами обработки данных и маршрутизаторами внешних каналов. Это обеспечивает захват пакетов без нарушения работы сети. Если такая возможность отсутствует, инженеру, возможно, придется использовать зеркалирование диапазонов или портов, принимая во внимание сопутствующие проблемы и возможные неточности.

Система мониторинга производительности сети и приложений предоставляет автоматизированные методы для анализа захваченных пакетов и выявления проблем. Она использует подход, ориентированный на приложения, и включает пользовательский интерфейс, который показывает каждый поток данных с визуальными индикаторами проблем. Инженер может просто нажать на индикатор, чтобы получить подробную информацию и выяснить, в каких пакетах возникли трудности. Для более детального анализа целесообразно захватить пакеты в нескольких точках инфраструктуры, что позволит определить, где именно проявляется проблема. Для этого необходима возможность многосегментного анализа и одновременного сбора данных из различных точек, что обеспечит более полное понимание ситуации.

Эффективный анализ первопричин может выполняться как в центре обработки данных, так и на удаленных площадках, чтобы выяснить, связаны ли проблемы с серверами или приложениями. Некоторые инструменты способны извлекать данные управления из физических или виртуальных серверов для определения причин проблем с производительностью или нехваткой ресурсов.

Собирая и анализируя детализированные исторические данные, система мониторинга производительности сети и приложений дает инженеру возможность вернуться к моменту возникновения проблемы и изучить симптомы, которые проявились в тот период, что способствует выявлению и устранению кратковременных сбоев.

Оптимизация сети

Решение для мониторинга производительности сети и приложений предоставляет инженерам необходимую информацию для документирования и аудита состояния корпоративной сети. Оно также позволяет выявлять замедления в работе приложений и определять, на каких участках работа серверов или приложений испытывает задержки, что дает возможность внести необходимые коррективы. Собранные данные могут использоваться для определения приоритетов проектов, таких как обновление серверов, а также для обоснования необходимых изменений. Эта информация будет полезна при установке нового оборудования и приложений, так как инженеры смогут проверить, какие решения оказались эффективными, и удостовериться, что они не негативно сказались на производительности других компонентов. Данные также могут подтвердить влияние изменений в сети, таких как виртуализация, оптимизация WAN или консолидация центра обработки данных.