[Watchdog] Problems with WatchDog's architecture.

Pauls Aleksandr Viktorovich pauls at ccfit.nsu.ru
Tue Aug 9 14:28:21 NOVST 2005


После проведения детального обзора систем мониторинга и управления сетью
(список смотри на swsoft.nsu.ru/~pauls) возникли небольшие сомнения в
целесообразности использования имеющейся архитектуры !

На данный момент архитектуры существующих программных решений можно
разделить на три категории:

1. Система имеет один единственный модуль, который занимается и проверкой,
и сбором информации, и оповещением (либо несколько модулей, которые могут
запускаться только на одной машине).

2. Система имеет главный управляющий модуль, который занимается сбором
информации, оповещением и конфигурированием проверяющих модулей. И сколько
угодно проверяющих модулей (агентов): каждый агент ответственен за свой
участок сети и/или за свой список серверов.

3. Полностью распределённая система: имеется сколько угодно сборщиков
данных, неограниченное количество проверяющих модулей и множество модулей,
отвечающих за ведение всяческой статистики.

Требования, которыми мы руководствовались при выборе подходящей
архитектуры:
 - многопоточность (чтобы время задержек не накапливалось)
 - распределённость (иначе для достижения нужной производительности
потребуются слишком мощные машины)
 - отсутствие точек сбоя (или как можно меньшее их количество)

Понятно, что первый тип архитектур является неуместным, т.к. для
обеспечения нужной производительности потребуется очень мощная машина, а,
чтобы исключить возможность сбоя, скорее всего, потребуется ещё одна
аналогичная машина, которая будет мониторить первую и, в случае падения
первой, запускать свою систему мониторинга.

Второй тип архитектур более предпочтителен и используется большинством
коммерческих продуктов (HP OpenView NNM, IBM Tivoli NetView, etc.). Такая
архитектура ориентирована на проверку сотен тысяч сервисов с интервалом в
пять минут. Несомненно, у такой системы будет много точек сбоя, но их
число можно уменьшить, например, вешать по два агента на каждый участок
сети (один запустится в случае сбоя другого).

Полностью распределённых систем на рынке не так уж много, нам удалось
найти только одну (Vitalnet - vitalnet.com). Такой тип архитектуры,
бессомнения, является наилучшим вариантом, но стоимость подобных систем
находится на очень высоком уровне (Vitalnet стоит порядка 60-ти тысяч
долларов) и разработка подобной потребует огромного количества времени.

Исходя из всего выше сказанного, мы склоняемся ко второму варианту
архитектуры, как к наиболее подходящему под сформулированные требования.

У нас есть несколько вариантов решения сложившейся проблемы:
 - выбрать наиболее подзодящий open source проект и доработать его
 - попытаться подобрать коммерческий пакет, соответствующий выдвинутым
требованиям (не предпочтительный вариант, т.к. подходящие решения будут
стоить не менее 12-ти тысяч долларов)
 - реализовать собственный вариант архитектуры номер 2, с использованием
имеющегося проекта

Ждём ваших пожеланий, замечаний и указаний.

С уважением, группа разработчиков WatchDog.




More information about the Watchdog mailing list