Задание 1
Что нужно сделать
Соберите следующие метрики:
node_cpu_seconds_total
— режим iowait.node_cpu_seconds_total
— загрузка процессора в процентах. Подсказка: без CPU.node_filesystem_avail_bytes
— mountpoint/
, исключить device tmpfs. Занятое место в процентах.node_load
за 15 минут (примечание: тут есть подвох).
Метрики:
node_cpu_seconds_total{mode="iowait"}
100 - (avg without (cpu) (irate(node_cpu_seconds_total{mode="idle"}[5m])) * 100)
100 - ((node_filesystem_avail_bytes{mountpoint="/",fstype!~"tmpfs"} / node_filesystem_size_bytes) * 100)
node_load15
Тоже самое в Prometheus WebUI:
Задание 2
Что нужно сделать
Используя Grafana, прикрутите визуализацию для всех метрик, что мы указали выше, плюсом добавьте свои, на ваш вкус и цвет. Пять штук будет вполне достаточно. Чтобы было интереснее, визуализируйте все метрики, используя Stat, Graph, Gauge, Time Series и Pie Chart. Для каких метрик что использовать ― на ваше усмотрение.
Задание 3
Что нужно сделать
Сделайте четыре алерта:
- Хост получает очень много трафика за минуту. Пусть будет выше 50 Mb/s.
- Загрузка процессора выше 85%.
- У нас упал какой-то таргет
up == 0
.- У нас упало ВСЁ.
Задание 4
Что нужно сделать
Пускай у нас будет условный интернет-магазин.
- На первом инстансе у нас веб-приложение.
- На втором ― база данных.
- На третьем ― Prometheus, Grafana и так далее.
Разверните систему мониторинга, чтобы за всем этим делом следить.