Задание 1

Что нужно сделать

Соберите следующие метрики:

  • node_cpu_seconds_total — режим iowait.
  • node_cpu_seconds_total — загрузка процессора в процентах. Подсказка: без CPU.
  • node_filesystem_avail_bytesmountpoint /, исключить device tmpfs. Занятое место в процентах.
  • node_load за 15 минут (примечание: тут есть подвох).

Метрики:

node_cpu_seconds_total{mode="iowait"}
100 - (avg without (cpu) (irate(node_cpu_seconds_total{mode="idle"}[5m])) * 100)
100 - ((node_filesystem_avail_bytes{mountpoint="/",fstype!~"tmpfs"} / node_filesystem_size_bytes) * 100)
node_load15

Тоже самое в Prometheus WebUI:

Задание 2

Что нужно сделать

Используя Grafana, прикрутите визуализацию для всех метрик, что мы указали выше, плюсом добавьте свои, на ваш вкус и цвет. Пять штук будет вполне достаточно. Чтобы было интереснее, визуализируйте все метрики, используя Stat, Graph, Gauge, Time Series и Pie Chart. Для каких метрик что использовать ― на ваше усмотрение.

Задание 3

Что нужно сделать

Сделайте четыре алерта:

  1. Хост получает очень много трафика за минуту. Пусть будет выше 50 Mb/s.
  2. Загрузка процессора выше 85%.
  3. У нас упал какой-то таргет up == 0.
  4. У нас упало ВСЁ.

Задание 4

Что нужно сделать

Пускай у нас будет условный интернет-магазин.

  1. На первом инстансе у нас веб-приложение.
  2. На втором ― база данных.
  3. На третьем ― Prometheus, Grafana и так далее.

Разверните систему мониторинга, чтобы за всем этим делом следить.