палю новую прохладную про hype driven development: короче посоны в рабстве запускали в kubernetes контейнерезированную опердень на go, которая sort of k/v store, проксируящая данные определенным образом в big table. Многие пользователи сервиса жаловались, что при высокой нагрузке иногда случаются лаги, от которых просаживается latency, лаги исчезают через некоторое время, потом опять появляются, etc.
стал дебажить копать это говно (типа ssh'ишься в контейнер, там никаких тулов нет, поставить ничего нельзя, остается только стандартный набор утилит командной строки и сраный go), выяснилось, что на самом деле сервис течет, как сучка. Когда ядерный OOM killer убивает опердень, как самый жирный процесс, kubernetes перезапускает контейнер с этой же оперденью либо на той же машине, либо на одной из незагруженных машин в кластере. Логи старого контейнера, в котором ебается опердень стираются и становятся недоступны.
Вот так в компании больше полугада тек сервис, который модненько перезапускался, оставляя всех в неведении о собтсвенной текучести