Основные понятия
Чтобы лучше понять устройство StatsHouse, познакомьтесь с основными понятиями:
- Агрегация
- Кардинальность
- Семплирование
Агрегация
StatsHouse агрегирует, то есть "схлопывает", измерения с одинаковыми наборами тегов — как в пределах временного интервала, так и между хостами.
Агрегат
Агрегат — это результат агрегации. Это минимальный набор описательных статистик: count, sum, min, max. На основе них StatsHouse при необходимости восстанавливает остальные статистики. Например, вот как выглядит секундный агрегат:

StatsHouse не хранит точное значение метрики за каждый момент времени. Вместо этого в системе хранятся агрегаты, относящиеся к временным интервалам (см. минимальный доступный интервал агрегации).
StatsHouse вставляет агрегированные данные в базу данных ClickHouse, а именно в секундную таблицу. Посекундных данных очень много, поэтому с течением времени StatsHouse уменьшает их разрешение, чтобы хранить меньше. StatsHouse агрегирует данные ещё сильнее — в пределах каждой минуты — и вставляет их в минутную таблицу. Затем данные агрегируются в пределах каждого часа.
Минимальный доступный интервал агрегации
То, какой агрегат доступен в данный момент времени, зависит от "