Metrics Monitoring and Alerting System

Operational Assumptions:
- Infrastructure for the monitored system is large-scale.
- Collection of various categorized metrics (CPU load, Requests count).
Non-functional Requirements:
- Scalability: Able to expand to accommodate additional metrics and alerts.
- Low Latency: Quick query responses for dashboards and alerts.
- Reliability: Must reliably detect and alert on critical events.
- Flexibility: Integration capabilities for new technologies.
Out of Scope:
- Log monitoring systems like ELK stack.
- Distributed system tracing.

Data Collection:
- Gather metrics data from various sources.
Data Transmission:
- Transfer data from sources to monitoring back-end.
Data Storage:
- Structure and persist incoming data efficiently.
Alerting System:
- Analyze incoming data, detect anomalies, and issue alerts.
Visualization:
- Create dashboards with data represented in various formats (graphs/charts).

Metrics as Time-Series:
- Metrics data is recorded as a time-series, identified by a metric name and optional tags.
Data Points Characteristics:
- Example of CPU load metric on server:
- Metric: cpu.load
  - Tags: host:i631, env:prod
  - Timestamp: 1613707265
  - Value: 0.29
- Time-series is structured to respond to specific queries regarding metrics over time.

Example query for CPU load across web servers in a region over the last 10 minutes:
- Utilize stored data,
- Average the values recorded during that time to provide insights.