fbla of doom and despair

Measures of Central Tendency:
- Mean: $\mu = \frac{\sum x_i}{n}$
- Median: Middle value of a sorted dataset.
- Mode: Most frequent value.
- Range: $\text{Max} - \text{Min}$
Variance Measures:
- Variance ( $\sigma^2$ ): Average squared deviation from the mean: $\sigma^2 = \frac{\sum (x_i - \mu)^2}{n}$
- Standard Deviation ( $\sigma$ ): $\sqrt{\sigma^2}$
- Covariance: Measures how two variables change together.
Gaussian (Normal) Distribution: Bell-shaped, symmetric; defined by mean ( $\mu$ ) and standard deviation ( $\sigma$ ). $68\%$ of data falls within $1\sigma$ , $95\%$ within $2\sigma$ .
Expected Value ( $E[X]$ ): For discrete variables, $E[X] = \sum x<em>i P(x</em>i)$ .
Variables: Discrete (countable, e.g., number of students) vs. Continuous (measurable, e.g., height).

Visual Media:
- Boxplots: Show distribution through quartiles and detect outliers.
- Histograms: Show frequency distribution of a single variable.
- Scatterplots: Visualize relationships/correlations between two variables.
Multivariate Techniques: Regression (predicting continuous outcomes) and dependence methods.
Data Quality: Cleaning involves removing duplicates and handling low-quality sources to prevent "garbage in, garbage out."

SQL: Language for querying and managing relational databases.
Python Ecosystem:
- Pandas: Data manipulation and analysis.
- NumPy: Numerical computing and arrays.
- PyTorch: Deep learning and neural networks.
R: Primarily used for statistical computing and graphics.
Relational Databases: Organised into tables with predefined schemas.

Generative AI: Focuses on creating new content (text, art, research) using Large Language Models (LLMs).
Machine Learning Types:
- Supervised: Training on labeled data (mapping inputs to known outputs).
- Unsupervised: Finding hidden patterns in unlabeled data (e.g., clustering).
- Reinforcement Learning: Learning through rewards and penalties.
Deep Learning: A subset of ML based on multi-layered neural networks.
Datasets: Training (learning), Validation (tuning), Test (final evaluation).

Predicate Logic: Uses variables and quantifiers to express facts ( $P(x)$ ).
Bayesian Networks: Probabilistic graphical models representing variables and their conditional dependencies via Directed Acyclic Graphs (DAGs).
Reasoning: Logic-based (deterministic rules) vs. Probability-based (dealing with uncertainty).

Key Risks: Algorithmic bias, privacy leakage in LLMs, and hallucinations (outputting factually incorrect information).
Data Types: Structured (tabular) vs. Unstructured (text, audio, video). Categorical (labels) vs. Numeric (counts/measurements).
Data Conversion: Binary (Base 2), Hexadecimal (Base 16), Decimal (Base 10).
Processes: Data wrangling (transforming raw data) is a critical stage in the data science process.