QNT 2020 - Continuous Probability Distributions (Lecture Note)

Continuous Probability Distributions Overview

Course Title: QNT 2020 – Spring 2025 Continuous Probability Distributions
Author: Professor Yuan-Mao Kao
Chapter Reference: Chapter 7 of the Textbook (Doane & Seward)

Chapter Outline

Review probability theory concepts
What is a random variable?
Discrete variables
Discrete probability distributions
Continuous Distributions
Continuous Probability Distributions
Uniform Continuous Distribution
Normal Distribution
Standard Normal Distribution
Normal Approximation

Probability vs. Statistics

Statistics involves:
- Real World application
- Prediction and Estimation
Key distinction:
- Data (Samples) vs. Model (Distribution)

Data Types Review

Caution regarding rounding continuous data to integers
Data Types Identified:
- Qualitative: Verbal label or coded?
- Quantitative:
  - Discrete: Countable values
  - Continuous: Measurable values
Example Data from a Sample of 4,801 U.S. Taxpayers:
- Variables include: TaxPaid, AGI, Tax %, Filing Type, Child Exemptions

Discrete Random Variables

Definition: A random variable assigns a numerical value to each outcome in a random experiment.
Notation:
- Uppercase letters (e.g., 𝑋, 𝑌) represent random variables.
- Lowercase letters (e.g., 𝑥, 𝑦) denote specific values of the random variable.
Characteristics:
- Countable number of distinct values
- Finite sets (e.g., coin tosses) versus infinite countable sets (e.g., trial until heads)

Discrete Probability Distributions

Definition: Assigns a probability to each value of a discrete random variable 𝑋.
Validity Conditions:
- Probability of any value within
  - Constraints: 0 ≤ P(X) ≤ 1
  - Total probability must sum to 1
Assignments:
- Multiple sample outcomes can match to a single number, but not vice versa.
- Multiple random variable values can match the same probability.

Coin Flips Example

Random Variable: 𝑋 (number of heads)
Definition of possible outcomes from three coin tosses
Sum of probabilities must equal 1.

Distribution Functions

Probability Distribution Function (PDF):
- Shows probabilities for each value or interval for discrete variables.
- Cumulative Distribution Function (CDF):
  - Shows cumulative probabilities summing from smallest to largest values.
- Key Parameters:
  - Mean, variance, and distribution shape depend on PDF parameters.

Expected Value

The expected value (E[X]) is the weighted sum of all X-values by their probabilities.
Represents both expectation and mean as a measure of central tendency.

Variance of A Discrete Random Variable

Definition: Weighted average of the dispersion of the mean.
Notation Variance: 𝜎², V[X].
Measure of variability; standard deviation is the square root of variance.

Continuous Random Variables: Events as Intervals

Continuous variables defined by probability intervals (e.g., P(X < 54)).
Defined as area under a curve (PDF).

Probability Density Function (PDF) and Cumulative Distribution Function (CDF)

PDF (f(x)): Non-negative, total area equals 1.
CDF (F(x)): Shows cumulative probability up to a certain value.

Understanding Probabilities as Areas

Single point probabilities = 0 in continuous case.
Total area under PDF = 1.

Expected Value and Variance for Continuous Variables

Expected value parallels discrete but uses integrals instead of summation.
Variance for continuous calculated similarly to discrete.

Uniform Continuous Distribution

Definition: Simplest continuous distribution; PDF constant between limits a, b.
- Denotated by U(a, b).
Example with anesthesia duration (15-30 minutes).

Normal Distribution Characteristics

Definition: Bell-shaped, defined by parameters mean (μ) and standard deviation (σ).
Properties:
- Approximately 99.7% of area within μ ± 3σ.
- Symmetrical and unimodal around the mean.

Standard Normal Distribution

A special case of normal where μ = 0, σ = 1.
Transformation allows use of z-tables for cumulative probability calculations.

Empirical Rule for Normal Distribution

Key intervals specify how much data lies within standard deviations from the mean:
- 1σ: 68.26%
- 2σ: 95.44%
- 3σ: 99.73%

Finding Areas with Standardized Variables

Process to determine student exam scores in a percentile.
Empirical calculations and software recommendations for precise results.

Inverse Normal Distribution

Technique to find specific percentiles based on cumulative probability.
Application to classroom scenarios in normal distributions.