统计学中的数据的几种分布

统计学中的数据分布主要分为连续数据概率分布和离散数据概率分布两大类

均匀分布

定义:均匀分布也叫矩形分布,它是对称概率分布,在相同长度间隔的分布概率是等可能的。

参数:由两个参数a和b定义,它们是数轴上的最小值和最大值,通常缩写为U(a,b)。

图像

统计学中的数据的几种分布

正态分布

定义:正态分布(Normal distribution),也称“常态分布”,又名高斯分布(Gaussian distribution)。

参数:若随机变量X服从一个数学期望为μ、方差为σ²的正态分布,记为N(μ,σ²)。

特性:其期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ=0,σ=1时的正态分布是标准正态分布。

图像

统计学中的数据的几种分布

t分布

定义:t分布(t-distribution)用于根据小样本来估计呈正态分布且方差未知的总体的均值。

特性:t分布曲线形态与自由度df大小有关。自由度df越小,t分布曲线愈平坦,曲线中间愈低,曲线双侧尾部翘得愈高;自由度df愈大,t分布曲线愈接近正态分布曲线,当自由度df=∞时,t分布曲线为标准正态分布曲线。

图像

统计学中的数据的几种分布

伽马分布

定义:伽玛分布(Gamma Distribution)是统计学的一种连续概率函数,是概率统计中一种非常重要的分布。

参数:Gamma分布中的参数α称为形状参数(shape parameter),β称为逆尺度参数。

特例:“指数分布”和“χ²分布”都是伽马分布的特例。

图像

统计学中的数据的几种分布

4.1 指数分布

定义:指数分布(也称为负指数分布)是描述泊松过程中的事件之间的时间的概率分布,即事件以恒定平均速率连续且独立地发生的过程。

特性:指数函数的一个重要特征是无记忆性(Memoryless Property,又称遗失记忆性)。

图像

统计学中的数据的几种分布

4.2 卡方分布

定义:卡方分布是与卡方检验相关的一种概率分布。

图像

统计学中的数据的几种分布

统计学中的数据的几种分布

贝塔分布

定义:贝塔分布(Beta Distribution) 是一个作为伯努利分布和二项式分布的共轭先验分布的密度函数,在机器学习和数理统计学中有重要应用。

特性:贝塔分布,也称Β分布,是指一组定义在(0,1) 区间的连续概率分布。

图像

统计学中的数据的几种分布

统计学中的数据的几种分布

二项分布

定义:二项分布是由伯努利提出的概念,指的是重复n次独立的伯努利试验,发生的结果只有两个。

特点

每次试验只有两种可能得结果:“成功”与“失败”,两个结果只会出现一个;

每次试验前,如果“成功”的概率是p,那么“失败”的概率是(1-p);

每次试验相互独立,每次试验结果不受其他各次试验结果的影响。

伯努利分布

定义:伯努利分布是二项分布在n=1时的特例。

特性:伯努利分布又称为两点分布,需要引入伯努利实验。伯努利试验是只有两种结果的单次随机试验,进行一次伯努利试验,成功(X=1)概率为p(0<=p<=1),失败(X=0)的概率1-p,则称随机变量X服从伯努利分布。

泊松分布

定义:泊松概率分布是在连续时间或空间单位上发生随机事件次数的概率。

通俗解释:基于过去某个随机事件在某段时间或某个空间内发生的平均次数,预测该随机事件在未来同样长的时间或同样大的空间内发生n次的概率。

应用:经常被用于销售较低的商品库存控制,特别是价格昂贵、需求量不大的商品。

以上即为统计学中常见的几种数据分布类型,每种分布都有其特定的应用场景和特性。