关于数据收集、分析的相关知识点

不得不说，人真是一种非常健忘的动物，想当年上大学的时候，作为实践，亲自收集需求、设计问卷、回收筛选问卷、对问卷做数据分析、形成报告，几乎是一个人完成了“大学生购书情况的调研”的项目。但是现在，对数据分析却非常陌生了，对一些基本的概念都已经遗忘。或许，对于痛苦的记忆，遗忘是人生继续前行的最好方式，不过对于有用的知识，遗忘还真是烦心的事情。言归正传，我们来看数据收集以及分析的基本概念都有哪些。

一、随机抽样

做调研时，不管从时间还是成本上考虑，我们都不可能对所有的对象进行调研（除非研究对象数量非常少），我们需要做到的是一叶知秋，此时需要涉及到样本选择的知识。

从总体中抽取样本时，为使样本具有代表性，第一要求抽样必须是随机抽样，通常可以用随机数表来实现随机抽样。数据分析第二还要求抽样必须是独立的，即每次抽样的结果互不影响。在概率论中，在有限总体（只有有限个个体的总体）中进行有放回抽样，是独立的随机抽样；若为不放回抽样，则是不独立的抽样。但当总体容量N很大但样本容量n较小（n/N<=10%）时，不放回抽样可以近似地看做放回抽样，即可近似看做独立随机抽样。

因此，最常用的“简单随机抽样”有如下两个要求：

1、样本具有随机性，即要求总体中每一个个体都有同等机会被选入样本
2、样本要有独立性，即要求样本中每一样品的取值不影响其他样品的取值

注：一般来讲，如果是定性分析，最小样本量为15个；定量分析中，一个细分配额的最小样本量为30个。

二、数据整理

对样本数据的整理是统计研究的基础，整理数据最常用的方法之一是给出其频数分布表或频率分布表。整理的步骤：

1、对样本进行分组。首先确定组数k，作为一般性的原则，组数通常取5?≤?k?≤?20，对容量较小的样本，通常将其分为5组或者6组；容量为100左右的样本可分为7到10组；容量为200左右的样本可分为9到13组；容量为300以上的样本可分为12到20组。这样做的目的是使用足够多的组来表示数据的变异。

2、确定每组组距。每组组距长度可以相同也可以不同，实践中常选用长度相同的区间以便于进行比较，此时各组区间的长度成为组距，其近似公式为：

组距d=(样本最大观测值-样本最小观测值)/组数

3、确定每组组限。各组区间端点为a₀，a₀+d=a₁，a₀+2d=a₂，… ，a₀+kd=a_k，形成如下的分组区间：

(a₀,a₁],(a₁,a₂],…,(a_(k-1),a_k],

其中，a₀略小于最小观测值，a_k略大于最大观测值。

通常可以用每组的组中值来代表该组的变量取值，组中值=(组上限+组下限)/2

4、统计样本数据落入每个区间的个数——频数，并列出其频数频率分布表。如：
频数分布表

样本数据的频数分布用图形表示更为直观，我们最常用直方图来表示频次分布。做法如下：

在组距相等场合常用长度相等的长条矩形表示，矩形的高低表示频数的大小。在图中，横坐标表示所关心变量的取值区间，纵坐标表示频数，这样就得到频数直方图，如图：

若把纵轴改成频率就得到了频率直方图。

三、数据分析

在实践中，往往我们只要知道随机变量的某些特征就够了。例如，了解一批鸡蛋的单重，我们常提两个问题“多大个？”，“是否匀乎？”前一个问题要求回答鸡蛋的平均大小，第二个问题要求回答单重数据波动的大小。在统计工作中，平均数（均值）和标准差是描述数据资料集中趋势和离散程度的两个最重要的测度值。

1、平均数

在统计上，平均数有三个具体的种类，分别是：均值（mean）、中位数（median）和众数（mode）。

1）均值是指在一组数据中所有数据之和再除以数据的个数。平均数是表示一组数据集中趋势的量数，它是反映数据集中趋势的一项指标。平均数容易受极端值的影响。平均数包括算术平均数、加权算术平均数、调和平均数和几何平均数。我们经常使用的是算术平均数和加权平均数

（1）算数平均数

算术平均数是指在一组数据中所有数据之和再除以数据的个数。它是反映数据集中趋势的一项指标。

算数平均数=(a₁+a₂+…+a_n)/n

（2）加权平均数

加权平均数是不同比重数据的平均数，加权平均数就是把原始数据按照合理的比例来计算，若 n个数中，x₁出现f₁次，x₂出现f₂次，…，x_k出现f_k次，那么(x₁f₁?+?x₂f₂+ …?x_kf_k)÷ （f₁?+?f₂?+ … +?f_k）叫做x₁，x₂，…，x_k的加权平均数。f₁，f₂，…，f_k是x₁，x₂，…，x_k的权。

加权平均数=（x₁f₁?+?x₂f₂+ …?x_kf_k）/n，其中f₁?+?f₂?+ … +?f_k=n，f₁，f₂，…，f_k叫做权。

加权算术平均数主要用于处理经分组整理的数据。

2）中位数

是将所有数据按照由小到大进行排列，若数据为奇数个，中位数为中间那个数据；若数据为偶数个，中位数则是中间两个数的平均值。中位数刻画了一组数据的中等水平。中位数不受极端值的影响。中位数在数据分布偏斜程度较大时应用。

3）众数

是指一组数据中，出现频次最高的那个数据。一组数据可以有多个众数，也可以没有众数。众数刻画了一组数据中出现次数最多的情况。众数不受极端值的影响。众数适合于数据量较多时，并且在数据分布偏斜程度较大且有明显峰值时应用。

说明：

平均数的优点是它能够利用所有数据的特征，比较好算。并且平均数是使误差平方和达到最小的统计量，也就是说利用平均数代表数据，可以使二次损失最小。但是平均数容易受极端数据的影响。而中位数和众数都能够避免极端数据，但缺点是没有完全利用数据所反映出来的信息。对于各个统计量的使用，需要根据实际问题来选择合适的统计量。实践中，由于我们处理的数据大部分是对称的数据，数据符合或者近似符合正态分布，这个时候，均值（平均数）、中位数和众数是一样的。只有在数据分布偏态（不对称）的情况下，才会出现均值、中位数和众数的区别。

2、离散度

离散度指的是各个变量值之间的差异程度。离散度是衡量抽样样本稳定性的指标。在统计分析中，最常用的指标是极差、方差和标准差。

1）极差

极差又称全距，是观测变量的最大取值与最小取值之间的离差，也就是观测变量的最大观测值与最小观测值之间的区间跨度。这一方法在日常生活中最为常见，比如比赛中去掉最高最低分就是极差的具体应用。

极差=最大值－最小值

2）离均差的平方和

由于误差的不可控性，因此只由两个数据来评判一组数据是不科学的。所以人们在要求更高的领域不使用极差来评判。其实，离散度就是数据偏离平均值的程度。因此将数据与均值之差（我们叫它离均差）加起来就能反映出一个准确的离散程度。和越大离散度也就越大。

但是由于偶然误差是成正态分布的，离均差有正有负，对于大样本离均差的代数和为零的。为了避免正负问题，在数学有上有两种方法：一种是取绝对值，也就是常说的离均差绝对值之和。而为了避免符号问题，数学上最常用的是另一种方法——平方，这样就都成了非负数。因此，离均差的平方和成了评价离散度一个指标。

3）方差

由于离均差的平方和与样本个数有关，只能反应相同样本的离散度，而实际工作中做比较很难做到相同的样本，因此为了消除样本个数的影响，增加可比性，将离均差的平方和求平均值，这就是我们所说的方差成了评价离散度的较好指标。

4）标准差

由于方差是数据的平方，与检测值本身相差太大，人们难以直观的衡量，所以常用方差开根号换算回来，这就是我们要说的标准差。

四、关于正态分布

在实际应用上，常考虑一组数据具有近似于正态分布的机率分布。若其假设正确，则约 68% 数值分布在距离平均值有 1 个标准差之内的范围，约 95% 数值分布在距离平均值有 2 个标准差之内的范围，以及约 99.7% 数值分布在距离平均值有 3 个标准差之内的范围。称为 “68-95-99.7法则”。
正态分布图

发表回复 取消回复

发表回复取消回复