2012 年 4 月 – 牛国柱

精准广告 4 月 28,2012

网络广告定向技术介绍——并发次数

在按天售卖或者按时间售卖的时代，是不需要考虑并发次数的。只是在按照展现次数（CPM）售卖的时候，我们才有可能需要考虑广告并发的设置。

在按照CPM（何为CPM）售卖时，广告投放的速度可以有两种——尽快投放和匀速投放。尽快投放很好理解，就是尽快投放完规定的量。匀速投放就是在规定的时间内均匀的投放完规定的量。举个例子，一天之内投放1000个CPM，选择尽快投放就意味着广告在第x小时投放完毕，那么(24-x)的时间内就不会再看到广告；而匀速投放意味着我们需要在第23小时59分时还看到广告。这个如何做到呢？此时就需要利用并发次数的设定了。

并发次数指的是广告某个时间周期内播放的次数，其目的是为了保证广告的匀速投放。并发次数的计算方法为：广告投放量/投放时长。注意：此处的时长根据需要，可以按照秒、分、刻等单位来计算。并发次数的规则需要广告投放核心的支持，当在规定的时长内，广告未达到并发次数时，广告可以展现。达到设置次数后，则不予以展现。

均匀投放

一个思考题：如果一个广告一天内要求投放1000CPM，而媒体的PV一天正好是1000CPM，那么尽快投放是否能够跑完广告的规定量？匀速投放是否能够跑完广告规定的量？如果跑不完，我们需要怎么做，才可以跑完？

——————– 解答 ———————

在我们设定的条件下，尽快投放的方式将正好满足广告的投放要求，而匀速投放则不能完成广告的投放要求。因为媒体的流量随着时段有着固有的曲线（非我们上图的直线），如下图。从图中可以看出，在10点之前，媒体的流量满足不了广告需要的投放量，而10点以后媒体的流量又大于了广告所需要的投放量，因为曲线的原因造成了广告投放要求的不能完成。解决方法自然也是要消除这种影响，如何消除则因人而异，因公司需求不通而异。
平均投放时并发频次的设置

作者牛国柱

精准广告 4 月 21,2012

网络广告定向技术介绍——人群定向

人群定向其实就是目标人群定向，在营销学中，产品定位以及人群细分是非常重要的理念，这种理念也已经得到了市场的认可，因此每一种产品在设计、生产之初就已经确定了自己的目标人群。从我们的广告投放、市场宣传来讲，一定是希望能给对目标人群进行，花费在目标人群之外的推广都是浪费的。

但在以往的媒介中，想要完全的识别用户，以确定是否目标人群并不是容易的事情，甚至从理论上说是完全做不到的，只能通过不同的媒介手段去尽量的靠近目标人群（电视、广播、杂志都是如何确定自己的受众的呢？有人讨论嘛？）。但即使这样，也产生了一句广告界最著名的话语——我知道广告费浪费了一半，但我不知道到底是哪一半。

在互联网时代，通过技术的力量，可以无限的接近、近乎准确的判断每一个人的属性，从而为广告主目标群体定向服务。但是，互联网也只是无限的接近，而不是确切的能标示出个人的属性。目前，最接近的应该是类似于罗维邓白氏之类公司的数据（顺便说一句，央视315晚会的曝光，对罗维邓白氏公司只能是免费的广告，而不是打击）。

言归正传，我们来说说互联网的人群定向。互联网公司通常讲的人群定向并不单单包括人口的自然属性（demographic），还包括人群兴趣（interest）、人群行为（behavior）、购物行为（purchasing）。

人群定向
注：此处我们说的人群行为指的是对广告的行为，比如浏览广告，点击广告以及转发、下载广告等交互行为。目前市场上经常有一些公司标榜行为定向，但让其展开一说，就只是说对用户的浏览行为进行定向，非常正确、毫无破绽的说法，但细问却还是这一句。这只能说明这种公司忽悠而无真章的事实（大家说说为什么能说明？）。

对于真正提供定向的公司，不管各个公司都提供什么样的人群定向，以上所说的4类属性或行为都是基于cookies技术（了解Cookie），通过对用户长期的互联网浏览行为数据进行分析所得出的。由于各公司的资源优势不同，因此目前没有一个公司能够建立健全的数据。

自然属性（demographic）

自然属性包括性别、年龄、学历、地域、婚姻状况、家庭状况（是否有小孩，小孩年龄等）、收入（个人收入、家庭收入）、行业、职业等信息。单纯通过互联网浏览行为并不能分析到如此全面且准确的信息，目前还主要以找到真实的样本进行建模分析为主。自然属性数据以艾瑞的数据最为准确。

人群兴趣（interest）

人群兴趣在每个公司会有不同的认知。目前，兴趣数据属悠易最好，悠易的数据是公开的，可以通过悠易受众引擎查看。

人群行为（behavior）

上面注解所说的人群行为仅仅是行为中的一种，如果有搜索引擎的资源，则可以加入搜索行为的监测（如百度的搜客定向——对在百度搜索过已添加关键词的人，在其浏览指定的投放网站时投放客户推广组下的创意。）；如果有微博数据，则可以加入关注与被关注的行为（新浪有此打算吗？），因此人群行为各公司的定义差异是最大的。

购物行为（purchasing）

购物行为指的是作为消费者角色，互联网用户的消费数据。毋庸置疑，购物数据如果淘宝是第二，也没人可以自称第一。

在广告系统中，用户的所有属性或行为应该是可以进行自由组合设定的。但以上所有的属性或行为就可以全方面的了解用户了吗？并不是！这是一个发散性的命题，每个人会有不同的见解。比如我们还可以加入用户的设备（PC、Pad、移动设备等），通过用户上网通道来描述用户。还有其他的角度吗，大家留言讨论吧！

作者牛国柱

精准广告 4 月 14,2012

网络广告定向技术介绍——回头客定向

随着电商网站的火爆，从2010年开始，互联网广告行业出现了一种定向方式——回头客定向。回头客定向是随着精准理念的发展而提出来的。顾名思义，回头客定向是指针对到达过广告主网站的某一个点的用户或者发生过某一个行为的用户进行定向。

从概念中，我们可以发现回头客定向的三个基本点：1、到达过；2、某一个点或某个行为；3、定向投放。这三点也是回头客定向和人群定向的区别之处。

从营销的角度讲，针对不同到达深度的用户或者不同行为的用户，我们需要采取的营销策略可能会有不同。我们以电商网站的购物流程来举例子。电商网站的购物流程分为以下几个步骤：
电商购物步骤漏斗图

1、针对浏览过商品的人，我们应该分析他的浏览记录，发现他感兴趣的商品，然后通过广告将他感兴趣的商品推送到他的面前（如果要做到非常完美，针对每个用户有不同的广告显示，需要有哪些条件？大家可以评论，我们一起交流）。

2、针对已经将商品加入购物车的人，此时可能更重要的是给他一张电子优惠券，以促进其下单。

3、针对到达过注册或者登录界面，但未完成注册和登录的人，给他一个商品即将售馨或者即将涨价的倒计时更能促进其回来下单。

4、针对到过填写配送地址页面但没有提交订单的人，提示免邮递费用或者直接告诉他“你还差一步就将完成订单”，可能会是一个好的方法。

5、已经提交订单的人，是我们的老客户了，此时应该推荐关联的商品信息，以促进其二次消费。

所以，进行回头客定向的投放，一定是要有以下三个步骤的：

1、设置回头客人群的监测。支持回头客定向的系统必须能够支持对各个点的监测，因此提取监测代码在此是必须的。好的系统可以利用一个监测代码，通过数据分析得出不同监测点的回头客（大家说如何做到？）；差的系统就提供不同监测点的设置功能，每个监测点提取不同的监测代码。

2、整理针对各个监测点用户的独特营销诉求。制作针对不同回头客的不同创意。

3、利用投放系统，对回头客进行定向的广告投放。

一般来讲，定向越准确，能得到的量就会越少，因此，在做回头客定向时，不应该再选择媒体进行投放。从另一个角度理解，回头客定向已经是最领先精准的目标用户定向了，此时媒介选择的意义也大大弱化了。

以上所说的是纯正意义上的回头客定向，鉴于回头客定向受人欢迎的精准的概念和可怜的流量，有些人或公司权衡后会将回头客定义的非常广泛，比如到过网站的人、点过广告的人、看过广告的人都算作回头客，这只是又一次的中国特色而已。这种事情多了，反而于精准广告市场的发展不利。

作者牛国柱

学习生活 4 月 7,2012

关于数据收集、分析的相关知识点

不得不说，人真是一种非常健忘的动物，想当年上大学的时候，作为实践，亲自收集需求、设计问卷、回收筛选问卷、对问卷做数据分析、形成报告，几乎是一个人完成了“大学生购书情况的调研”的项目。但是现在，对数据分析却非常陌生了，对一些基本的概念都已经遗忘。或许，对于痛苦的记忆，遗忘是人生继续前行的最好方式，不过对于有用的知识，遗忘还真是烦心的事情。言归正传，我们来看数据收集以及分析的基本概念都有哪些。

一、随机抽样

做调研时，不管从时间还是成本上考虑，我们都不可能对所有的对象进行调研（除非研究对象数量非常少），我们需要做到的是一叶知秋，此时需要涉及到样本选择的知识。

从总体中抽取样本时，为使样本具有代表性，第一要求抽样必须是随机抽样，通常可以用随机数表来实现随机抽样。数据分析第二还要求抽样必须是独立的，即每次抽样的结果互不影响。在概率论中，在有限总体（只有有限个个体的总体）中进行有放回抽样，是独立的随机抽样；若为不放回抽样，则是不独立的抽样。但当总体容量N很大但样本容量n较小（n/N<=10%）时，不放回抽样可以近似地看做放回抽样，即可近似看做独立随机抽样。

因此，最常用的“简单随机抽样”有如下两个要求：

1、样本具有随机性，即要求总体中每一个个体都有同等机会被选入样本
2、样本要有独立性，即要求样本中每一样品的取值不影响其他样品的取值

注：一般来讲，如果是定性分析，最小样本量为15个；定量分析中，一个细分配额的最小样本量为30个。

二、数据整理

对样本数据的整理是统计研究的基础，整理数据最常用的方法之一是给出其频数分布表或频率分布表。整理的步骤：

1、对样本进行分组。首先确定组数k，作为一般性的原则，组数通常取5?≤?k?≤?20，对容量较小的样本，通常将其分为5组或者6组；容量为100左右的样本可分为7到10组；容量为200左右的样本可分为9到13组；容量为300以上的样本可分为12到20组。这样做的目的是使用足够多的组来表示数据的变异。

2、确定每组组距。每组组距长度可以相同也可以不同，实践中常选用长度相同的区间以便于进行比较，此时各组区间的长度成为组距，其近似公式为：

组距d=(样本最大观测值-样本最小观测值)/组数

3、确定每组组限。各组区间端点为a₀，a₀+d=a₁，a₀+2d=a₂，… ，a₀+kd=a_k，形成如下的分组区间：

(a₀,a₁],(a₁,a₂],…,(a_(k-1),a_k],

其中，a₀略小于最小观测值，a_k略大于最大观测值。

通常可以用每组的组中值来代表该组的变量取值，组中值=(组上限+组下限)/2

4、统计样本数据落入每个区间的个数——频数，并列出其频数频率分布表。如：
频数分布表

样本数据的频数分布用图形表示更为直观，我们最常用直方图来表示频次分布。做法如下：

在组距相等场合常用长度相等的长条矩形表示，矩形的高低表示频数的大小。在图中，横坐标表示所关心变量的取值区间，纵坐标表示频数，这样就得到频数直方图，如图：

若把纵轴改成频率就得到了频率直方图。

三、数据分析

在实践中，往往我们只要知道随机变量的某些特征就够了。例如，了解一批鸡蛋的单重，我们常提两个问题“多大个？”，“是否匀乎？”前一个问题要求回答鸡蛋的平均大小，第二个问题要求回答单重数据波动的大小。在统计工作中，平均数（均值）和标准差是描述数据资料集中趋势和离散程度的两个最重要的测度值。

1、平均数

在统计上，平均数有三个具体的种类，分别是：均值（mean）、中位数（median）和众数（mode）。

1）均值是指在一组数据中所有数据之和再除以数据的个数。平均数是表示一组数据集中趋势的量数，它是反映数据集中趋势的一项指标。平均数容易受极端值的影响。平均数包括算术平均数、加权算术平均数、调和平均数和几何平均数。我们经常使用的是算术平均数和加权平均数

（1）算数平均数

算术平均数是指在一组数据中所有数据之和再除以数据的个数。它是反映数据集中趋势的一项指标。

算数平均数=(a₁+a₂+…+a_n)/n

（2）加权平均数

加权平均数是不同比重数据的平均数，加权平均数就是把原始数据按照合理的比例来计算，若 n个数中，x₁出现f₁次，x₂出现f₂次，…，x_k出现f_k次，那么(x₁f₁?+?x₂f₂+ …?x_kf_k)÷ （f₁?+?f₂?+ … +?f_k）叫做x₁，x₂，…，x_k的加权平均数。f₁，f₂，…，f_k是x₁，x₂，…，x_k的权。

加权平均数=（x₁f₁?+?x₂f₂+ …?x_kf_k）/n，其中f₁?+?f₂?+ … +?f_k=n，f₁，f₂，…，f_k叫做权。

加权算术平均数主要用于处理经分组整理的数据。

2）中位数

是将所有数据按照由小到大进行排列，若数据为奇数个，中位数为中间那个数据；若数据为偶数个，中位数则是中间两个数的平均值。中位数刻画了一组数据的中等水平。中位数不受极端值的影响。中位数在数据分布偏斜程度较大时应用。

3）众数

是指一组数据中，出现频次最高的那个数据。一组数据可以有多个众数，也可以没有众数。众数刻画了一组数据中出现次数最多的情况。众数不受极端值的影响。众数适合于数据量较多时，并且在数据分布偏斜程度较大且有明显峰值时应用。

说明：

平均数的优点是它能够利用所有数据的特征，比较好算。并且平均数是使误差平方和达到最小的统计量，也就是说利用平均数代表数据，可以使二次损失最小。但是平均数容易受极端数据的影响。而中位数和众数都能够避免极端数据，但缺点是没有完全利用数据所反映出来的信息。对于各个统计量的使用，需要根据实际问题来选择合适的统计量。实践中，由于我们处理的数据大部分是对称的数据，数据符合或者近似符合正态分布，这个时候，均值（平均数）、中位数和众数是一样的。只有在数据分布偏态（不对称）的情况下，才会出现均值、中位数和众数的区别。

2、离散度

离散度指的是各个变量值之间的差异程度。离散度是衡量抽样样本稳定性的指标。在统计分析中，最常用的指标是极差、方差和标准差。

1）极差

极差又称全距，是观测变量的最大取值与最小取值之间的离差，也就是观测变量的最大观测值与最小观测值之间的区间跨度。这一方法在日常生活中最为常见，比如比赛中去掉最高最低分就是极差的具体应用。

极差=最大值－最小值

2）离均差的平方和

由于误差的不可控性，因此只由两个数据来评判一组数据是不科学的。所以人们在要求更高的领域不使用极差来评判。其实，离散度就是数据偏离平均值的程度。因此将数据与均值之差（我们叫它离均差）加起来就能反映出一个准确的离散程度。和越大离散度也就越大。

但是由于偶然误差是成正态分布的，离均差有正有负，对于大样本离均差的代数和为零的。为了避免正负问题，在数学有上有两种方法：一种是取绝对值，也就是常说的离均差绝对值之和。而为了避免符号问题，数学上最常用的是另一种方法——平方，这样就都成了非负数。因此，离均差的平方和成了评价离散度一个指标。

3）方差

由于离均差的平方和与样本个数有关，只能反应相同样本的离散度，而实际工作中做比较很难做到相同的样本，因此为了消除样本个数的影响，增加可比性，将离均差的平方和求平均值，这就是我们所说的方差成了评价离散度的较好指标。

4）标准差

由于方差是数据的平方，与检测值本身相差太大，人们难以直观的衡量，所以常用方差开根号换算回来，这就是我们要说的标准差。

四、关于正态分布

在实际应用上，常考虑一组数据具有近似于正态分布的机率分布。若其假设正确，则约 68% 数值分布在距离平均值有 1 个标准差之内的范围，约 95% 数值分布在距离平均值有 2 个标准差之内的范围，以及约 99.7% 数值分布在距离平均值有 3 个标准差之内的范围。称为 “68-95-99.7法则”。
正态分布图

作者牛国柱

Archive 2012-04-28