关于数据挖掘

数据挖掘是对一系列数据进行分析和挖掘的方法的统称，在精准营销领域，最常用的数据挖掘方法主要包括以下三类：分类、聚类、关联。数据隧道

分类（Classify）属于预测性模型。分类模型的构建需要“训练样本”，训练样本中的每一个个体的类别必须是明确的。分类模型的特征变量一般称为“自变量”，又叫“预测变量”，类别变量称为“目标变量”。分类模型采用的方法有：决策树、Logistic回归、神经网络、判别分析等方法。

聚类（Clustering）属于非预测模型（描述性模型）。聚类模型是将特征相似的用户归在一个组里，特征不同的用户分在不同组。聚类模型不需要“目标变量”，只需要给定自变量。选择聚类所需的变量是构建聚类模型最关键的工作，变量的选择往往取决于应用的目标要求。

关联（Association）也属于非预测模型，主要解决的问题是研究产品购买的关联性，即买A产品的同时是否会对B产品也很感兴趣。经典的数据挖掘案例“啤酒和尿布”就属于关联模型。

关联模型中度量两个产品关联性强弱主要用三个指标：支持度、可信度、提升度。

针对两个商品A、B，研究A–>B的相关性,三个指标的定义如下：

支持度（Support）：表示A、B同时购买的人数占总购买人数的比例。支持度越高，表示A、B商品同时购买的人数越多，这两个商品越主流。

可信度（Confidence）：表示在购买A商品的人中同时购买了B商品的比例。可信度越高，表示购买了A商品后再购买B商品的可能性就越大。

提升度（Lift）：可信度除以总用户中购买过B商品的用户占比。提升度越高，表示购买了A商品对购买B商品的影响度就越大，也即他们之间的相关性就越强。

关联模型可以解决两大类问题：１、如何对用户进行商品推荐？２、把哪些商品捆绑在一起销售更好？前者我们叫“交叉销售”的问题，后者叫“捆绑销售”。