1.主成分分析
主成分分析主要是一种探索性的技术,在分析者进行多元数据分析之前,用他来分析数据,让自己对数据有一个大致的了解,这是非常有必要的。主成分分析一般很少单独使用:a、了解数据。(screening the data),b、和cluster analysis(聚类分析)一起使用,c、和判别分析一起使用,比如当变量很多,个案数不多,直接使用判别分析可能无解,这时候可以使用主成分对变量简化(reduce dimensionality),d、在多元回归中,主成分分析可以帮助判断是否存在共线性(条件指数),还可以用来处理共线性。
1、因子分析中是把变量表示成各因子的线性组合,而主成分分析中则是把主成分表示成各变量的线性组合。
2、主成分分析的重点在于解释各变量的总方差,而因子分析则把重点放在解释各变量之间的协方差。
3、主成分分析中不需要有假设(assumptions),因子分析则需要一些假设。因子分析的假设包括:各个共同因子之间不相关,特殊因子(specific factor)之间也不相关,共同因子和特殊因子之间也不相关。
4、主成分分析中,当给定的协方差矩阵或者相关矩阵的特征值是唯一的时候,主成分一般是独特的;而因子分析中因子不是独特的,可以旋转得到不同的因子。
5、在因子分析中,因子个数需要分析者指定(spss根据一定的条件自动设定,只要是特征值大于1的因子进入分析),而指定的因子数量不同而结果不同。在主成分分析中,成分的数量是一定的,一般有几个变量就有几个主成分。和主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势。大致说来,当需要寻找潜在的因子,并对这些因子进行解释的时候,更加倾向于使用因子分析,并且借助旋转技术帮助更好解释。而如果想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,则可以使用主成分分析。当然,这种情况也可以使用因子得分做到。所以这种区分不是绝对的。
在算法上,主成分分析和因子分析很类似,不过在因子分析中所采用的协方差矩阵的对角元素不再是变量的方差,而是和变量对应的共同度(变量方差中被各因子所解释的部分)。
2.聚类分析(Cluster Analysis)
聚类分析是直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归入不同的类的分析技术。
在市场研究领域,聚类分析主要应用方面是帮助我们寻找目标消费群体,运用这项研究技术,我们可以划分出产品的细分市场,并且可以描述出各细分市场的人群特征,以便于客户可以有针对性的对目标消费群体施加影响,合理地开展工作。
3.判别分析(Discriminatory Analysis)
判别分析(Discriminatory Analysis)的任务是根据已掌握的1批分类明确的样品,建立较好的判别函数,使产生错判的事例最少,进而对给定的1个新样品,判断它来自哪个总体。根据资料的性质,分为定性资料的判别分析和定量资料的判别分析;采用不同的判别准则,又有费歇、贝叶斯、距离等判别方法。
费歇(FISHER)判别思想是投影,使多维问题简化为一维问题来处理。选择一个适当的投影轴,使所有的样品点都投影到这个轴上得到一个投影值。对这个投影轴的方向的要求是:使每一类内的投影值所形成的类内离差尽可能小,而不同类间的投影值所形成的类间离差尽可能大。贝叶斯(BAYES)判别思想是根据先验概率求出后验概率,并依据后验概率分布作出统计推断。所谓先验概率,就是用概率来描述人们事先对所研究的对象的认识的程度;所谓后验概率,就是根据具体资料、先验概率、特定的判别规则所计算出来的概率。它是对先验概率修正后的结果。
距离判别思想是根据各样品与各母体之间的距离远近作出判别。即根据资料建立关于各母体的距离判别函数式,将各样品数据逐一代入计算,得出各样品与各母体之间的距离值,判样品属于距离值最小的那个母体。
4.对应分析(Correspondence Analysis)
对应分析是一种用来研究变量与变量之间联系紧密程度的研究技术。
运用这种研究技术,我们可以获取有关消费者对产品品牌定位方面的图形,从而帮助您及时调整营销策略,以便使产品品牌在消费者中能树立起正确的形象。
这种研究技术还可以用于检验广告或市场推广活动的效果,我们可以通过对比广告播出前或市场推广活动前与广告播出后或市场推广活动后消费者对产品的不同认知图来看出广告或市场推广活动是否成功的向消费者传达了需要传达的信息。
5.典型相关分析
典型相关分析是分析两组随机变量间线性密切程度的统计方法,是两变量间线性相关分析的拓广。各组随机变量中既可有定量随机变量,也可有定性随机变量(分析时须F6说明为定性变量)。本法还可以用于分析高维列联表各边际变量的线性关系。
注意
1.严格地说,一个典型相关系数描述的只是一对典型变量之间的相关,而不是两个变量组之间的相关。而各对典型变量之间构成的多维典型相关才共同揭示了两个观测变量组之间的相关形式。
2.典型相关模型的基本假设和数据要求
要求两组变量之间为线性关系,即每对典型变量之间为线性关系;
每个典型变量与本组所有观测变量的关系也是线性关系。如果不是线性关系,可先线性化:如经济水平和收入水平与其他一些社会发展水之间并不是线性关系,可先取对数。即log经济水平,log收入水平。
3.典型相关模型的基本假设和数据要求
所有观测变量为定量数据。同时也可将定性数据按照一定形式设为虚拟变量后,再放入典型相关模型中进行分析。
6.多维尺度分析(Multi-dimension Analysis)
多维尺度分析(Multi-dimension Analysis) 是市场研究的一种有力手段,它可以通过低维空间(通常是二维空间)展示多个研究对象(比如品牌)之间的联系,利用平面距离来反映研究对象之间的相似程度。由于多维尺度分析法通常是基于研究对象之间的相似性(距离)的,只要获得了两个研究对象之间的距离矩阵,我们就可以通过相应统计软件做出他们的相似性知觉图。
在实际应用中,距离矩阵的获得主要有两种方法:一种是采用直接的相似性评价,先将所有评价对象进行两两组合,然后要求被访者所有的这些组合间进行直接相似性评价,这种方法我们称之为直接评价法;另一种为间接评价法,由研究人员根据事先经验,找出影响人们评价研究对象相似性的主要属性,然后对每个研究对象,让被访者对这些属性进行逐一评价,最后将所有属性作为多维空间的坐标,通过距离变换计算对象之间的距离。
多维尺度分析的主要思路是利用对被访者对研究对象的分组,来反映被访者对研究对象相似性的感知,这种方法具有一定直观合理性。同时该方法实施方便,调查中被访者负担较小,很容易得到理解接受。当然,该方法的不足之处是牺牲了个体距离矩阵,由于每个被访者个体的距离矩阵只包含1与0两种取值,相对较为粗糙,个体距离矩阵的分析显得比较勉强。但这一点是完全可以接受的,因为对大多数研究而言,我们并不需要知道每一个体的空间知觉图。
多元统计分析是统计学中内容十分丰富、应用范围极为广泛的一个分支。在自然科学和社会科学的许多学科中,研究者都有可能需要分析处理有多个变量的数据的问题。能否从表面上看起来杂乱无章的数据中发现和提炼出规律性的结论,不仅对所研究的专业领域要有很好的训练,而且要掌握必要的统计分析工具。对实际领域中的研究者和高等院校的研究生来说,要学习掌握多元统计分析的各种模型和方法,手头有一本好的、有长久价值的参考书是非常必要的。这样一本书应该满足以下条件:首先,它应该是“浅入深出”的,也就是说,既可供初学者入门,又能使有较深基础的人受益。其次,它应该是既侧重于应用,又兼顾必要的推理论证,使学习者既能学到“如何”做,而且在一定程度上了解“为什么”这样做。最后,它应该是内涵丰富、全面的,不仅要基本包括各种在实际中常用的多元统计分析方法,而且还要对现代统计学的最新思想和进展有所介绍、交代。
主成分分析通过线性组合将原变量综合成几个主成分,用较少的综合指标来代替原来较多的指标(变量)。在多变量分析中,某些变量间往往存在相关性。是什么原因使变量间有关联呢?是否存在不能直接观测到的、但影响可观测变量变化的公共因子?因子分析法(Factor Analysis)就是寻找这些公共因子的模型分析方法,它是在主成分的基础上构筑若干意义较为明确的公因子,以它们为框架分解原变量,以此考察原变量间的联系与区别。
例如,随着年龄的增长,儿童的身高、体重会随着变化,具有一定的相关性,身高和体重之间为何会有相关性呢?因为存在着一个同时支配或影响着身高与体重的生长因子。那么,我们能否通过对多个变量的相关系数矩阵的研究,找出同时影响或支配所有变量的共性因子呢?因子分析就是从大量的数据中“由表及里”、“去粗取精”,寻找影响或支配变量的多变量统计方法。
可以说,因子分析是主成分分析的推广,也是一种把多个变量化为少数几个综合变量的多变量分析方法,其目的是用有限个不可观测的隐变量来解释原始变量之间的相关关系。
因子分析主要用于:1、减少分析变量个数;2、通过对变量间相关关系探测,将原始变量进行分类。即将相关性高的变量分为一组,用共性因子代替该组变量。