P1-11 请第1位同学翻译(顾); P12-21第2位(曹); P22-32第3位(张)
Factor Analysis
Richard B. Darlington
Factor analysis includes both component analysis and common factor analysis. More than other statistical techniques, factor analysis has suffered from confusion concerning its very purpose. This affects my presentation in two ways. First, I devote a long section to describing what factor analysis does before examining in later sections how it does it. Second, I have decided to reverse the usual order of presentation. Component analysis is simpler, and most discussions present it first. However, I believe common factor analysis comes closer to solving the problems most researchers actually want to solve. Thus learning component analysis first may actually interfere with understanding what those problems are. Therefore component analysis is introduced only quite late in this chapter.
What Factor Analysis Can and Can#39;t Do
I assume you have scores on a number of variables-- anywhere from 3 to several hundred variables, but most often between 10 and 100. Actually you need only the correlation or covariance matrix--not the actual scores. The purpose of factor analysis is to discover simple patterns in the pattern of relationships among the variables. In particular, it seeks to discover if the observed variables can be explained largely or entirely in terms of a much smaller number of variables called factors.
Some Examples of Factor-Analysis Problems
1. Factor analysis was invented nearly 100 years ago by psychologist Charles Spearman, who hypothesized that the enormous variety of tests of mental ability--measures of mathematical skill, vocabulary, other verbal skills, artistic skills, logical reasoning ability, etc.--could all be explained by one underlying 'factor' of general intelligence that he called g. He hypothesized that if g could be measured and you could select a subpopulation of people with the same score on g, in that subpopulation you would find no correlations among any tests of mental ability. In other words, he hypothesized that g was the only factor common to all those measures.
It was an interesting idea, but it turned out to be wrong. Today the College Board testing service operates a system based on the idea that there are at least three important factors of mental ability--verbal, mathematical, and logical abilities--and most psychologists agree that many other factors could be identified as well.
2. Consider various measures of the activity of the autonomic nervous system--heart rate, blood pressure, etc. Psychologists have wanted to know whether, except for random fluctuation, all those measures move up and down together--the 'activation' hypothesis. Or do groups of autonomic measures move up and down together, but separate from other groups? Or are all the measures largely independent? An unpublished analysis of mine found that in one data set, at any rate, the data fitted the activation hypothesis quite well.
3. Suppose many species of animal (rats, mice, birds, frogs, etc.) are trained that food will appear at a certain spot whenever a noise--any kind of noise--comes from that spot. You could then tell whether they could detect a particular sound by seeing whether they turn in that direction when the sound appears. Then if you studied many sounds and many species, you might want to know on how many different dimensions of hearing acuity the species vary. One hypothesis would be that they vary on just three dimensions--the ability to detect high-frequency sounds, ability to detect low-frequency sounds, and ability to detect intermediate sounds. On the other hand, species might differ in their auditory capabilities on more than just these three dimensions. For instance, some species might be better at detecting sharp click-like sounds while others are better at detecting continuous hiss-like sounds.
4. Suppose each of 500 people, who are all familiar with different kinds of automobiles, rates each of 20 automobile models on the question, 'How much would you like to own that kind of automobile?' We could usefully ask about the number of dimensions on which the ratings differ. A one-factor theory would posit that people simply give the highest ratings to the most expensive models. A two-factor theory would posit that some people are most attracted to sporty models while others are most attracted to luxurious models. Three-factor and four-factor theories might add safety and reliability. Or instead of automobiles you might choose to study attitudes concerning foods, political policies, political candidates, or many other kinds of objects.
5. Rubenstein (1986) studied the nature of curiosity by analyzing the agreements of junior-high-school students with a large battery of statements such as 'I like to figure out how machinery works' or 'I like to try new kinds of food.' A factor analysis identified seven factors: three measuring enjoyment of problem-solving, learning, and reading; three measuring interests in natural sciences, art and music, and new experiences in general; and one indicating a relatively low interest in money.
The Goal: Understanding of Causes
Many statistical methods are used to study the relation between independent and dependent variables. Factor analysis is different; it is used to study the patterns of relationship among many dependent variables, with the goal of discovering something about the nature of the independent variables that affect them, even though those independent variables were not measured directly. Thus answers obtained by factor analysis are necessarily more hypothetical and tentative than is true when independent variables are observed directly. The inferred independent variables are called factors. A typical
全文共69311字,剩余内容已隐藏,支付完成后下载完整资料
因子分析
理查德B·达林顿
因子分析包括成分分析和公共因子分析。与其他统计技术相比,因子分析因其目的而受到混淆。这对我的报告有两方面的影响。首先,在我验证因子分析之后的章节是做什么用的之前,我花了很长的一段时间来描述因子分析是做什么用的。第二,我决定取消通常的报告顺序。成分分析比较简单,大多数讨论都是先给出。然而,我相信公共因子更接近于解决大多数研究者实际想要解决的问题。因此,学习成分分析首先可能会涉及到理解那些问题是什么。因此只有在这一章节的最后才会有关于成分分析的介绍。
因子分析能做什么和不能做什么?
假设你有许多作为变量的分数——从3到几百个变量,但值通常在10到100之间。实际上你只需要相关或协方差矩阵,而不是实际分数。因子分析的目的是在变量之间的关系模式中发现简单的模式。特别是,它试图发现是否观察到的变量可以用来解释大部分或全部的数量小得多的变量因素。
因子分析问题的几个例子
- 因子分析是心理学家查尔斯bull;斯皮尔曼在100年前发明的,他通过大量的各种各样的心智能力的测试猜测——数学技能、词汇、其他语言能力、艺术技巧、逻辑推理能力等等——都可以被一个潜在的一般智力的“因子”所解释,他给这个因子取名为g。他推测,如果g可以被测量,就可以选择一个族群有着相同分数的g,你会发现没有任何测试的心理能力之间的相关性。换句话说,他假设g是所有这些方法唯一的公共因子。
这是一个有趣的想法,但事实证明是错误的。现在,大学委员会测试服务运营系统,认为心智能力至少有三个重要因素——言语能力、数学能力和逻辑能力。大多数心理学家认为,许多其他因素也能被识别出来。
- 考虑各种测量自主神经系统的活动的量度——心率,血压等。心理学家想知道,除了随机波动,是否所有这些测量会一起上下移动——“激活”假设。或者群体的自主测量一起上下移动,但与其他群体分开?或者所有的测量基本上是独立的?一个未发表的分析发现,在一个数据集中,无论如何,数据拟合激活假说相当好。
- 假设许多种类别的动物(大老鼠,老鼠,鸟,青蛙等)被训练,食物会出现在某一个特定地方。然后,你可以告诉他们是否可以检测到当一个特定的声音出现时,看看动物们是否转向在这个方向。然后,如果你研究了许多声音和许多物种,你可能想知道不同物种听觉的不同敏觉维度。有一个假设是,它们仅在三个维度上变化——检测高频声音的能力,检测低频声音的能力,以及检测中频声音的能力。另一方面,物种可能有不同的听觉能力不仅仅是这三个维度。例如,有些物种能更好地检测尖锐点击的声音,而有些其他的物种能更好地检测连续嘶嘶的声音。
- 假设每500个人中,每一个人都熟悉不同种类的汽车,对这20个汽车模型中的其中每一个问“你想拥有多少种类的汽车?”这样的问题,我们可以有效地询问大量的不同速率维度。单因子理论会认为人们只给最昂贵的模型给予最高评级。双因子理论认为最吸引有些人的运动车型,而另一些则被豪华的模型所吸引。三因子和四因子理论可能会增加安全性和可靠性。或者你可能会选择去学习有关于食品的态度、政治政策,政治候选人,或许多其他类型的客体来代替汽车。
- 鲁宾斯坦(1986)学习了中学生的好奇心本质的一致性,通过许多类似于“我喜欢弄明白机械是如何工作的”或者“我喜欢尝试新种类的食物”的语句。因素分析确定了七个因素:三个乐趣衡量解决问题、学习、和阅读;三个兴趣衡量自然科学,艺术与音乐,和新的经历;和一个显示度相对较低——对钱的兴趣。
目标:了解原因
许多统计方法被用来研究自变量和因变量之间的关系。因子分析是不同的,它是用来研究多个因变量之间的关系模式,目的是发现自变量影响因变量的性质,即使这些自变量没有被直接测量。因此,和自变量被直接观察得到的真实结果相比,通过因子分析得到的必然更多的是假设和尝试性的答案。推断的自变量称为因子。一个典型的因素分析会对四个主要问题做出的建议答案:
1. 需要多少个不同的因素来解释这些变量之间的关系模式?
2. 这些因素的本质是什么?
3. 猜测的因素如何来解释观测到的数据?
4. 有多少纯粹的随机或独特的方差作用于每个观察到的变量?
我稍后举例说明这些问题。
因子分析的绝对与启发式使用
启发式是一种话题思考的方式,即使它不是绝对正确的。当我们谈论太阳升起和落下,似乎太阳绕着地球转的时候,我们会使用一种启发式方法,即使知道事实并不是这样的,“启发”是名词的同时也是形容词;使用启发式就是用启发式的方式进行思考。
以前的例子可以用来说明使用绝对和启发式的因子分析之间的有用区别。斯皮尔曼的智力因子理论和自主功能的激活理论,可以认为是对变量之间的关系模式的完整描述的绝对的理论或假设。另一方面,鲁宾斯坦从来没有声称她的关于好奇心的七个主要因素提供了一个完整的好奇心描述。相反,这些因素仅仅是总结数据的最好方法中的最重要的七个因素。因子分析可以建议绝对或启发式模型,区别在于你如何解释输出。
因子分析是客观的吗?
在了解因子分析混淆许多人的属性方面,启发式的概念是有用的。一些科学家可能会将因子分析应用到类似或甚至相同的度量值上,一人可能会提出3个因素,另一个则会提出6个,而另一个则会提出10个。这种一致性的缺乏往往会导致所有因子分析的使用都受到损害。但是,如果三个旅游作家写美国的旅行指南,一个作家将国家分为3个地区,另一个分为6个,而另一个又分为10个,我们会说他们相互矛盾?当然不是,不同的作者只是用一种方便的方式组织一个话题,而不是代表唯一正确的做法。如果因子分析师都声称绝对的理论,而不是启发式,那他们得出不同的结论只会自相矛盾。不管是越少的因素越简单的理论,还是越多的因素越好的理论,都得和数据相匹配。不同的工人可能会做出不同的选择,以平衡简易与适合。
类似的平衡问题出现在回归和方差分析,但它通常不会阻止不同的工人达到接近或完全相同的结论。毕竟,如果两个工人对同一数据进行方差分析,并且两个工人都放弃了在5级中不显著的术语,那么两者都会显示完全相同的效果。然而,因子分析的情况是非常不同的。对于后来解释的原因,在成分分析中没有一个显著性检验,它将测试一个关于因素数量的假设,因为假设通常被理解。在公共因子分析中有这样一个测试,但在事实面前它的用处是有局限性的,它往往产生更多可以令人满意的解释的因素。因此,一个只想做可判断因素报告的工人至今还没有一个客观的测试。
类似的问题也会出现在确定因素的性质上。两名工人可能每个人识别6个因素,但这两组因素也许本质上会有所不同。旅行作家的类比在这里也很有用,两位作家可能都把美国分成6个区域,但对地区的定义却大相径庭。
另一个地理类比的例子可能更接近于因子分析,因为它涉及到计算机程序,旨在最大限度地提高一些量化的目标。计算机的程序有时被用来划分地理连续国会选区,人口几乎相等,或者均匀的种族或其他因素维度。两个不同的地区创建方案可能会有非常不同,虽然这两个答案都是合理的。这种类比在某种意义上很好,我们认为,因子分析程序通常不会产生不同的答案,因为区域创建程序。
因子分析与聚类和多维标度
因子分析的另一个挑战来自竞争的技术,如聚类分析和多维尺度的使用。虽然因子分析通常应用于相关矩阵,这些其他方法可以应用到任何类型的矩阵的相似性度量,如面孔的相似性评分。但不同于因子分析,这些方法不能应用与某些独特的相关矩阵的属性当中,如变量的映像。例如,如果你反映或扭转了得分方向的“内向”的措施,使高分表明“外向”代替了内向,然后扭转所有变量的相关性的迹象:-36变为 36, 42变为-42。这样的映像会完全改变一个聚类分析和多维尺度输出,而因子分析可以识别这些映像他们是什么;映像会改变任何反映变量“因子载荷的迹象”,但不会对因子分析在输出方面有什么改变。
因子分析超过这些方法的另一个优点是,因子分析可以识别某些属性的相关性。例如,如果变量A和B相互关联,7与变量C和49相互关联。当C保持不变时,因子分析可以认识到A和B相关为零,因为72 = 49。多维标度和聚类分析没有能力识别这样的关系,因为相关性只被视为通用的“相似性度量”,而不是作为相关性。
我们不是说这些其他方法不应该被应用到相关矩阵,有时他们产生的深刻见解,不能通过因子分析获得。但他们绝对没有做出过时的因子分析。下一节将涉及到这一点。
因子“区分”变量与因子“基本”变量
当有人随意地说,一组变量似乎反映了“只有一个因子”,他们可能意味着与因子分析无关。如果我们更仔细地描述语句,会出现“只有一个因子区分这些变量”可能意味着几个不同的结果。没有一个“只有一个因素构成这些变量的基础”对应的因素分析的结论。
关于“区分”这个短语的一个可能的含义是,一组彼此高度相关的变量,但它们的含义有所不同。一个类似的含义可能出现在不同的情况下。考虑几个测试A,B,C,D,测试相同的大致设想的心理能力,但按顺序增加难度。然后测试之间的相关性最高的是列表中相邻的项目(RAB,RBC和RCD),而最低的相关性之间的项目在列表的两端(RAD)。在项目之间的相关性中观察到这种模式的人可能会说,测试可以“简单地排列”或“仅有一个因素不同”,但是这个结论与因子分析无关。这组测试没有包含仅有一个公共因子。
第三种可能会出现的情况,如果变量A影响B,这会影响C,影响D,而这些连接这些变量的唯一影响。再次说明,相关性最高的是RAB,RBC和RCD而最低的相关性将是RAD。有人可能会用同样的短语来描述这种关系模式,再说一次,这与因子分析无关。
第四个例子在某种程度上是一种特殊情况,基于所有之前的案例:一个完美的格特曼量表。一组两个项符合格特曼量表,如果项可以进行消极的应对任何项目意味着消极应对所有后续项目,积极回应任何项意味着所有先前项目的积极回应的安排。一个小例子可供考虑。
你身高5英尺2英寸以上吗?
你身高5英尺4英寸以上吗?
你身高5英尺6英寸以上吗?
等。
为了保持一致,一个人对于任何这些项目的否定答案意味着否定所有后来的项目,一个积极的答案意味着肯定所有以前的项目。用一个平常的例子考虑以下问卷项目:
我们的国家应该对B国降低关税壁垒吗?
我们的两个中央银行应该发行单一货币吗?
我们的军队应该合二为一吗?
我们应该与B国融合,成为一个国家吗?
如果事实证明,这些项目形成了一个完美的格特曼量表相比如果没有形成来说,它会更容易描述人们对于B国的态度对。当一组项目形成一个格特曼量表,有趣的是,这并不意味着因子分析发现一个共同的因子。格特曼量表意味着一个因区分一组项目(像“与B国成功合作”),而不是这些项目背后的一个因素。
应用多维标度相关矩阵可以发现所有这些简单模式变量之间的差异。因此多维尺度寻求因素区分变量,而因子分析寻找因素的基础变量。维度有时可能会发现因素分析没有发现的简单,因子分析可能会发现维度没有发现的简单。
一个模糊的历史
如果一个统计方法有一个尴尬的历史,那就是因子分析方法。1950年左右,因子分析的声誉遭受几个狂热的支持者的追捧。回想起来,那个时候,有些人思考因子分析的方法存在三个错误的地方。首先,有些人似乎认为因子分析作为统计方法,而实际上不是一种统计方法。其次,他们以绝对的角度思考问题,而这个问题使用启发式方法会更为合适。第三,他们考虑过多的变量集(“我们想了解所有人类的个性”,而不是“我们想了解好奇心的本质”。因此在三种不同的方式,他们试图伸展因子分析远比它能到达的能力。近几十年来因子分析似乎找到了其应有的地位,作为一个对于某些有限定目的的用处的家庭方法。
基本概念和原则
一个简单的例子
因子分析通常始于一个相关矩阵R,下面是一个人工的5times;5矩阵,我称它为R55。
1.00 0.72 0.63 0.54 0.45
0.72 1.00 0.48 0.56 0.40
0.63 1.00 0.42 0.35 0.56
0.54 0.48 1.00 0.42 0.30
0.45 0.40 0.35 0.30 1.00
假设这些都是测量心理能力的5个变量之间的相关性。矩阵R55正是符合这一假说的一个共同因素相关性分别观察到的变量。分别是0.9,0.8,0.7,0.6,,,,,0.5。要知道为什么,考虑两个变量a和b之间的偏相关的公式引出第三个变量b:
rab.g = (rab - rag rbg)/sqrt[(1-rag2)(1-rbg2)]
这个公式表明,当且仅当Rab =Rag*Rbg,Rab=0。任何两个观测变量
全文共7447字,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[144356],资料为PDF文档或Word文档,PDF文档可免费转换为Word
以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。