因子分析外文翻译资料

 2022-07-27 14:07:59

P1-11 请第1位同学翻译(顾); P12-21第2位(曹); P22-32第3位(张)

Factor Analysis

Richard B. Darlington

Factor analysis includes both component analysis and common factor analysis. More than other statistical techniques, factor analysis has suffered from confusion concerning its very purpose. This affects my presentation in two ways. First, I devote a long section to describing what factor analysis does before examining in later sections how it does it. Second, I have decided to reverse the usual order of presentation. Component analysis is simpler, and most discussions present it first. However, I believe common factor analysis comes closer to solving the problems most researchers actually want to solve. Thus learning component analysis first may actually interfere with understanding what those problems are. Therefore component analysis is introduced only quite late in this chapter.

What Factor Analysis Can and Can#39;t Do

I assume you have scores on a number of variables-- anywhere from 3 to several hundred variables, but most often between 10 and 100. Actually you need only the correlation or covariance matrix--not the actual scores. The purpose of factor analysis is to discover simple patterns in the pattern of relationships among the variables. In particular, it seeks to discover if the observed variables can be explained largely or entirely in terms of a much smaller number of variables called factors.

Some Examples of Factor-Analysis Problems

1. Factor analysis was invented nearly 100 years ago by psychologist Charles Spearman, who hypothesized that the enormous variety of tests of mental ability--measures of mathematical skill, vocabulary, other verbal skills, artistic skills, logical reasoning ability, etc.--could all be explained by one underlying 'factor' of general intelligence that he called g. He hypothesized that if g could be measured and you could select a subpopulation of people with the same score on g, in that subpopulation you would find no correlations among any tests of mental ability. In other words, he hypothesized that g was the only factor common to all those measures.

It was an interesting idea, but it turned out to be wrong. Today the College Board testing service operates a system based on the idea that there are at least three important factors of mental ability--verbal, mathematical, and logical abilities--and most psychologists agree that many other factors could be identified as well.

2. Consider various measures of the activity of the autonomic nervous system--heart rate, blood pressure, etc. Psychologists have wanted to know whether, except for random fluctuation, all those measures move up and down together--the 'activation' hypothesis. Or do groups of autonomic measures move up and down together, but separate from other groups? Or are all the measures largely independent? An unpublished analysis of mine found that in one data set, at any rate, the data fitted the activation hypothesis quite well.

3. Suppose many species of animal (rats, mice, birds, frogs, etc.) are trained that food will appear at a certain spot whenever a noise--any kind of noise--comes from that spot. You could then tell whether they could detect a particular sound by seeing whether they turn in that direction when the sound appears. Then if you studied many sounds and many species, you might want to know on how many different dimensions of hearing acuity the species vary. One hypothesis would be that they vary on just three dimensions--the ability to detect high-frequency sounds, ability to detect low-frequency sounds, and ability to detect intermediate sounds. On the other hand, species might differ in their auditory capabilities on more than just these three dimensions. For instance, some species might be better at detecting sharp click-like sounds while others are better at detecting continuous hiss-like sounds.

4. Suppose each of 500 people, who are all familiar with different kinds of automobiles, rates each of 20 automobile models on the question, 'How much would you like to own that kind of automobile?' We could usefully ask about the number of dimensions on which the ratings differ. A one-factor theory would posit that people simply give the highest ratings to the most expensive models. A two-factor theory would posit that some people are most attracted to sporty models while others are most attracted to luxurious models. Three-factor and four-factor theories might add safety and reliability. Or instead of automobiles you might choose to study attitudes concerning foods, political policies, political candidates, or many other kinds of objects.

5. Rubenstein (1986) studied the nature of curiosity by analyzing the agreements of junior-high-school students with a large battery of statements such as 'I like to figure out how machinery works' or 'I like to try new kinds of food.' A factor analysis identified seven factors: three measuring enjoyment of problem-solving, learning, and reading; three measuring interests in natural sciences, art and music, and new experiences in general; and one indicating a relatively low interest in money.

The Goal: Understanding of Causes

Many statistical methods are used to study the relation between independent and dependent variables. Factor analysis is different; it is used to study the patterns of relationship among many dependent variables, with the goal of discovering something about the nature of the independent variables that affect them, even though those independent variables were not measured directly. Thus answers obtained by factor analysis are necessarily more hypothetical and tentative than is true when independent variables are observed directly. The inferred independent variables are called factors. A typical

全文共69311字,剩余内容已隐藏,支付完成后下载完整资料


因子分析外文翻译

输出值之间的一些关系

输出值之间存在多个关系。 许多人觉得这些关系帮助他们更好地理解他们的产出。 其他人只是强制性的,并喜欢使用这些关系来确认gremlins没有攻击他们的计算机程序。 主要关系如下:

1.特征值之和= p

如果输入矩阵是相关矩阵

特征值和=输入方差和

如果输入矩阵是协方差矩阵

2.方差比例解释=特征值/特征值之和

3.第j个主成分的平方因子载荷的总和

= eigenvaluej

变量i的平方因子载荷的总和

=变量i中解释的方差

= Cii(矩阵C中的对角项i)

=共性因子分析

=变量i的方差,如果m = p

5.因子加载矩阵的列i和j之间的交叉积的和

= Cij(矩阵C中的项ij)

6.#3,#4和#5中的关系在旋转后仍然为真。

7.R-C = U。如果必要,规则4可以用于找到C中的对角项,则规则7可以用于找到U中的对角项。

比较两个因子分析

由于因子加载是因子分析的最重要的输出之一,所以询问因子加载的标准误差似乎是自然的,因此例如我们可以测试两个样本中因子加载之间的差异的显着性。遗憾的是,由于在识别因子本身时存在模糊性,因此不能得到用于这种目的的非常有用的通用公式。为了看到这一点,假设“数学”和“语言”因子解释了人口中大致相等的方差量。数学和语言因子可能在一个样本中分别作为因子1和2出现,但在相同群体的第二个样本中以相反的顺序出现。然后,如果我们机械地比较例如变量5对因子1的负荷的两个值,我们实际上将比较变量5对数学因子的负荷与其对语言因子的负荷。更一般来说,说一个因子分析中的一个特定因子“对应”另一个因子分析中的一个因子,从来没有完全有意义的。因此,我们需要一种完全不同的方法来研究两个因子分析之间的相似性和差异。

实际上,几个不同的问题可能被表述为关于两个因子分析的相似性的问题。首先,我们必须在两个不同的数据格式区分:

1、相同的变量,两组。同样的一套措施可能采取的对男性和女性,或者在治疗组和对照组。 然后,问题出在两个因子结构是否相同。

2、一个小组,两个条件或两组变量。两个测试电池可能被给予一组受试者,并询问两组得分如何不同的问题, 或相同的电池在两种不同的条件下进行说明。

接下来的两节分别讨论这些问题。

两组比较因子分析

在两组和一组变量的情况下,关于因子结构的问题显然不是问两组是否在手段上不同; 这将是MANOVA(多变量方差分析)的问题。 除非两组平均值相等或以某种方式相等,否则问题也不是询问在合并两个样本之后是否可以有意义地计算相关矩阵,因为平均值的差异将破坏这种矩阵的含义。

现在的问题,“难道这两个群体具有相同的因子结构?” 实际上是从问题完全不同,“他们有相同的因子是什么?” 后一个问题更接近于这个问题:“我们需要两个不同的因子分析吗? 看到这一点,想象一下5个“言语”测试和5个“数学”测试的问题。 为简单起见假设两套测试之间的所有关系都完全为零。 也为了简单起见考虑一个成分分析,尽管可以关于一个共同的因子分析由相同点。现在想象一下,5个口头测试之间的相关性是男人之间的所有完全相同妇女0.4至2.8,而5数学测试之间的相关性是男人之间的所有完全相同妇女0.8 .4。 分别在两组中的因子分析将产生不同的因子结构,但是相同的因子; 在每个性别中,分析将识别“语言”因子,其是对所有数学项目具有0权重的所有语言项目的等权重平均值,以及具有相反模式的“数学”因子。 在这个例子中,对于两个性别使用单独的因子分析没有什么可以获得,即使两个因子结构是完全不同的。

有关这两个组问题的另一个重要的一点是它派生4个因子,A组和4组B的分析有多达因子,总作为合并后的集团在派生8的分析。 因此,实际问题可能不是是否导出两个组中的每个组中的m个因子拟合数据比导出组合组中的m个因子的分析更好。 相反,应将两个单独的分析与组合组中得出2m因子的分析进行比较。 为了进行分量分析的比较,对每个单独组中的第一m个特征值求和,并且将这两个和的平均值与组合组中的第一2m个特征值的和进行比较。 这种分析表明,最好对两组进行单独的因子分析。 这个相同的分析应至少给出对共同因子分析的问题的近似答案。

假设问题实际上是两个因子结构是否相同。 这个问题是非常相似的问题,即两个相关或协方差矩阵是否相同 - 被精确地与没有参考定义在所有因子分析的问题。 这些假设的测试已经超出了工作范围,但在两个协方差矩阵的平等的测试出现在莫里森(1990)和多因子分析等作品。

比较单组中两组变量的因子分析

人们经常问的一个问题是他们是否应该一起或分别地分析变量集合A和B. 我的答案通常是“在一起”,除非在研究的两个领域之间明显没有重叠。 毕竟,如果两组变量真的是不相关的,那么因子分析将告诉你这样,得到一组因子集合A和另一组因子集合B.因此,分别分析两组是预先判断部分的问题 因子分析应该为你回答。

如在两个单独的案例样本的情况下,有一个问题通常在因子方面表达,但是更好地表述为关于两个相关或协方差矩阵的等式的问题 - 这个问题可以用 参考因子分析。 在本例中,我们有两组并行的变量; 也就是说,集合A中的每个变量与集合B中的每个变量并行。事实上,集合A和B可以是在两种不同条件下管理的完全相同的措施。 那么问题是两个相关矩阵或协方差矩阵是否相同。 这个问题与因子分析无关,但它也与AB相关性是否高的问题无关。 集合A和B内的两个相关或协方差矩阵可以相等,而不管AB相关是高还是低。

达林顿,温伯格和沃尔伯格(1973年)中描述的零假设,当集A和B的情况下相同的样本中测量的变量集A和B的协方差矩阵是相等的考验。 它需要AB协方差矩阵是对称的假设。 因此,例如如果集合A和B是在第1年和第2年管理的相同的测试集合,则该假设要求第1年中的测试X与第2年中的测试Y之间的协方差等于第2年中的测试X与测试之间的协方差 给定这个假设,你可以简单地形成两组分数,我将称为A B和AB,由两个并行变量的和和差组成。 然后证明原始零假设等价于假设集合A B中的所有变量与集合A-B中的所有变量不相关。 这个假设可以用MANOVA进行测试。

在SYSTAT 5中的因子和组分分析

输入数据

有三种不同的方式以通过FACTOR过程可用的形式将数据输入到SYSTAT 5中。 第四种方式(稍后描述)似乎是合理的,但实际上不会工作。

因子将接受标准的矩形格式的数据。 它会自动计算的相关矩阵,并使用它进行进一步的分析。 如果要分析协方差矩阵,请输入:类型=协方差;如果以后要分析相关矩阵,请输入:类型=关联;“相关”类型是默认类型,因此如果您只想分析相关矩阵,则无需输入。

因子分析准备数据的第二种方法是在CORR菜单中计算和保存相关或协方差矩阵。 SYSTAT将在保存时自动记下矩阵是相关还是协方差矩阵,并将保存该信息。 然后FACTOR将自动使用正确的类型。

第三种方法是有用的,如果你有来自打印源的相关或协方差矩阵,并且想要手动输入该矩阵。 要做到这一点,结合输入和类型命令。

例如,假设矩阵.94 .62 .47 .36

.62 .89 .58 .29

.47 .58 .97 .38

.36 .29 .38 .87

是四个变量ALGEBRA,GEOMETRY,COMPUTER,TRIGONOM的协方差矩阵。 (通常输入相关性或协方差到比这更高的数字。)在DATA模块中,您可以键入

保存数学

输入代数,几何,计算机,TRIGONOM

类型一致性

执行

.94
.62 .89
.47 .58 .97
.36 .29 .38 .87
退出

请注意,只输入矩阵的下三角形部分。 在这个例子中,输入对角线,但如果输入相关矩阵使所有对角线条目都为1.0,则在执行之前输入对角线不存在命令,则忽略对角线条目。

第四种方式不工作,是将相关或协方差矩阵输入或扫描到字处理器中,然后使用SYSTAT的GET命令将矩阵移动到SYSTAT。 在此方法中,SYSTAT将不会正确地记录矩阵TYPE,并且将矩阵视为分数矩阵而不是相关性或协方差。 不幸的是,SYSTAT将以您期望的格式输出,并且没有明显的迹象表明整个分析已经不正确。

因子分析命令

单字命令因子产生对数据集中所有数值变量的主成分分析。要指定某些变量,请将它们直接命名为FACTOR之后,如因子代数,几何,计算机,TRIGONOM。

要选择共同因子的分析,而不是主要成分,添加选项IPA的“迭代主轴”。 所有选项都列在斜线后面; IPA是一个选项,但变量列表不是。 因此命令可能读取因子代数,几何,计算机,TRIGONOM / IPA。

ITER(迭代)选项确定在共同因子分析中估计共性的最大迭代次数。 如果SYSTAT警告社区估计值可疑,请增加ITER; 默认为ITER = 25. TOL选项指定共同性估计发生变化,低于该因子将停止努力提高集体性的估计; 默认值为TOL = .001。 PLOT选项产生因子载荷对的因子或组件对的图。 这样的图的数量是m(m-1)/ 2,如果m大,这可能是大的。 使用所有这些选项的命令可能会读取FACTOR / IPA, TOL = .0001, ITER = 60, PLOT。

这些是FACTOR命令的唯一选项; FACTOR程序的所有其他指令作为单独的命令发出。有两个命令可用于控制因子的数量:NUMBER和EIGEN。 命令NUMBER = 4,指示FACTOR导出4个因子。 命令EIGEN = .5,指示FACTOR选择等于高于0.5的特征值的数量的多个因子。 因此,当您考虑相关矩阵时,命令EIGEN = 1 ,实施Kaiser规则来选择因子的数量。 默认值为EIGEN = 0,这导致FACTOR导出所有可能的因子。 如果使用NUMBER和EIGEN命令,FACTOR将遵循任何规则产生较小数量的因子。

当打印因子加载矩阵时,单字命令SORT使得FACTOR对它们的因子加载进行排序。 具体来说,它将使得FACTOR首先打印所有在因子1上加载.5的变量,然后在因子2上加载上面的所有变量.5等。在每个变量块中,变量根据 对应因子,首先具有最高负荷。 这种排序使得更容易检查用于简单结构的因子结构矩阵。

ROTATE命令允许您选择旋转方法。 选择是

ROTATE = VARIMAX

ROTATE = EQUAMAX

ROTATE = QUARTIMAX

这些方法之间的差异超出了本章的范围。 在任何情况下,旋转不会影响因子结构拟合数据,因此您可以如果希望使用它们,并选择一个最喜欢的结果。 事实上,这是通常做的。 旋转的默认方法是方差最大,所以打字只需旋转工具最大方差法。

有三个选项用于将因子分析的输出保存到文件中。 为此,请在FACTOR命令之前使用SAVE命令。

命令保存MYFILE / SCORES。将主成分的分数保存到名为MYFILE的文件中。 这不能用于公共因子分析(IPA选项),因为公共因子得分未定义。

命令保存MYFILE / COEF。保存用于定义组件的系数。 这些系数是在某种意义上因子载荷相反。 载荷根据因子预测变量,而系数根据原始变量定义因子。 如果指定旋转,则系数是定义旋转分量的系数。

命令保存MYFILE / LOADING。保存因子载荷矩阵; 它可以用于共同因子分析或成分分析。 同样,如果指定旋转,保存的加载用于旋转因子。

输出

FACTOR的基本输出包括四个表:

bull;特征值

bull;因子加载矩阵(称为IPA的因子模式)

bull;因子解释的方差(通常等于特征值)

bull;因子解释的方差比例

o旋转因子加载

o方差旋转因子解释

o由旋转因子解释方差比例

PRINT LONG增加两个:

o输入相关或协方差矩阵R.

o残余协方差矩阵 - U的非对角线部分

FACTOR命令的PLOT选项添加两个其他项:

o scree图

o因子负荷图,一次两个因子

这些列表没有重叠。 因此,选择所有这些选项将使得FACTOR打印12个表,一个scree图和m(m-1)/ 2个因子加载图。

例如:

文件USDATA(与SYSTAT一起提供)包括变量CARDIO, CANCER, PULMONAR, PNEU_FLU, DIABETES, and LIVER,给出每个变量在美国50州的死因率。 这些数据的因子分析可能会对公共卫生因子从这些6个原因中确定死亡率的情况有所了解。 接收所有前面提到的输出类型,使用下面的命令:

使用usdata

旋转=最大方差法

排序

打印长

数= 2

因子心脏,癌症,肺,pneu_flu,糖尿病,肝/ ipa

Plot

除了一个scree图

全文共7548字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[144357],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。