矩阵分解和秩外文翻译资料

 2022-07-27 14:07:18

P1-11 请第1位同学翻译(顾); P12-21第2位(曹); P22-32第3位(张)

Factor Analysis

Richard B. Darlington

Factor analysis includes both component analysis and common factor analysis. More than other statistical techniques, factor analysis has suffered from confusion concerning its very purpose. This affects my presentation in two ways. First, I devote a long section to describing what factor analysis does before examining in later sections how it does it. Second, I have decided to reverse the usual order of presentation. Component analysis is simpler, and most discussions present it first. However, I believe common factor analysis comes closer to solving the problems most researchers actually want to solve. Thus learning component analysis first may actually interfere with understanding what those problems are. Therefore component analysis is introduced only quite late in this chapter.

What Factor Analysis Can and Can#39;t Do

I assume you have scores on a number of variables-- anywhere from 3 to several hundred variables, but most often between 10 and 100. Actually you need only the correlation or covariance matrix--not the actual scores. The purpose of factor analysis is to discover simple patterns in the pattern of relationships among the variables. In particular, it seeks to discover if the observed variables can be explained largely or entirely in terms of a much smaller number of variables called factors.

Some Examples of Factor-Analysis Problems

1. Factor analysis was invented nearly 100 years ago by psychologist Charles Spearman, who hypothesized that the enormous variety of tests of mental ability--measures of mathematical skill, vocabulary, other verbal skills, artistic skills, logical reasoning ability, etc.--could all be explained by one underlying 'factor' of general intelligence that he called g. He hypothesized that if g could be measured and you could select a subpopulation of people with the same score on g, in that subpopulation you would find no correlations among any tests of mental ability. In other words, he hypothesized that g was the only factor common to all those measures.

It was an interesting idea, but it turned out to be wrong. Today the College Board testing service operates a system based on the idea that there are at least three important factors of mental ability--verbal, mathematical, and logical abilities--and most psychologists agree that many other factors could be identified as well.

2. Consider various measures of the activity of the autonomic nervous system--heart rate, blood pressure, etc. Psychologists have wanted to know whether, except for random fluctuation, all those measures move up and down together--the 'activation' hypothesis. Or do groups of autonomic measures move up and down together, but separate from other groups? Or are all the measures largely independent? An unpublished analysis of mine found that in one data set, at any rate, the data fitted the activation hypothesis quite well.

3. Suppose many species of animal (rats, mice, birds, frogs, etc.) are trained that food will appear at a certain spot whenever a noise--any kind of noise--comes from that spot. You could then tell whether they could detect a particular sound by seeing whether they turn in that direction when the sound appears. Then if you studied many sounds and many species, you might want to know on how many different dimensions of hearing acuity the species vary. One hypothesis would be that they vary on just three dimensions--the ability to detect high-frequency sounds, ability to detect low-frequency sounds, and ability to detect intermediate sounds. On the other hand, species might differ in their auditory capabilities on more than just these three dimensions. For instance, some species might be better at detecting sharp click-like sounds while others are better at detecting continuous hiss-like sounds.

4. Suppose each of 500 people, who are all familiar with different kinds of automobiles, rates each of 20 automobile models on the question, 'How much would you like to own that kind of automobile?' We could usefully ask about the number of dimensions on which the ratings differ. A one-factor theory would posit that people simply give the highest ratings to the most expensive models. A two-factor theory would posit that some people are most attracted to sporty models while others are most attracted to luxurious models. Three-factor and four-factor theories might add safety and reliability. Or instead of automobiles you might choose to study attitudes concerning foods, political policies, political candidates, or many other kinds of objects.

5. Rubenstein (1986) studied the nature of curiosity by analyzing the agreements of junior-high-school students with a large battery of statements such as 'I like to figure out how machinery works' or 'I like to try new kinds of food.' A factor analysis identified seven factors: three measuring enjoyment of problem-solving, learning, and reading; three measuring interests in natural sciences, art and music, and new experiences in general; and one indicating a relatively low interest in money.

The Goal: Understanding of Causes

Many statistical methods are used to study the relation between independent and dependent variables. Factor analysis is different; it is used to study the patterns of relationship among many dependent variables, with the goal of discovering something about the nature of the independent variables that affect them, even though those independent variables were not measured directly. Thus answers obtained by factor analysis are necessarily more hypothetical and tentative than is true when independent variables are observed directly. The inferred independent variables are called factors. A typical

全文共69311字,剩余内容已隐藏,支付完成后下载完整资料


矩阵分解和秩

这个可选部分给出了一些关于因子分析的数学细节。 假设你熟悉方差分析的中心定理:一个因变量Y的平方和可以被分成与总和相加的分量。在任何方差分析中,总平方和可以被划分为模型和残差分量。在具有相等细胞频率的方差的双因子分析中,模型平方和可以进一步划分为行、列和相互作用分量。

因子分析的中心定理是,你可以对整个协方差矩阵做类似的事情。协方差矩阵R可以被划分为由一组因子解释的公共部分C和由那些因子未解释的唯一部分U. 在矩阵术语中,R = C U,这意味着矩阵R中的每个条目是矩阵C和U中的对应条目的和。

如在具有相等的小区频率的方差分析中,所解释的分量C可以进一步分解。C可以被分解为由各个因子解释的分量矩阵C1,C2等。这些单因子分量Cj中的每一个等于“因子加载”列的“外积”。数列的外积是通过使矩阵中的项jk等于列中的项j和k的乘积而形成的方阵。 因此,如果列具有条目.9,.8,.7,.6,.5,如前面的例子,它的外积是:

.81 .72 .63 .54 .45

.72 .64 .56 .48 .40

c1 .63 .56 .49 .42 .35

.54 .48 .42 .36 .30

.45 .40 .35 .30 .25

前面我提到这个矩阵中的非对角项,但不是对角项。cj矩阵中的每个对角项实际上是由该因子解释的相应变量中的方差量。在我们的示例中,g将.9与第一个观察变量相关,因此该变量中解释方差的数量是.92或.81,这个矩阵中的第一个对角项。

在该示例中,仅存在一个公因子,因此该示例的矩阵C(表示为C55)是C55 = c1。因此,该示例的残差矩阵U(表示为U55)为U55 = R55-c1。这给出了U55的以下矩阵:

.00 .36 .00 .00 .00

U55 .00 .00 .51 .00 .00

.00 .00 .00 .64 .00

.00 .00 .00 .00 .75

这是由因子不明的变量部分的协方差矩阵。如前所述,U55中的所有非对角线条目都是0,对角线条目是每个变量中不明原因或唯一方差的数量。

通常C是几个矩阵cj的和,而不仅仅是这个例子中的一个。与C相加的c矩阵的数量是矩阵C的秩;在该示例中,C的秩为1.C的秩是该模型中的共同因子的数量。如果指定一定数量的因子,则因子分析程序然后导出与原始相关或协方差矩阵R相加的两个矩阵C和U,使得C的秩等于m。设置m越大,C将近似于R.如果设置m = p,其中p是矩阵中变量的数量,则C中的每个条目将完全等于R中的相应条目,留下U作为矩阵的零。这个想法是看看你可以设置m有多低,并且仍然有C提供一个合理的近似。

有多少个案例和变量?

真实因子结构越清晰,发现它所需的样本量越小。 但是,很难发现即使是具有少于约50个情况的非常清楚和简单的因子结构,并且对于不太清楚的结构,100个或更多个情况将是更优选的。

关于因子分析的变量数量的规则对于回归是非常不同的。 在因子分析中,完全可以有比案例更多的变量。 事实上,一般来说,变量越多越好,只要变量仍然与潜在的因子相关。

有多少个因子?

本节介绍了选择因子数量的两个规则。 熟悉因子分析的读者会惊讶地发现没有提到Kaiser熟悉的特征值规则或Cattellrsquo;scree测试。 这两个规则后面会提到,虽然正如当时解释的,我认为这两个规则过时。 也使用特征值,我还没有介绍。

在本节讨论的两个规则中,第一个使用形式显着性检验来确定共同因子的数量。 令N表示样本大小,p表示变量的数量,m表示因子的数量。 RU也表示变换成相关矩阵的残留矩阵U 是其决定因子,ln(1 / | RU |)是该行列式的倒数的自然对数。

为了应用该规则,首先计算G = N-1-(2p 5)/ 6-(2/3)m。 然后计算

卡方= G ln(1 / | RU |)与df = .5 [(p-m)2-p-m]

如果难以计算ln(1 / | RU |),该表达式常常很好地由rU2近似,其中求和表示矩阵RU中对角线上方的所有平方相关的和。

要使用这个公式来选择因子的数量,从m = 1开始(或者甚至m = 0),并计算连续增加m值的测试,当你发现无意义时停止; m的值是与数据没有显着抵触的m的最小值。这个规则的主要困难是,在我的经验中,对于中等大样本,它导致更多的因子比可以成功地解释。

我推荐一种替代方法。 这种方法曾经不切实际,但今天是可以接近的。 用m的各个值执行因子分析,完成旋转,并选择一个给出最有吸引力的结构。

旋转

在关于好奇心的开始的例子中,我提到了Rubenstein描述的个别因子:阅读的乐趣,对科学的兴趣等。旋转是因子分析的一个步骤,它允许你识别有意义的因子名称或这样的描述。

预测的线性函数

要理解旋转,首先考虑一个不涉及因子分析的问题。 假设你想预测大学生(在同一所大学中)在许多不同课程中的成绩,从他们的一般“口头”和“数学”技能测试的分数。 为了开发预测公式,你有一个过去数据体,包括这些课程中几百名以前学生的成绩,以及这些学生在数学和语言测试上的分数。 为了预测现在和未来学生的成绩,你可以使用过去学生的这些数据拟合一系列双变量多元回归,每个回归在两个技能测试的分数中预测一个课程的成绩。

现在假设一个同事建议将每个学生的口头和数学分数相加,以获得我称为AS的综合“学术技能”分数,并且考虑每个学生的口头和数学分数之间的差异以获得第二个变量,我将称为VMD (语言 - 数学差)。同事建议运行相同的回归来预测个别课程中的成绩,除了在每个回归中使用AS和VMD作为预测变量,而不是原始的口头和数学成绩。在这个例子中,你将得到与这两个回归系列的课程成绩完全相同的预测:一个是从语言和数学得分预测个别课程的成绩,另一个预测来自AS和VMD分数的相同成绩。事实上,如果你形成3数学 5语言和5语言 3数学的复合,并运行一系列双变量多元回归预测这两个复合材料的成绩,你会得到相同的预测。这些例子都是原始语言和数学得分的线性函数。

中心点是,如果你有m个预测变量,并且你用这些预测变量的m个线性函数替换m个原始预测变量,你通常不会获得或丢失任何信息——如果你希望使用线性函数的分数重建原始变量的分数。 但是多元回归使用你以最佳方式(通过当前样本中的平方误差的总和衡量)的任何信息来预测新变量(例如特定课程中的成绩)。 由于线性函数包含与原始变量相同的信息,您将获得与之前相同的预测。

假设有很多方法可以得到完全相同的预测,使用一组线性函数而不是另一个线性函数有什么优势吗?就在这里;一组可能比另一组更简单。一个特定的线性函数对可以使得许多​​课程等级仅从一个变量(即,一个线性函数)而不是从两个变量预测。如果我们将具有较少预测变量的回归简化,则我们可以问这个问题:在最小化预测变量的数量的意义上,在所有可能的给出相同预测的可能的预测变量对中,使用最简单需要在典型的回归?最大化简单性的一些量度的预测变量对可以被称为具有简单的结构。在这个涉及成绩的示例中,您可以仅仅通过口头测试得分准确地预测一些课程中的成绩,并且仅通过数学得分准确地预测其他课程中的成绩。如果是这样,那么在预测中,您将获得一个“更简单的结构”,而不是如果您对所有预测使用了两个测试。

因子分析中的简单结构

当预测变量是因子时,上述部分的点适用。将m个因子F视为一组独立或预测变量,并将p观察变量X视为一组依赖或标准变量。考虑一组p个多重回归,每个预测来自所有m个因子的变量之一。在这组回归中的标准化系数形成称为因子加载矩阵的ptimes;m矩阵。如果我们用这些因子的一组线性函数替换原始因子,我们将获得与以前完全相同的预测,但是因子加载矩阵将不同。因此,我们可以问我们可能使用的许多可能的线性函数中的哪一个,产生最简单的因子加载矩阵。具体来说,我们将简单定义为因子加载矩阵中的零或接近零的条目——更多的零,结构更简单。旋转不改变矩阵C或U,但改变因子加载矩阵。

在简单结构的极端情况下,每个X变量将只有一个大的条目,因此所有其他可以被忽略。但这将是一个比你通常希望实现的更简单的结构;毕竟,在现实世界中,每个变量通常不仅仅受到一个其他变量的影响。然后根据对其负载的检查,主观地命名因子。

在共同因子分析中,轮换过程实际上更抽象,我在这里暗示,因为你实际上不知道个案的因子分数。然而,这里最相关的多元回归的统计 - 多重相关和标准化回归斜率 - 都可以从所涉及的变量和因子的相关性来计算。因此,我们可以将计算旋转为简单的结构只是那些相关性,而不使用任何单独的分数。

要求因子保持不相关的旋转是正交旋转,而其它旋转是倾斜旋转。倾斜旋转通常实现更大的简单结构,但是在解释结果时还必须考虑因子互相关矩阵。手册通常是清楚的,但是如果存在任何歧义,则简单的规则是,如果存在打印出因子相关矩阵的任何能力,则旋转是倾斜的,因为正交旋转不需要这样的容量。

一个案例

表1说明了对24个心理能力测量因子分析的旋转结果。

表格1

倾斜4个因子的24个心理能力变量的Promax旋转

来自Gorsuch(1983)

Verbal Numer- Visual Recog-

ical nition

General information .80 .10 -.01 -.06

Paragraph comprehension .81 -.10 .02 .09

Sentence completion .87 .04 .01 -.10

Word classification .55 .12 .23 -.08

Word meaning .87 -.11 -.01 .07

Add .08 .86 -.30 .05

Code .03 .52 -.09 .29

Counting groups of dots -.16 .79 .14 -.09

Straight amp; curved capitals -.01 .54 .41 -.16

Woody-McCall mixed .24 .43 .00 .18

Visual perception -.08 .03 .77 -.04

Cubes -.07 -.02 .59 -.08

Paper form board -.02 -.19 .68 -.02

Flags .07 -.06 .66 -.12

Deduction .25 -.11 .40 .20

Numerical puzzles -.03 .35 .37 .06

Problem reasoning .24 -.07 .36 .21

Series completion .21 .05 .49 .06

Word recognition .09 -.08 -.13 .66

Number recognition -.04 -.09 -.02 .64

Figure recognition -.16 -.13 .43 .47

Object-number .00 .09 -.13 .69

Number-figure -.22 .23 .25 .42

Figure-word .00 .05 .15 .37

这个表显示了相当不错的简单结构。在四个变量块的每一个中,高值(绝对值高于约0.4)通常都在单个列中 - 四个块中的每一个的单独列。此外,每个块中的变量都似乎测量相同的一般类型的心理能力。这两种概括的主要例外在于第三块。该

全文共8324字,剩余内容已隐藏,支付完成后下载完整资料


资料编号:[144359],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。