基于输入输出分析的科学领域之间的相关关系以及相互影响外文翻译资料

 2022-11-26 20:13:40

英语原文共 16 页,剩余内容已隐藏,支付完成后下载完整资料


基于输入输出分析的科学领域之间的相关关系以及相互影响

沈哲思,杨丽英,裴建索,李孟辉,吴晨生,包建章,魏田,狄增茹,罗素·卢梭,吴金山

系统科学学院,北京师范大学,北京100875,中国

国家科学图书馆,中国科学院,北京100190,中国

国际贸易与经济学院,对外经贸大学,北京100029,中国

北京科技情报研究所,北京100044

鲁汶大学,数学系,3000鲁汶,比利时

摘要:在本论文中,我们试图解决关于任何给定科学学科的两个问题:第一,每个子域的重要性,二是特定子域如何影响其他子域?我们修改了经济学中众所周知的列昂季耶夫输入 - 输出分析开放系统进入了关于特征值和特征向量的一个封闭系统分析去除一个子域后的效果。我们将这种方法应用于物理学的分支。这个分析在识别重要的子区域上已经有了满意结果(例如统计物理学领域有很大的影响,它不是最大的分支之一)并且描述他们对彼此的影响(例如机械控制原子的子域之间不是最大的量子力学,但我们的分析表明这些字段是有紧密连接的)。这种方法可能适用于在元素之间有输入输出关系的一般系统。

  1. 简介

科学基金机构和科学决策者通常必须决定哪一个科技领域在一段时期内优先考虑科学资源和活动的有效管理。 为了回答这个问题,资助机构需要评估(未来)所有科学领域的相对重要性。 此外,一旦选择了目标,即优先领域,便成为找到可支持目标领域的其他领域的主要因素,因为这些也同样支持。

这两个问题不仅与这些机构的决策者和委员会有关,而且与个体科学家,学术委员会和大学院系有关。 当然,可以依据个人专家的意见,感受和愿景来进行同行评议。 然而,随着大数据时代的兴起,一个自然的问题是使用大量已发表专利的技术分析和研究文章是否可以帮助回答这些问题。

科学领域的相对重要性和影响力的问题尚未得到完全解决,承认在信息学领域中科学领域与技术因素之间的关系是调查的范围之一(JST,2015; Narin,Hamiltonamp;Olivastro,1997)。在JST(2015)中,日本科技局(JST)对在已知专利因素的前提下哪个科学领域是已发表信息的主要来源感兴趣。 JST(2015)使用的简单方法是计算特定专利领域引用的期刊文章如何分布在所有科学领域。Narin等人的研究中(1997),作者更侧重于专利和科学出版物之间的引文模式如何因国家起源和随着时间的推移而改变。这种基于直接计算文章,专利和引文数量的分析被称为直接分析。在这种简单的直接统计方法中,科学领域对专利部门的间接贡献缺失:如果有一个专利部门,主要依赖于一个科学领域,又反过来利用另一个科学的概念和技术, 那么很显然即使没有从到的直接引用,也是的主要贡献者,这些连接被称为间接连接,是这项调查的主要议题。

这种考虑到直接和间接关系的想法虽然直接但不可低估。这种方法的结果有时被描述为网络效应(West amp;Vilhena,2014)。如图1A所示,我们提供了科学领域之间的引用关系的例子,其中间接连接(节点1和节点4或节点1和节点3之间)原则上可以发挥比直接连接更重要的作用,由于缺乏 节点1和4之间的直接连接以及节点1和3之间的弱连接。网络科学研究人员,包括来自社交网络分析的研究人员经常使用这一观点(Barabagrave;si,2015),网络视角在信息学中尚不常见。这并不意味着信息技术人员没有重视网络视野(Otte amp; Rousseau,2002; Westamp;Vilhena,2014)。事实上,网络效应是Google的PageRank算法(Brinamp;Page,1998)及其科学前身Pinski-Narin影响方法(Franceschet,2011; Pinskiamp;Narin,1976)背后的关键思想。PageRank算法被用于衡量期刊的相对重要性(Bergstrom,West,amp;Wiseman,2008)和文章的相对重要性(Chen,Xie,Maslov,amp;Redner,2007; Ma,Guan,Zhao,2008)。然而,PageRank算法主要集中在对网络中的节点进行排序,而不是节点之间的相互关系,我们在这里考虑排名以及描述相互关系。

图1. 所有APS论文中的引用被转换为PACS代码的输入输出网络/矩阵

  1. 一个虚拟网络,节点之间的直接和间接影响之间存在较大差异

(B)一张真实的APS引用网络:具有PACS代码的A,03.67.Lx和42.50.-p引用带有PACS代码03.67.Lx,32.80.Pj和32.80.Rm的B.

(C)在PACS代码的相应输入输出网络中,从图A到图B的引用之后,从图B的PACS代码到图A的PACS代码的指向链路被添加到PACS代码的网络中

(D)运用等式(8)计算B的矩阵

现在我们的工作已经在其适当的背景下,我们首先注意到我们将重点放在科学领域,而不是期刊和文章上。 因此,通过将出版物分类到科学领域,我们可以在研究中灵活运用PageRank算法或等价地Pinski-Narin影响方法学。

然而,我们的兴趣超出了相对重要性的衡量标准。 我们也想知道给定字段支持或被支持那些字段。 因此,我们考虑经济学中的列昂季耶夫输入 - 输出分析(LIOA)(Leontief,1941; Milleramp;Blair,2009)。 LIOA是回答有关经济部门的类似问题的一种方法。 事实上,Franceschet(2011)之前已经描述了LIOA和PageRank背后的想法和动机之间的相似之处。在LIOA中,从一个直接输入 - 输出矩阵B开始,其中表示产生一个产品j所需的产品i的数量(或货币值)。N是最后一个子域,用于最终消费者,所以指的是最终消费者使用产品的数量(或值)i,这个子域也被称为最终要求。LIOA中的两个典型问题如下:首先,如果最终需求增加会发生什么? 其他子域的总产出如何变化以匹配某些产品需求的增长? 第二,哪个经济部门对整个经济最重要? 什么是去除一个子域的影响因素,例如子域i,从经济方面,在每个其他子域?前者通常根据逆向列昂季耶夫(Miller&Blair,2009)进行讨论,这是一种特定线性方程的解,而后者通常以所谓的假设提取方法(HEM)(Temurshoev,2010)进行讨论。粗略地说,在HEM中人们在完整的LIOA和没有子域i的LIOA中比较不同数量计算。以这种方式,如果其中一个量存在很大变化,例如,子域j的输出,对子域jj的影响尤为重要。

由于这两个关于工业子域相对重要性及其相互关系的问题,如产品i的产出变化对产品j的影响与我们感兴趣的非常接近,我们将LIOA的观点用于现在研究。为此,我们需要根据科学领域之间的引用关系定义输入 - 输出矩阵B。B中的条目可以是从字段j到字段i的引用数与由字段j接收的总引用次数之间的比率。从某种意义上讲,这个比例代表i在j中引用引文所需的数量。这提供了LIOA和问题之间我们需要学习的紧密联系。原则上,可以考虑B的其他定义。例如,可以使用论文数而不是引用次数。也可以将B定义为PageRank矩阵,即从字段j到字段i的引用次数与字段i接收的总引用次数之间的比率。在某种意义上,这意味着i所收到的所有引用文件是如何从字段j的论文开始的。 当然,不同的定义研究引用现象的不同。 由于这里我们感兴趣的问题接近LIOA研究的问题,我们以与LIOA中使用的方式相同的方式来定义矩阵B. 研究领域的普及(包括直接和间接效应)时,PageRank B将更为适用。其他定义及其含义可能是进一步调查的主题。

然而,正如我们将进一步展示的那样,这种方法并不像看起来那么简单。需要新的概念和技术,使LIOA适用于研究我们感兴趣的信息技术问题,主要区别在于开放系统执行LIOA,但科学系统是封闭系统。经济学中最终需求子域之外没有一个自然的外部子域,除非可能包括专利。这将是进一步的步骤,需要更多的数据,而不是我们现在所拥有的数据。因此,我们需要一个封闭系统的输入输出分析方法。此外,引用次数在科学词汇过程中不是保守的数量:一个领域的引用总数通常与从该领域发起的引用次数不同。

幸运的是,正如我们稍后所述,作为我们对输入输出因子(IOF)定义的基础的特征值和作为输入- 输出影响(IOI)定义的基础的特征向量是我们需要的关键概念运用在我们的封闭系统输入 - 输出分析中。这将我们采用的方法与PageRank算法相关联,或者等价于Pinski-Narin影响方法。因此,本研究开发的方法-封闭系统的LIOA扩展方法也可以被认为是PageRank算法的扩展,使其适用于具有输入 - 输出关系的网络中的节点之间的影响。它还扩展了PageRank算法,因为它可以回答第二个问题-节点之间的相互关系,而不仅仅是排名问题。部分提供了我们的闭环输入输出分析与PageRank算法的比较。

除了我们在开始提出的两个问题的方法论贡献之外,我们发现,尽管我们的IOF整体与引用或出版物的数量密切相关,但在IOF和引用次数之间的相关图中有异常值或出版物。与其中的引用或出版物相比,这些异常值要强得多(即统计物理学)或弱得多(即相对论)对其他领域产生影响。在我们看来,这些异常值是直观和合理的。在关系研究中已经确定了同样有意义的异常值,其中考虑了对各个领域的影响。例如,我们发现03(量子力学)与37(原子的机械控制)密切相关,而两者之间的引用相对较少。这表明我们基于网络的分析可以超越引用次数或出版物的直接统计学研究。

我们在下一节介绍主要思想和公式。之后,在第3和第4部分中,我们采用封闭系统分析方法,利用美国物理学会(American Physical Society,APS)发表的期刊文章记录来研究物理子领域之间的关系,并讨论我们揭示的信息的有效性。在第5部分中,我们比较了所提出的方法与PageRank算法。关于我们的系统输入 - 输出分析的有效性的更一般的讨论可以在第6节中找到。我们方法的一些技术问题的讨论在附录A中指出。

  1. 修改封闭系统输入输出分析(MCSIOA):核心思想

我们首先总结经济学中的开放系统LIOA,然后进行修改,使其适用于封闭系统。实际上,Leontief提出的第一个输入输出模型(Leontief,1941)是一个封闭系统模型后来他和绝大多数的追随者都转向开放系统分析。让我们假设整个经济有N个部门,每个部门是农业,矿业,纺织品等组成部分从矩阵x =(xij)Ntimes;N开始,代表部门i的所有产品的数量或货币价值这是制作j部门产品所必需的,定义直接输入 - 输出系数矩阵

,其中, (1)

有了元素,我们可以得到 (2)

意味着X是矩阵B的特征向量,具有特征值1,为矩阵B的最大特征值。为了简化,我们将对应于最大特征向量的特征向量称为最大特征向量。

如果我们将最终需求部门,从行业其他部门中分离出来,并将其表示为,则有

(3)

其中是在其第N个元素被去除之后剩余的向量X(Y),并且类似地,是在其第N行和第N列之后的剩余矩阵B 被删除。逆矩阵称为Leontief逆,并被表示作为。L也被称为完整的输入-输出系数矩阵,因为它不仅考虑直接系数,而且考虑到间接的系数。如果我们重写L,可以更清楚地观察到如下:

(4)

假设最终需求的变化是已知的。直观地,这意味着为了满足需求,作为响应,首先需要产生至少产品; 要做到这一点,需要有足够的产品来制造,从而使,等等。这是开放系统Leontief输入输出分析的基本思想。 为了使用方程式(4)找到,原则上一个需要。

除了系统对最终需求变化的反应问题外,还可以利用LIOA来衡量行业的相对重要性及其影响。这被称为假设提取法(HEM)(Temurshoev,2010)。基本思想是对于给定的中进一步去除元素,我们可以定义

(5)

其中是在第j个和第N个(j ne;N)行和列被去除之后剩余的矩阵B。然后将与进行比较。如果它们是非常不同的(或者具体地说,第k个元素不同),则第j个部门对于经济是至关重要的(相对于第k个部门)。 可以说,第j行对经济和其他行业的重要性被隐藏在L和间的差异中。

由于生产下一代劳动力和制造其他产品的时间范围有所不同,将最终消费者行业与其他工业部门分开是合理的。然而,原则上,最终消费者的行业是经济的内在“制造”部门,因为它提供劳动力并生产产品。现在让我们来看一下封闭系统的投入产出分析方法,其中既不必要也不可能将一个部门视为系统外部。

线性方程技术显然不再适用于我们的闭路输入输出分析,但只要这些矩阵具有这样的特征向量,我们可以研究B和的最大非负特征向量。理想情况下,我们也希望这样一个最大的非负特征向量对于给定的矩阵B或是唯一的。 然而,原则上这不一定是正确的,尽管在以下实证分析中几乎总是如此。我们通过在矩阵B和中添加扰动项来引入强大的分析,以使得值全部为正,就像在PageRank算法中一样。细节在附录A中提供。为了简化符号,我们仍然称之为扰动积极的矩阵B和,其中每个具有唯一的所有正最大特征向量。

然后我们考虑和B的特征值和特征向量之间的差异。这依赖于等式(2)的另一个解释:向量X可以视为产品的具体组合,当提供给经济时,将输入的百分之一成为输出,即经济以全效率运行,因为相应的特征值为1是最大特征值。类似地,的最大特征值和对应的特征向量与没有j的经济的最高效率和相应的产品组合相关联。想象一下,j部门与其他部门几乎没有任何连接的情况,即与第B行或列的其他元素相比,第j行或列中的值非常小。将矩阵的最大特征值表示为,那么将非常接近于1。否则,当第j行和列中的元素相对较大时,将会小于1。矩阵(以及所有)的所有特征值必须小于或等于1的,在附录A中显示。

因此,我们建议将IOF(输入-输出因子)定义为

(6)

衡量部门j的相对重要性。这回答了我们在本文中提出

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[26183],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。