隐马尔科夫模型外文翻译资料

 2022-12-11 20:22:37

Hidden Markov model

Roberto Bizzotto bull; Stefano Zamuner bull; Giuseppe De Nicolao bull; Mats O. Karlsson bull; Roberto Gomeni

Abstract:

the hidden Markov model is natural language an important statistical model. As a special kind of Markov chain for the underlying attribute is inferred through observed data. This paper introduces the concept of hidden Markov model, application in natural language processing and related algorithms, including forward algorithm and the Viterbi algorithm.

A hidden Markov model (HMM) is a statistical Markov model in which the system being modeled is assumed to be a Markov process with unobserved (hidden) states. An HMM can be presented as the simplest dynamic Bayesian network. The mathematics behind the HMM were de- veloped by L. E. Baum and coworkers.[1][2][3][4][5] It is closely related to an earlier work on the optimal nonlin- ear filtering problem by Ruslan L. Stratonovich,[6] who was the first to describe the forward-backward procedure.

In simpler Markov models (like a Markov chain), the state is directly visible to the observer, and therefore the state transition probabilities are the only parameters. In a hid- den Markov model, the state is not directly visible, but the output, dependent on the state, is visible. Each state has a probability distribution over the possible output to- kens. Therefore, the sequence of tokens generated by an HMM gives some information about the sequence of states.

Hidden Markov models are especially known for their ap- plication in temporal pattern recognition such as speech, handwriting, gesture recognition,[7] part-of-speech tag- ging, musical score following,[8] partial discharges[9] and bioinformatics.

A hidden Markov model can be considered a gener- alization of a mixture model where the hidden vari- ables (or latent variables), which control the mixture component to be selected for each observation, are re- lated through a Markov process rather than independent of each other. Recently, hidden Markov models have been generalized to pairwise Markov models and triplet Markov models which allow consideration of more com- plex data structures [10][11] and the modelling of nonsta- tionary data.[12][13]

Description in terms of urns

In its discrete form, a hidden Markov process can be vi- sualized as a generalization of the Urn problem with re- placement (where each item from the urn is returned to the original urn before the next step).[14] Consider this ex- ample: in a room that is not visible to an observer there is a genie. The room contains urns X1, X2, X3, hellip; each of which contains a known mix of balls, each ball labeled

a12

a23

X1

a21

X2

X3

b12

b22

b31

b32

b33

b34

b11

b21

b14

b13

b24

y1

y2

y3

y4

Figure 1. Probabilistic parameters of a hidden Markov model (example)

X — states

y — possible observations

a — state transition probabilities

b — output probabilities

y1, y2, y3, hellip; . The genie chooses an urn in that room and randomly draws a ball from that urn. It then puts the ball onto a conveyor belt, where the observer can observe the sequence of the balls but not the sequence of urns from which they were drawn. The genie has some procedure to choose urns; the choice of the urn for the n-th ball de- pends only upon a random number and the choice of the urn for the (n minus; 1)-th ball. The choice of urn does not directly depend on the urns chosen before this single pre- vious urn; therefore, this is called a Markov process. It can be described by the upper part of Figure 1.

1

  1. 3 INFERENCE

Architecture

The diagram below shows the general architecture of an instantiated HMM. Each oval shape represents a random variable that can adopt any of a number of values. The random variable x(t) is the hidden state at time t (with the model from the above diagram, x(t) isin; { x1, x2, x3 }). The

sion parameters. (In such a case, unless the value of M is small, it may be more pr

剩余内容已隐藏,支付完成后下载完整资料


隐马尔科夫模型

Roberto Bizzotto bull; Stefano Zamuner bull; Giuseppe De Nicolao bull; Mats O. Karlsson bull; Roberto Gomeni

摘要:隐马尔科夫模型是自然语言的一种重要的统计模型。作为一种特殊的马尔科夫链,用于通过观测数据推测其隐含的属性。本文介绍了隐马尔科夫模型的概念、在自然语言处理中的应用和相关算法包括向前算法和维特比算法。

隐马尔可夫模型(HMM)是模拟的系统被认为是一个未观察到的马尔可夫进程(隐藏)状态的马尔可夫模型。隐马尔可夫模型可以作为最简单的动态贝叶斯网络。E.鲍姆和同事在把它发展。它是涉及早期工作的最优非线性滤波问题, 由鲁斯兰第一个提出。

在简单的马尔可夫模型(如马尔可夫链),状态是直接可见的,因此,状态转移概率是唯一的参数。在一个隐藏的-马尔可夫模型,状态是不直接可见的,但输出依赖于状态,是可见的。每个状态都有一个概率分布。因此,一个隐马尔可夫模型产生的序列给出了一些关于状态序列的信息。

隐马尔科夫模型(hidden Markov model,HMM)是自然语言的一种重要的统计模型,被广泛地应用于自然语言处理的多个领域,包括语音识别、词性标注,局部放电和生物信息学等等。

隐马尔可夫模型可以被认为是一个一般化的混合模型中的隐藏变量(或变量),变量控制被选择为观察对象,再通过马尔可夫相关的过程而不是相互独立的。最近,隐藏马尔可夫模式已推广到两两马尔可夫模型和三马尔可夫模型允许更复杂的数据结构的思考和非平稳数据建模。

a12

a23

X1

a21

X2

X3

b12

b22

b31

b32

b33

b34

b11

b21

b14

b13

b24

y1

y2

y3

y4

1 从瓮的角度描述

在其离散形式,隐藏马尔可夫的过程可以看成是一个概括的瓮更换(每个项目从瓮前回到原来的下一步)。考虑一下这个例子:在一个房间里,观察者不可见有一个选择者。房间里有骨灰盒x1,x2,x3,hellip;每个包含一个已知的混球,每个球标记的Y1、Y2、Y3、的hellip;选择瓮在那间屋子里随机抽取一个球从那瓮。然后把球踢到一个传送带,在观察者观察球的顺序而不是瓮序列从他们画的。精灵有一定的程序选择的瓮瓮;选择N次球仅取决于一个随机数并对瓮的选择(N minus; 1)个球。骨灰盒的选择并不直接取决于瓮前选择这单前瓮;因此,这称为马尔科夫过程。它可以通过图1的上半部分的描述。

2 建筑

下面的图表显示了一个实例化的例子,每个椭圆形的一般体系结构是一个随机变量,可以采用任何一个值。随机变量XT)是隐藏状态的时间T(从上面的图表与模型,XT isin; { )XXX })。随机变量YT)是在时间的观察T(与YT isin; { )YYYY })。图中的箭头(通常称为网格图)表示条件关系。

从图中,很明显,条件概率分布隐藏的变量XT在时间)T,给出了隐变量的值X在所有的时间,取决于只有对隐变量的值XT minus; 1);在时间的价值T minus; 2前无影响。这就是所谓的马尔科夫条件。同样的,观察到的变量的值YT)仅取决于隐藏的变量的值XT)(在时间T)。同样的,观察到的变量的值YT)仅取决于隐藏的变量的值XT)(在时间T)。

隐藏在马尔可夫模型考虑了标准型、隐变量的状态空间是离散的,而观测本身可以是离散的(从一个典型的产生分类分布)或连续(通常是从一个高斯分布)。一个隐藏的马尔可夫模型参数的两种类型,转移概率发射概率(也被称为输出概率)转移概率控制方式的隐藏状态的时间T选择在时间的隐藏状态(t-1).

隐藏的状态空间由一个N可能的值,建模为一个类别分布。(参见下面对其他可能性扩展)这意味着每个的N可能的状态,一个隐藏的变量在时间T可在这个状态,有各自的转移概率N在时间的隐变量可能的状态t 1,总共n2转移概率。值得注意的是,从任何给定的状态转移概率的总和必须为1套。因此,该n2转移概率矩阵组成马尔科夫矩阵。因为任何一个转移概率可以确定,共有n*(n-1)转换参数。

此外,每个的N可能的状态,有一套发射概率在某一特定时间的控制与观测变量的分布,给出了隐变量的状态。这个集合的大小依赖于观察到的变量的性质。例如,如果观察到的变量是离散的M可能的值,由分布,将有M-1不同的参数,总共发射参数全隐状态。另一方面,如果观察到的变量是一个M维向量的分布按任意多元高斯分布,将有M参数控制方法和M(M 1)2参数控制协方差矩阵,总共NM(M 3)2发射参数。(在这种情况下,除非价值M是小的,它可能会限制个人的观测向量元素之间的协方差的性质更实用,例如假设要素是相互独立的,或更少的限制,独立于所有但一个固定数量的相邻的元素。)

状态转换和一个HMM的输出概率是由图中上部的线的透明度表示。鉴于我们在图的下部观察输出序列,我们可以在那可以产生它的国家最有可能的序列感兴趣。根据图中的箭头,下面的状态序列的候选

5 3 2 5 3 2

4 3 2 5 3 2

3 1 2 5 3 2

我们可以通过两者的状态序列,每箱观察联合概率评价找到最可能的序列(简单地乘以概率值,这对应于所涉及的箭影)。一般来说,这种类型的问题(即寻找一个观察序列的最可能的解释)可以有效地解决使用

1

2

3

4

5

如下几个推理问题是隐藏的马尔可夫模型

任务是在一个最好的方式计算,给出了该模型的参数,对一个特定的输出序列的概率。这就要求在所有可能的状态序列的总和:

观察序列的概率

Y = y(0), y(1), . . . , y(L minus; 1)

长度lt;igt;Llt;/igt;是由

P (Y ) = sum; P (Y | X)P (X),

运行在所有可能的隐藏节点序列中应用原理动态规划,这个问题,也可以有效地使用向前算法。

我们的任务是计算,给出了模型的参数和观察序列,分布在上潜变量的隐状态序列的末尾,即计算P (x(t) | y(1), . . . , y(t)) 这个任务时通常使用的潜变量的序列被认为是潜在的状态,过程中移动通过在连续的时间点,在每个时间点对应的观测。然后,自然是要询问的过程结束时的状态。这个问题可以用向前算法。

应用:

隐马尔可夫模型可以应用于许多领域,目标是恢复一个数据序列,不是立即可见(但这取决于序列的其他数据)。应用包括:

  • 单分子动力学
  • 音识别
  • 语言合成
  • 词性标注
  • 在扫描解决方案文件分离
  • 机器翻译
  • 局部放电
  • 基因测试
  • 生物序列对比
  • 活动识别
  • 蛋白质折叠
  • 变形病毒检测
  • DNA序列的发现

历史

前向和后向递归使用HMM以及边缘平滑概率计算首次描述了鲁兰斯1960(页158-160)在他的论文在俄罗斯上世纪50年代末。隐藏的马尔可夫模型后来被描述在一系列统计论文仑呐德在1960年下半年其他作者。一个HMM模型的第一个应用程序语音识别在上世纪70年代中期开始。

扩展

在隐藏的马尔可夫模型,隐变量的状态空间是离散的,而观测本身可以是离散的(从一个典型的产生分类分布)或连续(通常是从一个高斯分布)。隐藏的马尔可夫模型也可以推广到允许连续状态空间。这种模型的例子是那些马尔可夫进程隐藏的变量是线性动力系统,与相关的变量之间的线性关系,所有隐藏的和观察到的变量遵循高斯分布。在简单的情况下,如线性动力系统,刚才提到的,精确的推断是听话的(在这种情况下,使用kalam滤波);然而,在一般情况下,连续的潜变量模型的精确推理是不可行的,近似的方法必须使用,如拓展卡曼滤波器。隐藏的马尔可夫模型建立模型,其中联合分布观察和隐藏的状态,或等价的先验分布隐藏状态(的转移概率)和条件分布观察的状态(发射概率),是仿照。上述算法隐含的假设在跃迁概率的先验分布。然而,它也可以创建其他类型的先验分布隐藏马尔可夫模型。一个明显的候选人,给予转移概率的分类分布,是Dirichle分布,这是共轭的类别分布。通常,一个对称的Dirichlet分布的选择,反映了无知国家本来就比别人更容易。这个分布的单参数(称为集中参数)控制产生的过渡矩阵的相对密度或稀疏。选择1产生一个均匀分布。大于1的值产生稠密矩阵,其中对状态之间的转移概率可能几乎相等。在一个稀疏矩阵的值小于1的结果,对于每一个给定的源状态,只有一小部分的目的地国家有不可忽略的转移概率。也可以使用一个两级之前的Dirichlet分布,其中一个Dirichlet分布(上分布)控制另一个Dirichlet分布的参数(低配),这反过来支配转移概率。上分布的控制状态的总体分布,确定各状态发生的可能性有多大;其浓度参数确定的态密度或稀疏。这样的两个级别的先验分布,在集中设置的参数产生稀疏分布,可能会有用,例如在词性标注在一些地方发生,讲话比别人更常见;算法假定均匀先验分布普遍表现不佳,这一任务学习。对这类模型的参数,非均匀先验分布,可以了解到使用吉布斯抽样或扩展的版本EM算法。

前面描述的隐藏的马尔可夫模型的扩展Dirichle先验信息的使用在一个Dirichlet分布的地方。这种模型允许一个未知的和潜在的无限的状态。一般使用两级Dirichlet过程,类似于先前描述的模型具有两级Dirichlet分布。这种模式被称为分层Dirichlet过程隐马尔可夫模型,或HDP-HMM短。它最初被描述的名义下“无限隐马尔可夫模式”并进一步形式化。

不同类型的推广使用判别式模型在这个地方生成模型标准模型。这种类型的模型直接模型的隐藏状态的条件分布的观测,而不是联合分布模型。这种模式的一个例子是所谓的马尔科夫的最大熵模型(MEMM),该模型的条件分布的国家使用logistic回归(也被称为“最大熵模型”)。这种模式的优点是任意的功能(即功能)的观察可以建模,允许特定的问题域知识在手被注入模型。这种模式不仅限于直接的依赖关系建模的隐藏状态和观察之间的关联;相反,附近的观测特征,对相关的观察和附近的组合观测值,或在任意观测事实在任何距离从一个给定的隐状态可以被包括在使用过程中要确定一个隐藏状态的价值。此外,不需要这些功能是统计独立,因为如果这样的功能是用于生成模型。最后,在相邻的任意特征的隐状态对可以用而不是简单的转移概率。这种模型的缺点是:(1)的先验分布,可以放置在隐藏状态的类型是非常有限的;(2)这是不可能预测看到任意观测概率。这第二限制往往不是实践的问题,由于HMM的许多常见的用法不需要这样的预测概率。

前面描述的判别模型的一个变种是线性链条件随机域。这用一个无向图模型(又名马尔科夫随机域)而不是向图形化模型的相似模型MEMM。这种模式的优点是它不会遭受所谓的标记偏置

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[30971],资料为PDF文档或Word文档,PDF文档可免费转换为Word

原文和译文剩余内容已隐藏,您需要先支付 30元 才能查看原文和译文全部内容!立即支付

以上是毕业论文外文翻译,课题毕业论文、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。