词条 | 词包 |
释义 | 计算机视觉中的词包模型 *来自维基百科 这篇文章介绍了计算机视觉,特别是对象分类(object categorization)中的词包模型。下文中提到的词包模型除非特别说明都是在计算机视觉范围内。这项技术也被称为“bag of features model”。 在介绍词包模型前,我们先简单回忆下自然语言处理中的词包模型。词包在自然语言处理中是一项非常流行的代表文档的技术,它忽略了文档中词的顺序。例如,在这个模型下,“a good book”和“book good a”是一样的。词包模型应用基于词典的建模方法,每个文档像一个包(因此忽略了次序),包含了一些来着词典的词。计算机视觉的研究人员用了一个相似的思想来表示图像(这的图像可能特指一个特殊的对象,例如一张汽车的图像)。例如,把一张图像当做一个文档,从图像中提取出来的特征就相当于词(通常还需要一些额外的操作,下面会提到)。词包表示法可以作为进一步图像处理的基本步骤,如对象分类。 基于词包的文本文档表示 我们首先来回忆下自然语言处理中基于词包的文本文档表示。下面是量个简单的文本文档的示例: “John likes to watch movies.Mary likes too.” “John also likes to watch football games.” 基于这两个文本文档,我们可以构建一个词典: Dictionary={1:“John”2:“likes”3:“to”4:“watch”5:“movies”6:“also”7:“football”8:“games”9:“Mary”10:“too”} 这个词典中有10个不同的词。如果使用词典的标记,每个文档可以用一个10维的向量来表示: “[1,2,1,1,1,0,0,0,1,0]”“[1,1,1,1,0,1,1,1,0,0]” 向量的每一维数值代表了相应的词的个数(这也是直方图表示法)。我们可以看到,这种向量表示法不保持原句子中词的顺序。这种表示法有一些成功的应用,例如latent Dirichlet allocation。 基于词包模型的图像表示 为了用词包模型来表示图像,图像也可以看做一个文档。同样的,图像中的“词”也要定义。然后图像中的词不像文档中是现成的。为了得到图像中的词,通常要经历以下三个步骤,特征检测,特征描述,码本构造。词包模型也可以定义为:基于独立的特征(feature)的的直方图表示。基于内容的图像标记和检索(CBIR)是首先应用这一图像表示技术的。 特征检测 给定一副图像,特征检测就是要提取出图像中的一些片(或者叫区域),这些就认为是基本元素词的候选者。 规则网格 规则网格可能是最简单有效的提取特征的方法。在这种方法中,图像被平均分成一些快。这个方法得到了非常好的自然场景分类的结果。该方法的缺陷就是它基本上没有使用图像本身的内容。 感兴趣点的检测 感兴趣点检测器检测的是显著的片,例如边、角等。我们认为这些显著的片比其他片更重要,例如能够吸引人注意的片对于对象分类来说就更重要。一些著名的检测子有Harris affine region detecto,Lowe的DoG算子,Kadir Brady saliency detector。 另一些方法 另外,研究人员也使用随机抽样和图像分割方法(例如Normalized Cut)来进行特征检测。 特征表示 进行过特征检测之后,每个图像就被抽象成了一些局部的片。特征表示要解决的问题就是如何把这些片表示成数字化的向量。这些方法就被称为特征描述。好的特征描述方法能够在一定程度上处理饱和度、旋转、尺度和仿射等变换。最著名的描述子要数scale-invariant feature transform(SIFT)了。SIFT把每个小片吃转换真128维的向量。这一步之后,每个图像就是一些128维向量的组合了,不同的向量的顺序都已不再重要了。 码本生成 词包模型的最后一步就是把向量表示的片转换成codewords(类比于文本文档中的词),同时也生成一个码本(词典)。一个codeword可以认为是一些相似的片的一个代表。一个简单的方法就是应用k均值聚类对于所有的向量。然后codeword就指定为聚类的中心。聚类簇的个数就是码本的长度。 至此,图像中的每个片经过聚类过程都被映射到了一个codeword上了,这样图像就可以用codeword的直方图来表示。 基于词包模型的学习和识别 计算机视觉的研究人员已经提出了一些学习方法来利用BoW模型来进行和图像相关的任务,比如对象分类。这些方法大体上可以分为两类:generative and discriminative models。对于多标签分类问题,confusion matrix 能用作评价准则。 Generative Models 以下是这一节的一些标记。假设码本的长度是V。 。。。 |
随便看 |
百科全书收录4421916条中文百科知识,基本涵盖了大多数领域的百科知识,是一部内容开放、自由的电子版百科全书。