公告:
变换规则 您当前所在位置:北京pk10计划在线计划 > 变换规则 > 正文

1. πj 是归一化的

来源:未知作者:admin 更新时间:2018-04-18 11:27
大师都晓得,像 Hinton 这些开山祖师级的人物,一般颁发出来的成果都是比力重磅的。那么,这篇新论文有什么特色呢? 让我们先来回忆一下上一篇引见再来一顿贺岁宴 从K-Means到Capsule中的阿谁图: 上图表白,Capsule 现实上描述了一个建模的框架,这个框架中

  大师都晓得,像 Hinton 这些“开山祖师级”的人物,一般颁发出来的成果都是比力“重磅”的。那么,这篇新论文有什么特色呢?

  让我们先来回忆一下上一篇引见再来一顿贺岁宴 从K-Means到Capsule中的阿谁图:

  上图表白,Capsule 现实上描述了一个建模的框架,这个框架中的工具良多都是能够自定义的,最较着的是聚类算法,能够说“有几多种聚类算法就有几多种动态路由”。

  那么此次 Hinton 点窜了什么呢?总的来说,这篇新论文有以下几点新工具:

  现实上,看到笔者提出的这三点新工具,读者该当就会有良多设法和疑问了,好比:

  其实是有点区此外。好比一个 4×4 的矩阵,跟一个 16 维的向量,有什么不同呢?谜底是矩阵的分歧位置的元素主要性纷歧样,而向量的每个元素的主要性都是一样的。

  熟悉线性代数的读者该当也能够感受到,一个矩阵的对角线元素的地位“看起来”是比其他元素要主要一些的。

  从计较的角度看,也能发觉区别:要将一个 16 维的向量变换为别的一个 16 维的向量,我们需要一个 16×16 的变换矩阵;但若是将一个 4×4 的矩阵变换为别的一个 4×4 的矩阵,那么只需要一个 4×4 的变换矩阵,参数量削减了。

  从这个角度看,也许将 Capsule 从向量变为矩阵的底子目标是降低计较量。

  这个得从两个角度看。一方面,GMM 能够当作是 K-Means 的升级版,并且它本身就是可导的,不需要之前的“软化”技巧,若是在 K-Means 中利用欧氏距离的话,那么 K-Means 就是 GMM 的一个极限版本。

  但另一方面,K-Means 答应我们更矫捷地利用其他类似的怀抱,而 GMM 中相当于只能用(加权的)欧氏距离,也就是把怀抱“写死”了,也是个错误谬误。总的来说,两者各有千秋吧。

  我们所说的动态路由,现实上就只相当于深度进修中的全毗连层,而深度进修中的卷积层则是局部的全毗连层。那么很明显,只需要弄个“局部动态路由”,那么就获得了 Capsule 版的卷积了。

  这个工具现实上在 Hinton 上一篇论文就该当呈现,由于它跟具体的路由算法并没相关系,但不知为何,Hinton 在这篇新论文才实现了它。

  既然这篇新论文用到了 GMM 来聚类,那么只需花点功夫来进修一下 GMM 了。理解 GMM 算法是一件很是成心思的工作,哪怕不是由于 Capsule——由于 GMM 模子可以或许大大加深我们对概率模子和机械进修理论(特别是无监视进修理论)的理解。

  当然,只想理解 Capsule 焦点思惟的读者,能够有选择地跳过比力理论化的部门。

  现实上,在我们脑海里最好不要将 GMM 视为一个聚类算法,而将它看作一个真正的无监视进修算法,它试图进修数据的分布。数据本身是个别,而分布则是一个全体,从研究数据本身到研究数据分布,是质的改变。

  具体来说,对于已有的向量 x1,…,xn,GMM但愿找到它们所满足的分布 p(x)。当然,不克不及漫无目标地找,得整一个比力简单的形式出来。GMM 设想这批数据能分为几部门(类别),每部门零丁研究,也就是:

  此中 j 代表了类别,取值为 1,2,…,k,因为 p(j) 跟 x 不妨,因而能够认为它是个常数分布,记 p(j)=πj。然后 p(xj) 就是这个类内的概率分布,GMM 的特征就是用概率分布来描述一个类。

  那么它取什么好呢?我们取最简单的正态分布,留意这里 x 是个向量,因而我们要考虑多元的正态分布,一般形式为:

  抱负的方式是最大似然估量,然而它并没有解析解,因此需要转化为一个 EM 过程,但即便如许,求解过程也比力难理解(涉及到行列式的求导)。

  这里给出一个比力简单了然的推导,它基于如许的一个现实——对于正态分布来说,最大似然估量跟前两阶矩的矩估量成果是一样的。

  说白了,μj,Σj 不就是正态分布的均值(向量)和(协)方差(矩阵)嘛,我间接按照样本算出对应的均值和方差不就行了吗?

  没那么简单,由于我们所假设的是一个正态分布的夹杂模子,若是间接算它们,获得的也只是夹杂的均值和方差,没法获得每一类的正态分布 p(xj) 的均值和方差。

  此中 p(jx) 的表达式在 (4) 曾经给出。雷同地,对于协方差矩阵,我们有:

  理论上,我们需要求解 (6),(7),(9) 形成的一个庞大的方程组,但如许是难以操作的,因而我们能够迭代求解,获得迭代算法:

  此中为了凸起加权平均的特点,上述迭代过程先将 (9) 式作了恒等变换然儿女入 (6),(7) 式。在上述迭代过程中,第一式称为 E 步,后三式称为 M 步,整个算法就叫做 EM 算法。

  下面放一张网上搜刮而来的动图来展现 GMM 的迭代过程,能够看到 GMM 的益处是能识别出一般的二次曲面外形的类簇,而 K-Means 只能识别出球状的。

  在 Capsule 中现实上利用了一种愈加简单的 GMM 形式,在前面的会商中,我们利用了一般的正态分布,也就是 (2) 式,但如许要算逆矩阵和矩阵的行列式,计较量颇大。

  一个较为简单的模子是假设协方差矩阵是一个对角阵 Σj=diagσj,σj 是类别 j 的方差向量,此中暗示该向量的第l个分量。如许相当于将x的各个分量解耦了,认为各个分量是独立的,(2) 式就变为:

  更极端地,我们让 σ→0 呢?这时指数内的括号为无限大,对于每个 xi,只要的阿谁N(xi;μj,σ) 占主导感化,这时候按照 (4) 式,p(jxi) 非零即 1(即便得最小的阿谁j的p(jxi)为 1,其余为 0)。

  这表白肆意一个点只属于距离它比来的阿谁聚类核心,这就跟利用欧氏距离的 K-Means 分歧了,所以说,基于欧氏距离的 K-Means 能够看作是 GMM 的一个极限。

  不得不说,新论文里边的符号用得乌烟瘴气,也许可以或许在一堆紊乱的符号中看到谬误才是真正的大牛吧。这里连系网上的一些科普材料以及作者本人的阅读,给出一些理解。

  论文中 Capsule 的矩阵是 4×4 的,称之为 Pose 矩阵。然后呢,就能够起头 GMM 的过程了,在做 GMM 的时候,又把矩阵当成向量了,所以在 EM 路由那里,Pi 就是向量,即 d=16 。整个过程用的是简化版的 GMM,也就是把协方差矩阵商定为一个对角阵。

  在《Dynamic Routing Between Capsules》一文中,是通过向量的模长来暗示该特征的显著程度,那么在这里还能够如许做吗?

  谜底能否定的。由于我们利用了 GMM 进行聚类,GMM 是基于加权的欧氏距离(素质上仍是欧氏距离),用欧氏距离进行聚类的一个特点就是聚类核心向量是类内向量的(加权)平均(从上面MjMj的迭代公式就能够看出)。

  既然是平均,就不克不及表现“小弟越多,势力越大”的特点,这我们在再来一顿贺岁宴 从K-Means到Capsule中就曾经会商过了。

  既然 Capsule 的模长曾经没法权衡特征的显著性了,那么就只很多多少加一个标量 a 来作为该 Capsule 的显著性。所以,这篇论文中的 Capsule,现实上是“一个矩阵 + 一个标量”,这个标量被论文称为“激活值”,如图:

  作为 Capsule 的显著程度,aj 最间接的选择该当就是 πj,由于 l+1 层的 Capsule 就是聚类核心而 πj 就代表着这个类的概率。

  1. πj 是归一化的,而我们但愿获得的只不外是特征本身的显著程度,而不是跟其他特征比拟后的相对显著程度(更通俗点,我们但愿做多个二分类,而不是一个多分类,所以不需要全体归一化)。

  2. πj 确实能反映该类内“小弟”的几多,但人多不必然力量大,还要连合才行。那么这个激活值该当怎样取呢?论文给出的公式是:

  我相信良多读者看到这个公式和论文中的“推导”后,仍是不知所云。现实上,这个公式有一个很是标致的来历——消息熵。

  此刻我们用 GMM 来聚类,成果就是获得一个概率分布 p(Xj) 来描述一个类,那么这个类的“不确定性程度”,也就能够权衡这个类的“连合程度”了。

  说更直白一点,“不确定性”越大(意味着越接近平均分布),申明这个类可能还处于动荡的、各自为政的年代,此时激活值该当越小;“不确定性”越小(意味着分布越集中),申明这个类曾经连合分歧步入现代化,此时激活值该当越大。

  因而能够用不确定性来描述这个激活值,而我们晓得,不确定性是用消息熵来怀抱的,所以我们写出:

  ,所以论文中的cost就是熵,多直观清晰的寄义。并且熵越小越好,这也是多天然的逻辑。

  为什么不间接积分算出正态分布的熵,而是要如许曲折地算?由于间接积分算出来是理论成果,我们这里要按照这批数据本身算出一个关于这批数据的成果。

  由于熵越小越显著,所以我们用 −Sj 来权衡特征的显著程度,但又想将它压缩为 0~1 之间。那么能够对它做一些简单的标准变换后用 sigmoid 函数激活:

  (15) 式和 (13) 式根基是等价的,上式相当于 −Sj 和 πj 的加权乞降,也就是分析考虑了 −Sj(连合)和 πj(人多)。

  此中 βa,βu 通过反向传布优化,而 λ 则跟着锻炼过程慢慢增大(退火策略,这是论文的选择,我认为是不需要的)。

  βa,βu 可能跟 j 相关,也就是可认为每个上层胶囊都分派一组锻炼参数 βa,βu。说“可能”是由于论文底子就没说清晰,大概读者能够按照本人的尝试和需求调整。

  有了 aj 的公式后,由于我们前面也说 aj 和 πj 有必然配合之处,它们都是类的某种权重,于是为了使得整个路由流程更紧凑,Hinton 干脆间接用 aj 替代掉 πj,如许替代虽然不克不及完全对应上原始的 GMM 的迭代过程,但也能收敛到雷同的成果。

  这该当就是最终的新的动态路由算法了,若是我没理解错的话,由于原论文其实太难看懂。

  最初,跟前一篇文章一样,给每对目标 (i,j) 配上一个权重矩阵 Wij(称为视觉不变矩阵),获得“投票矩阵”Vij=PiWij,然后再前进履态路由,获得最初的动态路由算法:

  颠末如许一番理解,该当能够感受到这个新版的 Capsule 及其路由算法并不复杂。

  新论文的要点是利用了 GMM 来完成聚类过程,GMM 是一个基于概率模子的聚类算法。

  紧抓住“概率模子”这一特征,寻找概率相关的量,就不难理解 aj 表达式的来历,这该当是理解整篇论文最坚苦的一点;而用矩阵取代向量,该当只是一种降低计较量和参数量的方案,并无本量变化。

  只不外新论文传承了旧论文的艰涩难懂的表达体例,加上紊乱的符号利用,使得我们的理解难度大大添加,再次诟病作者们的文笔。

  到此刻,终究算是把《Matrix Capsules with EM Routing》梳理清晰了,至于代码就不写了,由于现实上我小我并不是出格喜好这个新的 Capsule 和动态路由,不想再造轮子了。

  这是我的关于 Capsule 理解的第三篇文章。相对于笔者的其他文章而言,这三篇文章的篇幅算得上是“庞大”,它们承载了我对 Capsule 的思虑和理解。每一篇文章的撰写都要花上好几天的时候,试图尽可能理论和通俗文字相连系,尽可能把前因后果都梳理清晰。

  但愿这些文字能协助读者更快速地舆解 Capsule。当然,作者程度无限,若是有什么误导之处,接待留言攻讦。

  当然,更但愿 Capsule 的作者们能用更直观、更具开导性的言语来引见他们的新理论,这就省下了我们这些科普者的不少功夫了。重庆时时彩大小单双安卓软件开发教程时时彩下分版手机软件

关于我们
联系我们
  • 杭州浩博建筑装饰工程有限公司
  • 联系地址:杭州市益乐路方家花苑43号2楼
  • 电 话:0571-85360638
  • 传 真:0571-85360638