To Top
首页 > 深度学习 > 正文

CorrNet

标签:CorrNet, 多模态


目录

基于Keras的关联神经网络CorrNet综合指南

在机器学习中,这些来自不同异构源的数据类型称为多模态数据,如语音识别中的音频和视觉信息。由于多模态数据可能由不同维度和类型的数据构成,往往难以在训练中直接使用。因此许多研究致力于解决多模态数据的通用表示。

学习多视图数据的通用表示有助于若干下游应用,如对视频及其对应的音频的通用表示进行学习,相比于单纯使用音频而言可以生成更加精确的字幕。

尝试学习两种数据视图的共同表示,并且从该编码表示重构两种视图。

相关神经网络(CorrNet)是学习通用表示的一种方法。它的架构与传统的单视图深度自动编码器几乎相同。但它为每种数据模态都构建了编解码对。


原创文章,转载请注明出处!
本文链接:http://daiwk.github.io/posts/dl-corrnet.html
上篇: concept activation vector(概念激活向量)
下篇: HSIC-bottleneck

comment here..