目录
在机器学习中,这些来自不同异构源的数据类型称为多模态数据,如语音识别中的音频和视觉信息。由于多模态数据可能由不同维度和类型的数据构成,往往难以在训练中直接使用。因此许多研究致力于解决多模态数据的通用表示。
学习多视图数据的通用表示有助于若干下游应用,如对视频及其对应的音频的通用表示进行学习,相比于单纯使用音频而言可以生成更加精确的字幕。
尝试学习两种数据视图的共同表示,并且从该编码表示重构两种视图。
相关神经网络(CorrNet)是学习通用表示的一种方法。它的架构与传统的单视图深度自动编码器几乎相同。但它为每种数据模态都构建了编解码对。