VIDEO (LANGUAGE) MODELING: A BASELINE FOR GENERATIVE MODELS OF NATURAL VIDEOS 问题:1、设计合适...

VIDEO (LANGUAGE) MODELING: A BASELINE FOR GENERATIVE MODELS OF NATURAL VIDEOS 问题:1、设计合适...
难点: 1、模型必须理解如何传播运动以及处理遮挡。 2、短期预测:从模型改进(从预测像素值改为预测动作) 3、模糊:从代价函数改进(加入GAN) 偏置假设: 1、每一时刻时间...
计划:上午调试prednet的代码,完成refine net的训练,以及多帧的训练。 下午: 看有关光流估计的paper, 以及在CaltechPedestrian数据集上测...
问题:无监督学习到的特征更好的泛化到监督训练分布之外的样例上。 任务:通过视频预测,将预测的帧作为分类器的输入,从而提高行为预测的精度。 通过视频预测生成的图像进行什么任务?
问题:CNN-based光流预测在合成的数据上表现很好,但是在真是的场景中表现不好 方法:训练中加入真实数据,进行自监督的视频预测任务。 改进方向:1、动作编码采用VAE 2...
问题: 视频预测需要捕捉:1、pixe-wise appearance. 2、motion change。然而现在的方法并不对pixel-wise motion trajec...
1、给定两帧的关节点位置信息,学习到类似光流的转换,应用到第一帧的图像上,生成下一帧? 2、身份信息并没有保留? 生成过程:通过合理地表示生成的意图控制生成过程。 条件图像生...
任务: 预测未来帧的场景分割,给定视频帧的输入序列,预测未观察到的帧的场景图。 动机: 预测像素值与预测高层次的场景相比过于复杂,然而后者对于大多数应用都已经足够。例如轨迹。...
编码-解码框架不同于: 1、先解码再编码。 2、每次对groundtruth和预测的帧之间的差进行编码,进行下一次预测。 3、多帧预测时对相邻两帧预测的差(t, t+1)进行...
动机: 之前的方法都使用固定的先验模型去提取图像的表示,但是不能根据数据调整学到的先验信息。 方法: “top-dowm”信息去改变底层的先验知识,从而进行“bottom-u...
动机: 前馈网络能够很好的训练静止图片的有监督任务,但是不一定适合视频数据。 利用人类视觉系统,构建了一个网络不仅可以bottom-up前向传播,还可以top-down反馈传...
任务: 已知N个行人的T个时刻的轨迹信息,预测接下来时刻他们的轨迹。 优点: 既考虑了行人交互间的动态信息,又考虑了行人与周围环境间的静态信息。但是方法是其他方法的累加,没有...
论文解决的问题:静态场景下估计物体最可能的运动轨迹。 Motivation: 用神经网络,对行人和周围环境进行建模(空间上下文)和行人的方向建模(时间上下文)。 估计出行人与...