张海翔
- 作品数:3 被引量:3H指数:1
- 供职机构:浙江理工大学信息电子学院更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于LSTM-CBAM的音视频同步人脸视频生成被引量:1
- 2023年
- 语音驱动的人脸视频生成是指通过视觉与听觉双模态的输入来生成唇音同步的高自然度人脸视频。人脸视频生成任务的主要挑战是如何在保证人脸面部真实性的同时,生成语音同步且连贯的人脸视频。传统方法仅将其考虑为多个单帧的视频生成,而不考虑视频帧间的时序关系,从而导致生成的视频存在不连贯性,容易出现像素抖动问题。本文提出了基于LSTM-CBAM的音视频同步生成模型来生成唇音同步的人脸视频,通过LSTM模块处理音频数据,可以对音频数据进行更好地特征编码,通过CBAM模块来推断网络中的注意力映射,可以实现对音频信息与人脸口型信息的特征细化,从而生成音频与人物口型同步的视频。实验结果表明,本文生成的人脸视频连续自然,指标较优。
- 洪学敏张海翔
- 关键词:语音驱动
- 感知二步插值标定方法研究被引量:2
- 2011年
- 为提高标定效率及标定精度,提出了感知二步插值标定方法。该方法抛弃通过人工测量来调整实验平台与标定面之间位置关系的方法,让计算机具备感知CCD光轴与标定平面法线间偏差的能力来弥补人工测量的不足。在标定过程中,通过提取图像角点的亚像素坐标,直接建立了成像面上角点与世界坐标之间的对应关系,最后根据已知角点插值得到了平面上任一点的世界坐标,并进行了实际平面符号图的检测试验。试验结果表明:该方法提高了标定速度及标定精度,为三维重建奠定了基础。
- 史明强张海翔鲁正胡恢军喻擎苍
- 关键词:结构光插值亚像素
- 基于图卷积的手势骨架生成
- 2021年
- 目前手势生成的工作多用于从语音或文本中产生协同的手势以及实现手势数据增强。前者作为非语言信号辅助交流,却难以单独表达语义。对于后者,大多数都是将骨骼关节点当作图像的一个像素,整体当作图像处理,而没有考虑到关节点间丰富的人体结构信息,从而可能导致生成的结果是扭曲的、不自然的。本文提出了基于图卷积的生成式模型,以有效地编码结构信息到手势生成中。研究中将本文的方法与基于全连接神经网络以及基于卷积神经网络的方法进行了对比,实验结果表明,本文生成的手势在定量和定性结果上有了明显的改善。图卷积在手势骨架生成上的成功应用,可以进一步指导手势骨架到真实手势的生成工作,因而对生成自然、真实的手势有重要意义。
- 曾瑞张海翔马汉杰蒋明峰冯杰