研究方向一:MER(Music Emotion Recognition,音乐情感识别)
音乐是情感的语言,音乐情感识别广泛应用于推荐系统、自动音乐创作、心理治疗、音乐可视化等领域。随着人工智能的快速发展,基于深度学习的音乐情感识别也逐渐成为研究热点。主要研究如何利用深度学习技术提取和分析音乐特征,形成音乐特征与情绪空间的映射关系,识别音乐表达的情绪。音乐特征通常是从音频信号、频谱图、数字乐谱等数据中提取出来的。情感空间用有限数量的离散类别或连续多维空间中的无限个点来表示。本人主要研究优化的深度学习模型能够进行音乐的分类、回归及生成等,从准确度、多样化角度服务于音乐推荐、检索、可视化、自动作曲、心理治疗等领域。
研究方向二:HMG(Human Motion Generation,3D人物动作生成)
动作生成在诸多领域都有其应用价值,例如电影制作、视频游戏、AR/VR、人机交互和数字人。主要研究基于给定条件的人体运动生成,条件包括文本、音频和场景条件。在生成目标方面,结合不同类型的人体运动表示方法,如2D/3D人体关键帧序列,关节旋转序列,参数化人体模型序列。本人主要研究通过改进Transformer、Diffusion模型,以一种无监督的方式建模运动的潜在分布,从多样化、个性化角度满足动作序列的生成质量要求。
研究方向三:迭代计算(Iterative Computing)
迭代算法是用计算机解决问题的一种基本方法。重复指令经过迭代计算后会产生复杂的行为,衍生出具有难度的问题。因此,迭代计算模型是机器学习算法的通用计算模型。给机器学习算法的执行带来了适应性挑战:一是如何适应海量数据;二是如何适应时变数据。本人主要研究区别于“全集数据上分区分步、副本容错”的迭代计算模型,可复用迭代计算模型。在数据海量时通过任务分配和数据布局减少迭代步内数据交互,提高可靠性和性能;在数据变化时当前步重用历史步的迭代结果,提高重用性和性能。