本申请涉及数据处理技术领域,提供一种音视频的合成方法及系统。所述方法包括:根据视频内容特征生成情绪特征序列,通过视频配音特征获得配音振幅特征序列和配音频率特征序列,基于情绪特征序列获得待合成音频优化结果,根据配音振幅特征序列和配音频率特征序列,对待合成音频优化结果进行调整,生成多个待合成音频特征序列并发送至合成管理终端进行音视频合成。采用本方法能够解决现有技术中存在视音频合成时音频素材选取依赖于剪辑创作人员经验,存在音频素材选取与视频内容适配度不足导致所合成视频感官效果较差的技术问题。实现了提高所选音频素材与视频内容适配度,优化合成视频感官体验的技术效果。