|
|
| |
| |
职位描述 用小程序查看更多 |
|
职位描述 1、设计、构建、训练和优化面向机器人交互场景的端到端多模态大模型架构; 2、探索和实现模型对多模态输入(语音、文本、图像/视频、深度信息、传感器数据、环境上下文等)的深度融合与理解; 3、研发模型生成多模态输出(语言语音、情绪、表情、移动、行为动作等)的能力,确保输出的一致性与自然性; 4、重点攻克人机交互闭环中的关键问题:上下文记忆与理解、意图识别与澄清、个性化交互、情感感知与表达、长时程对话一致性、任务导向交互等;
职位要求 1、本科及以上学历,计算机、人工智能、电子、数学等相关专业;博士优先 2、出色的问题分析和解决能力,自主探索新解决方案的能力强; 3、关注生成式AI和多模态交互技术,对推动人形机器人智能化有热情; 4、熟悉VLM/VLA/VLP/MLM等多模态任务建模、具备跨模态模型设计与训练经验; 5、理解多模态对齐(如cross-attention、token-levelalignment)、条件生成、多模态融合机制;
加分项 1、有端到端多模态大模型研究经验,或实际落地应用项目经验者; 2、在CVPR、NeurIPS、ICLR、ACL等会议发表多模态相关工 |
|
| |
|
|
| |
|