2022级
郎浩然(2022级)
毕业院校:上海科技大学/计算机科学与技术
研究方向:计算机视觉、视频生成与编辑
研究内容:主要研究领域为计算机视觉,其中重点关注的研究方向是视频生成。主要工作涉及使用深度学习方法生成高质量的时序视频内容,探索在生成过程中如何保持视频的连续性和一致性。通过结合最新的生成模型和条件约束,该研究旨在提升视频生成的质量和效率,解决复杂场景下的多样性和动态变化问题。
祖伟钦 (2022级)
毕业院校:上海科技大学/计算机科学与技术专业
研究方向:基于大模型的机器人导航,多智能体强化学习
研究内容:通过结合语言和手绘等多模态输入,提升用户交互体验;利用大型语言模型(LLM)的语言理解能力,将社交环境中的任务解析为点对点导航,并通过单一训练模型处理多任务,采用强化学习获取局部避障策略。引入异构多智能体强化学习算法,增强多智能体在多任务环境下的协作导航能力,依托LLM的文本理解,实现任务要求的精准分析与智能分配,提升智能体的环境感知,更好应对多变环境。
2023级
王彦聪(2023级)
毕业院校:上海科技大学/计算机科学与技术专业
研究方向:具身智能与三维场景理解
研究内容:机械臂操纵任务需要对场景的三维结构有深刻的理解。通过引入新视角合成的方法,能够获取任务场景的3D结构、物体语义和时空动力学等重要信息,并可用于机器人的训练,使其更高效地完成指定任务。
2024级
靳子源(2024级)
毕业院校:桂林电子科技大学/智能科学与技术
研究方向:生成模型、多模态Agent
研究内容:在生成模型领域主要研究如何解决视频/图片生成过程中的时空一致性问题,如桌面物体整理中前后物品的时空一致性保持、高度一致性的生成动漫模型。在多模态Agent领域中重点关注如何搭建一套Agent App系统,使其具备帮助用户操作Windows的能力。
葛宇轩
毕业院校:上海科技大学/计算机科学与技术专业
研究方向:多模态大模型推理
研究内容:多模态大模型是通向通用人工智能的重要一步,但目前多模态大模型在模态融合、推理方法上的缺陷,仍旧很难完成一些在人类看来并不困难的视觉问题;通过对于编码器、连接模块等方面的研究,期望能够弥合不同模态之间的差距,提高模型在多模态推理问题上的性能。
叶恒炜
毕业院校:上海科技大学/计算机科学与技术专业
研究方向:多模态大语言模型、多智能体系统、游戏智能体
研究内容:建立标准化的基准来评估大语言模型在多模态游戏任务中的复杂视觉推理性能;基于检索增强生成,提高多智能体系统中的信息传输效率。
殷康宁
毕业院校:哈尔滨工业大学/智能车辆工程
研究方向:人体动作生成,人形机器人
研究内容:利用生成模型,根据用户输入的文字,视频等信息生成相应的人体运动动作。将这些动作重定向到人形机器人身上以作为人形机器人的训练数据,利用模仿学习+强化学习的方法让人形机器人学会各种人能做出来的动作。