师资队伍

首页  师资队伍  教职工概况  于超  中文信息
头像

于超

助理教授博士生导师

电话: 15652601306

邮箱:

地址: 信息楼1108

  • 个人简历
  • 教学
  • 研究领域
  • 研究成果
  • 奖励荣誉
  • 概况

    于超,2023年博士毕业于清华大学电子工程系,现任清华大学深圳国际研究生院助理教授(特聘研究员),入选中国电子学会青年人才托举工程。长期从事基于强化学习的决策智能研究。以第一作者或通讯作者在ICML、NeurIPS、ICLR、CVPR、ECCV、CoRL、IROS、ICRA、TMLR、RAL等国际高水平会议与期刊发表论文50余篇,谷歌学术引用超过5500次。代表性成果包括多智能体强化学习算法MAPPO(谷歌学术引用超2800次)以及面向具身智能的大规模强化学习训练框架RLinf(GitHub Star超2600)。


    教育经历

    20198-20237清华大学,电子工程系,博士

    20168-20197月,清华大学,机械工程系,硕士

    20128-20167月,北京理工大学,自动化学院,学士


    工作经历

    20261月-至今,清华大学,助理教授

    2023年7月-2025年12月,清华大学,博士后


    学术兼职

    社会兼职

  • 教学课程

    研究生指导

  • 研究领域

    于超的研究方向聚焦于基于强化学习的决策智能,主要包括大规模强化学习框架、多智能体强化学习算法以及具身智能等方向。迄今为止,她已在国际顶级会议和期刊上发表论文50余篇,Google Scholar 总引用次数超过5500次。作为第一作者,她提出的多智能体强化学习算法 MAPPO 相关论文发表于 NeurlPS 2022,目前已获得超过2800次引用。作为共同通讯作者,她在ICML2024 发表的大模型对齐方向论文被评选为 Oral Presentation(前1.5%)。近年来,她主导的面向具身智能的开源强化学习框架 RLinf,在 GitHub 上已获得超过2600 Star。

    于超曾获清华大学优秀博士毕业生、清华大学优秀博士论文奖。博士后期间入选清华大学“水木学者”计划,入选中国电子学会青年人才托举工程。主持国家自然科学基金青年项目、博士后特别资助项目和面上项目、以及多个企业横向项目。


    主要项目

    [1] 基于深度强化学习的多无人机追逃博弈决策和控制关键技术研究,国家自然科学基金委,青年科学基金项目(C类),2025-2027.

    [2] 多机协同高效机器学习系统研究, 国家自然科学基金-中德合作交流基金,2021-2025

    [3] 具有强推理能力的大语言模型智能体关键技术研究中国博士后基金特别资助,2023-2025


  • 代表性论文

    [1] Chao Yu*, Akash Velu*, Eugene Vinitsky, Jiaxuan Gao, Yu Wang+, Alexandre Bayen+, Yi Wu+.

    The Surprising Effectiveness of PPO in Cooperative Multi-agent Games. in Advances in Neural

    Information Processing Systems (NeurIPS), 2022.

    [2] Chao Yu, Zuxin Liu, Xin-Jun Liu, Fugui Xie, Yi Yang, Qi Wei, Fei Qiao. DS-SLAM: A semantic

    visual SLAM towards dynamic environments. In International Conference on Intelligent Robots and

    Systems (IROS), 2018.

    [3] Shusheng Xu , Wei Fu, Jiaxuan Gao , Wenjie Ye, Weilin Liu, Zhiyu Mei, Guangju Wang, Chao Yu+, Yi Wu+. Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study. in International Conference on Machine Learning (ICML), 2024. 

    [4] Tonghe Zhang, Chao Yu+, Sichang Su, Yu Wang. ReinFlow: Fine-tuning Flow Matching Policy

    with Online Reinforcement Learning. in Advances in Neural Information Processing Systems (NeurIPS) 2025.

    [5] Zelai Xu, Chao Yu, Fei Fang, Yu Wang+, Yi Wu+. Language Agents with Reinforcement Learning for Strategic Play in the Werewolf Game. in International Conference on Machine Learning (ICML), 2024.

    [6] Chao Yu*, Jiaxuan Gao*, Weilin Liu, Botian Xu, Hao Tang, Jiaqi Yang, Yu Wang, Yi Wu. Learning Zero-Shot Cooperation with Humans, Assuming Humans Are Biased. in International Conference on Learning Representations (ICLR), 2023.

    [7] Zhenggang Tang*, Chao Yu*, Boyuan Chen, Huazhe Xu, Xiaolong Wang, Fei Fang, Simon Du, Yu Wang, Yi Wu. Discovering Diverse Multi-agent Strategic Behavior Via Reward Randomization. In

    International Conference on Learning Representations (ICLR), 2021.

    [8] Botian Xu, Feng Gao, Chao Yu+, Ruize Zhang, Yi Wu, Yu Wang+. OmniDrones: An Efficient

    and Flexible Platform for Reinforcement Learning. in Drone Control. in IEEE Robotics and

    Automation Letters (RAL), 2024.

    [9] Jijia Liu*, Feng Gao*, Bingwen Wei, Xinlei Chen, Qingmin Liao, Yi Wu, Chao Yu+, Yu Wang+. What Can RL Bring to VLA Generalization? An Empirical Study. in Advances in Neural Information Processing Systems (NeurIPS), 2025. 

    [10] Jijia Liu, Feng Gao, Qingmin Liao, Chao Yu+, Yu Wang+. Learning from Suboptimal Data in Continuous Control via Auto-Regressive Soft Q-Network. in International Conference on Machine Learning (ICML), 2025. 

    [11] Yixian Zhang*, Shu'ang Yu*, Tonghe Zhang, Mo Guang, Haojia Hui, Kaiwen Long, Yu Wang, Chao Yu+, Wenbo Ding+. SAC Flow: Sample-Efficient Reinforcement Learning of Flow-Based Policies via Velocity-Reparameterized Sequential Modeling. in International Conference on Learning Representations (ICLR), 2026.

    [12] Chao Yu, Xinyi Yang, Jiaxuan Gao, Jiayu Chen, Yunfei Li, Jijia Liu, Yunfei Xiang, Ruixin

    Huang, Huazhong Yang, Yi Wu, Yu Wang. Asynchronous Multi-Agent Reinforcement Learning for

    Efficient Real-time Multi-robot Cooperative Exploration. In International Conference on Autonomous

    Agents and Multi-agent Systems (AAMAS), 2023.

    代表性著作

    主要专利成果

    (1) 阳欣怡; 汪玉; 杨雨翔; 于超; 杨华中; 多智能体的环境探索方法、装置、电子设备及存储介质,

    2024-06-14, 中国, ZL202211067341.1

    (2) 汪玉; 高枫; 于超; 吴翼; 基于预测误差反馈的鲁棒强化学习控制方法及装置, 2025-09-19, 中国,

    ZL202411905779.1

    (3) 于超; 吴翼; 汪玉; 阳欣怡; 高嘉煊; 多智能体的环境探索方法、装置、系统、智能体及介质, 2025-

    07-08, 中国, ZL202211080551.4


    其他成果

  • 荣誉奖项

    清华大学优秀博士毕业生(5%,校100人,系4人)

    清华大学优秀博士论文(10%,校200人,系9人)

    清华大学优秀硕士论文(10%,校200人,系8人)

    2024年度中国智能体与多智能体系统优秀博士论文提名奖(5人)

    国家奖学金

    清华大学“水木学者”计划

    电子系“传信未来学者”计划

    张克潜冠名博后


版权所有@清华大学深圳国际研究生院 京ICP备15006448号 京公网安备 110402430053 号