电话: 15652601306
邮箱: yuchao@sz.tsinghua.edu.cn
地址: 信息楼1108
于超,2023年博士毕业于清华大学电子工程系,现任清华大学深圳国际研究生院助理教授(特聘研究员),入选中国电子学会青年人才托举工程。长期从事基于强化学习的决策智能研究。以第一作者或通讯作者在ICML、NeurIPS、ICLR、CVPR、ECCV、CoRL、IROS、ICRA、TMLR、RAL等国际高水平会议与期刊发表论文50余篇,谷歌学术引用超过5500次。代表性成果包括多智能体强化学习算法MAPPO(谷歌学术引用超2800次)、以及面向具身智能的大规模强化学习训练框架RLinf(GitHub Star超2600)。
2019年8月-2023年7月,清华大学,电子工程系,博士
2016年8月-2019年7月,清华大学,机械工程系,硕士
2012年8月-2016年7月,北京理工大学,自动化学院,学士
2026年1月-至今,清华大学,助理教授
2023年7月-2025年12月,清华大学,博士后
于超的研究方向聚焦于基于强化学习的决策智能,主要包括大规模强化学习框架、多智能体强化学习算法以及具身智能等方向。迄今为止,她已在国际顶级会议和期刊上发表论文50余篇,Google Scholar 总引用次数超过5500次。作为第一作者,她提出的多智能体强化学习算法 MAPPO 相关论文发表于 NeurlPS 2022,目前已获得超过2800次引用。作为共同通讯作者,她在ICML2024 发表的大模型对齐方向论文被评选为 Oral Presentation(前1.5%)。近年来,她主导的面向具身智能的开源强化学习框架 RLinf,在 GitHub 上已获得超过2600 Star。
于超曾获清华大学优秀博士毕业生、清华大学优秀博士论文奖。博士后期间入选清华大学“水木学者”计划,入选中国电子学会青年人才托举工程。主持国家自然科学基金青年项目、博士后特别资助项目和面上项目、以及多个企业横向项目。
[1] 基于深度强化学习的多无人机追逃博弈决策和控制关键技术研究,国家自然科学基金委,青年科学基金项目(C类),2025-2027.
[2] 多机协同高效机器学习系统研究, 国家自然科学基金-中德合作交流基金,2021-2025
[3] 具有强推理能力的大语言模型智能体关键技术研究,中国博士后基金特别资助,2023-2025
[1] Chao Yu*, Akash Velu*, Eugene Vinitsky, Jiaxuan Gao, Yu Wang+, Alexandre Bayen+, Yi Wu+.
The Surprising Effectiveness of PPO in Cooperative Multi-agent Games. in Advances in Neural
Information Processing Systems (NeurIPS), 2022.
[2] Chao Yu, Zuxin Liu, Xin-Jun Liu, Fugui Xie, Yi Yang, Qi Wei, Fei Qiao. DS-SLAM: A semantic
visual SLAM towards dynamic environments. In International Conference on Intelligent Robots and
Systems (IROS), 2018.
[3] Shusheng Xu , Wei Fu, Jiaxuan Gao , Wenjie Ye, Weilin Liu, Zhiyu Mei, Guangju Wang, Chao Yu+, Yi Wu+. Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study. in International Conference on Machine Learning (ICML), 2024.
[4] Tonghe Zhang, Chao Yu+, Sichang Su, Yu Wang. ReinFlow: Fine-tuning Flow Matching Policy
with Online Reinforcement Learning. in Advances in Neural Information Processing Systems (NeurIPS) 2025.
[5] Zelai Xu, Chao Yu, Fei Fang, Yu Wang+, Yi Wu+. Language Agents with Reinforcement Learning for Strategic Play in the Werewolf Game. in International Conference on Machine Learning (ICML), 2024.
[6] Chao Yu*, Jiaxuan Gao*, Weilin Liu, Botian Xu, Hao Tang, Jiaqi Yang, Yu Wang, Yi Wu. Learning Zero-Shot Cooperation with Humans, Assuming Humans Are Biased. in International Conference on Learning Representations (ICLR), 2023.
[7] Zhenggang Tang*, Chao Yu*, Boyuan Chen, Huazhe Xu, Xiaolong Wang, Fei Fang, Simon Du, Yu Wang, Yi Wu. Discovering Diverse Multi-agent Strategic Behavior Via Reward Randomization. In
International Conference on Learning Representations (ICLR), 2021.
[8] Botian Xu, Feng Gao, Chao Yu+, Ruize Zhang, Yi Wu, Yu Wang+. OmniDrones: An Efficient
and Flexible Platform for Reinforcement Learning. in Drone Control. in IEEE Robotics and
Automation Letters (RAL), 2024.
[9] Jijia Liu*, Feng Gao*, Bingwen Wei, Xinlei Chen, Qingmin Liao, Yi Wu, Chao Yu+, Yu Wang+. What Can RL Bring to VLA Generalization? An Empirical Study. in Advances in Neural Information Processing Systems (NeurIPS), 2025.
[10] Jijia Liu, Feng Gao, Qingmin Liao, Chao Yu+, Yu Wang+. Learning from Suboptimal Data in Continuous Control via Auto-Regressive Soft Q-Network. in International Conference on Machine Learning (ICML), 2025.
[11] Yixian Zhang*, Shu'ang Yu*, Tonghe Zhang, Mo Guang, Haojia Hui, Kaiwen Long, Yu Wang, Chao Yu+, Wenbo Ding+. SAC Flow: Sample-Efficient Reinforcement Learning of Flow-Based Policies via Velocity-Reparameterized Sequential Modeling. in International Conference on Learning Representations (ICLR), 2026.
[12] Chao Yu, Xinyi Yang, Jiaxuan Gao, Jiayu Chen, Yunfei Li, Jijia Liu, Yunfei Xiang, Ruixin
Huang, Huazhong Yang, Yi Wu, Yu Wang. Asynchronous Multi-Agent Reinforcement Learning for
Efficient Real-time Multi-robot Cooperative Exploration. In International Conference on Autonomous
Agents and Multi-agent Systems (AAMAS), 2023.
(1) 阳欣怡; 汪玉; 杨雨翔; 于超; 杨华中; 多智能体的环境探索方法、装置、电子设备及存储介质,
2024-06-14, 中国, ZL202211067341.1
(2) 汪玉; 高枫; 于超; 吴翼; 基于预测误差反馈的鲁棒强化学习控制方法及装置, 2025-09-19, 中国,
ZL202411905779.1
(3) 于超; 吴翼; 汪玉; 阳欣怡; 高嘉煊; 多智能体的环境探索方法、装置、系统、智能体及介质, 2025-
07-08, 中国, ZL202211080551.4
清华大学优秀博士毕业生(5%,校100人,系4人)
清华大学优秀博士论文(10%,校200人,系9人)
清华大学优秀硕士论文(10%,校200人,系8人)
2024年度中国智能体与多智能体系统优秀博士论文提名奖(5人)
国家奖学金
清华大学“水木学者”计划
电子系“传信未来学者”计划
张克潜冠名博后