Research

Selected Work

(* equal contribution · † project lead) Full list on Google Scholar.

SpatialTree: How Spatial Abilities Branch Out in MLLMs

Yuxi Xiao*, Longfei Li*, Shen Yan, Xinhang Liu, Sida Peng, Yunchao Wei, Xiaowei Zhou, Bingyi Kang†

CVPR 2026

Project Page / Paper / Code

Depth Anything 3: Recovering the Visual Space from Any Views

Haotong Lin*, Sili Chen*, Jun Hao Liew*, Donny Y. Chen*, Zhenyu Li, Guang Shi, Jiashi Feng, Bingyi Kang*†

ICLR 2026

Project Page / Paper / Code / Demo

Trace Anything: Representing Any Video in 4D via Trajectory Fields

Xinhang Liu, Yuxi Xiao, Donny Y. Chen, Jiashi Feng, Yu-Wing Tai, Chi-Keung Tang, Bingyi Kang†

ICLR 2026

Project Page / Code / Model / Video / Interactive Results

Manipulation as in Simulation: Enabling Accurate Geometry Perception in Robots

Minghuan Liu*†, Zhengbang Zhu*, Xiaoshen Han*, Peng Hu*, Haotong Lin, Xinyao Li, Jingxiao Chen, Jiafeng Xu, Yichu Yang, Yunfeng Lin, Xinghang Li, Yong Yu, Weinan Zhang, Tao Kong, Bingyi Kang†

ICLR 2026

Project Page / Paper / Code / Dataset / Video / Sim2Real Docs

SpatialTrackerV2: 3D Point Tracking Made Easy

Yuxi Xiao, Jianyuan Wang, Nan Xue, Nikita Karaev, Yuri Makarov, Bingyi Kang, Xing Zhu, Hujun Bao, Yujun Shen, Xiaowei Zhou

ICCV 2025

Project Page / Paper / Code / Demo

How Far is Video Generation from World Model? — A Physical Law Perspective

Bingyi Kang*, Yang Yue*, Rui Lu, Zhijie Lin, Yang Zhao, Kaixin Wang, Gao Huang, Jiashi Feng

*Equal Contribution in alphabetical order

ICML 2025

Project Page / Paper / Code / Data / Video / Media

Video Depth Anything: Consistent Depth Estimation for Super-Long Videos

Sili Chen, Hengkai Guo, Shengnan Zhu, Feihu Zhang, Zilong Huang, Jiashi Feng, Bingyi Kang

CVPR 2025

Project Page / Paper / Code / Demo

Prompting Depth Anything for 4K Resolution Accurate Metric Depth Estimation

Haotong Lin, Sida Peng, Jingxiao Chen, Songyou Peng, Jiaming Sun, Minghuan Liu, Hujun Bao, Jiashi Feng, Xiaowei Zhou, Bingyi Kang

CVPR 2025

Project Page / Paper / Code / Demo / Interactive Results

VideoWorld: Exploring Knowledge Learning from Unlabeled Videos

Zhongwei Ren, Yunchao Wei, Xun Guo, Yao Zhao, Bingyi Kang, Jiashi Feng, Xiaojie Jin

CVPR 2025

Project Page / Paper / Code

Towards Generalist Robot Policies: What Matters in Building Vision-Language-Action Models

Xinghang Li, Peiyan Li, Minghuan Liu, Dong Wang, Jirong Liu, Bingyi Kang, Xiao Ma, Tao Kong, Hanbo Zhang, Huaping Liu

Natural Machine Intelligence, 2025

Project Page / Paper / Code / Model / Dataset / Videos

Classification Done Right for Vision-Language Pre-Training

Zilong Huang, Qinghao Ye, Bingyi Kang, Jiashi Feng, Haoqi Fan

NeurIPS 2024

Paper / Code

Image Understanding Makes for A Good Tokenizer for Image Generation

Luting Wang, Yang Zhao, Zijian Zhang, Jiashi Feng, Si Liu, Bingyi Kang†

NeurIPS 2024

Paper / Code

Depth Anything V2

Lihe Yang, Bingyi Kang†, Zilong Huang, Zhen Zhao, Xiaogang Xu, Jiashi Feng, Hengshuang Zhao

NeurIPS 2024

Project Page / Paper / Code / Demo / Media

MADiff: Offline Multi-agent Learning with Diffusion Models

Zhengbang Zhu, Minghuan Liu, Liyuan Mao, Bingyi Kang, Minkai Xu, Yong Yu, Stefano Ermon, Weinan Zhang

NeurIPS 2024

Paper / Code

Improving Token-Based World Models with Parallel Observation Prediction

Lior Cohen, Kaixin Wang, Bingyi Kang, Shie Mannor

ICML 2024

Paper / Code

Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data

Lihe Yang, Bingyi Kang†, Zilong Huang, Xiaogang Xu, Jiashi Feng, Hengshuang Zhao

CVPR 2024

Project Page / Paper / Code / Demo / Media

Understanding, Predicting and Better Resolving Q-Value Divergence in Offline RL

Yang Yue*, Rui Lu*, Bingyi Kang*, Shiji Song, Gao Huang

NeurIPS 2023

Project Page / Paper / Code / Slides / Poster

Efficient Diffusion Policies for Offline Reinforcement Learning

Bingyi Kang*, Xiao Ma*, Chao Du, Tianyu Pang, Shuicheng Yan

NeurIPS 2023

Paper / Code

Mutual Information Regularized Offline Reinforcement Learning

Xiao Ma*, Bingyi Kang*, Zhongwen Xu, Min Lin, Shuicheng Yan

NeurIPS 2023

Paper / Code

FreeMask: Synthetic Images with Dense Annotations Make Stronger Segmentation Models

Lihe Yang, Xiaogang Xu, Bingyi Kang, Yinghuan Shi, Hengshuang Zhao

NeurIPS 2023

Paper / Code

Exploring Balanced Feature Spaces for Representation Learning

Bingyi Kang, Yu Li, Saining Xie, Zehuan Yuan, Jiashi Feng

ICLR 2021

Paper / Code

Decoupling Representation and Classifier for Long-Tailed Recognition

Bingyi Kang, Saining Xie, Marcus Rohrbach, Zhicheng Yan, Albert Gordo, Jiashi Feng, Yannis Kalantidis

ICLR 2020

Paper / Code / Slides / Talk

Few-Shot Object Detection via Feature Reweighting

Bingyi Kang*, Zhuang Liu*, Xin Wang, Fisher Yu, Jiashi Feng, Trevor Darrell

ICCV 2019

Paper / Code

Policy Optimization with Demonstrations

Bingyi Kang*, Zequn Jie, Jiashi Feng

ICML 2018

Paper

Open Projects

BuboGPT: Enabling Visual Grounding in Multi-Modal LLMs

Yang Zhao*, Zhijie Lin*, Daquan Zhou, Zilong Huang, Jiashi Feng, Bingyi Kang†

Open Project, 2023

Project Page / Paper / Code