Yikai Wang

Publications

(* equal contribution; # corresponding authors)

— 2026 —
PanoWorld-X: Generating Explorable Panoramic Worlds via Sphere-Aware Video Diffusion Yuyang Yin, Hao-Xiang Guo, Fangfu Liu, Mengyu Wang, Hanwen Liang, Eric Li, Yikai Wang#, Xiaojie Jin, Yao Zhao, Yunchao Wei# International Conference on Machine Learning (ICML), Spotlight, 2026 [arxiv] [webpage]
3D-IDE: 3D Implicit Depth Emergent Chushan Zhang, Ruihan Lu, Jinguang Tong, Yikai Wang#, Hongdong Li# IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2026 [arxiv] [code]
GaussianPile: A Unified Sparse Gaussian Splatting Framework for Slice-based Volumetric Reconstruction Di Kong, Yikai Wang, Wenjie Guo, Yifan Bu, Boya Zhang, Yuexin Duan, et al, Yuwen Chen, Cheng Ma IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2026 [arxiv]
Yo'City: Personalized and Boundless 3D Realistic City Scene Generation via Self-critic Expansion Keyang Lu, Sifan Zhou, Hongbin Xu, Gang Xu, Zhifei Yang, Yikai Wang, Zhen Xiao, Jieyi Long, Ming Li IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2026 [arxiv] [bibtex]
NeAR: Coupled Neural Asset–renderer Stack Hong Li, Chongjie Ye, Houyuan Chen, Weiqing Xiao, et al, Yikai Wang, Baochang Zhang, Xiaoguang Han, Jiaolong Yang, Hao Zhao IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Highlight, 2026 [arxiv] [webpage] [bibtex]
Ultra3D: Efficient and High-fidelity 3D Generation with Part Attention Yiwen Chen, Zhihao Li, Yihao Luo, Yikai Wang, Hu Zhang, Lei Li, Qin Li, Chi Zhang, Guosheng Lin European Conference on Computer Vision (ECCV), 2026 [arxiv] [webpage] [bibtex]
ReconX: Reconstruct Any Scene from Sparse Views with Video Diffusion Model Fangfu Liu, Wenqiang Sun, Hanyang Wang, Yikai Wang#, Haowen Sun, Junliang Ye, Jun Zhang, Yueqi Duan# IEEE Transactions on Image Processing (TIP), 2026 [arxiv] [webpage] [code ] [youtube] [bibtex]
SceneTransporter: Optimal Transport-guided Compositional Latent Diffusion for Single-image Structured 3D Scene Generation Ling Wang, Hao-Xiang Guo, Xinzhou Wang, Fuchun Sun#, et al, Guangyuan Fu, Eric Li, Yang Liu, Yikai Wang# International Conference on Learning Representations (ICLR), 2026 [paper] [webpage] [bibtex]
BranchGRPO: Stable and Efficient GRPO with Structured Branching in Diffusion Models Yuming Li, Yikai Wang, Yuying zhu, Zhongyu Zhao, Ming Lu, Qi She, Shanghang Zhang International Conference on Learning Representations (ICLR), 2026 [paper] [arxiv] [code] [bibtex]
Light of Normals: Unified Feature Representation for Universal Photometric Stereo Houyuan Chen, Hong Li, Chongjie Ye, et al, Yikai Wang, Baochang Zhang, Satoshi Ikehata, Boxin Shi, Anyi Rao, Hao Zhao International Conference on Learning Representations (ICLR), 2026 [paper] [arxiv] [webpage] [code ] [bibtex]
— 2025 —
EMOS: Embodiment-aware Heterogeneous Multi-robot Operating System with LLM Agents Junting Chen, Checheng Yu, Xunzhe Zhou, Tianqi Xu, Yao Mu, Mengkang Hu, Wenqi Shao, Yikai Wang#, Guohao Li, Lin Shao# International Conference on Learning Representations (ICLR), 2025 [paper] [code] [bibtex]
PivotMesh: Generic 3D Mesh Generation via Pivot Vertices Guidance Haohan Weng, Yikai Wang#, Tong Zhang, C. L. Philip Chen, Jun Zhu International Conference on Learning Representations (ICLR), 2025 [paper] [code] [bibtex]
FlowDreamer: A RGB-D World Model with Flow-based Motion Representations for Robot Manipulation Jun Guo, Xiaojian Ma, Yikai Wang, Min Yang, Huaping Liu, Qing Li IEEE Robotics and Automation Letters (RAL), International Conference on Robotics and Automation (ICRA)*, 2025 [arxiv] [code] [bibtex]
Video4DGen: Enhancing Video and 4D Generation through Mutual Optimization Yikai Wang, Guangce Liu, Xinzhou Wang, Zilong Chen, Jiafang Li, Xin Liang, Fuchun Sun, Jun Zhu IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2025 [paper] [arxiv] [code ] [bibtex]
V3D: Video Diffusion Models are Effective 3D Generators Zilong Chen, Yikai Wang#, Feng Wang, Zhengyi Wang, Fuchun Sun, Huaping Liu# IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2025 [paper] [arxiv] [webpage] [code ] [bibtex]
DreamReward-X: Boosting High-Quality 3D Generation with Human Preference Alignment Fangfu Liu, Junliang Ye, Yikai Wang, Hanyang Wang, Zhengyi Wang, Jun Zhu, Yueqi Duan IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2025 [paper] [arxiv] [webpage] [code ] [bibtex]
Equivariant Local Reference Frames for Unsupervised Non-rigid Point Cloud Shape Correspondence Ling Wang, Runfa Chen, Fuchun Sun#, Xinzhou Wang, Sun Kai, Chengliang Zhong, Guangyuan Fu, Yikai Wang# IEEE Transactions on Image Processing (TIP), 2025 [paper] [arxiv] [bibtex]
FlexWorld: Progressively Expanding 3D Scenes for Flexiable-View Synthesis Luxi Chen, Zihan Zhou, Min Zhao, Yikai Wang#, Ge Zhang, Wenhao Huang, Hao Sun, Ji-Rong Wen, Chongxuan Li# Advances in Neural Information Processing Systems (NeurIPS), 2025 [paper] [arxiv] [code] [bibtex]
DimensionX: Create Any 3D and 4D Scenes from a Single Image with Controllable Video Diffusion Wenqiang Sun, Shuo Chen, Fangfu Liu, Zilong Chen, Yueqi Duan, Jun Zhu#, Jun Zhang#, Yikai Wang# International Conference on Computer Vision (ICCV), 2025 [paper] [arxiv] [webpage] [code ] [youtube] [bibtex]
MeshAnything V2: Artist-Created Mesh Generation with Adjacent Mesh Tokenization Yiwen Chen, Yikai Wang#, Yihao Luo, Zhengyi Wang, Zilong Chen, Jun Zhu, Chi Zhang#, Guosheng Lin# International Conference on Computer Vision (ICCV), 2025 [paper] [arxiv] [webpage] [code ] [bibtex]
DeepMesh: Auto-regressive Artist-mesh Creation with Reinforcement Learning Ruowen Zhao, Junliang Ye, Zhengyi Wang, Guangce Liu, Yiwen Chen, Yikai Wang, Jun Zhu International Conference on Computer Vision (ICCV), 2025 [paper] [arxiv] [webpage] [code ] [youtube] [bibtex]
AR-1-to-3: Single Image to Consistent 3D Object via Next-view Prediction Xuying Zhang, Yupeng Zhou, Kai Wang, Yikai Wang, Zhen Li, Shaohui Jiao, Daquan Zhou, Qibin Hou, Ming-Ming Cheng International Conference on Computer Vision (ICCV), 2025 [paper] [arxiv] [webpage] [code] [bibtex]
MeshGen: Generating PBR Textured Mesh with Render-Enhanced Auto-Encoder and Generative Data Augmentation Zilong Chen, Yikai Wang#, Wenqiang Sun, Feng Wang, Yiwen Chen, Huaping Liu# IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Highlight, 2025 [paper] [arxiv] [webpage] [code]
AnimateAnything: Consistent and Controllable Animation for Video Generation Guojun Lei, Chi Wang, Hong Li, Rong Zhang, Yikai Wang, Weiwei Xu IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2025 [paper] [arxiv] [webpage] [code]
— 2024 —
Vidu4D: Single Generated Video to High-Fidelity 4D Reconstruction with Dynamic Gaussian Surfels Yikai Wang, Xinzhou Wang, Zilong Chen, Zhengyi Wang, Fuchun Sun, Jun Zhu Advances in Neural Information Processing Systems (NeurIPS), 2024 [arxiv] [webpage] [code ] [youtube] [bibtex]
AnimatableDreamer: Text-guided Non-rigid 3D Model Generation and Reconstruction with Canonical Score Distillation Xinzhou Wang, Yikai Wang#, Junliang Ye, Zhengyi Wang, Fuchun Sun#, Pengkun Liu, Ling Wang, et al European Conference on Computer Vision (ECCV), 2024 [arxiv] [webpage] [code] [bibtex]
CRM: Single Image to 3D Textured Mesh with Convolutional Reconstruction Model Zhengyi Wang, Yikai Wang, Yifei Chen, Chendong Xiang, Shuo Chen, Dajiang Yu, Chongxuan Li, Hang Su, Jun Zhu European Conference on Computer Vision (ECCV), 2024 [arxiv] [webpage] [code ] [bibtex]
DreamReward: Aligning Human Preference in Text-to-3D Generation Junliang Ye, Fangfu Liu, Qixiu Li, Zhengyi Wang, Yikai Wang, Xinzhou Wang, Yueqi Duan, Jun Zhu European Conference on Computer Vision (ECCV), 2024 [arxiv] [webpage] [code ] [bibtex]
Text-to-3D using Gaussian Splatting Zilong Chen, Feng Wang, Yikai Wang, Huaping Liu IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2024 [paper] [arxiv] [webpage] [code ] [bibtex]
Small Scale Data-free Knowledge Distillation He Liu, Yikai Wang, Huaping Liu, Fuchun Sun, Anbang Yao IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2024 [paper] [arxiv] [bibtex]
GaussianEditor: Swift and Controllable 3D Editing with Gaussian Splatting Yiwen Chen, Zilong Chen, Chi Zhang, Feng Wang, Xiaofeng Yang, Yikai Wang, et al IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2024 [paper] [arxiv] [webpage] [code ] [bibtex]
Face3DAdv: Exploiting Robust Adversarial 3D Patches on Physical Face Recognition Xiao Yang, Longlong Xu, Tianyu Pang, Yinpeng Dong, Yikai Wang, Hang Su, Jun Zhu International Journal of Computer Vision (IJCV), 2024 [paper] [bibtex]
InstructPix2NeRF: Instructed 3D Portrait Editing from a Single Image Jianhui Li, Shilong Liu, Zidong Liu, Yikai Wang, Kaiwen Zheng, Jinghui Xu, Jianmin Li, Jun Zhu International Conference on Learning Representations (ICLR), 2024 [paper] [arxiv] [code] [bibtex]
— 2023 —
ProlificDreamer: High-fidelity and Diverse Text-to-3D Generation with Variational Score Distillation Zhengyi Wang, Cheng Lu, Yikai Wang, Fan Bao, Chongxuan Li, Hang Su, Jun Zhu Advances in Neural Information Processing Systems (NeurIPS), Spotlight, Most Influential NeurIPS Papers, 2023 [paper] [arxiv] [webpage] [code ] [bibtex]
Root Pose Decomposition Towards Generic Non-rigid 3D Reconstruction with Monocular Videos Yikai Wang, Yinpeng Dong, Fuchun Sun, Xiao Yang International Conference on Computer Vision (ICCV), 2023 [paper] [arxiv] [bibtex]
Compacting Binary Neural Networks by Sparse Kernel Selection Yikai Wang, Wenbing Huang, Yinpeng Dong, Fuchun Sun, Anbang Yao IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2023 [paper] [arxiv] [slides] [bibtex]
Towards Effective Adversarial Textured 3D Meshes on Physical Face Recognition Xiao Yang, Chang Liu, Longlong Xu, Yikai Wang, Yinpeng Dong, et al IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Highlight, 2023 [paper] [arxiv] [code] [bibtex]
Benchmarking Robustness of 3D Object Detection to Common Corruptions in Autonomous Driving Yinpeng Dong, Caixin Kang, Jinlai Zhang, Zijian Zhu, Yikai Wang, Xiao Yang, et al IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2023 [paper] [arxiv] [code ] [slides] [bibtex]
Channel Exchanging Networks for Multimodal and Multitask Dense Image Prediction Yikai Wang, Fuchun Sun, Wenbing Huang, Fengxiang He, Dacheng Tao IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023 [paper] [arxiv] [code ] [slides] [bibtex]
— 2022 —
Multimodal Token Fusion for Vision Transformers Yikai Wang, Xinghao Chen, Lele Cao, Wenbing Huang, Fuchun Sun, Yunhe Wang IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2022 [paper] [arxiv] [code ] [slides] [bibtex]
Bridged Transformer for Vision and Point Cloud 3D Object Detection Yikai Wang, Tengqi Ye, Lele Cao, Wenbing Huang, Fuchun Sun, Fengxiang He, Dacheng Tao IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2022 [paper] [arxiv] [slides] [bibtex]
Sound Adversarial Audio-visual Navigation Yinfeng Yu, Wenbing Huang, Fuchun Sun, Changan Chen, Yikai Wang, Xiaolong Liu International Conference on Learning Representations (ICLR), 2022 [paper] [arxiv] [code] [slides] [bibtex]
Fine-grained Multi-level Fusion for Anti-occlusion Monocular 3D Object Detection He Liu, Huaping Liu, Yikai Wang, Fuchun Sun, Wenbing Huang IEEE Transactions on Image Processing (TIP), 2022 [paper] [bibtex]
— Before 2021 —
Sub-bit Neural Networks: Learning to Compress and Accelerate Binary Neural Networks Yikai Wang, Yi Yang, Fuchun Sun, Anbang Yao International Conference on Computer Vision (ICCV), 2021 [paper] [arxiv] [code] [slides] [bibtex]
Elastic Tactile Simulation Towards Tactile-visual Perception Yikai Wang, Wenbing Huang, Bin Fang, Fuchun Sun, Chang Li ACM International Conference on Multimedia (MM), Oral, 2021 [paper] [arxiv] [code] [slides] [bibtex]
Deep Multimodal Fusion by Channel Exchanging Yikai Wang, Wenbing Huang, Fuchun Sun, Tingyang Xu, Yu Rong, Junzhou Huang Advances in Neural Information Processing Systems (NeurIPS), 2020 [paper] [arxiv] [code ] [slides] [bibtex]
Resolution Switchable Networks for Runtime Efficient Image Recognition Yikai Wang, Fuchun Sun, Duo Li, Anbang Yao European Conference on Computer Vision (ECCV), 2020 [paper] [arxiv] [code] [slides] [bibtex]
Learning Deep Multimodal Feature Representation with Asymmetric Multi-layer Fusion Yikai Wang, Fuchun Sun, Ming Lu, Anbang Yao ACM International Conference on Multimedia (MM), 2020 [paper] [arxiv] [code] [slides] [bibtex]
Regularized Adversarial Sampling and Deep Time-aware Attention for Click-through Rate Prediction Yikai Wang, Liang Zhang, Quanyu Dai, Fuchun Sun, et al ACM International Conference on Information and Knowledge Management (CIKM), 2020 [paper] [arxiv] [slides] [bibtex]