Yikai Wang

Publications

(* equal contribution; # corresponding authors)

— Preprint —
LLaMA-Mesh: Unifying 3D Mesh Generation with Language Models Zhengyi Wang, Jonathan Lorraine, Yikai Wang, Hang Su, Jun Zhu, Sanja Fidler, Xiaohui Zeng Preprint, 2024 [arxiv] [webpage] [code ] [bibtex]
ReconX: Reconstruct Any Scene from Sparse Views with Video Diffusion Model Fangfu Liu, Wenqiang Sun, Hanyang Wang, Yikai Wang#, Haowen Sun, Junliang Ye, Jun Zhang, Yueqi Duan# Preprint, 2024 [arxiv] [webpage] [code ] [youtube] [bibtex]
— 2025 —
DimensionX: Create Any 3D and 4D Scenes from a Single Image with Controllable Video Diffusion Wenqiang Sun, Shuo Chen, Fangfu Liu, Zilong Chen, Yueqi Duan, Jun Zhu, Jun Zhang#, Yikai Wang# International Conference on Computer Vision (ICCV), 2025 [arxiv] [webpage] [code ] [youtube] [bibtex]
MeshAnything V2: Artist-Created Mesh Generation with Adjacent Mesh Tokenization Yiwen Chen, Yikai Wang#, Yihao Luo, Zhengyi Wang, Zilong Chen, Jun Zhu, Chi Zhang#, Guosheng Lin# International Conference on Computer Vision (ICCV), 2025 [arxiv] [webpage] [code ] [bibtex]
DeepMesh: Auto-Regressive Artist-mesh Creation with Reinforcement Learning Ruowen Zhao, Junliang Ye, Zhengyi Wang, Guangce Liu, Yiwen Chen, Yikai Wang, Jun Zhu International Conference on Computer Vision (ICCV), 2025 [arxiv] [webpage] [code ] [bibtex]
AR-1-to-3: Single image to consistent 3d object generation via next-view prediction Xuying Zhang, Yupeng Zhou, Kai Wang, Yikai Wang, Zhen Li, Shaohui Jiao, Daquan Zhou, Qibin Hou, Ming-Ming Cheng International Conference on Computer Vision (ICCV), 2025 [arxiv] [webpage] [code] [bibtex]
V3D: Video Diffusion Models are Effective 3D Generators Zilong Chen, Yikai Wang#, Feng Wang, Zhengyi Wang, Huaping Liu# IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2025 [arxiv] [webpage] [code ] [bibtex]
Video4DGen: Enhancing Video and 4D Generation through Mutual Optimization Yikai Wang, Guangce Liu, Xinzhou Wang, Zilong Chen, Jiafang Li, Xin Liang, Fuchun Sun, Jun Zhu IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2025 [arxiv] [code ]
Equivariant Local Reference Frames for Unsupervised Non-rigid Point Cloud Shape Correspondence Ling Wang, Runfa Chen, Fuchun Sun#, Xinzhou Wang, Sun Kai, Chengliang Zhong, Guangyuan Fu, Yikai Wang# IEEE Transactions on Image Processing (TIP), 2025 [paper] [arxiv] [bibtex]
MeshGen: Generating PBR Textured Mesh with Render-Enhanced Auto-Encoder and Generative Data Augmentation Zilong Chen, Yikai Wang#, Wenqiang Sun, Feng Wang, Yiwen Chen, Huaping Liu# IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Highlight, 2025 [paper] [arxiv] [webpage] [code]
AnimateAnything: Consistent and Controllable Animation for Video Generation Guojun Lei, Chi Wang, Hong Li, Rong Zhang, Yikai Wang, Weiwei Xu IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2025 [paper] [arxiv] [webpage] [code]
PivotMesh: Generic 3D Mesh Generation via Pivot Vertices Guidance Haohan Weng, Yikai Wang#, Tong Zhang, C. L. Philip Chen, Jun Zhu International Conference on Learning Representations (ICLR), 2025 [paper] [code] [bibtex]
EMOS: Embodiment-aware Heterogeneous Multi-robot Operating System with LLM Agents Junting Chen, Checheng Yu, Xunzhe Zhou, Tianqi Xu, Yao Mu, Mengkang Hu, Wenqi Shao, Yikai Wang#, Guohao Li, Lin Shao# International Conference on Learning Representations (ICLR), 2025 [paper] [code] [bibtex]
— 2024 —
Vidu4D: Single Generated Video to High-Fidelity 4D Reconstruction with Dynamic Gaussian Surfels Yikai Wang, Xinzhou Wang, Zilong Chen, Zhengyi Wang, Fuchun Sun, Jun Zhu Advances in Neural Information Processing Systems (NeurIPS), 2024 [arxiv] [webpage] [code ] [youtube] [bibtex]
AnimatableDreamer: Text-Guided Non-rigid 3D Model Generation and Reconstruction with Canonical Score Distillation Xinzhou Wang, Yikai Wang#, Junliang Ye, Zhengyi Wang, Fuchun Sun#, Pengkun Liu, Ling Wang, et al European Conference on Computer Vision (ECCV), 2024 [arxiv] [webpage] [code] [bibtex]
CRM: Single Image to 3D Textured Mesh with Convolutional Reconstruction Model Zhengyi Wang, Yikai Wang, Yifei Chen, Chendong Xiang, Shuo Chen, Dajiang Yu, Chongxuan Li, Hang Su, Jun Zhu European Conference on Computer Vision (ECCV), 2024 [arxiv] [webpage] [code ] [bibtex]
DreamReward: Aligning Human Preference in Text-to-3D Generation Junliang Ye, Fangfu Liu, Qixiu Li, Zhengyi Wang, Yikai Wang, Xinzhou Wang, Yueqi Duan, Jun Zhu European Conference on Computer Vision (ECCV), 2024 [arxiv] [webpage] [code ] [bibtex]
Text-to-3D using Gaussian Splatting Zilong Chen, Feng Wang, Yikai Wang, Huaping Liu IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2024 [paper] [arxiv] [webpage] [code ] [bibtex]
Small Scale Data-Free Knowledge Distillation He Liu, Yikai Wang, Huaping Liu, Fuchun Sun, Anbang Yao IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2024 [paper] [arxiv] [bibtex]
GaussianEditor: Swift and Controllable 3D Editing with Gaussian Splatting Yiwen Chen, Zilong Chen, Chi Zhang, Feng Wang, Xiaofeng Yang, Yikai Wang, et al IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2024 [paper] [arxiv] [webpage] [code ] [bibtex]
Face3DAdv: Exploiting Robust Adversarial 3D Patches on Physical Face Recognition Xiao Yang, Longlong Xu, Tianyu Pang, Yinpeng Dong, Yikai Wang, Hang Su, Jun Zhu International Journal of Computer Vision (IJCV), 2024 [paper] [bibtex]
InstructPix2NeRF: Instructed 3D Portrait Editing from a Single Image Jianhui Li, Shilong Liu, Zidong Liu, Yikai Wang, Kaiwen Zheng, Jinghui Xu, Jianmin Li, Jun Zhu International Conference on Learning Representations (ICLR), 2024 [paper] [arxiv] [code] [bibtex]
— 2023 —
ProlificDreamer: High-Fidelity and Diverse Text-to-3D Generation with Variational Score Distillation Zhengyi Wang, Cheng Lu, Yikai Wang, Fan Bao, Chongxuan Li, Hang Su, Jun Zhu Advances in Neural Information Processing Systems (NeurIPS), Spotlight, Most Influential NIPS Papers, 2023 [paper] [arxiv] [webpage] [code ] [bibtex]
Root Pose Decomposition Towards Generic Non-rigid 3D Reconstruction with Monocular Videos Yikai Wang, Yinpeng Dong, Fuchun Sun, Xiao Yang International Conference on Computer Vision (ICCV), 2023 [paper] [arxiv] [bibtex]
Compacting Binary Neural Networks by Sparse Kernel Selection Yikai Wang, Wenbing Huang, Yinpeng Dong, Fuchun Sun, Anbang Yao IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2023 [paper] [arxiv] [slides] [bibtex]
Towards Effective Adversarial Textured 3D Meshes on Physical Face Recognition Xiao Yang, Chang Liu, Longlong Xu, Yikai Wang, Yinpeng Dong, et al IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Highlight, 2023 [paper] [arxiv] [code] [bibtex]
Benchmarking Robustness of 3D Object Detection to Common Corruptions in Autonomous Driving Yinpeng Dong, Caixin Kang, Jinlai Zhang, Zijian Zhu, Yikai Wang, Xiao Yang, et al IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2023 [paper] [arxiv] [code ] [slides] [bibtex]
Channel Exchanging Networks for Multimodal and Multitask Dense Image Prediction Yikai Wang, Fuchun Sun, Wenbing Huang, Fengxiang He, Dacheng Tao IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2023 [paper] [arxiv] [code ] [slides] [bibtex]
— 2022 —
Multimodal Token Fusion for Vision Transformers Yikai Wang, Xinghao Chen, Lele Cao, Wenbing Huang, Fuchun Sun, Yunhe Wang IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2022 [paper] [arxiv] [code ] [slides] [bibtex]
Bridged Transformer for Vision and Point Cloud 3D Object Detection Yikai Wang, Tengqi Ye, Lele Cao, Wenbing Huang, Fuchun Sun, Fengxiang He, Dacheng Tao IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2022 [paper] [arxiv] [slides] [bibtex]
Sound Adversarial Audio-visual Navigation Yinfeng Yu, Wenbing Huang, Fuchun Sun, Changan Chen, Yikai Wang, Xiaolong Liu International Conference on Learning Representations (ICLR), 2022 [paper] [arxiv] [code] [slides] [bibtex]
Fine-grained Multi-level Fusion for Anti-occlusion Monocular 3D Object Detection He Liu, Huaping Liu, Yikai Wang, Fuchun Sun, Wenbing Huang IEEE Transactions on Image Processing (TIP), 2022 [paper] [bibtex]
— Before 2021 —
Sub-bit Neural Networks: Learning to Compress and Accelerate Binary Neural Networks Yikai Wang, Yi Yang, Fuchun Sun, Anbang Yao International Conference on Computer Vision (ICCV), 2021 [paper] [arxiv] [code] [slides] [bibtex]
Elastic Tactile Simulation Towards Tactile-visual Perception Yikai Wang, Wenbing Huang, Bin Fang, Fuchun Sun, Chang Li ACM International Conference on Multimedia (MM), Oral, 2021 [paper] [arxiv] [code] [slides] [bibtex]
Deep Multimodal Fusion by Channel Exchanging Yikai Wang, Wenbing Huang, Fuchun Sun, Tingyang Xu, Yu Rong, Junzhou Huang Advances in Neural Information Processing Systems (NeurIPS), 2020 [paper] [arxiv] [code ] [slides] [bibtex]
Resolution Switchable Networks for Runtime Efficient Image Recognition Yikai Wang, Fuchun Sun, Duo Li, Anbang Yao European Conference on Computer Vision (ECCV), 2020 [paper] [arxiv] [code] [slides] [bibtex]
Learning Deep Multimodal Feature Representation with Asymmetric Multi-layer Fusion Yikai Wang, Fuchun Sun, Ming Lu, Anbang Yao ACM International Conference on Multimedia (MM), 2020 [paper] [arxiv] [code] [slides] [bibtex]
Regularized Adversarial Sampling and Deep Time-aware Attention for Click-through Rate Prediction Yikai Wang, Liang Zhang, Quanyu Dai, Fuchun Sun, et al ACM International Conference on Information and Knowledge Management (CIKM), 2020 [paper] [arxiv] [slides] [bibtex]