Publications

Video World Models with Long-term Spatial Memory

HiFlow: Training-free High-Resolution Image Generation with Flow-Aligned Guidance

GenDoP: Auto-regressive Camera Trajectory Generation as a Director of Photography

Light-A-Video: Training-free Video Relighting via Progressive Light Fusion

RelightVid: Temporal-Consistent Diffusion Model for Video Relighting

Imagine360: Immersive 360 Video Generation from Perspective Anchor

FiVA: Fine-grained Visual Attribute Dataset for Text-to-Image Diffusion Models

LOKI: A Comprehensive Synthetic Data Detection Benchmark using Large Multimodal Models

BroadWay: Boost Your Text-to-Video Generation Model in a Training-free Way

3DTopia-XL: Scaling High-quality 3D Asset Generation via Primitive Diffusion

LayerPano3D: Layered 3D Panorama for Hyper-Immersive Scene Generation

Tailor3D: Customized 3D Assets Editing and Generation with Dual-Side Images

Bootstrap3D: Improving Multi-view Diffusion Model with Synthetic Data

MotionClone: Training-Free Motion Cloning for Controllable Video Generation

Make-it-Real: Unleashing Large Multimodal Model for Painting 3D Objects with Realistic Materials

Omni6D: Large-Vocabulary 3D Object Dataset for Category-Level 6D Object Pose Estimation

ComboVerse: Compositional 3D Assets Creation Using Spatially-Aware Diffusion Guidance

3DTopia: Large Text-to-3D Generation Model with Hybrid Diffusion Priors

GPT-4V(ision) is a Human-Aligned Evaluator for Text-to-3D Generation

GPT4Point: A Unified Framework for Point-Language Understanding and Generation

Alpha-CLIP: A CLIP Model Focusing on Wherever You Want

Large-vocabulary 3d diffusion model with transformer

HyperDreamer: Hyper-Realistic 3D Content Generation and Editing from a Single Image

OmniObject3D: Large-Vocabulary 3D Object Dataset for Realistic Perception, Reconstruction and Generation

V3Det: Vast Vocabulary Visual Detection Dataset

Voxurf: Voxel-based Efficient and Accurate Neural Surface Reconstruction

Few-Shot Object Detection via Association and DIscrimination

Density-aware Chamfer Distance as a Comprehensive Metric for Point Cloud Completion

Adversarial Robustness under Long-Tailed Distribution

Towards Evaluating and Training Verifiably Robust Neural Networks

Shaping Deep Feature Space towards Gaussian Mixture for Visual Classification

Distribution-Balanced Loss for Multi-Label Classification in Long-Tailed Datasets

Caption-Supervised Face Recognition: Training a State-of-the-Art Face Model without Manual Annotation

Physical Adversarial Attack on Vehicle Detector in the Carla Simulator

Visual-friendly Aesthetic QR Code Generation using Image Style Transfer