Publications

Effective Multi-sensor Conditioning for Street-view Novel-view Synthesis

Infinite Gaze Generation for Videos with Autoregressive Diffusion

From Sparse to Dense: Multi-View GRPO for Flow Models via Augmented Condition Space

Generated Reality: Human-centric World Simulation using Interactive Video Generation with Hand and Camera Control

UniHand: A Unified Model for Diverse Controlled 4D Hand Motion Modeling

Image2Garment: Simulation-ready Garment Generation from a Single Image

V-RGBX: Video Editing with Accurate Controls over Intrinsic Properties

BulletTime: Decoupled Control of Time and Camera Pose for Video Generation

ViSAudio: End-to-End Video-Driven Binaural Spatial Audio Generation

Hi3DEval: Advancing 3D Generation Evaluation with Hierarchical Validity

SEAgent: Self-Evolving Computer Use Agent with Autonomous Learning from Experience

Video World Models with Long-term Spatial Memory

Towards Vision-Language-Garment Models for Web Knowledge Garment Understanding and Generation

SS4D: Native 4D Generative Model via Structured Spacetime Latents

HiFlow: Training-free High-Resolution Image Generation with Flow-Aligned Guidance

GenDoP: Auto-regressive Camera Trajectory Generation as a Director of Photography

Light-A-Video: Training-free Video Relighting via Progressive Light Fusion

RelightVid: Temporal-Consistent Diffusion Model for Video Relighting

IDArb: Intrinsic Decomposition for Arbitrary Number of Input Views and Illuminations

Imagine360: Immersive 360 Video Generation from Perspective Anchor

FiVA: Fine-grained Visual Attribute Dataset for Text-to-Image Diffusion Models

LOKI: A Comprehensive Synthetic Data Detection Benchmark using Large Multimodal Models

BroadWay: Boost Your Text-to-Video Generation Model in a Training-free Way

3DTopia-XL: Scaling High-quality 3D Asset Generation via Primitive Diffusion

LayerPano3D: Layered 3D Panorama for Hyper-Immersive Scene Generation

Tailor3D: Customized 3D Assets Editing and Generation with Dual-Side Images

Bootstrap3D: Improving Multi-view Diffusion Model with Synthetic Data

MotionClone: Training-Free Motion Cloning for Controllable Video Generation

Make-it-Real: Unleashing Large Multimodal Model for Painting 3D Objects with Realistic Materials

Omni6D: Large-Vocabulary 3D Object Dataset for Category-Level 6D Object Pose Estimation

ComboVerse: Compositional 3D Assets Creation Using Spatially-Aware Diffusion Guidance

3DTopia: Large Text-to-3D Generation Model with Hybrid Diffusion Priors

GPT-4V(ision) is a Human-Aligned Evaluator for Text-to-3D Generation

GPT4Point: A Unified Framework for Point-Language Understanding and Generation

Alpha-CLIP: A CLIP Model Focusing on Wherever You Want

Large-vocabulary 3d diffusion model with transformer

HyperDreamer: Hyper-Realistic 3D Content Generation and Editing from a Single Image

OmniObject3D: Large-Vocabulary 3D Object Dataset for Realistic Perception, Reconstruction and Generation

V3Det: Vast Vocabulary Visual Detection Dataset

Voxurf: Voxel-based Efficient and Accurate Neural Surface Reconstruction

Few-Shot Object Detection via Association and DIscrimination

Density-aware Chamfer Distance as a Comprehensive Metric for Point Cloud Completion

Adversarial Robustness under Long-Tailed Distribution

Towards Evaluating and Training Verifiably Robust Neural Networks

Shaping Deep Feature Space towards Gaussian Mixture for Visual Classification

Distribution-Balanced Loss for Multi-Label Classification in Long-Tailed Datasets

Caption-Supervised Face Recognition: Training a State-of-the-Art Face Model without Manual Annotation

Physical Adversarial Attack on Vehicle Detector in the Carla Simulator

Visual-friendly Aesthetic QR Code Generation using Image Style Transfer