Weidi Xie

Home / About Me / Team / Collaborators / Research

2026

AI4Science

An Agentic System for Rare Disease Diagnosis with Traceable Reasoning.
Weike Zhao, Chaoyi Wu, Yanjie Fan, Xiaoman Zhang, Pengcheng Qiu, Yuze Sun, Xiao Zhou, Yanfeng Wang, Ya Zhang, Yongguo Yu, Kun Sun, Weidi Xie
In: Nature (5-Year Impact Factor = 55.5), 2026. (new)
Paper | Web App

A Knowledge-enhanced Pathology Vision-language Foundation Model for Cancer Diagnosis.
Xiao Zhou, Luoyi Sun, Dexuan He, Wenbin Guan, Ruifen Wang, Ge Wang, Lifeng Wang, Xiaojun Yuan, Xin Sun, Ya Zhang, Kun Sun, Yanfeng Wang, Weidi Xie
In: Cancer Cell (5-Year Impact Factor = 58.5), 2026. (new)
Paper | Code

Boosting Pathology Foundation Models via Few-shot Prompt-tuning for Rare Cancer Subtyping
Dexuan He, Xiao Zhou, Wenbin Guan, Liyuan Zhang, Xiaoman Zhang, Sinuo Xu, Ge Wang, Lifeng Wang, Xiaojun Yuan, Xin Sun, Yanfeng Wang, Kun Sun, Ya Zhang, Weidi Xie
In: Nature Communications, 2026. (5-Year Impact Factor: ~16.1) (New)
Paper | Code

Advancing Radiology Foundation Models with Reasoning through Step-by-step Verification from Daily Reports.
Ziqing Fan, Cheng Liang, Chaoyi Wu, Ya Zhang, Yanfeng Wang, Weidi Xie
In: Communications Medicine, 2026. (2-Year Impact Factor: ~6.3) (New)
Paper | Code

MAP: A Knowledge-driven Framework for Predicting Single-cell Responses for Unprofiled Drugs
Jinghao Feng, Ziheng Zhao, Xiaoman Zhang, Mingfei Liu, Jingyi Chen, Xingran Quan, Jian Zhang, Yanfeng Wang, Ya Zhang, Weidi Xie.
To appear at Nature Machine Intelligence, 2026. (5-Year Impact Factor: ~32) (New)
Arxiv | Project Page

EHR-R1: A Reasoning-Enhanced Foundational Language Model for Electronic Health Record Analysis
Yusheng Liao, Chaoyi Wu, Junwei Liu, Shuyang Jiang, Pengcheng Qiu, Haowen Wang, Yun Yue, Shuai Zhen, Jian Wang, Qianrui Fan, Jinjie Gu, Ya Zhang, Yanfeng Wang, Yu Wang, Weidi Xie
To appear at Nature Communications, 2026. (5-Year Impact Factor: ~16.1) (New)
Arxiv | Code

Rethinking Whole-Body CT Image Interpretation: An Abnormality-Centric Approach
Ziheng Zhao, Lisong Dai, Ya Zhang, Yangfeng Wang, Weidi Xie
In: Conference on Computer Vision and Pattern Recognition (CVPR) Findings , 2026. (New)
Arxiv | Code

PhenoLIP: Integrating Phenotype Ontology Knowledge into Medical Vision-Language Pretraining.
Cheng Liang, Chaoyi Wu, Weike Zhao, Ya Zhang, Yanfeng Wang, and Weidi Xie
In: European Conference on Computer Vision (ECCV) , 2026. (New)
Arxiv | Code

A Vision-language Framework for Comparative Reasoning in Radiology
Tengfei Zhang, Ziheng Zhao, Xiaoman Zhang, Lisong Dai, Pengcheng Qiu, Ya Zhang, Yanfeng Wang, Weidi Xie^†
Under Review, 2026. (New)
Arxiv | Code

Phenotypic Bioactivity Prediction as Open-set Biological Assay Querying
Yuze Sun*, Xiaoman Zhang*, Qiaoyu Zheng, Hanzheng Li, Jianming Zhang, Liang Hong, Yanfeng Wang, Ya Zhang, Weidi Xie
Under Review, 2026. (New)
Arxiv | Project Page

Hulu-med: A Transparent Generalist Model Towards Holistic Medical Vision-language Understanding
Songtao Jiang, Yuan Wang, Sibo Song, Tianxiang Hu, Chenyi Zhou, Bin Pu, Yan Zhang, Zhibo Yang, Yang Feng, Joey Tianyi Zhou, Jin Hao, Zijian Chen, Ruijia Wu, Tao Tang, Junhui Lv, Hongxia Xu, Hongwei Wang, Jun Xiao, Bin Feng, Fudong Zhu, Kenli Li, Weidi Xie^†, Jimeng Sun^† Jian Wu^†, Zuozhu Liu^†.
Under Revision, 2026. (New)
Arxiv | Code & Model

Evolving Diagnostic Agents in a Virtual Clinical Environment
Pengcheng Qiu, Chaoyi Wu, Junwei Liu, Qiaoyu Zheng, Yusheng Liao, Haowen Wang, Yun Yue, Qianrui Fan, Shuai Zhen, Jian Wang, Jinjie Gu, Yanfeng Wang, Ya Zhang and Weidi Xie
Under Review, 2026. (New)
Arxiv | Code

End-to-End Agentic RAG System Training for Traceable Diagnostic Reasoning
Qiaoyu Zheng, Yuze Sun, Chaoyi Wu, Weike Zhao, Pengcheng Qiu, Yongguo Yu, Kun Sun, Yanfeng Wang, Ya Zhang and Weidi Xie
Under Review, 2026. (New)
Arxiv | Code

Computer Vision

Track-On2: Enhancing Online Point Tracking with Memory.
Görkay Aydemir, Weidi Xie*, Fatma Guney*
To appear at Transactions on Pattern Analysis and Machine Intelligence, 2026. (Impact Factor: ~18.6). (New)
Arxiv | Project Page

OmniStream: Mastering Perception, Reconstruction and Action in Continuous Streams.
Yibin Yan, Jilan Xu, Shangzhe Di, Haoning Wu, Weidi Xie
In: European Conference on Computer Vision (ECCV) , 2026. (New)
Arxiv | Code

VersaViT: Enhancing MLLM Vision Backbones via Task-Guided Optimization.
Yikun Liu, Yuan Liu, Shangzhe Di, Haicheng Wang, Zhongyin Zhao, Le Tian, Xiao Zhou, Jie Zhou, Jiangchao Yao, Yanfeng Wang, Weidi Xie
In: European Conference on Computer Vision (ECCV) , 2026. (New)
Arxiv | Project Page

SoccerMaster: A Vision Foundation Model for Soccer Understanding.
Haolin Yang, Jiayuan Rao, Haoning Wu, Weidi Xie
In: Conference on Computer Vision and Pattern Recognition (CVPR) , 2026. (Oral | Best Paper Candidate)
Arxiv | Project Page

FAIL: Flow Matching Adversarial Imitation Learning for Image Generation.
Yeyao Ma, Chen Li, Xiaosong Zhang, Han Hu, and Weidi Xie
In: International Conference on Machine Learning (ICML) , 2026. (New)
Arxiv | Code

SpatialScore: Towards Comprehensive Evaluation for Spatial Intelligence.
Haoning Wu, Xiao Huang, Yaohui Chen, Ya Zhang, Yanfeng Wang, and Weidi Xie
In: Conference on Computer Vision and Pattern Recognition (CVPR) , 2026. (Highlight)
Arxiv | Project Page

Real-World Point Tracking with Verifier-Guided Pseudo-Labeling.
Görkay Aydemir, Fatma Guney*, Weidi Xie*
In: Conference on Computer Vision and Pattern Recognition (CVPR) , 2026. (New)
Arxiv | Project Page

Weaver: End-to-End Agentic System Training for Video Interleaved Reasoning.
Yudi Shi, Shangzhe Di, Qirui Chen, Qinian Wang, Jiayin Cai, Xiaolong Jiang, Yao Hu, Weidi Xie
In: Conference on Computer Vision and Pattern Recognition (CVPR) Findings , 2026. (New)
Arxiv | Project Page

WorldSense: Evaluating Real-world Omnimodal Understanding for Multimodal LLMs.
Jack Hong, Shilin Yan, Jiayin Cai, Xiaolong Jiang, Yao Hu, Weidi Xie
In: The Thirteenth International Conference on Learning Representations (ICLR) , 2026. (New)
Arxiv | Project Page

SceneGen: Single-Image 3D Scene Generation in One Feedforward Pass.
Yanxu Meng, Haoning Wu, Ya Zhang, Weidi Xie
In: International Conference on 3D Vision (3DV), 2026. (New)
Arxiv | Project Page

GenTac: Generative Modeling and Forecasting of Soccer Tactics.
Jiayuan Rao, Tianlin Gui, Haoning Wu, Yanfeng Wang, Weidi Xie
Under Review, 2026. (New)
Arxiv | Project Page

Scaling Audio-Text Retrieval with Multimodal Large Language Models.
Jilan Xu, Carl Thomé, Danijela Horak, Weidi Xie, Andrew Zisserman
In submission, 2026. (New)
Arxiv | Project Page

Revisiting Multi-Task Visual Representation Learning.
Shangzhe Di, Zhonghua Zhai, Weidi Xie
In Submission, 2026. (New)
Arxiv | Code

2025

AI4Medicine

Towards Generalist Foundation Model for Radiology by Leveraging Web-scale 2D & 3D Medical Data.
Chaoyi Wu*, Xiaoman Zhang*, Ya Zhang, Yanfeng Wang, Weidi Xie
In: Nature Communications, 2025. (5-Year Impact Factor: ~16.1)
Project Page | Code & Model | Arxiv

Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases.
Pengcheng Qiu, Chaoyi Wu, Shuyu Liu, Weike Zhao, Ya Zhang, Yanfeng Wang, Weidi Xie
In: Nature Communications, 2025. (5-Year Impact Factor: ~16.1)
Arxiv | Code

Large-Vocabulary Segmentation for Medical Images with Text Prompts.
Ziheng Zhao, Yao Zhang, Chaoyi Wu, Xiaoman Zhang, Xiao Zhou, Ya Zhang, Yanfeng Wang, Weidi Xie
In: Npj Digital Medicine (Nature Portfolio), 2025. (5-Year Impact Factor: ~15.2)
Project Page | Code| Arxiv

Towards Evaluating and Building Versatile Large Language Models for Medicine.
Chaoyi Wu, Pengcheng Qiu, Jinxin Liu, Hongfei Gu, Na Li, Ya Zhang, Yanfeng Wang, Weidi Xie
In: Npj Digital Medicine (Nature Portfolio), 2025. (5-Year Impact Factor: ~15.2)
Paper | Code| Leaderboard

Development of A Large-scale Medical Visual Question-Answering Dataset (PMC-VQA).
Xiaoman Zhang, Chaoyi Wu, Ziheng Zhao, Weixiong Lin, Ya Zhang, Yanfeng Wang, Weidi Xie
In: Communications Medicine, 2025. (2-Year Impact Factor: ~6.3)
Project Page | Arxiv

Radgenome-chest CT: A Grounded Vision-language Dataset for Chest CT Analysis
Xiaoman Zhang, Chaoyi Wu, Ziheng Zhao, Jiayu Lei, Ya Zhang, Yanfeng Wang, Weidi Xie
In: Scientific Data (Nature Research), 2025. (5-year Impact Factor: ~8.7)
Arxiv | huggingface

MRGen: Diffusion-based Controllable Data Engine for MRI Segmentation towards Unannotated Modalities.
Haoning Wu, Ziheng Zhao, Ya Zhang, Weidi Xie, Yanfeng Wang
In: International Conference on Computer Vision (ICCV) , 2025.
Arxiv | Project Page

RadIR: A Scalable Framework for Multi-Grained Medical Image Retrieval via Radiology Report Mining
Tengfei Zhang, Ziheng Zhao, Chaoyi Wu, Xiao Zhou, Ya Zhang, Yangfeng Wang, Weidi Xie
In: International Conference on Medical Image Computing and Computer Assisted Intervention (MICCAI), 2025.
Arxiv | Code

M^3Builder: A Multi-Agent System for Automated Machine Learning in Medical Imaging
Jinghao Feng, Qiaoyu Zheng, Chaoyi Wu, Ziheng Zhao, Ya Zhang, Yanfeng Wang, Weidi Xie
In: MICCAI Workshop (Agentic AI for Medicine), 2025.
Arxiv | Code

AutoRG-Brain: Grounded Report Generation for Brain MRI.
Jiayu Lei, Xiaoman Zhang, Chaoyi Wu, Lisong Dai, Ya Zhang, Yanyong Zhang, Yanfeng Wang, Weidi Xie, Yuehua Li
In: IEEE Journal of Biomedical and Health Informatics (JBHI).
Arxiv | Model | Code

Unibrain: Universal brain mri diagnosis with hierarchical knowledge-enhanced pre-training
Jiayu Lei, Lisong Dai, Haoyun Jiang, Chaoyi Wu, Xiaoman Zhang, Yao Zhang, Jiangchao Yao, Weidi Xie, Yanyong Zhang, Yuehua Li, Ya Zhang, Yanfeng Wang
In: Computerized Medical Imaging and Graphics (CMIG), 2025.
Arxiv | Code

Computer Vision

Universal Video Temporal Grounding with Generative Multi-modal Large Language Models.
Zeqian Li, Shangzhe Di, Zhonghua Zhai, Weilin Huang, Yanfeng Wang, Weidi Xie
In Conference on Neural Information Processing Systems (NeurIPS), 2025.
Arxiv | Project Page

Character-Centric Understanding of Animated Movies.
Zhongrui Gui, Junyu Xie, Tengda Han, Weidi Xie, Andrew Zisserman
In: ACM Multimedia, 2025.
Arxiv | Project Page

Multi-Agent System for Comprehensive Soccer Understanding.
Jiayuan Rao, Zifeng Li, Haoning Wu, Ya Zhang, Yanfeng Wang, Weidi Xie
In: ACM Multimedia, 2025.
Arxiv | Project Page

Object-centric Video Question Answering with Visual Grounding and Referring.
Haochen Wang, Qirui Chen, Cilin Yan, Jiayin Cai, Xiaolong Jiang, Yao Hu, Weidi Xie, Stratis Gavves
In: International Conference on Computer Vision (ICCV) , 2025.
Arxiv | Project Page

Learning Streaming Video Representation via Multitask Training.
Yibin Yan, Jilan Xu, Shangzhe Di, Yikun Liu, Yudi Shi, Qirui Chen, Zeqian Li, Yifei Huang, Weidi Xie
In: International Conference on Computer Vision (ICCV) , 2025.
Arxiv | Project Page

Shot-by-Shot: Film-Grammar-Aware Training-Free Audio Description Generation.
unyu Xie, Tengda Han, Max Bain, Arsha Nagrani, Eshika Khandelwal, Gül Varol, Weidi Xie, Andrew Zisserman
In: International Conference on Computer Vision (ICCV) , 2025.
Arxiv | Project Page

Towards Universal Soccer Video Understanding.
Jiayuan Rao, Haoning Wu, Hao Jiang, Ya Zhang, Yanfeng Wang, Weidi Xie
In: Conference on Computer Vision and Pattern Recognition (CVPR) , 2025.
Arxiv | Project Page

Unlocking Video-LLM via Agent-of-Thoughts Distillation.
Yudi Shi, Shangzhe Di, Qirui Chen, Weidi Xie
In: Conference on Computer Vision and Pattern Recognition (CVPR) , 2025.
Arxiv | Project Page

LamRA: Large Multimodal Model as Your Advanced Retrieval Assistant.
Yikun Liu, Pingan Chen, Jiayin Cai, Xiaolong Jiang, Yao Hu, Jiangchao Yao, Yanfeng Wang, Weidi Xie
In: Conference on Computer Vision and Pattern Recognition (CVPR) , 2025.
Arxiv | Project Page

A Sanity Check for AI-generated Image Detection.
Shilin Yan, Ouxiang Li, Jiayin Cai, Yanbin Hao, Xiaolong Jiang, Yao Hu, Weidi Xie
In: The Thirteenth International Conference on Learning Representations (ICLR) , 2025.
Arxiv | Project Page | 公众号介绍

Track-On: Transformer-based Online Point Tracking with Memory.
Görkay Aydemir, Xiongyi Cai, Weidi Xie, Fatma Guney
In: The Thirteenth International Conference on Learning Representations (ICLR) , 2025.
Arxiv | Project Page | 公众号介绍

X-Gen: Ego-centric Video Prediction by Watching Exo-centric Videos.
Jilan Xu, Yifei Huang, Baoqi Pei, Junlin Hou, Qingqiu Li, Guo Chen, Yuejie Zhang, Rui Feng, Weidi Xie
In: The Thirteenth International Conference on Learning Representations (ICLR) , 2025.
Arxiv | Project Page

Modeling Fine-Grained Hand-Object Dynamics for Egocentric Video Representation Learning.
Baoqi Pei, Yifei Huang, Jilan Xu, Guo Chen, Yuping He, Lijin Yang, Yali Wang, Weidi Xie, Yu Qiao, Fei Wu, Limin Wang
In: The Thirteenth International Conference on Learning Representations (ICLR) , 2025.
Arxiv | Code

Grounded Multi-Hop VideoQA in Long-Form Egocentric Videos.
Qirui Chen, Shangzhe Di, Weidi Xie
In: Thirty-Ninth AAAI Conference on Artificial Intelligence (AAAI) , 2025
Arxiv | Project Page | 公众号介绍

Diagnosing Human-Object Interaction Detectors.
Fangrui Zhu, Yiming Xie, Weidi Xie, Huaizu Jiang
In: International Journal of Computer Vision, 2025. (IJCV, 5-year Impact Factor: ~14.5)
Paper | Project Page

2024

AI4Medicine

PMC-LLaMA: Towards Building Open-source Language Models for Medicine.
Chaoyi Wu*, Weixiong Lin*, Xiaoman Zhang, Ya Zhang, Yanfeng Wang, Weidi Xie
In: Journal of the American Medical Informatics Association, 2024. (JAMIA, Impact Factor: ~7.9)
Arxiv | Model | Code

Towards Building Multilingual Language Model for Medicine.
Pengcheng Qiu*, Chaoyi Wu*, Xiaoman Zhang, Weixiong Lin, Haicheng Wang, Ya Zhang, Yanfeng Wang, Weidi Xie
In: Nature Communications, 2024. (5-Year Impact Factor: ~16.1)
Paper | Code| Model| Dataset

Large-scale Long-tailed Disease Diagnosis on Radiology Images.
Qiaoyu Zheng, Weike Zhao, Chaoyi Wu, Xiaoman Zhang, Ya Zhang, Yanfeng Wang, Weidi Xie
In: Nature Communications, 2024. (5-Year Impact Factor: ~16.1)
Paper | Project Page

RaTEScore: A Metric for Radiology Report Generation.
Weike Zhao, Chaoyi Wu, Xiaoman Zhang, Ya Zhang, Yanfeng Wang, Weidi Xie
In: Empirical Methods in Natural Language Processing (EMNLP), 2024.
medRxiv | Code | Project Page

Knowledge-enhanced Visual-Language Pretraining for Computational Pathology.
Xiao Zhou, Xiaoman Zhang, Chaoyi Wu, Ya Zhang, Weidi Xie, Yanfeng Wang
In: European Conference on Computer Vision (ECCV), 2024.
Arxiv | Code | 公众号介绍

Sensorless Volumetric Reconstruction of Fetal Brain Freehand Ultrasound Scans with Deep Implicit Representation.
Pak-Hei Yeung, Linde S. Hesse, Moska Aliasi, Monique C. Haak, INTERGROWTH-21st Consortium, Weidi Xie, Ana I.L. Namburete
In: Medical Image Analysis, 2024. (Impact Factor: ~11)

Computer Vision

A General Protocol to Probe Large Vision Models for 3D Physical Understanding
Guanqi Zhan, Chuanxia Zheng, Weidi Xie, Andrew Zisserman
In: Conference on Neural Information Processing Systems (NeurIPS) , 2024.
Project Page | Arxiv

MatchTime: Towards Automatic Soccer Game Commentary Generation.
Jiayuan Rao, Haoning Wu, Chang Liu, Yanfeng Wang, Weidi Xie
In: Empirical Methods in Natural Language Processing (EMNLP), 2024.
Arxiv | Project Page | 公众号介绍

EchoSight: Advancing Visual-Language Models with Wiki Knowledge.
Yibin Yan, Weidi Xie
In: Empirical Methods in Natural Language Processing (EMNLP), 2024.
Arxiv | Code | Project Page

AutoAD-Zero: A Training-Free Framework for Zero-Shot Audio Description.
Junyu Xie, Tengda Han, Max Bain, Arsha Nagrani, Gül Varol, Weidi Xie, Andrew Zisserman
In: Asian Conference on Computer Vision (ACCV), 2024.
Arxiv | Project Page

Moving Object Segmentation: All You Need Is SAM (and Flow).
Junyu Xie, Charig Yang, Weidi Xie, Andrew Zisserman
In: Asian Conference on Computer Vision (ACCV), 2024.
Arxiv | Project Page

A Large-scale Dataset for Audio-Language Representation Learning.
Luoyi Sun, Xuenan Xu, Mengyue Wu, Weidi Xie
In: ACM Multimedia, 2024.
Project Page | Arxiv

Multi-Sentence Grounding for Long-term Instructional Video.
Zeqian Li*, Qirui Chen*, Tengda Han, Ya Zhang, Yanfeng Wang, Weidi Xie
In: European Conference on Computer Vision (ECCV), 2024.
Project Page | Paper

Appearance-based Refinement for Object-Centric Motion Segmentation.
Junyu Xie, Weidi Xie, Andrew Zisserman
In: European Conference on Computer Vision (ECCV), 2024.
Project Page | Paper

VISA: Reasoning Video Object Segmentation via Large Language Model.
Cilin Yan, Haochen Wang, Shilin Yan, Xiaolong Jiang, Yao Hu, Guolaing Kang, Weidi Xie, Efstratios Gavves
In: European Conference on Computer Vision (ECCV), 2024.
Code & Model | Paper

Made to Order: Discovering Monotonic Temporal Changes via Self-supervised Video Ordering.
Charig Yang, Weidi Xie, Andrew Zisserman
In: European Conference on Computer Vision (ECCV), 2024.
Project Page | Paper

Intelligent Grimm - Open-ended Visual Storytelling via Latent Diffusion Models.
Chang Liu*, Haoning Wu*, Yujie Zhong, Xiaoyun Zhang, Yanfeng Wang, Weidi Xie
In: Conference on Computer Vision and Pattern Recognition (CVPR) , 2024.
Project Page | Arxiv

AutoAD III: The Prequel -- Back to the Pixels.
Tengda Han, Max Bain, Arsha Nagrani, Gül Varol, Weidi Xie, Andrew Zisserman
In: Conference on Computer Vision and Pattern Recognition (CVPR) , 2024.
Project Page | Paper

InstaGen: Enhancing Object Detection by Training on Synthetic Dataset.
Chengjian Feng, Yujie Zhong, Zequn Jie^†, Weidi Xie^†, Lin Ma
In: Conference on Computer Vision and Pattern Recognition (CVPR) , 2024.
Project Page | Paper

Retrieval-Augmented Egocentric Video Captioning.
Jilan Xu, Yifei Huang, Junlin Hou, Guo Chen, Yuejie Zhang, Rui Feng, Weidi Xie
In: Conference on Computer Vision and Pattern Recognition (CVPR) , 2024.
Project Page | Paper

Grounded Question-Answering in Long Egocentric Videos.
Shangzhe Di, Weidi Xie
In: Conference on Computer Vision and Pattern Recognition (CVPR) , 2024.
Project Page | Paper

Amodal Ground Truth and Completion in the Wild.
Guanqi Zhan, Chuanxia Zheng, Weidi Xie, Andrew Zisserman
In: Conference on Computer Vision and Pattern Recognition (CVPR) , 2024.
Project Page | Paper

OV-DAR: Open-vocabulary Object Detection and Attributes Recognition.
Keyan Chen*, Xiaolong Jiang*, Yao Hu, Xu Tang, Yan Gao, Jianqi Chen, Weidi Xie
In: International Journal of Computer Vision, 2024. (IJCV, Impact Factor: ~19.5, Corr Author)
Project Page | Journal Version

OV-VIS: Open-Vocabulary Video Instance Segmentation.
Haochen Wang, Shuai Wang, Cilin Yan, Xiaolong Jiang, Xu Tang, Yao Hu, Weidi Xie^†, Efstratios Gavves
In: International Journal of Computer Vision, 2024. (IJCV, Impact Factor: ~19.5, Corr Author)
Code | Journal Version

2023

AI4Medicine

Can GPT-4V(ision) Serve Medical Applications ? Case Studies on GPT-4V for Multimodal Medical Diagnosis.
Chaoyi Wu*, Jiayu Lei*, Qiaoyu Zheng*, Weike Zhao*, Weixiong Lin*, Xiaoman Zhang*, Xiao Zhou*, Ziheng Zhao*,
Ya Zhang, Yanfeng Wang, Weidi Xie
Technical Report, 2023.
Project Page | Paper

Knowledge-enhanced Pre-training for Auto-diagnosis of Chest Radiology Images.
Xiaoman Zhang, Chaoyi Wu, Ya Zhang, Yanfeng Wang, Weidi Xie
In: Nature Communications, 2023. (5-Year Impact Factor: ~16.1)
Project Page | Code & Model | Paper

MedKLIP: Medical Knowledge Enhanced Language-Image Pre-Training.
Chaoyi Wu, Xiaoman Zhang, Ya Zhang, Yanfeng Wang, Weidi Xie
In: International Conference on Computer Vision (ICCV) , 2023.
Project Page | Code & Model | Arxiv

PMC-CLIP: Contrastive Language-Image Pre-training using Biomedical Documents.
Weixiong Lin*, Ziheng Zhao*, Xiaoman Zhang, Chaoyi Wu, Ya Zhang, Yanfeng Wang, Weidi Xie
In: International Conference on Medical Image Computing and Computer Assisted Intervention (MICCAI), 2023.
MICCAI Young Scientist Publication Impact Award, Finalist
Project Page | Code & Model | Arxiv

Deep Facial Phenotyping with Mixup Augmentation.
Jonathan Campbell, Mitchell Dawson, Andrew Zisserman, Weidi Xie, Christoffer Nellåker
In: Annual Conference on Medical Image Understanding and Analysis.
Paper

K-Diag: Knowledge-enhanced Disease Diagnosis in Radiographic Imaging.
Chaoyi Wu*, Xiaoman Zhang*, Yanfeng Wang, Ya Zhang, Weidi Xie
In: Big Task Small Data, 1001-AI, MICCAI 2023 Workshop (Oral).
Project Page | Arxiv

Self-supervised Tumor Segmentation with Sim2Real Adaptation.
Xiaoman Zhang, Weidi Xie, Chaoqin Huang, Ya Zhang, Xin Chen, Qi Tian, Yanfeng Wang
In: IEEE Journal of Biomedical and Health Informatics, 2023. (Impact Factor: ~7)
Project Page | Arxiv

Computer Vision

Self-supervised Object-Centric Learning for Videos.
Görkay Aydemir, Weidi Xie, Fatma Güney
In: Conference on Neural Information Processing Systems (NeurIPS) , 2023.
Project Page | Arxiv

Zero-shot Composed Text-Image Retrieval.
Yikun Liu, Jiangchao Yao, Yanfeng Wang, Ya Zhang, Weidi Xie
In: British Machine Vision Conference (BMVC) , 2023.
Project Page | Arxiv

Boost Video Frame Interpolation via Simple Motion Adaptation.
Haoning Wu, Xiaoyun Zhang, Weidi Xie, Ya Zhang, Yanfeng Wang
In: British Machine Vision Conference (BMVC) , 2023. (Oral)
Project Page | Arxiv

Annotation-free Audio-Visual Segmentation.
Jinxiang Liu, Yu Wang, Chen Ju, Ya Zhang, Weidi Xie
In: IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), 2023.
Project Page | Arxiv

Open-vocabulary Object Segmentation with Diffusion Models.
Ziyi Li*, Qinye Zhou*, Xiaoyun Zhang, Ya Zhang, Yanfeng Wang, Weidi Xie
In: International Conference on Computer Vision (ICCV) , 2023.
Project Page | Code & Model | Arxiv

AutoAD II: The Sequel – Who, When, and What in Movie Audio Description.
Tengda Han, Max Bain, Arsha Nagrani, Gül Varol, Weidi Xie, Andrew Zisserman
In: International Conference on Computer Vision (ICCV) , 2023.
Project Page | Paper

The Making and Breaking of Camouflage.
Hala Lamdouar, Weidi Xie, Andrew Zisserman
In: International Conference on Computer Vision (ICCV) , 2023.
Paper

Towards Open-Vocabulary Video Instance Segmentation.
Haochen Wang, Shuai Wang, Cilin Yan, Xiaolong Jiang, Xu Tang, Yao Hu, Weidi Xie*, Efstratios Gavves
In: International Conference on Computer Vision (ICCV) , 2023.
Project Page | Arxiv

Joint-Relation Transformer for Multi-person Motion Prediction.
Qingyao Xu, Weibo Mao, Jingze Gong, Chenxin Xu, Siheng Chen, Weidi Xie, Ya Zhang, Yanfeng Wang
In: International Conference on Computer Vision (ICCV) , 2023.
Arxiv

Multi-Modal Classifiers for Open-Vocabulary Object Detection.
Prannay Kaul, Weidi Xie, Andrew Zisserman
In: International Conference on Machine Learning (ICML) , 2023.
Project Page | Arxiv

Diagnosing Human-object Interaction Detectors.
Fanrui Zhu, Fangrui Zhu, Yiming Xie, Weidi Xie, Huaizu Jiang
Technical Report, 2023.
Code | Arxiv

arXiVeri: Automatic Table Verification with GPT.
Gyungin Shin, Weidi Xie, Samuel Albanie
Technical Report, 2023.
Project Page | Arxiv

Namedmask: Distilling Segmenters from Complementary Foundation Models.
Gyungin Shin, Weidi Xie, Samuel Albanie,
In: CVPR Workshop , 2023.
Project Page | Arxiv

Zero-shot Unsupervised Transfer Instance Segmentation.
Gyungin Shin, Samuel Albanie, Weidi Xie
In: CVPR Workshop , 2023. (Best Paper Award)
Project Page | Arxiv

AutoAD: Movie Description in Context.
Tengda Han, Max Bain, Arsha Nagrani, Gül Varol, Weidi Xie, Andrew Zisserman
In: Conference on Computer Vision and Pattern Recognition (CVPR) , 2023. (Highlight)
Project Page | Arxiv

Collaboration Helps Camera Overtake LiDAR in 3D Detection.
Yue Hu, Yifan Lu, Runsheng Xu, Weidi Xie, Siheng Chen, Yanfeng Wang
In: Conference on Computer Vision and Pattern Recognition (CVPR) , 2023.
Arxiv | Dataset | Code

OvarNet: Towards Open-vocabulary Object Attribute Recognition.
Keyan Chen*, Xiaolong Jiang*, Yao Hu, Xu Tang, Yan Gao, Jianqi Chen, Weidi Xie
In: Conference on Computer Vision and Pattern Recognition (CVPR) , 2023.
Project Page | Arxiv

Learning Open-vocabulary Semantic Segmentation Models From Natural Language Supervision.
Jilan Xu, Junlin Hou, Yuejie Zhang, Rui Feng, Yi Wang, Yu Qiao, Weidi Xie
In: Conference on Computer Vision and Pattern Recognition (CVPR) , 2023.
Project Page | Arxiv

Multi-modal Prompting for Low-Shot Temporal Action Localization.
Chen Ju, Zeqian Li, Peisen Zhao, Ya Zhang, Xiaopeng Zhang, Qi Tian, Yanfeng Wang, Weidi Xie
Technical Report, 2023.
Arxiv

Aerial Monocular 3d Object Detection.
Yue Hu, Shaoheng Fang, Weidi Xie, Siheng Chen
In: IEEE Robotics and Automation Letters (RA-L), 2023. (Impact Factor: ~4)
Project Page | Arxiv

2022

Turbo Training with Token Dropout.
Tengda Han, Weidi Xie, Andrew Zisserman
In: British Machine Vision Conference (BMVC) , 2022.
Project Page | Arxiv

A Simple Plugin for Transforming Images to Arbitrary Scales.
Qinye Zhou, Ziyi Li, Weidi Xie^†, Xiaoyun Zhang, Ya Zhang, Yanfeng Wang†
In: British Machine Vision Conference (BMVC) , 2022.
Project Page | Arxiv

Sparse in Space and Time: Audio-visual Synchronisation with Trainable Selectors.
Vladimir Iashin, Weidi Xie, Esa Rahtu, Andrew Zisserman
In: British Machine Vision Conference (BMVC) , 2022. (Spotlight)
Project Page | Arxiv

CounTR: Transformer-based Generalised Visual Counting.
Chang Liu, Yujie Zhong, Andrew Zisserman, Weidi Xie
In: British Machine Vision Conference (BMVC) , 2022.
Project Page | Arxiv

K-Space Transformer for Fast MRI Reconstruction.
Ziheng Zhao, Tianjiao Zhang, Weidi Xie†, Yanfeng Wang†, Ya Zhang
In: British Machine Vision Conference (BMVC) , 2022.
Project Page | Arxiv

Open-vocabulary Semantic Segmentation with Frozen Vision-Language Models.
Chaofan Ma, Yuhuan Yang, Yanfeng Wang, Ya Zhang, Weidi Xie
In: British Machine Vision Conference (BMVC) , 2022. (Oral Presentation)
Arxiv | Code

A Tri-Layer Plugin to Improve Occluded Detection.
Guanqi Zhan, Weidi Xie, Andrew Zisserman
In: British Machine Vision Conference (BMVC) , 2022. (Oral Presentation)
Project Page | Arxiv

Associating Objects and Their Effects in Video through Coordination Games.
Erika Lu, Forrester Cole, Weidi Xie, Tali Dekel, William T. Freeman, Andrew Zisserman, Michael Rubinstein
In: Conference on Neural Information Processing Systems (NeurIPS) , 2022.
Project Page | Paper

ReCo: Retrieve and Co-segment for Zero-shot Transfer.
Gyungin Shin, Weidi Xie, Samuel Albanie
In: Conference on Neural Information Processing Systems (NeurIPS) , 2022.
Project Page | Arxiv

Segmenting Moving Objects via an Object-Centric Layered Representation.
Junyu Xie, Weidi Xie, Andrew Zisserman
In: Conference on Neural Information Processing Systems (NeurIPS) , 2022.
Project Page | Arxiv

Prompting Visual-Language Models for Efficient Video Understanding.
Chen Ju, Tengda Han, Kunhao Zheng, Ya Zhang, Weidi Xie
In: European Conference on Computer Vision (ECCV) , 2022
Project Page | Arxiv

PromptDet: Expand Your Detector Vocabulary with Uncurated Images.
Chengjian Feng, Yujie Zhong, Zequn Jie, Xiangxiang Chu, Haibing Ren, Xiaolin Wei, Weidi Xie†, Lin Ma
In: European Conference on Computer Vision (ECCV) , 2022
Project Page | Arxiv

Exploiting Transformation Invariance and Equivariance for Self-supervised Sound Localisation.
Jinxiang Liu, Chen Ju, Weidi Xie, Ya Zhang
In: ACM Multimedia , 2022.
Project Page | Arxiv

Adaptive 3D Localization of 2D Freehand Ultrasound Brain Images.
Pak-Hei Yeung, Moska Aliasi, Monique Haak, the INTERGROWTH-21, Weidi Xie, Ana I.L. Namburete
In: International Conference on Medical Image Computing and Computer Assisted Intervention (MICCAI), 2022.
Project Page | Arxiv

Transforming the Interactive Segmentation for Medical Imaging.
Wentao Liu, Chaofan Ma, Yuhuan Yang, Weidi Xie, Ya Zhang
In: International Conference on Medical Image Computing and Computer Assisted Intervention (MICCAI), 2022. (Early Accept)
Project Page | Arxiv

Temporal Alignment Networks for Long-term Video.
Tengda Han, Weidi Xie, Andrew Zisserman
In: Conference on Computer Vision and Pattern Recognition (CVPR) , 2022. (Oral Presentation)
Project Page | Arxiv

Label, Verify, Correct: A Simple Few Shot Object Detection Method.
Prannay Kaul, Weidi Xie, Andrew Zisserman
In: Conference on Computer Vision and Pattern Recognition (CVPR) , 2022.
Project Page | Arxiv

It's About Time: Analog Clock Reading in the Wild.
Charig Yang, Weidi Xie, Andrew Zisserman
In: Conference on Computer Vision and Pattern Recognition (CVPR) , 2022.
Project Page | Arxiv

Unsupervised Salient Object Detection with Spectral Cluster Voting.
Gyungin Shin, Samuel Albanie, Weidi Xie
In: Conference on Computer Vision and Pattern Recognition, L3D-IVU Workshop , 2022.
Code | Arxiv

Quantum Self-supervised Learning.
Ben Jaderberg, Lewis W. Anderson, Weidi Xie, Samuel Albanie, Martin Kiffner, Dieter Jaksch
In: Quantum Science and Technology, 2022 (Impact Factor: ~5.2)
Code | Arxiv

Subcortical Segmentation Of The Fetal Brain in 3D Ultrasound Using Deep Learning.
Linde S.Hesse, Moska Aliasi, Felipe Moser, the INTERGROWTH-21st Consortium, Monique C. Haak, Weidi Xie, Mark Jenkinson, Ana I.L. Namburete
In: NeuroImage, Volume 254, July, 2022. (Impact Factor: ~6.5)
Link

2021

ImplicitVol: Sensorless 3D Ultrasound Reconstruction with Deep Implicit Representation.
Pak-Hei Yeung, Linde Hesse, Moska Aliasi, Monique Haak, the INTERGROWTH-21st Consortium, Weidi Xie*, Ana I.L. Namburete*
Project Page | Arxiv

Segmenting Invisible Moving Objects.
Hala Lamdouar, Weidi Xie, Andrew Zisserman
In: British Machine Vision Conference (BMVC), 2021.
Project Page | Paper
Audio-Visual Synchronisation In the Wild.
Honglie Chen, Weidi Xie, Triantafyllos Afouras, Arsha Nagrani, Andrea Vedaldi, Andrew Zisserman
In: British Machine Vision Conference (BMVC), 2021.
Project Page | Paper
All You Need Are a Few Pixels: Semantic Segmentation with PixelPick.
Gyungin Shin, Weidi Xie, Samuel Albanie
In: International Conference on Computer Vision (ICCV), ILDAV Workshop , 2021. (Best Paper Award)
Project Page | Arxiv
NeRF--: Neural Radiance Fields Without Known Camera Parameters.
Zirui Wang, Shangzhe Wu, Weidi Xie, Min Chen, Victor Adrian Prisacariu
Project Page | Arxiv
Self-supervised Video Object Segmentation by Motion Grouping.
Charig Yang, Hala Lamdouar, Erika Lu, Andrew Zisserman, Weidi Xie
In: International Conference on Computer Vision (ICCV), 2021.
Project Page | Arxiv
Sli2Vol: Annotate a 3D Volume from a Single Slice with Self-Supervised Learning.
Pak Hei Yeung, Ana I.L. Namburete, Weidi Xie
In: International Conference on Medical Image Computing and Computer Assisted Intervention (MICCAI), 2021.
Project Page | Arxiv
Self-supervised Video Object Segmentation by Motion Grouping (Short Version).
Charig Yang, Hala Lamdouar, Erika Lu, Andrew Zisserman, Weidi Xie
In: Conference on Computer Vision and Pattern Recognition (CVPR), RVSU Workshop , 2021. (Best Paper Award)
Project Page | Arxiv
Localizing Visual Sounds the Hard Way.
Honglie Chen, Weidi Xie, Triantafyllos Afouras, Arsha Nagrani, Andrea Vedaldi, Andrew Zisserman
In: Conference on Computer Vision and Pattern Recognition (CVPR), 2021
Project Page | Arxiv

Learning to Map 2D Ultrasound Images into 3D Space with Minimal Human Annotation.
Pak-Hei Yeung, Moska Aliasi, Aris T. Papageorghiou, Monique Haak, Weidi Xie, Ana I.L. Namburete.
In: Medical Image Analysis, 2021. (Impact Factor: ~11)
Project Page | Paper

2020

VoxSRC 2020: The Second VoxCeleb Speaker Recognition Challenge.
Arsha Nagrani, Joon Son Chung, Jaesung Huh, Andrew Brown, Ernesto Coto, Weidi Xie, Mitchell McLaren, Douglas A Reynolds, Andrew Zisserman.
Tech Report

Self-supervised Co-training for Video Representation Learning.
Tengda Han, Weidi Xie, Andrew Zisserman
In: Conference on Neural Information Processing Systems (NeurIPS) , 2020.
Arxiv | Project Page | Code & Model

Betrayed by Motion: Camouflaged Object Discovery via Motion Segmentation.
Hala Lamdouar, Charig Yang, Weidi Xie, Andrew Zisserman
In: Asian Conference on Computer Vision (ACCV), 2020.
Arxiv | PDF | Project Page

Layered Neural Rendering for Retiming People in Video.
Erika Lu, Forrester Cole, Tali Dekel, Weidi Xie, Andrew Zisserman, David Salesin, William T. Freeman, Michael Rubinstein
In: ACM Transactions on Graphics (TOG). Proc. SIGGRAPH Asia , 2020
Arxiv | Project Page

Inducing Predictive Uncertainty Estimation for Face Recognition.
Weidi Xie, Jeffrey Byrne, Andrew Zisserman
In: British Machine Vision Conference (BMVC) , 2020
Arxiv | PDF

Smooth-AP: Smoothing the Path Towards Large-Scale Image Retrieval.
Andrew Brown, Weidi Xie, Vicky Kalogeiton, Andrew Zisserman
In: European Conference on Computer Vision (ECCV) , 2020
Arxiv | Project Page | Code & Model

Memory-augmented Dense Predictive Coding for Video Representation Learning.
Tengda Han, Weidi Xie, Andrew Zisserman
In: European Conference on Computer Vision (ECCV) , 2020 (Spotlight Presentation)
Arxiv | Project Page | Code & Model

MAST: A Memory-Augmented Self-Supervised Tracker.
Zihang Lai, Erika Lu, Weidi Xie
In: Conference on Computer Vision and Pattern Recognition (CVPR), 2020
Arxiv | Project Page | Code & Model

VGG-Sound: A Large-Scale Audio-Visual Dataset.
Honglie Chen, Weidi Xie, Andrea Vedaldi, Andrew Zisserman
In: International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2020
Arxiv | PDF | Project Page | Code & Model

Low-Memory CNNs Enabling Real-Time Ultrasound Segmentation Towards Mobile Deployment.
Sagar Vaze, Weidi Xie, Ana Namburete.
In: IEEE Journal of Biomedical and Health Informatics, 2020. (Impact Factor: ~7)
Project Page | Code

VoxCeleb: Large-scale Speaker Verification in the Wild.
Arsha Nagrani*, Joon Son Chung*, Weidi Xie*, Andrew Zisserman. (* indicates equal contribution)
In: Computer Speech & Language, 2020. (Impact Factor: ~1.8)
Paper

2019

VoxSRC 2019: The first VoxCeleb Speaker Recognition Challenge.
Joon Son Chung, Arsha Nagrani, Ernesto Coto, Weidi Xie, Mitchell McLaren, Douglas A Reynolds, Andrew Zisserman.
Tech Report

Video Representation Learning by Dense Predictive Coding.
Tengda Han, Weidi Xie, Andrew Zisserman
In: 1st International Workshop on Large-scale Holistic Video Understanding, ICCV, 2019. (Oral Presentation)
Arxiv | Project Page | Code

Self-supervised Learning for Video Correspondence Flow.
Zihang Lai, Weidi Xie
In: British Machine Vision Conference (BMVC), 2019. (Oral Presentation)
Arxiv | Project Page

AutoCorrect: Deep Inductive Alignment of Noisy Geometric Annotations.
Honglie Chen, Weidi Xie, Andrea Vedaldi, Andrew Zisserman.
In: British Machine Vision Conference (BMVC), 2019. (Spotlight Presentation)
Arxiv | PDF

Geometry-Aware Corner Network for Video Object Detection from Static Cameras.
Dan Xu, Weidi Xie, Andrew Zisserman.
In: British Machine Vision Conference (BMVC), 2019. (Oral Presentation)
Arxiv | PDF

Utterance-level Aggregation for Speaker Recognition in the Wild.
Weidi Xie, Arsha Nagrani, Joon Son Chung, Andrew Zisserman.
In: International Conference on Acoustics, Speech, and Signal Processing (ICASSP), 2019. (Oral Presentation)
Arxiv | Project Page | Code & Model

2018

Comparator Networks.
Weidi Xie, Li Shen, Andrew Zisserman
In: European Conference on Computer Vision (ECCV), 2018.
Arxiv | PDF

Multicolumn Networks on Face Recognition.
Weidi Xie, Andrew Zisserman
In: British Machine Vision Conference (BMVC), 2018.
Arxiv | PDF | Code & Model | Bibtex

Class-Agnostic Counting.
Erika Lu, Weidi Xie, Andrew Zisserman
In: Asian Conference on Computer Vision (ACCV), 2018.
Arxiv | Project Page | Bibtex

VGGFace2: A Dataset for Recognising Faces Across Pose and Age.
Qiong Cao, Li Shen, Weidi Xie, Omkar M. Parkhi and Andrew Zisserman
In: IEEE International Conference on Automatic Face and Gesture Recognition (F&G), 2018. (Oral Presentation)
Arxiv | PDF | Project Page | Bibtex

Omega-Net: Fully Automatic, Multi-View Cardiac MR Detection, Orientation, and Segmentation with Deep Neural Networks.
Weidi Xie*, Davis M. Vigneault*, Carolyn Y. Ho, David A. Bluemke and J. Alison Noble (*joint first author)
In: Medical Image Analysis, Volume 48, Pages 95, August 2018. (Impact Factor: ~11)
Arxiv | Paper

VP-Nets: Efficient Automatic Localization of Key Brain Structures in 3D Fetal Neurosonography.
Ruobing Huang, Weidi Xie and J. Alison Noble
In: Medical Image Analysis, Volume 47, Pages 127, July 2018. (Impact Factor: ~11)
Paper

Fully-Automated Alignment of 3D Fetal Brain Ultrasound to a Canonical Reference Space Using Multi-task Learning.
Weidi Xie*, Ana I.L. Namburete*, Mohammad Yaqub, Andrew Zisserman and J. Alison Noble (*joint first author)
In: Medical Image Analysis, Volume 46, Pages 1, May 2018. (Impact Factor: ~11)
Paper

2017

Feature Tracking Cardiac Magnetic Resonance via Deep Learning and Spline Optimization.
Davis M. Vigneaulta, Weidi Xie, David A. Bluemke and J. Alison Noble
In: Functional Imaging and Modelling of the Heart (FIMH), 2017. (Best Poster Award)
Arxiv | Paper

Robust Regression of Brain Maturation from 3D Fetal Neurosonography using CRNs.
Ana I.L. Namburete, Weidi Xie and J. Alison Noble
In: MICCAI Workshop on Fetal and InFant Image analysis (FIFI), 2017. (Best Paper Award)
Paper

2016

Microscopy Cell Counting and Detection with Fully Convolutional Regression Networks.
Weidi Xie, J. Alison Noble and Andrew Zisserman
In: MICCAI 1st Deep Learning Workshop, 2015.
In: Computer Methods in Biomechanics and Biomedical Engineering: Imaging & Visualization, 2016. (Biannual Best Journal Article)
Paper | Code | Award

Based on a template by Jon Barron