Un encodeur à double tour de 400M paramètres pour les tâches de classification d'images médicales, de récupération et d'inférence zéro-shot.
MedSigLIP MedSigLIP est un encodeur à double tour léger de 400M paramètres (vision + texte) qui prend en charge les images 448×448 et les entrées de texte jusqu'à 64 tokens. Publié le 9 juillet 2025, dans le cadre du projet Health AI Developer Foundations de Google.
Le modèle est entraîné sur des données d'imagerie médicale diverses incluant les radiographies thoraciques, la dermatologie, l'ophtalmologie, les lames de pathologie et les scanners CT/IRM avec leurs rapports correspondants. Les images naturelles sont également incluses pour maintenir les capacités de généralisation.
MedSigLIP est spécifiquement conçu pour les tâches de classification efficace en données, de classification zéro-shot et de récupération sémantique d'images. Pour les tâches de génération de texte, Google recommande d'utiliser MedGemma à la place.
Health AI Developer Foundations
2025-07-09 UTC
Construit sur la base SigLIP avec spécialisation médicale
Architecture à double tour avec encodeurs de vision et de texte
Traitement d'images médicales haute résolution
Compréhension de texte médical et de rapports
Images médicales + rapports + images naturelles
Optimisé pour les tâches de classification et de récupération
Entraînez des classificateurs avec des données médicales étiquetées minimales en utilisant des représentations pré-entraînées
Classifiez des images médicales sans entraînement spécifique à la tâche en utilisant des descriptions textuelles
Trouvez des images médicales pertinentes en utilisant des requêtes en langage naturel
Pour les tâches de génération de texte, utilisez MedGemma à la place
Performance compétitive sur les tâches d'imagerie médicale
Les métriques de performance varient selon le domaine médical spécifique et la configuration de la tâche. Consultez la carte officielle du modèle pour des benchmarks détaillés.
Get started with MedSigLIP in your projects
Download MedSigLIP from the official repository or use via API
# Example: Loading MedSigLIP
from transformers import AutoModel, AutoProcessor
model = AutoModel.from_pretrained("google/medsiglip")
processor = AutoProcessor.from_pretrained("google/medsiglip")
Format medical images (448×448) and text descriptions (≤64 tokens)
Choose from classification, zero-shot inference, or retrieval applications
Official links and community resources
Complete documentation and API reference
Detailed model specifications and performance metrics
Code examples, notebooks, and implementation guides
Complete HAI-DEF project overview
Industry analysis of MedGemma and MedSigLIP release
In-depth coverage of Google's healthcare AI initiatives
Choose the right model for your use case
Lightweight Encoder
Classification, retrieval, and embedding tasks
Generative Models
Text generation, conversation, and complex reasoning
Important considerations for medical AI deployment
MedSigLIP is a research model and is not intended for direct clinical decision-making. All medical AI applications require proper validation, regulatory compliance, and human oversight.
Thorough testing and validation needed before clinical deployment
Ensure compliance with local healthcare regulations and standards
Medical professionals must review and validate all AI-generated outputs
Follow HIPAA and other privacy regulations when handling medical data