Models tagged "multimodal-embedding"

Embed images and text into a shared CLIP vector space for similarity search, cross-modal retrieval, and zero-shot classi...

🖼️ • image-embedding • text-embedding • multimodal-retrieval • 430 runs

Create 768-dimensional CLIP (ViT-L/14) embeddings from text or images. Embed both modalities into a shared vector space...

🖼️ • text-embedding • image-embedding • multimodal-embedding • 1.2M runs

Create multilingual text and image embeddings for cross-modal retrieval and semantic search. Accepts text (up to 8192 to...

🖼️ • text-embedding • image-embedding • multimodal-embedding • 655.0K runs

Compute CLIP embeddings for batches of text and images. Accept multiple newline-separated inputs and return one vector e...

🖼️ • text-embedding • image-embedding • multimodal-embedding • 14 runs