Models tagged "safety-classification"

Sort by:

Found 4 models (showing 1-4)

Classify text prompts, model responses, and multiple images for safety policy compliance. Accepts text and a list of ima...

content-moderation • safety-classification • llm-guardrails • 15.5K runs

Moderate LLM conversations by classifying user prompts and assistant responses as SAFE or UNSAFE and listing violated po...

content-moderation • text-classification • guardrails • 734.9K runs

Moderate text prompts and assistant responses for safety policy compliance. Accepts a user prompt and/or an assistant me...

content-moderation • safety-classification • 26 runs

Classify text for safety policy compliance. Takes a user prompt and/or an assistant response and returns a safe/unsafe l...

content-moderation • safety-classification • 356.7K runs