Loading...

← emma-w1's Projects

CALM-RAG500

BLUFF-1000 is a comprehensive benchmark that evaluates the factuality, faithfulness, and uncertainty expression abilities of RAG models. It contains 500 questions and 1000 evaluation instances.

View User Github

12.45 hours

CALM-RAG500

CALM-RAG500

BLUFF-1000 is a comprehensive benchmark that evaluates the factuality, faithfulness, and uncertainty expression abilities of RAG models. It contains 500 questions and 1000 evaluation instances.

12.45 hours

View Code Live Demo