IAAR-Shanghai

🏢 Organization

5 repositories on SrcLog

5 Repos

785 Stars

55 Forks

785 Watchers

Repositories (5)

CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models

[ICLR 2025] xFinder: Large Language Models as Automated Evaluators for Reliable Evaluation

[ACL 2024] User-friendly evaluation framework: Eval Suite & Benchmarks: UHGEval, HaluEval, HalluQA, etc.

xVerify: Efficient Answer Verifier for Reasoning Model Evaluations

[ACL 2024 Main] NewsBench: A Systematic Evaluation Framework for Assessing Editorial Capabilities of Large Language Models in Chinese Journalism