Releases · confident-ai/deepeval

Automatically integrated with Confident AI for continous evaluation throughout the lifetime of your LLM (app):

-log evaluation results and analyze metrics pass / fails
-compare and pick the optimal hyperparameters (eg. prompt templates, chunk size, models used, etc.) based on evaluation results
-debug evaluation results via LLM traces
-manage evaluation test cases / datasets in one place
-track events to identify live LLM responses in production
-add production events to existing evaluation datasets to strength evals over time

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Releases: confident-ai/deepeval

Continuous Evaluation

Continuous Evaluation

Evaluate entire datasets

Judgemental GPT

v0.20.17

v0.20.16

v0.20.15

v0.20.14

v0.20.13

v0.20.12