Évaluation

Les nodes d'évaluation vérifient la qualité des réponses générées par l'IA. C'est comme avoir un contrôle qualité automatique dans votre workflow. Au lieu de vérifier manuellement chaque réponse, ces nodes le font pour vous et attribuent un score.

Evaluate Relevance

Tip

Imaginez un prof qui corrige une copie d'examen. Il ne vérifie qu'une chose : « Est-ce que l'élève a répondu à la question posée ? ». Pas le style, pas la grammaire — juste la pertinence.

Evaluate Relevance vérifie si la réponse de l'IA répond effectivement à la question posée. Il attribue un score de 1 (pas du tout pertinent) à 5 (parfaitement pertinent). Si le score est en dessous du seuil, le résultat est marqué comme « non passé ».

Exemple

Question : « Quel est le prix du plan Pro ? ». Réponse : « Le plan Pro coûte 49€/mois ». Score : 5/5 — la réponse répond directement à la question. Si la réponse était « Nos plans sont très compétitifs », le score serait 2/5 — pertinent au sujet mais ne répond pas à la question.

Note

✅ Utilisez-le pour vérifier automatiquement que vos réponses IA sont pertinentes, surtout en production.

Warning

❌ Pas nécessaire pendant le développement/test si vous vérifiez manuellement.

Evaluate Faithfulness

Tip

Imaginez un juge qui vérifie qu'un témoin ne dit que ce qu'il a réellement vu — pas d'invention, pas d'exagération. Ce node vérifie que l'IA ne dit que ce qui est dans les documents sources.

Evaluate Faithfulness vérifie si la réponse est fidèle aux documents sources (le contexte). En d'autres termes : est-ce que l'IA a inventé des choses (hallucination) ou est-ce que tout ce qu'elle dit est basé sur les documents fournis ? Score de 1 (totalement inventé) à 5 (totalement fidèle).

Exemple

Les documents disent « Le plan Pro coûte 49€/mois ». L'IA répond « Le plan Pro coûte 49€/mois et inclut un support 24/7 ». Si le support 24/7 n'est pas mentionné dans les documents, le score de fidélité baisse car l'IA a ajouté une information non vérifiée.

Note

✅ Utilisez-le quand la fiabilité des réponses est critique (juridique, médical, financier) et que vous voulez détecter les hallucinations.

Warning

❌ Pas nécessaire pour de la rédaction créative où l'IA est autorisée à inventer.

LLM Judge

Tip

Au lieu d'un seul correcteur, imaginez un jury complet avec 3 juges : un vérifie la pertinence, un vérifie la fidélité, un vérifie la complétude. Le verdict combine les trois avis.

LLM Judge fait une évaluation complète sur plusieurs dimensions : pertinence (répond-il à la question ?), fidélité (est-ce basé sur les sources ?), et complétude (est-ce que la réponse est complète ?). C'est l'évaluation la plus approfondie, idéale pour les cas critiques.

Exemple

Après qu'un workflow ait généré une réponse client, LLM Judge l'évalue : pertinence 4/5, fidélité 5/5, complétude 3/5. Le score global est 4/5 — la réponse passe. Le raisonnement note que la réponse pourrait mentionner les exceptions à la politique.

Note

✅ Utilisez-le pour les évaluations les plus importantes : production critique, audit qualité, benchmarking de vos workflows.

Warning

❌ Pas nécessaire pour des vérifications rapides — utilisez Relevance ou Faithfulness individuellement (plus rapide, moins cher).