Évaluation
Les nodes d'évaluation vérifient la qualité des réponses générées par l'IA. C'est comme avoir un contrôle qualité automatique dans votre workflow. Au lieu de vérifier manuellement chaque réponse, ces nodes le font pour vous et attribuent un score.
Evaluate Relevance
Tip
Evaluate Relevance vérifie si la réponse de l'IA répond effectivement à la question posée. Il attribue un score de 1 (pas du tout pertinent) à 5 (parfaitement pertinent). Si le score est en dessous du seuil, le résultat est marqué comme « non passé ».
Exemple
Question : « Quel est le prix du plan Pro ? ». Réponse : « Le plan Pro coûte 49€/mois ». Score : 5/5 — la réponse répond directement à la question. Si la réponse était « Nos plans sont très compétitifs », le score serait 2/5 — pertinent au sujet mais ne répond pas à la question.
Note
Warning
Evaluate Faithfulness
Tip
Evaluate Faithfulness vérifie si la réponse est fidèle aux documents sources (le contexte). En d'autres termes : est-ce que l'IA a inventé des choses (hallucination) ou est-ce que tout ce qu'elle dit est basé sur les documents fournis ? Score de 1 (totalement inventé) à 5 (totalement fidèle).
Exemple
Les documents disent « Le plan Pro coûte 49€/mois ». L'IA répond « Le plan Pro coûte 49€/mois et inclut un support 24/7 ». Si le support 24/7 n'est pas mentionné dans les documents, le score de fidélité baisse car l'IA a ajouté une information non vérifiée.
Note
Warning
LLM Judge
Tip
LLM Judge fait une évaluation complète sur plusieurs dimensions : pertinence (répond-il à la question ?), fidélité (est-ce basé sur les sources ?), et complétude (est-ce que la réponse est complète ?). C'est l'évaluation la plus approfondie, idéale pour les cas critiques.
Exemple
Après qu'un workflow ait généré une réponse client, LLM Judge l'évalue : pertinence 4/5, fidélité 5/5, complétude 3/5. Le score global est 4/5 — la réponse passe. Le raisonnement note que la réponse pourrait mentionner les exceptions à la politique.
Note
Warning