fix: Refine AI performance evaluation insights and clarify limitations in low-code certification exam report

experdot · experdot · commit 51e272d89ff4 · 2025-08-07T10:05:28.000+08:00
diff --git a/tools/gc-qa-rag-eval/让LLM做低代码考试谁会胜出.md b/tools/gc-qa-rag-eval/让LLM做低代码考试谁会胜出.md
@@ -95,7 +95,7 @@
     从成绩上看，AI 在回答基础理论（科目一）题目时表现出色，但在处理侧重实际操作步骤（科目二）的题目时，正确率有明显下降。这表明 AI 能够很好地记忆和复述知识点，但在将理论知识转化为具体的、一步步的实践指导方面仍有困难，存在知识迁移的挑战。
 
 2.  **知识的“脆弱性”**
-    首先，AI 的回答并非 100%准确，仍存在 10%至 30%的错误率，在关键业务场景下，错误的答案可能带来风险。其次，AI 的知识是静态的。随着活字格产品功能的迭代更新，如果知识库未能及时同步，AI 的回答很快就会过时，这对其在实际应用中的可靠性提出了持续维护的要求。
+    首先，AI 的回答仍存在 10%至 30%的错误率，在关键业务场景下，错误的答案可能带来风险。其次，AI 的知识是静态的。随着活字格产品功能的迭代更新，如果知识库未能及时同步，AI 的回答很快就会过时，这对其在实际应用中的可靠性提出了持续维护的要求。
 
 3.  **系统与测评方法的局限**
     本次测评也反映出系统本身及测评方法上的一些不足。首先，测评形式相对单一，主要依赖**单选题和多选题**，这种方式无法充分检验 AI 在处理开放性问答或需要进行实际操作配置等更复杂任务时的能力。其次，系统目前**不支持处理包含图片或图表的题目**，即缺乏多模态理解能力，这限制了其在解决需要理解视觉信息的复杂技术问题时的应用范围。
@@ -104,7 +104,7 @@
 
 本次测评的结果表明，在专业的低代码领域，将大语言模型与先进的 RAG 及 Agent 技术结合，是一条有效的技术路径。
 
-AI 在处理**基础理论知识**时表现出色，最高取得了 88.51%的正确率，展现出成为得力知识助手的潜力。然而，测评也清晰地显示，随着题目难度增加和实践性增强，AI 的准确率出现明显。
+AI 在处理**基础理论知识**时表现出色，最高取得了 88.51%的正确率，展现出成为得力知识助手的潜力。然而，测评也清晰地显示，随着题目难度增加和实践性增强，AI 的准确率出现明显下滑。
 
 这说明，尽管 AI 在特定知识性任务上取得了高分，但在更复杂的实践应用和综合推理方面，与真正的人类专家相比仍存在显著差距。当前，它更适合作为一个高效的“知识检索和查询工具”，而非能够完全独立解决所有问题的“专家”。要让 AI 在专业领域真正落地，还需要在弥补理论与实践差距、应对知识更新和突破系统自身局限等方面持续投入。