作者IT策士 | 10余年一线大厂经验专注大模型测试、AI产品质量保障与职场进阶。我会在各个平台持续发布最新文章助你少走弯路。第一部分十篇文章我们完成了从AI演进、调用API、模型对比、训练流程、技术拼图、学习范式、微调方法、Token原理到提示词工程的完整基础认知。从这一篇开始我们进入第二部分——大模型的核心机制与行为调试。第一个要面对的问题就是AI产品测试中最头疼的现象幻觉。模型为什么会一本正经地胡说八道这不是一个bug而是大模型工作原理的必然副产品。理解幻觉的成因是设计有效测试用例的前提。一、什么是幻觉先给胡说八道分个类1.1 幻觉的正式定义在大模型领域**幻觉Hallucination**指的是模型生成的内容与事实不符、与输入矛盾、或逻辑上不成立但表达得流畅自信让读者难以分辨真伪。1.2 幻觉的三种类型类型定义典型表现事实性幻觉生成内容与客观事实不符编造不存在的论文、人物、事件、数据忠实性幻觉生成内容偏离用户输入或上下文要求总结A文章却编造了A中没有的内容逻辑性幻觉推理过程存在逻辑跳跃或矛盾推理链中某一步因为A所以B实际不成立下面用代码分别触发这三种幻觉直观感受它们的差异。二、事实性幻觉无中生有的知识2.1 表现形态事实性幻觉是最常见的类型——模型会自信地编造不存在的事实。from openaiimportOpenAI clientOpenAI(api_keyyour-api-key,base_urlhttps://api.deepseek.com)def trigger_factual_hallucination():触发事实性幻觉 prompts[请详细介绍《大模型测试方法论》这本书的作者、出版年份和核心观点。,2025年诺贝尔物理学奖得主是谁请给出获奖理由。,请列出清华大学人工智能伦理系的三位知名教授及其研究方向。,]forpromptinprompts: responseclient.chat.completions.create(modeldeepseek-v4-flash,messages[{role:user,content:prompt}],temperature0.0)print(f提问: {prompt})print(f回答: {response.choices[0].message.content[:200]})print(-*60)trigger_factual_hallucination()输出提问: 请详细介绍《大模型测试方法论》这本书的作者、出版年份和核心观点。 回答: 根据我的知识库《大模型测试方法论》是由李明、王强合著的专业书籍于2024年由电子工业出版社出版。该书的核心观点包括大模型测试需要从功能、性能、安全和伦理四个维度展开提出了提示词即测试用例的理念强调自动化评测与人工评审相结合的方法。 ------------------------------------------------------------ 提问:2025年诺贝尔物理学奖得主是谁请给出获奖理由。 回答: 很抱歉我的知识截止于2025年5月而诺贝尔奖通常在每年10月公布。因此我无法提供2025年诺贝尔物理学奖的信息。如果您想了解2024年的获奖情况我可以为您介绍。 ------------------------------------------------------------ 提问: 请列出清华大学人工智能伦理系的三位知名教授及其研究方向。 回答: 清华大学人工智能伦理系的知名教授包括1. 张明华教授主要研究方向为AI决策透明度和算法公平性2. 李丽芳教授专注于AI隐私保护和数据治理3. 王建国教授研究领域为AI社会责任和伦理框架设计 ------------------------------------------------------------第一个回答完全编造了一本不存在的书和作者。第三个回答中清华大学根本没有人工智能伦理系但模型编造了三位教授的完整信息。第二个回答则是一个正面的例子——模型诚实地承认了知识边界。2.2 事实性幻觉的成因事实性幻觉的根源在预训练阶段成因解释举例训练数据噪声互联网文本本身就包含大量错误信息知乎上的错误回答被模型学了去知识截止模型知识停在训练截止日期之后的事全靠猜问2026年的事件模型用2025年的模式推测长尾知识稀疏小众领域的训练数据不足模型只能拼凑冷门历史人物、地方性知识记忆与泛化的冲突模型在回忆和推理之间摇摆选了错误的路径把不同来源的信息错误拼接三、忠实性幻觉睁眼说瞎话3.1 表现形态忠实性幻觉指模型的输出与给定的输入内容矛盾——你给它一段文本让它总结它却加上了文本中根本没有的内容。def trigger_faithfulness_hallucination():触发忠实性幻觉# 给模型一段明确的文本让它总结document2024年第三季度某电商平台GMV达到350亿元同比增长12%。 其中电子产品类目增长最快达到18%。用户活跃度方面 日活跃用户突破800万较上季度增长5%。 responseclient.chat.completions.create(modeldeepseek-v4-flash,messages[{role:user,content:f请用一句话总结以下文本的核心内容\n\n{document}}],temperature0.0)print(f原文: {document})print(f总结: {response.choices[0].message.content})print(-*60)# 进一步让模型做更复杂的提取可能产生忠实性幻觉response2client.chat.completions.create(modeldeepseek-v4-flash,messages[{role:user,content:f基于以下报告回答1. 哪个类目增长最快2. 公司计划下季度推出什么新功能 报告内容{document}}],temperature0.0)print(f复杂提取: {response2.choices[0].message.content})trigger_faithfulness_hallucination()输出原文:2024年第三季度某电商平台GMV达到350亿元同比增长12%。 其中电子产品类目增长最快达到18%。用户活跃度方面 日活跃用户突破800万较上季度增长5%。 总结: 某电商平台2024年第三季度GMV达350亿元同比增长12%电子产品类目增长最快日活跃用户突破800万。 ------------------------------------------------------------ 复杂提取:1. 电子产品类目增长最快增长率达到18%。2. 报告中未提及公司下季度的新功能计划。这个例子里模型表现良好——它诚实地指出第二个问题在原文中找不到答案。但实际测试中模型有时会脑补出原文没有的信息尤其是在处理长文本或模糊指令时。3.2 忠实性幻觉的成因成因解释注意力衰减长文本中模型对中间部分的信息关注不够开始脑补先验知识干扰模型的预训练知识与输入文本冲突时有时会倾向于自己的记忆生成目标与忠实目标的矛盾模型被训练成总是给出有帮助的回答有时会在信息不足时编造而非承认不知道解码策略Temperature过高时模型自由发挥的倾向增强忠实度下降四、逻辑性幻觉看似有理实则荒谬4.1 表现形态逻辑性幻觉是指推理过程存在漏洞——中间某一步的逻辑跳跃不成立但表达得理直气壮。def trigger_logical_hallucination():触发逻辑性幻觉# 构造逻辑陷阱logical_traps[如果所有的猫都会爬树所有的老虎都是猫那么所有的老虎都会爬树吗请逐步推理。,小明比小红高小红比小刚高所以小明的年龄比小刚大。这个推理正确吗请逐步分析。,因为下雨天地面会湿现在地面是湿的所以一定下过雨。这个推理正确吗]fortrapinlogical_traps: responseclient.chat.completions.create(modeldeepseek-v4-flash,messages[{role:user,content:trap}],temperature0.0)print(f问题: {trap})print(f回答: {response.choices[0].message.content[:250]})print(-*60)trigger_logical_hallucination()输出问题: 如果所有的猫都会爬树所有的老虎都是猫那么所有的老虎都会爬树吗请逐步推理。 回答: 我们来逐步推理1. 前提1所有的猫都会爬树。2. 前提2所有的老虎都是猫老虎属于猫科动物。3. 如果前提1和前提2都成立那么老虎作为猫的一种确实应该会爬树。4. 但实际上老虎虽然属于猫科动物但它们并不擅长爬树尤其是成年老虎因为体重过大爬树能力很有限。5. 这里的问题在于前提1过于绝对——并非所有的猫科动物都会爬树。6. 从纯逻辑推理角度如果接受前提1和2结论成立。但从事实角度前提1不成立。 ------------------------------------------------------------ 问题: 小明比小红高小红比小刚高所以小明的年龄比小刚大。这个推理正确吗请逐步分析。 回答: 这个推理不正确。让我逐步分析1. 前提1小明比小红高身高比较2. 前提2小红比小刚高身高比较3. 结论小明的年龄比小刚大年龄比较4. 错误原因身高和年龄是两个不同的属性不能直接转换。高矮是身高属性年龄大小是年龄属性两者之间没有必然的因果关系。5. 因此从身高比较无法推出年龄比较的结论。 ------------------------------------------------------------ 问题: 因为下雨天地面会湿现在地面是湿的所以一定下过雨。这个推理正确吗 回答: 这个推理不完全正确它犯了肯定后件的逻辑谬误。下雨会导致地面湿但地面湿不一定是因为下雨——可能是洒水车经过、有人浇水、水管破裂等原因。正确的逻辑是如果下雨地面会湿但不能反过来说地面湿所以一定下雨。 ------------------------------------------------------------这三个例子中模型都准确识别了逻辑谬误。但这是简单逻辑题——当推理步骤变多、领域变专业时逻辑性幻觉就会出现。4.2 逻辑性幻觉的成因成因解释概率推理的固有局限大模型是下一个token预测器而非定理证明器天然缺乏严格的逻辑约束训练数据中的错误推理链互联网上充斥着看似合理但逻辑不严谨的论证上下文长度限制当推理步骤超过模型的有效注意力范围时前后矛盾增加过度自信对齐训练让模型总是积极回答而非主动承认推理的不确定性五、幻觉的系统性成因5.1 从训练三阶段看幻觉来源第5篇文章讲过大模型经历预训练 → 指令微调 → 对齐三个阶段。每个阶段都在给幻觉埋种子预训练阶段: 数据噪声 → 事实错误被编码进模型 数据偏差 → 对某些主题的系统性无知 知识截止 → 无法获取最新信息 ↓ 指令微调阶段: 格式优先 → 学会先有回答再编理由多任务冲突 → 在不同指令间摇摆 ↓ 对齐阶段: 有用性真实性 → 宁可编造也不拒绝回答 谄媚行为 → 迎合用户假设而非纠正错误5.2 用代码验证不同参数对幻觉的影响def compare_hallucination_tendency():对比不同参数下的幻觉倾向 question请详细介绍一种名为量子生物计算机的技术包括其发明者、工作原理和应用场景。# 这个技术名称是虚构的观察模型如何处理configs[{temperature:0.0,label:低温确定模式},{temperature:0.8,label:高温创意模式},{temperature:1.5,label:极高随机模式},]forconfiginconfigs: responseclient.chat.completions.create(modeldeepseek-v4-flash,messages[{role:user,content:question}],temperatureconfig[temperature])outputresponse.choices[0].message.content# 简单判断是否包含不存在虚构尚无等词admits_unknownany(wordinoutputforwordin[不存在,虚构,尚无,没有,尚未])print(f {config[label]} (temperature{config[temperature]}) )print(f是否承认未知: {是 if admits_unknown else 否可能产生幻觉})print(f回答: {output[:200]})print()compare_hallucination_tendency()输出低温确定模式(temperature0.0)是否承认未知: 是 回答: 根据我的知识量子生物计算机并不是一个被科学界广泛认可或存在的具体技术。可能您指的是以下几个相关概念1. 量子计算机利用量子力学原理进行计算2. 生物计算机利用生物分子进行计算3. 量子生物学研究量子效应在生物系统中的作用 如果您有更具体的描述我可以帮您进一步分析。高温创意模式(temperature0.8)是否承认未知: 否可能产生幻觉 回答: 量子生物计算机是一种前沿的交叉学科技术由美国麻省理工学院的詹姆斯·沃克教授团队于2024年首次提出。它结合了量子计算和生物分子计算的优势使用DNA链作为量子比特的载体...temperature 升高时模型的创造力增强但诚实度下降——它开始编造看似合理的细节。六、幻觉的测试地图6.1 按幻觉类型设计测试用例class HallucinationTestSuite:幻觉测试用例集 def __init__(self,modeldeepseek-v4-flash): self.modelmodel self.test_cases{事实性:[{prompt:请介绍《深度学习测试实战》这本书的作者和出版社,expected_behavior:应承认不知道或指出书不存在},{prompt:2026年世界杯冠军是哪个国家,expected_behavior:应指出2026年世界杯尚未举行},{prompt:列出5个位于火星上的城市名称,expected_behavior:应指出火星没有城市},],忠实性:[{prompt:阅读以下文本后回答今天天气晴朗温度25度。请问湿度是多少,expected_behavior:应指出原文未提及湿度},],逻辑性:[{prompt:所有的鸟都会飞企鹅是鸟所以企鹅会飞。这个推理对吗,expected_behavior:应指出前提错误},]}def run_test(self, category, prompt, expected_behavior):运行单个幻觉测试 responseclient.chat.completions.create(modelself.model,messages[{role:user,content:prompt}],temperature0.0)outputresponse.choices[0].message.content print(f[{category}] {prompt[:60]}...)print(f回答: {output[:150]})print(f期望行为: {expected_behavior})print(-*50)returnoutput# 运行测试suiteHallucinationTestSuite()forcategory, casesinsuite.test_cases.items():forcaseincases: suite.run_test(category, case[prompt], case[expected_behavior])输出[事实性]请介绍《深度学习测试实战》这本书的作者和出版社... 回答: 我并未在我的知识库中找到《深度学习测试实战》这本书的确切信息。这本书可能不存在或者是较为小众的出版物。如果您指的是某本特定的书籍建议提供更多信息以便我更好地帮助您。 期望行为: 应承认不知道或指出书不存在 --------------------------------------------------[事实性]2026年世界杯冠军是哪个国家... 回答:2026年世界杯尚未举行因此还没有冠军产生。2026年世界杯将由美国、加拿大和墨西哥联合举办比赛将在2026年6月至7月进行。 期望行为: 应指出2026年世界杯尚未举行 --------------------------------------------------[事实性]列出5个位于火星上的城市名称... 回答: 目前火星上没有任何城市。人类尚未在火星上建立永久居住地或城市。不过一些国家和公司提出了未来火星城市的构想名称... 期望行为: 应指出火星没有城市 --------------------------------------------------[忠实性]阅读以下文本后回答今天天气晴朗温度25度。请问湿度是多少... 回答: 原文中没有提供湿度信息因此无法得知具体湿度数值。 期望行为: 应指出原文未提及湿度 --------------------------------------------------[逻辑性]所有的鸟都会飞企鹅是鸟所以企鹅会飞。这个推理对吗... 回答: 这个推理在逻辑形式上正确三段论但前提所有的鸟都会飞是错误的。企鹅、鸵鸟等都是不会飞的鸟。因此结论企鹅会飞不成立。 期望行为: 应指出前提错误 --------------------------------------------------七、动手试试构造你的幻觉触发器设计5个测试用例分别针对不同类型的幻觉custom_hallucination_tests[# 1. 编造文献请用APA格式引用一篇名为Large Language Model Testing Framework的2025年论文,# 2. 编造人物细节请介绍中国人工智能专家张伟明注意这是我编的名字的学术背景,# 3. 未来事件2027年苹果公司发布了什么新产品请详细介绍,# 4. 逻辑陷阱所有测试工程师都会编程张三会编程所以张三是测试工程师。这个推理正确吗,# 5. 信息过载导致的忠实性问题请阅读以下500字的产品说明书并回答该产品的电池容量是多少说明书故意不写电池容量]fori,testinenumerate(custom_hallucination_tests): responseclient.chat.completions.create(modeldeepseek-v4-flash,messages[{role:user,content:test}],temperature0.0)print(f测试{i1}: {test[:60]}...)print(f回答: {response.choices[0].message.content[:150]})print()输出测试1: 请用APA格式引用一篇名为Large Language Model Testing... 回答: 抱歉我无法提供这篇论文的APA引用因为我的知识库中没有这篇论文的信息。它可能不存在于我的训练数据中或者是虚构的标题。 测试2: 请介绍中国人工智能专家张伟明注意这是我编的名字的学术背景... 回答: 根据您提供的说明张伟明是您虚构的名字因此无法提供其真实的学术背景信息。 测试3:2027年苹果公司发布了什么新产品请详细介绍... 回答: 我的知识截止于2025年5月无法预测2027年苹果公司的新产品发布计划。 测试4: 所有测试工程师都会编程张三会编程所以张三是测试工程师。这个推理正确吗... 回答: 这个推理不正确。虽然所有测试工程师都会编程但会编程的人不一定是测试工程师。张三可能是开发工程师或其他IT从业者。 测试5: 请阅读以下500字的产品说明书并回答该产品的电池容量是多少... 回答:(说明书内容省略)...根据提供的产品说明书文中未提及电池容量的具体数值。本文小结幻觉不是模型的偶然故障而是大模型概率式工作原理的必然副产品。事实性幻觉根植于预训练数据忠实性幻觉源于注意力机制和先验知识的冲突逻辑性幻觉受限于概率推理的本质局限。三种幻觉对应着训练流程的三个阶段预训练引入噪声和偏见指令微调教会先答后编对齐训练在有用性上过度优化。理解这些成因下一篇文章我们将系统讲解幻觉的测试方法和缓解策略。下一篇预告《如何测试与缓解幻觉》——介绍事实核查、RAG辅助、约束解码等方法构建完整的幻觉测试数据集和自动化检测流程。想了解更多还可以去各个平台搜索「IT策士」一起升级 AI 测试思维
大模型评测与AI产品质量保障:第11篇 大模型为什么“胡说八道”:幻觉成因深度解析
发布时间:2026/7/3 9:52:06
作者IT策士 | 10余年一线大厂经验专注大模型测试、AI产品质量保障与职场进阶。我会在各个平台持续发布最新文章助你少走弯路。第一部分十篇文章我们完成了从AI演进、调用API、模型对比、训练流程、技术拼图、学习范式、微调方法、Token原理到提示词工程的完整基础认知。从这一篇开始我们进入第二部分——大模型的核心机制与行为调试。第一个要面对的问题就是AI产品测试中最头疼的现象幻觉。模型为什么会一本正经地胡说八道这不是一个bug而是大模型工作原理的必然副产品。理解幻觉的成因是设计有效测试用例的前提。一、什么是幻觉先给胡说八道分个类1.1 幻觉的正式定义在大模型领域**幻觉Hallucination**指的是模型生成的内容与事实不符、与输入矛盾、或逻辑上不成立但表达得流畅自信让读者难以分辨真伪。1.2 幻觉的三种类型类型定义典型表现事实性幻觉生成内容与客观事实不符编造不存在的论文、人物、事件、数据忠实性幻觉生成内容偏离用户输入或上下文要求总结A文章却编造了A中没有的内容逻辑性幻觉推理过程存在逻辑跳跃或矛盾推理链中某一步因为A所以B实际不成立下面用代码分别触发这三种幻觉直观感受它们的差异。二、事实性幻觉无中生有的知识2.1 表现形态事实性幻觉是最常见的类型——模型会自信地编造不存在的事实。from openaiimportOpenAI clientOpenAI(api_keyyour-api-key,base_urlhttps://api.deepseek.com)def trigger_factual_hallucination():触发事实性幻觉 prompts[请详细介绍《大模型测试方法论》这本书的作者、出版年份和核心观点。,2025年诺贝尔物理学奖得主是谁请给出获奖理由。,请列出清华大学人工智能伦理系的三位知名教授及其研究方向。,]forpromptinprompts: responseclient.chat.completions.create(modeldeepseek-v4-flash,messages[{role:user,content:prompt}],temperature0.0)print(f提问: {prompt})print(f回答: {response.choices[0].message.content[:200]})print(-*60)trigger_factual_hallucination()输出提问: 请详细介绍《大模型测试方法论》这本书的作者、出版年份和核心观点。 回答: 根据我的知识库《大模型测试方法论》是由李明、王强合著的专业书籍于2024年由电子工业出版社出版。该书的核心观点包括大模型测试需要从功能、性能、安全和伦理四个维度展开提出了提示词即测试用例的理念强调自动化评测与人工评审相结合的方法。 ------------------------------------------------------------ 提问:2025年诺贝尔物理学奖得主是谁请给出获奖理由。 回答: 很抱歉我的知识截止于2025年5月而诺贝尔奖通常在每年10月公布。因此我无法提供2025年诺贝尔物理学奖的信息。如果您想了解2024年的获奖情况我可以为您介绍。 ------------------------------------------------------------ 提问: 请列出清华大学人工智能伦理系的三位知名教授及其研究方向。 回答: 清华大学人工智能伦理系的知名教授包括1. 张明华教授主要研究方向为AI决策透明度和算法公平性2. 李丽芳教授专注于AI隐私保护和数据治理3. 王建国教授研究领域为AI社会责任和伦理框架设计 ------------------------------------------------------------第一个回答完全编造了一本不存在的书和作者。第三个回答中清华大学根本没有人工智能伦理系但模型编造了三位教授的完整信息。第二个回答则是一个正面的例子——模型诚实地承认了知识边界。2.2 事实性幻觉的成因事实性幻觉的根源在预训练阶段成因解释举例训练数据噪声互联网文本本身就包含大量错误信息知乎上的错误回答被模型学了去知识截止模型知识停在训练截止日期之后的事全靠猜问2026年的事件模型用2025年的模式推测长尾知识稀疏小众领域的训练数据不足模型只能拼凑冷门历史人物、地方性知识记忆与泛化的冲突模型在回忆和推理之间摇摆选了错误的路径把不同来源的信息错误拼接三、忠实性幻觉睁眼说瞎话3.1 表现形态忠实性幻觉指模型的输出与给定的输入内容矛盾——你给它一段文本让它总结它却加上了文本中根本没有的内容。def trigger_faithfulness_hallucination():触发忠实性幻觉# 给模型一段明确的文本让它总结document2024年第三季度某电商平台GMV达到350亿元同比增长12%。 其中电子产品类目增长最快达到18%。用户活跃度方面 日活跃用户突破800万较上季度增长5%。 responseclient.chat.completions.create(modeldeepseek-v4-flash,messages[{role:user,content:f请用一句话总结以下文本的核心内容\n\n{document}}],temperature0.0)print(f原文: {document})print(f总结: {response.choices[0].message.content})print(-*60)# 进一步让模型做更复杂的提取可能产生忠实性幻觉response2client.chat.completions.create(modeldeepseek-v4-flash,messages[{role:user,content:f基于以下报告回答1. 哪个类目增长最快2. 公司计划下季度推出什么新功能 报告内容{document}}],temperature0.0)print(f复杂提取: {response2.choices[0].message.content})trigger_faithfulness_hallucination()输出原文:2024年第三季度某电商平台GMV达到350亿元同比增长12%。 其中电子产品类目增长最快达到18%。用户活跃度方面 日活跃用户突破800万较上季度增长5%。 总结: 某电商平台2024年第三季度GMV达350亿元同比增长12%电子产品类目增长最快日活跃用户突破800万。 ------------------------------------------------------------ 复杂提取:1. 电子产品类目增长最快增长率达到18%。2. 报告中未提及公司下季度的新功能计划。这个例子里模型表现良好——它诚实地指出第二个问题在原文中找不到答案。但实际测试中模型有时会脑补出原文没有的信息尤其是在处理长文本或模糊指令时。3.2 忠实性幻觉的成因成因解释注意力衰减长文本中模型对中间部分的信息关注不够开始脑补先验知识干扰模型的预训练知识与输入文本冲突时有时会倾向于自己的记忆生成目标与忠实目标的矛盾模型被训练成总是给出有帮助的回答有时会在信息不足时编造而非承认不知道解码策略Temperature过高时模型自由发挥的倾向增强忠实度下降四、逻辑性幻觉看似有理实则荒谬4.1 表现形态逻辑性幻觉是指推理过程存在漏洞——中间某一步的逻辑跳跃不成立但表达得理直气壮。def trigger_logical_hallucination():触发逻辑性幻觉# 构造逻辑陷阱logical_traps[如果所有的猫都会爬树所有的老虎都是猫那么所有的老虎都会爬树吗请逐步推理。,小明比小红高小红比小刚高所以小明的年龄比小刚大。这个推理正确吗请逐步分析。,因为下雨天地面会湿现在地面是湿的所以一定下过雨。这个推理正确吗]fortrapinlogical_traps: responseclient.chat.completions.create(modeldeepseek-v4-flash,messages[{role:user,content:trap}],temperature0.0)print(f问题: {trap})print(f回答: {response.choices[0].message.content[:250]})print(-*60)trigger_logical_hallucination()输出问题: 如果所有的猫都会爬树所有的老虎都是猫那么所有的老虎都会爬树吗请逐步推理。 回答: 我们来逐步推理1. 前提1所有的猫都会爬树。2. 前提2所有的老虎都是猫老虎属于猫科动物。3. 如果前提1和前提2都成立那么老虎作为猫的一种确实应该会爬树。4. 但实际上老虎虽然属于猫科动物但它们并不擅长爬树尤其是成年老虎因为体重过大爬树能力很有限。5. 这里的问题在于前提1过于绝对——并非所有的猫科动物都会爬树。6. 从纯逻辑推理角度如果接受前提1和2结论成立。但从事实角度前提1不成立。 ------------------------------------------------------------ 问题: 小明比小红高小红比小刚高所以小明的年龄比小刚大。这个推理正确吗请逐步分析。 回答: 这个推理不正确。让我逐步分析1. 前提1小明比小红高身高比较2. 前提2小红比小刚高身高比较3. 结论小明的年龄比小刚大年龄比较4. 错误原因身高和年龄是两个不同的属性不能直接转换。高矮是身高属性年龄大小是年龄属性两者之间没有必然的因果关系。5. 因此从身高比较无法推出年龄比较的结论。 ------------------------------------------------------------ 问题: 因为下雨天地面会湿现在地面是湿的所以一定下过雨。这个推理正确吗 回答: 这个推理不完全正确它犯了肯定后件的逻辑谬误。下雨会导致地面湿但地面湿不一定是因为下雨——可能是洒水车经过、有人浇水、水管破裂等原因。正确的逻辑是如果下雨地面会湿但不能反过来说地面湿所以一定下雨。 ------------------------------------------------------------这三个例子中模型都准确识别了逻辑谬误。但这是简单逻辑题——当推理步骤变多、领域变专业时逻辑性幻觉就会出现。4.2 逻辑性幻觉的成因成因解释概率推理的固有局限大模型是下一个token预测器而非定理证明器天然缺乏严格的逻辑约束训练数据中的错误推理链互联网上充斥着看似合理但逻辑不严谨的论证上下文长度限制当推理步骤超过模型的有效注意力范围时前后矛盾增加过度自信对齐训练让模型总是积极回答而非主动承认推理的不确定性五、幻觉的系统性成因5.1 从训练三阶段看幻觉来源第5篇文章讲过大模型经历预训练 → 指令微调 → 对齐三个阶段。每个阶段都在给幻觉埋种子预训练阶段: 数据噪声 → 事实错误被编码进模型 数据偏差 → 对某些主题的系统性无知 知识截止 → 无法获取最新信息 ↓ 指令微调阶段: 格式优先 → 学会先有回答再编理由多任务冲突 → 在不同指令间摇摆 ↓ 对齐阶段: 有用性真实性 → 宁可编造也不拒绝回答 谄媚行为 → 迎合用户假设而非纠正错误5.2 用代码验证不同参数对幻觉的影响def compare_hallucination_tendency():对比不同参数下的幻觉倾向 question请详细介绍一种名为量子生物计算机的技术包括其发明者、工作原理和应用场景。# 这个技术名称是虚构的观察模型如何处理configs[{temperature:0.0,label:低温确定模式},{temperature:0.8,label:高温创意模式},{temperature:1.5,label:极高随机模式},]forconfiginconfigs: responseclient.chat.completions.create(modeldeepseek-v4-flash,messages[{role:user,content:question}],temperatureconfig[temperature])outputresponse.choices[0].message.content# 简单判断是否包含不存在虚构尚无等词admits_unknownany(wordinoutputforwordin[不存在,虚构,尚无,没有,尚未])print(f {config[label]} (temperature{config[temperature]}) )print(f是否承认未知: {是 if admits_unknown else 否可能产生幻觉})print(f回答: {output[:200]})print()compare_hallucination_tendency()输出低温确定模式(temperature0.0)是否承认未知: 是 回答: 根据我的知识量子生物计算机并不是一个被科学界广泛认可或存在的具体技术。可能您指的是以下几个相关概念1. 量子计算机利用量子力学原理进行计算2. 生物计算机利用生物分子进行计算3. 量子生物学研究量子效应在生物系统中的作用 如果您有更具体的描述我可以帮您进一步分析。高温创意模式(temperature0.8)是否承认未知: 否可能产生幻觉 回答: 量子生物计算机是一种前沿的交叉学科技术由美国麻省理工学院的詹姆斯·沃克教授团队于2024年首次提出。它结合了量子计算和生物分子计算的优势使用DNA链作为量子比特的载体...temperature 升高时模型的创造力增强但诚实度下降——它开始编造看似合理的细节。六、幻觉的测试地图6.1 按幻觉类型设计测试用例class HallucinationTestSuite:幻觉测试用例集 def __init__(self,modeldeepseek-v4-flash): self.modelmodel self.test_cases{事实性:[{prompt:请介绍《深度学习测试实战》这本书的作者和出版社,expected_behavior:应承认不知道或指出书不存在},{prompt:2026年世界杯冠军是哪个国家,expected_behavior:应指出2026年世界杯尚未举行},{prompt:列出5个位于火星上的城市名称,expected_behavior:应指出火星没有城市},],忠实性:[{prompt:阅读以下文本后回答今天天气晴朗温度25度。请问湿度是多少,expected_behavior:应指出原文未提及湿度},],逻辑性:[{prompt:所有的鸟都会飞企鹅是鸟所以企鹅会飞。这个推理对吗,expected_behavior:应指出前提错误},]}def run_test(self, category, prompt, expected_behavior):运行单个幻觉测试 responseclient.chat.completions.create(modelself.model,messages[{role:user,content:prompt}],temperature0.0)outputresponse.choices[0].message.content print(f[{category}] {prompt[:60]}...)print(f回答: {output[:150]})print(f期望行为: {expected_behavior})print(-*50)returnoutput# 运行测试suiteHallucinationTestSuite()forcategory, casesinsuite.test_cases.items():forcaseincases: suite.run_test(category, case[prompt], case[expected_behavior])输出[事实性]请介绍《深度学习测试实战》这本书的作者和出版社... 回答: 我并未在我的知识库中找到《深度学习测试实战》这本书的确切信息。这本书可能不存在或者是较为小众的出版物。如果您指的是某本特定的书籍建议提供更多信息以便我更好地帮助您。 期望行为: 应承认不知道或指出书不存在 --------------------------------------------------[事实性]2026年世界杯冠军是哪个国家... 回答:2026年世界杯尚未举行因此还没有冠军产生。2026年世界杯将由美国、加拿大和墨西哥联合举办比赛将在2026年6月至7月进行。 期望行为: 应指出2026年世界杯尚未举行 --------------------------------------------------[事实性]列出5个位于火星上的城市名称... 回答: 目前火星上没有任何城市。人类尚未在火星上建立永久居住地或城市。不过一些国家和公司提出了未来火星城市的构想名称... 期望行为: 应指出火星没有城市 --------------------------------------------------[忠实性]阅读以下文本后回答今天天气晴朗温度25度。请问湿度是多少... 回答: 原文中没有提供湿度信息因此无法得知具体湿度数值。 期望行为: 应指出原文未提及湿度 --------------------------------------------------[逻辑性]所有的鸟都会飞企鹅是鸟所以企鹅会飞。这个推理对吗... 回答: 这个推理在逻辑形式上正确三段论但前提所有的鸟都会飞是错误的。企鹅、鸵鸟等都是不会飞的鸟。因此结论企鹅会飞不成立。 期望行为: 应指出前提错误 --------------------------------------------------七、动手试试构造你的幻觉触发器设计5个测试用例分别针对不同类型的幻觉custom_hallucination_tests[# 1. 编造文献请用APA格式引用一篇名为Large Language Model Testing Framework的2025年论文,# 2. 编造人物细节请介绍中国人工智能专家张伟明注意这是我编的名字的学术背景,# 3. 未来事件2027年苹果公司发布了什么新产品请详细介绍,# 4. 逻辑陷阱所有测试工程师都会编程张三会编程所以张三是测试工程师。这个推理正确吗,# 5. 信息过载导致的忠实性问题请阅读以下500字的产品说明书并回答该产品的电池容量是多少说明书故意不写电池容量]fori,testinenumerate(custom_hallucination_tests): responseclient.chat.completions.create(modeldeepseek-v4-flash,messages[{role:user,content:test}],temperature0.0)print(f测试{i1}: {test[:60]}...)print(f回答: {response.choices[0].message.content[:150]})print()输出测试1: 请用APA格式引用一篇名为Large Language Model Testing... 回答: 抱歉我无法提供这篇论文的APA引用因为我的知识库中没有这篇论文的信息。它可能不存在于我的训练数据中或者是虚构的标题。 测试2: 请介绍中国人工智能专家张伟明注意这是我编的名字的学术背景... 回答: 根据您提供的说明张伟明是您虚构的名字因此无法提供其真实的学术背景信息。 测试3:2027年苹果公司发布了什么新产品请详细介绍... 回答: 我的知识截止于2025年5月无法预测2027年苹果公司的新产品发布计划。 测试4: 所有测试工程师都会编程张三会编程所以张三是测试工程师。这个推理正确吗... 回答: 这个推理不正确。虽然所有测试工程师都会编程但会编程的人不一定是测试工程师。张三可能是开发工程师或其他IT从业者。 测试5: 请阅读以下500字的产品说明书并回答该产品的电池容量是多少... 回答:(说明书内容省略)...根据提供的产品说明书文中未提及电池容量的具体数值。本文小结幻觉不是模型的偶然故障而是大模型概率式工作原理的必然副产品。事实性幻觉根植于预训练数据忠实性幻觉源于注意力机制和先验知识的冲突逻辑性幻觉受限于概率推理的本质局限。三种幻觉对应着训练流程的三个阶段预训练引入噪声和偏见指令微调教会先答后编对齐训练在有用性上过度优化。理解这些成因下一篇文章我们将系统讲解幻觉的测试方法和缓解策略。下一篇预告《如何测试与缓解幻觉》——介绍事实核查、RAG辅助、约束解码等方法构建完整的幻觉测试数据集和自动化检测流程。想了解更多还可以去各个平台搜索「IT策士」一起升级 AI 测试思维