AI技术边界探索:从数据驱动到认知挑战的未竟之地 1. 项目概述当AI遇见“未竟之地”最近和几个做AI产品、搞大模型的朋友聊天大家聊得热火朝天从GPT-4o的多模态惊艳表现到Sora生成视频的物理逻辑再到各种Agent框架如何颠覆工作流。但聊到最后总会陷入一种奇特的沉默然后有人会抛出一个问题“你们觉得现在还有什么事情是AI完全做不了或者还没人让它做过的”这个问题很有意思。它不是一个技术悲观主义的论调而更像是一个“寻宝图”的起点。我们每天被海量的AI新闻轰炸——它能写诗、编程、画图、剪辑视频、分析数据、甚至陪你聊天。边界似乎每天都在被打破。但作为一名在一线折腾了十多年的技术从业者我本能地觉得肯定还存在一些“盲区”。这些盲区可能不是技术上的绝对禁区而是由于数据稀缺、问题定义模糊、价值反馈延迟或人类认知本身的独特结构导致AI至今尚未有效涉足或者尚未出现一个令人信服的“代表作”。这个项目我就想系统地挖掘一下这片“未竟之地”。它不是要唱衰AI恰恰相反我认为明确边界是推动进步的最好方式。通过梳理那些AI尚未征服的领域我们能更清晰地看到当前技术的天花板、人类智能的独特优势以及未来最有可能产生突破的方向。这适合所有对AI感兴趣的人无论是开发者寻找蓝海市场研究者定位前沿课题还是普通用户理性看待AI的能力边界。2. 核心思路拆解如何定义与寻找“AI做不了的事”要回答“AI还没做什么”首先得明确我们讨论的“AI”是什么以及“做”的标准是什么。泛泛而谈没有意义。2.1 界定讨论范围当前主流AI的能力范式我们今天谈论的AI主要指基于数据驱动的机器学习尤其是深度学习模型。它们的能力核心是“模式识别”和“统计归纳”。无论是大语言模型LLM对文本序列的建模还是扩散模型对图像分布的学习其本质都是在海量数据中寻找相关性模式并基于此进行生成或预测。它们的“智能”体现在对训练数据分布的高度拟合和泛化上。因此AI“能做”一件事通常意味着有高质量、大规模的相关数据用于训练。任务目标可被明确量化或评估有清晰的损失函数或奖励信号。输入输出空间相对规整无论是文本、图像、音频还是结构化数据。存在可学习的模式任务背后有统计规律可循。反过来AI“做不了”或“还没做好”的事往往就卡在上述一个或多个环节。2.2 寻找“未竟之地”的四个维度基于上述范式我们可以从四个维度来系统性地寻找那些AI的盲区数据稀缺维度有些事情本身就缺乏大规模、高质量的数据记录。比如人类在极端压力下如生死关头做出的瞬间决策过程顶尖艺术家在灵感迸发那一刻的、未被言明的思维跳跃或者某个小众领域专家长达数十年来形成的、只可意会不可言传的“手感”或“直觉”。没有数据再强大的模型也是巧妇难为无米之炊。问题定义维度有些任务的目标极其模糊难以用数学公式或明确的指令描述。比如“设计一个让人感到温暖的产品”、“写一首能引起广泛共鸣、但又不落俗套的诗”、“策划一场令人终生难忘的惊喜”。这里的“温暖”、“共鸣”、“难忘”都是高度主观、语境依赖的概念缺乏统一的、可计算的评价标准。价值反馈维度有些行动的后果需要极长的时间才能显现或者反馈信号极其稀疏、延迟。例如“制定一项影响未来五十年的城市发展规划”、“从事一项基础科学研究其价值可能在几十年后才被认可”、“经营一段深厚的人际关系”。AI擅长短期、密集的奖励优化如下围棋但难以进行超长周期、复杂因果链的价值判断。认知与意识维度这涉及一些哲学和认知科学层面的根本问题。例如真正的理解而非模式匹配、拥有主观体验感质、形成持续且统一的自我意识、进行纯粹的、无功利目的的创造与探索。目前的AI系统是否具备这些特性的雏形是学术界激烈争论的焦点但毫无疑问我们尚未看到任何一个AI系统能令人信服地宣称它拥有这些。注意这里要避免陷入“AI永远不能”的武断结论。我们的重点是“尚未看到”有说服力的案例。技术是发展的今天的盲区明天可能被照亮。我们的分析应基于当前2024年中可见的技术路径和公开成果。3. 深度探索那些AI尚未征服的领域详析与案例基于上述框架我们来具体看看一些典型的、AI尚未给出优秀答卷的领域。我会结合具体案例分析其难点所在。3.1 领域一需要“深刻理解”的复杂创作与批评AI在生成符合语法、结构甚至特定风格的文本、音乐、画作方面已经非常出色。但它是否能进行需要深度背景知识和批判性思维的创作与批评呢案例撰写一篇具有原创学术观点、能推动学科发展的哲学论文。现状AI可以轻松总结哲学史、复述不同哲学家的观点、甚至模仿某位哲学家的写作风格生成一段论述。市面上也有工具能帮助生成论文大纲、润色语言。未竟之处提出一个全新的、逻辑自洽的、并能回应现有学术共同体关切的原创哲学论点。这需要真正理解抽象概念的内涵与外延而非词语的统计关联。在概念网络中进行严谨的逻辑推演发现潜在矛盾或新的关联。洞察现有理论体系的深层预设和薄弱环节。构建一个具有说服力的新框架。难点分析这超出了模式组合的范围。当前LLM的本质是“超级鹦鹉”它能极其逼真地模仿“哲学讨论的样子”但其输出是对训练数据中哲学文本概率分布的采样。它缺乏对“真理”、“存在”、“意识”等概念的指称能力即无法将这些符号与外部世界或内在体验真正锚定。它的“推理”是符号间的概率游戏而非基于信念和理解的思辨。实操思考如何尝试逼近一种思路是构建一个“辩论式”AI系统让它同时扮演多个哲学立场进行多轮深度对话和互相诘问在冲突中迭代观点。但这仍然是在模拟辩论的“形式”其内核驱动仍是预设的目标函数如逻辑一致性、新颖性分数而非对问题本身的“关切”。另一种思路是引入具身体验。有学者认为高级抽象思维根植于身体与世界的互动。如果AI能拥有类似人类的感官运动体验或许能发展出不同的“理解”基础。但这已远超出当前NLP的研究范畴。3.2 领域二依赖“价值判断”与“责任感”的决策AI在数据驱动决策、优化已知目标方面很强比如降低物流成本、提高广告点击率。但当决策涉及复杂的价值权衡、伦理困境和长远责任时AI就显得力不从心。案例自动驾驶中的“电车难题”极端变体。现状自动驾驶的决策主要基于感知、预测和规控目标是安全、舒适、高效地到达目的地。行业在处理常规伦理问题时倾向于遵循“最小化伤害风险”的统计安全原则。未竟之处面对无法避免事故的极端场景需要在不同价值主体乘客、行人、其他车辆乘员之间做出选择并且这个选择没有统计上的最优解只有伦理上的艰难权衡。例如一边是闯红灯的卡车另一边是遵守交规的校车如何选择难点分析这首先不是一个技术优化问题而是一个社会伦理共识问题。谁来定义这个价值排序是制造商、立法者、车主还是全社会AI系统无法自发形成这种价值排序它只能执行被编程或学习到的规则。而将复杂的伦理困境简化为一条if-else规则或一个损失函数本身就是极具争议且可能不负责任的。AI缺乏“责任感”——它无法为决策的后果承担道德责任。实操思考目前的应对与局限目前业界普遍采取的是“负责任的保守”策略优先确保可解释性、可审计性并在算法设计中尽可能避免陷入此类极端抉择通过提升感知能力、更保守的规控策略。也有一些研究尝试让AI学习人类的伦理判断数据集但这只是将难题转移到了数据标注的共识上且无法处理未见过的困境。核心心得在涉及生命价值的决策上追求一个“全自动”的伦理AI可能是个错误方向。更可行的路径是“人机协同”让AI负责处理99.99%的常规安全驾驶而在极端情况下提供充分的信息和多个可能选项及其后果预测将最终决策权或决策确认权留给人类驾驶员或远程监控员。将责任明确归于人类是目前唯一符合伦理和法律框架的可行方案。3.3 领域三实现“纯粹的好奇心”与“无目标探索”人类智能有一个迷人之处我们会因为纯粹的好奇心而去探索未知即使它没有明显的实用价值。这种内驱力是科学发现和艺术创作的重要源泉。案例像一个天真的孩子一样自主提出一个从未被人类思考过的、有趣的“为什么”问题并主动设计实验去探索。现状AI可以根据指令生成研究问题例如“请列出凝聚态物理领域十个未解难题”也可以基于给定目标如“发现新的高温超导材料”进行大规模模拟和筛选如用AI for Science。AlphaFold2解决蛋白质折叠问题是目标驱动预测结构的巅峰之作。未竟之处自主产生一个全新的、无预定功利目标的探索方向。比如一只猫盯着晃动的激光点玩得不亦乐乎这种行为没有外在奖励纯粹是内在动机驱动。AI目前的所有行为都源于预设的目标函数、奖励信号或人类提示。即使是最先进的强化学习智能体其“探索”也是为了更好地“利用”获得更多奖励。我们尚未看到一个AI系统会仅仅因为“觉得某个现象可能很有意思”而去系统地研究它并在过程中随时因为兴趣转移而改变方向。难点分析这触及了AI的驱动核心。当前AI是“目标优化器”而好奇心驱动需要一种“内在动机”模型。虽然学术界有“内在好奇心模块”等研究让智能体从预测环境动态的误差中获得奖励但这仍然是一种被设计好的、用于促进探索的代理奖励并非真正自发的、无功利的好奇心。真正的自主好奇心可能需要一个具备自我模型、能感知到自身知识边界并对此产生“不适感”或“兴趣”的系统。3.4 领域四完成需要“具身交互”与“物理直觉”的复杂任务尽管机器人学和具身AI进展迅速但让AI在非结构化、动态的真实物理世界中完成一些需要灵活身体协调和物理直觉的任务仍然极其困难。案例在从未见过的杂乱厨房里用陌生的工具做一道从未做过的菜。现状工业机器人可以在结构化环境中进行精确的抓取、装配研究型机器人可以在实验室设定下学习叠衣服、开门AI可以生成详细的菜谱。未竟之处面对一个完全陌生的家庭厨房刀具品牌、灶台类型、调料摆放位置均不熟悉根据现有食材可能不齐全随机应变地使用手边的工具可能不太称手成功制作出一道可口的菜肴。这需要强大的视觉-运动关联学习快速建立对陌生物体如一个奇特的开罐器的功能性理解。丰富的物理常识知道西红柿比鸡蛋更容易捏碎湿滑的鱼需要用刀背拍打热油遇水会飞溅。复杂的多步骤规划与实时调整在切菜时发现刀钝了能立刻改为更用力的按压方式或寻找磨刀石在翻炒时根据气味和颜色判断火候动态调整。跨模态的感知与想象看着菜谱的文字描述能在脑中形成操作画面和味觉预期。难点分析这要求AI具备对物理世界丰富、可泛化的“常识”模型以及将抽象任务分解为具体身体动作并在线调整的能力。当前的视觉-语言模型VLMs和机器人策略模型大多在有限的数据集和仿真环境中训练其泛化能力一旦遇到分布外的真实世界复杂性就会急剧下降。“物理直觉”是数十亿年进化赋予生物的宝贵财富AI通过数据学习来重建它是一条漫长且数据效率可能很低的路。实操心得从仿真到现实的鸿沟我们团队在尝试机器人抓取项目时深刻体会到这一点。在仿真环境中训练到99%成功率的抓取策略迁移到真实机器人上成功率可能直接掉到60%以下。原因包括摄像头畸变、灯光变化、物体表面材质反光、柔软的模拟不精确、电机控制误差等。一个有效的策略是“仿真真实数据微调”。先在大量、多样的仿真环境中进行预训练获得一个基础策略然后在真实世界中收集少量数据进行领域自适应Domain Adaptation或模仿学习Imitation Learning。但这需要昂贵的机器人硬件和时间成本。更根本的挑战在于我们是否真的需要让AI像人类一样“理解”物理或许对于特定任务如分拣快递不需要完整的物理模型只需要训练它达到足够的任务成功率即可。但对于“在陌生厨房做菜”这种开放任务缺乏对物理和功能的深层理解恐怕难以胜任。4. 技术瓶颈与未来可能路径分析为什么这些领域如此困难我们可以从当前AI的技术栈底层找原因。4.1 数据瓶颈从“大数据”到“好数据”与“无数据”困境深度学习是“数据饥渴”的。许多人类高级智能活动如重大科学发现、艺术巅峰创作恰恰是“数据稀疏”甚至“数据真空”的。这些活动往往由少数个体在特定时刻完成过程难以被完整、高保真地记录。可能路径合成数据与仿真在物理、社交等领域构建高保真仿真环境生成大量、多样的交互数据。但这要求仿真本身足够真实否则会导致“仿真到现实”的鸿沟。小样本学习与元学习让AI学会如何从极少的样本中快速学习。这更接近人类的学习方式。因果学习从观测数据中推断出变量间的因果关系而不仅仅是相关关系。掌握因果模型后AI可以更好地进行反事实推理在数据稀缺的情况下做出更可靠的判断。4.2 评估瓶颈如何定义“好”困境对于写诗、设计、战略决策等任务什么是“好”的标准它通常是主观的、多元的、语境依赖的。我们无法给出一个唯一的、可微分的损失函数。可能路径基于人类反馈的强化学习RLHF及其扩展通过人类对模型输出的偏好排序来训练奖励模型从而将模糊的人类偏好转化为可优化的目标。这是当前对齐AI的主流方法。但它的扩展性需要大量人类反馈和“对齐什么价值观”的问题依然存在。辩论与共识机制让多个AI系统就一个问题进行辩论或者让AI与人类专家进行多轮对话在互动中逐步澄清和细化任务要求与评价标准。可解释性评估不仅评估输出结果还评估AI得出该结果的过程是否合理、透明、符合逻辑。这对于需要“理解”的任务尤为重要。4.3 架构瓶颈超越下一个词预测困境当前以大语言模型为代表的AI其核心架构Transformer和训练目标下一个token预测决定了它本质上是“序列模式模拟器”。它擅长生成符合统计规律的流畅内容但在需要深度推理、规划、保持长期一致性的任务上存在固有局限。可能路径系统1与系统2的结合借鉴认知双过程理论。让一个快速、直觉的“系统1”如当前LLM与一个慢速、深思熟虑的“系统2”如符号推理引擎、规划器协同工作。系统1提供初步想法和联想系统2进行逻辑验证和深度规划。这已是当前AI Agent研究的一个热点方向。世界模型让AI不仅仅学习文本或图像的统计规律而是学习一个关于世界如何运作的内部模型。这个模型能对物理交互、社会互动等进行模拟和预测。拥有世界模型的AI可以进行“在脑海中”的推演和规划从而更好地应对新情况。DriveGPT、Sora等视频生成模型可以看作是在学习视觉世界的动态模型。具身架构将感知、认知和行动更紧密地耦合在一起。智能体通过与真实世界的持续交互来学习和进化其认知结构会受到身体和环境的塑造。这可能是获得“物理直觉”和“内在动机”的关键。5. 对从业者与创业者的启示梳理这些“未竟之地”并非为了制造焦虑而是为了更清醒地行动。避开红海寻找真正的蓝海如果你的创业想法只是“用AI做一个更好的聊天机器人”或“用AI生成营销文案”请三思这里已经挤满了巨头和竞争者。不妨将目光投向那些AI尚未染指、且存在明确痛点的领域。例如复杂决策支持不是替代人类做决策而是帮助人类理解决策涉及的复杂变量、潜在风险和长期影响。比如辅助城市规划者模拟不同政策下城市50年的演变。个性化教育中的“顿悟”时刻捕捉AI可以教授知识、批改作业但如何识别学生即将产生“顿悟”的临界点并提供恰到好处的引导这需要对学生认知状态的深度理解。文化遗产的“体验式”传承AI可以数字化修复文物但能否创造一种沉浸式体验让现代人真正“理解”古代某种工艺的价值或某首诗词的意境重新思考“人机协同”的界面与分工在AI不擅长的领域如价值判断、责任承担、无目标探索人类的作用不是被替代而是被增强和聚焦。产品设计的重点应从“全自动化”转向“优雅的协同”。如何设计界面让AI将其强大的信息处理和模式发现能力以人类可理解、可信任、可控制的方式呈现出来并交由人类做最终的裁决或赋予其意义这是一个巨大的设计空间。关注基础技术与新范式追逐大模型的应用固然重要但关注那些可能突破当前范式的底层研究同样有价值。例如因果推断、神经符号AI、具身智能、内在动机模型等。这些方向可能短期内难以产生爆款应用但一旦突破将开辟全新的可能性。保持谦逊与敬畏认识到当前AI的局限性有助于我们更负责任地开发和部署它。避免技术夸大宣传在伦理和安全上投入更多精力。将AI定位为人类的“工具”和“伙伴”而非“替代者”或“主宰者”在当下可能是一种更务实、也更可持续的态度。这片“未竟之地”广阔而充满挑战。它提醒我们智能的疆域远比我们目前用数据画出的地图要辽阔。探索这些盲区不仅需要更强大的算力和更精巧的算法更需要我们重新思考智能的本质、知识的来源以及我们与技术的关系。这或许是AI时代留给人类最深刻、也最迷人的一道思考题。