第4课:人工智能的三大基础:数据、算法、算力 一、课程信息课程主题人工智能的三大基础数据、算法、算力适合对象人工智能零基础学习者预计学习时长1.5小时学习方式建议用“做菜”的类比理解三大基础再结合真实AI应用分析它们如何共同发挥作用二、学习目标学完本课后你应该能够说清楚AI系统为什么离不开数据、算法和算力。理解数据质量为什么会直接影响AI效果。用生活案例解释算法的作用。初步理解算力为什么会影响AI训练和使用。能够分析一个AI应用大致需要哪些数据、算法能力和计算资源。理解“垃圾进垃圾出”在AI系统中的含义。三、课程导入AI为什么不是只靠一个模型就够了很多初学者会觉得人工智能的核心就是“模型”。这个理解不算错但不完整。一个AI系统能正常工作通常需要三个基础条件数据 算法 算力如果把AI系统比作做菜AI基础做菜类比作用数据食材提供学习材料算法菜谱指导如何处理材料算力厨具和火力支撑加工过程只有食材好、菜谱合适、厨具够用才更可能做出好菜。AI也是一样。没有数据AI没有学习材料。没有算法AI不知道如何学习。没有算力AI无法完成大量计算。本课会逐一拆解这三件事。四、先建立整体认识数据、算法、算力如何配合一个简化的AI训练过程可以这样理解准备数据 → 使用算法训练模型 → 依靠算力完成计算 → 得到可用模型 → 用模型处理新任务例如训练一个猫狗识别模型数据大量猫和狗的图片以及每张图片对应的标签。算法指导模型如何从图片中学习猫狗区别的方法。算力支撑模型反复查看图片、计算错误、调整参数的硬件能力。模型训练完成后能够判断新图片是猫还是狗。这三个基础不是互相替代的关系而是互相配合。数据再多如果算法不合适模型也学不好。算法再先进如果数据很差也可能学到错误规律。数据和算法都不错如果算力不足训练可能非常慢甚至无法完成。五、数据AI学习的原材料1. 什么是数据数据是AI系统用来学习和判断的材料。不同AI任务需要不同数据。例如AI任务需要的数据人脸识别人脸图片、身份标签语音识别语音录音、对应文字垃圾邮件识别邮件内容、是否垃圾邮件的标签商品推荐浏览记录、购买记录、收藏记录房价预测面积、位置、楼层、房龄、成交价格AI问答助手文本资料、问答样例、知识文档AI不是凭空变聪明的。它依靠数据中的规律建立判断能力。2. 数据可以有哪些形式数据不一定只是表格。常见数据形式包括文本文章、评论、聊天记录、说明书图片照片、医学影像、商品图、人脸图音频语音、音乐、环境声音视频监控视频、教学视频、短视频表格订单、价格、评分、用户信息行为记录点击、浏览、搜索、购买、停留时长传感器数据温度、速度、位置、压力、电量不同数据形式适合不同AI任务。例如文本适合自然语言处理。图片适合计算机视觉。音频适合语音识别。行为记录适合推荐系统。3. 数据越多一定越好吗不一定。数据多有帮助但前提是数据质量足够好。如果大量数据本身混乱、错误、重复或偏向严重模型可能学到错误规律。例如训练一个美食推荐系统如果用户行为数据真实且丰富推荐可能更准确。如果数据里有大量误点、刷量或虚假评价推荐就可能变差。如果只收集某一类用户的数据模型可能不理解其他用户的偏好。所以更准确的说法是高质量、相关、多样、有代表性的数据才是AI学习的好材料。六、数据质量决定AI效果的关键因素1. 准确性准确性指数据是否真实、正确。例如猫的图片不能被标成狗。正常邮件不能被标成垃圾邮件。房屋成交价格不能记录错误。用户年龄、地区等信息不能乱填。如果答案本身是错的模型会被误导。生活类比学生用一本答案错误很多的练习册学习越认真学可能错得越稳定。2. 完整性完整性指数据是否缺少重要信息。例如预测房价时如果只有面积没有城市、位置、楼层、房龄等信息模型很难准确判断。因为同样是100平方米一线城市核心区可能很贵小城市郊区可能便宜很多新房和老房价格也可能差异很大缺少关键字段模型就像拿着不完整线索做判断。3. 多样性多样性指数据是否覆盖足够多的情况。例如训练猫狗识别模型时图片应该包含不同品种不同颜色不同年龄不同姿态不同背景不同光线不同拍摄角度如果训练数据太单一模型可能只适合某些情况。例如只看过白猫的模型遇到黑猫时可能表现不稳定。4. 代表性代表性指训练数据是否接近真实使用场景。例如一个语音识别系统如果训练数据主要来自播音员标准普通话那么它在真实场景中可能难以识别方言口音嘈杂环境说话很快的人儿童或老人的声音手机录音中的低质量声音模型训练时看到的世界应该尽量接近它上线后要面对的世界。5. 时效性有些数据会随着时间变化。例如用户兴趣会变化热门商品会变化金融风险模式会变化垃圾邮件套路会变化网络流行语会变化房价和市场环境会变化如果模型长期使用旧数据效果可能下降。这就像用十年前的地图导航可能会遇到很多新道路和新限制都不知道的情况。七、“垃圾进垃圾出”是什么意思AI领域常说一句话垃圾进垃圾出。意思是如果输入给AI的数据质量很差那么AI输出的结果也很可能很差。1. 错误数据会带来错误学习如果训练数据中的标签经常出错模型会把错误当成正确规律。例如图片内容错误标签猫狗狗猫苹果梨模型会被这些错误答案误导。2. 偏见数据会带来偏见结果如果数据本身带有偏见AI可能学习并放大这种偏见。例如招聘场景中如果历史数据本身存在不公平倾向模型可能误以为这种倾向是正常规律。所以AI系统不仅要关注准确率还要关注公平性和合理性。3. 片面数据会带来片面判断如果训练数据只覆盖少数情况模型可能对其他情况表现不好。例如只用白天清晰道路视频训练自动驾驶感知系统那么它在夜晚、雨天、雾天的表现可能不稳定。这说明数据不只是数量问题也是质量、覆盖范围和场景匹配问题。八、算法指导机器学习的方法1. 什么是算法算法可以理解为解决问题的方法或步骤。在AI中算法负责指导机器如何从数据中学习。通俗理解如果数据是教材算法就是学习方法。同样一本教材不同学习方法会产生不同效果。有的人只背答案有的人总结规律有的人会做错题分析。AI算法也是如此。2. 算法不只是公式初学者听到“算法”时容易联想到复杂数学公式。在入门阶段不需要先学习复杂公式。你可以先把算法理解成如何处理输入数据如何发现数据规律如何比较预测和答案如何根据错误调整模型如何让模型在新数据上表现更好3. 一个简单类比做菜菜谱同样是鸡蛋和番茄不同菜谱会做出不同结果番茄炒蛋番茄蛋汤番茄鸡蛋面食材相同但处理方式不同结果不同。AI也是一样。同样的数据用不同算法处理可能得到不同模型效果。4. 算法要和任务匹配不同任务适合不同算法思路。例如任务常见目标算法需要解决的问题垃圾邮件识别判断类别区分垃圾邮件和正常邮件房价预测预测数值根据房屋信息估计价格用户分群找相似人群把相似用户自动归为一组游戏AI学习策略在奖励和惩罚中学会行动文本生成生成内容根据上下文生成合理文本没有一种算法适合所有问题。好算法要匹配任务目标、数据特点和使用场景。九、算法如何让模型变好1. 从错误中调整很多机器学习算法都有一个基本思想先预测 → 看是否出错 → 根据错误调整 → 再预测这和人学习很像。例如学生做数学题先做题。对答案。发现哪里错。修改解题方法。下次遇到类似题目做得更好。模型训练也是类似过程。2. 学习规律而不是死记答案一个好的算法不应该只让模型记住训练数据。它应该帮助模型学到能迁移到新数据上的规律。例如猫狗识别模型不应该只记住某几张猫图片而应该学到更通用的猫狗特征。这就是为什么第三课提到过拟合只会背题不会举一反三欠拟合学得太浅基本规律没掌握算法的一个重要目标就是在这两者之间找到更好的平衡。3. 算法也需要评估算法效果不能只靠感觉判断。需要通过测试数据和实际场景验证。常见问题包括准确率是否足够错误是否集中在某些场景对新数据是否稳定是否存在明显偏见计算成本是否可接受是否容易解释和维护有时最复杂的算法不一定是最合适的。如果一个简单方法已经能稳定解决问题而且成本更低、解释更清楚就可能更适合实际应用。十、算力支撑AI计算的硬件能力1. 什么是算力算力可以简单理解为计算能力。AI训练和使用都需要计算。尤其是深度学习和大模型需要进行大量重复计算。算力越强通常意味着训练速度更快可以处理更多数据可以训练更复杂的模型可以支持更多用户同时使用AI服务2. 为什么AI需要大量计算训练模型不是看一遍数据就结束。模型需要反复读取大量数据。做出预测。计算预测和答案的差距。调整内部参数。重复很多轮。如果数据量很大、模型很复杂这个过程会消耗大量计算资源。3. 一个生活类比假设你要批改100份作业一个老师可能很快完成。但如果要批改1亿份作业并且每份作业都很复杂就需要大量人力和时间。AI训练中的算力就像大量高速工作的“计算工人”。它们负责完成模型训练中海量重复计算。4. 训练和使用都需要算力算力不只用于训练模型。模型上线后每次用户使用AI也需要计算。例如你向AI聊天助手提问系统接收你的问题。模型理解上下文。模型逐步生成回答。系统把结果返回给你。这个过程也要消耗算力。如果同时有大量用户使用后台就需要更多计算资源支撑。十一、训练算力和推理算力AI中的算力需求可以粗略分成两类。1. 训练算力训练算力用于让模型学习。例如训练图像识别模型训练语音识别模型训练大语言模型用新数据继续优化模型训练通常需要处理大量数据成本较高。可以类比为学生长期学习和刷题的过程。2. 推理算力推理算力用于让训练好的模型回答问题或做判断。例如用户上传图片模型判断是不是猫用户输入一句话模型生成回答系统判断一封邮件是不是垃圾邮件推荐系统计算用户可能喜欢什么内容可以类比为学生学完之后参加考试或解决新问题的过程。3. 两者的区别对比项训练推理目的让模型学习规律用模型处理新任务数据量通常很大每次输入相对较小计算成本通常较高单次较低但用户多时总成本高类比学习和刷题考试和应用大模型时代训练成本很高推理成本也很重要。因为模型可能每天服务大量用户。十二、数据、算法、算力的相互制约数据、算法和算力不是孤立存在的。它们会互相影响。1. 数据多了需要更多算力如果数据量从一万条变成一亿条训练需要的计算资源通常会明显增加。这就像教材从一本变成一整座图书馆学习和整理需要更多时间和工具。2. 模型复杂了也需要更多算力更复杂的模型通常能学习更复杂的规律但也需要更多计算。这不代表模型越大越好。如果任务很简单用很大的模型可能浪费资源。例如只做一个简单表格分类任务不一定需要大语言模型。3. 算力有限时需要更聪明的算法如果算力有限就需要更高效的方法。例如减少不必要计算使用更合适的数据选择更轻量的模型对任务范围做清晰限制在效果和成本之间做平衡真实AI项目往往不是单纯追求最强模型而是在效果、成本、速度和稳定性之间取舍。4. 数据差时算法和算力也很难弥补如果数据本身严重错误算法再复杂、算力再强也可能学到错误规律。这就像用变质食材做菜即使用高级菜谱和昂贵厨具也很难做出好菜。十三、案例一短视频推荐系统1. 系统要解决什么问题短视频推荐系统的目标是给用户推荐可能感兴趣的视频。2. 需要哪些数据可能需要用户观看记录用户点赞记录用户评论记录用户收藏记录用户关注关系每个视频的标题、标签、内容类型用户在视频上的停留时长用户跳过或不感兴趣的记录3. 算法做什么算法需要从这些数据中学习用户可能喜欢什么内容哪些视频和用户兴趣相似什么内容适合在什么时间推荐推荐结果是否过于重复新视频如何获得展示机会4. 算力支持什么算力需要支持大量用户行为数据处理模型训练和更新实时计算推荐结果大量用户同时刷新内容5. 可能的问题推荐系统也可能带来问题只推荐相似内容形成信息茧房过度追求停留时长忽视内容质量新用户数据少推荐不准用户兴趣变化后系统反应慢这说明AI应用不仅要追求准确还要关注体验、价值和风险。十四、案例二智能客服系统1. 系统要解决什么问题智能客服的目标是自动回答用户常见问题提升服务效率。2. 需要哪些数据可能需要历史客服对话常见问题和标准答案产品说明文档售后政策订单状态信息用户反馈记录3. 算法做什么算法可能需要完成理解用户问题匹配相关知识生成自然语言回答判断是否需要转人工从用户反馈中改进回答4. 算力支持什么算力需要支持多用户同时对话快速检索知识生成回答记录和分析对话数据5. 数据质量的影响如果知识库过时智能客服可能回答错误。如果历史对话中有很多不规范回答模型可能学到不好的表达方式。如果缺少复杂问题样例客服机器人可能频繁答非所问。因此智能客服不仅是接入一个模型还需要持续维护数据和知识库。十五、案例三医疗影像辅助诊断1. 系统要解决什么问题医疗影像AI的目标可能是帮助医生从影像中发现异常区域或提示风险。2. 需要哪些数据可能需要医学影像图片医生标注的异常区域诊断结论检查设备信息患者基础信息后续复查或确诊结果3. 算法做什么算法需要学习正常影像和异常影像的差异异常区域可能出现的位置不同疾病在影像上的表现哪些情况需要医生重点关注4. 算力支持什么算力需要支持大量高清影像处理模型训练医院系统中的快速辅助分析多科室、多设备场景下的使用5. 为什么必须谨慎医疗场景错误成本很高。AI可以辅助医生但不能简单替代医生。原因包括数据可能不完整不同医院设备和人群差异较大模型可能漏判或误判诊断需要结合病史、检查和医生经验所以医疗AI更强调验证、监管和人工审核。十六、初学者容易产生的误解误解1只要数据越多AI就一定越好数据多有帮助但质量更重要。低质量数据越多可能让模型学到更多错误规律。误解2算法越复杂越好复杂算法不一定适合所有任务。如果任务简单、数据有限、成本敏感简单稳定的方法可能更合适。误解3算力越强就能解决一切算力可以加速训练和支持更大模型但不能自动修复错误数据和错误目标。误解4AI系统上线后就不用管了现实世界会变化。数据、用户行为、业务规则、风险模式都可能变化。AI系统需要持续监控、评估和更新。误解5AI回答流畅就代表一定正确生成式AI可能生成非常流畅的错误内容。因此重要内容需要核查来源和事实。十七、如何分析一个AI应用看到一个AI应用时可以用下面五个问题分析。1. 它要解决什么问题先明确目标。例如是识别图片是推荐内容是生成文字是预测价格是辅助决策目标不同需要的数据、算法和算力也不同。2. 它需要哪些数据思考输入数据是什么是否需要标签数据是否足够多数据是否准确数据是否覆盖真实场景数据是否涉及隐私和合规3. 它需要什么算法能力思考需要分类吗需要预测数值吗需要生成文本吗需要理解图片或语音吗需要推荐或排序吗4. 它需要多少算力思考是离线训练还是实时响应用户量大不大数据量大不大是否需要大模型响应速度要求高不高5. 它可能有什么风险思考数据是否有偏见输出错误会带来什么影响是否需要人工审核是否涉及隐私信息是否会让用户过度依赖十八、课堂活动拆解一个AI应用活动目标通过拆解真实应用理解数据、算法、算力如何共同支撑AI系统。活动任务请选择一个AI应用进行分析。可选应用地图路线推荐AI聊天助手短视频推荐人脸识别解锁智能客服商品推荐语音转文字作文自动批改填写模板问题我的分析这个AI应用解决什么问题它可能需要哪些数据这些数据需要满足什么质量要求它可能使用什么算法能力它为什么需要算力如果数据有偏差会出现什么问题是否需要人工审核或人工干预示例地图路线推荐问题示例分析解决什么问题帮用户选择更合适的出行路线需要哪些数据地图道路、实时路况、用户位置、交通规则、历史通行时间数据质量要求路况要及时道路信息要准确定位要尽量稳定算法能力路径规划、时间预测、路线排序为什么需要算力需要快速计算多条路线并服务大量用户数据偏差问题路况延迟可能导致推荐路线不准确是否需要人工干预道路施工、事故等特殊情况可能需要人工或系统规则更新十九、本课小结本课我们学习了人工智能的三大基础数据、算法、算力。需要重点记住数据是AI学习的原材料。算法是指导AI如何学习和判断的方法。算力是支撑AI进行大量计算的硬件能力。数据质量会直接影响模型效果。“垃圾进垃圾出”说明错误、片面或有偏见的数据会导致不可靠输出。算法要和任务匹配复杂不一定等于更好。算力可以支撑更大规模的数据处理和模型训练但不能替代好数据和好目标。训练需要算力模型上线后的推理服务也需要算力。AI系统上线后仍需要持续监控和更新。分析AI应用时可以从问题、数据、算法、算力和风险五个角度入手。二十、课后练习练习1分析一个AI应用需要哪些数据请选择一个AI应用填写表格。可选应用智能客服商品推荐AI作文批改语音转文字人脸识别房价预测问题我的回答我选择的AI应用它要解决什么问题它需要哪些数据哪些数据最关键数据可能从哪里来数据可能有哪些质量问题练习2解释数据、算法、算力请用自己的话解释下面三个概念。概念我的解释生活类比数据算法算力练习3判断数据质量问题请判断下面情况可能属于哪类数据质量问题。情况可能的问题猫图片被错误标注成狗语音识别训练数据只有标准普通话没有方言房价数据缺少城市和位置推荐系统数据里有大量刷量行为用五年前的数据预测当前热门商品可选问题类型准确性问题完整性问题多样性不足代表性不足时效性不足噪声或虚假数据练习4理解“垃圾进垃圾出”请回答“垃圾进垃圾出”是什么意思为什么错误标签会影响模型效果如果训练数据存在偏见AI系统可能会出现什么问题数据多但质量差为什么不一定能训练出好模型练习5综合分析请以“AI学习助手”为例回答它需要哪些数据它可能需要哪些算法能力它为什么需要算力它可能出现哪些错误哪些内容需要人工确认或用户自己判断二十一、参考答案与提示练习2参考提示概念参考解释生活类比数据AI用来学习和判断的材料食材、教材、练习题算法指导AI如何从数据中学习的方法菜谱、学习方法算力支撑AI完成大量计算的能力厨具和火力、做题速度练习3参考答案情况可能的问题猫图片被错误标注成狗准确性问题语音识别训练数据只有标准普通话没有方言多样性不足 / 代表性不足房价数据缺少城市和位置完整性问题推荐系统数据里有大量刷量行为噪声或虚假数据用五年前的数据预测当前热门商品时效性不足练习4参考提示“垃圾进垃圾出”表示如果输入给AI系统的数据质量很差输出结果也很可能不可靠。错误标签会让模型把错误答案当成正确规律。有偏见的数据会让模型学习并放大偏见。数据多但质量差可能让模型更稳定地学到错误规律所以不能只看数量。练习5参考提示AI学习助手可能需要课程资料学习目标学生当前水平学生练习记录错题记录学习时间安排用户反馈可能需要的算法能力包括文本理解内容推荐学习计划生成问答摘要练习题生成可能出现的问题包括推荐内容不适合当前水平生成解释有错误学习计划过于理想化忽略学生真实时间限制对专业知识解释不准确需要人工确认的内容包括重要知识点是否准确计划是否符合个人时间生成答案是否可靠是否涉及考试、升学或职业选择等重要决策二十二、下一课预告下一课我们将学习机器学习的基本类型你将了解什么是监督学习什么是无监督学习什么是强化学习什么是分类问题什么是回归问题什么是聚类问题如果说本课解释了AI系统运行所需的基础条件那么下一课会进一步解释机器学习到底有哪些常见学习方式。