文读懂AI基础技术:机器学习、深度学习、计算机视觉 2022年ChatGPT横空出世AI一夜之间爆火各种新技术新概念层出不穷更是时不时登上全球热搜。于是「机器学习ML」、「深度学习DL」、「大语言模型LLM」、「AI智能体Agent」、「计算机视觉CV」、「自然语言处理NLP」……这些AI概念不管你愿不愿意都会时不时的进入你的视线。但它们具体指啥、有啥区别、啥关系不知你脑子里是不是时常一团浆糊别说你了即使很多科技公司的宣传文案用的都不一定对。今天我们用两篇文章把AI最核心的技术讲清楚。本文是第一篇聚焦三项基础技术机器学习、深度学习、计算机视觉。读完这篇相信你会对AI最底层的技术逻辑有一个清晰的认知框架。机器学习Machine LearningML—— 让机器从数据中自己找规律它是怎么实现的呢传统AI靠程序员手把手教机器这是尖耳朵、嘴上有胡须、全身毛茸茸的东西就是猫。机器按程序员用代码写的这些规则遇到符合条件的就说是猫。现实世界千变万化根本没法把所有猫的特征都写成代码。一旦遇到规则没覆盖或没写清楚的情况机器就傻了。机器学习的思路完全不同与其让人教机器不如让机器自己从数据里找规律。怎么做给它看一百万张猫的图片让它自己总结出猫长什么样。这个过程就像小孩认识世界见过足够多的猫之后自然就知道什么是猫了不需要特意给他列出尖耳朵胡须毛这些抽象特征。目前机器学习主要有三类学习方式监督学习就像考试有标准答案。告诉机器哪些是垃圾邮件、哪些不是这套房子多少钱、那套多少钱机器从这些正确答案里学习规律遇到新邮件、新房子就能自己作出判断。垃圾邮件过滤、房价预测用的都是这个套路。无监督学习没有标准答案的情况。给机器一堆数据但不告诉它答案让它自己去找规律。比如把一百万个网购用户的数据扔给机器让它自己发现这群人经常买母婴用品那群人专门买数码产品。电商的精准营销就是基于此实现的。强化学习就像训练宠物。机器做对了给它奖励做错了不给奖励甚至惩罚。反复试错之后机器自己就知道什么策略能得到更多奖励。AlphaGo就是用强化学习训练出来的下了几千万盘棋之后它的棋力超过了所有人类。可以说今天我们碰到的抖音推荐、语音转文字、刷脸支付等AI应用都是机器学习思想在不同场景下的延伸。它是整个AI大厦的地基后续要介绍的深度学习、计算机视觉、自然语言处理都是以它为基础。深度学习Deep LearningDL—— 多层神经网络的威力普通的机器学习模型处理问题就是输入数据输出结果方式直接且单一。但深度学习不一样它在模仿人脑的思考模式用几十层甚至上百层的人工神经元层层叠加来处理信息。每一层对信息做一次抽象越往上理解就越深入。深度学习本质上是机器学习的高阶形态把单层模型换成多层结构让机器能够自动从海量数据中提取越来越抽象的特征。就拿识别一张脸来说深度学习是这么做的第1层识别哪里有轮廓、哪里是阴影的边缘线条第2层从边缘组合出眼睛、鼻子、嘴巴的轮廓第3层从五官的位置关系判断这是谁每往上一层信息就抽象一分理解就深入一层。这种层层堆叠的结构让深度学习能捕捉极其复杂的规律这是单层模型根本做不到的。深度学习能真正爆发背后是三件事凑到了一起先是海量数据出现了。互联网二十年积累了几十亿张图片、语音、文字这些数据足够喂饱这些大胃王模型。然后算力也跟上了。GPU图形处理器本来是为游戏设计的但它的并行计算能力恰好适合训练深度学习模型这让以前要跑好几周的训练任务几天就能完成。更重要的是算法突破了。2012年的ImageNet图像识别比赛深度学习模型一出场就把错误率从26%砍到15%从此一发不可收拾。这个节点就是深度学习时代的起点。微信语音转文字、高铁刷脸进站、医院CT片AI辅助诊断、ChatGPT的语言理解等等我们今天习以为常的应用背后都是深度学习在驱动。计算机视觉Computer VisionCV—— 让机器能看看这件事对人来说太自然了自然到你几乎不会意识到它有多难。但对机器来说看见或许很容易只要有摄像头就能捕捉到真实的世界。但看见和看懂是两码事。摄像头能捕捉像素但想要理解这张图片里有什么在发生什么就需要极强的智能。计算机视觉要解决的就是让机器从图像和视频中提取有意义的信息。具体包括几类核心任务物体识别给机器一张图让它说出图里有什么有猫、有狗还是有汽车。图像分割不只知道图里有什么还要精确定位每个物体在哪里、边界在哪。自动驾驶用的就是这项技术需要知道道路在哪里、行人站在哪里、车辆有多远。人脸识别在茫茫人海中找到特定的人。高铁刷脸进站、手机解锁、门禁系统用的都是这套能力。目标追踪在视频中持续跟踪一个物体的移动轨迹。比如交通监控里追踪车辆行驶轨迹或者体育赛事中追踪运动员的移动。这些能力能真正落地关键在于CNN卷积神经网络的突破。它是深度学习在视觉领域的核心架构让机器能够自动从海量图片中学习视觉特征识别准确率才有了质的飞跃。也正因为如此这项技术才从学术研究走进了日常生活高铁闸机刷脸、手机解锁、工厂里用AI检测产品缺陷这些场景正在改变我们的日常。说到这里第一篇就讲完了。我们聊了三项当前AI最底层也是最核心的技术机器学习让机器从数据中自己找规律是整个AI的地基深度学习用多层神经网络模仿人脑思考让机器能处理极其复杂的规律计算机视觉让机器能看懂图像和视频打开了AI感知物理世界的大门。这三项技术有一个共同特点它们更多是在幕后工作。你刷抖音时是机器学习在决定推什么内容你用高铁刷脸进站时是计算机视觉在认你的脸你问AI问题时是深度学习在理解你的意思。它们不直接和你对话但无处不在。下一篇我们会走进更贴近日常交互的技术自然语言处理、语音识别、语音合成、可解释AI。如果你对AI怎么听懂人话、开口说话感兴趣欢迎继续读下去。