读技术之外:社会联结中的人工智能04数据

news/2025/11/16 14:21:51/文章来源:https://www.cnblogs.com/lying7/p/19105421

读技术之外:社会联结中的人工智能04数据

1. 数据

1.1. NIST

  • 1.1.1. 美国国家标准与技术研究所 (National Institute of Standards and Technology, NIST)

  • 1.1.2. NIST成立于1901年,旨在加强国家测量基础设施建设,并为与工业化世界中的经济竞争对手(如德国和英国)进行竞争而制定标准

  • 1.1.3. 从电子健康记录到抗震摩天大楼,再到原子钟等,一切都在NIST的管辖范围内

  • 1.1.4. 成为时间、通信协议、无机晶体结构、纳米技术的测量机构

  • 1.1.5. 目标,是定义和支持各类标准,以使系统之间具有互操作性,现在,开发人工智能标准也被纳入NIST的工作范畴之中

  • 1.1.6. 为生物识别数据而设置的测试基础设施,便是NIST需要维护的内容之一

1.2. 面部照片本身很容易给人留下深刻的印象

  • 1.2.1. 面部照片是当前AI创造方法的原始基础

  • 1.2.2. 人类脸部数据是构建面部识别系统的核心

  • 1.2.3. 照片被设计为机器可读,并非用于人眼观看,但它们却可以带来非同寻常的视觉效果

1.3. 从在执法系统中识别特定个体,转变成为测试用于检测人脸的商业和学术AI系统的技术基准

  • 1.3.1. 面部照片是技术现实主义传统的一部分,旨在“提供罪犯的标准画像”​

1.4. 发明入案照片的阿尔方斯·贝蒂永(Alphonse Bertillon)等犯罪学家将其视为一种个人生平身份识别的机制,是发现惯犯所必需的

1.5. 弗朗西斯·高尔顿(Francis Galton)

  • 1.5.1. 统计学家和优生学奠基人

  • 1.5.2. 将囚犯的复合肖像作为检测生物学上确定“犯罪类型”的一种方法

  • 1.5.3. 基于一种面相学者的范式,其目标是找到一种通用的外观,以从外表中识别出深刻的性格特征

  • 1.5.4. 当面部照片被用作训练数据时,它们不再作为识别工具来发挥作用,而是用于微调一种自动化的视觉形式

  • 1.5.5. 面部照片用于检测面部的基本数学成分,以“将自然还原为其几何本质”

1.6. 面部照片构成了用于测试面部识别算法的档案的一部分

  • 1.6.1. 多重遭遇数据集中的人脸已成为标准化图像,成为一种比较算法准确性的技术基础

1.7. 照片中描绘的人及其家人都对这些图像的使用方式没有任何发言权,甚至对于他们是人工智能测试平台的一部分的事实可能毫不知情

  • 1.7.1. 这些人不被视为个人,而是作为共享技术资源的一部分—只是作为另一种面部识别验证测试程序的数据组件,这就是该领域备受推崇的“黄金标准”​

1.8. 一切都是数据,且随时可被使用

1.9. 图像是在没有背景信息和未经同意的情况下,从互联网或国家机构获取的

  • 1.9.1. 并不中立

  • 1.9.2. 代表着个人的历史、结构性的不平等,并与美国治安和监狱系统历史中的所有不公正为伴

  • 1.9.3. 这些图像能够以某种方式作为非政治性的惰性材料的假设,影响了机器学习工具“观察”的方式和内容

  • 1.9.4. 任何单个图像都可以轻松被另一个图像替换,系统依然会以同样的工作方式来运行

  • 1.9.5. 从互联网和社交媒体平台这些不断壮大且分布在全球的宝库中总能获取更多的数据

1.10. 如今,所有可公开访问的数字资料—即使是隐私的或可能具有破坏性的—都被一视同仁地抓取并收集到训练数据集中,用于为诸如治安维持、广告推广、文本翻译以及招聘自动化等应用生成AI模型

2. 让机器“看见”

2.1. 图像解释是一项极其复杂且关联性较强的工作,它在计算机科学领域很少被讨论

2.2. 图像是非常不稳定的,它们承载了多种潜在的意义、无法解决的问题以及矛盾

2.3. 真相不再是现实表征或取得共识的现实,而是从各种可用的在线资源中抓取的混乱图像

2.4. 人类工程师通过向计算机提供被标记的训练数据,来监督机器学习的效果

  • 2.4.1. 学习器是在这些被标记的数据示例上进行训练的算法

  • 2.4.2. 然后它会通知分类器,如何最佳地分析新输入的数据和预期输出数据或预测结果之间的关系

2.5. 正确的被标记数据的示例越多,算法就越能产生准确的预测

  • 2.5.1. 机器学习模型有很多种,包括神经网络、逻辑回归和决策树

2.6. 所谓的归纳推理,一种基于可用数据的开放假设,而不是从前提之上遵循逻辑推导出来的演绎推理

  • 2.6.1. 训练数据集是大多数机器学习系统进行推理的核心

    • 2.6.1.1. 它们是AI系统用来生成预测基础的主要原材料
  • 2.6.2. 训练数据不仅定义了机器学习算法的特征,还被用于评估算法随着时间推移的表现

2.7. 最著名的比赛之一是图网(ImageNet)挑战赛,研究人员在比赛中相互竞争,来看谁的方法可以最准确地分类和检测物体和场景

  • 2.7.1. 新的训练集继承了早期案例中的学习逻辑,然后衍生出了后续的案例

2.8. 训练数据是构建当代机器学习系统的基础

  • 2.8.1. 训练数据是现实情况的一种脆弱的形态

  • 2.8.2. 即使是最大的数据库也无法避免在一个无限复杂的世界被简化和分类时出现的基本滑移

3. 数据需求简史

3.1. 妇女通常只被认为是能够理解数据记录的输入设备

  • 3.1.1. 历史学家詹妮弗·莱特(Jennifer Light)

  • 3.1.2. 从事实的角度来看,她们加工数据和运行系统的角色,与设计战时数字计算机的工程师的角色一样重要

  • 3.1.3. 数据和处理系统之间的关系,已经被认为是一种无休止的消耗

  • 3.1.4. 机器需要大量的数据,并且肯定将从数百万人中提取广泛的素材

3.2. 语音识别

  • 3.2.1. 语音识别的问题最初是通过语言学方法来解决的

  • 3.2.2. 一个重要的案例来自IBM研究所的语音识别团队

    • 3.2.2.1. IBM并不是唯一一个开始大量收集词汇数据的组织
  • 3.2.3. 他们的技术为Siri和龙语音(Dragon Dictate)的语音识别系统,以及谷歌翻译和微软翻译等机器翻译系统奠定了基础

3.3. 若想使该统计学方法发挥作用,就需要大量真实的语音和文本数据或是训练数据

  • 3.3.1. 将语音从根本上简化为数据,以在缺乏语言知识或理解的情况下对其进行建模和解释

  • 3.3.2. 语音变得不再重要

3.4. 从内容简化到数据,从意义简化到统计模式识别

  • 3.4.1. 对数据原则而非语言原则的依赖带来了一系列新的挑战,因为这意味着统计模型必然由训练数据的特征决定

  • 3.4.2. 数据集不仅改善了随机过程的概率估计,而且增加了数据捕获更罕见结果的概率

3.5. 文本档案被视为语言的中立集合,就如同技术手册中的词语与同事们邮件交流的用语之间存在等价性一样

  • 3.5.1. 所有文本都是可重复利用和可交换的,只要有足够的文本,便可以训练出一个语言模型,并以非常高的成功率预测出词语的前后顺序

  • 3.5.2. 语言不是一种惰性物质,无论在哪里获取的语言数据都不会完全以相同的方式运行

3.6. 语言是没有中立基础的,所有的文本集合都有时间、地点、文化和政治的痕迹

  • 3.6.1. 一些语言由于缺少可用数据,人们无法使用此类研究方法进行分析,于是失去了关注

3.7. 系统底层数据的来源是非常重要的

  • 3.7.1. 依然没有标准方法来记录所有这些数据的来源或获取的方式

  • 3.7.2. 更不用提数据获取方式的伦理问题

  • 3.7.3. 这些数据集包含的会影响所有依赖他们的系统的偏差类型

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/174193.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

生成式AI与计算教育融合研究

本文探讨了生成式AI在计算教育领域的应用研究,重点介绍了专为编程教育设计的AI助手MerryQuery的技术架构,包括双模式系统、RAG集成、多模态处理等核心功能,以及在实际教学环境中的部署效果和改进方向。本雅明塔巴西…

Spec Kit 终结AI瞎写代码

Spec Kit 终结AI瞎写代码告别AI胡说八道!GitHub开源神器SpecKit来了! 先去看看这个教程吧:目录spec-kit是什么?核心理念(SDD 四个关键词)SpecKit组成与目录结构SpecKit典型适用场景安装过程完整工作流程阶段0:B…

2025年R系列斜齿轮减速机厂家最新推荐:R系列斜齿轮减速机/F系列平行轴齿轮减速机/K系列螺旋斜齿轮减速机/S系列蜗轮减速机实力厂家精准传动解决方案

在工业自动化蓬勃发展的今天,减速机作为机械传动系统的核心部件,其性能优劣直接影响设备运行效率与稳定性。R系列斜齿轮减速机凭借结构紧凑、传动效率高、承载能力强等优势,已成为工业设备升级换代的首选传动方案。…

2025化工泵厂家权威推荐榜:磁力泵/多级泵/高温泵/混流泵/浆液泵/螺杆泵/陶瓷泵/脱硫泵/旋涡泵/液下泵/轴流泵/自吸泵厂家,高效节能与耐用品质实力之选

在化工行业高质量发展的背景下,化工泵作为生产流程中的核心装备,其性能表现直接关系到生产效率和运营成本。随着环保政策趋严和节能要求提升,高效节能与耐用品质已成为化工泵选型的关键指标。为帮助行业用户筛选优质…

课程作业

课程作业这个作业属于哪个课程 https://edu.cnblogs.com/campus/zjlg/25rjjc这个作业的目标 介绍自己并确立课程目标姓名-学号 潘均昊 2023329301031自我介绍: 大家好,我是浙江理工大学2023级自动化1班的潘均昊,我是…

task2.c

task2.cinclude <stdio.h> int main() { double a, b, c; scanf_s("%lf%lf%lf" , &a, &b, &c); if (a + b > c and a + c > b and b + c > a)printf("能构成三角形\n"…

SpringCloud实用篇02-(Nacos配置管理,Feign远程调用,Gateway服务网关) - a

SpringCloud实用篇02-(Nacos配置管理,Feign远程调用,Gateway服务网关) 目录SpringCloud实用篇02-(Nacos配置管理,Feign远程调用,Gateway服务网关)0.学习目标1.Nacos配置管理1.1.统一配置管理1.1.1.在nacos中添…

reLeetCode 热题 100- 76 最小覆盖串 - MKT

reLeetCode 热题 100- 76 最小覆盖串 自己 滑动窗 class Solution { public: // 自己第一个 5% 时间满 内存64% 动态滑动窗string minWindow1(string s, string t) {if(s.size()<t.size()){return "";}v…

SpringCloud-01(认识微服务,服务拆分和远程调用,Eureak注册中心,Ribbon负载均衡,Nacos注册中心) - a

SpringCloud01 目录SpringCloud011.认识微服务1.0.学习目标1.1.单体架构1.2.分布式架构1.3.微服务1.4.SpringCloud1.5.总结2.服务拆分和远程调用2.1.服务拆分原则2.2.服务拆分示例2.2.1.导入Sql语句2.2.2.导入demo工程…

task.1_2.c

task.1_2.c//task1_2.c include <stdio.h> int main() { printf("%s\t%s\t\n"," 0"," 0"); printf("%s\t%s\t\n","", ""); printf("%s\t%s\t…

使用Quarkus构建首个Keycloak MCP服务器实战指南

本文详细介绍了如何使用Quarkus框架构建一个基于Model Context Protocol的Keycloak管理服务器,包含完整的代码实现、工具定义和部署流程,帮助开发者理解MCP协议在实际项目中的应用。A Keycloak示例 - 使用Quarkus构建…

AI数据管道同步引擎技术解析

本文详细介绍了一种新型数据同步引擎技术,它能够整合分布式计算服务,构建统一数据层,解决非结构化数据接入AI管道的难题,通过并行架构支持快速扩展,降低企业AI应用成本。某机构SyncEngine助力AI代理获取多源非结构…

20232427 2025-2026-1 《网络与系统攻防技术》实验一实验报告

一、实验目的 篡改程序流程——直接修改可执行文件,跳转至getShell; 栈溢出攻击——利用foo函数的缓冲区溢出漏洞,覆盖返回地址触发getShell; Shellcode注入——构造恶意输入注入自定义Shellcode并执行。 二、基础…

PWN手的成长之路-11-CISCN 2019华北 PWN1-栈溢出

远程连接以下靶机,看看交互。file 查看程序文件。checksec 查看程序文件安全属性。开启了 NX 保护,栈上不可执行。IDA 打开程序文件。查看 ain 函数,发现调用了 func 函数。查看 func 函数。这里需要判断 v2 是否等…

sensitive-word:一个简单易用的敏感词过滤框架

这篇文章,分享一个开源项目:sensitive-word 。Github 地址:https://github.com/houbb/sensitive-wordsensitive-word 是一个功能强大的 Java 敏感词过滤框架,它不仅提供了基础的敏感词检测功能,还支持单词标签分类…

如何使用 ManySpeech 调用 SenseVoiceSmall 模型

一、模型与组件简介SenseVoice 模型多语言音频理解开源模型,支持语音识别、语种识别、情感识别等功能,适用于中、粤、英、日、韩等语言。 ManySpeech.AliParaformerAsrC# 语音识别推理库,支持 paraformer-large、pa…

国庆假期总结

🎉国庆总览🎉 学习🎯被学习充满的假期真是太充实(无聊)了机器学习。学习了吴恩达的机器学习,看了一百多集,实践做了小部分,我感觉到只学习到了皮毛,难的。其实只是选修课而已在这个学期,但是我想这是专业…

2025浇注型聚氨酯厂家最新推荐榜:聚氨酯胶黏剂/聚氨酯胶辊/聚氨酯制品/聚氨酯原料/液体聚氨酯/聚氨酯浇注料/聚氨酯ABC料/浇筑聚氨酯/聚氨酯预聚物全场景实力厂家

在当今工业材料领域,浇注型聚氨酯作为一种高性能弹性体材料,因其优异的耐磨性、耐油性和机械强度,在机械制造、矿山设备、印刷包装等行业得到广泛应用。随着市场需求持续增长,如何从众多厂家中筛选出优质供应商成为…

动态张量运算自动优化技术解析

本文介绍了一种名为DietCode的新型自动调度器,能够高效处理动态形状的张量运算,将优化过程加速6倍以上,同时使生成代码性能提升高达70%,显著提升机器学习工作效率。自动优化动态张量运算的执行 深度学习模型核心依…

多线程插入也是随机io,那为啥不用uuid

多线程插入也是随机io,那为啥不用uuid首先,并发写入确实是随机io,但是uuid带来的页分裂更恶劣 而多线程并发写入有序id,操作系统有办法优化老实说ds说的有点牵强