论文阅读(一种新的稀疏PCA求解方式)Sparse PCA: A Geometric Approach

这是一篇来自JMLR的论文,论文主要关注稀疏主成分分析(Sparse PCA)的问题,提出了一种新颖的几何解法(GeoSPCA)。

该方法相比传统稀疏PCA的解法的优点:1)更容易找到全局最优;2)计算效率更高;3)因为不再需要计算存储整个协方差矩阵,所以对存储资源需求更少;4)GeoSPCA能够一次性构建所有主成分,而不是通过迭代的方式逐步添加,这有助于避免因迭代过程中的数据秩减而导致的信息损失。

这个笔记不会记录原文中过于数学的证明和推理部分,仅整理原理、结论和算法流程等。对数学推理感兴趣的,可自行到以下地址查看原文:

https://www.jmlr.org/papers/volume24/22-0088/22-0088.pdf

1,什么是稀疏PCA

首先给不了解的读者补充一下稀疏PCA概念:

普通PCA得到的主成分有大量非0的原始变量,所以主成分其实是不太清晰的。稀疏PCA通过减少构建主成分的变量数量,可以提高模型的可解释性、预测能力或降低操作成本。相比较而言,稀疏PCA更适用于需要模型解释性的场景。

稀疏PCA 在普通PCA的基础上,引入了一个惩罚函数。这样做的目的是使得大部分系数变为零,从而凸现出主成分的主要部分。

稀疏PCA的实现通常涉及到在标准的PCA优化问题中加入一个正则化项,以促使某些系数变为零。

2,现有稀疏PCA计算方式的缺陷

大多数现有方法通过迭代方式构建主成分(PCs),这些方法通常无法保证整体最优解,且计算成本较高。

3,本文提出的GeoSPCA方法

这种方法通过将问题转化为一个二元线性优化问题(BLO)来近似原始问题,从而绕开了非凸优化的问题。

GeoSPCA算法一次性构建所有主成分,而不是通过迭代的方式。这种方法通过引入一个参数η来近似原始问题,并通过一系列切割平面算法(cut generation algorithm)来逐步改进解。

切割平面算法的核心思想是逐步添加约束条件(即切割平面),以逼近问题的最优解。

3.1 整体流程思路:

  1. 初始化:算法开始时,首先解决一个没有额外约束的基本二元线性优化问题(BLO),以获得初始解。

  2. 计算当前解的正交投影:对于当前解,计算数据矩阵在由当前解定义的子空间上的正交投影。

  3. 检查投影误差:计算当前解的正交投影与原始数据矩阵之间的差异(即误差)。如果这个误差小于预设的阈值η,当前解就是可接受的。

  4. 生成切割平面:如果投影误差超过阈值η,算法会生成一个新的线性约束(切割平面),该约束会排除当前解,迫使算法在下一次迭代中寻找更好的解。

  5. 迭代过程:将新生成的切割平面添加到优化问题中,并重新解决BLO问题以获得新的解。这个过程会不断重复,直到找到满足误差阈值的解或达到预设的迭代次数。

  6. 终止条件:算法在以下情况下终止:1)找到一个满足误差阈值η的解。2)达到预设的最大迭代次数。3)无法进一步改进当前解。

注:其中,线性约束(也称为切割平面或切割约束)是一种限制变量取值范围的表达式,它以线性方程或不等式的形式出现。

3.2 具体落实的算法

在具体落实层面,原文提出了2个算法。

算法1在给定参数η的情况下,找到一组最优支持(Optimal support),这些支持用于构建稀疏主成分。

算法2是从较大的η值开始,逐步细化η的值,以逼近最优的η值,同时也获得稀疏PCA的最优解。

算法1:

算法步骤如下:

  1. 初始化:开始时,使用一个二元线性优化(BLO)问题,目标是最大化数据矩阵列的范数加权和,约束条件是支持的大小不超过k。

  2. 求解BLO问题:使用BLO求解器找到当前问题的最优解 s∗。

  3. 计算正交投影:对找到的解 s∗,计算数据矩阵在由解 s∗ 定义的子空间上的正交投影,并求解PCA以得到对应的主成分。

  4. 检查投影误差:计算正交投影与原始数据矩阵之间的Frobenius范数误差 η(s∗)。(注:两个矩阵之间的Frobenius范数一般指的是两个矩阵差的Frobenius范数,也就是同位置元素相减后的平方和的平方根)

  5. 生成切割平面:如果误差 η(s∗)超过给定的阈值η,则生成一个新的线性约束(切割平面),将其添加到BLO问题中,以排除当前解。

  6. 迭代:重复求解BLO问题,并根据需要生成和添加新的切割平面,直到找到满足误差阈值的解。

  7. 返回结果:算法返回找到的支持集,这些支持集定义了稀疏主成分。

 算法2:

算法步骤如下:

  1. 初始化:设置初始η值 η0和最优解的η值 η∗ 为较大的值。

  2. 迭代过程:进行多次迭代,每次迭代使用算法1来求解当前η值下的BLO问题。

  3. 更新η值:如果当前解的η值 ηt小于 η∗,并且当前解的函数值 f(ηt) 高于 η∗,则更新 η∗为 ηt,并减小η值以进行下一步迭代。

  4. 检查停止条件:如果经过λ次迭代后没有改进,或者达到预设的迭代次数,则停止迭代。

  5. 返回结果:算法返回找到的近似最优解的支持集 s∗,以及对应的η值 η∗和函数值 f(η*)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/354099.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【LeetCode 动态规划】买卖股票的最佳时机问题合集

文章目录 1. 买卖股票的最佳时机含冷冻期2. 买卖股票的最佳时机Ⅳ ---- 只允许交易 k 次🖊 1. 买卖股票的最佳时机含冷冻期 题目链接🔗 🍎题目思路: 🍎题目代码: class Solution { public:int maxProfi…

【面试八股总结】Redis数据结构及底层实现

一、五种基本数据结构 Redis 提供了丰富的数据类型,常见的有五种数据类型:String(字符串),Hash(哈希),List(列表),Set(集合&#xff0…

Studying-代码随想录训练营day14| 226.翻转二叉树、101.对称二叉树、104.二叉树的最大深度、111.二叉树的最小深度

第十四天,(ง •_•)ง💪💪,编程语言:C 目录 226.翻转二叉树 101.对称二叉树 100.相同的树 572.另一个树的子树 104.二叉树的最大深度 559.n叉树的最大深度 111.二叉树的最小深度 总结 226.翻转二叉树 文档讲…

建筑八大员证报名一寸彩色照片要求及手机自拍方法解读

在建筑行业,八大员证的持有者是广受尊重的专业人士。然而,要成为一名合格的八大员,首先必须通过资格审核和报名流程。其中重要的一步就是提交一寸彩色照片,以确保个人信息准确无误。那么,你是否清楚报名时照片的要求以…

milvus元数据解析工具milvusmetagui介绍使用

简介 milvusmetagui是一款用来对milvus的元数据进行解析的工具,milvus的元数据存储在etcd上,而且经过了序列化,通过etcd-manager这样的工具来查看是一堆二进制乱码,因此开发了这个工具对value进行反序列化解析。 在这里为了方便交…

深圳中小企业融资攻略,贷款方法大盘点!

中小企业融资这事,可不是一个简单的事情。资金对中小企业来说,就像血液对人体一样重要。企业发展离不开资金支持,特别是在今年这个环境下,政策对中小企业还挺友好的。今天讲解一下中小微企业常用的几种贷款方法。希望能让大家更明…

基于STM32和人工智能的自动驾驶小车系统

目录 引言环境准备自动驾驶小车系统基础代码实现:实现自动驾驶小车系统 4.1 数据采集模块4.2 数据处理与分析4.3 控制系统4.4 用户界面与数据可视化应用场景:自动驾驶应用与优化问题解决方案与优化收尾与总结 1. 引言 随着人工智能和嵌入式系统技术的…

pikachu靶场之XSS漏洞测试

一、环境配置 1.pikachu官网下载 下载地址:https://github.com/zhuifengshaonianhanlu/pikachu 2.百度网盘(里面含有pikachu跟phpstudy) 链接:pikachu下载 密码:abcd 配置:pikachu下载及安装-图文详解…

【尚庭公寓SpringBoot + Vue 项目实战】登录管理(十八)

【尚庭公寓SpringBoot Vue 项目实战】登录管理(十八) 文章目录 【尚庭公寓SpringBoot Vue 项目实战】登录管理(十八)1、登录业务介绍2、接口开发2.1、获取图形验证码2.2、登录接口2.3、获取登录用户个人信息 1、登录业务介绍 登…

keil5显示内存和存储占用百分比进度条工具

简介 [Keil5_disp_size_bar] 以进度条百分比来显示keil编译后生成的固件对芯片的内存ram和存储flash的占用情况, 并生成各个源码文件对ram和flash的占比整合排序后的map信息的表格和饼图。 原理是使用C语言遍历当前目录找到keil工程和编译后生成的map文件 然后读取工程文件和m…

shadertoy-安装和使用

一、安装vscode 安装vscode流程 二、安装插件 1.安装glsl编辑插件 2.安装shader toy插件 三、创建glsl文件 test.glsl文件 float Grid(float size, vec2 fragCoord) {vec2 r fragCoord / size;vec2 grid abs(fract(r - 0.5) - 0.5) / fwidth(r);float line min(grid…

Weevil-Optimizer象鼻虫优化算法的matlab仿真实现

目录 1.程序功能描述 2.测试软件版本以及运行结果展示 3.核心程序 4.本算法原理 5.完整程序 1.程序功能描述 Weevil-Optimizer象鼻虫优化算法的matlab仿真实现,仿真输出算法的优化收敛曲线,对比不同的适应度函数。 2.测试软件版本以及运行结果展示…

李宏毅2023机器学习作业HW06解析和代码分享

ML2023Spring - HW6 相关信息: 课程主页 课程视频 Sample code HW06 视频 HW06 PDF 个人完整代码分享: GitHub | Gitee | GitCode P.S. HW06 是在 Judgeboi 上提交的,出于学习目的这里会自定义两个度量的函数,不用深究,遵循 Sugge…

MySQL数据库的字段属性(navicat)

Unsigned:无符号 无符号的整数 声明了该列不能声明为负数 zerofill:填充零 不满足长度时,用0进行填充 如:int(3),5 ——> 005 位置在无符号的下方 自增 通常理解为自增&…

《算法设计与分析》第五六章:回溯法与分支限界法

文章目录 回溯法分支限界法一、本章作业1.活动安排问题2.旅行商问题3.单源最短路径4.任务分配问题 二、算法积累1.回溯法求解01背包问题2.回溯法求解最大团问题3.回溯法求解n皇后问题4.回溯法求解地图着色5.回溯法求解哈密尔顿图6.回溯法求活动安排7.分支限界法求01背包问题8.分…

DIVE INTO DEEP LEARNING 36-49

文章目录 36. Data augmentation36.1 Training with enhanced data36.2 Enhancement measures36.3 Data augmentation summary 37. Fine tuning37.1 Fine tuning Introduce37.2 Fine tuning Step37.3 Fine tuning summary 38. Object detection38.1 Object detection38.2 Edge …

SpringBoot+Vue实现Excel文档导入和导出

1.准备工作 1.1.前端程序 在前端首先加上批量导出的按钮&#xff0c;如下 <el-button size"small" type"warning" plain click"exportData"> 批量导出 </el-button> 在添加了点击事件之后&#xff0c;在methods中要与之对应的添加上…

汽车IVI中控开发入门及进阶(二十七):车载摄像头vehicle camera

前言: 在车载IVI、智能座舱系统中,有一个重要的应用场景就是视频。视频应用又可分为三种,一种是直接解码U盘、SD卡里面的视频文件进行播放,一种是手机投屏,就是把手机投屏软件已视频方式投屏到显示屏上显示,另外一种就是对视频采集设备(主要就是摄像头Camera)的视频源…

3ds Max软件下载安装:3D建模软件 轻松开启你的建模之旅!

3ds Max&#xff0c;在建模过程中&#xff0c;网格建模和NURBS建模两大技术发挥着不可或缺的作用。网格建模允许用户通过顶点、边和面等元素的调整&#xff0c;精确地塑造出模型的形态&#xff1b;而NURBS建模则以其优秀的曲线和曲面处理能力&#xff0c;为设计师们提供了更为平…

二分+ST表+递推,Cf 1237D - Balanced Playlist

一、题目 1、题目描述 2、输入输出 2.1输入 2.2输出 3、原题链接 Problem - 1237D - Codeforces 二、解题报告 1、思路分析 case3提示我们一件事情&#xff1a;如果存在某个位置永远不停止&#xff0c;那么所有位置都满足永远不停止 很容易证明 随着下标右移&#xff0c…