(二) LLM探索能力-2. 决策预训练和增加测试时

发布时间：2026/5/22 7:00:37

提升LLM决策能力1. 提升LLM决策能力1.1. 决策预训练Transformer DPT1.2. 增加测试时计算方法1. 提升LLM决策能力1.1. 决策预训练Transformer DPT在多样化数据集上训练的大型 Transformer 模型展现出了非凡的上下文学习in-context learning能力能够在未经明确训练的任务上实现出色的少样本few-shot表现。我们研究了 Transformer 在决策问题即多臂老虎机和马尔可夫决策过程MDP的强化学习RL中的上下文学习能力。我们引入并研究了决策预训练TransformerDecision-Pretrained Transformer, DPT。这是一种监督式预训练方法通过该方法Transformer 在给定查询状态以及来自多样化任务的交互上下文数据集时能够预测出最优动作。尽管该过程简单但所生成的模型却具备若干令人惊喜的能力。经过训练的 Transformer 能够在上下文中解决一系列强化学习问题并在未经明确训练的情况下同时展现出在线探索online exploration和离线保守offline conservatism的特性。该模型还能泛化至预训练分布之外的新任务并自动根据未知结构调整其决策策略。从理论上讲我们证明了 DPT 可以被视为一种贝叶斯后验采样的有效实现而贝叶斯后验采样是一种已被证明具备样本高效性的强化学习算法。我们进一步利用这一联系为 DPT 所产生的上下文算法的遗憾regret提供了保证并证明了它比用于生成预训练数据的算法学习速度更快。这些结果表明通过这种简单路径有望赋予 Transformer 强大的上下文决策能力。1.2. 增加测试时计算方法直接简单地应用 ICRL 会导致效果极差并指出其根本原因在于模型在探索exploration能力上的根本性缺陷这会导致模型迅速退化。方法针对这一缺陷我们通过增加测试时计算量test-time compute以及基于计算约束的近似方法提出了来解决该问题的算法。通过若干具有挑战性的分类任务我们从实证角度证明了我们的 ICRL 算法能够仅从奖励中实现有效的学习并对该能力的特性及我们所提方法进行了分析。总的来说我们的研究结果揭示了大型语言模型中蕴含的卓越的上下文强化学习能力。

1.安装Linux系统

1.0安装虚拟机安装VMware Workstation：新建虚拟机：选择自定义（高级）硬件兼容性选择Workstation最高版本：选择稍后安装操作系统：选择Linux系统，版本选择Red Hat Enterprise LInux 9 64 位虚拟机的…

2026/5/22 6:59:36 阅读更多

入选邮件安全+5大热门赛道，CACTER AI原生实力登榜嘶吼图谱

近日，国内权威第三方研究机构嘶吼安全产业研究院正式发布《嘶吼2026网络安全产业图谱》。作为国内网络安全行业标杆名录之一，该图谱全面展现了网络安全产业发展新格局，是衡量厂商核心实力的重要标尺。 CACTER凭借27年深厚技术积淀与AI 原生全…

2026/5/22 6:59:36 阅读更多

GP210：PWM 转 0/4-20mA，MCU 直接驱动工业电流输出

方案背景GP210 是一颗将 PWM 控制信号转换为 0/4-20mA 电流输出的工业电流环芯片。它适合 MCU、PLC 或控制器通过 PWM 方式直接生成标准模拟电流输出，用于变送器、执行器、比例阀和现场设备控制。传统 PWM 转 4-20mA 方案需要滤波、基准、运放、电流环和保护设计&am…

2026/5/22 6:58:56 阅读更多

Unity翻书效果实现原理：顶点着色器级纸张物理建模

1. 这不是“做个动画”那么简单：翻书效果背后的真实需求与行业误判很多人第一次在Unity里搜“翻书效果”，脑子里浮现的是一段简单的旋转动画——让页面绕Y轴转个90度，加点缓动，再叠个阴影，就完事了。我当年也是这么想的…

2026/5/22 7:41:12 阅读更多

Unity沙漠场景模块化开发：高效拼装与PBR一致性实践

1. 这个资源包到底解决了什么真问题？做Unity场景开发的同行，尤其是接外包或做独立游戏的，肯定都经历过那种“明明美术资源没少买，搭出来却像拼凑的布景板”的尴尬。我去年帮一个中东题材的叙事解谜项目做环境搭建，客户…

2026/5/22 7:37:09 阅读更多

Unity沙漠场景模块化开发：参数化装配与空间语法构建

1. 为什么这个沙漠场景包一上线就被团队抢空——它解决的不是“有没有”，而是“能不能快速迭代”去年做一款中东题材的开放世界Demo时，美术组花了三周时间搭出一个勉强能看的沙漠小镇：主干道歪斜、房屋贴图重复率高达73%、沙丘坡度全是手调参…

2026/5/22 7:37:09 阅读更多

Frida-server魔改实战：Android native层反调试对抗七步法

1. 这不是“绕过检测”，而是让frida-server从“被识别对象”变成“系统一部分”在安卓逆向和安全测试一线干了十多年，我见过太多人把Frida检测对抗理解成一场猫鼠游戏：App加个检测逻辑，测试方就写个绕过脚本；检测逻辑升…

2026/5/22 7:36:49 阅读更多

Godot PCK资源解析工具：离线查看与提取打包资产

1. 这不是“解包工具”，而是Godot游戏资产的显微镜你有没有遇到过这样的情况：下载了一个开源的Godot小游戏，想看看它的UI是怎么做的，结果双击exe根本打不开——它被打包成一个单独的.pck文件；或者你在调试自己项目时&a…

2026/5/22 7:35:48 阅读更多

3步告别GitHub英文界面：GitHub中文化插件终极解决方案

3步告别GitHub英文界面：GitHub中文化插件终极解决方案【免费下载链接】github-chinese GitHub 汉化插件，GitHub 中文化界面。 (GitHub Translation To Chinese) 项目地址: https://gitcode.com/gh_mirrors/gi/github-chinese 还在为GitHub的英文…

2026/5/22 7:35:47 阅读更多

单日大涨4.52%！华泰柏瑞中韩半导体ETF（513310.SH）上演“高热度”行情，溢价率风险引关注

5月21日，华泰柏瑞中韩半导体ETF（513310.SH）延续强势表现，当日收盘价报5.625元，涨幅达4.52%，盘中交投异常活跃，换手率109.80%，量比为1.32，市场资金交易热情高涨。然而&…

2026/5/22 0:00:46 阅读更多

11. 架构：前端工程化与状态管理实战

写在前面：如果说后端 MVT 引擎是 GIS 系统的“心脏”，那么前端就是它的“大脑”和“面孔”。在现代 WebGIS 开发中，如何优雅地管理复杂的图层状态、如何处理海量瓦片的渲染逻辑，是决定项目成败的关键。今天，我们将深入 light-mvt-server 的前端核心，看看如何利用 Vite …

2026/5/22 0:01:27 阅读更多

淘金币自动化脚本终极指南：10分钟搞定淘宝日常任务，每天为你节省20分钟

淘金币自动化脚本终极指南：10分钟搞定淘宝日常任务，每天为你节省20分钟【免费下载链接】taojinbi 淘宝淘金币自动执行脚本，包含蚂蚁森林收取能量，芭芭农场全任务，解放你的双手项目地址: https://gitcode.com/gh_mi…

2026/5/22 0:02:07 阅读更多

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

站内源码及jar包下载一、项目概述文件下载中心一个基于 Java 内置 HTTP 服务器（com.sun.net.httpserver）构建的轻量级文件管理服务。它零第三方依赖，单 JAR 包即可运行，适合在内网环境或临时场景中快速搭建文件共享站点。你的团队需要临时共享一批日志文件或交付物，…

2026/5/21 8:30:37 阅读更多

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)

加密位置: 逆向接口参数: 逆向接口: const g = globalThis; g.window = g; g.self = g; g.location = {<

2026/5/21 16:37:36 阅读更多

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南【免费下载链接】markor Text editor - Notes & ToDo (for Android) - Markdown, todo.txt, plaintext, math, .. 项目地址: https://gitcode.com/gh_mirrors/ma/markor 在移动设备上寻找一款…

2026/5/21 2:29:29 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…