(二) LLM探索能力-2. 决策预训练和增加测试时 提升LLM决策能力1. 提升LLM决策能力1.1. 决策预训练Transformer DPT1.2. 增加测试时计算方法1. 提升LLM决策能力1.1. 决策预训练Transformer DPT在多样化数据集上训练的大型 Transformer 模型展现出了非凡的上下文学习in-context learning能力能够在未经明确训练的任务上实现出色的少样本few-shot表现。我们研究了 Transformer 在决策问题即多臂老虎机和马尔可夫决策过程MDP的强化学习RL中的上下文学习能力。我们引入并研究了决策预训练TransformerDecision-Pretrained Transformer, DPT。这是一种监督式预训练方法通过该方法Transformer 在给定查询状态以及来自多样化任务的交互上下文数据集时能够预测出最优动作。尽管该过程简单但所生成的模型却具备若干令人惊喜的能力。经过训练的 Transformer 能够在上下文中解决一系列强化学习问题并在未经明确训练的情况下同时展现出在线探索online exploration和离线保守offline conservatism的特性。该模型还能泛化至预训练分布之外的新任务并自动根据未知结构调整其决策策略。从理论上讲我们证明了 DPT 可以被视为一种贝叶斯后验采样的有效实现而贝叶斯后验采样是一种已被证明具备样本高效性的强化学习算法。我们进一步利用这一联系为 DPT 所产生的上下文算法的遗憾regret提供了保证并证明了它比用于生成预训练数据的算法学习速度更快。这些结果表明通过这种简单路径有望赋予 Transformer 强大的上下文决策能力。1.2. 增加测试时计算方法直接简单地应用 ICRL 会导致效果极差并指出其根本原因在于模型在探索exploration能力上的根本性缺陷这会导致模型迅速退化。方法针对这一缺陷我们通过增加测试时计算量test-time compute以及基于计算约束的近似方法提出了来解决该问题的算法。通过若干具有挑战性的分类任务我们从实证角度证明了我们的 ICRL 算法能够仅从奖励中实现有效的学习并对该能力的特性及我们所提方法进行了分析。总的来说我们的研究结果揭示了大型语言模型中蕴含的卓越的上下文强化学习能力。