1. 项目概述当AI成为新流量入口你的产品为何“隐形”最近和几个做SaaS和工具类产品的创始人聊天话题总绕不开一个焦虑“我的产品ChatGPT知道吗它会推荐给用户吗”这已经不是一个技术极客的趣味探讨而是一个关乎增长和存活的现实问题。随着ChatGPT、Claude、Perplexity这类生成式AI工具日益成为人们搜索信息、寻找解决方案的“第一站”如果你的产品无法进入它们的推荐列表几乎就等于在一个快速崛起的新流量池里彻底“失声”。这种焦虑催生了一个新兴的营销概念——生成式引擎优化。其核心理念听起来很美好通过优化你网站内容的结构、增加权威引用和数据就能像传统SEO提升谷歌排名一样提升你在AI生成答案中的可见性。但现实真的如此吗为了验证这个假设我进行了一次规模化的实测。我选取了Product Hunt在2024年12月至2025年1月期间榜单上的112个新晋创业产品作为样本它们代表了当下最活跃、最受关注的新生力量。针对每个产品我设计了两种类型的查询一种是直接询问产品本身的“认知查询”另一种是模拟真实用户场景的“发现查询”。总计超过2200次查询分别在ChatGPTGPT-4无联网版和具备联网搜索能力的Perplexity上运行。结果出乎意料甚至有些反直觉ChatGPT几乎“认识”所有产品但在用户真正需要推荐的场景下它却几乎“闭口不谈”。这中间存在一个高达30比1的“发现鸿沟”。更关键的是被寄予厚望的GEO优化策略在本次测试中与ChatGPT的推荐率呈现零相关性。相反那些“古老”但有效的传统SEO信号——如外链数量和Reddit社区讨论度——依然是预测AI可见性的最强指标。这篇长文我将为你完整拆解这次实验的设计、数据、发现背后的逻辑以及给创业者们的切实行动指南。2. 实验设计与方法如何科学地给AI“出考题”要理解AI如何“看待”你的产品不能靠感觉必须靠系统性的测试。我的目标是构建一个可量化、可复现的评估框架来测量两个核心维度AI对产品的认知度和推荐意愿。这直接对应了用户与AI交互的两种典型场景。2.1 样本选择为什么是这112个Product Hunt产品选择样本是实证研究的第一步样本的质量直接决定了结论的可靠性。我选择了Product Hunt近期榜单的产品主要基于以下几点考量时效性这些产品均在近期测试时点前1-2个月内发布完美契合了“新产品”的定位。这能有效测试AI对最新信息的覆盖能力避免选择那些可能早已被充分收录的成熟产品。活跃度与质量门槛能登上Product Hunt日榜或周榜的产品通常已经过初步的市场验证获得一定数量的投票和讨论并非无人问津的“玩具项目”。这确保了样本具备一定的基本盘和参考价值。多样性这112个产品覆盖了SaaS、开发工具、设计资源、AI应用、生活效率等多个类别避免了因单一垂直领域特性导致的结论偏差。数据可获取性Product Hunt页面提供了相对标准化的元数据名称、标语、分类、官网链接便于后续自动化数据采集和指标计算。注意这个选择方案也存在局限性。它主要代表了面向全球、尤其是英语科技圈的创业产品生态。对于区域性市场、非英语内容或传统行业产品结论的普适性可能需要进一步验证。但作为探索性研究这是一个合理且高效的起点。对于每个入选的产品我系统性地收集了四类数据作为后续相关性分析的基础变量产品元数据名称、标语、分类、官网URL。这是测试的基准。SEO指标通过第三方SEO工具如Ahrefs、Semrush的API获取的引用域名数即外链数量、预估自然搜索流量、域名权威值。这代表了其在传统搜索引擎眼中的“分量”。社交信号Product Hunt本身的获赞数以及通过Reddit API爬取的提及次数包括帖子、评论。这代表了其在核心社区中的真实热度。GEO优化分数这是本次实验的重点测量对象。我参考了提出GEO概念的原始论文Aggarwal et al., 2024中的框架通过解析产品官网的主页和核心功能页面内容从五个维度进行量化评分引用密度页面中引用权威来源如研究论文、知名机构报告、主流媒体的频率。数据统计内容页面中使用具体数字、统计数据、图表来支撑论点的程度。权威性语言文案是否采用自信、专业、专家口吻的表述而非模糊或营销化的语言。专家引述是否包含领域内知名专家或用户的评价与引语。流畅度优化内容的可读性、结构清晰度和信息组织是否良好。2.2 查询策略区分“认识你”和“推荐你”这是实验设计的核心创新点。很多人在测试AI时只会问“你知道XXX吗”这只能得到一半的答案。我设计了两种截然不同的查询模板每种都包含多个变体以模拟真实交互的多样性。2.2.1 直接查询认知测试这类查询旨在测试AI的“知识库”中是否有该产品的记录。我们预设AI如果“知道”就应该能回答。What is [ProductName]?Tell me about [ProductName].Have you heard of [ProductName]?操作要点对于每个产品随机使用其中3个模板进行测试避免因问题表述的细微差别影响结果。记录AI是否给出了基本正确的产品描述、功能或用途。2.2.2 发现查询推荐测试这类查询模拟了真实的用户需求场景用户不是来“考试”的而是来“寻求建议”的。这是产品获取客户的关键时刻。What are the best [Category] tools launched in 2025?Recommend some new [Category] products.What [Category] startups should I check out?I‘m looking for a [Category] solution. What are my options?操作要点将产品元数据中的分类填入[Category]。例如一个产品分类是“AI Writing Assistant”查询就变为“Recommend some new AI writing assistant products.”。每个产品测试7个此类变体查询。判断标准是AI生成的推荐列表中是否明确出现了该产品名称。2.3 测试平台选择ChatGPT与Perplexity的对比为了更全面地理解现象我选择了两个具有代表性的平台ChatGPT (GPT-4无实时联网搜索版本)这是当前市场占有率最高、最具影响力的通用大语言模型。其知识截止于训练数据本次测试时约为2023年4月。测试它就是测试一个依赖静态知识库的AI的“自然推荐倾向”。Perplexity AI这是一个以“答案引擎”为定位的产品默认集成实时网络搜索。测试它可以观察当AI具备主动获取最新信息能力时其推荐行为会发生何种变化。通过对比两者在相同查询下的表现我们可以剥离出“模型本身的知识与偏好”和“实时网络信息接入”这两个因素各自的影响。3. 核心发现解读“发现鸿沟”与GEO的失效实验数据清洗和分析后几个关键发现清晰地浮现出来它们共同描绘了一幅与当前市场宣传颇为不同的图景。3.1 惊人的“发现鸿沟”30比1的认知与推荐割裂这是本次研究最核心、也最反直觉的发现。我们来看具体数据指标ChatGPT (GPT-4)Perplexity (联网)直接认知率99.4%94.3%有机发现率3.3%8.3%可见性鸿沟比率30:111:1数据解读认知率极高ChatGPT对这批新产品的“知晓度”接近100%。当你直接问它它几乎总能给出一个大致准确的描述。这说明产品的基本信息名称、核心功能很可能通过训练数据中的各种渠道如科技媒体报道、社区讨论已被模型吸收。推荐率极低然而当用户以“求推荐”的方式提问时ChatGPT将这些产品纳入答案的概率骤降至3.3%。这意味着一个产品被AI“认识”的概率是它被AI主动“推荐”的概率的30倍。这就是我称之为“发现鸿沟”的现象。Perplexity的表现具备联网搜索能力的Perplexity其发现率8.3%是ChatGPT的2.5倍鸿沟比率也缩小到11:1。这明确显示了实时信息获取能力对改善AI推荐新鲜度有显著帮助但鸿沟依然存在。实操心得这个发现对创业者的启示是颠覆性的。过去我们可能满足于“我的产品能被ChatGPT搜到/描述出来”。但现在必须意识到这仅仅是拿到了入场券。真正的战场在于如何挤进那3.3%的推荐列表。测试你的产品时务必使用“发现型”查询而不是满足于“认知型”查询的积极结果。3.2 GEO优化策略理论与现实的落差根据GEO的理论通过优化内容使其更“权威”、“数据驱动”、“引用丰富”就能提高在AI生成答案中的排名。为此我根据前述的五个维度为每个产品官网计算了一个综合GEO分数。然后我计算了每个产品的GEO分数与其在ChatGPT“发现查询”中被推荐频率的相关性。结果是相关系数 r -0.10且不具备统计学显著性。这意味着什么零相关GEO分数高的产品并没有比GEO分数低的产品获得更多来自ChatGPT的推荐。所谓的优化策略在这次针对新产品的实测中没有显示出任何可测量的效果。可能的原因训练数据滞后GEO优化的是你当前网站的内容。但如果你的产品是在ChatGPT训练数据截止日期之后发布的那么无论你现在把页面优化得多完美模型在训练时根本“没看过”这个页面优化无从谈起。权威性信号外置大语言模型在决定“推荐什么”时可能更依赖于从整个互联网数据中学习到的间接权威信号比如谁在谈论它有多少网站链接它而不是单纯分析页面内容本身的“优化程度”。一个内容平平但被TechCrunch报道并获大量外链的页面可能比一个精心撰写但无人问津的“完美GEO页面”更具推荐权重。推荐逻辑的复杂性AI的推荐可能并非基于单一的“内容质量分”而是综合了时效性、流行度、用户查询的细微差异、甚至模型内部难以解释的偏好等一系列复杂因素。简单的页面内容优化可能不足以撼动这个复杂系统。3.3 什么才真正有效传统SEO信号的强势回归如果GEO无效那么什么因素与ChatGPT的推荐率相关呢相关性分析给出了明确答案预测因子与ChatGPT发现率的相关系数 (r)显著性 (p-value)Reddit提及次数0.40 0.01引用域名数 (外链)0.32 0.001Product Hunt 获赞数0.23 0.05GEO 优化分数-0.10不显著深度解读Reddit社区讨论是王者相关系数最高0.40。这强烈表明真实、有机的社区讨论和口碑是驱动AI推荐的最强信号。Reddit作为一个相对难以操纵、以真实讨论为主的平台其提及量很可能被AI视为产品热度、实用性和用户认可度的可靠代理。外链建设依然核心引用域名数即有多少个独立网站链接到你是传统SEO的基石。数据显示它同样是AI推荐的重要预测因子0.32。外链构成了互联网的“投票”机制AI似乎继承并看重这一机制。Product Hunt热度有影响在Product Hunt上的获赞数也与发现率呈正相关0.23虽然影响力弱于Reddit和外链。这可能是Product Hunt本身作为一个集中的新产品发布和发现平台其数据也被纳入了训练数据源。一个清晰的结论对于想让产品被ChatGPT推荐的新创公司而言将精力投入到构建真实的外链和激发社区讨论比专注于按照GEO论文优化页面文案在当下看来是更有效、回报更明确的策略。4. 现象背后的机制分析与假设数据告诉我们“是什么”但我们更需要理解“为什么”。基于实验结果和我们对大语言模型工作原理的理解我提出以下三个相互关联的假设来解释“发现鸿沟”和GEO失效的现象。4.1 训练数据滞后问题时间的“硬壁垒”这是最直接的技术限制。ChatGPT此处指测试用的无联网GPT-4版本的知识依赖于其训练数据集的截止日期。假设截止日期是2023年4月那么所有在此日期之后发布的产品、获得的媒体报道、产生的外链和社区讨论在模型训练时都不存在。对认知查询的影响即使产品是2024年发布的如果它在2023年4月后曾被某些网站如Crunchbase、天使投资列表、早期评测博客以某种形式记录这些早期记录可能已被抓取进训练集。因此模型能“认识”它但认知可能基于过时或不完整的信息。对发现查询的影响当模型进行“推荐”时它很可能倾向于从其训练数据中识别出的、在训练时间窗口内就被广泛讨论和链接的“成熟”或“热门”产品。一个在训练截止日后才出现的新产品缺乏这段“历史积累”因此在推荐排序中天然处于劣势。类比理解这就像让一位在2023年闭关的行业专家来推荐2025年的最佳新工具。他可能通过出关后听到的只言片语知道一些新名字认知但当他系统性地做推荐时大脑里优先跳出来的还是2023年时那些已经被公认的好工具推荐。4.2 权威性评估的“外部性”假设GEO优化是一种“内部优化”它试图让单个文档你的官网页面看起来更可信。然而大语言模型在预训练过程中学习了整个互联网的文本关联模式它可能更擅长评估一种“外部权威性”。外部信号权重更高模型可能更信任这样一种模式一个被众多高质量网站如知名科技媒体、行业博客链接的产品一个在Reddit等社区被多人认真讨论的产品其重要性和可信度更高。这种基于网络拓扑结构和社会共识的信号比单个页面自我宣称的“权威性文案”更难伪造也更具统计意义。GEO的局限性你可以把自己的官网文案写得像哈佛商业评论引用一堆研究罗列大量数据。但如果除了你自己整个互联网没人讨论你、链接你那么在AI的“眼中”你依然可能是一个“孤岛”重要性有限。GEO优化了“内容特征”但可能没有优化到AI真正用于评估的“关系特征”。4.3 认知系统与推荐系统的“功能分离”这是从产品逻辑层面的推测。我们可以将AI的响应过程粗略分为两个子系统知识检索系统负责回答“是什么”的问题。它的任务是定位与查询实体最相关的已知信息片段并组织成回答。只要信息存在于训练数据中无论其来源权重如何都可能被提取出来。这对应了极高的“直接认知率”。推荐/生成系统负责回答“哪个好”、“推荐一些”的问题。它的任务更复杂涉及比较、排序、筛选和生成符合用户意图的列表。这个过程可能调用了一套不同的算法或权重更强调流行度、时效性、用户满意度通过间接信号推断和多样性。一个产品仅仅“存在”于知识库并不足以让它赢得这场“竞赛”。这就像一位图书馆管理员认知系统可以告诉你馆内任何一本书的摘要只要书在馆里但当你让他推荐十本最好的悬疑小说时推荐系统他会根据借阅记录、书评数量、获奖情况等综合因素来筛选最终推荐的很可能只是馆藏悬疑小说中的一小部分。5. 给创业者的实战指南与策略建议基于以上研究发现和分析如果你是一位希望提升产品在AI特别是类似ChatGPT的LLM中可见性的创业者以下是我结合数据给出的具体行动建议。5.1 重新校准期望与策略重点首先需要建立一个正确的认知基线放下对“GEO银弹”的幻想至少在目前阶段针对静态知识库大模型如无联网的ChatGPT投入大量精力按照学术论文去精细化优化页面内容的GEO属性其投入产出比可能非常低。这不是说内容质量不重要而是说那种特定的“优化”手法可能并非当前AI推荐算法的关键所在。正视“发现鸿沟”满足于“我的产品ChatGPT能介绍”是远远不够的。核心KPI应该是“在我的品类关键词下ChatGPT推荐列表中出现的频率”。这个指标才真正对应潜在客户获取。拥抱“传统”数字营销根基数据清晰地告诉我们外链建设和社区运营这两项经典的数字营销工作在AI时代不仅没有过时其价值可能被重新放大因为它们直接贡献于AI所依赖的权威性和热度信号。5.2 构建以外部信号为核心的增长引擎既然外部信号外链、社区讨论是关键那么工作重点就应该围绕于此展开5.2.1 系统性外链建设外链是互联网的信任投票。你需要制定一个持续的外链获取策略而不仅仅是发几篇新闻稿。目标媒体与博客列出你所在细分领域的行业博客、新闻网站、产品评测平台。研究他们喜欢报道什么内容新产品发布、重大更新、数据报告、创始人故事。创造可链接的资产不仅仅是产品介绍。考虑制作深度行业报告或数据研究。有用的工具、模板或资源集合例如“10个免费的XX设计模板”。独特的可视化内容或信息图。有争议性或前瞻性的观点文章。 这些内容比单纯的产品公告更有机会获得自然引用。合作伙伴与集成与产业链上下游的其他产品达成合作或集成互相在官网的“集成”或“合作伙伴”页面添加链接这是高质量的相关性外链。5.2.2 深耕核心社区激发真实讨论Reddit数据显示出的强相关性强调了真实社区参与的价值。找到你的“子reddit”不要漫无目的。找到与你产品领域最相关的几个Subreddit例如r/SaaS r/webdev r/Entrepreneur 以及更垂直的如r/Notion r/selfhosted等。提供价值而非 spam不要直接丢一个产品链接了事。可以分享你创业过程中的见解、解决某个具体问题的经验、发布一个对社区有用的免费工具或数据。在适当的语境下当有人明确寻求解决方案时再以帮助者的姿态介绍你的产品。鼓励用户分享在产品内设置简单的分享引导鼓励满意的用户在相关社区分享他们的使用体验或成果。真实的用户证言远比官方宣传更有力。5.3 优化策略与监测方法的调整在具体执行层面需要调整一些工作方法5.3.1 内容策略的调整虽然GEO的特定维度效果不显但高质量内容仍是吸引外链和讨论的基础。你的内容策略应从“为AI优化”转向“为能带来信号的人优化”。为记者和博主写作思考什么样的内容能让他们觉得有价值愿意报道或引用。为社区用户写作创作能解决他们痛点、引发共鸣或讨论的教程、案例和故事。关键词研究依然重要虽然AI不完全按SEO排名但用户向AI提问时使用的语言即你的“品类关键词”仍然是流量入口。确保你的内容覆盖这些核心词汇及其变体。5.3.2 建立正确的监测体系你需要新的工具和指标来衡量在AI世界的“能见度”。监控“发现查询”定期如每月使用自动化脚本或手动抽查用标准的“发现型”查询模板见2.2.2测试你的产品是否被ChatGPT、Claude、Perplexity等主流AI推荐。记录排名位置如果出现和频率。追踪间接信号密切监控外链增长情况使用Ahrefs, Moz等工具、社交媒体提及量特别是Reddit, Hacker News, Twitter、以及来自知名媒体的报道。设立基线与目标根据你的品类竞争程度设定一个现实的AI推荐率提升目标。例如先从0%到进入前20名推荐列表再到进入前10名。5.4 面向未来的布局与思考AI和搜索生态在快速演变今天的结论可能明天就不同。保持敏捷和前瞻性很重要。关注联网与实时搜索的进展Perplexity的表现已经证明了实时信息接入的威力。随着ChatGPT等主流模型越来越多地默认集成联网搜索GEO策略的价值可能会发生变化。当AI能实时读取你优化过的页面时页面内容的质量和结构可能会重新变得重要。保持关注并准备调整。理解不同AI的“个性”不同的AI模型甚至同一模型的不同版本可能有不同的推荐偏好。例如一些模型可能更偏重学术引用一些可能更看重商业媒体。可以小范围测试你的产品在不同平台上的表现。“被AI推荐”不是终极目标最终所有这些都是为了获取客户。AI推荐只是一个新的渠道。衡量这个渠道的最终指标应该是它为你带来了多少高质量的注册用户或付费客户。在监测曝光量的同时更要通过UTM参数等方式追踪转化。6. 实验的局限性与未来探索方向任何一项实证研究都有其边界和局限坦诚地认识到这些局限才能更准确地理解结论的适用范围并指明有价值的后续工作。6.1 本研究的局限性样本代表性本研究聚焦于2024年末至2025年初在Product Hunt上发布且表现较好的112个创业产品。这个样本框决定了结论可能最适用于面向全球市场、以英语为主的科技/互联网创业公司。对于B2B企业软件、本地化服务、传统行业转型产品或非英语内容产品其AI可见性机制可能有所不同。时间切片性大语言模型及其应用生态的发展日新月异。本研究的数据采集于一个特定的时间窗口约2025年初反映的是当时ChatGPT特定版本和Perplexity的行为模式。模型更新、搜索算法调整都可能改变游戏规则。相关性而非因果性这是最重要的提醒。本研究发现了Reddit提及、外链数量与AI推荐率之间的统计相关性。这强烈暗示了它们之间存在联系但并不能严格证明是前者导致了后者。可能存在未被观测到的“第三变量”例如产品本身的质量和吸引力同时驱动了社区讨论、外链增长和AI的推荐偏好。查询的有限性虽然设计了20种查询但仍无法覆盖用户与AI交互的全部复杂性和多样性。用户的提问方式、上下文长度、甚至对话历史都可能影响推荐结果。GEO评分的操作化GEO是一个较新的概念其评分标准尚无行业共识。本研究基于原始论文框架进行了自动化评分虽然力求客观但评分系统的效度是否真的衡量了“对AI友好”的内容特性仍有探讨空间。6.2 值得深入探索的未来方向基于本次研究的发现和局限我认为以下几个方向值得创业者、营销人员和研究者进一步探索纵向追踪研究对同一批产品进行长达半年或一年的持续监测。观察随着产品年龄增长、外链积累、社区热度变化其AI推荐率如何动态演变。这能帮助我们更好地理解“时间”这个因素的作用。跨品类与跨文化比较将研究扩展到不同的产品类别如消费硬件、在线教育、B2B SaaS和不同语言市场如中文、西班牙语产品。检验“发现鸿沟”和“传统SEO信号有效”这两个核心发现在不同语境下的普适性。深入推荐机制的黑盒尝试通过更精细的实验设计来探究AI的推荐逻辑。例如控制其他变量测试官网页面中特定内容模块如客户评价、数据展示、对比表格的增减是否影响推荐。研究AI在生成推荐列表时是否倾向于混合不同“层级”的产品如1-2个市场巨头 3-4个新兴产品以及你的产品如何能成为被选中的新兴产品。新兴AI平台与形态本研究主要针对ChatGPT和Perplexity这类通用对话AI。未来应关注垂直领域AI助手例如专注于设计工具推荐的AI、专注于编程工具推荐的AI。它们的推荐逻辑可能与通用AI不同。AI原生搜索平台如Google的SGE、微软Copilot在Bing中的深度整合。当AI推荐与传统搜索引擎结果页面深度融合时策略可能需要调整。多模态AI当AI不仅能读文字还能“看”图片和视频时产品演示视频、信息图等内容形式的优化可能会变得重要。从“被推荐”到“促转化”最终极的研究方向是当用户通过AI推荐访问你的产品后他们的转化行为如何AI推荐来的用户质量是否更高留存是否更好这将是衡量AI渠道商业价值的黄金标准。作为这次实验的发起者我最大的体会是在技术快速变革的时代保持实证精神至关重要。市场总会涌现新概念、新术语但最终决定成败的往往是对底层逻辑的深刻理解和对有效方法的坚持。目前来看对于渴望在AI时代获得可见性的创业者而言回归营销的本质——创造真实价值、赢得真实讨论、获取真实背书——依然是穿越周期最可靠的路径。我将本次实验所有的代码、清洗后的数据和详细分析过程都已开源希望它能成为一个起点邀请更多同行一起测试、验证和迭代共同摸清这片新大陆的规则。
AI时代产品可见性实测:GEO优化失效,传统SEO信号仍是关键
发布时间:2026/6/1 10:25:03
1. 项目概述当AI成为新流量入口你的产品为何“隐形”最近和几个做SaaS和工具类产品的创始人聊天话题总绕不开一个焦虑“我的产品ChatGPT知道吗它会推荐给用户吗”这已经不是一个技术极客的趣味探讨而是一个关乎增长和存活的现实问题。随着ChatGPT、Claude、Perplexity这类生成式AI工具日益成为人们搜索信息、寻找解决方案的“第一站”如果你的产品无法进入它们的推荐列表几乎就等于在一个快速崛起的新流量池里彻底“失声”。这种焦虑催生了一个新兴的营销概念——生成式引擎优化。其核心理念听起来很美好通过优化你网站内容的结构、增加权威引用和数据就能像传统SEO提升谷歌排名一样提升你在AI生成答案中的可见性。但现实真的如此吗为了验证这个假设我进行了一次规模化的实测。我选取了Product Hunt在2024年12月至2025年1月期间榜单上的112个新晋创业产品作为样本它们代表了当下最活跃、最受关注的新生力量。针对每个产品我设计了两种类型的查询一种是直接询问产品本身的“认知查询”另一种是模拟真实用户场景的“发现查询”。总计超过2200次查询分别在ChatGPTGPT-4无联网版和具备联网搜索能力的Perplexity上运行。结果出乎意料甚至有些反直觉ChatGPT几乎“认识”所有产品但在用户真正需要推荐的场景下它却几乎“闭口不谈”。这中间存在一个高达30比1的“发现鸿沟”。更关键的是被寄予厚望的GEO优化策略在本次测试中与ChatGPT的推荐率呈现零相关性。相反那些“古老”但有效的传统SEO信号——如外链数量和Reddit社区讨论度——依然是预测AI可见性的最强指标。这篇长文我将为你完整拆解这次实验的设计、数据、发现背后的逻辑以及给创业者们的切实行动指南。2. 实验设计与方法如何科学地给AI“出考题”要理解AI如何“看待”你的产品不能靠感觉必须靠系统性的测试。我的目标是构建一个可量化、可复现的评估框架来测量两个核心维度AI对产品的认知度和推荐意愿。这直接对应了用户与AI交互的两种典型场景。2.1 样本选择为什么是这112个Product Hunt产品选择样本是实证研究的第一步样本的质量直接决定了结论的可靠性。我选择了Product Hunt近期榜单的产品主要基于以下几点考量时效性这些产品均在近期测试时点前1-2个月内发布完美契合了“新产品”的定位。这能有效测试AI对最新信息的覆盖能力避免选择那些可能早已被充分收录的成熟产品。活跃度与质量门槛能登上Product Hunt日榜或周榜的产品通常已经过初步的市场验证获得一定数量的投票和讨论并非无人问津的“玩具项目”。这确保了样本具备一定的基本盘和参考价值。多样性这112个产品覆盖了SaaS、开发工具、设计资源、AI应用、生活效率等多个类别避免了因单一垂直领域特性导致的结论偏差。数据可获取性Product Hunt页面提供了相对标准化的元数据名称、标语、分类、官网链接便于后续自动化数据采集和指标计算。注意这个选择方案也存在局限性。它主要代表了面向全球、尤其是英语科技圈的创业产品生态。对于区域性市场、非英语内容或传统行业产品结论的普适性可能需要进一步验证。但作为探索性研究这是一个合理且高效的起点。对于每个入选的产品我系统性地收集了四类数据作为后续相关性分析的基础变量产品元数据名称、标语、分类、官网URL。这是测试的基准。SEO指标通过第三方SEO工具如Ahrefs、Semrush的API获取的引用域名数即外链数量、预估自然搜索流量、域名权威值。这代表了其在传统搜索引擎眼中的“分量”。社交信号Product Hunt本身的获赞数以及通过Reddit API爬取的提及次数包括帖子、评论。这代表了其在核心社区中的真实热度。GEO优化分数这是本次实验的重点测量对象。我参考了提出GEO概念的原始论文Aggarwal et al., 2024中的框架通过解析产品官网的主页和核心功能页面内容从五个维度进行量化评分引用密度页面中引用权威来源如研究论文、知名机构报告、主流媒体的频率。数据统计内容页面中使用具体数字、统计数据、图表来支撑论点的程度。权威性语言文案是否采用自信、专业、专家口吻的表述而非模糊或营销化的语言。专家引述是否包含领域内知名专家或用户的评价与引语。流畅度优化内容的可读性、结构清晰度和信息组织是否良好。2.2 查询策略区分“认识你”和“推荐你”这是实验设计的核心创新点。很多人在测试AI时只会问“你知道XXX吗”这只能得到一半的答案。我设计了两种截然不同的查询模板每种都包含多个变体以模拟真实交互的多样性。2.2.1 直接查询认知测试这类查询旨在测试AI的“知识库”中是否有该产品的记录。我们预设AI如果“知道”就应该能回答。What is [ProductName]?Tell me about [ProductName].Have you heard of [ProductName]?操作要点对于每个产品随机使用其中3个模板进行测试避免因问题表述的细微差别影响结果。记录AI是否给出了基本正确的产品描述、功能或用途。2.2.2 发现查询推荐测试这类查询模拟了真实的用户需求场景用户不是来“考试”的而是来“寻求建议”的。这是产品获取客户的关键时刻。What are the best [Category] tools launched in 2025?Recommend some new [Category] products.What [Category] startups should I check out?I‘m looking for a [Category] solution. What are my options?操作要点将产品元数据中的分类填入[Category]。例如一个产品分类是“AI Writing Assistant”查询就变为“Recommend some new AI writing assistant products.”。每个产品测试7个此类变体查询。判断标准是AI生成的推荐列表中是否明确出现了该产品名称。2.3 测试平台选择ChatGPT与Perplexity的对比为了更全面地理解现象我选择了两个具有代表性的平台ChatGPT (GPT-4无实时联网搜索版本)这是当前市场占有率最高、最具影响力的通用大语言模型。其知识截止于训练数据本次测试时约为2023年4月。测试它就是测试一个依赖静态知识库的AI的“自然推荐倾向”。Perplexity AI这是一个以“答案引擎”为定位的产品默认集成实时网络搜索。测试它可以观察当AI具备主动获取最新信息能力时其推荐行为会发生何种变化。通过对比两者在相同查询下的表现我们可以剥离出“模型本身的知识与偏好”和“实时网络信息接入”这两个因素各自的影响。3. 核心发现解读“发现鸿沟”与GEO的失效实验数据清洗和分析后几个关键发现清晰地浮现出来它们共同描绘了一幅与当前市场宣传颇为不同的图景。3.1 惊人的“发现鸿沟”30比1的认知与推荐割裂这是本次研究最核心、也最反直觉的发现。我们来看具体数据指标ChatGPT (GPT-4)Perplexity (联网)直接认知率99.4%94.3%有机发现率3.3%8.3%可见性鸿沟比率30:111:1数据解读认知率极高ChatGPT对这批新产品的“知晓度”接近100%。当你直接问它它几乎总能给出一个大致准确的描述。这说明产品的基本信息名称、核心功能很可能通过训练数据中的各种渠道如科技媒体报道、社区讨论已被模型吸收。推荐率极低然而当用户以“求推荐”的方式提问时ChatGPT将这些产品纳入答案的概率骤降至3.3%。这意味着一个产品被AI“认识”的概率是它被AI主动“推荐”的概率的30倍。这就是我称之为“发现鸿沟”的现象。Perplexity的表现具备联网搜索能力的Perplexity其发现率8.3%是ChatGPT的2.5倍鸿沟比率也缩小到11:1。这明确显示了实时信息获取能力对改善AI推荐新鲜度有显著帮助但鸿沟依然存在。实操心得这个发现对创业者的启示是颠覆性的。过去我们可能满足于“我的产品能被ChatGPT搜到/描述出来”。但现在必须意识到这仅仅是拿到了入场券。真正的战场在于如何挤进那3.3%的推荐列表。测试你的产品时务必使用“发现型”查询而不是满足于“认知型”查询的积极结果。3.2 GEO优化策略理论与现实的落差根据GEO的理论通过优化内容使其更“权威”、“数据驱动”、“引用丰富”就能提高在AI生成答案中的排名。为此我根据前述的五个维度为每个产品官网计算了一个综合GEO分数。然后我计算了每个产品的GEO分数与其在ChatGPT“发现查询”中被推荐频率的相关性。结果是相关系数 r -0.10且不具备统计学显著性。这意味着什么零相关GEO分数高的产品并没有比GEO分数低的产品获得更多来自ChatGPT的推荐。所谓的优化策略在这次针对新产品的实测中没有显示出任何可测量的效果。可能的原因训练数据滞后GEO优化的是你当前网站的内容。但如果你的产品是在ChatGPT训练数据截止日期之后发布的那么无论你现在把页面优化得多完美模型在训练时根本“没看过”这个页面优化无从谈起。权威性信号外置大语言模型在决定“推荐什么”时可能更依赖于从整个互联网数据中学习到的间接权威信号比如谁在谈论它有多少网站链接它而不是单纯分析页面内容本身的“优化程度”。一个内容平平但被TechCrunch报道并获大量外链的页面可能比一个精心撰写但无人问津的“完美GEO页面”更具推荐权重。推荐逻辑的复杂性AI的推荐可能并非基于单一的“内容质量分”而是综合了时效性、流行度、用户查询的细微差异、甚至模型内部难以解释的偏好等一系列复杂因素。简单的页面内容优化可能不足以撼动这个复杂系统。3.3 什么才真正有效传统SEO信号的强势回归如果GEO无效那么什么因素与ChatGPT的推荐率相关呢相关性分析给出了明确答案预测因子与ChatGPT发现率的相关系数 (r)显著性 (p-value)Reddit提及次数0.40 0.01引用域名数 (外链)0.32 0.001Product Hunt 获赞数0.23 0.05GEO 优化分数-0.10不显著深度解读Reddit社区讨论是王者相关系数最高0.40。这强烈表明真实、有机的社区讨论和口碑是驱动AI推荐的最强信号。Reddit作为一个相对难以操纵、以真实讨论为主的平台其提及量很可能被AI视为产品热度、实用性和用户认可度的可靠代理。外链建设依然核心引用域名数即有多少个独立网站链接到你是传统SEO的基石。数据显示它同样是AI推荐的重要预测因子0.32。外链构成了互联网的“投票”机制AI似乎继承并看重这一机制。Product Hunt热度有影响在Product Hunt上的获赞数也与发现率呈正相关0.23虽然影响力弱于Reddit和外链。这可能是Product Hunt本身作为一个集中的新产品发布和发现平台其数据也被纳入了训练数据源。一个清晰的结论对于想让产品被ChatGPT推荐的新创公司而言将精力投入到构建真实的外链和激发社区讨论比专注于按照GEO论文优化页面文案在当下看来是更有效、回报更明确的策略。4. 现象背后的机制分析与假设数据告诉我们“是什么”但我们更需要理解“为什么”。基于实验结果和我们对大语言模型工作原理的理解我提出以下三个相互关联的假设来解释“发现鸿沟”和GEO失效的现象。4.1 训练数据滞后问题时间的“硬壁垒”这是最直接的技术限制。ChatGPT此处指测试用的无联网GPT-4版本的知识依赖于其训练数据集的截止日期。假设截止日期是2023年4月那么所有在此日期之后发布的产品、获得的媒体报道、产生的外链和社区讨论在模型训练时都不存在。对认知查询的影响即使产品是2024年发布的如果它在2023年4月后曾被某些网站如Crunchbase、天使投资列表、早期评测博客以某种形式记录这些早期记录可能已被抓取进训练集。因此模型能“认识”它但认知可能基于过时或不完整的信息。对发现查询的影响当模型进行“推荐”时它很可能倾向于从其训练数据中识别出的、在训练时间窗口内就被广泛讨论和链接的“成熟”或“热门”产品。一个在训练截止日后才出现的新产品缺乏这段“历史积累”因此在推荐排序中天然处于劣势。类比理解这就像让一位在2023年闭关的行业专家来推荐2025年的最佳新工具。他可能通过出关后听到的只言片语知道一些新名字认知但当他系统性地做推荐时大脑里优先跳出来的还是2023年时那些已经被公认的好工具推荐。4.2 权威性评估的“外部性”假设GEO优化是一种“内部优化”它试图让单个文档你的官网页面看起来更可信。然而大语言模型在预训练过程中学习了整个互联网的文本关联模式它可能更擅长评估一种“外部权威性”。外部信号权重更高模型可能更信任这样一种模式一个被众多高质量网站如知名科技媒体、行业博客链接的产品一个在Reddit等社区被多人认真讨论的产品其重要性和可信度更高。这种基于网络拓扑结构和社会共识的信号比单个页面自我宣称的“权威性文案”更难伪造也更具统计意义。GEO的局限性你可以把自己的官网文案写得像哈佛商业评论引用一堆研究罗列大量数据。但如果除了你自己整个互联网没人讨论你、链接你那么在AI的“眼中”你依然可能是一个“孤岛”重要性有限。GEO优化了“内容特征”但可能没有优化到AI真正用于评估的“关系特征”。4.3 认知系统与推荐系统的“功能分离”这是从产品逻辑层面的推测。我们可以将AI的响应过程粗略分为两个子系统知识检索系统负责回答“是什么”的问题。它的任务是定位与查询实体最相关的已知信息片段并组织成回答。只要信息存在于训练数据中无论其来源权重如何都可能被提取出来。这对应了极高的“直接认知率”。推荐/生成系统负责回答“哪个好”、“推荐一些”的问题。它的任务更复杂涉及比较、排序、筛选和生成符合用户意图的列表。这个过程可能调用了一套不同的算法或权重更强调流行度、时效性、用户满意度通过间接信号推断和多样性。一个产品仅仅“存在”于知识库并不足以让它赢得这场“竞赛”。这就像一位图书馆管理员认知系统可以告诉你馆内任何一本书的摘要只要书在馆里但当你让他推荐十本最好的悬疑小说时推荐系统他会根据借阅记录、书评数量、获奖情况等综合因素来筛选最终推荐的很可能只是馆藏悬疑小说中的一小部分。5. 给创业者的实战指南与策略建议基于以上研究发现和分析如果你是一位希望提升产品在AI特别是类似ChatGPT的LLM中可见性的创业者以下是我结合数据给出的具体行动建议。5.1 重新校准期望与策略重点首先需要建立一个正确的认知基线放下对“GEO银弹”的幻想至少在目前阶段针对静态知识库大模型如无联网的ChatGPT投入大量精力按照学术论文去精细化优化页面内容的GEO属性其投入产出比可能非常低。这不是说内容质量不重要而是说那种特定的“优化”手法可能并非当前AI推荐算法的关键所在。正视“发现鸿沟”满足于“我的产品ChatGPT能介绍”是远远不够的。核心KPI应该是“在我的品类关键词下ChatGPT推荐列表中出现的频率”。这个指标才真正对应潜在客户获取。拥抱“传统”数字营销根基数据清晰地告诉我们外链建设和社区运营这两项经典的数字营销工作在AI时代不仅没有过时其价值可能被重新放大因为它们直接贡献于AI所依赖的权威性和热度信号。5.2 构建以外部信号为核心的增长引擎既然外部信号外链、社区讨论是关键那么工作重点就应该围绕于此展开5.2.1 系统性外链建设外链是互联网的信任投票。你需要制定一个持续的外链获取策略而不仅仅是发几篇新闻稿。目标媒体与博客列出你所在细分领域的行业博客、新闻网站、产品评测平台。研究他们喜欢报道什么内容新产品发布、重大更新、数据报告、创始人故事。创造可链接的资产不仅仅是产品介绍。考虑制作深度行业报告或数据研究。有用的工具、模板或资源集合例如“10个免费的XX设计模板”。独特的可视化内容或信息图。有争议性或前瞻性的观点文章。 这些内容比单纯的产品公告更有机会获得自然引用。合作伙伴与集成与产业链上下游的其他产品达成合作或集成互相在官网的“集成”或“合作伙伴”页面添加链接这是高质量的相关性外链。5.2.2 深耕核心社区激发真实讨论Reddit数据显示出的强相关性强调了真实社区参与的价值。找到你的“子reddit”不要漫无目的。找到与你产品领域最相关的几个Subreddit例如r/SaaS r/webdev r/Entrepreneur 以及更垂直的如r/Notion r/selfhosted等。提供价值而非 spam不要直接丢一个产品链接了事。可以分享你创业过程中的见解、解决某个具体问题的经验、发布一个对社区有用的免费工具或数据。在适当的语境下当有人明确寻求解决方案时再以帮助者的姿态介绍你的产品。鼓励用户分享在产品内设置简单的分享引导鼓励满意的用户在相关社区分享他们的使用体验或成果。真实的用户证言远比官方宣传更有力。5.3 优化策略与监测方法的调整在具体执行层面需要调整一些工作方法5.3.1 内容策略的调整虽然GEO的特定维度效果不显但高质量内容仍是吸引外链和讨论的基础。你的内容策略应从“为AI优化”转向“为能带来信号的人优化”。为记者和博主写作思考什么样的内容能让他们觉得有价值愿意报道或引用。为社区用户写作创作能解决他们痛点、引发共鸣或讨论的教程、案例和故事。关键词研究依然重要虽然AI不完全按SEO排名但用户向AI提问时使用的语言即你的“品类关键词”仍然是流量入口。确保你的内容覆盖这些核心词汇及其变体。5.3.2 建立正确的监测体系你需要新的工具和指标来衡量在AI世界的“能见度”。监控“发现查询”定期如每月使用自动化脚本或手动抽查用标准的“发现型”查询模板见2.2.2测试你的产品是否被ChatGPT、Claude、Perplexity等主流AI推荐。记录排名位置如果出现和频率。追踪间接信号密切监控外链增长情况使用Ahrefs, Moz等工具、社交媒体提及量特别是Reddit, Hacker News, Twitter、以及来自知名媒体的报道。设立基线与目标根据你的品类竞争程度设定一个现实的AI推荐率提升目标。例如先从0%到进入前20名推荐列表再到进入前10名。5.4 面向未来的布局与思考AI和搜索生态在快速演变今天的结论可能明天就不同。保持敏捷和前瞻性很重要。关注联网与实时搜索的进展Perplexity的表现已经证明了实时信息接入的威力。随着ChatGPT等主流模型越来越多地默认集成联网搜索GEO策略的价值可能会发生变化。当AI能实时读取你优化过的页面时页面内容的质量和结构可能会重新变得重要。保持关注并准备调整。理解不同AI的“个性”不同的AI模型甚至同一模型的不同版本可能有不同的推荐偏好。例如一些模型可能更偏重学术引用一些可能更看重商业媒体。可以小范围测试你的产品在不同平台上的表现。“被AI推荐”不是终极目标最终所有这些都是为了获取客户。AI推荐只是一个新的渠道。衡量这个渠道的最终指标应该是它为你带来了多少高质量的注册用户或付费客户。在监测曝光量的同时更要通过UTM参数等方式追踪转化。6. 实验的局限性与未来探索方向任何一项实证研究都有其边界和局限坦诚地认识到这些局限才能更准确地理解结论的适用范围并指明有价值的后续工作。6.1 本研究的局限性样本代表性本研究聚焦于2024年末至2025年初在Product Hunt上发布且表现较好的112个创业产品。这个样本框决定了结论可能最适用于面向全球市场、以英语为主的科技/互联网创业公司。对于B2B企业软件、本地化服务、传统行业转型产品或非英语内容产品其AI可见性机制可能有所不同。时间切片性大语言模型及其应用生态的发展日新月异。本研究的数据采集于一个特定的时间窗口约2025年初反映的是当时ChatGPT特定版本和Perplexity的行为模式。模型更新、搜索算法调整都可能改变游戏规则。相关性而非因果性这是最重要的提醒。本研究发现了Reddit提及、外链数量与AI推荐率之间的统计相关性。这强烈暗示了它们之间存在联系但并不能严格证明是前者导致了后者。可能存在未被观测到的“第三变量”例如产品本身的质量和吸引力同时驱动了社区讨论、外链增长和AI的推荐偏好。查询的有限性虽然设计了20种查询但仍无法覆盖用户与AI交互的全部复杂性和多样性。用户的提问方式、上下文长度、甚至对话历史都可能影响推荐结果。GEO评分的操作化GEO是一个较新的概念其评分标准尚无行业共识。本研究基于原始论文框架进行了自动化评分虽然力求客观但评分系统的效度是否真的衡量了“对AI友好”的内容特性仍有探讨空间。6.2 值得深入探索的未来方向基于本次研究的发现和局限我认为以下几个方向值得创业者、营销人员和研究者进一步探索纵向追踪研究对同一批产品进行长达半年或一年的持续监测。观察随着产品年龄增长、外链积累、社区热度变化其AI推荐率如何动态演变。这能帮助我们更好地理解“时间”这个因素的作用。跨品类与跨文化比较将研究扩展到不同的产品类别如消费硬件、在线教育、B2B SaaS和不同语言市场如中文、西班牙语产品。检验“发现鸿沟”和“传统SEO信号有效”这两个核心发现在不同语境下的普适性。深入推荐机制的黑盒尝试通过更精细的实验设计来探究AI的推荐逻辑。例如控制其他变量测试官网页面中特定内容模块如客户评价、数据展示、对比表格的增减是否影响推荐。研究AI在生成推荐列表时是否倾向于混合不同“层级”的产品如1-2个市场巨头 3-4个新兴产品以及你的产品如何能成为被选中的新兴产品。新兴AI平台与形态本研究主要针对ChatGPT和Perplexity这类通用对话AI。未来应关注垂直领域AI助手例如专注于设计工具推荐的AI、专注于编程工具推荐的AI。它们的推荐逻辑可能与通用AI不同。AI原生搜索平台如Google的SGE、微软Copilot在Bing中的深度整合。当AI推荐与传统搜索引擎结果页面深度融合时策略可能需要调整。多模态AI当AI不仅能读文字还能“看”图片和视频时产品演示视频、信息图等内容形式的优化可能会变得重要。从“被推荐”到“促转化”最终极的研究方向是当用户通过AI推荐访问你的产品后他们的转化行为如何AI推荐来的用户质量是否更高留存是否更好这将是衡量AI渠道商业价值的黄金标准。作为这次实验的发起者我最大的体会是在技术快速变革的时代保持实证精神至关重要。市场总会涌现新概念、新术语但最终决定成败的往往是对底层逻辑的深刻理解和对有效方法的坚持。目前来看对于渴望在AI时代获得可见性的创业者而言回归营销的本质——创造真实价值、赢得真实讨论、获取真实背书——依然是穿越周期最可靠的路径。我将本次实验所有的代码、清洗后的数据和详细分析过程都已开源希望它能成为一个起点邀请更多同行一起测试、验证和迭代共同摸清这片新大陆的规则。