基于腾讯云MCP广场的AI自动化实践:爬取小红书热门话题

在这里插入图片描述

基于腾讯云MCP广场的AI自动化实践:爬取小红书热门话题

我正在参加Trae「超级体验官」创意实践征文,本文所使用的 Trae 免费下载链接:www.trae.com.cn/?utm_source…

🔎 背景

在人工智能快速发展的时代,AI技术不仅重塑了传统行业,也极大提高了开发者的工作效率。腾讯云推出的 MCP(Model Context Protocol),作为一种创新的技术协议,能够帮助开发者将云能力、AI模型与自动化流程高效整合,让开发者可以将更多精力集中在业务逻辑和创新上,而不再是重复性工作。

最近,腾讯云推出了**MCP广场,一个帮助开发者轻松创建与管理自动化应用的平台。在探索过程中,我发现了一个非常有趣的工具——超浏览器AI自动化**,它能让开发者通过浏览器模拟技术实现自动化操作。我曾经看到过一个小红书爬取的代码,但由于种种原因没有成功运行。于是,我决定尝试利用超浏览器AI自动化功能,结合腾讯云MCP的能力,进行小红书热门话题的自动化爬取与分析,最终成功实现了这一目标。

📉效果展示

在这里插入图片描述

通过本次实践,成功构建了一个自动化流程,它能够:

  1. 将提取到的数据(如标题、作者、点赞数)结构化。
  2. 基于抓取的数据,通过AI能力生成对当前热门趋势的分析,甚至提炼出具有吸引力的热门标题。
  3. 将最终结果保存为一个整洁的 Markdown 文件,便于后续查阅和使用。

👍AI编程开发流程

在这里插入图片描述

🧰 工具选型与架构

组件用途工具
用户输入提供创作方向自然语言输入
MCP能力平台提供发现、管理和调用各类 MCP 工具的平台。是整个自动化实践的入口。腾讯云MCP
MCP LLM工具链解析输入并生成话题Trae
超浏览器自动化模拟浏览器行为,获取平台信息Playwright/Selenium
数据处理与输出格式化生成内容,提供创作灵感markdown

🧱不能运行的爬取小红书代码

如前所述,对于小红书这类大量使用JavaScript动态加载内容的网站,传统的静态HTML解析方法往往无法获取到完整的页面信息。

以下是我发现并运行过过的爬取小红书的代码(未能成功运行):

import requests
from bs4 import BeautifulSoupheaders = {'User-Agent':'Mozilla/5.0 (Linux; Android 11) AppleWebKit/537.36'}
url = 'https://www.xiaohongshu.com/explore' res = requests.get(url, headers=headers)
soup = BeautifulSoup(res.text,'html.parser')hot_list = []
for item in soup.select('.hot-item'):title = item.select('.title')[0].text.strip()hot_value = item.select('.hot-value')[0].texthot_list.append(f"{title}🔥{hot_value}")print("实时热榜TOP10:", hot_list[:10])

之前看到的代码如下(来源):

在这里插入图片描述

这段代码的逻辑是发送一个HTTP请求,然后使用 BeautifulSoup 解析返回的HTML文本,尝试通过CSS选择器(.hot-item, .title, .hot-value)来定位热门话题元素。

然而,当我尝试在本地运行这段代码时,并没有得到预期的热门话题列表:

在这里插入图片描述

运行了个寂寞。哈哈哈哈。

在这里插入图片描述

😊腾讯云发现的AI自动化实践爬取小红书:超浏览器出击!

1.打开腾讯云MCP广场(点击前往了解详情),点击浏览器自动化,找到超浏览器AI自动化。

在这里插入图片描述

2.在超浏览器AI自动化页面可以看到安装,使用,工具,配置以及许可证。

在这里插入图片描述

3.根据说明,进入Hyperbrowser官网,找到API配置页面。按照官方文档的指导,创建并配置 API_KEY,再到Trae CN中进行配置,就可以开始使用了。

代码如下(修改API_KEY):

{"mcpServers": {"hyperbrowser": {"command": "npx","args": ["-y", "hyperbrowser-mcp"],"env": {"HYPERBROWSER_API_KEY": "API_KEY"}}}
}

配置成功的截图如下:

在这里插入图片描述

🚀 使用 Trae CN 进行编程与自动化编排

Trae CN 是一个强大的开发工具,它集成了 AI 能力和 MCP 调用能力,允许我们通过自然语言或代码来 orchestrate 自动化流程。

新建一个文件夹,命名为:浏览器自动化,使用Trae CN打开这个文件夹

在这里插入图片描述

使用Ctrl+U唤醒对话,在对话中选择Builder with MCP,使用下面的提示词。

使用 Claude 计算机使用进行爬取小红书的前10个笔记。 #要求: 
1.目标网站:https://www.xiaohongshu.com/explore 
2.前10个笔记的标题、作者和点赞数信息,并保存到一个markdown格式的文件文件中。
3.根据这10个笔记,综合数据生成一个热门话题。

在这里插入图片描述

AI 代理(Claude)接收到这个指令后,会理解我们的意图,并智能地将任务分解:

  1. 识别出需要进行网页数据抓取,这需要调用超浏览器AI自动化 MCP。
  2. 构造调用超浏览器 MCP 的具体指令,包括导航到目标 URL,以及执行哪些操作来查找和提取前10个笔记的数据(例如,通过 CSS 选择器、XPath,甚至结合视觉识别能力,这取决于超浏览器工具的实现细节)。
  3. 指示超浏览器执行这些操作,并等待结果返回。
  4. 接收超浏览器返回的原始数据(例如,一个包含10个笔记信息的结构化列表)。
  5. 利用 Claude 自身的语言理解和生成能力,处理这些数据。首先,将数据格式化,准备写入 Markdown 文件。其次,对这10个笔记的标题和内容(如果能抓取到更多信息)进行分析,识别其中的共同主题或趋势,提炼出一个热门话题。
  6. 将格式化后的数据和生成的热门话题组合,按照 Markdown 格式进行排版。
  7. 将最终生成的 Markdown 内容输出,并指示保存到指定的文件(xiaohongshu_top10.md)。

在 Trae CN 中,我们可以看到 AI 代理逐步执行这些任务的过程以及它的思考链条。它可能会显示正在调用 MCP 工具、正在处理数据、正在生成内容等提示信息。

成功完成小红书前10个笔记的爬取和保存任务,并分析了这些笔记内容。以下是总结:

  1. 在小红书探索页面爬取了前10个笔记的标题、作者和点赞数信息
  2. 将这些信息保存到了 xiaohongshu_top10.md 文件中
  3. 分析这些笔记内容后,发现当前热门话题集中在:
    • 生活方式分享(如旅行、宠物、婚后生活)
    • 实用技巧(如拍照技巧、家居改造)
    • 娱乐内容(如影视解说、搞笑视频)

优化总结输出:

根据这10个笔记,综合数据生成一个热门话题。并且加入到markdown文档中。

结果:

# 热门话题根据前10篇笔记的内容分析,当前最热门的话题是 **"生活方式与个人体验"**。这些笔记涵盖了从婚姻生活、旅行计划到日常生活趣事等多个方面,反映了小红书用户对真实生活体验的分享和关注。

在这里插入图片描述

进一步优化输出:生成具体的热门标题

AI 代理基于数据分析生成了热门话题方向(“生活方式与个人体验”),但如果我们希望得到一个更具体、更具吸引力的笔记标题,可以进一步细化指令。

继续在 Trae CN 的对话窗口中,针对刚刚完成的任务,输入新的提示词:

根据前10篇笔记的内容分析,帮我想一个具体的热门标题,并且加入到markdown文档中。

结果:

## 热门标题推荐**"婚后生活大揭秘:从柴米油盐到浪漫旅行,真实夫妻生活全记录"**这个标题结合了当前最热门的生活方式和体验主题,涵盖了婚姻生活、旅行计划等元素,能够吸引用户的关注和共鸣。

在这里插入图片描述

至此,我们成功地利用腾讯云 MCP 广场、超浏览器AI自动化以及 Trae,实现了小红书热门话题和笔记数据的自动化爬取、分析与内容生成。

全文总结

腾讯云MCP广场

腾讯云MCP广场堪称当前AI自动化领域的集大成者,它不仅提供了高度模块化的能力调用平台,还极大地简化了从“想法”到“落地”的整个开发流程。通过统一的接口与多种预置组件,开发者无需掌握复杂的工程细节,也能像搭积木一样构建强大且可扩展的自动化系统。尤其值得一提的是其“超浏览器AI自动化”工具,真正做到了低代码、甚至零代码完成复杂网页的动态数据抓取,这一突破对于以往困于JS渲染与反爬机制的开发者来说,无疑是生产力的质变飞跃。MCP广场不仅是工具集合,更是AI能力与开发者之间的高效桥梁,是每一个希望拥抱AI未来的技术人员不可或缺的平台。

Trae的MCP使用

Trae不仅是一个开发工具,它更像是一个真正懂你意图的“AI编程助手”。通过自然语言指令,开发者无需编写冗长代码,就能完成复杂的任务编排与AI能力调用。在本次项目中,Trae展现出卓越的任务理解能力——从输入一句“爬取小红书热门笔记”,到自动识别目标、调用MCP超浏览器工具、抓取数据、格式化输出、分析趋势,甚至推荐热门标题,全流程几乎无需人工干预。Trae就像一位经验丰富的AI工程师,能听懂你的话、明白你的目标,并迅速将其转化为可执行的方案。它大幅度提升了开发体验,也重新定义了“AI助力开发”的边界,是MCP生态中不可多得的“智慧中枢”。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/48954.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++从入门到实战(十四)初识STL与STL简介

C从入门到实战(十四)初识STL与STL简介 前言一、什么是 STL?二、STL 的版本三、STL六大组件(目前了解即可,后面会逐步讲解)1. 容器(Containers)—— 装数据的“盒子”2. 算法&#xf…

【LeetCode 42】接雨水(单调栈、DP、双指针)

题面: 思路: 能接雨水的点,必然是比两边都低(小)的点。有两种思路,一种是直接计算每个点的最大贡献(也就是每个点在纵向上最多能接多少水),另一种就是计算每个点在横向上…

ruoyi-flowable-plus 前端框架启动报错修复

版本 1. ruoyi-flowable-plus 前端框架启动报错修复 启动时设置环境变量 "scripts": {"dev": "SET NODE_OPTIONS--openssl-legacy-provider && vue-cli-service serve","build:prod": "vue-cli-service build",&qu…

Python全流程开发实战:基于IMAP协议安全下载个人Gmail邮箱内所有PDF附件

文章目录 一、需求分析与安全前置:为什么需要专用工具?1.1 痛点场景1.2 技术方案选择 二、准备工作:Gmail账号安全配置与环境搭建2.1 开启两步验证(必做!)2.2 创建应用专用密码(替代普通密码&am…

Gradio全解20——Streaming:流式传输的多媒体应用(5)——基于WebRTC的摄像头实时目标检测

Gradio全解20——Streaming:流式传输的多媒体应用(5)——基于WebRTC的摄像头实时目标检测 本篇摘要20. Streaming:流式传输的多媒体应用20.5 基于WebRTC的摄像头实时目标检测20.5.1 环境配置及说明1. WebRTC2. TURN服务器 20.5.2 …

统计匹配的二元组个数 - 华为OD机试真题(A卷、JavaScript题解)

华为OD机试题库《C》限时优惠 9.9 华为OD机试题库《Python》限时优惠 9.9 华为OD机试题库《JavaScript》限时优惠 9.9 针对刷题难,效率慢,我们提供一对一算法辅导, 针对个人情况定制化的提高计划(全称1V1效率更高)。 看…

【Redis篇】linux 7.6安装单机Redis7.0(参数优化详解)

💫《博主主页》: 🔎 CSDN主页 🔎 IF Club社区主页 🔥《擅长领域》:擅长阿里云AnalyticDB for MySQL(分布式数据仓库)、Oracle、MySQL、Linux、prometheus监控;并对SQLserver、NoSQL(MongoDB)有了…

Admyral - 可扩展的GRC工程自动化平台

文章目录 一、关于 Admyral相关链接资源关键特性 二、安装系统要求 三、快速开始1、启动服务 四、核心功能1、自动化即代码2、AI增强工作流3、双向同步编辑器4、工作流监控5、企业级基础设施 五、示例应用六、其他信息许可证遥测说明 一、关于 Admyral Admyral 是一个基于 Pyt…

深入解析Http11AprProtocol:Tomcat高性能通信的底层原理

HTTP/1.1 协议作为 Web 通信的基础标准,其实现效率直接影响服务器性能。Apache Tomcat 作为 Java 生态中最流行的 Servlet 容器,提供了多种 HTTP 协议实现方案,其中基于 Apache Portable Runtime(APR)的 Http11AprProt…

Linux第四节:进程控制

一、进程创建 1.1 fork函数 1. fork函数有两个返回值问题 返回的本质就是写入!所以,谁先返回,谁就先写入id,因为进程具有独立性,会发生写时拷贝,父进程和子进程各自指向return语句。 2. fork返回后&#x…

基于mediapipe深度学习的眨眼检测和计数系统python源码

目录 1.算法运行效果图预览 2.算法运行软件版本 3.部分核心程序 4.算法理论概述 5.算法完整程序工程 1.算法运行效果图预览 (完整程序运行后无水印) 2.算法运行软件版本 人工智能算法python程序运行环境安装步骤整理_本地ai 运行 python-CSDN博客 3.部分核心程序 &…

(二)毛子整洁架构(CQRS/Dapper/DomianEvent Handler)

文章目录 项目地址一、Application 层1.1 定义CQRS的接口以及其他服务1. Command2. IQuery查询3. 当前时间服务接口4. 邮件发送服务接口 1.2 ReserveBooking Command1. 处理传入的参数2. ReserveBookingCommandHandler3. BookingReservedDomainEvent 1.3 GetBooking Query1. 创…

数据结构与算法:图论——最短路径

最短路径 先给出一些leetcode算法题,以后遇见了相关题目再往上增加 最短路径的4个常用算法是Floyd、Bellman-Ford、SPFA、Dijkstra。不同应用场景下,应有选择地使用它们: 图的规模小,用Floyd。若边的权值有负数,需要…

uniapp-商城-43-shop 后台管理 页面

后台管理较为简单&#xff0c;主要用于后台数据的管理&#xff0c;包含商品类别和商品信息&#xff0c;其实还可以扩展到管理用户等等 1、后台首页 包含 分类管理 商品管理 关于商家等几个栏目 主要代码&#xff1a; <template><view class"manage">…

LeetCode 1. 两数之和(Java)

LeetCode 1. 两数之和&#xff08;暴力 vs 哈希表&#xff09; 题目描述 给定一个整数数组 nums 和一个整数 target&#xff0c;要求找出数组中和为目标值的两个数&#xff0c;并返回它们的下标。假设每个输入只有一种答案&#xff0c;且同一元素不能重复使用。 示例&#xf…

《软件项目管理》笔记一

软件项目管理概述 项目管理属于软件工程的组成之一&#xff0c;另外两部分为&#xff1a;软件开发&#xff0c;过程改进。 参考书如下&#xff1a; 1.1 项目与软件项目 1、项目&#xff1a; 为了创造一个唯一的产品或提供一个唯一的服务而进行 的临时性的努力。 2、项目的…

深度学习:智能车牌识别系统(python)

这是一个基于opencv的智能车牌识别系统,有GUI界面。程序能自动识别图片中的车牌号码,并支持中文和英文字符识别,支持选择本地图片文件,支持多种图片格式(jpg、jpeg、png、bmp、gif)。 下面,我将按模块功能对代码进行分段说明: 1. 导入模块部分 import tkinter as tk…

Redis 持久化机制全面解析:RDB 与 AOF 的原理与实践

目录 前言1. Redis 持久化的总体思路2. RDB&#xff1a;快照机制详解2.1 RDB 的工作原理2.2 RDB 的优势2.3 RDB 的局限性 3. AOF&#xff1a;追加日志机制详解3.1 AOF 的工作原理3.2 AOF 的优势3.3 AOF 的缺陷 4. RDB 与 AOF 的对比分析4.1 数据丢失风险4.2 文件大小与恢复速度…

混淆矩阵(Confusion Matrix)

混淆矩阵&#xff08;Confusion Matrix&#xff09;是一个用于评估分类模型性能的工具&#xff0c;特别是在机器学习和统计学领域。它展示了模型预测结果与实际结果之间的关系。混淆矩阵通常用于二分类或多分类问题中&#xff0c;但也可以扩展到更多类别的情况。 一、混淆矩阵…

TB6600HG是一款PWM(脉宽调制)斩波型单芯片双极性正弦波微步进电机驱动集成电路。

该驱动器支持电机的正向和反向旋转控制&#xff0c;并具有多种激励模式&#xff0c;包括2相、1-2相、W1-2相、2W1-2相和4W1-2相。 使用这款驱动器&#xff0c;只需时钟信号即可驱动2相双极性步进电机&#xff0c;且振动小、效率高。 主要特点&#xff1a; 单芯片双极性正弦波…