Day6：RAG项目实战（1）

发布时间：2026/6/2 19:20:23

前言hi这里是惬鹤频道又过去几天了感觉应该来更新一下我的最新进度了。最近正式学完了RAG相关的基础知识进入了项目实战。本来想着应该有很多可以和大家聊聊的东西但是。。。真的好难我不是一个能在脑袋里快速记下大概结构的人对于RAG项目这种需要在前期进行结构思考想清楚代码内所需的基本方法并想好怎么把它们都拼接起来的工作实在有点艰难。到现在已经两天了才写好了两个代码文件所有py文件加起来大概有六七个接下来还需要熬一熬才能完成。所以这一期和大家介绍一下我写的两个代码文件吧没有啥需要分享的问题大家感兴趣的也可以学学。好了不说太多了最近的文章就短一点吧有点累了。app_file_uploader.py 文件介绍文件名app_file_uploader.py 结构利用streamlit对接knowledge_base.py文件创建一个可以上传读取解析文本文件的网页。 # 导入依赖importstreamlitasstimporttimefromknowledge_baseimportKnowledgeBase# 创建页面st.title(请上传文本)# 设置上传文件入口the_filest.file_uploader(label请上传文件,type[txt],accept_multiple_filesFalse,)# 创建数据存储服务ifservicenotinst.session_state:st.session_state[service]KnowledgeBase()ifthe_fileisnotNone:# 解析文件的名称类型和大小大小默认为B转成KB比较好file_namethe_file.name file_typethe_file.typefile_size_kbthe_file.size/1024textthe_file.getvalue().decode(utf-8)st.subheader(以下是文件的简要数据)st.write(f文件名{file_name}文件类型{file_type}文件大小{file_size_kb:.2f}KB)withst.spinner(请稍等正在处理中。。。):time.sleep(1)st.write(st.session_state[service].upload_by_str(text,file_name))嗯这是一个基于streamlit的代码可以在命令提示符中执行自动生成一个网页。knowledge_base.py 文件介绍文件名knowledge_base.py 结构在类KnowledgeBase中可以进行文本文档的chroma上传并基于MD5格式进行文本文档的md5转换记录去重。类内方法upload_by_str 传入字符串和文件名调用类外方法将文本记录至md5文档和数据库类外方法check_md5save_md5get_string_md5 check_md5检查传入的字符串是否在MD5文档中已经存在如果有则拒绝再次入库。 save_md5保存字符串到MD5文档中 get_string_md5将普通的文本转化为16进制且固定长度。 # 导入依赖importosimporthashlibimportconfig_md5fromlangchain_chromaimportChromafromlangchain_community.embeddingsimportDashScopeEmbeddingsfromlangchain_text_splittersimportRecursiveCharacterTextSplitterfromdatetimeimportdatetime# 定义三个md5相关处理方法# 检测是否有这个文件解释md5.txt用来存放所有曾经处理过的文本为避免出现相同的文本这里需要进行去重。 defcheck_md5(input_str:str):ifnotos.path.exists(config_md5.md5_path):# 如果这个文件不存在那么就打开后再关闭相当于创建它。open(config_md5.md5_path,w,encodingutf-8).close()returnFalseelse:# 如果这个文件存在那么接下来判断是否处理过它。需要先去除前后换行符和空格textsopen(config_md5.md5_path,r,encodingutf-8).readlines()fortextintexts:texttext.strip()iftextinput_str:returnTruereturnFalse# save_md5负责往md5.txt里面输入处理过的文本经过16进制转化的defsave_md5(input_md5:str):withopen(config_md5.md5_path,a,encodingutf-8)asf:f.write(input_md5\n)# get_string_md5负责将普通的文本转化为16进制格式好处就是不论文本多长多大转化后的长度相同。defget_string_md5(input_str:str):# 先转化为bytes类型byte_strinput_str.encode(encodingutf-8)# 创建一个md5哈希对象hash_strhashlib.md5()# 将要转换的bytes类型文件传入其中hash_str.update(byte_str)# 转换完成返回16进制数据returnhash_str.hexdigest()# 创建知识库基础服务类classKnowledgeBase(object):def__init__(self):# 先确保数据库存储的文件夹存在os.makedirs(config_md5.persist_directory,exist_okTrue)# 创建数据库self.chromaChroma(collection_nameconfig_md5.collection_name,embedding_functionDashScopeEmbeddings(modeltext-embedding-v4),persist_directoryconfig_md5.persist_directory,)# 定义文本分割器self.text_splitterRecursiveCharacterTextSplitter(chunk_sizeconfig_md5.chunk_size,chunk_overlapconfig_md5.chunk_overlap,separatorsconfig_md5.separator,length_functionlen,)defupload_by_str(self,data:str,filename:str):md5_hexget_string_md5(data)ifcheck_md5(md5_hex):return[错误]已被记录不允许重复的记录# 判断当前的文本长度是否需要切割iflen(data)config_md5.max_split_char_number:knowledge_chunk:list[str]self.text_splitter.split_text(data)else:knowledge_chunk[data]# 源数据定义metadata{source:filename,create_time:datetime.now().strftime(%Y-%m-%d %H:%M:%S),operator:zzy,}# 将处理过的文本放到数据库中附上源数据self.chroma.add_texts(knowledge_chunk,metadatas[metadatafor_inknowledge_chunk],)# 记录到md5文件中save_md5(md5_hex)return[成功]已创建记录# 测试if__name____main__:serviceKnowledgeBase()rservice.upload_by_str(zzy是天才,test_file)print(r)这是用于将数据上传至chroma数据库同时检测记录是否是已经载入的数据的代码文件。这两个文件合起来后可以在生成的网页段中上传解析记录文本。结尾大概就是这些具体的说明可以看看代码的开头和代码行的注释这两个代码文件其实原理还不算难但是抓细节的话需要记的东西还很多。总之明天继续努力我先去睡了byebye

StardewPlanner：基于网格化约束的可视化农场规划系统架构解析

StardewPlanner：基于网格化约束的可视化农场规划系统架构解析【免费下载链接】stardewplanner Stardew Valley farm planner 项目地址: https://gitcode.com/gh_mirrors/st/stardewplanner StardewPlanner是一个面向《星露谷物语》游戏的Web端农场规划工具&…

2026/6/2 19:20:23 阅读更多

记录一次ardupilot_sitl调试longitude的输入数据流

在抓取到gz sim的数据流后 ,就可以不需要这个工具了完全可以用python来写一个服务替代gz的模拟数据/////////////////////////////////////////////////////#!/usr/bin/env python3 """ Gazebo JSON 仿真服务器（应答模式） - 绑定 UDP 90…

2026/6/2 19:20:23 阅读更多

Android录屏SDK：MediaCodec硬编码实现，带可配置动态时间戳水印

本文还有配套的精品资源，点击获取简介：专为Android平台设计的轻量级录屏SDK，底层调用MediaCodec进行硬件编码，显著降低CPU负载和设备发热，兼容Android 5.0及以上系统。录制过程中支持实时叠加动态更新的时间戳水印…

2026/6/2 19:20:02 阅读更多

MUSE数据立方体与通道图在天文研究中的应用

1. 通道图基础与MUSE数据立方体解析通道图（Channel Maps）是天文学家研究星际介质动力学的重要工具。简单来说，它就像给宇宙气体做"CT扫描"——将天体发出的光按不同速度切片，让我们能观察气体在不同径向速度下的空间分…

2026/6/3 1:51:04 阅读更多

AMLA技术：优化大型语言模型注意力计算的新突破

1. AMLA技术背景与核心挑战在大型语言模型（LLM）领域，注意力机制作为Transformer架构的核心组件，其计算效率直接影响模型性能。传统多头注意力（MHA）面临两个主要瓶颈：一是随着上下文窗口扩展&…

2026/6/3 1:51:04 阅读更多

小红书笔记高清图/视频本地批量提取工具（Python脚本）

本文还有配套的精品资源，点击获取简介：直接运行就能从小红书笔记里批量抓取原图和无水印视频的本地Python工具，不需要第三方平台或API。核心模块包括模拟请求的XHSRequests、动态生成Header的HeaderTemplate、通用处理函数XSUtils&#x…

2026/6/3 1:50:44 阅读更多

杰理之耳机进入powerdown后，电平跟随powerdown跳动【篇】

设置PB1输出高电平

2026/6/3 1:50:44 阅读更多

Alias许可不够用：汽车A面设计团队的浮点许可优化方案

别急着申请加买Alias授权——A面团队喊"许可不够"十有八九是浮点许可被白占着不释放，不是真不够。我2026年初帮华南某主机厂外饰A面组（Alias AutoStudio 2026，20个浮动并发/32名设计师）做优化，不改采购量&am…

2026/6/3 1:50:03 阅读更多

告别引导失败：详解CentOS 7 UEFI安装时`inst.stage2=hd:LABEL`找不到设备的排查与修复

告别引导失败：详解CentOS 7 UEFI安装时inst.stage2hd:LABEL找不到设备的排查与修复在服务器和工作站的日常运维中，CentOS 7因其稳定性和长期支持依然是许多企业的首选。然而，当我们在Dell OptiPlex等主流机型上通过UEFI模式安装时&#xff0c…

2026/6/3 1:49:43 阅读更多

解决Unity打包EXE后Universal Media Player播放RTSP失败：从修改Player Settings到手动修复UMPPostBuilds.cs

Unity打包EXE后Universal Media Player播放RTSP失败的深度修复指南当你在Unity中使用Universal Media Player（UMP）插件成功实现了RTSP流的播放，却在打包EXE后遭遇"无画面"或"找不到库文件"的错误时，这种从开发…

2026/6/3 0:00:49 阅读更多

ESP32工业物联网控制器：4-20mA压力变送器信号采集与处理实战

1. 项目概述与核心价值在工业现场，数据采集的稳定性和准确性是命脉。无论是监测管道压力、罐体液位还是电机转速，我们都需要将物理世界的信号，可靠地转换为控制系统能理解的“语言”。这其中，4-20mA电流环信号堪称工业模拟信号传输…

2026/6/3 0:00:49 阅读更多

基于Arduino与超声波传感器的DIY无人机计时门设计与实现

1. 项目概述：为FPV竞速增添专业感的DIY计时门如果你和我一样，家里有个对FPV无人机着迷的孩子，或者你自己就是个竞速爱好者，那你肯定理解那种想给自家的小型无人机赛道增加点“专业感”的冲动。我们在地下室用纸箱、呼啦圈搭过各种…

2026/6/3 0:00:49 阅读更多

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

Realtek 8188GU网卡驱动故障深度修复指南：从原理到实战当设备管理器里那个顽固的黄色感叹号挥之不去，而你已经尝试了所有"标准操作"——Windows自动更新、第三方驱动工具、甚至重启大法——却依然无济于事时，是时候换个思路了。这篇…

2026/6/2 3:04:55 阅读更多

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

AnolisOS 8.8安装源配置实战指南：从诊断到解决方案的全流程解析当你在安装AnolisOS 8.8时遇到"设置基础软件仓库时出错"的提示，这通常意味着系统无法访问或识别安装源。这个问题看似简单，但背后可能涉及网络配置、镜像选择、启动参…

2026/6/2 3:51:01 阅读更多

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

1. 项目概述与核心思路最近在整理工作室的电子元件，翻出来几个闲置的街机按钮和一块树莓派Pico，灵机一动，决定做个简单又有趣的反应速度测试游戏。这个项目非常适合想入门嵌入式开发的朋友，它不涉及复杂的传感器和通信协议&#x…

2026/6/2 1:12:03 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/2 5:03:37 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/2 0:27:25 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/2 2:18:01 阅读更多

相关文章

StardewPlanner：基于网格化约束的可视化农场规划系统架构解析

记录一次ardupilot_sitl调试longitude的输入数据流

Android录屏SDK：MediaCodec硬编码实现，带可配置动态时间戳水印

MUSE数据立方体与通道图在天文研究中的应用

AMLA技术：优化大型语言模型注意力计算的新突破

小红书笔记高清图/视频本地批量提取工具（Python脚本）

杰理之耳机进入powerdown后，电平跟随powerdown跳动【篇】

Alias许可不够用：汽车A面设计团队的浮点许可优化方案

告别引导失败：详解CentOS 7 UEFI安装时`inst.stage2=hd:LABEL`找不到设备的排查与修复

解决Unity打包EXE后Universal Media Player播放RTSP失败：从修改Player Settings到手动修复UMPPostBuilds.cs

ESP32工业物联网控制器：4-20mA压力变送器信号采集与处理实战

基于Arduino与超声波传感器的DIY无人机计时门设计与实现

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因