别再手动处理图片特征了！用Milvus + Towhee 5分钟搞定一个以图搜图Demo

发布时间：2026/6/14 5:44:24

5分钟构建以图搜图系统Milvus与Towhee的高效组合实践在数字内容爆炸式增长的今天快速准确地检索图像已成为众多应用的核心需求。传统的关键词搜索在面对海量非结构化图像数据时显得力不从心而以图搜图技术正逐渐成为解决这一痛点的利器。本文将带你使用Milvus向量数据库和Towhee特征提取工具在短短5分钟内搭建一个可运行的以图搜图原型系统。1. 环境准备与工具链配置1.1 安装Milvus单机版Milvus作为专为向量搜索优化的数据库其安装过程异常简单。推荐使用Docker Compose方式部署只需执行以下命令mkdir milvus-demo cd milvus-demo wget https://github.com/milvus-io/milvus/releases/download/v2.3.1/milvus-standalone-docker-compose.yml -O docker-compose.yml docker-compose up -d验证服务是否正常运行docker-compose ps预期输出应包含milvus-standalone、etcd和minio三个服务状态为Up1.2 配置Python开发环境建议使用Python 3.8环境安装必要的依赖库pip install pymilvus2.3.0 towhee1.1.0 pillow matplotlib注意不同版本的API可能存在兼容性差异建议固定版本号2. 图像特征处理流水线设计2.1 Towhee特征提取原理Towhee提供了开箱即用的深度学习模型封装特别适合快速原型开发。以下代码展示如何使用ResNet50提取图像特征from towhee import pipeline img_embedding pipeline(image-embedding) vector img_embedding(path/to/image.jpg)特征向量维度分析模型名称输出维度适用场景ResNet502048通用图像EfficientNet1280移动端优化ViT768高精度场景2.2 构建特征提取流水线实际应用中需要处理图像预处理、批量推理等复杂场景def extract_features(img_path): # 图像预处理 img Image.open(img_path).convert(RGB) # 特征提取与归一化 embedding img_embedding(img).reshape(1, -1) return embedding / np.linalg.norm(embedding)3. Milvus向量数据库实战3.1 数据模型设计在Milvus中合理设计Collection结构对性能至关重要from pymilvus import FieldSchema, CollectionSchema, DataType fields [ FieldSchema(nameid, dtypeDataType.INT64, is_primaryTrue), FieldSchema(namefile_path, dtypeDataType.VARCHAR, max_length256), FieldSchema(nameembedding, dtypeDataType.FLOAT_VECTOR, dim2048) ] schema CollectionSchema(fields, descriptionImage search demo) collection Collection(image_search, schema)各字段配置说明id主键建议使用自增IDfile_path原始图像存储路径embedding归一化后的特征向量3.2 高效索引构建针对图像搜索场景优化索引参数index_params { index_type: IVF_FLAT, metric_type: L2, params: {nlist: 1024} } collection.create_index(embedding, index_params)索引类型对比索引类型构建速度查询速度内存占用精度IVF_FLAT快较快高100%HNSW慢最快中100%IVF_PQ中快低95%4. 端到端系统实现4.1 数据入库流程完整的数据处理流程应包含错误处理和进度反馈def import_images(img_dir): file_paths [os.path.join(img_dir, f) for f in os.listdir(img_dir)] embeddings [] for path in tqdm(file_paths): try: embedding extract_features(path) embeddings.append({ id: len(embeddings), file_path: path, embedding: embedding.tolist()[0] }) except Exception as e: print(fError processing {path}: {str(e)}) # 批量插入 collection.insert(embeddings) collection.flush()4.2 搜索功能实现支持多种搜索条件的混合查询def image_search(query_img, top_k5): # 提取查询特征 query_embedding extract_features(query_img) # 构建搜索参数 search_params { metric_type: L2, params: {nprobe: 32} } # 执行搜索 results collection.search( data[query_embedding.tolist()[0]], anns_fieldembedding, paramsearch_params, limittop_k, output_fields[file_path] ) return [hit.entity.get(file_path) for hit in results[0]]4.3 性能优化技巧针对不同规模数据集的调优建议小数据集10万使用HNSW索引nprobe16中数据集10-100万IVF_FLATnlist2048nprobe64大数据集100万考虑分布式集群部署5. 实际应用扩展5.1 混合查询示例结合元数据过滤实现更精准搜索# 查找相似且文件名为特定模式的图片 search_params { expr: file_path like %landscape%, metric_type: L2, params: {nprobe: 32} }5.2 系统监控与维护关键监控指标建议查询延迟P99应100ms内存使用关注graph_node内存占用索引状态定期检查索引完整性维护命令示例# 查看集合统计信息 collection.get_collection_stats() # 手动触发压缩 collection.compact()6. 生产环境考量6.1 性能基准测试在AWS c5.2xlarge实例上的测试数据数据规模索引构建时间查询延迟吞吐量(QPS)10万2.1分钟23ms420100万18分钟45ms3801000万2.3小时89ms3106.2 高可用部署建议对于关键业务系统应考虑使用Milvus集群版配置ETCD和MinIO的冗余备份实现读写分离架构部署示例# cluster-docker-compose.yml services: milvus: image: milvusdb/milvus:v2.3.1 environment: CLUSTER_ENABLED: true ETCD_ENDPOINTS: etcd1:2379,etcd2:2379,etcd3:2379

告别串口！用CH582的USB Bootloader实现U盘拖拽式固件升级（基于PlumBL框架）

告别串口！用CH582的USB Bootloader实现U盘拖拽式固件升级（基于PlumBL框架） 嵌入式开发中，固件升级一直是让人头疼的环节——串口线连接不稳定、上位机工具配置复杂、驱动程序兼容性问题频发。现在，基于CH582芯片和Plum…

2026/6/14 5:44:24 阅读更多

逻辑综合避坑指南：手把手教你配置Design Compiler的target_library和link_library（以90nm典型库为例）

逻辑综合避坑指南：深度解析Design Compiler库配置的底层逻辑在数字IC设计流程中，逻辑综合是将RTL代码转化为门级网表的关键环节。许多工程师往往将注意力集中在约束设置和优化策略上，却忽略了最基础的库配置环节。实际上， 超过6…

2026/6/14 5:43:43 阅读更多

别再只会用库函数了！C++中5种GCD算法实现大比拼（附性能测试）

C中5种GCD算法实现深度评测与工程实践指南在算法竞赛和高性能计算领域，最大公约数(GCD)计算看似基础却暗藏玄机。许多开发者习惯性地调用标准库函数，却不知道不同实现方式可能存在数量级的性能差异。本文将深入剖析五种主流GCD算法的实现原理&#xff0c…

2026/6/14 5:43:43 阅读更多

VEML7700光照传感器选型与配置避坑指南：如何根据应用场景设置增益和积分时间？

VEML7700光照传感器选型与配置避坑指南：如何根据应用场景设置增益和积分时间？在智能家居自动调光、农业物联网监测或消费电子产品设计中，环境光传感器的选型与参数配置往往成为硬件工程师的"隐形战场"。VEML7700作为一款16位高精度…

2026/6/14 7:07:14 阅读更多

别再纠结Activiti版本了！从5到7，我为什么最终选择了Flowable？

从Activiti到Flowable：一位开发者的技术选型心路历程三年前接手公司核心业务流程重构项目时，我完全没料到会在流程引擎选型上耗费整整两周时间。当时技术总监只丢下一句"用最新稳定版Activiti"，但当我打开官网才发现，这…

2026/6/14 7:07:14 阅读更多

用Python处理LiTS17的nii文件：从3D体积数据到2D PNG切片的完整流程与避坑指南

用Python处理LiTS17的nii文件：从3D体积数据到2D PNG切片的完整流程与避坑指南当你第一次打开LiTS17数据集中的nii文件时，可能会被这种特殊的医学影像格式弄得一头雾水。作为肝脏肿瘤分割领域的基准数据集，LiTS17包含了131组CT扫描的3D体积数据…

2026/6/14 7:06:13 阅读更多

线性f(Q)引力理论与致密星体模型研究

1. 线性f(Q)引力理论框架解析线性f(Q)引力理论是近年来引力理论研究的重要发展方向之一，它通过引入非度量性标量Q对广义相对论进行扩展。在这个理论框架中，基本构建块不再是传统的黎曼曲率，而是基于非度量性的几何量。具体来说，f(…

2026/6/14 7:04:52 阅读更多

保姆级盘点：国内外主流半导体外延炉厂商都有谁？设备选型怎么看？

半导体外延炉选型指南：技术路线与厂商全景分析在半导体制造的关键工序中，外延生长技术如同精密的画笔，在晶圆衬底上描绘出决定器件性能的功能层。对于工艺工程师和设备采购决策者而言，选择合适的外延炉不仅关乎初期投资回报&#…

2026/6/14 7:02:10 阅读更多

收藏！小白程序员必看：大模型Agent如何改变未来生活与工作收藏必备！小白程序员轻松入门大模型优化黑科技，让你的AI应用跑得更快更省！

本文介绍了大模型在数据产品中的核心价值，并深入解析了KV Cache、量化和知识蒸馏三大优化技术，帮助读者理解如何降低大模型的内存占用、提升推理速度，以及实现模型的小型化和端侧落地。文章还提供了企业级落地部署建议，强调在实际…

2026/6/14 7:01:30 阅读更多

音乐文件解锁实战指南：3个场景解决你的播放困境

音乐文件解锁实战指南：3个场景解决你的播放困境【免费下载链接】unlock-music 在浏览器中解锁加密的音乐文件。原仓库： 1. https://github.com/unlock-music/unlock-music ；2. https://git.unlock-music.dev/um/web 项目地址: https://git…

2026/6/14 0:00:09 阅读更多

从Landsat到高分系列：手把手教你选择适合自己项目的遥感卫星数据

遥感卫星数据选型实战指南：从参数解析到场景化应用当面对GEE、PIE-Engine等云平台上数十种遥感数据源时，许多研究者常陷入选择困难——Landsat的历史连续性、Sentinel-2的红边波段优势、高分系列的亚米级分辨率各有千秋。本文将打破常规参数罗列式对比&a…

2026/6/14 0:00:30 阅读更多

MC68302 AutoBaud技术：硬件级串口波特率自动检测原理与实现

1. 项目概述：MC68302 AutoBaud技术深度解析在嵌入式系统开发，尤其是那些需要与外部设备进行串口通信的场景里，最让人头疼的环节之一就是波特率匹配。想象一下，你设计了一个数据采集终端，需要连接来自不同厂家、不同年代…

2026/6/14 0:01:11 阅读更多

音乐文件解锁实战指南：3个场景解决你的播放困境

2026/6/14 0:00:09 阅读更多

从Landsat到高分系列：手把手教你选择适合自己项目的遥感卫星数据

2026/6/14 0:00:30 阅读更多

MC68302 AutoBaud技术：硬件级串口波特率自动检测原理与实现

2026/6/14 0:01:11 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/13 10:27:28 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/13 10:01:44 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/13 10:00:44 阅读更多

相关文章

告别串口！用CH582的USB Bootloader实现U盘拖拽式固件升级（基于PlumBL框架）

逻辑综合避坑指南：手把手教你配置Design Compiler的target_library和link_library（以90nm典型库为例）

别再只会用库函数了！C++中5种GCD算法实现大比拼（附性能测试）

VEML7700光照传感器选型与配置避坑指南：如何根据应用场景设置增益和积分时间？

别再纠结Activiti版本了！从5到7，我为什么最终选择了Flowable？

用Python处理LiTS17的nii文件：从3D体积数据到2D PNG切片的完整流程与避坑指南

线性f(Q)引力理论与致密星体模型研究

保姆级盘点：国内外主流半导体外延炉厂商都有谁？设备选型怎么看？

收藏！小白程序员必看：大模型Agent如何改变未来生活与工作收藏必备！小白程序员轻松入门大模型优化黑科技，让你的AI应用跑得更快更省！

音乐文件解锁实战指南：3个场景解决你的播放困境

从Landsat到高分系列：手把手教你选择适合自己项目的遥感卫星数据

MC68302 AutoBaud技术：硬件级串口波特率自动检测原理与实现

音乐文件解锁实战指南：3个场景解决你的播放困境

从Landsat到高分系列：手把手教你选择适合自己项目的遥感卫星数据

MC68302 AutoBaud技术：硬件级串口波特率自动检测原理与实现

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因