Chinese-Clip实现文本匹配

发布时间：2026/6/3 17:46:00

本文不生产技术只做技术的搬运工前言最近朋友有个近似文本查找的需求询问本人是否能帮忙实现要求匹配速度快准确率有基本保证即可想到了之前写的以图搜图demo决定以此作为技术路线简单实现一版。环境配置pip install torch1.13.0cu117 torchvision0.14.0cu117 torchaudio0.13.0 --extra-index-url https://download.pytorch.org/whl/cu117 pip install transformers4.30.2 pip install faiss-cpu模型转换这里作者使用onnx进行部署因此需要将cn-clip转成onnx模型转换方法参考以下链接https://github.com/OFA-Sys/Chinese-CLIP/blob/master/cn_clip/deploy/pytorch_to_onnx.pyhttps://github.com/OFA-Sys/Chinese-CLIP/blob/master/cn_clip/deploy/pytorch_to_onnx.py实现数据入库这里作者的标准文件是一个std.json文件各自的读取方式可能不同需要修改from transformers import AutoTokenizer import torch import onnxruntime import numpy as np import json import faiss def load_standard_points(json_file_path): 读取 standard_points JSON 文件 Args: json_file_path: JSON 文件路径 Returns: dict: 键为 name值为 displayName 的字典 with open(json_file_path, r, encodingutf-8) as f: data json.load(f) names [] display_names [] display_type_names[] for point in data.get(standard_points, []): name point.get(name) display_name point.get(displayName) display_type_name point.get(deviceTypeId) names.append(name) display_names.append(display_name) display_type_names.append(display_type_name) return names,display_names,display_type_names def text_encode(model_name,text,device): tokenizer AutoTokenizer.from_pretrained(model_name) # 设置固定长度为52,padding到最大长度,截断超过部分 inputs tokenizer( text, return_tensorspt, paddingmax_length, max_length52, truncationTrue ).to(device) return inputs def create_faiss_index(embeddings, std_names,std_displaynames,std_displaytypenames , output_path): dimension len(embeddings[0]) index faiss.IndexFlatIP(dimension) index faiss.IndexIDMap(index) vectors np.array(embeddings).astype(np.float32) # Add vectors to the index with IDs index.add_with_ids(vectors, np.array(range(len(embeddings)))) # Save the index faiss.write_index(index, output_path) print(fIndex created and saved to {output_path}) # Save image paths with open(output_path .names, w) as f: for std_name in std_names: f.write(std_name \n) with open(output_path .displaynames, w) as f: for std_displayname in std_displaynames: f.write(std_displayname \n) with open(output_path .displaytypenames, w) as f: for std_displaytypename in std_displaytypenames: f.write(std_displaytypename \n) return index if __name__ __main__: model_name OFA-Sys/chinese-clip-vit-base-patch16 model_path /home/workspace/rag/output.txt.fp32.onnx json_path r/home/workspace/rag/standard_points_202604291727.json output_path r/home/workspace/rag/database_stdpts/stdpts_name.index std_names,std_displaynames,std_displaytypenames load_standard_points(json_path) if (len(std_names)!len(std_displaynames) or len(std_displaynames)!len(std_displaytypenames)): print(std_names and std_displaynames length not equal) exit() embeddings [] i 1 length len(std_names) session onnxruntime.InferenceSession(model_path) text_model_inputs session.get_inputs()[0].name text_model_outputs session.get_outputs()[0].name for name, display_name, display_type_name in zip(std_names, std_displaynames, std_displaytypenames): print(i, /, length) inputs text_encode(model_name,display_name,torch.device(cpu)) text np.array(inputs[input_ids]) tensor session.run([text_model_outputs], {text_model_inputs: text})[0] tensor np.squeeze(tensor) tensor tensor / np.linalg.norm(tensor) embeddings.append(tensor) i i 1 index create_faiss_index(embeddings, std_names, std_displaynames,std_displaytypenames,output_path)数据查询from transformers import AutoTokenizer import torch import onnxruntime import numpy as np import faiss def text_encode(model_name,text,device): tokenizer AutoTokenizer.from_pretrained(model_name) # 设置固定长度为52,padding到最大长度,截断超过部分 inputs tokenizer( text, return_tensorspt, paddingmax_length, max_length52, truncationTrue ).to(device) return inputs def load_faiss_index(index_path): index faiss.read_index(index_path) with open(index_path .names, r) as f: names [line.strip() for line in f] with open(index_path .displaynames, r) as f: display_names [line.strip() for line in f] with open(index_path .displaytypenames, r) as f: display_typenames [line.strip() for line in f] return index, names, display_names, display_typenames if __name__ __main__: model_name OFA-Sys/chinese-clip-vit-base-patch16 model_path /home/workspace/rag/output.txt.fp32.onnx index_path r/home/workspace/rag/database_stdpts/stdpts_name.index need_search_text 运行状态 topk15 session onnxruntime.InferenceSession(model_path) text_model_inputs session.get_inputs()[0].name text_model_outputs session.get_outputs()[0].name inputs text_encode(model_name, need_search_text, torch.device(cpu)) text np.array(inputs[input_ids]) tensor session.run([text_model_outputs], {text_model_inputs: text})[0] tensor tensor / np.linalg.norm(tensor) index, names, display_names , display_typenames load_faiss_index(index_path) distances, indices index.search(tensor, topk) for i in range(topk): print(names[indices[0][i]], display_names[indices[0][i]],display_typenames[indices[0][i]],distances[0][i])

3分钟突破：一站式实现Warframe游戏内自动音乐演奏的革命性工具

3分钟突破：一站式实现Warframe游戏内自动音乐演奏的革命性工具【免费下载链接】ShawzinBot Convert a MIDI input to a series of key presses for the Shawzin 项目地址: https://gitcode.com/gh_mirrors/sh/ShawzinBot 想要在Warframe游戏中轻松演奏专业级…

2026/6/3 17:46:00 阅读更多

jsdiff：终极文本差异比对JavaScript库的完整技术解析

jsdiff：终极文本差异比对JavaScript库的完整技术解析【免费下载链接】jsdiff A javascript text differencing implementation. 项目地址: https://gitcode.com/gh_mirrors/js/jsdiff jsdiff是一款基于Myers O(ND)算法的JavaScript文本差异比对实现库&#…

2026/6/3 17:46:00 阅读更多

为什么你的ChatGPT砍价总失败？5个被99%人忽略的语义锚点与价格博弈规则（含谈判意图识别矩阵）

更多请点击： https://codechina.net 第一章：AI工具与智能砍价整合在现代电商与B2B采购场景中，价格谈判正从经验驱动转向数据与算法协同驱动。AI工具不再仅作为信息检索或话术生成的辅助模块，而是深度嵌入议价全流程——从实时比…

2026/6/3 17:45:39 阅读更多

出海物联网设备全球网络准入架构：基于Python的自动APN适配与链路保活实战

摘要：随着物联网设备在全球市场的大规模交付，现场实施阶段底层运营商网络的复杂性常常导致传统的固定参数拨号模式陷入死联状态。本文从底层硬件与网络架构师的视角出发，深度拆解符合高可用工业规范的云边解耦架构。探讨如何在网络边界部署高…

2026/6/4 0:18:26 阅读更多

降AIGC黑科技揭秘！AI率92%暴降至5%！实测10款降AIGC平台!免费额度狂薅攻略

2026 年各大高校和期刊平台的 AI 检测系统又升级了，知网 AIGC、维普 AI、万方智能检测三大平台的算法迭代速度越来越快，上个月能蒙混过关的改写方式，这个月直接就会被标红预警。单纯的同义词替换、语序调整早就不管用了，想要有效降…

2026/6/4 0:18:26 阅读更多

Windows 11终极优化指南：用Win11Debloat一键清理系统，提升51%性能

Windows 11终极优化指南：用Win11Debloat一键清理系统，提升51%性能【免费下载链接】Win11Debloat A simple, lightweight PowerShell script that allows you to remove pre-installed apps, disable telemetry, as well as perform various other chang…

2026/6/4 0:18:26 阅读更多

HBase与Hadoop：基于什么开发？深度剖析与架构图

引言在大数据技术栈中，HBase 和 Hadoop 是两个紧密相关且至关重要的组件。许多开发者常常困惑于它们之间的关系：HBase 是基于什么开发的？它与 Hadoop 的核心组件有何联系？本文将深入剖析 HBase 的底层架构，揭示其与 H…

2026/6/4 0:17:45 阅读更多

应用启动和关闭监听器功能分析

一、功能概述 ApplicationStartAndStopListener 是一个 Spring Boot 应用启动和关闭监听器，用于记录系统的启动和关闭时间到数据库，并实现优雅停机机制。二、使用背景在系统运行过程中，需要记录系统的启动和关闭时间，以便进行…

2026/6/4 0:16:24 阅读更多

深入解析jsdiff：JavaScript文本差异比对的终极解决方案

深入解析jsdiff：JavaScript文本差异比对的终极解决方案【免费下载链接】jsdiff A javascript text differencing implementation. 项目地址: https://gitcode.com/gh_mirrors/js/jsdiff 在软件开发的世界中，文本差异比对是一个看似简单却极其重要…

2026/6/4 0:15:23 阅读更多

告别激活烦恼：IAR Embedded Workbench 许可证管理的最佳实践与合法替代方案探讨

IAR Embedded Workbench 许可证管理全指南与合规开发方案在嵌入式开发领域，IAR Embedded Workbench 以其高效的编译器和强大的调试功能著称，成为众多工程师的首选工具。然而，随着团队规模扩大和项目复杂度提升，许可证管理问题逐渐…

2026/6/4 0:03:11 阅读更多

赤铁矿磨矿过程运行优化控制软件系统【附程序】

✨ 长期致力于赤铁矿磨矿过程、磨矿粒度、数据驱动、运行优化控制、神经网络、案例推理、规则推理、软件系统研究工作，擅长数据搜集与处理、建模仿真、程序编写、仿真设计。 ✅ 专业定制毕设、代码 ✅ 如需沟通交流，点击《获取方式》 （1&…

2026/6/4 0:03:32 阅读更多

终极指南：如何使用Attu轻松管理你的Milvus向量数据库

终极指南：如何使用Attu轻松管理你的Milvus向量数据库【免费下载链接】attu The Best GUI for Milvus 项目地址: https://gitcode.com/gh_mirrors/at/attu Attu是一款专为Milvus向量数据库设计的现代化AI工作台管理工具，提供全面的可视化界面&…

2026/6/4 0:04:12 阅读更多

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

Realtek 8188GU网卡驱动故障深度修复指南：从原理到实战当设备管理器里那个顽固的黄色感叹号挥之不去，而你已经尝试了所有"标准操作"——Windows自动更新、第三方驱动工具、甚至重启大法——却依然无济于事时，是时候换个思路了。这篇…

2026/6/3 4:17:19 阅读更多

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

AnolisOS 8.8安装源配置实战指南：从诊断到解决方案的全流程解析当你在安装AnolisOS 8.8时遇到"设置基础软件仓库时出错"的提示，这通常意味着系统无法访问或识别安装源。这个问题看似简单，但背后可能涉及网络配置、镜像选择、启动参…

2026/6/3 4:17:20 阅读更多

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

1. 项目概述与核心思路最近在整理工作室的电子元件，翻出来几个闲置的街机按钮和一块树莓派Pico，灵机一动，决定做个简单又有趣的反应速度测试游戏。这个项目非常适合想入门嵌入式开发的朋友，它不涉及复杂的传感器和通信协议&#x…

2026/6/3 4:17:20 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/3 5:40:28 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/3 4:17:20 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/3 4:17:19 阅读更多

相关文章

3分钟突破：一站式实现Warframe游戏内自动音乐演奏的革命性工具

jsdiff：终极文本差异比对JavaScript库的完整技术解析

为什么你的ChatGPT砍价总失败？5个被99%人忽略的语义锚点与价格博弈规则（含谈判意图识别矩阵）

出海物联网设备全球网络准入架构：基于Python的自动APN适配与链路保活实战

降AIGC黑科技揭秘！AI率92%暴降至5%！实测10款降AIGC平台!免费额度狂薅攻略

Windows 11终极优化指南：用Win11Debloat一键清理系统，提升51%性能

HBase与Hadoop：基于什么开发？深度剖析与架构图

应用启动和关闭监听器功能分析

深入解析jsdiff：JavaScript文本差异比对的终极解决方案

告别激活烦恼：IAR Embedded Workbench 许可证管理的最佳实践与合法替代方案探讨

赤铁矿磨矿过程运行优化控制软件系统【附程序】

终极指南：如何使用Attu轻松管理你的Milvus向量数据库

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因