手势控制项目

发布时间：2026/7/2 10:53:23

那我们现在就按手势控制项目来提供完整实现方案。该项目的核心是通过摄像头识别手部关键点对手势握拳、OK、比心、伸大拇指等进行分类将分类结果映射为键盘事件实现翻页PPT、控制音量、音乐播放等操作。要求必须包含前端数据集来自Kaggle。一、整体技术路线模块技术选择说明手部关键点提取MediaPipe Hands轻量、实时提供21个手部关键点坐标手势分类轻量级神经网络MLP或随机森林基于关键点相对位置或角度特征分类后端服务Flask接收前端图片返回手势类别并触发键盘事件前端界面HTML JavaScript 摄像头调用摄像头每帧发送给后端显示识别结果键盘事件模拟pyautogui / keyboard库在本地执行按键操作音量、PPT翻页等数据集Kaggle手势数据集如 LeapGestRecog 或自制补充用于训练分类器二、数据集准备来自Kaggle推荐使用LeapGestRecog数据集Kaggle链接Checking your browser - reCAPTCHA它包含10种手势包括握拳、OK、比心、大拇指等共约20,000张灰度图。也可以使用Hand Gesture Recognition DatasetChecking your browser - reCAPTCHA等。下载后我们需要提取每张图片的手部关键点用MediaPipe预处理然后保存关键点特征和标签用于训练分类器。如果不想重新训练也可以直接用MediaPipe提供的姿势分类示例但为了满足“小模型”要求我们依然训练一个简单的MLP。三、项目文件结构textgesture_control/ ├── backend/ │ ├── app.py # Flask主程序 │ ├── gesture_classifier.py # 手势分类模型加载与预测 │ ├── keypoint_extractor.py # MediaPipe提取关键点 │ ├── train_model.py # 训练分类器用Kaggle数据 │ ├── gesture_model.pkl # 训练好的分类器如RandomForest或MLP │ ├── requirements.txt │ └── templates/ │ └── index.html # 前端页面也可放在frontend/ ├── frontend/ # 若前后分离这里为简洁直接用templates │ └── static/ │ ├── style.css │ └── script.js └── data/ # 存放Kaggle数据集或预处理后的特征四、数据集预处理与模型训练4.1 提取关键点特征keypoint_extractor.pypythonimport cv2 import mediapipe as mp import numpy as np import os mp_hands mp.solutions.hands hands mp_hands.Hands(static_image_modeTrue, max_num_hands1, min_detection_confidence0.5) def extract_hand_landmarks(image_path): 从图片中提取21个关键点的归一化坐标x, y共42维 img cv2.imread(image_path) rgb cv2.cvtColor(img, cv2.COLOR_BGR2RGB) results hands.process(rgb) if not results.multi_hand_landmarks: return None landmarks results.multi_hand_landmarks[0] # 归一化相对于手腕0点的偏移或直接使用归一化坐标 features [] for lm in landmarks.landmark: features.extend([lm.x, lm.y]) # 共42维 return np.array(features) def process_dataset(data_folder, label_map): 遍历data_folder下的子文件夹每个子文件夹代表一类手势提取特征并保存为npy X, y [], [] for label_name, label_id in label_map.items(): folder os.path.join(data_folder, label_name) for file in os.listdir(folder): if file.endswith((.png, .jpg)): feat extract_hand_landmarks(os.path.join(folder, file)) if feat is not None: X.append(feat) y.append(label_id) return np.array(X), np.array(y)4.2 训练分类器train_model.py假设我们只选择4种手势握拳(0)、OK(1)、比心(2)、大拇指(3)。我们可以用Kaggle数据集中的对应类别或者自己拍摄补充。训练一个简单的MLP多层感知机pythonimport numpy as np from sklearn.neural_network import MLPClassifier from sklearn.model_selection import train_test_split import joblib # 假设已经提取好X, y X, y ... # 从上面函数获得 X_train, X_test, y_train, y_test train_test_split(X, y, test_size0.2, random_state42) clf MLPClassifier(hidden_layer_sizes(64, 32), activationrelu, max_iter500, random_state42) clf.fit(X_train, y_train) print(测试准确率:, clf.score(X_test, y_test)) # 保存模型 joblib.dump(clf, gesture_model.pkl)也可以直接用随机森林更轻量pythonfrom sklearn.ensemble import RandomForestClassifier clf RandomForestClassifier(n_estimators50, max_depth10)五、后端 Flask 实现5.1 依赖文件requirements.txttextflask flask-cors mediapipe opencv-python numpy scikit-learn joblib pyautogui keyboard5.2 主程序app.pypythonfrom flask import Flask, request, jsonify, render_template import cv2 import numpy as np import base64 from gesture_classifier import predict_gesture import pyautogui import keyboard import threading import time app Flask(__name__) # 手势到键盘操作的映射 GESTURE_ACTION { 0: volume_down, # 握拳 - 降低音量 1: volume_up, # OK - 增加音量 2: next_track, # 比心 - 下一首 3: play_pause, # 大拇指 - 播放/暂停 } # 定义执行动作的函数为避免阻塞使用线程 def perform_action(action): if action volume_down: pyautogui.press(volumedown) elif action volume_up: pyautogui.press(volumeup) elif action next_track: pyautogui.press(nexttrack) elif action play_pause: pyautogui.press(playpause) # 也可用于PPT翻页left/right app.route(/) def index(): return render_template(index.html) app.route(/predict, methods[POST]) def predict(): data request.get_json() image_data data[image].split(,)[1] # base64编码 img_bytes base64.b64decode(image_data) np_arr np.frombuffer(img_bytes, np.uint8) frame cv2.imdecode(np_arr, cv2.IMREAD_COLOR) # 调用识别函数 gesture_id, confidence predict_gesture(frame) # 如果置信度足够高执行动作 if confidence 0.7: action GESTURE_ACTION.get(gesture_id) if action: # 在单独线程中执行避免阻塞响应 threading.Thread(targetperform_action, args(action,)).start() # 返回结果给前端用于显示 gesture_names [握拳, OK, 比心, 大拇指] return jsonify({ gesture: gesture_names[gesture_id] if gesture_id is not None else unknown, confidence: confidence, action: action if confidence 0.7 else None }) if __name__ __main__: app.run(debugTrue, host0.0.0.0, port5000)5.3 分类器加载gesture_classifier.pypythonimport cv2 import mediapipe as mp import numpy as np import joblib mp_hands mp.solutions.hands hands mp_hands.Hands(static_image_modeFalse, max_num_hands1, min_detection_confidence0.5) model joblib.load(gesture_model.pkl) def extract_features_from_frame(frame): rgb cv2.cvtColor(frame, cv2.COLOR_BGR2RGB) results hands.process(rgb) if not results.multi_hand_landmarks: return None landmarks results.multi_hand_landmarks[0] features [] for lm in landmarks.landmark: features.extend([lm.x, lm.y]) return np.array(features).reshape(1, -1) def predict_gesture(frame): feat extract_features_from_frame(frame) if feat is None: return None, 0.0 proba model.predict_proba(feat)[0] gesture_id np.argmax(proba) confidence proba[gesture_id] return gesture_id, confidence六、前端页面templates/index.html直接使用HTMLJS调用摄像头每帧截图发送给后端。html!DOCTYPE html html head meta charsetUTF-8 title手势控制/title style body { font-family: Arial, sans-serif; text-align: center; background: #f0f2f5; } video { width: 640px; height: 480px; border: 2px solid #333; border-radius: 10px; } #result { font-size: 24px; margin-top: 20px; } .action { color: green; } /style /head body h1✋ 手势控制系统/h1 video idvideo autoplay playsinline/video div idresult识别结果span idgesture等待.../span/div div idaction执行操作span idactionText无/span/div script const video document.getElementById(video); const gestureSpan document.getElementById(gesture); const actionSpan document.getElementById(actionText); // 获取摄像头 navigator.mediaDevices.getUserMedia({ video: true }) .then(stream { video.srcObject stream; }) .catch(err alert(无法访问摄像头)); // 每隔200ms发送一帧 setInterval(() { const canvas document.createElement(canvas); canvas.width video.videoWidth; canvas.height video.videoHeight; const ctx canvas.getContext(2d); ctx.drawImage(video, 0, 0); const imageBase64 canvas.toDataURL(image/jpeg); fetch(/predict, { method: POST, headers: { Content-Type: application/json }, body: JSON.stringify({ image: imageBase64 }) }) .then(res res.json()) .then(data { if (data.gesture ! unknown) { gestureSpan.textContent data.gesture; if (data.action) { actionSpan.textContent data.action; actionSpan.style.color green; } else { actionSpan.textContent 无; actionSpan.style.color gray; } } }) .catch(err console.error(err)); }, 200); /script /body /html七、运行与测试训练模型先运行train_model.py需提前下载Kaggle数据集并解压到data/目录生成gesture_model.pkl。安装依赖pip install -r requirements.txt启动后端python app.py浏览器访问http://localhost:5000允许摄像头权限即可实时识别。当识别到手势且置信度0.7时会自动模拟键盘按键音量、播放等。八、PPT翻页与更多操作除了音量、音乐控制你还可以映射为左右方向键用于PPT翻页或上下键滚动。修改GESTURE_ACTION字典即可例如pythonGESTURE_ACTION { 0: left, # 握拳 - 左翻页 1: right, # OK - 右翻页 2: up, # 比心 - 上翻 3: down, # 大拇指 - 下翻 }然后执行pyautogui.press(action)。

手作艾条——从田间到指尖的自然疗愈之旅

如果你曾被“春天播种、夏天生长、秋天收获、冬天储藏”的自然节律所触动，那么今天，我想邀请你走进另一场与土地对话的旅程——制作一根手工艾条。它不是机器压制的速成品，而是遵循古法、顺应天时的手作之物。从端午前后采摘艾草，…

2026/7/2 10:52:22 阅读更多

Sunshine游戏串流主机：打造你的跨平台游戏云终极指南

Sunshine游戏串流主机：打造你的跨平台游戏云终极指南【免费下载链接】Sunshine Self-hosted game stream host for Moonlight. 项目地址: https://gitcode.com/GitHub_Trending/su/Sunshine 你是否曾经幻想过在客厅电视上畅玩书房电脑里的3A大作&#xff0c…

2026/7/2 10:52:02 阅读更多

2026年企业数字人软件采购避坑最新指南：3个ROI评估核心要点解析

一、摘要：采购数字人软件，算不清ROI就是在浪费预算企业采购企业数字人软件，最怕的不是价格高，而是买了之后算不清到底值不值。2026年市场数据显示，国内企业AI获客工具使用率已提升至68.5%。但与此同时，大量…

2026/7/2 10:51:41 阅读更多

告别熬夜改稿难题，paperxie 学术智能写作一站式搞定全类型毕业论文

paperxie-免费查重复率aigc检测/开题报告/毕业论文/智能排版/文献综述/科研绘图毕业论文 - PaperXie智能写作PaperXieAi论文智能生成软件，10分钟生成万字毕业论文、期刊论文、文献综述、PPT，Aigc查重、降重报告、文献资料。只需一个标题，从开…

2026/7/2 12:17:02 阅读更多

深度测评 Gemini 3.5：它能帮我们解决哪些实际工作痛点？核心参数与场景选型攻略

随着大模型在多模态与长上下文领域的快速迭代，谷歌最新推出的 Gemini 3.5 凭借其独特的架构设计，正成为处理超长文档与复杂视频解析的不二之选。为了方便多模型对比并规避多账号绑定的繁琐，许多工程师倾向于通过 AI模型聚合平台（y…

2026/7/2 12:17:02 阅读更多

从Notebook到生产环境：机器学习模型落地的四大支柱与实战调优

1. 项目概述：这不是一次“部署上线”，而是一场从实验室到产线的系统性迁移“From Notebook to Production: Running ML in the Real World (Part 4)”——这个标题里藏着一个被太多人轻描淡写、却让无数团队在临门一脚时彻底卡死的真实困境。它不是讲“怎…

2026/7/2 12:16:42 阅读更多

160+命令加持：OneMore插件如何重塑你的OneNote生产力体验

160命令加持：OneMore插件如何重塑你的OneNote生产力体验【免费下载链接】OneMore A OneNote add-in with simple, yet powerful and useful features 项目地址: https://gitcode.com/gh_mirrors/on/OneMore 你是否曾经在OneNote中花费大量时间调整格式&…

2026/7/2 12:16:21 阅读更多

Java开发必备工具链：从IDE到持续集成

你还在用记事本写Java？别闹了，工具链决定你的天花板我见过太多Java开发者，工作三五年，依然把自己困在“能跑就行”的舒适区里。他们用Eclipse的老旧版本、手动打包、在服务器上敲kill -9重启应用，甚至把生产环境的Syst…

2026/7/2 12:16:01 阅读更多

番茄小说下载器：构建个人数字图书馆的一站式解决方案

番茄小说下载器：构建个人数字图书馆的一站式解决方案【免费下载链接】Tomato-Novel-Downloader 番茄小说下载器不精简版项目地址: https://gitcode.com/gh_mirrors/to/Tomato-Novel-Downloader 还在为网络小说资源分散、广告干扰、无法离线阅读而烦恼吗&am…

2026/7/2 12:15:40 阅读更多

Selenium元素定位全解析：从八大方法到实战策略

1. 项目概述：从“找东西”到“精准操控” 做自动化测试，尤其是Web UI自动化，最核心也最让人头疼的一步是什么？不是写复杂的业务逻辑，也不是处理异步加载，而是最基础的—— 让程序找到页面上那个你想操作的…

2026/7/2 0:00:12 阅读更多

移动端UI自动化测试框架Maestro终极指南：从入门到实战

1. 项目概述：为什么是Maestro？ 如果你正在寻找一个能让你快速上手、告别繁琐配置、并且对移动端UI自动化测试真正友好的框架，那么Maestro很可能就是你一直在等的那个答案。我接触过Appium、Espresso、XCUITest，也折腾过各种基于图…

2026/7/2 0:00:12 阅读更多

BurpSuite Cluster Bomb模式深度避坑指南：从原理到实战的完整爆破策略

1. 项目概述：从“能用”到“精通”的必经之路如果你正在学习或从事网络安全测试，尤其是Web应用安全评估，那么BurpSuite的Intruder模块绝对是你绕不开的核心工具。而Intruder模块里，功能最强大、也最让人又爱又恨的，莫过…

2026/7/2 0:00:33 阅读更多

AI Coding 六个月真实ROI账本：产品经理的血泪教训，研发的冷静忠告

6个月前的2025年12月，Boris Cherny 公开宣布自己卸载了 IDE。一时间，Vibe Coding 成了全行业最热的话题。6个月后，当我们回过头来拉一份真实账本，发现事情远没有"一句话生成一个App"那么浪漫。本文从产品经理和研发两个…

2026/7/2 0:09:58 阅读更多

华为OD机试2025C卷-字符统计及重排[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

📫 个人主页：深夜coding算法 📣 专栏系列：2026年华为最新OD机试题库详解 🔥 一次订阅，永久解锁 | 持续更新100篇 | 6语言全覆盖文章目录❄️前言：☀️一：题目描述🌙 题目…

2026/7/2 1:54:44 阅读更多

华为OD机试2025C卷-寻找相同子串[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

2026/7/2 1:54:44 阅读更多

FAE放射组学分析工具：医学影像特征探索的完整解决方案

FAE放射组学分析工具：医学影像特征探索的完整解决方案【免费下载链接】FAE FeAture Explorer 项目地址: https://gitcode.com/gh_mirrors/fae/FAE 你是否曾经面对海量医学影像数据感到无从下手？想要从CT、MRI等影像中提取有价值的定量特征&#…

2026/7/2 0:02:27 阅读更多

0.69B参数实现中文多模态AI：揭秘Qwen3-SmVL模型融合技术的完整实战指南

0.69B参数实现中文多模态AI：揭秘Qwen3-SmVL模型融合技术的完整实战指南【免费下载链接】happy-llm 📚 从零开始构建大模型项目地址: https://gitcode.com/GitHub_Trending/ha/happy-llm 还在为大型多模态模型动辄数十亿参数、显存占用高而烦恼&…

2026/7/2 0:10:02 阅读更多

解锁AMD Ryzen处理器性能潜力的SMU调试神器：从新手到专家的完整指南

解锁AMD Ryzen处理器性能潜力的SMU调试神器：从新手到专家的完整指南【免费下载链接】SMUDebugTool A dedicated tool to help write/read various parameters of Ryzen-based systems, such as manual overclock, SMU, PCI, CPUID, MSR and Power Table. 项目地址…