我的第一个AI应用：用Streamlit+Ollama本地跑Llama 3，5分钟搞定私人聊天助手

发布时间：2026/6/2 8:23:35

5分钟打造你的私人AI聊天助手基于Streamlit与Ollama的Llama 3本地化实践在数据隐私日益受到重视的今天完全在本地运行的大型语言模型(LLM)应用正成为技术爱好者和开发者的新宠。想象一下无需依赖任何云服务API不产生任何调用费用你的电脑就能变身智能助手处理各种文本任务——这正是本地化LLM应用的魅力所在。本文将带你使用当下最热门的工具组合轻量级Web框架Streamlit和本地LLM运行环境Ollama配合Meta最新开源的Llama 3模型构建一个真正私密、可完全定制的聊天应用。1. 环境准备与工具链解析在开始编码前我们需要理解这个技术栈的核心组件及其协作方式。Ollama作为本地LLM运行环境能够以极简的方式下载和管理各种开源模型Streamlit则让我们用纯Python快速构建交互式Web界面而Llama 3作为Meta最新发布的开源模型在多项基准测试中表现优异。1.1 硬件与基础软件要求虽然Llama 3有不同规模的版本但即使是70亿参数的小模型也需要一定的硬件支持组件最低要求推荐配置内存16GB RAM32GB RAM及以上显卡支持CUDA的NVIDIA显卡(6GB显存)RTX 3060(12GB)及以上存储20GB可用空间SSD硬盘系统Windows 10/11或LinuxLinux(Docker支持更佳)安装基础工具链# 安装Python(推荐3.10版本) sudo apt update sudo apt install python3.10 python3-pip # 验证安装 python3 --version pip --version1.2 核心组件安装Ollama的安装过程极为简单根据操作系统不同选择对应方式# Linux/macOS一键安装 curl -fsSL https://ollama.com/install.sh | sh # Windows可通过Winget安装 winget install ollama.ollama安装完成后启动Ollama服务并下载Llama 3模型# 启动服务(不同系统命令可能略有差异) ollama serve # 下载7B参数模型(约4.7GB) ollama pull llama3:7b # 也可选择更大规模的13B参数模型 ollama pull llama3:13b同时安装Streamlit库pip install streamlit提示首次运行Ollama时会自动创建模型存储目录Linux/macOS通常在~/.ollamaWindows在C:\Users\用户名\.ollama2. Streamlit前端界面开发Streamlit的魅力在于其极简的API设计让我们无需前端知识就能构建功能完善的Web应用。我们将创建一个单页聊天应用包含消息历史显示区和用户输入区。2.1 基础界面搭建创建一个名为app.py的文件开始构建我们的应用骨架import streamlit as st # 设置页面配置 st.set_page_config( page_titleLlama 3私人助手, page_icon, layoutwide ) # 初始化聊天历史 if messages not in st.session_state: st.session_state.messages [] st.session_state.messages.append({ role: assistant, content: 你好我是运行在你本地的Llama 3助手有什么可以帮你的 }) # 显示历史消息 for message in st.session_state.messages: with st.chat_message(message[role]): st.markdown(message[content]) # 用户输入区域 if prompt : st.chat_input(在这里输入你的问题...): with st.chat_message(user): st.markdown(prompt) st.session_state.messages.append({role: user, content: prompt})这段代码已经实现了一个基本的聊天界面包含页面标题和图标设置会话状态初始化消息历史显示用户输入处理2.2 界面美化与功能增强为了让应用更具吸引力我们可以添加一些UI改进# 在set_page_config后添加CSS自定义 st.markdown( style .stChatInput { position: fixed; bottom: 2rem; width: 80%; left: 10%; } .stChatMessage { border-radius: 15px; padding: 0.8rem; margin: 0.5rem 0; } [data-testidstAppViewContainer] { background: linear-gradient(135deg, #f5f7fa 0%, #c3cfe2 100%); } /style , unsafe_allow_htmlTrue) # 添加侧边栏信息 with st.sidebar: st.title(️ 控制面板) st.markdown( - **模型**: Llama 3 7B - **运行方式**: 本地Ollama服务 - **隐私**: 100%离线运行 ) if st.button(清空对话历史): st.session_state.messages [ {role: assistant, content: 对话已重置有什么新问题吗} ] st.rerun()这些改进包括自定义聊天输入框位置美化消息气泡样式添加渐变背景实用的侧边栏控制面板对话重置功能3. 集成Ollama的Llama 3模型现在到了最核心的部分——将前端界面与本地运行的Llama 3模型连接起来。我们将使用Ollama提供的Python库进行集成。3.1 安装Ollama Python客户端首先安装必要的Python依赖pip install ollama requests3.2 实现模型调用逻辑在app.py中添加模型交互代码import ollama from typing import Generator import asyncio def generate_response(prompt: str, message_history: list) - Generator[str, None, None]: 流式生成模型响应 response ollama.chat( modelllama3:7b, messages[*message_history, {role: user, content: prompt}], streamTrue ) for chunk in response: yield chunk[message][content] # 修改用户输入处理部分 if prompt : st.chat_input(在这里输入你的问题...): # 显示用户消息 with st.chat_message(user): st.markdown(prompt) st.session_state.messages.append({role: user, content: prompt}) # 准备助手响应区域 with st.chat_message(assistant): message_placeholder st.empty() full_response # 流式获取模型响应 for chunk in generate_response(prompt, st.session_state.messages): full_response chunk message_placeholder.markdown(full_response ▌) message_placeholder.markdown(full_response) st.session_state.messages.append({role: assistant, content: full_response})这段代码实现了通过Ollama Python客户端调用本地Llama 3模型流式响应处理模拟真实聊天体验完整的对话历史管理3.3 高级参数调优Llama 3模型支持多种参数调整以获得更好的响应质量response ollama.chat( modelllama3:7b, messages[*message_history, {role: user, content: prompt}], streamTrue, options{ temperature: 0.7, # 控制创造性(0-1) top_p: 0.9, # 核采样概率 num_ctx: 2048, # 上下文窗口大小 } )常见参数说明参数范围作用推荐值temperature0-1值越高输出越随机0.5-0.8top_p0-1控制候选词采样范围0.7-0.95num_ctx数值模型记忆的token数量根据硬件调整4. 部署与性能优化完成开发后我们需要考虑如何高效运行这个应用特别是在资源有限的设备上。4.1 启动与运行启动应用需要两个终端窗口# 第一个终端启动Ollama服务 ollama serve # 第二个终端启动Streamlit应用 streamlit run app.py4.2 性能优化技巧于资源受限的环境可以考虑以下优化方案量化模型# 下载4-bit量化版本的7B模型(大小约3.8GB) ollama pull llama3:7b-instruct-q4_0调整并行度# 设置OLLAMA_NUM_PARALLEL环境变量控制并行请求数 OLLAMA_NUM_PARALLEL2 ollama serve硬件加速配置# 对于NVIDIA显卡确保CUDA正确配置 nvidia-smi # 验证GPU状态 # 指定Ollama使用GPU OLLAMA_NO_CUDA0 ollama serve4.3 容器化部署可选使用Docker可以简化环境配置# Dockerfile FROM python:3.10-slim RUN apt update apt install -y curl RUN curl -fsSL https://ollama.com/install.sh | sh WORKDIR /app COPY . . RUN pip install streamlit ollama EXPOSE 8501 CMD [sh, -c, ollama serve streamlit run app.py]构建并运行容器docker build -t llama3-assistant . docker run -p 8501:8501 --gpus all llama3-assistant5. 功能扩展与实用技巧基础聊天功能实现后我们可以考虑添加更多实用功能让助手变得更加强大。5.1 多模态支持Ollama支持多模态模型我们可以扩展应用以处理图像输入# 安装额外依赖 pip install pillow # 修改输入处理 uploaded_file st.file_uploader(上传图片, type[png, jpg, jpeg]) if uploaded_file is not None: bytes_data uploaded_file.getvalue() st.image(bytes_data, caption上传的图片, use_column_widthTrue) prompt f\n[图片已上传{uploaded_file.name}] # 使用支持多模态的模型 ollama.pull(llava:7b) response ollama.chat(modelllava:7b, ...)5.2 对话持久化添加本地存储功能保存对话历史import json import os # 保存对话 def save_chat_history(user_iddefault): os.makedirs(chat_histories, exist_okTrue) with open(fchat_histories/{user_id}.json, w) as f: json.dump(st.session_state.messages, f) # 加载对话 def load_chat_history(user_iddefault): try: with open(fchat_histories/{user_id}.json, r) as f: st.session_state.messages json.load(f) except FileNotFoundError: st.session_state.messages [] # 在适当位置调用这些函数5.3 高级功能集成实现一些增强用户体验的功能# 添加停止生成按钮 if st.session_state.get(generating, False): if st.button(停止生成): st.session_state.generating False st.rerun() # 修改生成逻辑 st.session_state.generating True try: for chunk in generate_response(...): if not st.session_state.generating: break # ...原有处理逻辑... finally: st.session_state.generating False # 添加重新生成最后回答功能 if st.session_state.messages and st.session_state.messages[-1][role] assistant: if st.button(重新生成最后回答): last_user_msg next( msg for msg in reversed(st.session_state.messages) if msg[role] user ) st.session_state.messages [ msg for msg in st.session_state.messages if msg ! st.session_state.messages[-1] ] prompt last_user_msg[content] st.rerun()在实际使用中我发现Llama 3 7B模型在16GB内存的笔记本上运行相当流畅特别是使用量化版本后。对于更复杂的任务可以考虑升级到13B参数版本但需要相应更强的硬件支持。一个实用的小技巧是在长时间对话后偶尔重启Ollama服务这能有效释放积累的内存占用。

当ABAP Web Service遇上Postman：手把手教你调试与测试SAP接口（解决NIECONN_REFUSED错误）

ABAP Web Service与Postman深度调试指南：从NIECONN_REFUSED到完美调通在企业级系统集成中，ABAP Web Service作为SAP与外部系统通信的核心组件，其调试过程往往充满挑战。特别是当开发者面对"NIECONN_REFUSED"这类网络层错误时&#…

2026/6/2 8:23:15 阅读更多

从802.1p到DSCP：一张图看懂华为交换机优先级映射，解决跨网段业务卡顿

华为交换机QoS优先级映射实战：解决跨网段业务卡顿的终极指南在网络工程师的日常运维中，业务跨网段后服务质量下降是个令人头疼的问题。想象一下，视频会议卡顿、语音通话断续，这些都可能源于优先级映射不当。本文将带您深入华为交换…

2026/6/2 8:21:14 阅读更多

竞争定价智能：从数据采集到AI决策的完整实战指南

1. 从“自我感觉良好”到“市场真相”：为什么你的好生意可能只是幻觉每年利润报表看起来都挺漂亮，客户满意度调查也一片祥和，你可能会觉得自己的公司正行驶在一条稳健增长的轨道上。假设你每年能稳定赚取X百万的利润，这感觉确实不…

2026/6/2 8:20:13 阅读更多

华为OD机试真题精讲：求满足条件的最长子串的长度（Python/Java/C++多语言实现）

华为OD机试真题精讲：求满足条件的最长子串的长度（Python/Java/C++多语言实现）一、题目描述（2025B卷高频100分题）字符串处理是算法面试的高频考点，本题要求实现满足特定条件的最长子串长度计算，规则如下：输入为：目标字符串s（仅包含大小写英文字母、数字，长度范…

2026/6/2 9:21:12 阅读更多

3个关键技术突破：用Python API实现剪映自动化视频处理

3个关键技术突破：用Python API实现剪映自动化视频处理【免费下载链接】JianYingApi Third Party JianYing Api. 第三方剪映Api 项目地址: https://gitcode.com/gh_mirrors/ji/JianYingApi 在视频内容创作爆发式增长的今天，自媒体团队、教育机构和…

2026/6/2 9:21:12 阅读更多

DevSecOps建设之自动化集成与部署 Jenkins教程和使用案例

我们公司的自动化部署和CI/CD系统都是在使用Jenkins来构建一些任务，而且我目前使用的最新的2.533版本都还比较稳定，没出过什么大问题，所以这个板块我将为你详细介绍广泛使用的持续集成与持续交付工具Jenkins。主要围绕如下内容来展开介绍Jenk…

2026/6/2 9:21:12 阅读更多

别再纠结n还是n-1了！用Python手把手教你算样本方差（附代码与自由度详解）

别再纠结n还是n-1了！用Python手把手教你算样本方差（附代码与自由度详解）第一次用Python计算方差时，你可能会被ddof参数搞得一头雾水。为什么numpy.var()默认用n-1作分母？手动计算时却用n？这个看似简单的数学…

2026/6/2 9:20:28 阅读更多

别再折腾虚拟机了！在Win10/Win11专业版上直接部署AD LDS轻量目录服务（保姆级图文）

在Windows专业版上零成本搭建AD LDS目录服务的完整指南当开发者需要测试LDAP协议或构建轻量级目录服务时，传统做法往往需要先配置Windows Server虚拟机——这不仅消耗大量系统资源，还需要繁琐的安装和授权流程。事实上，从Windows 10 1809版本…

2026/6/2 9:20:08 阅读更多

JianYingApi：如何用代码解放你的视频剪辑生产力？

JianYingApi：如何用代码解放你的视频剪辑生产力？ 【免费下载链接】JianYingApi Third Party JianYing Api. 第三方剪映Api 项目地址: https://gitcode.com/gh_mirrors/ji/JianYingApi 你是否曾为重复的视频剪辑工作感到疲惫？当需要为1…

2026/6/2 9:19:48 阅读更多

从 Prompt 到生产闭环：Spring AI Tool Calling 深度拆解与企业级落地

从 Prompt 到生产闭环：Spring AI Tool Calling 深度拆解与企业级落地摘要 Tool Calling 是大模型系统从“会回答”走向“会执行”的关键能力。很多文章只停留在 @Tool 注解和 Hello World 级别示例，但一旦进入生产环境，问题很快从“怎么调用”升级为“怎么控延迟、怎么控风…

2026/6/2 0:01:22 阅读更多

解耦安防碎片化：基于 Docker 与边缘计算的 AI 视频中台架构设计（支持 GB28181/RTSP 与源码交付）

在智能视频分析（IVA）与产业物联网（IoT）大行其道的今天，政企级安防项目的落地依然面临着严重的碎片化挑战。对于系统集成商和独立软件开发商（ISV）而言，传统的流媒体研发存在两大核心痛…

2026/6/2 0:03:04 阅读更多

解耦品牌壁垒：基于 Docker 与边缘计算的高并发视频中台架构（支持 GB28181/RTSP 统一接入与源码交付）

在泛安防与产业物联网（IoT）工程落地中，系统集成商与技术团队往往深陷于底层流媒体对接的碎片化泥潭。一方面，前端摄像机、IPC、NVR 品牌林立（如海康、大华、宇视等），其 GB28181 国标协议的信令交…

2026/6/2 0:03:04 阅读更多

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

Realtek 8188GU网卡驱动故障深度修复指南：从原理到实战当设备管理器里那个顽固的黄色感叹号挥之不去，而你已经尝试了所有"标准操作"——Windows自动更新、第三方驱动工具、甚至重启大法——却依然无济于事时，是时候换个思路了。这篇…

2026/6/2 3:04:55 阅读更多

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

AnolisOS 8.8安装源配置实战指南：从诊断到解决方案的全流程解析当你在安装AnolisOS 8.8时遇到"设置基础软件仓库时出错"的提示，这通常意味着系统无法访问或识别安装源。这个问题看似简单，但背后可能涉及网络配置、镜像选择、启动参…

2026/6/2 3:51:01 阅读更多

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

1. 项目概述与核心思路最近在整理工作室的电子元件，翻出来几个闲置的街机按钮和一块树莓派Pico，灵机一动，决定做个简单又有趣的反应速度测试游戏。这个项目非常适合想入门嵌入式开发的朋友，它不涉及复杂的传感器和通信协议&#x…

2026/6/2 1:12:03 阅读更多

Zotero Duplicates Merger：5步彻底清理文献库重复条目

Zotero Duplicates Merger：5步彻底清理文献库重复条目【免费下载链接】ZoteroDuplicatesMerger A zotero plugin to automatically merge duplicate items 项目地址: https://gitcode.com/gh_mirrors/zo/ZoteroDuplicatesMerger 还在为文献库中堆积如山的重…

2026/6/2 5:03:37 阅读更多

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

✅作者简介：热爱科研的Matlab仿真开发者，擅长数据处理、建模仿真、程序设计、完整代码获取、论文复现及科研仿真。🍎 往期回顾关注个人主页：Matlab科研工作室🍊个人信条：格物致知,完整Matlab代码及仿真咨询…

2026/6/2 0:27:25 阅读更多

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因

更多请点击： https://intelliparadigm.com 第一章：为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因 Gemini邮件的客户转化效率（CTE）显著偏低，根本原因常被误判为…

2026/6/2 2:18:01 阅读更多

相关文章

当ABAP Web Service遇上Postman：手把手教你调试与测试SAP接口（解决NIECONN_REFUSED错误）

从802.1p到DSCP：一张图看懂华为交换机优先级映射，解决跨网段业务卡顿

竞争定价智能：从数据采集到AI决策的完整实战指南

华为OD机试真题精讲：求满足条件的最长子串的长度（Python/Java/C++多语言实现）

3个关键技术突破：用Python API实现剪映自动化视频处理

DevSecOps建设之自动化集成与部署 Jenkins教程和使用案例

别再纠结n还是n-1了！用Python手把手教你算样本方差（附代码与自由度详解）

别再折腾虚拟机了！在Win10/Win11专业版上直接部署AD LDS轻量目录服务（保姆级图文）

JianYingApi：如何用代码解放你的视频剪辑生产力？

从 Prompt 到生产闭环：Spring AI Tool Calling 深度拆解与企业级落地

解耦安防碎片化：基于 Docker 与边缘计算的 AI 视频中台架构设计（支持 GB28181/RTSP 与源码交付）

解耦品牌壁垒：基于 Docker 与边缘计算的高并发视频中台架构（支持 GB28181/RTSP 统一接入与源码交付）

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

Zotero Duplicates Merger：5步彻底清理文献库重复条目

利用随机有限集理论对蜂群的ILQR和MPC控制研究附Matlab代码

为什么你的Gemini邮件CTE低于行业均值2.8倍？：从Prompt架构到发送时序的深度归因