Hy-MT1.5-1.8B-1.25bit-GGUF模型原理入门从基础架构到1.25bit量化的关键突破【免费下载链接】Hy-MT1.5-1.8B-1.25bit-GGUF项目地址: https://ai.gitcode.com/tencent_hunyuan/Hy-MT1.5-1.8B-1.25bit-GGUFHy-MT1.5-1.8B-1.25bit-GGUF是腾讯混元团队开发的高效翻译模型通过创新的1.25bit量化技术在保持翻译质量的同时实现极致压缩为移动设备离线翻译提供了强大支持。 为什么选择1.25bit量化模型压缩的革命性突破在AI模型部署中模型大小与性能往往难以兼顾。传统的FP16格式模型体积庞大而低比特量化如4bit、2bit虽然能显著减小体积却容易导致精度损失。Hy-MT1.5-1.8B-1.25bit-GGUF采用腾讯自研的Sherry量化算法实现了1.25bit这一极端压缩比将原始3.3GB的FP16模型压缩至仅440MB同时保持了接近原始模型的翻译质量。 Sherry算法1.25bit背后的技术原理Sherry算法的核心是3:4细粒度稀疏策略每4个模型权重中保留3个最重要的权重并以1bit{-1, 1}存储将剩余1个权重置零。这种设计使得4个权重仅需5bit存储实现了1.25bit的有效位宽同时通过SIMD指令集对齐确保硬件高效计算。️ 模型基础架构专为翻译优化的Hy-MT1.5-1.8BHy-MT1.5-1.8B-1.25bit的基础模型采用多阶段训练 pipeline包括MT导向预训练针对翻译任务优化的大规模预训练有监督微调结合高质量双语语料进行精细化调优策略蒸馏从更大模型中迁移知识强化学习通过反馈机制提升翻译流畅度和准确性该模型原生支持33种语言、5种方言/少数民族语言及1056个翻译方向在仅1.8B参数规模下性能超越了Tower-Plus-72B、Qwen3-32B等大模型及主流商业翻译API。 性能对比小体积与高质量的完美平衡在Flores-200汉外互译基准测试中Hy-MT1.5-1.8B-1.25bit展现出惊人的性能与FP16模型相比体积压缩7.5倍速度提升8倍在Snapdragon 888设备上可实现流畅的离线翻译体验翻译质量接近原始FP16模型在多数语言对上保持95%以上的性能 移动端部署STQ内核与离线翻译实践Hy-MT1.5-1.8B-1.25bit-GGUF依赖于llama.cpp的STQ内核PR #22836实现了移动端CPU的高效推理。用户可通过以下步骤体验1. 克隆llama.cpp仓库git clone https://github.com/ggml-org/llama.cpp.git2. 切换至STQ内核分支cd llama.cpp git fetch origin pull/22836/head:pr-22836-stq_0 git checkout pr-22836-stq_03. 编译llama.cppcmake -B build cmake --build build --config Release4. 下载模型文件pip install huggingface_hub huggingface-cli download AngelSlim/Hy-MT1.5-1.8B-1.25bit-GGUF \ --local-dir model_zoo/Hy-MT1.5-1.8B-1.25bit-GGUF5. 运行翻译示例./build/bin/llama-completion \ --model model_zoo/Hy-MT1.5-1.8B-1.25bit-GGUF/Hy-MT1.5-1.8B-1.25bit.gguf \ -p Translate the following segment into Chinese, without additional explanationHello \ --jinja \ -ngl 0 \ -n 64 -st 技术文档与资源模型权重Hy-MT1.5-1.8B-1.25bit技术报告HY-MT1.5 Technical ReportSherry Paper (ACL 2026)Android Demo可通过项目中的Hy-MT-demo.apk体验离线翻译功能 许可证信息本项目采用Tencent HY Community License Agreement详细使用条款请参见许可证文件。通过1.25bit量化技术的创新Hy-MT1.5-1.8B-1.25bit-GGUF为移动端AI翻译树立了新标杆让高质量离线翻译在普通手机上成为可能。无论是学术研究还是商业应用该模型都为开发者提供了高效、经济的翻译解决方案。【免费下载链接】Hy-MT1.5-1.8B-1.25bit-GGUF项目地址: https://ai.gitcode.com/tencent_hunyuan/Hy-MT1.5-1.8B-1.25bit-GGUF创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考
Hy-MT1.5-1.8B-1.25bit-GGUF模型原理入门:从基础架构到1.25bit量化的关键突破
发布时间:2026/6/2 17:38:04
Hy-MT1.5-1.8B-1.25bit-GGUF模型原理入门从基础架构到1.25bit量化的关键突破【免费下载链接】Hy-MT1.5-1.8B-1.25bit-GGUF项目地址: https://ai.gitcode.com/tencent_hunyuan/Hy-MT1.5-1.8B-1.25bit-GGUFHy-MT1.5-1.8B-1.25bit-GGUF是腾讯混元团队开发的高效翻译模型通过创新的1.25bit量化技术在保持翻译质量的同时实现极致压缩为移动设备离线翻译提供了强大支持。 为什么选择1.25bit量化模型压缩的革命性突破在AI模型部署中模型大小与性能往往难以兼顾。传统的FP16格式模型体积庞大而低比特量化如4bit、2bit虽然能显著减小体积却容易导致精度损失。Hy-MT1.5-1.8B-1.25bit-GGUF采用腾讯自研的Sherry量化算法实现了1.25bit这一极端压缩比将原始3.3GB的FP16模型压缩至仅440MB同时保持了接近原始模型的翻译质量。 Sherry算法1.25bit背后的技术原理Sherry算法的核心是3:4细粒度稀疏策略每4个模型权重中保留3个最重要的权重并以1bit{-1, 1}存储将剩余1个权重置零。这种设计使得4个权重仅需5bit存储实现了1.25bit的有效位宽同时通过SIMD指令集对齐确保硬件高效计算。️ 模型基础架构专为翻译优化的Hy-MT1.5-1.8BHy-MT1.5-1.8B-1.25bit的基础模型采用多阶段训练 pipeline包括MT导向预训练针对翻译任务优化的大规模预训练有监督微调结合高质量双语语料进行精细化调优策略蒸馏从更大模型中迁移知识强化学习通过反馈机制提升翻译流畅度和准确性该模型原生支持33种语言、5种方言/少数民族语言及1056个翻译方向在仅1.8B参数规模下性能超越了Tower-Plus-72B、Qwen3-32B等大模型及主流商业翻译API。 性能对比小体积与高质量的完美平衡在Flores-200汉外互译基准测试中Hy-MT1.5-1.8B-1.25bit展现出惊人的性能与FP16模型相比体积压缩7.5倍速度提升8倍在Snapdragon 888设备上可实现流畅的离线翻译体验翻译质量接近原始FP16模型在多数语言对上保持95%以上的性能 移动端部署STQ内核与离线翻译实践Hy-MT1.5-1.8B-1.25bit-GGUF依赖于llama.cpp的STQ内核PR #22836实现了移动端CPU的高效推理。用户可通过以下步骤体验1. 克隆llama.cpp仓库git clone https://github.com/ggml-org/llama.cpp.git2. 切换至STQ内核分支cd llama.cpp git fetch origin pull/22836/head:pr-22836-stq_0 git checkout pr-22836-stq_03. 编译llama.cppcmake -B build cmake --build build --config Release4. 下载模型文件pip install huggingface_hub huggingface-cli download AngelSlim/Hy-MT1.5-1.8B-1.25bit-GGUF \ --local-dir model_zoo/Hy-MT1.5-1.8B-1.25bit-GGUF5. 运行翻译示例./build/bin/llama-completion \ --model model_zoo/Hy-MT1.5-1.8B-1.25bit-GGUF/Hy-MT1.5-1.8B-1.25bit.gguf \ -p Translate the following segment into Chinese, without additional explanationHello \ --jinja \ -ngl 0 \ -n 64 -st 技术文档与资源模型权重Hy-MT1.5-1.8B-1.25bit技术报告HY-MT1.5 Technical ReportSherry Paper (ACL 2026)Android Demo可通过项目中的Hy-MT-demo.apk体验离线翻译功能 许可证信息本项目采用Tencent HY Community License Agreement详细使用条款请参见许可证文件。通过1.25bit量化技术的创新Hy-MT1.5-1.8B-1.25bit-GGUF为移动端AI翻译树立了新标杆让高质量离线翻译在普通手机上成为可能。无论是学术研究还是商业应用该模型都为开发者提供了高效、经济的翻译解决方案。【免费下载链接】Hy-MT1.5-1.8B-1.25bit-GGUF项目地址: https://ai.gitcode.com/tencent_hunyuan/Hy-MT1.5-1.8B-1.25bit-GGUF创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考