大模型面试经验分享：5家公司NLP算法工程师面试全记录，小白必收藏！

发布时间：2026/5/20 1:14:44

本文分享了某同学面试5家上海公司的NLP算法工程师大模型方向的经历包括字节跳动、拼多多、Bilibili、太保金科和上海人工智能实验室。面试内容涵盖算法题、开放式问题、业务问题、算法题等涉及multi-head self-attention、DeBERTa优化点、pre-norm和post-norm的区别、大模型实践场景、ChatGLM、LLaMa、qwen等大模型的区别、大模型微调优化方法、langchain和llama index的区别、大模型检索问题及RAG优化方法、从0到1训练大模型的流程等。此外还涉及bert原理、attention结构、layer normalization和batch normalization的区别、表达式求值、梯度反向传播、分布式训练框架、模型蒸馏、KL散度和交叉熵的联系与区别、连通子图查找、softmax和交叉熵计算、语义相似度方法、triple loss、模型并行、数据并行、ZERO等知识点。对于想要了解大模型方向面试准备的同学本文提供了宝贵的参考价值。↓推荐关注↓最近技术群的一位同学给我分享了他面试 NLP 算法工程师(大模型方向)的经历与经验。直呼最近找工作太难了。。。。今天我整理后分享给大家希望对后续找工作的有所帮助。这位同学为面试刷了 leetcode200-300 题左右侧重刷中高频hard题同时也准备了大量的面试问题。面的公司地点均在上海总共5家。一、字节跳动-抖音 nlp算法工程师一面1h1、自我介绍聊项目经历2、算法题手撕multi-head self-attention使用tensorflow或torch框架尽量按google源码的思路3、开方式问题介绍deberta中的两个优化点disentangled attention和enhanced mask decoder4、开方式问题说出pre-norm和post-norm的区别5、基础问题layer normalization和batch normalization的区别。6、大模型实践场景有那些ChatGLM、LlaMa、qwen 等大模型的区别如何优化 Prompt 7、大模型微调的优化方法及区别8、是否熟悉大模型langchain 和 llama index 及区别9、当前大模型检索有什么问题如何进行 RAG 优化的方法10、从0到1训练大模型的流程及方法及注意事项二面1h1、自我介绍聊项目经历2、算法题手撕transformer decoder部分的inference过程重点看beam search的实现使用tensorflow或torch框架3、开方式问题如何解决含有象征、隐喻等修辞手法的文本分类问题。4、大模型在NLP的落地案例及遇到的问题5、如果评估大模型的效果及安全性三面1h1、自我介绍聊项目经历2、基础问题介绍bert的原理、结构以及bert中哪些结构layer或block的训练参数比较多3、基础问题attention结构的神经网络与递归神经网络相比有什么优点还问了一些比较基础的问题貌似有点忘了4、业务问题如何用一些业务指标衡量模型的效果5、算法题共三个小问题1针对某个表达式如564只含有加减乘除设计并使用一种数据结构能够对表达式进行求值使用二叉树即可2在1的基础上倘若表达式中出现未知变量如aab改进1中的结果使其在知道未知变量具体赋值的时候能够返回表达式的结果实现类似tensorflow中placeholder的机制3在2的基础上倘若已知loss function返回的结果实现一下梯度的反向传播。6、对那些开源大模型比较熟悉如何看待大模型的前景与价值hr面0.5h自我介绍—》为什么想换工作—》薪资期望—》其他常规流程二、拼多多-智能客服 nlp算法工程师一面1h1、自我介绍聊项目经历2、基础问题又问了一遍layer normalization和batch normalization的区别3、基础问题bert模型采用mask的具体策略以及为什么要这么设计4、开放式问题常用的文本数据增强方法全面完整的回答可以从语种层面letter、subword、word和语序层面利用mlm过程、利用wordnet近义词替代等角度5、开放式问题模型蒸馏的具体实现过程KL散度和交叉熵的联系与区别6、算法题给定一个图的节点集合和边集合找出图中一个有多少个连通子图并查集或bfs7、AI 大模型LangChain开发框架是否用过AGENT、MEM、向量知识库的细节8、熟悉那些分布式训练框架目前在用那些能否详细说明9、是否有预训练、微调和部署经验展开讲一下10、是否了解大模型在智能客服领域落地场景、质检、拓展问、机器人二面1h1、自我介绍聊项目经历2、开放式问题写出中文bert-base预训练模型所有的参数量细分到每一个结构的参数量3、基础问题attention结构中Q、K、V的含义及作用4、基础问题bert结构中embedding部分具体是怎么样的word embeddingposition embeddingsegment embedding5、基础问题绝对位置和相对位置的区别最好举例作答6、开放式问题position embedding的实现方式有哪两种functional position embedding如transformer和华为的NEZHAparametric position embedding如bert7、基础问题layer normalization中的两个可学习参数的作用8、算题题已知二叉树的前序和中序遍历的前提下重构二叉树。9、基于大模型和向量数据库构建企业级知识库平台的流程及细节说明三面0.5h1、自我介绍聊项目经历2、场景题基于项目中聊到的多轮对话改写模型是否能够用另一种不同的方法实现3、场景题在真实的客诉场景中客户可能不会一次性把话说完整比如某客户会先说“hi”然后说“想问一下”最后说“如果你们这边的产品有问题该怎么办”。如何设计客服机器人解决上述的问题停顿检测4、算法题将两个升序的数组合并合并后的数组保持升序设计时间复杂度尽可能低的算法。hr面0.5h自我介绍—》为什么想换工作—》薪资期望—》其他常规流程三、bilibili 人工智能与大数据平台 nlp算法工程师一面1h1、自我介绍聊项目经历2、基础问题再问了一遍layer normalization和batch normalization的区别3、基础问题transformer网络中一共有多少种不同的attention3种4、开放式问题bert及其变体中常用的mask方式及特点dynamic maskwhole word maskphrase mask entity mask5、开放式问题中文场景的nlu任务和英文场景有什么不同6、开放式问题模型蒸馏的具体实现过程7、算法题数组中连续子数组和的最大值。8、大模型知道那些原理、性能、差异的目前有那些问题需要解决9、如果解决大模型的可控可信度不足、推理效率慢的问题10、常用的模型微调方法、模型量化问题及分布式部署问题二面1h1、自我介绍聊项目经历2、业务问题如何用一些业务指标衡量模型的效果如何使用一些非模型的方法解决内容的识别问题3、开放式问题介绍一下是如何做语义相似度的simcsesimbertsentence bert等4、开放式问题是否了解triple loss以及它的功能是什么5、算题题实现一个函数能够计算softmax和交叉熵6、基础问题softmax函数在梯度反向传播过程中会出现梯度的钝化实际过程中该如何解决。7、熟悉的开发语言Pytorch 还是Tensorflow ?8、Megatron-lm、Deepspeed 等是否熟悉你熟悉哪一种9、模型并行、数据并行、ZERO是否用过三面0.5h1、自我介绍聊项目经历2、算法题判断链表是否有环并输出环的入口节点3、场景题平时是否使用过b站如何看待b站的弹幕文化。hr面0.5h自我介绍—》为什么想换工作—》薪资期望—》其他常规流程四、太保金科研究院 nlp算法研究员一面0.5h1、自我介绍了解哪些nlp的前沿研究2、场景题如何用gpt-3的prompt机制挖掘以新冠疫情为主题的稀疏文本以及如何在保险场景实现zero-shot3、场景题在文本分类任务中如果打乱文本中字或词的顺序是否会对分类结果产生影响4、算法题给定一个长度为n的初始数组nums[0, 1, 2, …, n-1]求出i ! nums[i]对任意i都成立的排列组合总数动态规划。5、GPT3、chagpt、T5、LLAMA、GLM 的区别6、模型小型化技术有那些7、使用大模型的落地场景二面1h1、自我介绍聊项目经历2、场景题如何在一个3GB内存空间中部署一个深度学习模型3、开放式问题说一下目前主流或前沿的nlp预训练模型百度ERNIE3.0华为NEZHAopenAI gpt-3nvidia MegatronLMmacrosoft T5及相关的加速方法混合精度训练、Zero Redundancy Optimizer4、开放式问题简单聊一下ERNIE1.0到3.0发展历程和gpt-1到gpt-3的发展历程5、开放式问题说一下对多任务训练multi task learning和多领域训练multi domain learning的理解最好举一个例子6、大模型是否有经验请详细说明7、目前大模型落地有那些问题你是如何解决的8、大模型目前RAG、chain 是否熟悉三面0.5h1、笔试题给定训练集和测试集要求在24h内自己设计神经网络。要求在epoch1和learning_rate0.03的限制下测试集评估的准召达到95%以上;2、智力题有5个相邻的山洞一字排开山洞里有一只兔子兔子每天白天会移动到相邻的洞中你是一个猎人每天晚上可以查看一个洞。设计一个可以找到兔子的策略。hr面0.5h自我介绍—》为什么想换工作—》薪资期望—》其他常规流程五、上海人工智能实验室大规模预训练算法研究员一面1h1、自我介绍2、开放式问题说一下目前主流或前沿的预训练模型包括nlp百度ERNIE3.0华为NEZHAopenAI gpt-3nvidia MegatronLMmacrosoft T5和cv我只知道CLIP领域3、基础问题说一下数据并行和模型并行的主要区别4、基础问题混合精度训练的原理有哪些优缺点针对这些优缺点是如何改进的5、开放式问题说一下DeepSpeed有哪些方面的突破6、算法题N皇后7、算法题用递归和迭代两种方式实现二叉树的层次遍历8、算法题袋子中有5个白球和8个红球现规定摸球规则1第一次摸球无论红白均拿出2倘若这一次摸到球的颜色与上一次的相同则将这一次摸到的球拿出若不同则将这一次摸到的球放回。求最后一个球是白球的概率动态规划。这个岗位主要偏开发而非算法和我自己的条件不匹配一面后就没有后续了。最后2026年技术圈的分化愈发明显降薪裁员潮持续蔓延传统开发、测试等岗位大批缩水不少从业者陷入职业焦虑与之形成鲜明对比的是AI大模型相关岗位迎来疯狂扩招薪资逆势飙升150%大厂更是直接开出70-100W年薪疯抢具备实战能力的大模型人才甚至放宽年龄限制只求能快速落地技术、创造价值很多程序员、职场新人纷纷入局大模型领域绝非盲目跟风而是实实在在看到了不可替代的价值优势这也是2026年最值得抓住的职业风口1、窗口期红利入门门槛友好不同于成熟赛道的“内卷式招聘”2026年大模型人才缺口巨大简历只要达标掌握基础AI应用具备简单项目经验年龄、学历均非硬性要求小白可快速入门转行程序员也能无缝衔接2、技术可复用上手速度翻倍如果你有前后端开发、测试、数据分析等基础在大模型落地、系统部署、Prompt工程等环节会更具优势无需从零开始复用原有技术能力就能快速进阶3、懂业务更吃香竞争力翻倍单纯懂技术已不够2026年大厂更看重“技术业务”的复合型人才有垂直领域金融、医疗、工业等经验者能精准定位模型落地痛点薪资比纯技术岗高出30%以上更重要的是即便没有转型需求用AI大模型工具为工作赋能、提升效率也已经成为80%企业的硬性要求——不会用大模型提效未来很可能被行业淘汰那么2026年小白/程序员该如何高效学习大模型很多人想入门大模型却陷入两大困境要么到处搜集零散资料不成体系越学越懵要么被收费高昂的课程割韭菜花了钱却学不到实战技能白白浪费时间走弯路。今天就给大家精心整理了一份2026年最新、免费、系统化的AI大模型学习资源包覆盖从零基础入门到商业实战、从理论沉淀到面试通关的全流程所有资料均已整理归档无需拼凑直接领取就能上手学习小白可照做程序员可进阶扫码免费领取全部内容1、大模型系统化学习路线这份学习路线结合2026年行业趋势和新手学习规律由行业专家精心设计从零基础到精通每一步都有明确指引帮你节省80%的无效学习时间少走弯路、高效进阶避免踩坑。2、从0到进阶大模型学习视频教程从入门到进阶这里都有跟着老师学习事半功倍。3、大模型学习书籍电子文档涵盖2026年最新技术要点包括基础入门、Transformer核心原理、Prompt工程、RAG实战、模型微调与部署等内容4、AI大模型最新行业报告报告包含腾讯、阿里、甲子光年等权威机构发布的核心内容还有2026年中文大模型基准测评报告、AI Agent行业研究报告等帮你站在行业前沿把握技术风口。5、大模型项目实战配套源码项目包含Deepseek R1、GPT项目、MCP项目、RAG实战等热门方向还有视频配套代码手把手教你从0到1完成项目开发既能练手提升技术又能丰富简历为求职和职业发展加分。6、2026大模型大厂面试真题2026年大模型面试已全面升级不再单纯考察基础原理而是转向侧重技术落地和业务结合的综合考察很多程序员和新手因为缺乏针对性准备明明技术不错却在面试中失利。适用人群四阶段学习规划共90天可落地执行第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…扫码免费领取全部内容7、这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】https://mp.weixin.qq.com/s/UNAD6ZS5p0eofHdSwaZvvg

我的第一个CANOpen主站：手把手教你用CanFestival-3源码配置心跳、SYNC和PDO映射

我的第一个CANOpen主站：手把手教你用CanFestival-3源码配置心跳、SYNC和PDO映射当你第一次面对工业现场总线协议时，那种既兴奋又忐忑的心情我至今记忆犹新。CANOpen作为工业自动化领域的"普通话"，其主站开发往往是工程师进阶路上的…

2026/5/20 1:14:24 阅读更多

【设计模式 09】桥接：两条路各走各的

这一课讲桥接模式。什么在变：多个维度各自独立变化，绑在一起会组合爆炸。怎么挡：拆成独立体系，用组合连接，各自扩展互不影响。陈敏把组织架构图展开在会议桌上的时候，在场所有人都看到了问题。产品线三条&…

2026/5/20 1:12:21 阅读更多

第1篇：大模型提示词是什么？——从入门到认知

第1篇：大模型提示词是什么？——从入门到认知适用人群：所有人 | 字数：约25,000字 | 预计阅读时间：60分钟前言如果你正在阅读这篇文章，那么你很可能已经用过 ChatGPT、文心一言、通义千问、Kimi、DeepSeek 或…

2026/5/20 1:12:01 阅读更多

Ormar 高级特性完全指南：字段加密、UUID 和约束条件详解

Ormar 高级特性完全指南：字段加密、UUID 和约束条件详解【免费下载链接】ormar python async orm with fastapi in mind and pydantic validation 项目地址: https://gitcode.com/gh_mirrors/or/ormar Ormar 是一个强大的 Python 异步 ORM，专为 …

2026/5/20 4:31:04 阅读更多

[开源] 护理语音医嘱转换系统：面向移动护理终端的结构化记录工具，自动解析床号、操作、参数与通知状态

本项目是一个专为临床一线护士设计的轻量级命令行工具，解决移动护理终端中语音描述转结构化医嘱记录的断点问题。我们不对接医院HIS或EMR系统，也不要求部署服务端，而是以本地可执行方式嵌入护士日常操作流：护士口述「14床测血压&a…

2026/5/20 4:30:24 阅读更多

54 深入解析poll多路复用技术

🔥个人主页：Milestone-里程碑 ❄️个人专栏: <<力扣hot100>> <<C>><<Linux>> 🌟心向往之行必能至一.多路复用 poll 1.1 poll接口 NAMEpoll, ppoll - wait for some event on a file descriptorSYNO…

2026/5/20 4:29:44 阅读更多

Keil C251仿真器加载OMF251文件问题解析与解决

1. C251仿真器加载问题解析最近在Keil C251开发环境中遇到一个棘手问题：当程序生成BROWSER调试信息时，仿真器无法加载生成的OMF251目标文件，报错提示"record type 0x60 is invalid"。这个问题看似简单，但背后涉及编译器…

2026/5/20 4:29:03 阅读更多

CANN/asc-devkit Ascend C API列表

Ascend C API列表【免费下载链接】asc-devkit 本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言，原生支持C和C标准规范，主要由类库和语言扩展层构成，提供多层级API，满足多维场景算子开发诉求。项目地址: https://gitco…

2026/5/20 4:28:43 阅读更多

CANN Spack Package与Spack集成详解：构建企业级AI开发环境的终极指南

CANN Spack Package与Spack集成详解：构建企业级AI开发环境的终极指南【免费下载链接】cann-spack-package 本项目用于管理CANN社区Spack包管理package.py配置文件，Spack包管理器通过解析这些文件，可动态地将用户指定的软件规格（S…

2026/5/20 4:28:23 阅读更多

顶伯在线语音工具背后的技术力量：AI语音合成与深度学习解析

顶伯在线语音工具背后的技术力量在人工智能浪潮中，语音交互正成为人机沟通的核心方式。顶伯作为行业领先的在线语音工具，凭借自主研发的深度学习架构，将文字转化为高度自然的语音，广泛应用于有声阅读、智能客服、教育辅助等领域。…

2026/5/20 0:00:25 阅读更多

全志V3s开发板实战：用Buildroot 2020.02.4定制你的第一个最小Linux文件系统

全志V3s开发板实战：用Buildroot 2020.02.4定制最小Linux文件系统在嵌入式开发领域，构建一个精简高效的Linux文件系统往往是项目成功的关键第一步。全志V3s作为一款高性价比的ARM Cortex-A7芯片，搭配Buildroot这一经典构建工具，能…

2026/5/20 0:00:25 阅读更多

百考通：AI赋能期刊论文写作，智能生成优质内容

在学术研究领域，期刊论文的撰写是成果输出的关键环节，却也让众多科研工作者与学生倍感压力：选题迷茫、逻辑梳理困难、格式规范复杂、内容提炼耗时，严重拖慢了学术成果的发表节奏。百考通（https://www.baikaotongai.com…

2026/5/20 0:00:46 阅读更多

【实用小程序】超轻量级文件上传下载中心 (File Download Server)

站内源码及jar包下载一、项目概述文件下载中心一个基于 Java 内置 HTTP 服务器（com.sun.net.httpserver）构建的轻量级文件管理服务。它零第三方依赖，单 JAR 包即可运行，适合在内网环境或临时场景中快速搭建文件共享站点。你的团队需要临时共享一批日志文件或交付物，…

2026/5/19 4:14:12 阅读更多

py每日spider案例之某website之xin东方选课搜索接口(难度一般扣取代码即可)

加密位置: 逆向接口参数: 逆向接口: const g = globalThis; g.window = g; g.self = g; g.location = {<

2026/5/19 6:17:20 阅读更多

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南

终极轻量级Android文本编辑器Markor：多格式笔记应用完全指南【免费下载链接】markor Text editor - Notes & ToDo (for Android) - Markdown, todo.txt, plaintext, math, .. 项目地址: https://gitcode.com/gh_mirrors/ma/markor 在移动设备上寻找一款…

2026/5/20 2:02:06 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/19 0:13:34 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/20 3:00:53 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/19 22:33:20 阅读更多

相关文章