对于不想折腾硬件、希望快速集成国内合规大模型的团队阿里云百炼平台是个高效的选择。一、登录阿里云1.1打开阿里云官网并点击登录阿里云官网https://www.aliyun.com/二、进入百炼服务2.1 选择产品大模型服务平台百炼2.2点击立即体验打开百炼控制台三、申请API-KEY3.1创建API-KEY四、选择模型并使用4.1打开模型广场4.2在模型广场中选择自己需要的模型并点击API参考查看使用方法4.3参考文档使用即可4.4使用Apifox工具调用大模型具体的可见参考文档的curl有关大模型调用过程中请求数据和响应数据都给出了详细的说明大家可以参照百炼平台的api文档查看同时不同平台的请求参数基本都类似接下来我们挑选几个核心的数据给大家做说明。4.4.1 请求数据使用大模型需要传递的参数在访问大模型时都需要在请求体中以json的形式进行传递下面是给出的一个样例{ model: qwen-plus, messages: [ { role: system, content: 你是东哥的助手小月月 }, { role: user, content: 你是谁 }, { role: assistant, content: 您好有什么可以帮助您 } ], stream: true, enable_search: true }下面是每一个参数的含义model: 告诉平台当前调用哪个模型messages: 发送给模型的数据模型会根据这些数据给出合适的响应content: 消息内容role: 消息角色(类型)user: 用户消息system: 系统消息assistant: 模型响应消息stream: 调用方式true: 流式调用false: 流式调用(默认)enable_search: 联网搜索启用后模型会将搜索结果作为参考信息true: 开启false: 不开启默认每一个参数的作用不一样接下来对每一个参数做详细说明。首先是model由于百炼平台提供了各种各样的模型所以你需要通过model这个参数来指定接下来要调用的是哪个模型。其次是messages用户发送给大模型的消息有三种使用role来进行分别其中user代表的是用户问题这个在咱们之前的演示中一直在用不再过多介绍。system代表的系统消息它是用于给大模型设定一个角色然后大模型就可以用该角色的口吻跟用户对话了下面是一个演示案例最后assistant代表的是大模型给用户响应的消息这里很奇怪为什么大模型响应给用户的消息再次请求大模型时需要携带给大模型呢这是因为大模型没有记忆能力也就是说用户跟大模型交互的过程中每一次问答都是独立的互不干扰的。但是实际上我们人与人之间的聊天不是这样的比如我问你西北大学是211吗你回答我是我再问你是985吗你会回答不是虽然我第二次问你的时候我并没有问具体哪个大学是985但是你可以从咱们之前的聊天信息中推断出我要问的是西北大学因为你已经记住了之前的聊天信息。但是大模型目前做不到如果要让大模型在与用户沟通的过程中达到人与人沟通的效果我们唯一的解决方案就是每次与大模型交互的过程中把之前用户的问题和大模型的响应以及现在的问题都发送给大模型这样大模型就可以根据以前的聊天信息从而做出推断了下面是一个演示的案例sream代表调用大模型的方式如果取值为true代表流式调用此时大模型会生成一点儿数据就给客户端响应一点儿数据最终通过多次响应的方式把所有的结果响应完毕。如果取值为false代表阻塞式调用此时大模型会等待将所有的内容生成完毕然后再一次性的响应给客户端。默认情况下stream的取值为false下面是两种不同调用方案的演示案例enable_search代表是否开启联网搜索由于大模型训练完毕后它的知识库不再更新了比如大模型时2023年10月训练完毕的那么2023年10月以后新产生的数据大模型就无法感知了如果要让大模型可以根据最新的数据回答问题其中有一种解决方案就是开启联网搜索大模型可以根据联网搜索的结果生成最终的答案。默认情况下enable_seach为false也就是不开启如果要开启联网搜索需要手动设置请求参数enable_search为true。下面是一个演示案例4.4.2 响应数据在与大模型交互的过程中大模型响应的数据是json格式的数据下面是一份响应数据的示例{ choices: [ { message: { role: assistant, “content”: “我是通义千问阿里巴巴… }, finish_reason: stop, index: 0 } ], object: chat.completion, usage: { prompt_tokens: 22, completion_tokens: 80, total_tokens: 102, }, created: 1748068508, system_fingerprint: null, model: qwen-plus, id: chatcmpl-99f8d040-0f49-955b-943a-21c83 }choices:模型生成的内容数组可以包含一条或多条内容- message: 本次调用模型输出的消息- finish_reason: 自然结束(stop)生成内容过长(length)- index: 当前内容在choices数组中的索引object:始终为chat.completion, 无需关注usage:本次对话过程中使用的token信息- prompt_tokens: 用户的输入转换成token的个数- completion_tokens: 模型生成的回复转换成token的个数- total_tokens: 用户输入和模型生成的总token个数created:本次会话被创建时的时间戳system_fingerprint:固定为null无需关注model:本次会话使用的模型名称id:本次调用的唯一标识符有关响应数据大家基本上作为了解的知识种地那关注choices和usage其中choices里面封装的是大模型响应给客户端的核心数据也就是用户问题的答案。而usage代表本次对话过程中使用的token信息这里对token给大家做一个解释在大语言模型中token是大模型处理文本的基本单位可以理解为模型看得懂的最小文本片段,用户输入的内容都需要转换成token才能让大模型更好的处理。将来文本要转化成token需要使用到一个叫分词器的东西不同的分词器相同的文本转化成token的个数不完全一致但是目前大部分分词器在处理英文的时候一个token大概等于4个字符而处理中文的时候一个汉字字符大概等于1~2个token。顺便给大家说一下, 其实我们通过API调用百炼平台提供的大模型, 我们之前讲过, 是按照流量收费的, 其实更准确的说法应该是按照token数量进行收费。
* 阿里云百炼:免部署直接调用云端大模型
发布时间:2026/5/19 3:51:14
对于不想折腾硬件、希望快速集成国内合规大模型的团队阿里云百炼平台是个高效的选择。一、登录阿里云1.1打开阿里云官网并点击登录阿里云官网https://www.aliyun.com/二、进入百炼服务2.1 选择产品大模型服务平台百炼2.2点击立即体验打开百炼控制台三、申请API-KEY3.1创建API-KEY四、选择模型并使用4.1打开模型广场4.2在模型广场中选择自己需要的模型并点击API参考查看使用方法4.3参考文档使用即可4.4使用Apifox工具调用大模型具体的可见参考文档的curl有关大模型调用过程中请求数据和响应数据都给出了详细的说明大家可以参照百炼平台的api文档查看同时不同平台的请求参数基本都类似接下来我们挑选几个核心的数据给大家做说明。4.4.1 请求数据使用大模型需要传递的参数在访问大模型时都需要在请求体中以json的形式进行传递下面是给出的一个样例{ model: qwen-plus, messages: [ { role: system, content: 你是东哥的助手小月月 }, { role: user, content: 你是谁 }, { role: assistant, content: 您好有什么可以帮助您 } ], stream: true, enable_search: true }下面是每一个参数的含义model: 告诉平台当前调用哪个模型messages: 发送给模型的数据模型会根据这些数据给出合适的响应content: 消息内容role: 消息角色(类型)user: 用户消息system: 系统消息assistant: 模型响应消息stream: 调用方式true: 流式调用false: 流式调用(默认)enable_search: 联网搜索启用后模型会将搜索结果作为参考信息true: 开启false: 不开启默认每一个参数的作用不一样接下来对每一个参数做详细说明。首先是model由于百炼平台提供了各种各样的模型所以你需要通过model这个参数来指定接下来要调用的是哪个模型。其次是messages用户发送给大模型的消息有三种使用role来进行分别其中user代表的是用户问题这个在咱们之前的演示中一直在用不再过多介绍。system代表的系统消息它是用于给大模型设定一个角色然后大模型就可以用该角色的口吻跟用户对话了下面是一个演示案例最后assistant代表的是大模型给用户响应的消息这里很奇怪为什么大模型响应给用户的消息再次请求大模型时需要携带给大模型呢这是因为大模型没有记忆能力也就是说用户跟大模型交互的过程中每一次问答都是独立的互不干扰的。但是实际上我们人与人之间的聊天不是这样的比如我问你西北大学是211吗你回答我是我再问你是985吗你会回答不是虽然我第二次问你的时候我并没有问具体哪个大学是985但是你可以从咱们之前的聊天信息中推断出我要问的是西北大学因为你已经记住了之前的聊天信息。但是大模型目前做不到如果要让大模型在与用户沟通的过程中达到人与人沟通的效果我们唯一的解决方案就是每次与大模型交互的过程中把之前用户的问题和大模型的响应以及现在的问题都发送给大模型这样大模型就可以根据以前的聊天信息从而做出推断了下面是一个演示的案例sream代表调用大模型的方式如果取值为true代表流式调用此时大模型会生成一点儿数据就给客户端响应一点儿数据最终通过多次响应的方式把所有的结果响应完毕。如果取值为false代表阻塞式调用此时大模型会等待将所有的内容生成完毕然后再一次性的响应给客户端。默认情况下stream的取值为false下面是两种不同调用方案的演示案例enable_search代表是否开启联网搜索由于大模型训练完毕后它的知识库不再更新了比如大模型时2023年10月训练完毕的那么2023年10月以后新产生的数据大模型就无法感知了如果要让大模型可以根据最新的数据回答问题其中有一种解决方案就是开启联网搜索大模型可以根据联网搜索的结果生成最终的答案。默认情况下enable_seach为false也就是不开启如果要开启联网搜索需要手动设置请求参数enable_search为true。下面是一个演示案例4.4.2 响应数据在与大模型交互的过程中大模型响应的数据是json格式的数据下面是一份响应数据的示例{ choices: [ { message: { role: assistant, “content”: “我是通义千问阿里巴巴… }, finish_reason: stop, index: 0 } ], object: chat.completion, usage: { prompt_tokens: 22, completion_tokens: 80, total_tokens: 102, }, created: 1748068508, system_fingerprint: null, model: qwen-plus, id: chatcmpl-99f8d040-0f49-955b-943a-21c83 }choices:模型生成的内容数组可以包含一条或多条内容- message: 本次调用模型输出的消息- finish_reason: 自然结束(stop)生成内容过长(length)- index: 当前内容在choices数组中的索引object:始终为chat.completion, 无需关注usage:本次对话过程中使用的token信息- prompt_tokens: 用户的输入转换成token的个数- completion_tokens: 模型生成的回复转换成token的个数- total_tokens: 用户输入和模型生成的总token个数created:本次会话被创建时的时间戳system_fingerprint:固定为null无需关注model:本次会话使用的模型名称id:本次调用的唯一标识符有关响应数据大家基本上作为了解的知识种地那关注choices和usage其中choices里面封装的是大模型响应给客户端的核心数据也就是用户问题的答案。而usage代表本次对话过程中使用的token信息这里对token给大家做一个解释在大语言模型中token是大模型处理文本的基本单位可以理解为模型看得懂的最小文本片段,用户输入的内容都需要转换成token才能让大模型更好的处理。将来文本要转化成token需要使用到一个叫分词器的东西不同的分词器相同的文本转化成token的个数不完全一致但是目前大部分分词器在处理英文的时候一个token大概等于4个字符而处理中文的时候一个汉字字符大概等于1~2个token。顺便给大家说一下, 其实我们通过API调用百炼平台提供的大模型, 我们之前讲过, 是按照流量收费的, 其实更准确的说法应该是按照token数量进行收费。