首页 > 教程攻略 > ai教程 >并发控制在50左右,性能还是可以

并发控制在50左右,性能还是可以

来源:互联网 时间:2026-06-23 07:27:52
四台服务器,硬件配置完全一样,跑的是同一套测试脚本。先看一眼命令行参数: vllm bench serve --port 7000 --model /models --served-model-name ds --dataset-name random --random-input 200 --random-output 2048 --num-prompts 300 --request-rate 0.5 --max-concurrency 50 --sa ve-result --result-dir ./result_optimized 然后看看实际跑出来的结果,差异还挺明显。 一号机表现中规中矩,没有意外。 \ 二号机同样稳定。 \ 到了三号机,情况开始变了——并发跑到54之后,P99突然飙升。注意看这个拐点。 \ 四号机更敏感,并发只要高一丁点,TTFT和P99都跟着严重上升。 同样配置、同样测试,结果差距这么大,背后的问题值得深挖。