[Misc] add gpu_memory_utilization arg (#5079)

Signed-off-by: pandyamarut <pandyamarut@gmail.com>
2025-10-20 14:53:52 +08:00 · 2024-05-28 17:16:18 -07:00
parent dfba529b40
commit 616e600e0b
1 changed files with 8 additions and 1 deletions
--- a/benchmarks/benchmark_latency.py
+++ b/benchmarks/benchmark_latency.py
@ -35,7 +35,8 @@ def main(args: argparse.Namespace):
              use_v2_block_manager=args.use_v2_block_manager,
              enable_chunked_prefill=args.enable_chunked_prefill,
              download_dir=args.download_dir,
-              block_size=args.block_size)
+              block_size=args.block_size,
+              gpu_memory_utilization=args.gpu_memory_utilization)

    sampling_params = SamplingParams(
        n=args.n,
@ -214,5 +215,11 @@ if __name__ == '__main__':
        type=str,
        default=None,
        help='Path to save the latency results in JSON format.')
+    parser.add_argument('--gpu-memory-utilization',
+                        type=float,
+                        default=0.9,
+                        help='the fraction of GPU memory to be used for '
+                        'the model executor, which can range from 0 to 1.'
+                        'If unspecified, will use the default value of 0.9.')
    args = parser.parse_args()
    main(args)