alibaba · charles9304 · Dec 27, 2024 · Dec 27, 2024
diff --git a/chatlearn/models/vllm_module_v2.py b/chatlearn/models/vllm_module_v2.py
@@ -101,10 +101,16 @@ def setup_vllm(self, workers):
         else:
             model_loader_extra_config = None
 
+        if self.model_args.get("apply_replica_id_to_seed", True):
+            seed = self.model_args.get("seed", 0) + self.replica_id
+        else:
+            seed = self.model_args.get("seed", 0)
+
         self.llm = LLM(
             model=self.model_args['tokenizer'],
             tokenizer=self.model_args['tokenizer'],
             max_seq_len_to_capture=self.model_args.get("seq_length"),
+            seed=seed,
             # load model: 'dummy' for megatron ckpt or mock weight; others for hf ckpt.
             load_format=load_format,
             model_loader_extra_config=model_loader_extra_config,

diff --git a/examples/megatron/configs/llama2/vllm_policy_inference.yaml b/examples/megatron/configs/llama2/vllm_policy_inference.yaml
@@ -47,3 +47,4 @@ tensor_model_parallel_size: ${policy_tp}
 pipeline_model_parallel_size: ${policy_pp}
 
 vllm_load_format: ${vllm_load_format:dummy}
+apply_replica_id_to_seed: ${apply_replica_id_to_seed:True}
Original file line number	Diff line number	Diff line change
Expand Up		@@ -47,3 +47,4 @@ tensor_model_parallel_size: ${policy_tp}
		pipeline_model_parallel_size: ${policy_pp}

		vllm_load_format: ${vllm_load_format:dummy}
		apply_replica_id_to_seed: ${apply_replica_id_to_seed:True}