ailine/test_gemma.py

from openai import OpenAI

# 连接本地 vLLM 服务
client = OpenAI(
    base_url="http://localhost:8000/v1",  # 容器映射的地址
    api_key="token-abc123",               # 与你启动命令中的 --api-key 一致
)

# 发起对话
response = client.chat.completions.create(
    model="gemma-4-E2B-it",               # --served-model-name 指定的名称
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "请用中文介绍一下你自己"}
    ],
    temperature=0.7,
    max_tokens=512,
)

print(response.choices[0].message.content)