
由 Dr7.ai 医疗AI平台驱动
体验HealthBench Hard全球第一的医疗AI。百川M3通过SPAR工作流推理实现严肃临床咨询,借助事实感知强化学习达到业界最低3.5%幻觉率。
体验SPAR驱动的临床推理和全球最低幻觉率的严肃医疗咨询
严肃医疗咨询
无限访问全球第一的医疗AI,体验SPAR工作流推理、最低幻觉率和企业级临床决策支持。
Baichuan-M3 是一个2350亿参数的医疗AI模型,从根本上重新定义了临床决策支持的性能上限。基于Qwen3架构构建,通过领域特定强化学习训练,百川M3在HealthBench Hard上排名第一,在复杂医学推理方面超越GPT-5.2-High。
与默认给出安全但无用建议的通用聊天机器人不同,百川M3实现了SPAR(分段流水线强化学习)算法,将临床咨询分解为四个认知阶段,每个阶段都有专门的奖励模型,模拟人类医学训练过程。
通过事实感知强化学习达到业界最低3.5%幻觉率,以及确保安全优先临床沟通的SCAN原则,百川M3代表了从被动聊天到严肃临床咨询的范式转变。
2026年发布
开源Apache 2.0许可,支持W4量化,可在消费级GPU上部署
专为严肃临床咨询设计的先进能力
SPAR四阶段临床工作流(病史采集→鉴别诊断→实验室检测→最终诊断)
SCAN原则实现(安全、清晰、关联、导航)
事实感知强化学习实现业界最低3.5%幻觉率
主动临床询问与追问(非被动聊天)
多轮诊断推理与证据追踪
循证治疗建议与引用
支持HIPAA/GDPR合规私有化部署
W4量化支持消费级GPU部署(双RTX 4090)
百川M3在权威医疗AI基准测试中取得顶尖成绩
全球第一,在复杂医学推理上超越GPT-5.2-High
咨询质量领先第二名12.4分
通过事实感知RL实现所有医疗LLM中最低
综合医疗AI基准分数
分段流水线强化学习
与传统RLHF仅在最后提供反馈不同,SPAR将临床咨询分解为四个阶段,每个阶段都有独立的奖励模型:
完整性与相关性
遗漏风险因素会被惩罚,提出澄清问题会获得奖励
逻辑一致性
必须生成与症状一致的病情,优先考虑概率和严重性
效率与必要性
根据建议检测的成本效益和诊断价值进行评估
准确性与证据
根据与前期阶段收集证据的一致性进行加权
确保专业临床标准的行为框架:
立即风险评估——「胸部剧痛」触发紧急协议
精确的临床语言,不使用模糊的AI套话
主动挖掘信息,像真正的医生一样提出追问
每次咨询都以可执行的下一步建议结束
集成到生成过程中的实时验证循环:
将响应拆分为单个可验证的事实
对照权威医学知识库检查每个声明
平衡任务奖励与事实奖励,训练过程中逐步增加准确性惩罚
通过SPAR工作流协助医疗专业人员进行循证临床推理、鉴别诊断和治疗建议。
通过主动询问进行全面病史采集,在医生会诊前准备结构化的患者档案。
支持医生进行会诊前准备、文档记录和多步骤诊断推理与证据追踪。
开始使用全球第一的医疗AI
百川M3可通过Dr7.ai API、Hugging Face(Apache 2.0)以及企业医疗私有化部署选项获取。
将百川M3集成到您的医疗应用、临床工作流或研究平台中。
灵活部署,从云API到消费级GPU,支持W4量化。
所有百川M3输出在临床使用前应由合格的医疗专业人员验证。该模型旨在辅助而非替代医学判断。
确保符合当地医疗法规(HIPAA、GDPR等),并在临床环境中部署医疗AI前获得必要的审批。
了解百川M3在严肃医疗咨询领域领先的原因
严肃医疗咨询AI
严肃临床咨询、CDSS、患者入院、医学研究
通用与考试导向模型
通用医学问答、考试准备、广泛知识检索
关于百川M3的常见问题
SPAR(分段流水线强化学习)将临床咨询分解为四个认知阶段——病史采集、鉴别诊断、实验室检测和最终诊断——每个阶段都有专门的奖励模型。这解决了传统RLHF中的「信用分配问题」,即对话结束时的反馈无法区分哪些具体行为导致了成功。SPAR确保模型在每个阶段都正确推理,而不仅仅是最后猜对答案。
百川M3使用事实感知强化学习,包含三个组件:(1)原子声明分解将响应拆分为单个可验证的事实,(2)在线验证对照权威医学知识库检查每个声明,(3)动态奖励聚合平衡流畅性与事实准确性,随着训练成熟逐步增加错误惩罚。这实现了业界最低的3.5%幻觉率。
是的,百川M3在Apache 2.0许可下发布,提供完全透明度以及定制、微调和私有部署的能力。模型权重可在Hugging Face上获取,模型支持W4量化以便在消费级硬件(如双RTX 4090 GPU)上部署。
可以!通过W4量化,百川M3可以在约48GB显存(双RTX 4090或类似配置)上运行。企业部署推荐8×24GB GPU(约120GB)以获得优秀的吞吐量。完整FP16需要>400GB显存用于研究和训练目的。
百川M3在HealthBench Hard上超越GPT-5.2-High(44.4 vs 更低分数),证明了针对SPAR的专业医学训练在复杂临床推理上优于通用规模。此外,百川M3提供开源可用性、私有部署选项和最低幻觉率——这些对于准确性和数据主权至关重要的医疗应用来说是关键因素。