
Parallax by Gradient:跨设备共享GPU的分布式LLM推理框架
Parallax by Gradient 官方网站 是一款分布式模型服务框架,让开发者能够在不同设备间共享GPU资源,构建自己的AI集群来运行大型语言模型。该工具支持跨平台部署,无论设备规格或地理位置如何,都能实现高效的模型推理。
产品概览
Parallax by Gradient 由 Gradient 团队开发,专注于为开发者提供去中心化的推理引擎。通过该框架,用户可以将本地LLM部署到个人设备上,并利用分布式节点的计算资源,实现模型推理的集群化运作。其核心特性包括管道并行模型分片、动态KV缓存管理、连续批处理(针对Mac设备)以及动态请求调度和路由,旨在提升整体性能。
关键能力与特性
核心功能
- 跨设备GPU共享:允许在不同规格和位置的设备间共享GPU资源,构建AI集群
- 管道并行模型分片:支持将模型分割到多个节点上进行并行推理
- 动态KV缓存管理:优化内存使用,提高推理效率
- 连续批处理:针对Mac设备特别优化,提升吞吐量
- 动态请求调度和路由:实现高性能的请求分配和处理
技术架构
Parallax 的后端架构基于多个开源项目:
安装与部署
系统要求
- Python >= 3.11.0, < 3.14.0
- Ubuntu-24.04(适用于Blackwell GPU)
安装方式
支持多种安装方式:
- 从源码安装(Linux/macOS)
- Windows应用(提供.exe安装程序)
- Docker部署(Linux+GPU设备)
具体安装命令:
# Linux/WSL (GPU)
git clone https://github.com/GradientHQ/parallax.git
cd parallax
pip install -e '.[gpu]'
# macOS (Apple silicon)
git clone https://github.com/GradientHQ/parallax.git
cd parallax
python3 -m venv ./venv
source ./venv/bin/activate
pip install -e '.[mac]'
快速上手
使用前端界面
- 启动调度器:在主节点运行 parallax run
- 配置集群和模型:访问 http://localhost:3001 进行配置
- 连接节点:在其他节点运行 parallax join命令
- 开始聊天:通过聊天界面与模型交互
无前端部署
- 启动调度器:parallax run -m {model-name} -n {number-of-worker-nodes}
- 连接节点:在各节点运行 parallax join -s {scheduler-address}
- 调用API:通过curl命令与模型交互
支持的模型
Parallax 支持多个主流开源模型,包括:
- DeepSeek 系列(V3.1、R1、V2、V3)
- MiniMax-M2:紧凑高效的MoE模型
- GLM-4.6:增强的编码和推理能力
- Kimi-K2:面向智能体应用的模型
- Qwen 系列(Qwen3-Next、Qwen3、Qwen2.5)
- gpt-oss:OpenAI的开源GPT模型
- Meta Llama 系列(Llama 3、3.1、3.2、3.3)
开发者工具与集成
Parallax 提供完整的开发者工具链:
- Python API:便于集成到现有项目
- CLI工具:命令行界面管理集群
- Docker支持:容器化部署
- REST API:标准的聊天补全接口
文档和更多资源可在 Gradient官方网站 和项目 GitHub页面 找到。
典型应用场景
- 研究机构:在多台实验设备上分布式运行大型模型
- 开发团队:共享GPU资源,提高模型推理效率
- 个人开发者:利用闲置设备构建小型AI集群
- 教育场景:在教学环境中演示分布式推理概念
小结与行动建议
Parallax by Gradient 为开发者提供了一个简单有效的方式来构建分布式AI推理集群。无论是研究还是生产环境,都能通过共享GPU资源来提升大型语言模型的运行效率。
如需了解更多信息、查看详细文档或开始试用,请访问:Parallax GitHub仓库 或加入 Discord社区 与其他开发者交流。
 
             
           
             
           
                        
评论区