配图 - Parallax by Gradient：跨设备共享GPU的分布式LLM推理框架

Parallax by Gradient：跨设备共享GPU的分布式LLM推理框架

Parallax by Gradient 官方网站是一款分布式模型服务框架，让开发者能够在不同设备间共享GPU资源，构建自己的AI集群来运行大型语言模型。该工具支持跨平台部署，无论设备规格或地理位置如何，都能实现高效的模型推理。

产品概览

Parallax by Gradient 由 Gradient 团队开发，专注于为开发者提供去中心化的推理引擎。通过该框架，用户可以将本地LLM部署到个人设备上，并利用分布式节点的计算资源，实现模型推理的集群化运作。其核心特性包括管道并行模型分片、动态KV缓存管理、连续批处理（针对Mac设备）以及动态请求调度和路由，旨在提升整体性能。

关键能力与特性

核心功能

跨设备GPU共享：允许在不同规格和位置的设备间共享GPU资源，构建AI集群
管道并行模型分片：支持将模型分割到多个节点上进行并行推理
动态KV缓存管理：优化内存使用，提高推理效率
连续批处理：针对Mac设备特别优化，提升吞吐量
动态请求调度和路由：实现高性能的请求分配和处理

技术架构

Parallax 的后端架构基于多个开源项目：

P2P通信由 Lattica 提供支持
GPU后端使用 SGLang
Mac后端采用 MLX LM

安装与部署

系统要求

Python >= 3.11.0, < 3.14.0
Ubuntu-24.04（适用于Blackwell GPU）

安装方式

支持多种安装方式：

从源码安装（Linux/macOS）
Windows应用（提供.exe安装程序）
Docker部署（Linux+GPU设备）

具体安装命令：

# Linux/WSL (GPU)
git clone https://github.com/GradientHQ/parallax.git
cd parallax
pip install -e '.[gpu]'

# macOS (Apple silicon)
git clone https://github.com/GradientHQ/parallax.git
cd parallax
python3 -m venv ./venv
source ./venv/bin/activate
pip install -e '.[mac]'

快速上手

使用前端界面

启动调度器：在主节点运行 parallax run
配置集群和模型：访问 http://localhost:3001 进行配置
连接节点：在其他节点运行 parallax join 命令
开始聊天：通过聊天界面与模型交互

无前端部署

启动调度器：parallax run -m {model-name} -n {number-of-worker-nodes}
连接节点：在各节点运行 parallax join -s {scheduler-address}
调用API：通过curl命令与模型交互

支持的模型

Parallax 支持多个主流开源模型，包括：

DeepSeek 系列（V3.1、R1、V2、V3）
MiniMax-M2：紧凑高效的MoE模型
GLM-4.6：增强的编码和推理能力
Kimi-K2：面向智能体应用的模型
Qwen 系列（Qwen3-Next、Qwen3、Qwen2.5）
gpt-oss：OpenAI的开源GPT模型
Meta Llama 系列（Llama 3、3.1、3.2、3.3）

开发者工具与集成

Parallax 提供完整的开发者工具链：

Python API：便于集成到现有项目
CLI工具：命令行界面管理集群
Docker支持：容器化部署
REST API：标准的聊天补全接口

文档和更多资源可在 Gradient官方网站和项目 GitHub页面找到。

典型应用场景

研究机构：在多台实验设备上分布式运行大型模型
开发团队：共享GPU资源，提高模型推理效率
个人开发者：利用闲置设备构建小型AI集群
教育场景：在教学环境中演示分布式推理概念

小结与行动建议

Parallax by Gradient 为开发者提供了一个简单有效的方式来构建分布式AI推理集群。无论是研究还是生产环境，都能通过共享GPU资源来提升大型语言模型的运行效率。

如需了解更多信息、查看详细文档或开始试用，请访问：Parallax GitHub仓库或加入 Discord社区与其他开发者交流。

目录CONTENT

Parallax by Gradient：跨设备共享GPU的分布式LLM推理框架

Parallax by Gradient：跨设备共享GPU的分布式LLM推理框架

产品概览

关键能力与特性

核心功能

技术架构

安装与部署

系统要求

安装方式

快速上手

使用前端界面

无前端部署

支持的模型

开发者工具与集成

典型应用场景

小结与行动建议

评论区