技术分享
EXO分布式引擎新增QwQ-32B-Preview模型

Exo 是一个基于 MLX 的分布式大语言模型推理框架,专为 Apple Silicon 芯片优化。它支持模型分层加载,提供类 ChatGPT API 接口,可通过简单的配置实现模型部署和调用。主要特点是支持流式输出,并针对有限内存环境下的大模型运行进行了优化。

Exo:突破单机限制的分布式AI集群解决方案

Exo 是一款分布式AI集群解决方案,通过将大型AI模型拆分到多台设备上运行,突破单机限制,提升推理性能。它支持自动设备发现、智能任务分配、动态弹性扩展和故障恢复,提供与ChatGPT API兼容的接口,简化部署和集成流程,是一款高效、灵活的AI推理工具。

构建基于Qwen2.5-72B-Instruct的RAG问答AGENT智能研究助手

本实验展示了如何通过 LlamaIndex 构建一个基于 Qwen 模型的智能研究助手。该系统在多文档处理、动态工具选择和复杂推理方面表现出色,为研究者提供了高效的辅助工具。在未来的研究中,我们可以扩展文档集或优化工具选择策略,进一步提升系统的性能。

Building Agentic RAG with Llamaindex

系统梳理了如何构建代理增强检索生成(RAG)系统,从简单的路由代理到工具调用,以及支持多文档推理的高级代理开发。介绍了索引构建、查询引擎配置、函数调用代理及多步骤推理的方法,能够实现复杂问题的自动化解决。通过结合多个工具与文档,掌握了如何构建强大的上下文增强研究系统,适用于多领域的高级应用。