- 业界 2024-05-24 08:45

阿里魔搭社区开源推理引擎 dashinfer-凯发游戏

站长之家(chinaz.com)5月24日 消息:modelscope 推出了预训练大(llm) dashinfer,支持 c 和 python 语言接口,可在多种 cpu 架构上高效推理大模型。

dashinfer 采用 c runtime 编写,支持连续批处理和多 numa 推理,能充分利用服务器级 cpu 的算力,为推理14b 及以下的 llm 模型提供更多。该引擎已开源,提供轻量级架构,高精度实现,优化的计算 kernel,以及行业标准 llm 推理技术。dashinfer 支持主流 llm 开源模型和 ptq 量化技术。

微信截图_20240524084834.png

此外,引擎还提供多语言 api 接口,支持多种硬件和数据类型,包括 x86cpu 和 armv9cpu,以及 fp32、bf16、instantquant 等数据类型。关于模型支持,dashinfer 可以加载和序列化模型,执行推理过程,并采用 dlpack 格式的 tensor 与外部框架交互。在单 numa 架构下,推理引擎使用多线程和线程池进行调度;而在多 numa 架构下,引擎采用多进程 client-server 架构,实现 tensor parallel 的。

性能测试结果表明,dashinfer 在 arm 和 x86cpu 上具有良好的推理性能,能够有效提升大模型推理效率。

代码开源地址:

https://github.com/modelscope/dash-infer

推理体验地址:

https://www.modelscope.cn/studios/modelscope/dashinfer-demo

相关话题

推荐关键词

24小时热搜

查看更多内容

大家正在看

网站地图