您现在的位置是:不劣方头网 > 知识

全球第一端全模态理解开源模型来了!

不劣方头网2026-01-04 18:17:42【知识】7人已围观

简介全球第一端全模态理解开源模型来了!帮忙选择菜单上的奶茶,不用说:它还可以帮助轻松提炼长语音,不再需要面对一串几十秒的语音头皮麻木doge)。就在刚才,无问题的芯穹宣布开源世界上第一个端侧全模态理解的开

全球第一端全模态理解开源模型来了!全球全模

帮忙选择菜单上的第端奶茶,不用说:

它还可以帮助轻松提炼长语音,不再需要面对一串几十秒的解开语音头皮麻木(doge)。

就在刚才,无问题的全球全模芯穹宣布开源世界上第一个端侧全模态理解的开源模型Megrez-3B-Omni,它不仅体积轻,第端速度快,态理而且是解开一个多才多艺的全能玩家,可以轻松处理图片、源模音频、全球全模文本三种模式数据。第端

在众多的态理评价基准中,Megrez-3B-Omni在图片、解开文本和音频三种模式下都获得了相同尺寸的源模最佳性能。作为3B模型,综合性能甚至可以超过34B模型。

具体来说,Megrez-3B-Omni采用30亿参数黄金尺寸,专为手机、平板等端侧设备量身定制,主干网络参数规模仅为2.3B,精度超过上一代14B模型,最大推理速度比同精度模型快300%

让我们来看看更多的技术细节~

图像理解

图像理解方面,Megrez-作为一个体积只有3B的模型,3B-OMNi的综合性能可以超过34B,现在OpenCompass、MME、MMMU、在OCRBench等主流测试集中,精度最高的图像理解模型之一。

与此同时,Megrez-3B-Omni 在场景理解、OCR其他任务也具有良好的性能,可以准确地洞察和分析任何比例图像中的场景内容,有效地提取文本信息,无论是模糊的印刷还是复杂的手写,都可以很容易地识别。

不仅能理解手机屏幕上的信息,还能给出辅助商品选择的条件。

读手写字体,同样容易做到:

文本理解

在文本理解方面,作为全模态理解模型,Megrez-在不牺牲模型文本处理能力的前提下,3B-Omni将上一代14B模型的优秀能力降低到3B,显著降低了计算成本,提高了计算效率。

在C-EVAL、MMLU/MMLU Pro、Alignbench等权威测试集获得了端模型的最佳精度,在文本理解方面确立了世界领先地位。同时,以更少的资源消耗实现了更高的性能输出,为端设备的智能化提供了进一步突破精度和速度边界的新可能性。

de个Bug,成功:

备忘录中的数据应急处理没有问题:

音频理解

在语音理解方面,Megrez-3B-Omni的效果与行业主流方案相媲美。Megrez-3B-Omni不仅支持中英文的语音输入,还可以处理复杂的多轮对话场景,还可以支持输入图片或文本的语音问题。

对于任何模态内容,用户发出语音指令,Megrez-3B-Omni可以根据语音指令直接响应文本,在多轮对话中输入语音和文本自由切换,让用户通过更少的动作与模型进行更直观、更自然的交互。

不怕遇到客户的超长语音连击:

支持语音问图,听口令写小作文:

推理效率高,应用场景灵活

模型的规模并不是决定其速度的唯一因素,所以小模型并不一定意味着速度快。通过对硬件特性的深入理解和利用,Megrez-3B-Omni 通过软硬件协同优化策略,确保各参数与主流硬件的高度适应,最大限度地利用硬件性能。

与上一代和其他端侧大语言模型相比,Megrez-3B模式LLM版本-Instruct 推理速度显著提高,最大推理速度可领先同精度模型300%。

Megrez-这次还特别提供了3B-InstructWebSearch该功能使模型能够智能地判断何时需要调用外部工具进行网页搜索,以帮助回答用户的问题。用户可以构建自己的人工智能搜索,通过网络获取最新信息,克服小模型的幻觉问题和知识储备不足的局限性。

有时,模型可以通过搜索网页更全面地完成答案,而在其他情况下,模型本身有足够的知识独立解决问题,过多的搜索呼叫可能会降低推理速度和效果。Megrez-3B-Instruct 在搜索和对话之间进行搜索和对话智能切换,避免过度依赖搜索或完全不调用搜索的问题。除了自动决策工具调用时间外,Megrez-3B-Instruct 还具有上下文理解性能优异、结构化输出可提供参考信息等优点。

目前,这些能力已经集成在Megrez-3B中-Instruct 在模型中,用户可以通过System Prompt 自由切换,享受高精度模型推理能力和智能WebSearch 调用收益。

One More Thing

与云大模型相比,端侧模型需要在资源有限的设备上快速部署和高效运行,对降低模型计算和存储需求提出了更高的要求。

核心圆技术团队起源于清华大学电子工程系NICS-EFC实验室,在模型压缩、推理加速、硬件能耗优化等领域具有深入的学术研究和工程实践经验。它是模型轻量化、软硬件协同优化领域的顶级团队。

无问芯穹表示,Megrez-3B-Omni是一个能力预览,Megrez系列将继续迭代,自动化水平将提高到“edge device use“效果,让用户只需给出简单的语音指令,就可以完成端设备的设置或应用操作,并将其作为“端模型” 端软件 终端IP“终端智能集成解决方案的重要组成部分被推向市场。目前,无问芯穹已与多家知名智能设备和终端芯片制造商合作。

除了端侧全模态理解模型外,还有端上推理软件和IP设计方案,不仅支持CPU、GPU和NPU 同时,通过跨越软硬件层次的系统优化,推理可以带来最高70%的性能提升,最大限度地利用端侧硬件的性能。

对于那些长期困于功耗、速度、耐久性和智能效果的端侧设备来说,这意味着更好的智能升级是可能的。

Github: https://github.com/infinigence/Infini-Megrez
HuggingFace:https://huggingface.co/Infinigence/Megrez-3B-Omni
登录Infini-AI异构云体验纯语言版Megrez-3BB-Instruct:https://cloud.infini-ai.com/genstudio/model/mo-qqiotql7

来源:量子位

很赞哦!(9)