Mistral AI发布了全新的Pixtral large模型,这是一款具备多模态能力的开源模型,基于Mistral Large2构建,参数量达到1240亿,并进一步扩展了图像与文本理解能力。
多模态能力:配备123B参数解码器和18参数视觉编码器,在文本处理能力基础上显著提升了视觉处理性能。
超大上下文窗口:支持128K Token,可同时处理多达30张高分辨率图像或复杂长文档
文档解析、图像理解、图表分析,
能够处理OCR(光学字符识别)、表格、公式和图形等多种输入格式。主要性能表现
1.MathVista(数学推理任务):
·该模型在视觉数据的数学推理方面取得69.4%准确率,领先于目前市面上所有同类模型。
2.文档与图表问答能力(DocVQA和ChartQA):
在复杂文档和图表推理中,Pixtral凭借强大的视觉理解能力超越GPT.-40和 Gemini-1.5Pro.
3.MM-MT-Bench(多模态综合评估)
这是一个开放源代码的评估框架,,模拟真实世界应用场景,Pixtral在其中全面领先Claude–3.5 Sonnet、GPT-40等最新模型
综合能力:
文本处理与视觉处理能力均达行业顶级,
适合复杂场景的语义推理、多模态问答和自动化任务
© 版权声明
文章版权归作者所有,未经允许请勿转载。
暂无评论...