微软发布Phi-3.5-vision轻量级、多模态的开源模型

文章4周前更新 admin
48 0

Phi-3.5-vision轻量级、多模态的开源模型,属于Phi-3模型家族。该模型专为需要文本和视觉输入的应用而设计,重点处理高质量、高推理密度的数据。它支持128K的上下文长度,并经过严格的微调和优化过程,旨在在内存或计算资源有限、低延迟要求高的环境中广泛用于商业和研究领域.该模型具备广泛的图像理解、光学字符识别(OCR)、图表和表格解析、多图像或视频剪辑摘要等功能非常适合多种A1驱动的应用,在图像和视频处理相关的基准测试中表现出显著的性能提升。使用高质量的教育数据、合成数据和经过严格筛选的公开文档进行训练,确保数据质量和隐私。其架构包括一个42亿参数的系统,集成了图像编码器、连接器、投影器和Phi-3 Mini语言模型。微软发布Phi-3.5-vision轻量级、多模态的开源模型
Phi-3、5-vision包括三款模型

1. Phi-3.5 Mini lnstruct:
参数量:3.82亿参数。
设计目标:这是一个轻量级AI模型,主要针对需要在内存或计算资源有限的环境中进行强大推理的场景,比如代码生成、数学问题求解以及基于逻辑的推理任务。
上下文长度:支持128K的token上下文长度,
性能表现:尽管模型体积较小,但在多语言和多轮对话任务中表现出色,在“长上下文代码理解”基准测试(RepoQA)中,超越了类似大小的模型(如Llama-3.1-8B-instruct和Mistral-7B-instruct)
应用场景:特别适合那些对计算资源要求较高的场景,能在保证推理能力的前提下减少资源消耗。

2. Phi-3.5 MoE (Mixture of Experts):
参数量:41.9亿参数(具有42亿活动参数,但实际活跃参数为6.6亿)
设计目标:这是微软首次推出的“专家混合”模型(Mixture of Experts)结合了多个不同类型的模,型,各自专注于不同的任务。这种架构使得该模型能够在多语言理解、代码和数学推理等复杂任务中表现出色。
上下文长度:支持128K的token上下文长度:
性能表现:在多个基准测试中超越了体积更大的模型,如在大规模多任务语言理解(MMLU)测试中,Phi-3.5 MOE 在STEM、人文学科和社会科学等多领域的5-shot测试中表现优异,击败了GPT-40mini.
应用场景:适用于需要处理复杂AI任务的应用,尤其是在多语言环境和复杂推理场景中表现突出。

3. Phi-3.5 Vision Instruct:
参数量:4.15亿参数
设计目标:这款多模态模型集成了文本和图像处理功能,特别适合处理诸如图像理解、光学字符识别(0CR)、图表和表格解析以及视频摘要等任务
上下文长度:同样支持128K的token上下文长度,
性能表现:该模型在多帧图像处理和复杂视觉任务中表现出色,能够高效地管理复杂的多模态任务。
模型的训练数据包括合成数据和经过过滤的公开数据,确保了高质量和推理密度。
应用场景:主要应用于需要综合处理视觉和文本数据的复杂任务中,如多帧图像对比和视频内容总结

模型下载地址:https://huggingface.co/microsoft/Phi-3.5-vision-instruct

© 版权声明

暂无评论

暂无评论...