微软发布Phi-3.5-vision轻量级、多模态的开源模型

文章1年前 (2024)更新 admin

423 0 0

Phi-3.5-vision轻量级、多模态的开源模型，属于Phi-3模型家族。该模型专为需要文本和视觉输入的应用而设计，重点处理高质量、高推理密度的数据。它支持128K的上下文长度，并经过严格的微调和优化过程，旨在在内存或计算资源有限、低延迟要求高的环境中广泛用于商业和研究领域.该模型具备广泛的图像理解、光学字符识别(OCR)、图表和表格解析、多图像或视频剪辑摘要等功能非常适合多种A1驱动的应用，在图像和视频处理相关的基准测试中表现出显著的性能提升。使用高质量的教育数据、合成数据和经过严格筛选的公开文档进行训练，确保数据质量和隐私。其架构包括一个42亿参数的系统，集成了图像编码器、连接器、投影器和Phi-3 Mini语言模型。
Phi-3、5-vision包括三款模型

1. Phi-3.5 Mini lnstruct:
参数量:3.82亿参数。
设计目标:这是一个轻量级AI模型，主要针对需要在内存或计算资源有限的环境中进行强大推理的场景，比如代码生成、数学问题求解以及基于逻辑的推理任务。
上下文长度:支持128K的token上下文长度，
性能表现:尽管模型体积较小，但在多语言和多轮对话任务中表现出色，在“长上下文代码理解”基准测试(RepoQA)中，超越了类似大小的模型(如Llama-3.1-8B-instruct和Mistral-7B-instruct)
应用场景:特别适合那些对计算资源要求较高的场景，能在保证推理能力的前提下减少资源消耗。

2. Phi-3.5 MoE (Mixture of Experts):
参数量:41.9亿参数(具有42亿活动参数，但实际活跃参数为6.6亿)
设计目标:这是微软首次推出的“专家混合”模型(Mixture of Experts)结合了多个不同类型的模，型，各自专注于不同的任务。这种架构使得该模型能够在多语言理解、代码和数学推理等复杂任务中表现出色。
上下文长度:支持128K的token上下文长度:
性能表现:在多个基准测试中超越了体积更大的模型，如在大规模多任务语言理解(MMLU)测试中，Phi-3.5 MOE 在STEM、人文学科和社会科学等多领域的5-shot测试中表现优异，击败了GPT-40mini.
应用场景:适用于需要处理复杂AI任务的应用，尤其是在多语言环境和复杂推理场景中表现突出。

3. Phi-3.5 Vision Instruct:
参数量:4.15亿参数
设计目标:这款多模态模型集成了文本和图像处理功能，特别适合处理诸如图像理解、光学字符识别(0CR)、图表和表格解析以及视频摘要等任务
上下文长度:同样支持128K的token上下文长度，
性能表现:该模型在多帧图像处理和复杂视觉任务中表现出色，能够高效地管理复杂的多模态任务。
模型的训练数据包括合成数据和经过过滤的公开数据，确保了高质量和推理密度。
应用场景:主要应用于需要综合处理视觉和文本数据的复杂任务中，如多帧图像对比和视频内容总结

模型下载地址：https://huggingface.co/microsoft/Phi-3.5-vision-instruct

# 文章 # 资讯文章

© 版权声明

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

AI导航站丨AI工具集丨为发现全球优质AI工具产品而生

友链申请免责声明广告合作合作共赢关于我们米集网站分类目录

Copyright © 2025 Ai导航站