视觉问答VQA共1篇
图片直接问答?LLaVA让AI真正「看懂」你的图🔥开源多模态神仙操作-Skill优仓

图片直接问答?LLaVA让AI真正「看懂」你的图🔥开源多模态神仙操作

LLaVA(Large Language and Vision Assistant)是一个开源视觉语言模型,融合CLIP视觉编码器与LLaMA语言模型,支持图像问答、多轮图像对话、场景理解和文档图像分析。提供7B到34B多种参数规模,...
Skill优仓的头像-Skill优仓Skill优仓6天前
0488