视觉问答VQA-Skill优仓

图片直接问答？LLaVA让AI真正「看懂」你的图🔥开源多模态神仙操作

LLaVA（Large Language and Vision Assistant）是一个开源视觉语言模型，融合CLIP视觉编码器与LLaMA语言模型，支持图像问答、多轮图像对话、场景理解和文档图像分析。提供7B到34B多种参数规模，...

Skill优仓4个月前

0598