当闭环王者进入开源世界:苹果发布开源多模态大模型Ferret,可用于精准识别与定位图像里边的物体

来源: aicg搜索 日期:2025-05-06 10:46:00
aicg搜索首页AI教程资讯 → 当闭环王者进入开源世界:苹果发布开源多模态大模型Ferret,可用于精准识别与定位图像里边的物体

AI奇点网12月25日报道丨今年10月,苹果和哥伦比亚大学的研究人员低调地发布了一个名为「Ferret」(中文名:雪貂)的开源多模态大语言模型。这款大模型其实是苹果公司与哥伦比亚大学研究人员的合作成果。当时发布的内容包括了代码生成和权重,仅限研究用途,不可用于商业。因为没有太多的宣发,当时并未引起广泛的注意。

一直奉行闭环生态的苹果公司在今年 10 月正式加入了开源 AI 的圈子。Ferret 的推出展现了苹果对影响深远的 AI 研究的承诺。这款模型既能精准地识别图像并描述其内容,还能辨别和定位图像中的各种元素。

Ferret 有 7B 和 13B 两个参数量版本,是一个对标微软、谷歌的10B量级的小参数模型。此外,为了增强模型的能力,苹果专门收集了一个名为 GRIT 数据集。该数据集包含了 110 万个样本,涵盖丰富的层次空间知识。

苹果公司 AI/ML 研究科学家 Zhe Gan 在 10 月份发布的一条推文中解释了 Ferret 的用途 —— 一个可以在图像中 "以任何粒度对任何地方的任何东西进行参照和定位" 的系统。它还可以通过使用图像中任何形状的区域来做到这一点。

简单地说,该模型可以分析图像上绘制的区域,确定其中对用户查询有用的元素,并将其识别出来,在检测到的元素周围绘制一个边界框。然后,它就可以将识别出的元素用作查询的一部分,并以典型的方式作出响应。

例如,高亮显示图像中的动物图片并询问大模型“这是什么动物”,大语言模型可以确定该动物的种类,并确定用户所指的是动物群中的某只动物。然后,它还可以利用图像中检测到的其他项目的上下文,提供进一步的回复。

尽管苹果以往以其产品和技术的封闭性著称,但现在它通过GitHub发布开源大语言模型,正逐渐改变这一形象,展现出其在 AI 领域的活跃参与和创新精神。这不仅对苹果自身,也对整个 AI 领域来说,都是一个值得关注的重要发展方向。

GitHub开源代码:

https://github.com/apple/ml-ferret

读完这篇文章后,您心情如何?

  • 0 喜欢喜欢
  • 0 顶
  • 0 无聊无聊
  • 0 围观围观
  • 0 囧
  • 0 难过难过
相关资讯
推荐阅读
网友评论

热门评论

最新评论

发表评论

昵称:
表情: 高兴 可 汗 我不要 害羞 好 下下下 送花 屎 亲亲
字数: 0/500 (您的评论需要经过审核才能显示)
相关推送
1CodeGeex查看 2免费ChatGPT中文版—ChatGai查看 3AI提示语查看 4Tiamat AI查看 5Replace Background— ClipDrop查看 6iFoto查看 7 AutoDraw查看 8绘影字幕查看
AI使用攻略
更多+

CG艺术长廊 | AI技术前沿 | 创新应用案例 | 行业深度解析 | 搜索技巧指南 | 社区互动论坛 | AI教程资讯 | 网站地图

Copyright 2009-2016 //www.aisoh.cc/ 版权所有