|
|
当前位置:首页 > 人工智能 > 视觉大模型拥有18亿参数 30亿的标注图像进行训练 |
视觉大模型拥有18亿参数 30亿的标注图像进行训练 |
来源:青源会 时间:2022/10/14 |
预训练大模型是过去几年AI发展主旋律,但是主要集中于自然语言处理L域。视觉L域 在2021年开始迎来进展。谷歌构建了一个扩展的ViT模型,拥有18亿参数,并使用30亿的 标注图像进行训练,在ImageNet上取得了新的记录(90.45%)。这一工作还表明,在视觉L 域上,模型同样符合Scaling Lawo即:模型越大、性能越好。
SwinV2则进一步证明了视觉大模型(30亿参数)在广泛视觉问题上的有效性,其在图像 分类、物体检测、语义分割和视频分类等任务上均达到了 SoTA性能。这一工作也验证了自监 督学习对于驱动大模型训练的有效性,基于SimMIM方法,SwinV2用相比谷歌小40倍的标 注数据(7000万)达成了十亿J视觉模型的训练。
|
相关推荐 |
»
任意文本到图像生成模型 DALLE模型 Imagen模型
» 2022人工智能时代的算法治理报告-构建法律、伦理、技术协同的算法治理格局 » 《2022年中国人工智能医学影像产业研究报告》基层篇 » 中国银行业协会团体技术报告《人工智能模型风险管理框架》 » 多模态预训练大模型-十大科技趋势 » Chiplet 的互联标准将逐渐统一,重构芯片研发流程 » 软硬融合云计算体系架构-十大科技趋势 » 计算光学成像-十大科技趋势 » 2023人工智能和虚拟现实将如何改变职场世界报告-人才获取的崭新时代 » 中小学阶段的人工智能课程报告-人工智能课程的重点考虑因素 » 深圳2023人工智能发展白皮书-人工智能产业链应用场景 » AI大模型市场研究报告(2023)迈向通用人工智能,大模型拉开新时代序幕 |
![]() ![]() ![]() |
![]() |
|
|
版权所有 © 创泽智能机器人集团股份有限公司 中国运营中心:北京·清华科技园C座五楼 生产研发基地:山东日照太原路71号 电话:4008-128-728 |