Future Tech

[转贴] 打造大模型“新Linux”生态!智源将大模型技术开源,算法、数据、评测全覆盖

Tan KW
Publish date: Wed, 01 Mar 2023, 10:54 PM
Tan KW
0 462,367
Future Tech
打造大模型“新Linux”生态!智源将大模型技术开源,算法、数据、评测全覆盖

智东西(公众号:zhidxcom)
作者 | ZeR0
编辑 | 漠影

智东西3月1日报道,昨日,北京智源人工智能研究院(简称“智源研究院”)发布FlagOpen(飞智)大模型技术开源体系,旨在打造全面支撑大模型技术发展的开源算法体系和一站式基础软件平台,支持协同创新和开放竞争,共建共享大模型时代的“新Linux”开源开放生态。

智源研究院院长黄铁军在致辞中分享说,移动互联网时代只有封闭生态iOS和准封闭生态安卓,在智能时代的选项已经很清楚——真正的开源开放生态,是唯一的出路。

“智能时代需要真开源,不是安卓那样的利用开源,不是某一企业控制的开源,而是完全在开源社区发展的大家的开源,就像Linux、RISC-V和2022年完全转入开源社区的PyTorch。”他认为,“大模型时代需要这样的开源,也只有这样的开源体系,成为哺育智能之树蓬勃生长的大地母亲。”

LF AI&DATA基金会董事主席、华为计算开源业务总经理堵俊平也谈道,AI研发特性建立在“充分协同”之上的创新,具有高度全球化、数据集、人才密集等特性以及周期长、投入高、风险高、落地门槛高等挑战,因此开源可发挥关键作用。“未来,大模型领域一定会出现类似Linux的开源生态体系,开源开放加速AI技术创新。”

今日发布的FlagOpen(飞智)大模型技术开源体系,包括集大模型算法和工具为一体的大模型算法开源项目FlagAI、面向AI异构芯片的AI系统性能评测开源项目FlagPerf、大模型评测开源系统FlagEval、数据工具开源项目FlagData、基于大模型技术的AIGC应用FlagStudio、AI应用微服务框架开源项目FlagBoot等。

FlagOpen开源平台入口: https://flagopen.baai.ac.cn

GitHub地址:https://github.com/Flag-Open/FlagAI

会上,智源研究院还宣布开放中文世界首个开放数据标注平台OpenLabel,并与CSDN合作启动”数据飞轮”开放数据互助公益计划,旨在建设动态开放的重要大型数据集,为大模型、AIGC发展创建丰富权威的大模型训练数据来源。

为了推动优秀大模型技术人才培养,智源研究院与中国移动研究院、中科曙光、国家先进计算太原中心合作,与多所顶尖高校联动,面向交叉学科背景学生与相关领域学者推出大模型前沿训练营,通过举办系列人工智能前沿公开课、创新应用大赛与前沿讲习班,为大模型技术研究和产业发展培养具有实战经验的系统性人才。

打造大模型“新Linux”生态!智源将大模型技术开源,算法、数据、评测全覆盖

FlagOpen大模型技术开源体系已与中国移动、浪潮信息、昆仑芯科技、天数等多家知名企业达成生态合作,并将FlagAI开源工具部署在中国移动九天毕昇教育平台、浪潮AI Station等平台。

一、智力是智能时代公共产品,开源开放加速AI技术创新

北京市副市长于英杰和科技部高新司副司长梅建平出席工作会并致辞。

于英杰副市长指出,智源研究院发布的FlagOpen大模型技术开源体系,是智源及上下游生态合作机构联合开展技术攻关的成果展现,为大模型技术创新提供了“北京贡献”。

他对于大模型的发展提出了三点期望:一是要抓住大模型发展机会,保持定力,强化基础,要聚焦源头,创新底层技术,大力突破核心关键技术,抢占制高点;二是应用导向,推动大模型应用生态建设,要加快大模型创新应用开发及API服务开放,形成数据飞轮效应,发挥大模型的通用泛化能力,赋智经济社会发展;三是科研机构、企业等要围绕算法及技术研究、数据等加强协同创新,建立开源开放的合作生态。

梅建平副司长指出,面对大模型引发的人工智能技术范式变革趋势,科技部从2021年开始超前布局大模型旗舰项目群,着力打造开源开放的大模型创新生态体系。“人工智能基础模型支撑平台与评测技术”旗舰项目是整个项目群的核心,由智源研究院联合30多家产学研单位共同承担。FlagOpen大模型技术开源体系即是旗舰项目的阶段性成果,将对我国大模型技术创新能力的提升提供重要支撑。

此外,他谈道,为满足大模型发展所需的算力需求,科技部正在推动建设“国家公共算力平台”和“中国算力网”,为科技创新和产业智能化转型提供普惠算力。科技部也将组织探索研究大模型的伦理治理问题,让大模型技术趋利避害,更好地发挥前沿技术的赋能作用。

智源研究院院长黄铁军分享了关于AI基础模型及应用生态的内容,AI之争最终是生态之争,AI生态包括基础软硬件、基础模型、创新应用三个层次,而基础模型是AI生态的“腰”,AI基础模型向上支撑赋智经济社会各类应用,向下带动基础软硬件智算体系。我国智能应用具有独特优势,基础软硬件则相对薄弱。

打造大模型“新Linux”生态!智源将大模型技术开源,算法、数据、评测全覆盖▲智源研究院院长黄铁军

恰适以基础模型为桥梁,带动AI基础算法、云边端芯片和开源开放平台研发,构建自主可控的基础软硬件技术体系和汇融算力及数据资源的国家智算体系;打造AI基础模型开源技术体系,助力产出规模和性能国际领先的模型,支撑应用创新和国际拓展。

自18世纪以来,每次技术革命都伴随着新的基础设施建立和完善。在智能时代,算力和数据是生产要素,算法是工艺,智力是公共产品。在智能时代,大模型和基础软硬件都需要加快建立AI开源开放生态,走“Linux+RISC-V”之路。

智源研究院2020年搭建大模型攻关团队,2021年6月推出当时规模最大、性能领先多模态大模型“悟道2.0”。为了推动大模型方向的协同创新,在“科技创新2030”新一代人工智能重大科技项目支持下,2023年初,智源研究院联合30多家产学研单位共同承担的旗舰项目“人工智能基础模型支撑平台与评测技术”全面启动。经2个月集中攻关,开发出FlagOpen(飞智)大模型技术开源体系。

据介绍,“新一代人工智能”大模型旗舰项目采取“1+X+Y”项目群,“1”即AI基础模型支撑平台与评测技术,“X”即通过“赛马制”动态遴选一批关键技术项目,“Y”即一批应用示范项目。

2023年,“新一代人工智能”大模型旗舰项目立项支持了8项关键技术项目,今年将对这8项关键技术项目及所有愿意参加协同创新的技术和算法组织公开公平的评测,遴选优秀算法和技术进入大模型开源体系,得到国家项目支持但贡献小的团队将被淘汰,未得到国家项目支持但贡献大的团队来年将优先得到支持。

未来三年,新一代人工智能”大模型旗舰项目将致力于打造更强大的多种模态训练及评测数据体系、最完整的大模型评测平台、领先的大模型技术开源体系(FlagOpen)。

二、FlagOpen:建设大模型领域的“Linux”

智源研究院副院长兼总工程师林咏华在演讲中谈道,大模型+AIGC带来了当前AI的可能拐点,大模型工业应用探索初见成效,AIGC的成功需要大模型技术全栈的创新突破。

对此,智源研究院与多家企业、高校和科研机构共建的一站式、高质量的大模型开源开放软件体系——FlagOpen(飞智)大模型技术开源体系,包括大模型算法、模型、数据、工具、评测等重要组成部分,旨在建设大模型领域的“Linux”。

基于FlagOpen,国内外开发者可以快速开启各种大模型的尝试、开发和研究工作,企业可以低门槛进行大模型研发。同时,FlagOpen大模型技术开源体系正逐步实现对多种深度学习框架、多种AI芯片的完整支持。

FlagOpen将通过Linux基金会、启智社区等开源组织,推动国内外开发者协同创新。通过开源开放方式,全球开发者可以自由探索、共同贡献、协同创新。未来,FlagOpen也将支撑全球AI企业、机构基于FlagOpen构建AI大模型软件发行版本、平台、商业软件等。

智源研究院发布FlagOpen飞智大模型技术开源体系,主要包括:

打造大模型“新Linux”生态!智源将大模型技术开源,算法、数据、评测全覆盖

1、FlagAI:大模型算法、模型及工具一站式开源项目

FlagAI项目提供了一站式领先、高质量的高效、易用、灵活的大模型算法与工具,旨在降低行业企业使用大模型的开发和应用门槛,提高大模型的开发效率。

该开源项目现涵盖涉及语言、视觉、多模态等多种模态的60多个国内外主流开源基础大模型,包括如语言大模型OPT、T5,视觉大模型ViT、Swin Transformer,多模态大模型CLIP等;以及大模型的各种优化工具,包括训练并行、加速技术、高效压缩、高效微调、推理加速等开发工具,可支撑大模型的多领域下游任务。

智源研究院也持续将“悟道”大模型项目成果开源至FlagAI,包括“悟道2.0”通用语言大模型GLM,“悟道3.0”视觉预训练大模型EVA,视觉通用多任务模型Painter,文生图大模型AltDiffusion(多语言),文图表征预训练大模型(多语言)、EVA-CLIP(英文),阿拉伯语大模型ALM,百亿语言基础模型CPM3等。

目前,FlagAI已经加入Linux基金会,吸引全球科研力量对大模型技术共同创新、共同贡献。

项目地址:
https://github.com/FlagAI-Open/FlagAI

2、FlagPerf:面向多种AI硬件的一体化评测引擎

AI硬件评测对AI生态有重要价值,但由于AI软硬件技术栈异构程度高、兼容性差,应用场景复杂多变,给评测本身带来了很多挑战。当前业界缺少被广泛认可的、中立的、开源开放的、针对异构芯片的评测体系。

面向AI异构加速系统,FlagPerf提供了一套开箱即用的通用Benchmark平台,希望共同探索开源、开放、灵活、公正、客观的AI硬件评测体系,建立支持多种深度学习框架、最新主流模型评测需求、易于AI芯片厂商插入底层支撑工具的AI系统评测生态,不以排名为核心目标,而以提供行业价值、促进AI产业生态发展为愿景。

目前有多家单位参与共建或试用FlagPerf,该项目已和天数智芯、百度PaddlePaddle、昆仑芯科技、中国移动等深度合作,共同推进AI硬件评测建设。

项目地址:
https://github.com/FlagOpen/FlagPerf

3、FlagEval:多领域、多维度的基础大模型评测开源项目

学术界一直缺乏能涵盖多种模态领域、多种评测维度的统一化评测体系和项目。尤其在AIGC的发展浪潮下,如何对生成任务进行更高效、更客观的评价,是阻碍大模型落地的重要制约。

智源研究院将联合多个高校团队,共同打造覆盖多个模态领域、包含评测维度的评测工具FlagEval,探索大模型自动评测技术,推动大模型技术创新和产业应用。

FlagEval旨在打造一站式的科学、公正、开放的基础模型评测基准及工具形成基础模型评估新范式,首先开放近期备受关注的多模态领域-CLIP系列模型评测工具,支持多语言多任务、开箱即用。之后更多领域、更多维度的评测工具将陆续发布。

项目地址:
https://github.com/FlagOpen/FlagEval

4、FlagData:开箱即用、易于扩展的数据工具开源项目

随着大规模预训练模型及相关技术不断取得突破,在相应研究中使用高效数据处理工具提升数据质量变得日益重要。智源研究院长期投入数据建设工作,构建了全球最大WuDaoCorpora语料库,同时开发了一批数据处理的高效工具。

FlagData数据工具开源项目集成包含清洗、标注、压缩、统计分析等功能在内的多个数据处理工具与算法,可实现从原始网页到文本的清洗隐私、噪声、安全性过滤,支持多种文本、图片标注任务,助力提高数据处理效率。

项目地址:
https://github.com/FlagOpen/FlagData

5、FlagStudio:利用AI大模型支持艺术创作应用

FlagStudio基于AltDiffusion和AltDiffusion-m9文生图大模型提供中英双语和9语(英语、中文、日语、法语、韩语、西班牙语、俄罗斯语、意大利语、阿拉伯语)文生图能力,并提供微信小程序图片快速生成入口,提供企业端API调用。

该开源项目提供多种预训练模型,能够大幅降低文生图prompt(提示词)撰写门槛,而且支持图片局部修改,可提升文生图算法的可控性,同时支持多模型快速切换和图片快速生成。

为促进人工智能与经济社会发展深度融合,智源联合多家单位开展大模型行业应用探索,主要有:联合中国移动研究院建立AI基础模型服务开放实验室,面向行业应用场景的听觉内容分析等领域进行大模型研究与应用;联合浪潮信息建立大模型开源生态联合实验室,共同推动国产AI硬件底层软件的完善;联合中国电子云建立大模型国产算力云平台开放实验室,探索国产CPU的大模型适配部署;联合航天信息建立智慧政企人工智能开放实验室,探索税务、政务领域的模型能力调优、模型研发、算法研究等;联合启元世界建立认知决策大模型开放实验室,探索AI NPC、数字人AI等场景的大模型应用;联合核桃科技建立国产3D图形化AI编程平台开放实验室,共同开展基于开源体系的国产化编程平台工具研发。

三、ChatGPT相当于点亮一个街区,距离电服务进入千家万户还有很长的路

会后,智源研究院院长黄铁军、智源研究院副院长兼总工程师林咏华接受智东西等媒体的采访。

林咏华告诉智东西,不同于MLPerf等基准测试网站,AI硬件评测开源项目FlagPerf旨在解决硬件在产业落地困难的问题,降低芯片厂商和用户企业为建设评测体系而付出的大量成本,以促进更多芯片企业的成功。如果用户企业想要做评测,直接下载这样的开源软件即可很方便地进行一体化评测。

此外,MLPerf虽然定期公布新的评测榜单,但很少更新迭代评测集,难以跟上最新的大模型、AIGC的系统评测需求。相比之下,FlagPerf评测包中会第一时间将用户企业关心的新AI应用,尤其是大模型应用纳入其中,以对AI系统进行评测。

谈及开源的考量,林咏华说,当前的FlagOpen还是处于初级阶段。“一方面,我们希望通过开源发布,让更多企业和团队可以更加便利、开放地进行创新合作,从现在开始,共同推进FlagOpen往前发展;二是帮助缺乏大模型开发经验的团队借助FlagOpen,可以快速上手开展大模型的研发。”

打造大模型“新Linux”生态!智源将大模型技术开源,算法、数据、评测全覆盖▲智源研究院副院长兼总工程师林咏华

黄铁军谈道,大模型不是一切,只是露出海平面的冰山一角,ChatGPT或大模型是将AI转入全民应用的代表性产品,但远非AI技术生态的全部。

他用电力打了个比方,现在AI相当于发展到有企业搭建了小型电网、服务一群用户,做大模型只是说明造出了发电机、可以发电,ChatGPT相当于点亮了一个街区,但距离建设更大范围的电网、让电作为服务进入千家万户还有很长的路。这个路背后就是大量的技术研究与创新合作。

他希望大家的关注焦点从海平面上的部分现象级应用或大模型产品回到底层技术体系和持续不断的创新,从长远考虑,打好根基,形成完整的大模型技术体系及强大的资源能力,未来才能产生更多的“ChatGPT级”的现场级应用。

FlagOpen正是为了建立大模型技术体系而开展的基础性工作,通过开源开放的形式促进各类机构共创共享,形成良好生态,共同打牢大模型发展根基,未来将面向各类企业提供大模型相关技术服务,支撑各行业智能应用开发。

结语:开源开放,才能走向下一代人工智能

由于现有AI算法存在难以透彻理解的技术特性,开源开放方能推动AI基础技术发挥最大效益,淘汰低水平重复项目,并加速成果转化。

近年来,得益于底层基础技术的创新突破,大模型发展成全球竞争热点,但从数据清洗到模型训练、调参优化再到部署运营,每个环节都要消耗大量的资源和时间,高昂的开发和迭代成本,严重阻碍了下游的推广和应用,导致大模型至今仍是少数人的“游戏”。

而FlagOpen大模型技术开源体系的推出,为企业、高校团队及科研机构提供了一个验证大模型相关技术创新性、降低开发及应用门槛的平台,并将业界现有资源形成聚力,这将对加速构建模型技术创新体系和生态发展产生积极的影响。

 

https://zhidx.com/p/364886.html

Discussions
Be the first to like this. Showing 0 of 0 comments

Post a Comment