9月25日消息,阿里巴巴集团CTO兼阿里云智能总裁张建锋在云栖大会期间宣布,发布含光800AI芯片,并宣称这是全球最高性能的AI推理芯片。与此同时,基于含光800的AI云服务也会正式上线,性价比可提升100%。
据介绍,目前,含光800已经实现了大规模应用,已应用于阿里巴巴集团内多个场景,未来还将应用于医疗影像、自动驾驶等领域。
张建锋表示,这是互联网公司研发的第一款芯片,是万里长征第一步,且完成这款芯片只用了一年半时间。
他进一步表示,阿里巴巴将成为一家软硬件一体化公司。
阿里方面宣称,在业界标准的ResNet-50测试中,含光800推理性能达到78563 IPS,比目前业界最好的AI芯片性能高4倍;能效比500 IPS/W,是第二名的3.3倍。
张建锋说:“在全球芯片领域,阿里巴巴是一个新人,玄铁和含光800是平头哥的万里长征第一步,我们还有很长的路要走。”
阿里方面表示,含光800性能的突破得益于软硬件的协同创新:硬件层面采用自研芯片架构,通过推理加速等技术有效解决芯片性能瓶颈问题;软件层面集成了达摩院先进算法,针对CNN及视觉类算法深度优化计算、存储密度,可实现大网络模型在一颗NPU上完成计算。
含光800已开始应用在阿里巴巴内部核心业务中。根据云栖大会的现场演示,在城市大脑中实时处理杭州主城区交通视频,需要40颗传统GPU,延时为300ms,使用含光800仅需4颗,延时降至150ms。拍立淘商品库每天新增10亿商品图片,使用传统GPU算力识别需要1小时,使用含光800后可缩减至5分钟。
过去半年,平头哥先后发布玄铁910、无剑SoC平台。随着含光800的发布,平头哥端云一体全栈产品系列已经涵盖处理器IP、一站式芯片设计平台和AI芯片。
关于含光800发布的QA:
1、含光800有何特点?
含光800是阿里巴巴第一颗自研芯片,也是全球性能最强的AI芯片,主要用于云端视觉处理场景,性能打破了现有AI芯片记录,性能及能效比全球第一,在业界标准的ResNet-50测试中,含光800推理性能达到78563 IPS,比目前业界最好的AI芯片性能高4倍;能效比500 IPS/W,是第二名的3.3倍。
含光为上古三大神剑之一,该剑含而不露,光而不耀,正如含光800带来的无形却强劲的算力。在杭州城市大脑的业务测试中,1颗含光800的算力相当于10颗GPU。
含光800已开始应用在阿里巴巴内部核心业务中。根据云栖大会的现场演示,在城市大脑中实时处理杭州主城区交通视频,需要40颗传统GPU,延时为300ms,使用含光800仅需4颗,延时降至150ms。拍立淘商品库每天新增10亿商品图片,使用传统GPU算力识别需要1小时,使用含光800后可缩减至5分钟。
含光800将通过阿里云对外输出AI算力。基于含光800的AI云服务当天正式上线,相比传统GPU算力,性价比提升100%。
2、从去年首次公布到现在,平头哥NPU团队过去一年主要做了哪些工作?
过去一年,平头哥团队在不断探索芯片与场景的融合。阿里巴巴拥有丰富的人工智能应用场景,图像视频分析、搜索、推荐这些业务场景都需要AI专用芯片提供算力,而图像、视频对算力的需求量最大。
围绕这一目标,平头哥针对场景深度定制了芯片的软硬件,例如自研了架构、软件编译器、框架、工具链等等。后期也针对INT8数据类型做了大量优化,最终在性能、良率、功耗等指标上均表现良好。
值得注意的是,平头哥用最短的时间完成了芯片的设计、流片整个过程,7个月完成前端设计,之后仅了3个月就成功流片。
3、含光800的核心优势是什么?能为企业带来什么价值?
在人工智能领域,要提升计算效率,芯片需要根据场景来实现更多的差异化设计。在人工智能视觉场景中,含光800可以提供全球最强的算力。
阿里巴巴是全球最大的人工智能应用者之一,丰富的场景为研发人工智能芯片提供了绝佳平台,这是平头哥的天然优势。依托阿里巴巴集团丰富的应用场景,平头哥早期就针对场景做了大量优化,因此实现了性能上的突破。
含光800的算力也不仅仅满足阿里巴巴集团内部场景的需求,还会通过阿里云对外输出,帮助企业用更低的成本获取高性能算力,加速业务创新,例如,对于受限于算力瓶颈的企业而言,含光800可以更高效地运行更复杂、更先进的算法。
4、平头哥如何实现算法和芯片架构的协同?团队做了哪些创新和突破?
事实上,平头哥研发芯片并非从0开始,在阿里达摩院的算法以及阿里巴巴集团硬件基础设施多年技术沉淀之上,含光800重构了芯片的软硬件技术栈。
由于人工智能芯片的差异化设计主要体现在硬件架构和软件算法上,二者需要高度适配才能发挥芯片的最大价值。从目前来看,传统CPU、GPU在深度学习推理任务上并没有完全发挥硬件能力,例如GPU架构主要针对图像处理设计,其硬件结构、软件生态几乎固化,因此对AI任务很难有深度优化。
含光800性能的突破得益于软硬件的协同创新,芯片架构方面,含光800采用创新的架构,针对深度学习中使用的大量权重参数和张量数据,在支持稀疏压缩与量化处理的基础上,通过独特设计的数据访存与流水线处理技术,大大减低了I/O需求和数据的搬移。NPU同时深度优化了卷积,矩阵乘,向量计算和各种激活函数,通过高有效的硬件资源调度和全并行的数据流处理,把AI运算的性能和能效双双推向极致。
算法方面,阿里巴巴达摩院机器智能实验室过去两年构建了完整的算法体系,涵盖语音智能、语言技术、机器视觉、决策智能等方向,并且取得多个世界领先水平的成果;硬件方面,阿里巴巴此前已在服务器、FPGA以及存储等领域拥有多年研发经验,此外,平头哥团队在体系结构、编译技术等领域拥有深厚的技术储备。
基于这些能力,平头哥突破了算法和硬件之间的鸿沟,基于阿里巴巴丰富的场景和达摩院算法能力,自研芯片架构,并且设计了完整软件栈。
这样的设计理念效果立竿见影,例如功耗是人工智能芯片行业通病,平头哥自研架构可大幅减少对内存的访问,在保证极致性能的情况下,把芯片功耗降到最低水平。
5、芯片流片以及具备商用能力的难点分别在哪?
芯片设计是一个复杂的系统工程,单纯完成设计并不意味着就可以流片成功,这是行业的深水区,假如流片失败,就意味着硬件设计需要推倒重来,这比软件出BUG问题更加严重。一般芯片公司需要做两次(engineering sample、production sample)或多次才能流片成功。
而流片成功后也不代表就可以直接商用了,它还需要经过复杂的测试验证,在各项指标都符合实际场景需求后才到了真正的商用阶段。
需要说明的是,含光800已经完成了整个过程,应用于阿里巴巴集团内部各大场景,这背后主要得益于阿里软硬件的深厚积累,以及丰富的验证场景。
6、通俗地解释下该芯片是如何处理神经网络结构工作的?如何加速人工智能计算?
顾名思义,神经网络处理器就是专门处理深度神经网络算法的芯片,深度神经网络就是一种模仿生物神经网络结构特点的计算机算法,最基本的特征就是模仿大脑神经元之间传递模式,并对输入的信息进行快速处理。
传统通用处理器基于冯诺依曼结构,其存储和运算处理是分离的,如果处理深度神经网络,需要大量读写运行操作,会受到带宽限制,因此效率较低。
而以含光800为代表的神经网络芯片,根据神经网络推理运算特征,设计特定的硬件神经元、高速连接的存储结构以及专用指令集,对内存和计算单元实现高效组织管理,实现单条指令完成多个操作,提高计算效率和内存访问效率。
7、在阿里云数据中心里,这款芯片与GPU、FPGA的关系如何?
在人工智能场景中,含光800是异构计算很好地补充,通过阿里云可以为企业提供更多的选择,未来平头哥还会推出更多形态的人工智能芯片,在终端、云数据中心都会有更大规模的部署和应用。
8、企业如何获取含光NPU算力?
含光800已开始应用在阿里巴巴内部核心业务中,含光800将通过阿里云对外输出AI算力。基于含光800的AI云服务当天正式上线,相比传统GPU算力,性价比提升100%。端云一体芯片是平头哥的主要方向,终端玄铁处理器可以与云端含光800芯片协同。
9、是否会对外售卖?
含光800主要通过AI云服务提供算力。
平头哥致力于做普惠芯片,无剑SoC平台和玄铁处理器IP来帮助企业降低芯片设计门槛;含光800通过阿里云AI云服务的形式让企业随时随地可以享受高性能计算服务。
10、如何定义平头哥模式?
和绝大多数芯片商不同的是,平头哥的目的并非卖芯片,公司延续了母体阿里巴巴集团“让天下没有难做生意”的愿景,开辟了全新的商业模式(平头哥模式),致力于为企业提供普惠算力,目前已经拥有全栈芯片产品家族,涵盖终端处理器IP、终端芯片设计平台SoC、云端AI芯片。
AIoT场景需要新的计算架构,需要安全、在线和智能等新的特性,所有芯片面临升级,这必将在芯片行业将引起一波全新技术革命和产业浪潮。但AIoT市场有强应用驱动和场景碎片化等特点,芯片公司按照传统的方式设计芯片很难去适应未来的需求,平头哥希望通过端云一体芯片生态为各行业提供普惠算力。
11、平头哥如何构建生态?
平头哥正在打造完善的行业生态和开发者生态。
在云端,全球前三、亚太第一的阿里云为平头哥服务企业提供了绝佳平台,未来企业可以通过阿里云轻松获取含光800的极致算力。
在端侧,平头哥已拥有成熟的生态体系, CK801、CK802、CK803、CK805、CK807、CK810、CK860等7款自研嵌入式CPU IP核均已得到大规模量产的验证,授权客户超100家,累计销售超十亿颗,广泛应用于机器视觉、工业控制、车载终端、移动通信和信息安全等领域;除此之外,基于RISC-V架构的玄铁处理器以及无剑SoC平台也已服务各行业企业,例如人工智能企业云天励飞、老牌芯片商炬芯科技等。
另一方面,平头哥还将成立芯片开放社区,进一步为芯片产业提供开放协作的平台。
12、平头哥产品家族有哪些?未来有什么规划?
随着含光800的发布,平头哥端云一体全栈芯片产品家族雏形已现,实现了芯片设计链路的全覆盖,涵盖处理器IP玄铁系列,一站式芯片设计平台无剑SoC,以及AI芯片含光800:
? 基础单元处理器IP,C-Sky系列、玄铁系列为AIoT终端芯片提供高性价比IP;
? 一站式芯片设计平台,无剑SoC平台集成CPU、GPU、NPU等,降低芯片设计门槛
? AI芯片,含光800通过AI云服务为人工智能场景提供极致算力。
这三大产品系列将构建端云一体的芯片生态,为企业提供普惠算力。
未来,产品形态还会进一步完善,例如云上AI训练芯片和端上的AI推理芯片,目前平头哥还在研发用于阿里云神龙服务器的SoC专用芯片,以满足更多场景的算力需求。
13、阿里巴巴芯片、云、AI三大业务的关系
芯片、AI和云计算之间相互融合、协调发展是大势所趋,阿里巴巴坚持芯片、AI和云计算三位一体、协同发展:人工智能算法逐渐集成到芯片,集成算法的专用芯片为云服务提供了更强的性能,而云计算本身则加速了人工智能应用的大规模落地。
过去十年,阿里巴巴的AI和云计算齐头并进,在这两大领域,已经跻身全球前列。
作为业界最大的人工智能应用者之一,阿里巴巴拥有丰富的应用场景,在此之上达摩院已建成完善的算法体系,涵盖语音智能、语言技术、机器视觉、决策智能等方向,并取得多个世界领先水平的成果,在国际顶级学术会议上共发表了近400篇顶级论文;阿里云稳居全球云计算厂商前三、亚太第一的位置,超过一半的中国A股上市公司和80%中国科技类企业在使用阿里云的服务。
平头哥则得到了达摩院和阿里云的软实力加持,例如基于达摩院的算法能力,打破了算法和硬件之间的鸿沟;基于阿里云飞天云平台的优势,快速形成了端云一体芯片生态,玄铁系列处理器以及无剑平台大幅降低终端芯片设计的门槛,含光800通过阿里云输出给全社会,让企业随时随地可以享受到极致算力。
14、阿里为何做芯片?
总体来说,芯片是计算力的核心。计算力是所有互联网应用的基础。研发芯片可以降低阿里巴巴经济体整体计算的成本,还可以以云服务的方式交付,以更高的性能和更低的成本赋能更多的企业。
阿里巴巴经济体横跨电商、金融、物流、云计算、大数据、全球化等场景,用户规模庞大,拥有世界上最挑战、最丰富的计算场景、网络场景、机器学习场景,需要使用大量芯片。 阿里巴巴坚持以技术创造新商业,于2017年成立达摩院,布局颠覆式技术创新研究,在芯片等关键领域做基础性技术的研究投入,为未来发展提供更多战略可能。
基于以上原因,阿里巴巴坚定布局先进芯片技术,并成立独立运营企业,打造国际领先的人才团队,专注高水平芯片研发和产业化。
15、未来阿里芯片布局方向还会有哪些战略思考?
阿里在芯片上的定位是:端上做芯片基础设施,云端为企业提供普惠算力。例如,处理器是所有高端系统芯片都需要的基础产品, AI芯片是人工智能场景最高效的算力单元,阿里将投入重金打造好这些技术,同时构建应用生态。
除此之外,平头哥还将继续开发操作系统,软硬件融合的算法,核心的IP等。把这些共性的技术能够做好做精做出竞争力,并形成生态,然后开放给我们的芯片设计产品,让他们基于高质量的基础设施打造芯片产品,有助于提升整体的产业竞争力。
特别声明:
转载上述内容请注明出处并加链接。上述内容仅代表作者或发布者的观点,与中国电子商会官网的立场无关。如有任何疑问或了解更多,请与我们联系。电话:4008 900 668 邮箱:service@cecc.org.cn
随着人工智能大模型的加速发展,智能手机正在拥抱这一新机遇。苹果、三星、华为、荣耀、vivo、OPPO、小米、魅族等企业纷纷布局AI(人工智能)手机,推动AI技术在手机行业快速发展和广泛应用。...
2024-03-20中央经济工作会议明确提出,“发展数字经济”“加快推动人工智能发展”。人工智能已经成为经济社会发展的驱动力量,加快发展新一代人工智能是我们赢得全球科技竞争主动权的重要战略抓手。必须抓住新一轮科技革命和产业变革的战略机遇,充分发挥我国超大规模市场应用场景丰富的独特优势,加快人工智能领域的科学技术创新,以人工智能高质量发展和高水平应用培育经济发展新动能。...
2024-03-20