南麻信息门户网
南麻信息门户网>时事>betway必威ios_为AI颠覆GPU!计算机史上迎来第三个革命性架构IPU

betway必威ios_为AI颠覆GPU!计算机史上迎来第三个革命性架构IPU

2020-01-11 15:54:17 来源:admin

betway必威ios_为AI颠覆GPU!计算机史上迎来第三个革命性架构IPU

betway必威ios,被誉为英国半导体之父,也是arm联合创始人的hermann hauser曾经这样说:“在计算机历史上只发生过三次革命,第一次是70年代的cpu,第二次是90年代的gpu,而graphcore就是第三次革命。” 他所指的正是graphcore率先提出的就是为ai计算而生的ipu(intelligence processing unit)。

内存墙是阻碍ai芯片性能提升的关键,因此计算架构的创新变得更加重要,不过这其中大部分的架构创新都是在已有的架构基础上。graphcore联合创始人兼ceo nigel toon在aspencore主办的2019 ceo峰会期间接受雷锋网采访时表示,graphcore开创了全新的处理器类型ipu,ipu是专为机器智能设计的处理器,能够满足人们对高效易于使用的处理器的需求。

左:graphcore销售副总裁/中国区总经理卢涛,右:graphcore联合创始人兼ceo nigel toon

左右逢源的英国ai独角兽

graphcore在风险资本的支持下于2016年在英国成立,成立三年时间,就获得了3.25亿美元的融资,去年估值就达到了17亿美元,其中的投资者既有像红杉资本这样的金融投资者,也有像戴尔、三星、微软等的战略投资者。

除了资本的认可,graphcore还获得了多位ai领域的知名学术投资人为其背书,比如deepmind 的联合创始人 demis hassabis、剑桥大学的 zoubin ghahramani 和 uber 的首席科学家、加州大学伯克利的 pieter abbeel 以及 openai 的 greg brockman、scott grey 和 ilya sutskever等。

被称为ai教父geoff hinton就曾说,“我认为我们需要转向不同类型的计算机。幸运的是,我这里有一个。”hinton伸手进入他的钱包,拿出一个又大又亮的硅片,这个硅片就是graphcore的ipu。

创立这家获得学界和资本都认可的两位创始人是nigel toon和simon knowles,graohcore也是他们的第二次创业。2002年,toon和knowles(现任graphcore cto)在英国bristol共同创办了icera,致力于打造3g modem芯片,2011年被英伟达以3.7亿美元的价格收购。

在icera被收购之后不久,nigel toon和simon knowles就在思考再次进行创业,基于两位创始人的经验以及对未来的判断,在2016年创立了了graphcore。如今,graphcore在伦敦、剑桥、台湾、北京、palo alto、oslo都设有办公室,员工人数将在今年底达到400人,ipu也已经于去年底推出。

那么,ipu为何能受到如此多的关注和期待?

全新类型处理器架构——ipu

nigel认为,ai有三类芯片,第一类是简单的小型化加速器,用于手机、传感器等;第二类是asic,比如谷歌的tpu;第三类是可编程处理器,目前市场上只有gpu,graphcore的ipu属于这个分类,但又有所不同,因为ipu是一个非常灵活的处理器,从零开始,是专门针对ai设计的处理器架构,在未来很多新的ai应用中,ipu也会表现的更好。

之所以要推出ipu,是因为nigel看到,如果只是针对基本的前馈卷积神经网络,gpu是一个非常好的解决方案,但随着网络变得越来越复杂,人们需要一个新的解决方案,asic和fpga的采用就已经证明了gpu的弱点。

“我们接触过的所有创新者都说使用gpu正在阻碍他们创新。如果仔细看一下他们正在研究的模型类型,你会发现他们主要研究卷积神经网络,递归神经网络和其他类型的结构,例如强化学习,并不能很好地映射到gpu。这也正是我们将ipu推向市场的主要原因。”

nigel指出,ipu是我们开创的一个全新的处理器类型,专为ai设计,ipu强大的并行处理能力实现了快速训练模型并进行实时操控。其实现在有一些国外公司也在说他们的产品叫ipu,但我们首创的这个叫法,而且技术产品跟我们相比还差很多。

那ipu架构到底独特在哪里?graphcore销售副总裁/中国区总经理卢涛对雷锋网表示,graphcore的ipu里面有1216个核,我们称之为tile,每个tile里都有计算单元和内存。由于同时有上千个处理器工作,所以单个ipu的存储带宽能达到45tb,比性能最快的hbm提升了50倍以上,在相同算力下,功耗也降低了一半。

根据graphcore的说法,ipu处理器是迄今为止最复杂的处理器芯片,基于16纳米的工艺集成了240亿个晶体管,每个芯片提供125 teraflops运算能力。借助ipu,一个完整的机器学习模型可以在处理器内部处理。而且ipu处理器具有数百兆字节的ram,可在处理器上以1.6 ghz的速率全速运行。

但是,提高带宽的同时,如何解决数据的通信以及提升数据的使用效率就是非常关键的问题,也是关键挑战。卢涛表示, ipu内部里有一个叫all-to-all总线,这个互联总线,可以高速实现任意一个核到另外一个核的直接访问。涉及到跨多个芯片的时,通过ipu-link就可以把多个ipu联结在一起,组成一个集群。当然,all-to-all总线中间的bsp(bulk synchronous parallel)协议,不仅用于同一个芯片的不同核之间,而且跨芯片的核之间也可以通过该协议透过 ipu-link 总线进行通信。

ipu-link最多可以支持128个芯片的互联,如果要进行更大规模的训练,可以通过以太网或者infiniband进行互联,另外针对超大规模ai 训练应用,graphcore还开发了专门的ipu-pod。ipu-pod 是由 ipu-machine 组成的 pod,每个 ipu-machine 上集成的ipu-gateway芯片里有一个叫做ipuof的技术,能够把几千甚至几万颗的 ipu 处理器连在一起。

解决了数据通信的问题,还有数据的效率问题。ipu没有采用传统处理器架构中保证多个处理器数据一致性的cache协议,而是通过bsp配合poplar软件栈的方式来提升效率。nigel toon表示,很多人都部署了bsp,但只是用在主机之间,也就是大规模的并行机制,我们在芯片上实现了bsp,同时配合poplar的软件栈工具/编译器,它会把算法模型、数据处理之后,映射或者分配到处理器的不同位置,并定义好交换和同步的时间等,不仅更易于使用,而且具有足够的灵活性。

这样即使对于算法公司而言,虽然处理器有1000多个核,7000多个线程,但是不需要太担心通信的问题,能够让算法工程师非常方便地用。

nigel toon总结表示,ipu与其它的ai芯片相比,有三个比较核心的区别:

第一,处理器核的架构不同,ipu是mimd的架构。

第二,ipu的模型在处理器内。

第三,大规模并行,ipu核之间的通信效率也非常高,这非常难,graphcore进行了大量的创新。

相同的ipu硬件就可用于推理和训练

对于芯片公司而言,设计出独特的芯片并不是最难的,更难的是获得客户的认可和采用。nigel toon表示,未来几年graphcore都会专注在算力比较密集的场景,而不会做终端的应用。ipu也更能够适应未来整个行业的变化非常快,模型的大小每3.5个月就会增长一倍。并且,模型参数增加一倍,但最后还是要拆成不同的尺寸,算力需求的增长将不止两倍,所以未来的算力需求将会呈现指数型的增长。

卢涛补充表示,现在ai做的主要是图片的目标识别,自然语言处理对算力的要求更高,未来视频的分析需要更高的算力,如何把ai应用到ar、vr都对算力提出了巨大的要求。

需要指出的是,使用相同的ipu就能进行ai训练和推理。在大家普遍的认知中,推理和训练对于算力有着巨大的需求,不过nigel toon认为,训练和推理技术上本质上没有很大区别,先通过数据训练出模型,部署的时候实际上是通过推理是把模型拿出来。在未来的应用里,部署的场景可能是推理,同时还要不停地训练和更新这个模型。

“从架构的角度,这对我们非常重要,因为随着机器学习演进,系统将能够从经验中学习。推理性能表现的关键包括低延迟、能使用小模型、小批次,以及可能会尝试导入稀疏性的训练模型;ipu可以有效地完成所有这些事情。”

据介绍,在一个4u机箱中,16颗ipu共同合作协作进行训练,每颗ipu可以执行独立的推论任务,并由一个cpu上执行的虚拟机来控制,最终得到一个可用于训练的硬件。一旦模型被训练、布署,随着模型演进且想要从经验中学习时,就可以采用相同的硬件。

卢涛进一步指出,由于ipu架构的特性,模型部署的时候精度和训练的结果会保持一致,另外在 ipu 里面要做的计算跟要处理的处理都是在本地,以及 ipu 这种超大规模小型向量机的架构,使得ipu做稀疏化应用场景的时候,天生性能就会更好。所以ipu既可以用于云服务器,在边缘端,ipu也非常擅长,自动驾驶就会是我们很重要的应用场景。

但还有一个关键问题,拥有如此多核心和片内存储的ipu是否会成本高昂?nigel toon表示不一定,因为客户都会关注效能,如果 ipu的架构在实际应用场景实现几倍甚至几十倍的性能优势时,实际的总体拥有成本还是大幅降低。

有意思的是,在技术创新的同时,graphcore也进行了商业模式的创新。nigel toon表示,我们目前没有采用传统芯片销售的模式,我们更多的是通过合作,有两大类公司会是我们的合作伙伴,一类是服务器公司,目前我们已经与戴尔易安信合作推出了ipu服务器,和中国的服务器厂商合作进展也很快,估计很快就会有搭载我们ipu的服务器上市。

另外一类是云服务提供商,在新的时代,it产品交付给最终的用户,云服务厂商非常重要。我们会和中国、美国的公司都进行合作,但具体的合作暂时还处于保密阶段。

最近,graphcore宣布与微软的具体合作内容,并正式发布microsoft azure上graphcore智能处理单元(ipu)的预览版,这是公有云领导供应商首次提供grapchoreipu。目前,azure上的graphcore ipu预览版现已开放供用户注册,专注于突破nlp界限并在机器智能方面取得新突破的开发者可获得优先访问权限。

对于中国市场,nigel toon表示中国是graphcore非常重要的策略性市场,graphcore的中国公司不仅会有销售和市场,还会注重工程技术方面的投入,会有很多定制化的开发工作,更好地与本地的社区、创新者一起用好ipu。

雷锋网小结

ai芯片要满足快速迭代的ai算法,算力的提升非常关键,但摩尔定律的放缓,让架构的创新变得更加重要,实际的情况是大部分创新都是基于已有的架构,graphcore表示其ipu架构进行了更全面的创新,我们可看到其获得了资本和学术界的好评。当然,除了硬件架构的创新之外,软件工具链poplar同样非常关键,这是ipu提升灵活性,降低算法开发者的应用门槛的核心,也是能比其它ipu性能更好的关键所在。

因此,ai的时代架构创新很重要,软硬件的协同更加重要。

雷锋网年度评选——寻找19大行业的最佳ai落地实践

创立于2017年的「ai最佳掘金案例年度榜单」,是业内首个人工智能商业案例评选活动。雷锋网从商用维度出发,寻找人工智能在各个行业的最佳落地实践。

第三届评选已正式启动,关注微信公众号“雷锋网”,回复关键词“榜单”参与报名。详情可咨询微信号:xqxq_xq

上一篇:王玉祥曾经领导一支部队,如今整体转隶,为兵服务的宗旨没有改变
下一篇:今年秋冬最流行的4种卷发,都是这么卷出来的