清华可重构技术再下一城!对话清微智能CEO,视觉芯片月出货数十万颗

芯东西(公众号:aichip001)

文 | 心缘

距离2021年还有六周,AI芯片光景如何?哪些创新技术和落地场景正在脱颖而出?什么方向最为赚钱?投资界又最关注哪些焦点?

12月1日,GTIC 2020全球AI芯片创新峰会将给出答案,我们邀请了来自产学界的近20位技术大牛和产业大咖,探讨AI芯片的自主创新、规模化落地、生态建设以及生存法则(www.88sn.cn)。

脱胎于清华大学微纳电子系的清微智能,正是兼具创新架构与快速落地变现能力的明星AI芯片创企代表之一。

在峰会到来前,芯东西与清微智能CEO王博进行深入交流,看这家成立仅两年零四个月的创企,在将创新技术转为商业成果的道路上已经行进了多远。

继去年语音AI芯片TX210出货量数百万颗后,清微智能的多模态智能计算芯片TX510已于今年7月底开始量产,迄今出货量数十万颗。

王博告诉芯东西,接下来三四个月,TX510芯片每个月预计将出货逾20万颗左右。

在两周后的GTIC AI芯片创新峰会中,清微智能首席科学家、清华大学长聘教授、微纳电子系副主任、微电子学研究所副所长尹首一博士将带来《中国AI芯片的创新之路》演讲。

一、脱胎清华微纳电子系,深挖洞、广积粮

清微智能AI芯片的核心技术可重构计算,源自清华可重构计算研究团队过去14年的积累。

自2006年起,由清华大学魏少军教授、尹首一教授带队的清华可重构计算研究团队就在持续深入研究可重构计算技术,并基于这一技术设计出数款Thinker系列终端AI芯片。

这是一种全新的芯片架构技术,兼具通用芯片灵活性专用集成电路高效性的优点,能根据不同的算法和应用需求灵活配置硬件资源,从带来更高的有效算力和更低的功耗。

基于可重构技术的Thinker系列芯片设计方案一问世,便立即收获国际学术界的认可。比如Thinker-I首次出现在2017 VLSI国际研讨会上时,外界评价它“突破了神经网络计算和访存瓶颈,实现了高能效多模态混合神经网络计算。”

这使得当时还在一家云计算方案供应商负责智能硬件产品的王博嗅到机会,他在做一款人脸识别智能门锁时就发现,市面上的各类芯片难以满足他们对能效比等性能的需求,而可重构计算技术似乎是一个极具希望的突破口。

王博的高中同学是尹首一的大学同学,两人结识后,2018年7月,王博牵头在北京成立清微智能公司,由王博担任CEO,尹首一任首席科学家,清华大学博士欧阳鹏任CTO和Thinker芯片主架构师,将技术产品化。

刚创立时,清微智能的技术团队仅一二十人,如今其团队规模已扩展至近200名员工,研发的两款终端AI芯片均稳步推进商用。

成立不到一年,清微智能就实现首款可重构超低功耗语音AI芯片TX210的百万数量级量产。

成立不到两年,其首款同时支持视觉和语音处理的多模态智能计算芯片TX510芯片在智能家居、金融支付等场景量产落地,在工业机器人、航空等领域也已分批交付客户。

而两款芯片的顺利落地,也成为可重构计算超强灵活性的有力例证。

二、可重构计算架构:超低功耗、高度灵活

《国际半导体技术路线图》称可重构技术是最具前景的未来计算架构。美国国防部高级研究计划局从2017年开始,投入巨大精力支持“运行时快速重构”的硬件架构研究。

而清华大学团队提出可重构计算概念时,比美国足足早了10年有余,且重构速度是美国国防局同类研究的十多倍。

在2019年的GTIC全球AI芯片峰会上,魏少军教授曾展示这样一张PPT。他将芯片分成三部分:第一部分是可更多编程的,如CPU;第二部分是能少量编程的,如GPU;第三部分是不能编程的,如专用芯片。

传统终端AI芯片通常基于CPU、GPU、DSP、NPU等架构,这些架构属于“指令驱动”的时域计算模式,在面向某一特定领域的计算过程,往往存在高能效和灵活性不兼得的问题。

比如,旗舰手机AI芯片不适用于安防摄像头、智能可穿戴等场景,大多数语音AI芯片也基本上都不能承担视觉处理任务。

而清华大学Thinker团队致力于研究一种无需指令驱动动态可重构计算架构(Coarse grain reconfigurable architecture,CGRA)。

该技术由数据流驱动,面向异构的空域计算,将软件通过不同的管道输送到硬件中来执行功能,能实时地根据算法和产品的需求改变硬件资源,从而以更高的资源利用率和数据复用率去计算特殊需求,在合理分配和使用算力的同时,成倍节约数据存储和传输带宽。

▲多尺度可编程的时空域联合重构计算模式

王博说,这一架构适合AI、视频编解码、语音处理等计算密集型场景,而不适用于以逻辑判断为主的非计算密集型场景。

相比CPU、GPU等通用芯片,可重构计算架构的能效明显更高相比专用集成电路(ASIC)的固定电路结构,它又可以根据应用或者算法进行电路配置,具有非常强的灵活性

在具体芯片设计上,清微智能研发的AI芯片支持1-16bit的混合精度计算,同时还优化了非神经网络逻辑的计算效率,并在算法压缩、量化及硬件优化设计方面持续迭代。

三、多模态芯片累计量产数十万颗,支持智能门锁一年不换电池

在尹首一看来,AI技术发展的一个重要方向是多模态人机交互,而多模态芯片则是走向通用AI芯片的必经之路。

清微智能打造的TX510即是一款同时支持视觉和语音智能处理的系统芯片(SoC),从7月开始落地至今已累计量产数十万颗。

该芯片基于阿里巴巴平头哥无剑平台设计,内置平头哥玄铁系列804/805异构处理器和清微智能可重构计算引擎,峰值算力达1.2T(Int8) / 9.6T(Binary) ,典型工作功耗为350mW,能效比达5.6TOPS/W,休眠功耗仅0.01mW。

基于可重构计算架构,TX510芯片呈现出成本低、能效比高、算法免费、易上手等优势。

因为采用同一套架构技术,清微智能每一代芯片产品都是在上一代产品基础上做完善,研发成本越摊越低。

同时,TX510集成了多种主流存储、外设接口,并提供丰富的软件开发资源,使开发者的算法模型以最高效率运行在TX510芯片上。

此外,清微智能提供人脸识别、ADAS、视频监控、智能家居等多种应用场景的完整解决方案,供客户快速完成相应场景的产品开发。

当前清微智能TX510芯片已落地于智能门锁、智能门禁、扫地机器人、车载DMS等多类场景,包括欧菲,舜宇、一诺等智能门锁,360、瀚晖威视的门禁、室内摄像头、室外摄像头产品,阿里的人脸识别支付产品,以及天银的航空产品。

据反馈,TX510的低功耗在落地阶段得到充分体现。例如支持人脸识别的智能门锁应用中,内置TX510的智能门锁实现金融级别安全标准和超低功耗,免接触启动单张人脸检测识别的时间不到100ms,在4节干电池、一天用20次的极端情况下,可用时间长达一年以上。

另外,TX510支持3D结构光,支持3D活体检测、红外活体检测、可见光活体检测等,可抵御照片、视频等二维攻击,面具等三维攻击。误识率千万分之一的情况下,其识别率大于90%,远高于指纹误识率五万分之一的安全指标,而响应时间不超过30ms。

除了优化芯片本身外,清微智能还打造了易用的编译工具链,开发者无需理解CGRA硬件层面的工作原理,保持原有的开发习惯就能很快上手。

王博也坦诚地谈到,当前工具链在易用性、支持平台的丰富性等方面仍存在欠缺,这也是清微智能下一步将重点优化的方向。

结语:技术创新与商用落地并行

更新鲜的创新技术还在从学术研究快速流向商用。在第16届ACM/IEEE国际嵌入式系统会议ESWEEK上,清华微电子所魏少军、尹首一教授团队的论文《面向神经网络处理器的非规则网络结构高效调度技术》获得最佳论文奖。

该成果填补了大规模、非规则神经网络编译映射技术空白,可大幅提升神经网络处理器的计算性能,降低访存开销,已在清微智能的AI编译工具链中实现产品化。

作为芯片架构创新的代表玩家之一,清微智能基于可重构技术的芯片量产落地,对于我国半导体领域的技术创新转化商业价值而言,是一个颇有积极意义的实例。

主营产品:耗材,仪器仪表,仪器仪表2,PH计