随着芯片打入汽车、云计算和工业物联网等市场,芯片的可靠性逐渐成为开发者关注的重要问题。事实也证明,随着时间的推移,芯片想要达到目标的功能将会变得越来越难以实现。
在过去,芯片的可靠性一般被归结为代工问题。那些专为电脑和手机设计的芯片可以在最高性能下正常使用平均两到四年,两到四年后,芯片功能开始下降,用户升级到产品的下个版本,后者具有更多功能、更好的性能以及更长的待机时间。
但是随着芯片打入新的市场或过去不太成熟的电子产品市场,如汽车、机器学习、物联网(IoT)和工业物联网(IIoT)、虚拟和增强现实、家庭自动化、云、加密货币挖掘等,这不再是一个简单的问题。
每个终端市场都有其独特的需求和特点,影响芯片的使用方式和条件,而芯片的使用方式和条件又会对老化、安全等其它问题产生重大影响。考虑以下几个问题:
可靠性不再仅仅以年计量。用例正在发生巨大的变化。现在的汽车在90%到95%的时间是闲置的,但自动驾驶汽车可能只有5%到10%的时间在闲置。这会影响电子产品的架构和开发技术的潜在商业模式。随着边缘电子设备变得更加复杂,人们对功能性和「足够好」的定义也有所不同。过去,如果无人机或机器人上的摄像头被损坏或弄脏,通常会被换掉。但随着边缘设备中的电子产品变得越来越复杂,可以保证其有足够功能的条件下,补偿已破裂的摄像头。另一方面,由于更严格的系统容差,在不太复杂的系统中可被接受的部分在复杂的系统中可能不会被接受。
影响老化和质量建模的因素比过去更多。虽然其中一些在开发芯片时可能不明显,但与在PCB上相比,一个已知良好的芯片与其它芯片封装在一起时可能有不同的表现。
整个电子产品领域,用例(use cases)在发生变化。即使在数据中心内部也是如此,尽管历史上在采用新技术和新方法时数据中心也非常保守。
Arm首席执行官Simon Segars说:「老化是时钟速度和功耗的函数,过去在运行过程中偶尔会用到服务器,大部分时间它们处于闲置状态。但当你转移到云端时,设计标准需要有所不同,因为这取决于其使用时间。这引发了很多关于如何设计可以延长寿命的问题。」
在千禧年开始的时候,服务器的平均利用率约为5%到15%,这一趋势在20世纪90年代一直存在,因为IT管理人员为了避免设备故障,不愿意在单个商品服务器上运行一或两个应用程序。后来两件事改变了这种情况,首先,能源成本开始上升,其次,也许更重要的是,为了使公司的IT部门而不是其设备部门负责其能源成本,公司进行了重组。这两个因素都导致了虚拟化软件销售的猛增,以提高服务器的利用率,这意味着更少用来供电和降温的服务器机架。
云将这种运营效率提升到了更高的水平。云操作的目的是通过平衡整个数据中心的计算作业来最大化利用率。这将数据中心内而不是一个机架上的所有服务器的利用率显著提高,并可以在不需要时快速关闭它们。这种方法节约了能源,但却对电子电路的退化和老化造成了很大影响。
Helic市场副总裁Magdy Abadir表示:「芯片正在加速老化从而发生故障。它们时钟可能会缺失或发生额外的抖动,或是发生电介质击穿。任何时候都有可能发生一件什么事让你担心。在偶尔使用电子产品的时代许多老化模型是先进的,但现在芯片一直在运行,在芯片内部,模块也在升温,因此老化加速,而老化的芯片会出现各种奇怪的现象。许多公司目前还没有修改他们的老化模型。他们假设这些设备可以持续三到四年,但它们可能很快就失效。考虑到从开始设计时的利润就很小,老化可能将他们抛弃。」
在汽车领域芯片利用率趋势也在发生变化,并且会持续到可以取代人类司机的全自动汽车出现的时候。汽车正在处理越来越多的数据,其中一些从雷达、激光雷达和照相机等传感器流式传输而来。所有这些数据处理的时间都需要比过去更短,准确度更高,这些给电子设备带来了巨大的压力。
ADAS的首席技术专家Norman Chang说:「与过去的两到五年不同,ADAS的可靠性至少为十五年。老化不仅仅指时间上的老化,也与负偏置温度不稳定性(NBTI)、与热量有关的电迁移率、静电放电(ESD)和热耦合有关。」
图1:芯片和封装的热建模:
虽然许多汽车一级供应商都构建可以承受极端温度、机械震动和各种噪声的芯片,但使用较长时间的先进节点CMOS从未有过这类压力。许多业内人士证实,汽车制造商正在开发10 / 7nm芯片来管理所有这些数据,并在前沿节点工作,避免他们的设计过时,这些设计通常用于近几代的汽车。问题在于实际数据非常少,无法证明随着时间的推移,这些设备在任何环境条件下可以可靠运行。
Segars说:「你必须做不同的设计。有一种想法是,你将需要更少的汽车,因为它们不会一直处于闲置状态。但另一派认为自动驾驶汽车将跑得越来越快,也将会快地磨损,最后所有东西都会磨损。挑战在于,确保电子部件不会比机械部件先磨损,这就要求设计有所不同。这包括从严肃对待噪声到减小峰值电流的所有事情。」
更薄的绝缘层,更薄的衬底
增加芯片可靠性的一个讽刺之处在于它与50年来半导体发展相矛盾,因为为了降低成本每两年尺寸就会缩小,也就意味着更薄的电介质、更细的线以及更大的动态功,而且,衬底也会越来越薄。在最先进的节点工艺,这会导致更高的漏电流、更多的噪声、更大的电迁移率和其它电学效应。
Fraunhofer EAS质量和可靠性的部门经理André Lange说:「从电路角度来看,你知道必须考虑工艺变化。但从设计功能的角度来看,这与处理系统中已知缺陷时可能发生什么有关。如果你看一下自动汽车,有一个中央处理单元来决定从哪个传感器中使用哪些信息。其中一个可能会很脏或不能运行。」
这使退化模型变得更加复杂,因为它需要在系统环境中完成。Lange说:「许多情况都会导致电路退化,无论是NBTI还是指定面积上的更多缺陷,或是更大的工艺偏差。」他指出,一个很大的挑战是确定导致缺陷的原因,而不是所有可用的庞大的数据。
图2:出什么问题了。
不同的方法
每个新的节点下工艺偏差都会增加。在过去的十年里,智能手机推动了缩小路线图(iPhone于2007年推出)的前进。现在,先进节点技术的最大用户是用于数据挖掘、机器学习、AI和云的服务器。
工艺偏差和可靠性之间的联系已有详细的记录,但偏差的存在使老化模型更难准确地建立。为解决这个问题,提出过许多不同的方法,从复杂的统计建模和仿真到将传感器放在芯片上或对其进行封装。
Synopsys 5nm相关的首席研发工程师Ralph Iverson说:「有热源时,你必须使用本地和全球「随机漫步」的方法来跟踪温度。随机漫步的情况下,电压是其周围电压的平均值,因此增量是零。」
这有助于建模,但据Iverson说中,在5nm及以下的工艺下,电阻率并不总是干净的。有表面效应存在,数据并不一定代表铜的连通,我们还需要更多的本地化数据来判断。因此,混合类的方法开始出现,因为这种不确定性很难去抽象。
西门子商业公司Mentor的AMS产品营销总监Mick Tegethoff表示:「汽车行业对双极CMOS DMOS(BCD)进行了很好的调查,但我们也看到了对先进CMOS的要求和需求。我们看到了代工厂更多的兴趣, EDA公司正在模拟压力造成的 老化。这够了吗?任何一种建模都是对现实世界的近似,所以你要进行电路仿真,并尽可能构建一个可持续使用的芯片,但之后你需要进行物理测试或类似的事情,比如把它放在烤箱里来制造物理压力。现在有许多电子产品都要进行这种测试。」
模拟与数字
到目前为止,大多数老化/退化建模都集中在数字电路上。模拟为老化提供了一个不同的视角。Moortec首席技术官Oliver King表示:「由于产品核心部件有领先的芯片,因此公司对老化和工艺偏差有很好的理解,所以它们不会盲目前进。模拟有许多可变的效应。数字芯片可能会不能使用,但对于模拟来说,它可能稍微不好或电路稍有缺陷,所以你必须对此进行调整。传统模拟开发人员不像数字开发人员那样推动几何效应的增长。电迁移仍是一个问题,电流密度也是问题,但并没有出现很多老化效应。尽管如此,芯片也需要更积极的维修,以及是否要采取行动。」
Rambus产品管理高级总监Frank Ferro观点类似:「有了物理层(PHY),最大的挑战是环境温度。随着温度的升高,性能发生漂移,所以你需要重新校准。对于消费者来说,有「圣诞节测试」这种东西。在天冷的时候,你在车库里存放一台Playstation或其他电子设备,然后在圣诞节早上开启它,电路需要能够从冷开始马上运作。这与汽车或基站的存储系统类似。老化会对这些系统产生影响,你需要重新校准系统来减弱这些影响。」
Ferro说,物理层经过与数字元件相同的资格认证,包括老化和电压和温度变化的测试。但物理层的设计目的是随着这些变化而变化,这些很难被设计成数字电路,特别是在先进的节点工艺,先进的节点工艺下,margining对功率和性能有一定的影响。
模拟电路通常基于所谓的「任务概况」而设计。因此,自动驾驶汽车中的特定功能将代表为自动驾驶汽车IP设计的任务概况。
Cadence的IC和PCB部门高级营销经理Art Schaldenbrand说:「我们看到的一个重要问题是,根据它们的运作方式,不仅有一种情况。设备失效有很多可能,所以我们看不同的压力下什么可能会失效。10%的设备偏置温度不稳定性(BTI)可能会导致失效,但这是最糟糕的压力。所以我们需要更好的方式来表达退化。finFET与平面器件的应力不同,所以需要模拟不同的现象。」
封装和其他未知
随着摩尔定律的减缓,越来越多的公司开始采用先进的封装来提高性能,并提供更多的设计灵活性。目前为止,,如何对先进的包装进行建模以确定压力和老化尚不完全清楚。一部分原因在于,有很多的封装可供选择,没有人能确定哪一个是最好的。还有一部分的原因在于,许多这些封装都相对较新,封装内部需要随着时间去探究。
Helic Abadir说:「封装层可能太靠近其他组件或来自另一侧的应力。这需要建模。及时在其老化之前,它也必须建立其老化模型,因为效应在增多。所以放置方式尤其重要,如果你移动一下,那你就改变了共振频率。没有简单的方法。你必须通过分析和设计,如果发现了问题,你可能需要移动。」复杂设计中还有其他异常会随着时间的推移影响可靠性。例如,一些使用模型可能比其他模型更频繁地开启和关闭电路,这会给电路带来压力。
Cadence高级软件架构师Jushan Xie说:「如果有些东西闲置太久,就会与其它电路经历不同的老化。设备越小,老化效应越强。压力越大,老化越快。」
所有这些将如何处理尚不完全清楚。至少其中一些将涉及新材料和新技术。
Mentor电子产品市场经理John Parry表示:「对于电力电子产品,这推动了从硅基器件到碳化硅和氮化镓(GaN)的转变,这种器件可以以更高的开关频率工作,具有更高的效率和更高的温度。在某些应用中,在某些应用中,这可以使电力电子器件更靠近电机驱动器,从而进入更高温度的环境。在其他情况下,半导体能够承受更高的温度意味着需要更少的冷却。但是,半导体必须进行封装,封装也必须能够承受较高的温度。在新技术方面有巨大的投资,比如烧结银用作芯片附着材料,不使用传统的引线键合,所以IGBT等功率器件的封装在材料、加工技术和设计方面经历了巨大的变化。 ”
结论
随着设计转移到先进的节点或出于安全考虑新市场中使用时间的增加,老化、压力和其他效应变得越来越成问题。
Fraunhofer的 Lange 说:「这取决于客户今天提出的问题。谈话的对象不同,他们的出发点不同,但问题的频率有更大的。许多人只在开始,他们看到了更高的电压和更高的温度,并在进行一些实验来推断过应力。但了解退化如何影响整个电路更困难。 对于复杂的芯片还有很多工作要做。」但随着对它的重视,解决这些问题的投资也会增加。芯片设计师刚刚注意到退化建模和老化问题。 与十年前的功耗一样,这一切都将改变。