可靠性系统工程—企业推进可靠性工作的整体解决方案

(这是2017年12月21日北京航空航天大学可靠性与系统工程学院康锐教授在中国可再生能源学会风能专业委员会举办的第二届风电设备质量与可靠性论坛上的主题演讲实录,经康锐教授后期整理授权发布。作为中国质协可靠性推进工作专家委员会副主任,再次对康锐教授的倾情分享表示感谢!)

谢谢大会的邀请。我来自于北京航空航天大学可靠性与系统工程学院。我们这个学院不是赶时髦成立的,在1985年就成立了!我们国家第一个专门从事可靠性的研究机构是在上个世纪50年代,在电子行业,然后是在60年代,1965年,在航天工业,有一个可靠性研究所,但是只存在一年就解散了。我们北航是在1985年成立了工程系统工程系和可靠性工程研究所,北航当时归航空工业部管,航空工业部办北京航空学院,我们的可靠性工程研究所和工程系统工程系成立,标志着航空工业部门建立了可靠性研究所。我们一开始就是办学,在学校培养本科生、硕士生,面向航空工业的企业做培训,其实在1985年的时候,航空工业界大部分人也不知道可靠性是什么,在搞歼十飞机研制的时候,航空工业开始全面引入可靠性工程。

北航是一所大学,建立了可靠性研究所和工程系统工程系,就是建立了可靠性专业。现在可靠性与系统工程学院在北航是一个独立的学院,我们学院大概有200多教职员工,都是做可靠性的,在校学生800多名,本科、硕士、博士各个层次的都有,连续十余年是北航就业最好的专业,反映了整个中国制造业的成长需求。我今天花一个小时的时间给大家介绍一下可靠性系统工程,这是一个我们在航空航天或者说整个武器装备领域推进可靠性工作的一套方法论,这套方法还获得了2013年国家科技进步二等奖,对外公开的名称就是可靠性系统工程理论与技术。

今天讲七个问题,第一个是背景。中国制造2025里面有三段话跟可靠性有关系,一是加强可靠性设计、试验、验证技术的研究和应用;第二是推广先进的在线故障预测与诊断技术及后勤系统。第三是国产关键产品可靠性指标达到国际先进水平。但是规划里头并没有说国产关键产品是什么,我理解哪个行业的产品达到了就算是国产关键产品了。上周习近平总书记刚到徐工集团考察,他们现在是工程装备行业里的老大,应该也是世界上的前几名,意味着我国制造的工程装备已经走向世界。我今年3月份、7月份两次在徐工授课,讲可靠性,徐工产业规模已经非常大了,从大到强,他们的可靠性工作起步了。这个现象反映了中国制造2025的一个目标或者一个迫切的需求。中国制造2025之前两年我参加了中国工程院组织的制造强国战略研究的重大咨询项目,有了这个咨询项目才有后来的中国制造2025规划。在整个战略研究里,第三个课题叫制造质量强国战略研究,最后出了这五本书,在技术卷里有一个专题,就是我国制造业可靠性工程的质量强国战略,这个大概是将近六万字,我主笔写的。这个其实是把航空航天过去将近30年的可靠性系统工程的实践总结提炼了一下,结合我最近十余年参与的非军工行业可靠性咨询服务过程中的一些体会,形成的这么一个发展战略,这个是战略的提纲,我给中国制造业开出的药方就是可靠性系统工程,今天给大家介绍就是这个发展战略的主要内容,用系统工程的方法推进可靠性工作,这就是我今天演讲的主题。

第二个问题,几个概念。先把整个在可靠性领域的概念内涵给大家简单说一下,因为今天不是上课,不能展开说,说的也不一定严谨。第一个概念就是浴盆曲线,任何一本可靠性教科书都会出现这个曲线,纵坐标是产品的故障率,横坐标是产品的使用时间。这是从统计上反映出来的产品故障发生的规律,第一个规律就是曲线的第一段,在早期使用的时候,故障率非常高,要经过不断的维修、适应性的改进甚至修改设计、工艺,把故障率降下来。到使用阶段故障率应该是很低的水平,而且还不应该发生剧烈的波动,最好保持常数,长时间保持低的水平,这是第二个规律;低水平故障率保持到多长呢?保持到预期的使用寿命,到了使用寿命故障率又急剧增高,这是统计规律表现出来的,这是第三个规律。

但是当我们的产品从统计数据上看到了浴盆曲线第一个阶段的时候,即在用户的运维的过程中发现这个阶段的时候,说明你的企业,你的产品没有搞可靠性,或者说当你看到了浴盆曲线早期故障期,说明可靠性工程实践是失败的。第二个阶段,如果在使用的过程中长期的故障率稳定不下来,并且浴盆底的高度还很高,也说明可靠性工程失败了。第三个阶段,如果使用时间没多长就坏掉了,就不能再用了,就老化了,就疲劳了,就断裂了,就腐蚀了等等,这些问题说明你的产品寿命也不符合要求,可靠性工程还是失败了。所以浴盆曲线告诉我们很多很多道理。

目前中国制造业的特征在这三个点上都反映了,第一产品投入使用初期故障率很高,第二久久不能把故障率稳定下来,第三寿命还很短,所以这些问题交织在一起反映了我们的企业的可靠性工程的实践出了问题,浴盆曲线就是这么一个概念。那么这些概念跟什么有关系?刚才说了是故障率,故障发生的概率,故障的统计规律。这样我们就引出第二个概念,跟故障相关的产品的设计特性,大概有这六个方面,可靠性、维修性、测试性、保障性、环境适应性、安全性,这些特性都不是中国学术界发明的,当我们1985年成立可靠性研究所、工程系统工程系的时候,国外这些专业词汇在学术界、工业界已经产生了好几十年了。我们在这个情况下怎么做可靠性这件事情?我们把这些故障相关的专业融合成一个整体,早在1991年的时候,我们学院的创始人杨为民教授提出可靠性系统工程的概念,这是从如何推进可靠性工作的角度提出的。可靠性系统工程的理念在航空航天兵器舰船等军工行业的实践中不断的在扩展推动。现在武器装备行业把这“六性”叫通用质量特性,这是我在2006年的一份战略咨询报告中提出来的一个概念,把这些与故障直接或间接相关的设计特性给了一个概括性的说法。那么可靠性系统工程就是围绕产品保障规律组织管理通用质量特性工作的方法论。

这张图从方法论上进一步解释了可靠性系统工程,就是在研发阶段要进行与故障相关特性的设计、分析、试验评价工作,同时还要做与故障相关的系统设计、分析、评价工作,什么是与故障相关的系统?这个系统是面向产品的使用维护阶段,运维阶段,我们过去叫售后服务系统,没有经历过正向的研发过程的时候我们解决方案当然是出了故障就要修好,这就是被动的维修服务,归到售后服务系统里,即使是售后服务系统也需要主动去设计。后来的维修保障系统,BIT、ATE,中央维护系统,远程维护系统,PHM故障预测与健康管理系统等,都属于与故障相关的系统,随着技术的发展现在技术热点的就是PHM系统。这张图才是完整的针对故障的研发和设计,这个就是可靠性系统工程最基本的理念。

第三个问题,介绍一下历程对比。中国制造业发展历程和国外的发展历程这两个方面的对比。第一个讲国外,我们今天大会的主题叫做质量与可靠性,刚才秦秘书长说可靠性的概念大家可能认识不一致,不同企业、不同的人,理解也不一致,其实质量和可靠性这两个概念有什么区别?可能大家也不能一下子说清楚。我把这两个概念放到一张图来说,这是国外伴随着工业化过程过去一百年相关概念的不断的发展的历程,第一个就是在大批量制造业出现的过程中,首先产生的产品质量检验。生产制造过程的质量检验,当时以福特汽车为代表的,一年一下生产了几百万辆汽车,那么这个时候产品出来了要判断好坏,诞生了质量检验专业,说起质量检验的概念可以查到很早很早以前中国也有啊,古代要铸造一把剑,同样要看一把剑好不好,有设计、有制造、有检验,但是那个时候是手工业时代,这些事情可能都是一个人做,但是工业化以后批量生产不一样了,所以在福特汽车在大批量生产时代到来的时候,做了有里程碑意义的事情就是把质量检验从产业工人里面分出来,专门有一批人看着制造线上的产品,生产出来之后是合格的还是不合格的,这叫质量检验,质量专业诞生了。

质量检验又分为两个阶段,当批量比较少的时候是全数检验,后来全数检验干不动了,一年几百万辆车,零件是上千万个没法全数检验了,就发展用统计的方法叫抽样检验,这两个检验我这张图里都叫做过程质量检验,过程质量检验的出现是我们质量可靠性发展历史上的第一个里程碑事件,发展到一定程度后又有问题了,质量检验是产品生产出来之后才能对它进行合格不合格的判定,会产生废品,造成质量损失。所以这个问题就驱动人们思考,就是我们能不能在制造过程中进行质量控制,预防不合格品的发生,降低不合格率,这个就是过程质量控制,统计过程控制SPC,六西格玛概念方法就是这个阶段产生的。

第三个阶段是工业品出来之后会发生很多事故,20世纪工业化进程很精彩,人类做了很多伟大的发明,蒸汽机、汽车、火车、飞机,有人总结说我们人类每一次技术的发明都为我们创造了一种新的死亡方式,安全性问题就来了。什么意思?我们没有汽车的时候,人类死亡方式最多就是被马踢死了,有了汽车就有了新的死亡模式,被车撞死了,发明了飞机,就有飞机掉下来了摔死了。所以安全性是伴随着工业化要面临的又一个问题,就是产品一定要安全,所以安全性是又一个新概念。安全性概念出现的早,大家容易接受,很多时候安全大家都能想到,电气产品怎么安全,机械产品怎么安全,我们都有一套设计准则,有一套严格的验证规范,政府也要监督。但是注意,像民用飞机,政府监管的适航取证只管安全性不管可靠性,可靠性对飞机安全有影响,但是安全性又有自己的技术范畴,安全的不一定可靠,可靠的不一定安全,这是两个很有意思的概念,今天不展开说了。

第四个阶段就是可靠性,二次世界大战德国人用火箭打英国的过程中,通过作战运筹产生的可靠度的概念,就有了可靠性,到了50年代,在美国正式诞生了可靠性工程专业。但是质量这块的发展也没有闲着,从质量过程的事后检验到事前的过程质量控制,到了60、70年代发现光抓生产过程不行,还要抓全面质量管理,叫做“人机料法环”,所以过程质量检验,过程质量控制是经典的传统的方法,70、80年代是全面质量管理,在这个过程中可靠性这个概念之后,维修性、测试性、保障性概念相继出现。维修性指的是要好修,测试性指的是维修的过程中要能快速进行故障定位、诊断,保障性指的是在维修诊断的过程中,要能够提供足够多的资源,备件,维修人员、维修设备、维修设施等等这些东西。所有这些特性都是要设计的。

伴随着这些新的概念的发展,国外,以美国为主,在60年代,可靠性概念出来10年之后,在研发的过程中提出新的管理的技术叫工程专业综合,后来发展成系统工程,到了90年代发展成并行工程,然后现在就是基于模型的系统工程,这些解决什么呢?解决可靠性这些概念融入到设计研发流程以及整个寿命周期流程的问题。这张图我大概用了五分钟时间给大家讲讲过去一百年整个国外工业化的过程,想说明什么?就是在100多年发展历史上,他们的制造业,西方先进国家的制造业,是平均十年左右遇到一类问题,然后去解决,就是按部就班这么发展起来的。

然后这张图,这是第一个对比。到了我们的工业化进程,我们说过去一百年1949年之前中国几乎没有像样的工业,新中国才有了工业化,我们开始工业化又分成两个阶段,一个是改革开放前与改革开放后,所谓前30年、后30年,我们是后工业化国家。在50年代,航空航天等等领域的工业化过程有一个非常高大上的名称叫“测绘仿制”,非军工行业可能就叫做拷贝模仿,大概就是这个含义。但是这个情况一点不需要大家气馁,也不用自责,这是我们走工业化道路的必由之路,而且是快速发展的保障,没有测绘没有模仿,没有所谓的“侵权”,我们走不到今天。

测绘仿制过程中没有正向研发,没有研发只有生产过程的质量管理。我们工业化的前三十年还没有批量生产,因为还不是消费型社会,为什么风电行业能源有需求,因为消费上来了,大家都要用电,都要用气,电不够,天然气也不够了,根子上还是能源消费需求提升了。消费能力不够的情况下批量也少,所以我们大概在前30年,即改革开放之前的研发上是测绘仿制,制造上是小批量,满足不了人民生活和社会发展的需求,这是中国制造当时的情况。这个背景下质量可靠性都很弱,这是第一个阶段。第二个对比是,国外二战期间、二战之后它的制造过程的质量控制、质量检验做的很充分,那么在研发这块就在上个世纪50年代随着新的可靠性这些概念的出现,开始有了正向研发,所以他们,这里是指美国军工行业在50年代开始建立采办程序,就是研发程序。我们以军品为代表的研发也是改革开放之后1982年才开始,有了武器装备研制程序。这个是非常有意义的历程,非军工行业又比军工行业晚发展了20年左右,这是我的观点。

第三个对比,国外在80年代的时候,可靠性、维修性工程实践了20多年了,概念方法全都有了,但是效果不好,那个时候他们的武器装备的可靠性也很差,在80年代美国国防部狠抓可靠性维修性管理,制定了很多政策文件,我们1985年北航成立这个专业时就是发现美国人这么重视可靠性,而我们要搞新型歼击机了,就是歼十,还没听说这件事,所以在这个背景下,我们的老一辈专家开始搞这个专业,我们在回忆的时候都很感慨,他们可是在50岁左右的时候开始创业,建立了一个新专业!高屋建瓴啊,没有他们的远见,我今天也不会站在这里。1991年,我们在军工口提出可靠性系统工程,抓与故障相关的特性设计,也就是说,大概是通过40年的发展,我们基本上在管理的方法论上赶上了国外,而且有我们自己的特色,中国企业可靠性怎么办?就是用系统工程抓可靠性管理。我用三个阶段的对比,生产过程的管理,研制过程的管理,全系统全寿命的管理,来说明可靠性系统工程的诞生背景,其实这些对应了钱老的“可靠性是设计出来的,生产出来的,管理出来的”这个提法的。

第四个问题,实施要素。在企业实施可靠性系统工程有哪些要素,给大家归纳这么一张图,八个要素,即指标体系、组织形式、专业队伍、工作流程、规范指南、过程控制、数据信息、技术集成。

第一个要素就是全面的需求。我们现在可靠性发展到这个阶段,有哪些需求,我给大家归纳一下,七个方面,长寿命、高可靠、快诊断、能预测、易维修、好保障、要安全。对应着我们的六个特性,我们归纳成七个方面要求,这七个方面的要求在可靠性系统工程的技术体系里都有对应的定量指标,所以你说可靠性是什么,可靠性是这么多事,要干的事情这么多,不是简单的MTBF,所有这些指标都满足了才能说中国制造业从大到强转变了,这是第一个全面的要求。面对这么多要求,我们要做什么?要做的本质上是故障和应对应故障的对策的权衡,是研发阶段放任不管,到运维阶段再考虑,还是再研发阶段多投入,节省运维费用?这个要权衡决策。企业搞可靠性的切入点是什么,运行维护费用占了利润的1/4之后,企业的老板一定会让我们的研发部门去搞可靠性,我接触国内非军工企业,要做可靠性的起点都是这样。

第二个要素,组织形式。强调可靠性是个专业,我站到这儿,是金风科技推荐我到这来的,要不然我也不知道有这么一个论坛。金风科技是把可靠性当做一个专业来建设,标志性的事件就是有可靠性专业毕业的学生。因为这个很有意思,我去徐工,去年底他们约我,徐工给我的要求是:康老师我把全厂技术人员都集中起来,你给我们讲三天课,要达到的目标就是他们会做可靠性了,我们企业的装备可靠性就能上去了。我说这个目标实现不了,他说为什么?我说我在学校里讲了这么多年,从本科、硕士到博士,学了七年,出去的学生面对具体的产品还不知道怎么做可靠性,讲三天就会了,你是不是看不上我们的专业,专业是干什么的?任何一个专业学三天就会了这还能叫专业吗?你们有可靠性的组织吗?没有。有可靠性工程师吗?没有。我说从大到强,他们目前是个起步阶段,徐工车间里刮了一幅标语“技术领先用不毁”,你们听听,多好的理念,就是既要技术先进性也要功能可靠性,这就是中国制造业转型升级的目标,所以我说徐工抓的好,走在正确的道路上了。

企业的可靠性要有专业的组织,这个专业的组织建在哪里,航空航天走过来大概是三个结构,第一个结构放在质量部门,质量部门下面有可靠性专业室,专业的技术室,设计室,这个问题发展到一定阶段就不顺当了,为什么?就是可靠性毕竟要从根上设计,仅仅是管理工作的时候放在质量部门,但是一旦进入到研发时候发现放在质量部门是管理责任,不能承担设计责任,这时有一定的冲突。需要继续发展。

第二个结构是项目制,也可以叫事业部制,每个事业部下面都有可靠性的团队,可靠性的研究室、研究小组等等,这也有一种好处,很多企业初期都是按照事业部,每个事业部各干各的事,各自对可靠性负责,带来的好处是每个事业部门,每个项目独占自己的可靠性资源,带来的坏处可能是可靠性资源分散了,各个事业部之间还不能交流了。很有意思的一个实例,我到某个企业去,上午在一个事业部,下午在一个事业部,听汇报,上午事业部的可靠性工作做的很好,我肯定了他们的做法,中午吃饭的时候这个事业部的领导说:康老师你下午到另一个事业部不要告诉他们我们是怎么干的!这是同一个企业,一套领导班子,我说你们是不是社会主义的国有企业啊?我这个企业不给另外一个企业交流还可以理解,一个企业的两个项目组都要互相保密,项目结构有这种弊端。

第三种结构,理想的状态是一个矩阵的组织,可靠性在企业里应该有专门的可靠性的专业的人员组成的研究室,每个项目里有它自己的可靠性工程师,在具体实施项目过程中,专业部门的可靠性工程师和项目的可靠性工程师联合组成可靠性的工作系统,可靠性工作系统是航空行业建立起来的,从上到下的,就是飞机有总设计师大家都知道,有各种各样的专业副总设计师,其中就有可靠性副总师,管前面我说的七个方面需求的设计,就是我说的六个特性的设计和某个与故障相关的系统的设计,如维修保障系统,中央维护系统或者PHM系统,复杂的武器装备甚至设置两个副总设计师。这就构成一个矩阵的组织结构,非军工口目前做的最好的企业是华为,华为的可靠性工作从可靠性试验起步,现在遍布了整个集团公司,可靠性专业部门叫可靠性工程管理部,近两百名可靠性工程师,在他的所有的事业部里还分布了大大小小的可靠性工程师。我们的学生去哪了?20年前主要在军工行业内就业,最近十几年都是在华为这样的可靠性非军工口的可靠性先行企业就业,华为的各个部门都有可靠性工程师。

所以这是关于组织结构,我到企业里搞可靠性的交流和合作,我要看在跟谁交流,跟谁合作,我们要找对应的可靠性专业的人员,没有,我就觉得合作可能很难进行。

第三个实施要素,专业人员。就是有了这些部门就要有人,我们叫可靠性工程师,中国的可靠性工程师还不多,华为这样的企业还比较少,可靠性工程师头衔和岗位集中在军工行业,华为、长虹、联想、中车等都有,这张图就表明可靠性是一个专业,维修性是一个专业,安全性也是一个专业,需要的基础理论知识、技术方法不一样,这些构成了专业的队伍,在研发的时候由总设计师组织各专业的人共同完成并行设计,IPT团队,是这么一个模式,这张图也不是我们画的,是美国人80年代画的,我只是比他画的更漂亮一点,以前是黑白的铅笔画的草图。在一个类似今天这样一个论坛上,我听到过两个企业的领导的对话,他们不认识我,我还没上台做报告,他们在底下说:你们搞可靠性了吗?说搞了。你们有北航的学生吗?没有。你没有北航的学生叫什么搞可靠性?北航的学生是专业做可靠性的!我上台把这个对话给大家讲了,半开玩笑说,这个可以作为判断企业可靠性搞得好不好的标准。

真正意义上说,可靠性工程师需要有经验的人,现在产品的创新需要年轻人,越年轻的活力越强,但是质量可靠性专业的人需要老人,越老越有经验。国外大概都是这样的。有国外的机构做统计发现,国外的可靠性工程师年薪比其它产品设计师的高,这是当然的,所以我判断一个在可靠性方面好的企业还是差的企业就是看有没有可靠性组织,有没有可靠性工程师,可靠性工程师挣的钱比其它设计工程师挣的钱多还是少。中国质量协会,有一个项目叫注册可靠性工程师考试,推广了好几年,不温不火,我跟质协的领导说,要坚持住,一定会迎来大发展的那一天,美国有这个考试,日本有类似的培训,各类企业派人踊跃参加、场面火爆,我们中国企业一定会发展到那一天。比如,今天来的企业,你们把工程师都送去考试,这个考试其实就是我讲的这六性的基本概念,考完了大家对可靠性在概念认识上就同一了,这是培养可靠性工程师的一个捷径,一个起步,光靠北航这点毕业生,不够啊!

第四个实施要素就是流程。可靠性系统工程里要做的工程活动很多很多,需要进行的每个活动之间是有逻辑关系的,要串起来,刚才讲六性设计加上一个跟故障相关系统的设计,这是有前因后果的逻辑关系和信息传递关系的,这些关系要嵌入到研发流程。我咨询过很多企业,这些企业研发流程不完整,不符合系统工程研发的过程,可靠性做了一点事,比如FMEA,不知道塞到哪里去,好不容易塞进去就孤零零放在那,过两天又一个部门做了一个故障诊断的设计,诊断故障模式,和前面做的FMEA毫无关系。

再比如售后服务系统,一般的售后部门数据的统计,只算钱,财务上售后服务算的非常准,技术上的数据就不统计了,我们帮助一些企业的设计工程师在特别乱的售后数据中来统计浴盆曲线,找主要故障原因排列,数据不全,设计师也没在现场,也不知道什么情况,一张一张单子查数据,相当费劲,我说这就是售后部门的事情啊,售后部门要负责告诉你浴盆曲线、哪些故障频发,而售后部门说这是技术活啊,这个我们哪懂!我找他们的领导说售后部门应该有可靠性工程师专门做数据统计,把可靠性工作配置到那里去,大家才明白这个道理。所以什么时候,什么部门,做什么工作,用什么方法和工具,向谁要什么输入,得到什么输出,输出结果给谁,这就是一个流程。

我们的制造业当你重视自主创新研发的时候,你的流程一个是围绕着功能的,一个围绕着故障的,所以有一个输出一个设计制造包和一个维修保障包。我们现在第一条线设计制造刚刚从测绘仿制转到自主创新,这条线还在建立的过程中。第二条线围绕故障的维修保障可能还没有,还不全,所以这两件事情叠加在一起,中国制造业想从大到强还有很艰难的路程要走。

这个图就是基于刚才讲到的FMECA的流程,我编了一个FMECA的标准,大家可以借鉴,还是不错的,我们有自己的思想在里面,这个标准不是抄的,其实我们很多标准都是抄的,这是2006年出的国军际,标准号是1391。这个FMECA跟所有可靠性系统工程活动有关系,你做的每一个分析跟后面的设计都有关系,你说企业根本没有这些可靠性、维修性、测试性、安全性、保障性等设计活动,你做FMECA就没用,就不知道做了干什么。

第五个要素也很重要,叫做过程监控。过程监控首先是监控工作项目之间的内在的逻辑关系是否是有效的传递?什么叫内在的逻辑关系,我举一个最简单的例子,平均故障间隔时间叫MTBF、平均修复时间叫MTTR,一个叫可靠性指标,一个叫维修性指标,还有一个指标叫可用度,我们有的行业叫停机时间,这三个指标有约束关系,知道两个就知道第三个,我们发现很多企业在制定这些目标的时候,定了三个数,三个数却不符合自我约束关系,要做可用度设计,可靠性设计,维修性设计,我说你们设计什么呢?目标就矛盾,都设计出来了才怪呢!所以这就要监控,监控这些工作逻辑是否正常。

第二个纵向监控,就是监控整个供应链的要求。当真正做可靠性的时候发现我的供货方零部件不可靠,他有问题我怎么办,我说他有问题就是你的问题,为什么你的质量控制体系里面没有可靠性的控制,他说没办法,中国制造企业都不行,我说谁说的,为什么华为就可以做得到,为什么你做不到。监控的主体之一是政府对企业的监管,但是政府只管安全和环境,他不管可靠性,企业对供应商的监控,用户对产品的或业主对系统的监控,这几种。监控的方法有定性的检查,定量的跟踪,我们希望能做到定量的跟踪,定量跟踪什么?监控前面定的七个方面的定量指标,要在整个寿命周期里看是否达到了、满足了需求。

第六个要素叫规范体系。每一个可靠性系统工程的活动都要有自己的规范,什么叫自己的规范,你的企业规范,企业标准,不要指望国标和国军标,当企业自己创新设计时,你不靠自己的标准靠什么?我经常被问到这样的问题,康老师,我们要设计航空发动机,可是我们没有标准,以前都是按照标准来做试验、做设计,现在可靠性这套没有标准,我怎么干?这是我们国家最好的发动机设计所的副总设计师跟我提的问题,我说咱自己干标准,你要通过实践过程中产生的规范、形成自己的标准,这才是一个制造强国的企业应具有的水平。我们以前在测绘仿制当然是按照国外的标准干,而且不敢改,改了之后小心翼翼的,我们摸索探索着去改。现在,要自主创新了,每一个可靠性系统工程实践活动,从无到有,先找一个产品或者设备试点,做可靠性工程中的某一件事,试点之后把它形成规范指南,用规范指南指导做第二个第三个,做完了之后马上变成企业的标准,持续做下去就好了。企业真正有核心技术不要把它弄成行业标准,弄成国家标准,我不要告诉别人,我们到国外企业参观,进不去可靠性试验室,不给我们看。今年5月份我到郑州的宇通客车,大客车做的很厉害,很好,完善的全面的可靠性试验体系,给我们看了,这是中国质量协会组织的,好几个专家进去看了,我就问试验室主任,这试验室谁都能来参观吗?他说不会不会,汽车行业的都不会让来,你们是大学教授,你们来看看帮我们指导指导,我说这就对了,这像一个干可靠性的好企业的状态,应该是这样。他们形成了自己的规范,怎么具体做试验,我们不知道,但是告诉我一个结果,非常震撼,就是大客车做30天试验等效于在路上跑一百万公里,要求整个过程无故障,整个车架子上面每个坐位有配重,相当乘客的重量,然后做运行。他们自己采集各种各样的试验载荷,用一百万公里的实践证明过,然后所有新开发的客车都按照这个去做,所以这叫规范体系。规范体系有三类,一个是要求类的,如何定指标的,指导对故障相关的特性和故障相关的系统定指标要求。第二个指导类的,就是怎么干各种活动,我记得2002年、2003年的时候华为的可靠性工程师,我的学生,说康老师来一下,搞流程再造是痛苦的过程,再不来我可能要下岗了,我问在做什么?他说我们要定一个规范,这个规范是如何做FMECA,还要顶出评价FMECA做的好坏的标准,用这个标准来考核产品线上的工程师的年终绩效,你看把可靠性工作跟绩效挂钩了,我们在学校也没教过,我只好过去售后服务了。那时候华为还没有技术保密,我可以进到他们研发中心,随便进,他们的研发体系文件都能看到,我就在现场一起帮他搞。过了一年,我问你们运行结果怎么样,给我几份文件看看,他说不行了,我们现在拿不出来了,保密了,只要你们专家的输入,不给你们输出,嗯,这样知道华为的可靠性工作升华了。第三类是如何验证和确认提出来的各项要求都已经实现了,是验证类规范。

第七个要素叫技术集成。这张图分成了好多好多技术,每一类技术,可以再展开下一级的各种各样的技术方法,你说这些技术太多了,我说不重要,重要的是你会选择合适你的产品、你的企业的技术,所以我也不展开说了,有机会再展开。

最后一个,第八个要素,叫做大数据、信息。你要采集自己产品的大数据信息,运维数据能不能画出一条曲线来?我看到很多企业通过售后服务、运维数据得到的故障统计数据,全都是错的,全都是不对的,这怎么指导设计改进,指导工艺改进。所以要全面地收集各种数据、正确地分析各种数据,需要管理上下大力气。

第五个问题,应用模式。有了这八个要素,还不够,我继续给大家归纳几类可靠性系统工程应用模式。第一个我们叫故障归零的模式,就是企业运行维护过程中,产生了数据,我们要进行故障信息的统计,这是一种统计,某一个部件的各种发生故障多少的视图,只统计各个时间段发生的故障数,这是按照某种零件的故障模式发生数据,有哪些故障模式,这还是很早期的汽车数据,每个故障模式占的百分比,有了这个数据之后就知道哪些零部件、哪些故障模式要进行改进。你对某一些零部件进行改进的时候要对它进行故障机理分析,针对机理进行设计或者是工艺技术的改进,改进之后还要进行有效性的验证,通过这个FRACAS循环把可靠性提高上去。

这是目前大部分企业做的模式,但是这个模式还做不好,做不好的原因第一是信息缺失,第二这个循环流程图没有管理好,这又是一个管理。怎么去确定一个故障模式,一个零部件,每个零部件故障模式都消灭,售后数据、运维数据就好看了,但是这是非常艰苦的管理过程,要整个企业内部流动起来,整合企业自己各方面的力量,形成合力,这是领导要干的事,可靠性,三分技术、七分管理。

第二个模式叫做试验考核模式,当你的创新程度越来越多的时候,越来越不确定产品到市场上是好是坏的时候,就要要进行考核试验,这个时候要把关,在投入批产之前,在交付用户之前要设计可靠性的试验项目。我之前咨询过长虹公司,2007年开始导入可靠性,当时售后数据显示维修费用占到利润的近30%,当时董事长就跟我说,他们电视机一台利润80块钱到100块钱,利润很薄,可是一年维修的钱就占了近30%,扣下来一块钱那就是利润啊,怎么扣?就是搞可靠性。因为家电行业把售后数据统计的非常清晰,返修率都能算出来,那么我们直接导入的就是试验考核,所有电视机出厂之前进行可靠性试验考核,设计一个试验考核方案,不通过的不能投产上市,这个途径当时遭到设计师的抵制,说我的电视很好,你给我考坏了!公司解决这个问题的方法就是先由各个项目组自愿选择,愿意走彭博士技术路线的你们来,不愿意的继续按老程序办,家电行业售后数据反馈非常快,半年数据回来了,通过考核的型号,返修率就降下来了,没有经过考核的,没走这套流程的,依然是高的返修率,这时候老板一声令下都按照这个流程玩了,可靠性试验考核的标准定下来了,流程固化了。我看过彭博士介绍的一张图,5年的返修率均值降下来了,波动也小了!彭博士是我的学生,我推荐到公司的首席可靠性技术专家。

可靠性试验的类别有好多种,考核摸底试验,强化试验,验收试验,针对不同的场景,不同的场合,模拟试验和强化试验是对研发阶段,暴露设计工艺缺陷的,鉴定试验是对研发阶段的定量考核,验收试验是批产阶段,保证可靠性水平不波动。摸底试验,对于可靠性比较差的,模拟实际的使用条件,模拟用户的使用场景做一个比较短的时间,能暴露的故障很多,这是航空航天总结出来的,我们按照美军标的规定做三千小时,做完之后发现出故障最多的都是前两三百小时,早期故障没控制住,所以最后定200小时的摸底试验,这是我们提出的方案,到不同行业这是时间可以不一样。

强化试验是我们要摸到产品的破坏的极限,把产品做坏,做到失效,这是强化试验的一个原理。鉴定试验给出定量的考核性指标,做完之后有一个定量说法,但是试验时间上、要提高准确度,就要投入大样本。还有寿命试验也是统计的方法,做1.5倍的寿命,一万工作小时做一万五,但是一千万工作小时的寿命指标就完了,这个试验做不了了。这时候就需要加速试验,另外设计试验方案。总之,不同的情况有不同的解决方案,什么情况下用什么方案是个技术活,也是个管理活,所以对可靠性工程师要求高啊!得加钱啊!

第三个模式叫定量设计模式,分两方面,一方面叫做健壮性设计,就是三次设计方法,我们大量的企业不知道这个方法,日本一个教授发明的方法,在日本的企业60年代开始应用,70年代、80年代开始普及,日本企业把这个做的非常非常精致。这个方法分三步,第一次设计叫系统设计,是功能创新,第二次设计叫参数设计,要把你的运行参数性能参数调整到非线性的饱和区域,这个区域波动小,性能参数就稳定。第三次设计叫容差设计,目标是质量损失最小。容差设计干什么呢?一个螺母,一个螺杆,这两个是配套的零件,在一大批的零件里随机拿一个螺母和一个螺帽拧到一起,有一定的概率是拧不上的,这就是失效,这个概率允许多少?容差设计就是解决这个问题。我们一个复杂的产品有好多好多零件容差是累计到一起的,失效概率是多少?我们企业不知道,我们从来没算过,更不用说设计容差了。通过三个步骤之后,实现功能创新、性能稳定、质量损失最小,可靠性自然就高了。我们没有这个过程,很多很多产品不做这个分析,不做这个设计。三次设计方法,90年代的时候日本人来给我们企业讲,一开始还有人听,后面越来越没人听了,没有自主创新的研发,没有质量可靠性意识,这一套没人用。日本教授都急得不行,你们中国制造怎么办啊!这是90年代的事。如果在座的你们有人已经用了这套方法,一会儿休息的时候跟我说一声,我也后就不讲这个了。第二个方面就是你把性能稳定做好之后,我们还有高可靠长寿命目标,是面对着长时间的使用需求的,产品使用就要退化,不用也退化,退化再加上可能遇到的各种各样的异常的条件,可能就要突发失效,这张图给出的是一个高可靠长寿命设计技术体系图,是经过航空行业广泛应用过的。

第四个模式叫故障补偿模式,也可以教健康管理模式,后面的名称好听。这个是前面的都做完了之后,还出故障怎么办,派人去修呗,一修又发现要检测、要定位,就是故障诊断,这样的维修方式叫反应式维修,被动式维修,发展到第二阶段预防性维修,我就定一个时间到时候就报废,不管好坏一定要换新的,对有些设备零件有效,有些没有效,做不好还十分浪费,现在最新的叫预计性维修,载体就是故障预测与健康管理,故障诊断、故障预测,健康管理形成一体化,根据诊断和预测的信息判别系统健康状态,就是治未病,没有发生的病,未病先防,既病防变,这叫健康管理,现在到一定年龄之后身体肯定有各种各样的小毛病,不是一个完全健康的状态了,但是还不致命,不用停机,需要防止进一步扩展,就是这个道理。

那么预测和健康管理是关键的转变,从事后的维修到事前的预判,所以叫管理。那么技术上的转变逐渐发展,从自动化的维修到智能化的维修,但是我们现在很多企业连自动化维修还没有做到。这是开放的,基于开放体系结构的事前维修的框架,我也不展开说了,应该是今年4月份、5月份在中车整个集团在青岛开了一个PHM的会,中车高铁行业上上下下都在做故障预测健康管理系统的设计研发,未来三年这个东西要使用,现在有的系统已经做的不错了。

好的企业是把这些模式全都用起来,售后运维的数据统计做好,定量设计做好,试验考核做好,维修保障系统做好,这些加起来就是综合集成的模式。每一件事解决不同的问题,所以真正的可靠性完整的结构是这样的,这些事情全都做到了就是可靠性系统工程就实现了。

第六个问题,可靠性系统工程能力评价。有了八个实施要素,有了四种应用模式,那么怎么判断企业可靠性做的好或不好,我又做了一个研究,可靠性系统工程能力成熟度评价,我把一个企业的可靠性系统工程能力分成了五级,如果大家了解软件能力成熟度模型的话,是一个道理,我也是测绘仿制了一下那个模型。成熟度的每一个等级表明了企业可靠性系统工程能力所处不同水平,每一个等级代表了企业改进过程经历的阶段,一个企业一开始做可靠性就能把我刚才说的全做下来吗?完全不可能,所以要一步一步来,不能着急,每一级都有详细的定义,第一级叫已执行级,开始做可靠性,但是很混乱,概念混乱,工作流程混乱,工作体系混乱,什么都乱,做没做可靠性?做了,做的怎么样?不知道。第一个阶段可靠性工作的效果往往取决于执行工作的人员素质,已经开展的工作,还不能跟产品的设计试验生产过程相融合;第二个叫管理级,有专门人员,专业部门,可靠性成为专业,并且与设计试验生产过程相融合,一个项目成功经验可以在企业里面的第二个项目上运行,这是第二级;第三级叫已定义级,你能建立起企业自己的可靠性标准了;第四级叫定量管理,你对每一个可靠性系统工程的活动都能够定量评价;第五级是优化级,就是持续改进,可靠性管理流程上持续改进。好的企业从导入可靠性开始,快的话,可以用5年左右的时间,达到5级,但也有的企业长时间停在2级水平。这个评判模型是分成了十个评价项目,24个评价要点,103个打分点,这是2010年我帮助中航工业集团公司制定的评价标准,用于评价集团公司的下属企业。航空企业20多个单位完成了评价,目前来讲他们达到了第三级,开始形成自己的标准。这个评价模型也可以用来企业自评,就是指导把前面八个要素,四种模式怎么用起来。航空做的很好,也不过是在二、三级水平,华为应该是在第五级,不一样,从可靠性角度来看,真是不一样。

最后再总结一下就是这张图,中间上面是八个实施要素,下面四个应用模式,这两个方面体现了企业的可靠性做的好做的差就是可靠性系统工程能力。

最后一个问题,说一下我对中国可靠性事业的发展展望。说一下未来,未来我的心目中或者我想应该是这个状态,三个生态圈,一个是制造业企业是牵引可靠性工作的动力,如果你们行业没有可靠性这个需求,我今天不会站到这儿,需求会带来新的发展,更高的质量要求,更强的社会责任,最具有中国特色的中国产品的使用场景,这个非常非常重要,我再罗嗦一点,讲一个小小的案例,中国的产品,刚才主持人说了风机要零下40度部署,国外没有遇到过,这种类似情况太多了,比如我们的地铁,大家天天坐地铁,地铁出入口的闸机最初是西门子给我们提供的,咱们做的不好,不是做不出来,做出来就是总出故障,影响使用,特别是高峰期,闸机出故障,大煞风景啊,西门子的可靠性很好,装了,一开始还都挺好,当地铁载客量越来越多时,西门子的故障率也高了,西门子公司也很奇怪,一百多年地铁历史,闸机怎么到中国不好使了,派人服务跟踪,他们先看我们的使用场景,然后发现中国人太多了,一个一个过闸机的频度是全世界最高的,频度不一样,他们的软件、他们的硬件不适应了这个频度,所以就故障了,所以使用场景在这儿不一样,影响可靠性。

第二个就是学术圈,我们可靠性在大学里是一个成长中的新学科,可靠性正从工程走向科学,我们要培养大量的专业人才,做可靠性的更多的基础研究、技术研究,国外的一位可靠性教授跟说很羡慕我们,我说羡慕我们有钱吗?我们国内现在科研投入增长很快,可靠性拿研究项目相对容易。他说你太LOW了,你们确实是暴发户,但我们不羡慕这个,我们羡慕的是中国制造业的发展历程和使用场景跟国外不一样,质量可靠性的新问题在中国,你们近水楼台,会遇到学科发展的新问题,你们研究的东西我们接触不到,这样未来十年二十年中国的可靠性学科就会走到世界领先了,这个思考的角度对让我很受教育,也非常有信心。

第三个圈生产性服务业,十九大报告里叫现代服务业,这个是创业的乐园,开咨询公司、技术服务公司的、一定会有大发展,20年前,可靠性试验用的三综合实验设备中国还不会制造,国外还禁运,后来我们北航研发成功了,国外也不禁运了,现在有个苏试试验的企业,专门搞可靠性和环境试验设备,上市公司,股票不错,旋极科技,也是上市公司,专门做故障诊断、故障预测技术,股票也很抢手。我说可靠性产业公司的春天来了,伴随制造大国向制造强国的转型,可靠性咨询服务作为现代服务业也要跨越发展了。国外的可靠性咨询公司非常赚钱,人也不多,生存的非常好,因为制造业企业是不断的冒出来的,每个新企业都会遇到这样那样的可靠性问题,总有咨询公司的生存土壤。我在学校里,专门开了一门课,就叫可靠性专业生态圈,面向大学一年级学生。这三个圈,预示着我们正在交互打造一个中国可靠性的生态链,这是未来发展方向和目标,我充满信心。

谢谢大家,我今天就讲这么多。

微信公众号微信公众号