福布斯专栏报道丨关于找准人工智能产业着力点的几点建议

2019-07-12 10:54:11 18

一、人工智能是人类生产和生活方式的未来方向,是必须紧紧抓住的战略性产业

(一)    国际环境和国家战略聚焦人工智能产业发展

人工智能学科是一门综合学科,其产生具有坚实的多科学理论基础,由日益海量化的基础数据、持续提升的运算力、不断优化的算法模型和多样化的应用场景四大要素共同驱动。算法是机器实现人工智能的核心,大数据是人工智能的基础。迄今为止,“人工智能”自1956年达特茅斯会议提出后的62年内经历了寒冬与高潮交替的发展历程,分为三个阶段:第一阶段(1956-1980)人工智能诞生;第二阶段(1980-2000)人工智能步入产业化;第三阶段(2000-至今)人工智能产业迈入快速发展阶段。

图1:人工智能的三个发展阶段

近年来,得益于互联网、社交媒体、移动设备和传感器的大量普及,全球产生并存储的数据量急剧增加,为通过机器学习的方法来训练人工智能提供了良好的土壤。2016年,AlphaGo战胜围棋世界冠军掀起了第三次人工智能热潮。2018年人工智能产业迎来爆发。现阶段人工智能技术应用达到一个高点,提升了人工智能相关技术在金融、交通、安防、医疗等领域的渗透率:例如人机对战下棋;计算机视觉替代人工应用于安防、公安、刑侦、工业生产等领域;语音识别技术用于机场、车站、银行等领域的自动应答服务;源于网格式分布计算的云端服务为人工智能提供了更广泛的应用——基于专家系统的远程医疗等等。这些成功的应用,为人工智能科学的发展赋予了无限的想象力和发挥空间,也大大加强了产业界对大规模人工智能技术成功应用的信心。人工智能技术的发展,不仅会改变我们的生产和生活方式、思维和决策方式,其发展和应用意义重大而深远。

当前,我国正在大力发展人工智能科学与应用。据不完全统计,2017年中国人工智能核心产业规模超700亿元,而2018是人工智能爆发的元年,人工智能核心产业规模有望接近1000亿元。政策方面,多项国家政策的出台推动了人工智能产业在我国的快速发展,各种“AI+”或“+AI”场景正在逐步落地。2017年07月20日,国务院印发了《新一代人工智能展规划》提到“人工智能的迅速发展将深刻改变人类社会生活、改变世界。”并制定了人工智能“分三步走”的战略目标。随后,2017年12月14日的《促进新一代人工智能产业发展三年行动计划(2018-2020)》明确了从培育智能产品、突破核心基础、深化智能制造以及构建支撑体系的发展规划。

(一)    以史为鉴知兴替,“人工智能时代”不能重蹈“信息化时代”覆辙

回顾我国改革开放四十年(暂不讨论第一产业成就),在快速信息化的时期成就了很多的全球巨无霸企业(例如中兴通讯),带来了几十年的经济指标高增长;但是在直面西方贸易战的2017-2018年才发现,我们在信息文明时代的第一波(信息化)产业发展机遇期存在思维上的惰性,仍然固守工业文明思维、以物质生产为主要目标,整个信息化产业主要还是专注在快速低成本生产制造,而并没有认识到信息文明的本质不再仅仅是物质层面,更重要的是人类知识的逻辑性总结和产权垄断,从而,在战略核心上受制于人、在贸易战中处处被动。这里面,产业结构认知值得反思,应当再次检验“生产关系是否适应生产力的发展”。如果说,在信息文明第一波(信息化)时代,知识产权问题只在进入法律程序时觉得有用;在信息文明第二波(人工智能)时代,信息作为主要的生产资料,其存储和运算都是基于云端,机器人能理解什么、能做什么都是远在云端某处的“知识逻辑大脑”通过SaaS服务的形式通过互联网予以规定,一旦失去这些知识和逻辑支撑,家里用的、路上跑的、银行用的、天上飞的、医院用的等等所有机器人都可能瞬间退化成“婴幼儿能力”或“智障”,有视觉、有听觉、甚至嗅觉、能跑能跳,但是无法从事正常的生产活动。当前在信息文明时代的第二波(人工智能)产业发展机遇期,我们担忧地看到学界和实践界普遍还在延续工业化早期的“一窝蜂、短频快”的做法,这种在科学版图“一叶障目”的情况下“一路狂奔”的情况,可能使整个健康智能产业重蹈“信息化时代”覆辙,让一代人在十到二十年的周期性时间中迷失方向,进而造成国家层面的资源浪费、并处于被动局面。

鉴于上述,有必要及时看清人工智能产业链的全景和结构,站在未来看现在,明晰人工智能产业的战略重点和核心。

二、明晰产业结构和战略核心,是找准人工智能产业着力点的前提

(一) 国内人工智能产业整体落后、畸重发展,亟需产业链结构思维的明晰

据初步统计数字表明,目前人工智能产业主要涉及“感知和行为替代”、“知识与逻辑图谱”、“行业应用”等3大类,各类人工智能企业数分别为176家、26家、169家,占比为47%:7%:46%。其中,大企业偏“感知和行为替代”切入,创业企业偏“行业应用”切入,涉及人工智能核心“知识和逻辑图谱”企业最少。数据显示,国内“感知和行为替代”类人工智能企业中,85%集中在计算机视觉、语音和语义(自然语言处理)这3个领域,其中42%是计算机视觉相关技术,其后顺次是语音识别和语义理解(二者合计为43%);与国外人工智能“感知和行为替代”这一大类实践相比,国内企业更加注重计算机视觉、语音、语义等(这里的感知芯片不同于“信息化时代”的CPU)。在“行业应用”中,安防、AI+医疗、金融、教育等4个子领域的占比达到了40%,接着是智能机器人、智能驾驶和无人机。值得注意的是,涉及“知识与逻辑图谱”核心竞争力的企业仅占4%。由此可见,我国人工智能产业链发展存在子类的畸轻畸重、避重就轻,需要通过产业链的划分,凸显这一问题。

图2:人工智能企业分布情况(资料来源:互联网检索、中国信通院)

图3:“感知和行为替代”模块企业分布(资料来源:互联网检索、中国信通院)

(二)    厘清思路,人工智能产业链划分为“基础层”、“中间层”和“应用层”

图4:人工智能产业链可分为“基础层”、“中间层”、“应用层”三类

图5:人工智能产业链三层结构图

根据上述情况,为了我国能在未来占领人工智能产业机遇的制高点,我们提出把人工智能产业根据价值流重新定义和划分为“基础层”、“中间层”和“应用层”3个产业子领域:

1.      “基础层”主要以感知芯片和动力传导等硬件和数据资源为主导,解决人工智能“替代和发展人的感知和行为能力”的问题; 

2.      “中间层”尤为重要,解决人工智能“替代和发展人的知识”的逻辑问题,使其能像领域专家一样思考和生产;

3.      “应用层”是和各个传统产业领域相结合,整合基础层或中间层的能力实现人工智能对各行各业的转化,对传统行业进行升级式的应用改造,解决“高效满足人的更高需求”的服务问题。

表1:人工智能产业链三层定义

从人工智能的发展脉络角度看,从最初的存储数据、处理数据到现在可以用机器去感知,来“读懂、听懂”外界信息,做出相适应的判断,自动、半自动的进行下一步行动;而未来人工智能会产生自主意识,根据自我学习进化,主动判断下一步的行动,从而全面辅助或替代人类的工作。在这其中,“基础层”和“应用层”非常适合在“工业文明”的基础上延伸发展出来,因此我国人工智能产业的发展很可能也自然而然的以这两头为主。只有“中间层(知识逻辑层)”是具有鲜明信息文明时代特征的产业子领域。不得不指出,如果只有基础层和应用层的2端,没有中间层(知识层或逻辑层),机器能力和机器服务都将陷入盲目。而“中间层”牵涉到领域知识和逻辑,每个传统行业要通过人工智能提升生产力,必须要对这个行业的领域知识和逻辑有着深刻的理解,才能继承创新并有效发展(机器学习)出新的领域知识和逻辑,这样大方向才不会有偏差,转化出来的成果才会有价值。

因此,明晰人工智能产业机构、充分认识人工智能产业“中间层”的存在和重要性,是找准产业“抓手”的前提。然而,目前业界现状如何呢?

(三) 人工智能行业典型案例调研和行业现状思考

鉴于上述思考,课题组赶赴三家具有代表性的人工智能企业和上海经济和信息化委员会进行了实地调研,深入了解人工智能行业运行环境、政策支持、技术水平及产业结构现状,为本文的建议和观点提供实证依据。

表2:人工智能实地调研企业说明


调研结果总结如下:

1. “中间层”技术对人工智能企业乃至全行业有战略意义。接受调研的企业和上海经济和信息化委员会都非常同意“基础层”、“中间层”、“应用层”的人工智能行业分类方法,也非常赞成“中间层”在我国人工智能产业战略核心地位,是需要重点积累“护城河”的领域。

2. “中间层”是各个产业应用所必须,但是普遍没有实现“独立自主”。调研中发现,即使是“基础层”和“应用层”两端的人工智能企业,只要有产品进入市场,都或多或少的需要有中间层(逻辑和知识图谱)来支撑硬件和产业应用面向市场。但除了深深扎根于人工智能中间层技术研发的中间层企业外,“基础层”和“应用层”两端的领军企业所应用的“中间层”技术往往掌握在境外机构或少数大企业手中,或者是缺乏坚实科学基础“拼凑”。

3.多数企业未能拥有“中间层”核心技术的原因是企业生存压力。造成“中间层(知识和逻辑图谱)”核心技术发展不足的原因在于:虽然企业在进行未来的战略规划和展望时普遍认为积累和具备“中间层”技术是长远的战略护城河,但苦于当下的企业生存压力或为了快速提升当前市场份额的占有率,纷纷以“短频快”的方式在人工智能的低层次市场化通道中相互追逐,往往没有资源或无暇顾及“中间层”的研发和积累。

4. 研发科学的“中间层”,需要正确选择机器学习方法。人工智能需要通过机器学习获取正确的知识和逻辑图谱,机器学习又可分为无监督学习、监督学习和强化学习,进而分别向下拓展延伸。图示如下:

图6:机器学习方法分类

一方面是要充分重视监督学习的重要性。与日常生活领域不同,医疗、金融等具有深度行业知识的领域,需要运用监督学习算法,凝聚人类专业领域权威知识或广泛认可知识精度的初始知识和逻辑图谱用于迁移学习,而不能进行0基础的无监督学习,例如IBM的Watson宣告失败就是典型案例,说明所谓“算法”自身的优化并不能低消“无监督学习”所带来的方法性错误影响。另一方面,监督学习需要数据证据进行“监督”,其中,只有那些凝聚人类专业权威领域知识或广泛认可知识精度的初始知识和逻辑图谱(“金标准”)才适合用于产生有效的“中间层”,甚至可以用于迁移学习或小样本学习提高学习效率。一般来说,样本数据或证据分为三类,A类证据为无偏大数据;B类证据为专家组意见;C类证据为某个专家意见。其中,B类证据往往受到专家遴选的影响,只有有监督实践产生的有监督大数据证据(A类证据)才是真正的“金标准”,基于A类证据运用监督学习算法对知识图谱进行模型跃迁和进化的方法更为有效。虽然这种“金标准”往往可遇而不可求,发展“中间层(知识和逻辑图谱)”技术内核仍要遵循科学的逻辑和方法;目前出现不少“无监督学习”产生的所谓“知识图谱”受到市场盲目追捧,需要加以鉴别和正确引导。

5. 研发科学的“中间层”,需要正确选择数据类型或关注数据质量。通过有效的机器学习产生的正确知识逻辑图谱,是人工智能发展的关键科学内核,其中机器学习的对象(行业大数据)也至关重要。统计学是人工智能的算法基础,统计学界流行一句话“垃圾数据进、垃圾结果出”,应避免从“垃圾数据”或C类证据起步的0基础无监督学习造成的“恶魔现象”。例如在医疗领域,虽然系统性的循证医学实践产生的误诊率小的证据数据才真正符合A类数据的要求,国内却长期流行“科室主任查房”确定诊断和治疗方案,这种存在系统性偏倚的医疗实践所产生的是高误诊率均值和标准差的“医疗大数据”,是典型的C类证据(而不是A类证据),所以并非大数据就是可靠的。学界和企业界在应用时经常会混淆概念,在找不到或鉴别不了A类证据时,就用B类甚至C类具有很高混杂噪音和很高系统性偏移的数据基础上进行学习,这些含有大量“假阳性”和“假阴性”数据被机器学习的结果(“知识图谱”),很难超越“垃圾数据”本身所代表的高误诊率均值和标准差等信息。

 

图7:科学的监督机器学习和无监督机器学习在行业应用中的比较

三、 关于我国人工智能产业发展的若干建议

综上所述,应当充分重视人工智能产业“中间层”子领域的扶植和发展,聚焦“中间层”抓手,我们建议:

(一)   产业规划中重视、扶持和引导人工智能“中间层”企业的科学发展

明确“中间层”在人工智能产业规划中的地位和重要性,针对植根人工智能“中间层”或在“中间层”拥有国际领先性的企业,在包括税收等各产业政策方面给予重点扶持,减少企业生存压力,使“中间层”企业能专注对“中间层(知识和逻辑图谱)”的持续进化和完善,并鼓励其领先性。同时,引导人工智能“中间层”的科学发展方向,强调数据的可靠性和监督学习方法在人工智能“中间层(知识和图谱)”研发和进化中的必要性,制定机器学习中数据证据和学习方法的指引或标准,以避免人工智能产业发展中出现“劣币驱逐良币”效应而制约整合行业的长远发展。

(二)   充分引导和鼓励人工智能企业发展“中间层”技术的创新和积累

一方面,通过对AI企业税收或相关政策的扶持,引导AI企业不追求快速盈利,从而留出“中间层”创新和技术积累的时间和空间,增强对“中间层(逻辑知识和图谱)”的研发和积累的重视程度。另一方面,对拥有自主知识产权“中间层”的市场化应用予以扶植,例如在政府采购项目中优先应用,从而增强我国人工智能产业发展的硬实力,避免在国际竞争中处于被动局面。

(三)   针对“AI+”或“+AI”产业应用核心知识图谱领域,构建若干国家级“中间层”共享资源平台,有利于短期内缓解人工智能行业“中间层(知识和逻辑图谱)”底蕴和研发力度不足的局面

国家构建“中间层”核心知识和逻辑图谱共享资源平台,能大大缓解目前人工智能行业“中间层(知识和逻辑图谱)”底蕴和研发力度不足的局面,能够在短期内促进人工智能“应用层”和“基础层”产业发展。国家在鼓励“中间层”企业持续发展适用于各行业的“中间层”核心知识和逻辑图谱的同时,积极发现、总结、整合优质资源,构建行业共享资源平台,通过提升“中间层”资源的有效利用和配置,增强我国人工智能行业的整体实力,有利“人工智能时代”弯道超车。

(四)   加强数据资源思维、形成数据资源战略,以共享A类证据池夯实“中间层”的行业发展基础

符合A类证据特征的各行业大数据,是“中间层(知识逻辑层)”子领域的必要学习资源。当前的行业数据主要掌握在少数大型互联网企业或各个信息孤岛手上,这些数据的安全性和使用规范也都掌握在企事业单位本身,政府对于数据资源的统筹和数据安全的监管相对薄弱。政府应加强数据资源思维、形成数据资源战略,加强全社会数据编码应用,打破各方壁垒,从各传统行业进行数据的抽取、清洗、验证、标签化,化解数据孤岛局面,保障隐私的同时提升数据效用,积极鼓励市场化挖掘生产、生活各领域的数据资源的应用价值,建成共有数据池,例如通过自动识别、翻译、适应性进化等技术处理,实现健康医疗行业大数据的隐私保护与行业应用的智能化对接和安全保障,从而使更多人工智能领域创新企业能够利用这些基础数据资源,促进其算法模型和解决方案的优化升级,挖掘更多潜在增长点,方便人民生活、促进信息时代生产。

(五)   关注“中间层”人才的补给,改善人才不足对我国AI产业发展的制约情况

当前人工智能“中间层(逻辑和知识图谱)”所需的机器学习方面的科技人才十分稀缺,在培养中存在2方面问题:一方面是,人工智能是跨领域、多学科的科技应用,不存在人工智能“新专业”,高等数学、多元统计、计算机科学等专业人才即可满足人工智能“中间层”所需的机器学习方法等底层技术在大数据挖掘、模式识别等相关方面的研发需求;另一方面是,正如数据挖掘和精算领域那句名言“所有数据都应该是业务的(产生于业务并服务于业务)”,需要重视的是复合型人才的培养,应加强多元统计等数学专业技能与医疗、金融、城市规划、机械、安防等相关应用领域的融合和互动,加深对于各传统行业的理解,才能有效的缓解我国人工智能人才欠缺对产业发展的制约。

                             本文基于民建中央科教委员会汤子欧、苏剑波、周世杰、赵晓光、韩佳、贺颐林共同调研。

原文链接:http://www.forbeschina.com/technology/599