效率是经济学理论的永恒话题,指从一定的投入中获取最终产品(数量和质量)的能力。效率正是工业领域的IT和DT系统要解决的核心问题。解决工业企业在DT建设过程中资源配置的效率和生产组织的效率是工业大数据平台的核心价值所在。
工业大数据价值的主要来源是数据和算法。数据是原料,反映和记录工业运行的各方面的状态和信息。算法是利用来源于工业领域本身的机理和经验以及来源于数学和计算机领域的统计和机器学习方法来显性化、数字化工业知识。数据和算法的有机组合沉淀为解决具体问题的模型。
工业大数据平台是效率工具。主要解决数据供给、算法研发和模型应用的常态化积累、专业化迭代和规模化应用的效率问题。
数据供给边际成本递减
工业大数据平台的数据模型提高数据供给的效率。数据模型是承载着业务需求和标准规范的元数据集合,向下规约数据,向上承接应用。工业领域的数据模型设计需要将业务模型和技术模型有机结合。首先是要解耦合,保证业务层面的灵活性和技术层面的高效性。其次是要一体化,保证数据分析应用可以通过数据模型多维度关联化访问数据,屏蔽底层存储模型。例如,钢轨生产运营优化需要建立一个以物料(钢坯)为中心,以生产流程(轧制线)为轴的数据模型。风力发电机的设备运维则需要建立一个以风力发电机为中心,整合研发设计、生产制造、后运维全生命周期的数据模型。而从技术角度来看,利用关系模型或KV模型等技术保证业务模型的灵活性,利用时序的元组模型来保证机器数据存储的高效性。数据模型成为数据的操作系统,平台上的多源异构数据从数据库、对象存储等具体存储形式中解耦出来。数据模型的建立能够让数据管理工作有着力点,是数据质量的保障。在数据模型设计的基础上结合业务需求和行业标准规范对数据进行治理入库,能够为算法开发与的业务分析工作提供更方便的数据访问方式和更准确的数据,让算法得出更准确的结果。
工业大数据平台的整合计算存储能力提高数据供给的效率。平台作为效率工具在计算引擎上集成了业界最主流先进的生产力工具,包括消息队列、分布式计算框架、流计算框架等。更重要的是利用可视化界面、SQL标准等技术统一了提交计算任务的入口,降低了提交计算任务的门槛。从数据分析的角度来看,数据分析师可以在一个平台上,通过成本很低的方式获取到需要的数据。甚至在获取数据的过程中就进行并行化的预处理,降低了后续在算法开发阶段的数据预处理的工作量。同时,经过数据分析师标注和加工过的数据集又反过来丰富了平台上的数据,这些数据可以被重复利用,从而促进更大范围的协同。
工业大数据平台的协同能力提高数据供给的效率。平台从工作内容上把数据工程师和数据分析师的工作进行解耦,数据工程师专注于数据的汇聚和治理,数据分析师专注于算法模型的研发。同时,双方的工作又互相促进,数据分析师提出数据需求有助于数据源、数据模型和数据治理策略的完善,数据工程师对于数据模型与质量的洞察又能帮助数据分析师正确的认识平台上的数据资产。
算法研发边际成本递减
工业大数据平台的一体化算法研发环境提高算法研发的效率。工业领域算法的研发有深度结合机理等先验知识、利用通信等专业领域算法、基于设备型号或生产批次进行批处理等突出特性。工业大数据平台是提升工业算法开发的效率工具。
算法的研发是一个积累的过程。平台需要提供工业领域常用的专业算法库来加速特征提取加工等算法研发的过程。机器产生的振动数据的处理需要信号处理领域的专业算法来加工特征,如傅里叶变换、小波变换。传感器产生的时间序列数据需要时序分析算法来进行识别、切割、比对、趋势判断和预测。
算法研发是一个资源密集型任务。当工业数据分析师在他们的笔记本或个人工作站进行开发的时候,就会面临高质量数据难以获取,数据过时、算力有限等资源瓶颈。在基于样本数据完成算法编写,要在同一型号设备或生产批次上进行训练或验证时,需要短时间获取大量资源进行批量化处理。统一的平台提供按需分配、丰富多样的基础设施,使得数据分析师可以在平台上持续获取最新高质量的数据,方便的获取足够算力与异构的基础设施,高效的进行并行化训练。
算法的开发是一项团队运动。当工业数据分析师在他们的笔记本或个人工作站进行开发的时候,还会遇到依赖众多,语言版本不统一,代码缺乏管理等一系列效率问题,导致了算法开发的生产率极其低下。统一的平台提供一体化的算法协同开发环境、完善的研发管理,使得数据分析师利用统一维护的开发环境进行协同开发,有效管理代码,进行持续集成。同时新算法积累和迭代能够不断丰富平台能力,繁荣研发生态。
模型应用边际成本递减
工业大数据平台的模型库与API服务提高业务应用消费模型的效率。更快落地数据科学有利于业务,有利于保持数据科学本身的生命力。工业数据分析模型的开发是一个探索型任务,但是最终要服务于业务。在业务应用中嵌入分析模型的结果需要持续试错和迭代。而我国工业企业普遍缺乏IT开发能力和应用快速上线的基础设施。工业大数据平台的模型库与API服务把模型从应用中解耦,支持模型灵活对接应用,持续集成部署,包括模型的服务化发布、上线下线、灰度发布、A/B测试,API管理等。在尽量不动应用本身的前提下进行模型的持续更新迭代。在云加端的架构中,云端平台完成模型的开发、训练与下发,端侧完成模型的运行,云端无缝对接,大大提高模型应用的效率。
工业大数据平台是效率工具,承载工业领域的数据、算法与模型,基于先进的IT/DT技术,对外提供协同的平台与标准化的服务。平台的建设规划需要按照实际业务的需要循序渐进,小步快跑。一方面控制投入减少风险,另一方面在实践中锻炼队伍,促进平台建设良性发展,最终利用工业大数据平台这个效率工具实现DT建设过程中资源配置的高效化和生产组织的高效化,使企业的DT建设变成各方都受益的正和游戏。
责任编辑: