您好,欢迎来到华拓网。
搜索
您的当前位置:首页一种基于TBOX的整车运行数据的降维系统[发明专利]

一种基于TBOX的整车运行数据的降维系统[发明专利]

来源:华拓网
(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号 CN 110909818 A(43)申请公布日 2020.03.24

(21)申请号 201911208091.7(22)申请日 2019.11.30

(71)申请人 航天科技控股集团股份有限公司

地址 150060 黑龙江省哈尔滨市平房区哈

平西路45号(72)发明人 李德贤 刘金泽 郑祥滨 姜军 

杨春艳 (74)专利代理机构 哈尔滨市松花江专利商标事

务所 23109

代理人 高倩(51)Int.Cl.

G06K 9/62(2006.01)G06F 16/2458(2019.01)G06F 16/27(2019.01)G06Q 50/30(2012.01)

权利要求书1页 说明书3页 附图1页

()发明名称

一种基于TBOX的整车运行数据的降维系统(57)摘要

一种基于TBOX的整车运行数据的降维系统,解决了现有的数据压缩方法无法满足整车运行数据分析需要的问题,属于数据分析处理领域。本发明的数据分割器将原始信号库存储的分类侧整车运行数据进行数据分割;简单PCA主成分分析器根据分割后的数据,获取各分类侧指标的主成分;第一聚合计算模块根据各分类侧指标的主成分获得各分类侧指标的主成分的指标值;车辆信息基础模型根据该指标值进行更新,获得每分钟车辆的基本特征;选主计算模块根据整车运行数据的主指标在获得的基本特征中选择主特征;增量PCA主成分分析器对主特征进行分析,获得影响整车运行数据的主指标数据的主成分;利用第二聚合计算模块对主成分进行聚合,获得二次降维数据。

CN 110909818 ACN 110909818 A

权 利 要 求 书

1/1页

1.一种基于TBOX的整车运行数据的降维系统,其特征在于,所述系统包括:原始信号库,用于以分布式大数据集群形式存储分类的整车运行数据;数据分割器,与原始信号库连接,用于分别将原始信号库存储的分类侧整车运行数据进行数据分割;

简单PCA主成分分析器,与数据分割器连接,用于将数据分割器分割后的数据进行主成分分析,获取各分类侧指标的主成分;

第一聚合计算模块,与简单PCA主成分分析器连接,用于将简单PCA主成分分析器获取的各分类侧指标的主成分进行聚合,获得各分类侧指标的主成分的指标值,实现第一次降维;

车辆信息基础模型,与第一聚合计算模块连接,用于根据第一聚合计算模块聚合得到的各分类侧指标的主成分的指标值进行更新,用于获得每分钟车辆的基本特征;

选主计算模块,与车辆信息基础模型连接,用于根据整车运行数据的主指标在车辆信息基础模型获得的基本特征中选择主特征;

增量PCA主成分分析器,与选主计算模块连接,用于对选主计算模块获得的主特征进行主成分分析,获得影响整车运行数据的主指标数据的主成分;

第二聚合计算模块,用于对增量PCA主成分分析器获得的影响整车运行数据的主指标数据的主成分进行聚合,获得二次降维数据;

二次降维数据库,与第二聚合计算模块连接,用于存储第二聚合计算模块获得二次降维数据。

2.根据权利要求1所述的基于TBOX的整车运行数据的降维系统,其特征在于,所述系统还包括:

一次降维数据库,与第一聚合计算模块连接,用于将第一聚合计算模块获取的降维数据进行存储。

3.根据权利要求1所述的基于TBOX的整车运行数据的降维系统,其特征在于,所述数据分割器采用分布式Spark计算框架实现。

4.根据权利要求1所述的基于TBOX的整车运行数据的降维系统,其特征在于,所述增量PCA主成分分析器采用奇异值分解SVD的方法实现。

2

CN 110909818 A

说 明 书

一种基于TBOX的整车运行数据的降维系统

1/3页

技术领域

[0001]本发明涉及一种数据主成分分析系统,特别涉及一种基于TBOX的整车运行数据的降维系统,属于数据分析处理领域。背景技术

[0002]TBOX(Telematics BOX,车联网系统)管理平台每天约有5W辆车辆同时在线,车辆分布在全国各地,每天向平台传输入近8TB左右的数据,每年2PB的增量,其中包括位置、速度、动力侧传感器数据、能源侧传感器数据、供电侧传感数据及整车运行状态、报警情况、事件信息等整车运行数据。通过大数据技术对海量的整车运行数据进行有效的主成分分析降维,能快速、稳定、高效地将N维结构化大数据,转换成最小维度,尽可能保留相关数维,获得TBOX整车运行数据科学计算分析建模有益的信息。现有的数据压缩方法无法满足整车运行数据分析的需要。

发明内容

[0003]针对现有的数据压缩方法无法满足整车运行数据分析需要的问题,本发明提供一种基于TBOX的整车运行数据的降维系统。

[0004]本发明的一种基于TBOX的整车运行数据的降维系统,所述系统包括:[0005]原始信号库,用于以分布式大数据集群形式存储分类的整车运行数据;[0006]数据分割器,与原始信号库连接,用于分别将原始信号库存储的分类侧整车运行数据进行数据分割;

[0007]简单PCA主成分分析器,与数据分割器连接,用于将数据分割器分割后的数据进行主成分分析,获取各分类侧指标的主成分;[0008]第一聚合计算模块,与简单PCA主成分分析器连接,用于将简单PCA主成分分析器获取的各分类侧指标的主成分进行聚合,获得各分类侧指标的主成分的指标值,实现第一次降维;

[0009]一次降维数据库,与第一聚合计算模块连接,用于将第一聚合计算模块获取的降维数据进行存储;

[0010]车辆信息基础模型,与第一聚合计算模块连接,用于根据第一聚合计算模块聚合得到的各分类侧指标的主成分的指标值进行更新,用于获得每分钟车辆的基本特征;[0011]选主计算模块,与车辆信息基础模型连接,用于根据整车运行数据的主指标在车辆信息基础模型获得的基本特征中选择主特征;[0012]增量PCA主成分分析器,与选主计算模块连接,用于对选主计算模块获得的主特征进行主成分分析,获得影响整车运行数据的主指标数据的主成分;[0013]第二聚合计算模块,用于对增量PCA主成分分析器获得的影响整车运行数据的主指标数据的主成分进行聚合,获得二次降维数据;[0014]二次降维数据库,与第二聚合计算模块连接,用于存储第二聚合计算模块获得二

3

CN 110909818 A

说 明 书

2/3页

次降维数据。

[0015]本发明的有益效果,本发明实现了一套适用于大规模数据样本维度转换工具,在成熟的分布式计算大数据集群下可以快速、稳定、高效地维度转换。主成分分析法是一种相关性的分析法,本发明仅仅需要获得各维度的方差和分析主指标的偏离程度的信息,不受数据集以外的因素影响。各主成分之间正交,可消除原始数据成分间的相互影响的因素。本发明计算方法简单,主要运算是特征值分解,易于实现。附图说明

[0016]图1为本发明的原理示意图。

具体实施方式

[0017]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。[0018]需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。

[0019]下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。[0020]如图1所示,本实施方式的一种基于TBOX的整车运行数据的降维系统,包括:[0021]原始信号库,用于以分布式大数据集群形式存储分类的整车运行数据;[0022]本实施方式的TBOX管理平台获得同一品牌型号车辆的整车运行数据,存储在原始信号库中,原始信号库中的整车运行数据是分类存储的,包括整车运行数据包括动力侧、能源侧、供电系统等;[0023]数据分割器,与原始信号库连接,用于分别将原始信号库存储的分类侧整车运行数据进行数据分割;

[0024]简单PCA主成分分析器,与数据分割器连接,用于将数据分割器分割后的数据进行主成分分析,获取各分类侧指标的主成分,本实施方式的简单PCA主成分分析器是为了设置过滤条件,去除条件外的无关数据;[0025]第一聚合计算模块,与简单PCA主成分分析器连接,用于将简单PCA主成分分析器获取的各分类侧指标的主成分进行聚合,获得各分类侧指标的主成分的指标值,实现第一次降维;

[0026]本实施方式的第一次降维是计算每监测车辆本体在各分类侧维度上最大相关系数,利用分布式Spark计算框架进行车辆数据分割及PCA主成分分析,reduce结果为第一次降维计算汇总不同分类侧下的影响因子,数字小于等于0.00不计入维度。[0027]车辆信息基础模型,与第一聚合计算模块连接,用于根据第一聚合计算模块聚合得到的各分类侧指标的主成分的指标值进行更新,用于获得每分钟车辆的基本特征。[0028]选主计算模块,与车辆信息基础模型连接,用于根据整车运行数据的主指标在车辆信息基础模型获得的基本特征中选择主特征;[0029]增量PCA主成分分析器,与选主计算模块连接,用于对选主计算模块获得的主特征

4

CN 110909818 A

说 明 书

3/3页

进行主成分分析,获得影响整车运行数据的主指标数据的主成分;[0030]第二聚合计算模块,用于对增量PCA主成分分析器获得的影响整车运行数据的主指标数据的主成分进行聚合,获得二次降维数据;[0031]二次降维数据库,与第二聚合计算模块连接,用于存储第二聚合计算模块获得二次降维数据。

[0032]本实施方式的第二次降维是有因降维,比如在求故障成因模型之前,需要将第一次降维汇总数据,进行每小时或每日的数据聚合,计算动力侧故障时,将其全量分析前,进行第二次降维。二次降维主要使用L1正则去噪方法,即奇异值分解SVD的方法。[0033]本实施方式的系统还包括:[0034]一次降维数据库,与第一聚合计算模块连接,用于将第一聚合计算模块获取的降维数据进行存储。

[0035]本实施方式的一次降维数据库存储第一次降维的数据,当一次降维的数据即满足需求时,方便使用。

[0036]TBOX管理平台每日平次总样本量可能是兆+,维度也是上千,直接去拟合数据可能会让YARN内存池爆掉,本实施方式用IncrementalPCA类来解决这个问题。IncrementalPCA先将数据分成多个batch,然后对每个batch依次递增调用partial_fit函数,这样一步步的得到最终的样本最优降维。

[0037]虽然在本文中参照了特定的实施方式来描述本发明,但是应该理解的是,这些实施例仅仅是本发明的原理和应用的示例。因此应该理解的是,可以对示例性的实施例进行许多修改,并且可以设计出其他的布置,只要不偏离所附权利要求所限定的本发明的精神和范围。应该理解的是,可以通过不同于原始权利要求所描述的方式来结合不同的从属权利要求和本文中所述的特征。还可以理解的是,结合单独实施例所描述的特征可以使用在其他所述实施例中。

5

CN 110909818 A

说 明 书 附 图

1/1页

图1

6

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- huatuo3.cn 版权所有 湘ICP备2023017654号-3

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务