全球企业中的非结构化数据量增长迅猛,各种数据形式层出不穷,导致数据存储方式也千差万别,不断新增的数据源头,导致数据整合、清洗,整个流程的复杂度正在现有基础上呈几何式叠加,而且当前的大多IT架构都是针对结构化数据构造的,这给IT管理者和执行者造成许多困扰,自然成了阻碍数据分析产业的一个因素。
数据整合、清洗以及分析框架是数据分析不可缺少的环节。数据分析处理的架构需要技术的演化,数据整合的过程需要沟通博弈这类技术以外的努力,唯独数据清洗这部分经常被忽视,就连许多从事数据清洗工作的人都认为这是脏活儿累活儿,在IT技术发展到现如今实在有点让人难以接受。
IDC:非结构化数据增长趋势
数据清洗面临的问题
企业内部的数据,有的是Excel表格,有的是txt文本,有的是放在Oracle,MySQL,SQL Server这类关系型数据库中,有的直接放在文件中,实际环境中,即使是同一种数据也有多种标准,不同数据库对数据类型也有各种微小的差别,总之,数据类型要多复杂有多复杂,这样的问题也有解决方法,我们把解决这类问题的过程称作“数据清洗”。
在实际环境中,有些企业选用了一些专用的数据清洗工具,但许多工具都存在两个问题:一、有的清洗工具跟某些数据库绑定,在同时用多个数据库的情况下,需要逐个适配,一个一个对应处理,一旦有任何改动都非常麻烦;另外,一些数据工具定义的清洗规则不能很轻松地保存下来,这次配置的清洗规则换一个机器换一个环境还需要重复配置,太多重复性的工作让人很抓狂。
对于数据清洗这类工作,知呼上网友的看法是这样的:
如今的IT技术这么发达,清洗数据的工作居然仍被视为辛苦,重复性的体力活儿,这显然让人不能接受,如果有一个平台能够统一对多种数据库多种数据类型进行统一处理,而且,能够灵活高效地定义并高效利用一些新的清洗规则的话,那一切该是多么的美好?
如何解决数据清洗面临的问题
这里给大家介绍一个专门做数据清洗的大数据机器,叫云梦数据仓,这是由赛凡科技推出的一款软硬件一体化数据清洗设备,一站式支持数据迁移、数据同步、数据交换和数据整合,可对结构化及非结构化数据进行清洗整理,可以解决因数据杂乱无章给大数据应用造成的困扰。
我们简单了解一下该产品是如何解决上述问题的。
为解决数据复杂度的问题,云梦数据仓支持了各种常见主流数据库,支持TXT、SCV、Excel、XML等文件数据的抽取和装载,又因为支持了CIFS、NFS、FTP、WebDAV多种协议,可方便地打通多种数据源,有了很好的通用性,使用户可以不绑定于任何一个产品。
为解决重复性工作,提升工作效率,云梦数据仓内置了40种数据清洗规则,比如常见的繁简体,汉字拼音,乱码,字符集转化等,还能手动动态扩充新的清洗规则,把规则输出保存成文件,方便重复利用,配合上任务调度,当满足触发规则之后自动完成数据清洗和装载功能,最终提升了工作效率。
在安全性方面,云梦数据仓机身设计上采用嵌入式系统架构;数据可靠性方面支持断点续传功能;数据权限和加密传输也有许多措施;数据保护方面,支持了文件级的RAID 5 、6 、7,即使一个RAID里三块硬盘同时损坏也能生产运行,用多副本技术来支持重要数据的多重备份,支持VTL及NDMP备份,当然,也支持快照技术。
扩展性方面,首先,作为一个存储,云梦数据仓自带了48 TB存储空间,能扩展至792 TB。此外,云梦数据仓还支持OSGI(Java动态模型系统)架构,能方便的接入新的数据源,或者其他业务逻辑组件,支持通过API接口调用第三方应用创建执行流程,获取监控和统计信息。
结语
数据分析挖掘是一个长期的系统性的工程,过程中涉及的环节都应该顺畅高效的完成。数据清洗工具可以帮助用户先把结构化和非结构化等各种分散的数据统一起来,然后通过数据清洗把数据标准化,最终为数据挖掘提供方便。过程前后解放了数据清洗人员,提升了数据清洗的效率,节省了企业成本,更重要的是,随着大数据分析技术的进一步发展和应用的进一步普及,数据清洗产品可以帮你更好的体验到大数据的价值,为企业的长久竞争发展抢到先机,这就是云梦数据仓要做的。
(新闻稿 2016-01-05)