非结构化数据与结构化数据并不表示两者之间存在真正的冲突。客户不是基于他们的数据结构选择,而是在使用他们的应用程序中选择:关系数据库用于结构化数据,大多数其他类型的应用程序用于非结构化数据。
然而,结构化数据分析的难易程度与非结构化数据的分析难度之间的关系日益紧张。结构化数据分析是一个成熟的流程和技术。非结构化数据分析是一个新兴行业,在研发方面需投入大量的资金,但这不是一项成熟的技术。企业内部的结构化数据与非结构化数据问题决定了他们是否应该投资于非结构化数据的分析,以及将这二者结合是否成为一种更好的商业智能?
什么是结构化数据?
结构化数据通常驻留在关系数据库(RDBMS)中。其字段存储长度显示数据电话号码,社会安全号码或邮政编码。甚至像名称这样的可变长度的文本字符串也包含在记录中,这使得它很容易搜索。只要数据是在RDBMS结构内创建的,数据就可以是人工或机器生成的。这种格式是搜索与人类产生的查询和使用的数据和字段名称类型的算法,如字母或数字、货币、日期。数据
包含结构化数据的普通关系数据库应用程序包括航空预订系统、库存控制、销售事务和ATM活动。结构化查询语言(SQL)允许在关系数据库中查询这种类型的结构化数据。
一些关系数据库确实存储或指向非结构化数据,例如客户关系管理(CRM)应用程序。由于备忘录字段不会将自己放到传统的数据库查询中,因此其集成可能不理想。尽管如此,大部分客户关系管理(CRM)数据都是结构化的。
什么是非结构化数据?
非结构化数据本质上是结构化数据之外的一切数据。非结构化数据具有内部结构,但不通过预定义的数据模型或模式进行结构化。它可能是文本的或非文本的,也可能是人为的或机器生成的。它也可以存储在像NoSQL这样的非关系数据库中。
典型的人为非结构化数据包括:
典型的机器生成的非结构化数据包括:
最具包容性的大数据分析可以使用结构化数据和非结构化数据。
结构化数据与非结构化数据:有什么区别?
除了存储在关系数据库和存储在一个关系数据库之外的明显区别之外,最大的区别在于分析结构化数据与非结构化数据的便利性。针对结构化数据存在成熟的分析工具,但用于挖掘非结构化数据的分析工具正处于萌芽和发展阶段。
用户可以通过文本非结构化数据运行简单的内容搜索。但是,缺乏有序的内部结构使得传统数据挖掘工具的目标失败,企业从富有价值的数据源(如媒体、网络、博客、客户交互,以及社交媒体数据)获得的价值很小。即使非结构化数据分析工具在市场上出现,但没有任何一个供应商或工具集是明确的赢家。许多客户不愿意投资于具有不确定发展路线图的分析工具。
除此之外,非结构化数据比结构化数据要多得多。非结构化数据占企业数据的80%以上,并且以每年55%和65%的速度增长。如果没有工具来分析这些海量数据,组织会在商业智能表上留下大量有价值的数据。
传统上,结构化数据对大数据应用程序来说更容易消化,但如今的数据分析解决方案正在这方面取得重大进展。
半结构化数据如何适用于结构化和非结构化数据
半结构化数据维护用于识别单独数据元素的内部标记和标签,从而实现信息分组和层次结构。文档和数据库都可以是半结构化的。这种类型的数据只代表结构化/半结构化/非结构化数据的5%-10%,但具有关键的业务用例。
电子邮件是半结构化数据类型的一个非常常见的例子。而更高级的分析工具对于线程跟踪,近似重复数据删除和概念搜索是必需的。电子邮件的本地元数据可以实现分类和关键字搜索,无需任何其他工具。
电子邮件是一个巨大的用例,但大多数半结构化的开发中心都在缓解数据传输问题。与基于Web的数据共享和传输一样,共享传感器数据也是一个不断增长的用例:电子数据交换(EDI),许多社交媒体平台,文档标记语言和NoSQL数据库。
半结构化数据的例子
在大数据环境中,NoSQL不需要管理员将运营和分析数据库分离为单独的部署。NoSQL是可操作的数据库,并托管用于商业智能的本地分析工具。在Hadoop环境中,NoSQL数据库摄取并管理传入数据并提供分析结果。
这些数据库在大数据基础架构和LinkedIn等实时Web应用程序中很常见。在LinkedIn网站上,数以亿计的商业用户可以自由分享职位、地点、技能等等。LinkedIn以半结构化格式捕捉海量数据。当求职用户创建搜索时,LinkedIn会将查询与其大规模的半结构化数据存储相匹配,将数据交叉引用到招聘趋势中,并与求职者分享结果推荐。 Salesforce等高级LinkedIn服务中的销售和营销查询也采用相同的流程。亚马逊还将读者推荐建立在半结构化数据库上。
结构化数据与非结构化数据:下一代工具是游戏规则改变者
可以使用新工具分析非结构化数据,特别是给定用例参数。大多数这些工具都基于机器学习。结构化数据分析也可以使用机器学习,但海量数据和许多不同类型的非结构化数据都需要它。
几年前,使用关键字和关键短语的分析人员可以搜索非结构化数据,并对数据涉及的内容有一个清晰的概念。电子发现是这种方法的主要例子。但是,非结构化数据的增长速度非常快,以至于用户不仅需要采用计算工作的分析,而且还要自动从他们的活动和用户决策中学习。自然语言处理(NLP)、模式感知和分类以及文本挖掘算法都是常见的例子,文档相关性分析、情感分析和过滤器驱动的网页收集也是常见的例子。
使用机器学习智能进行非结构化数据分析可使组织:
在电子数据展示中,数据科学家使用关键字搜索非结构化数据并获得有关数据的合理构想。
无论企业的业务具体是什么,其目标都是挖掘业务价值,无论数据是结构化的还是非结构化的。这两种类型的数据都可能具有很高的价值,而较新的工具可以汇总、查询、分析和利用所有数据类型,以便在整个企业数据范围内获得更加深入的业务洞察力。
联系客服