208个最新最全大数据/人工智能专有名词术语中英对照（下）

接上篇

208个最新最全大数据/人工智能专有名词术语中英对照(上)

键值数据库(KeyValue Databases) ：数据的存储方式是使用一个特定的键，指向一个特定的数据记录，这种方式使得数据的查找更加方便快捷。键值数据库中所存的数据通常为编程语言中基本数据类型的数据。

负载均衡(Load balancing)：为了实现最佳的结果和对系统的利用，将负载分发给多个计算机或者服务器。

延迟(Latency) ：表示系统时间的延迟

日志分析（ Log Analytics ）：的详细信息,它是一种面向 IT 管理员的强大可视化和分析工具,可帮助他们轻松管理数据中心环境。

遗留系统(Legacy system) ：是一种旧的应用程序，或是旧的技术，或是旧的计算系统，现在已经不再支持了。

位置信息(Location data) ：GPS信息，即地理位置信息。

日志文件(Log file) ：由计算机系统自动生成的文件，记录系统的运行过程。

元数据(Metadata)：元数据就是能够描述其他数据的数据。元数据总结了数据的基本信息，这使得查找和使用特定的数据实例变得更加容易。例如，作者、数据的创建日期、修改日期以及大小，这几项是基本的文档元数据。除了文档文件之外，元数据还被用于图像、视频、电子表格和网页。

MongoDB：是一个面向文本数据模型的跨平台开源数据库，而不是传统的基于表格的关系数据库。这种数据库结构的主要设计目的是让结构化数据和非结构化数据在特定类型应用的整合更快、更容易。

Mashup：这个术语和我们在日常生活中使用的「mashup」一词有着相近的含义，就是混搭的意思。实质上，mashup 是一个将不同的数据集合并到一个单独应用中的方法(例如：将房地产数据与地理位置数据、人口数据结合起来)。这确实能够让可视化变得很酷。

多维数据库(Multi-Dimensional Databases)：这是一个为了数据在线分析处理(OLAP)和数据仓库优化而来的数据库。如果你不知道数据仓库是什么，我可以解释一下，数据仓库不是别的什么东西，它只是对多个数据源的数据做了集中存储。

机器学习(Machine Learning)：机器学习是基于喂入的数据去设计能够学习、调整和提升的系统的一种方法。使用设定的预测和统计算法，它们持续地逼近「正确的」行为和想法，随着更多的数据被输入到系统，它们能够进一步提升。

MapReduce： MapReduce 中，程序模型首先将大数据集分割成一些小块(这些小块拿技术术语来讲叫做「元组」，但是我描述的时候会尽量避免晦涩的技术术语)，然后这些小块会被分发给不同位置上的不同计算机(也就是说之前描述过的集群)，这在 Map 过程是必须的。然后模型会收集每个计算结果，并且将它们「reduce」成一个部分。MapReduce 的数据处理模型和 Hadoop 分布式文件系统是分不开的。

M2M数据(Machine2Machine data) ：两台或多台机器间交流与传输的内容

机器数据(Machine data) ：由传感器或算法在机器上产生的数据

企业级市场(Marketing-B2B):即面对企业用户进行销售,营销和推广.

MapReduce ：是处理大规模数据的一种软件框架(Map: 映射，Reduce: 归纳)。

大规模并行处理(MPP: Massively Parallel Processing) ：同时使用多个处理器(或多台计算机)处理同一个计算任务。

电子商务市场(Marketing-B2C)：是以信息网络技术为手段，以商品交换为中心的商务活动；也可理解为在互联网（Internet）、企业内部网（Intranet）和增值网（VAN，Value Added Network）上以电子交易方式进行交易活动和相关服务的活动，是传统商业活动各环节的电子化、网络化、信息化

MongoDB ：一种开源的非关系型数据库(NoSQL database)

多值数据库(MultiValue Databases) ：是一种非关系型数据库(NoSQL), 一种特殊的多维数据库：能处理3个维度的数据。主要针对非常长的字符串，能够完美地处理HTML和XML中的字串。

移动互联网(Mobile Internet)：就是将移动通信和互联网二者结合起来，成为一体。是指互联网的技术、平台、商业模式和应用与移动通信技术结合并实践的活动的总称。

大规模并行处理（Massively Parallel Processor ）：在数据库非共享集群中，每个节点都有独立的磁盘存储系统和内存系统，业务数据根据数据库模型和应用特点划分到各个节点上，每台数据节点通过专用网络或者商业通用网络互相连接，彼此协同计算，作为整体提供数据库服务。非共享数据库集群有完全的可伸缩性、高可用、高性能、优秀的性价比、资源共享等优势。

非关系型数据库( Not Only SQL)：这个词听起来几乎就是「SQL，结构化查询语言」的反义词，SQL 是传统的关系型数据管理系统(RDBMS)必需的，但是 NOSQL 实际上指的是「不止 SQL」。NoSQL 实际上指的是那些被设计来处理没有结构(或者没有「schema」，纲要)的大量数据的数据库管理系统。NoSQL 适合大数据系统，因为大规模的非结构化数据库需要 NoSQL 的这种灵活性和分布式优先的特点。

自然语言处理(Natural Language Processing)：自然语言处理是被设计来让计算机更加准确地理解人类日常语言的软件算法，能够让人类更加自然、更加有效地和计算机交互。

神经网络(Neural Network)：神经网络是一个受生物学启发的非常漂亮的编程范式，它能够让计算机从观察到的数据中学习。已经好久没有一个人会说一个编程范式很漂亮了。实际上，神经网络就是受现实生活中脑生物学启发的模型....... 与神经网络紧密关联的一个术语就是深度学习。

深度学习(Deep learning)：是神经网络中一系列学习技术的集合。

网络分析(Network analysis) ：分析网络或图论中节点间的关系，即分析网络中节点间的连接和强度关系。

NewSQL：一个优雅的、定义良好的数据库系统，比SQL更易学习和使用，比NoSQL更晚提出的新型数据库

NoSQL ：顾名思义，就是“不使用SQL”的数据库。这类数据库泛指传统关系型数据库以外的其他类型的数据库。这类数据库有更强的一致性，能处理超大规模和高并发的数据。

对象数据库(Object Databases) ：(也称为面象对象数据库)以对象的形式存储数据，用于面向对象编程。它不同于关系型数据库和图形数据库，大部分对象数据库都提供一种查询语言，允许使用声明式编程(declarative programming)访问对象.

开放源代码（Open source code）:也称为源代码公开，指的是一种软件发布模式。一般的软件仅可取得已经过编译的二进制可执行档，通常只有软件的作者或著作权所有者等拥有程序的原始码。有些软件的作者会将原始码公开，此称之为“源代码公开”，但这并不一定符合“开放原代码”的定义及条件，因为作者可能会设定公开原始码的条件限制，例如限制可阅读原始码的对象、限制衍生品等。

办公自动化（Office Automation，简称OA）:是将现代化办公和计算机技术结合起来的一种新型的办公方式。办公自动化没有统一的定义，凡是在传统的办公室中采用各种新技术、新机器、新设备从事办公业务，都属于办公自动化的领域。通过实现办公自动化，或者说实现数字化办公，可以优化现有的管理组织结构，调整管理体制，在提高效率的基础上，增加协同办公能力，强化决策的一致性。

基于对象图像分析(Object-based Image Analysis) ：数字图像分析方法是对每一个像素的数据进行分析，而基于对象的图像分析方法则只分析相关像素的数据，这些相关像素被称为对象或图像对象。

操作型数据库(Operational Databases) ：这类数据库可以完成一个组织机构的常规操作，对商业运营非常重要，一般使用在线事务处理，允许用户访问、收集、检索公司内部的具体信息。

优化分析(Optimization analysis) ：在产品设计周期依靠算法来实现的优化过程，在这一过程中，公司可以设计各种各样的产品并测试这些产品是否满足预设值。

本体论(Ontology) ：表示知识本体，用于定义一个领域中的概念集及概念之间的关系的一种哲学思想。(译者注: 数据被提高到哲学的高度，被赋予了世界本体的意义，成为一个独立的客观数据世界)

异常值检测(Outlier detection) ：异常值是指严重偏离一个数据集或一个数据组合总平均值的对象，该对象与数据集中的其他它相去甚远，因此，异常值的出现意味着系统发生问题，需要对此另加分析。

模式识别(Pattern Recognition)：当算法需要在大规模数据集或者在不同的数据集上确定回归或者规律的时候，就出现了模式识别。它与机器学习和数据挖掘紧密相连，甚至被认为是后两者的代名词。这种可见性可以帮助研究者发现一些深刻的规律或者得到一些可能被认为很荒谬的结论。

规范性分析(Prescriptive Analytics)：这里我们还是用信用卡转账的例子来理解。假如你想找出自己的哪类消费(如食品、娱乐、衣物等等)可以对整体消费产生巨大影响，那么基于预测性分析(Predictive Analytics)的规范性分析法通过引入「动态指标(action)」(如减少食品或衣物或娱乐)以及对由此产生的结果进行分析来规定一个可以降低你整体开销的最佳消费项。你可以将它延伸到大数据领域，并想象一个负责人是如何通过观察他面前多种动态指标的影响，进而作出所谓由「数据驱动」的决策的。

P字节(PB: Petabytes) ：约等于1000 TB(terabytes), 约等于1百万 GB (gigabytes)。欧洲核子研究中心(CERN)大型强子对撞机每秒产生的粒子个数就约为1 PB

平台即服务(PaaS: Platform-as-a-Service) ：为云计算解决方案提供所有必需的基础平台的一种服务

预测性分析法(Predictive Analytics)：如果你对过去 5 年信用卡消费的历史进行了分析，发现每年的消费情况基本上呈现一个连续变化的趋势，那么在这种情况下你就可以高概率预测出：来年的消费状态应该和以往是类似的。这不是说我们在预测未来，而是应该理解为，我们在「用概率预测」可能发生什么事情。在大数据的预测分析中，数据科学家可能会使用先进的技术，如机器学习，和先进的统计学处理方法(这部分后面我们会谈到)来预测天气情况、经济变化等等。

隐私(Privacy)：把具有可识别出个人信息的数据与其他数据分离开，以确保用户隐私。

公共数据(Public data) ：由公共基金创建的公共信息或公共数据集。

数字化自我(Quantified Self) ：使用应用程序跟踪用户一天的一举一动，从而更好地理解其相关的行为

查询(Query) ：查找某个问题答案的相关信息

R 语言：这还有人能给一个编程语言起一个更加糟糕的名字吗?R 语言就是这样的语言。不过，R 语言是一个在统计工作中工作得很好的语言。如果你不知道 R 语言，别说你是数据科学家。因为 R 语言是数据科学中最流行的编程语言之一。

射频识别(Radio Frequency Identification/RFID)：射频识别是一类使用非接触性无线射频电磁场来传输数据的传感器。随着物联网的发展，RFID 标签能够被嵌入到任何可能的「东西里面」，这能够生成很多需要被分析的数据。欢迎来到数据世界。

再识别(Re-identification) ：将多个数据集合并在一起，从匿名化的数据中识别出个人信息

回归分析(Regression analysis) ：确定两个变量间的依赖关系。这种方法假设两个变量之间存在单向的因果关系(译者注：自变量，因变量，二者不可互换)

射频识别(RFID) ：这种识别技术使用一种无线非接触式射频电磁场传感器来传输数据

实时数据(Real-time data) ：指在几毫秒内被创建、处理、存储、分析并显示的数据

推荐引擎(Recommendation engine) ：推荐引擎算法根据用户之前的购买行为或其他购买行为向用户推荐某种产品

路径分析(Routing analysis) ：针对某种运输方法通过使用多种不同的变量分析从而找到一条最优路径，以达到降低燃料费用，提高效率的目的

流处理(Stream processing)：流处理被设计来用于持续地进行流数据的处理。与流分析技术(指的是能够持续地计算数值和统计分析的能力)结合起来，流处理方法特别能够针对大规模数据的实时处理。

社交分析(Social analytics)：指基于信息学、数学、社会学、管理学、心理学等多学科的融合理论和方法，为理解人类各种社交关系的形成、行为特点分析以及信息传播的规律提供的一种可计算的分析方法。

结构化 vs 非结构化数据(Structured v Unstructured Data)：这是大数据中的对比之一。结构化数据基本上是那些能够被放在关系型数据库中的任何数据，以这种方式组织的数据可以与其他数据通过表格来关联。非结构化数据是指任何不能够被放在关系型数据库中的数据，例如邮件信息、社交媒体上的状态，以及人类语音等等。

软件即服务(SaaS)：软件即服务让服务提供商把应用托管在互联网上。SaaS 提供商在云端提供服务。

半结构化数据(Semi-structured data)：半结构化数据指的是那些没有以传统的方法进行格式化的数据，例如那些与传统数据库相关的数据域或者常用的数据模型。半结构化数据也不是完全原始的数据或者完全非结构化的数据，它可能会包含一些数据表、标签或者其他的结构元素。半结构化数据的例子有图、表、XML 文档以及电子邮件。半结构化数据在万维网上十分流行，在面向对象数据库中经常能够被找到。

存储(Storage)：一方面它是数据临时或长期驻留的物理媒介；另一方面，它是保证数据完整安全存放的方式或行为。存储就是把这两个方面结合起来，向客户提供一套数据存放解决方案。

内存数据流(Streaming/in memory)：是一种数据传送技术，它把客户机收到的数据变成一个稳定连续的流，源源不断地送出，使用户听到的声音或看到的图象十分平稳，而且用户在整个文件送完之前就可以开始在屏幕上浏览文件。这在目前大多数用户因接入瓶颈而不具备快速下载大型多媒体文件的情况下尤为重要。

情感分析(Sentiment Analysis)：情感分析涉及到了对消费者在社交媒体、顾客代表电话访谈和调查中存在的多种类型的交互和文档中所表达的情感、情绪和意见的捕捉、追踪和分析。文本分析和自然语言处理是情感分析过程中的典型技术。情感分析的目标就是要辨别或评价针对一个公司、产品、服务、人或者时间所持有的态度或者情感。

网络安全(Security)：是指网络系统的硬件、软件及其系统中的数据受到保护，不因偶然的或者恶意的原因而遭受到破坏、更改、泄露，系统连续可靠正常地运行，网络服务不中断。

销售量(Sales)：是指企业在一定时期内实际促销出去的产品数量。

空间分析(Spatial analysis)：空间分析指的是对空间数据作出分析，以识别或者理解分布在几何空间中的数据的模式和规律，这类数据有几何数据和拓扑数据。

智能数据(Smart Data)：是经过一些算法处理之后有用并且可操作的数据。

Terabyte：这是一个相对大的数字数据单位，1TB 等于 1000GB。据估计，10TB 能够容纳美国国会图书馆的所有印刷品，而 1TB 则能够容纳整个百科全书 Encyclopedia Brittanica。

Spark(Apache Spark)：Apache Spark 是一个快速的内存数据处理引擎，它能够有效地执行那些需要迭代访问数据库的流处理、机器学习以及 SQL 负载。Spark 通常会比我们前面讨论过的 MapReduce 快好多。

半结构化数据(Semi-structured data)：半结构化数据并不具有结构化数据严格的存储结构，但它可以使用标签或其他形式的标记方式以保证数据的层次结构

信号分析(Signal analysis)：指通过度量随时间或空间变化的物理量来分析产品的性能。特别是使用传感器数据。

相似性搜索(Similarity searches)：在数据库中查询最相似的对象，这里所说的数据对象可以是任意类型的数据

仿真分析(Simulation analysis)：仿真是指模拟真实环境中进程或系统的操作。仿真分析可以在仿真时考虑多种不同的变量，确保产品性能达到最优

智能网格(Smart grid)：是指在能源网中使用传感器实时监控其运行状态，有助于提高效率

SQL ：在关系型数据库中，用于检索数据的一种编程语言

结构化数据(Structured data)：可以组织成行列结构，可识别的数据。这类数据通常是一条记录，或者一个文件，或者是被正确标记过的数据中的某一个字段，并且可以被精确地定位到。

搜索(Search Engines)：它包括信息搜集、信息整理和用户查询三部分。搜索引擎是一个为你提供信息“检索”服务的网站，它使用某些程序把因特网上的所有信息归类以帮助人们在茫茫网海中搜寻到所需要的信息，它包括信息搜集、信息整理和用户查询三部分。目前常用的网络搜索引擎有百度，Google，我爱读，搜狐，雅虎，必应，好书搜索，有道，中搜，搜搜，搜客等。

T字节(TB: Terabytes)：约等于1000 GB(gigabytes)。1 TB容量可以存储约300小时的高清视频。

时序分析(Time series analysis)：分析在重复测量时间里获得的定义良好的数据。分析的数据必须是良好定义的，并且要取自相同时间间隔的连续时间点。

拓扑数据分析(Topological Data Analysis) ：拓扑数据分析主要关注三点：复合数据模型、集群的识别、以及数据的统计学意义。

交易数据(Transactional data)：随时间变化的动态数据

透明性(Transparency)：消费者想要知道他们的数据有什么作用、被作何处理，而组织机构则把这些信息都透明化了。

非结构化数据(Un-structured data)：非结构化数据一般被认为是大量纯文本数据，其中还可能包含日期，数字和实例。

数据可视化(Visualization)：有了合理的可视化之后，原始数据就能够使用了。当然这里的可视化并不止简单的图表。而是能够包含数据的很多变量的同时还具有可读性和可理解性的复杂图表。

价值(Value) ：(译者注：大数据4V特点之一) 所有可用的数据，能为组织机构、社会、消费者创造出巨大的价值。这意味着各大企业及整个产业都将从大数据中获益。

可变性(Variability)：也就是说，数据的含义总是在（快速）变化的。例如，一个词在相同的推文中可以有完全不同的意思。

多样(Variety)：(译者注：大数据4V特点之一) 数据总是以各种不同的形式呈现，如结构化数据，半结构化数据，非结构化数据，甚至还有复杂结构化数据

高速(Velocity)：(译者注：大数据4V特点之一) 在大数据时代，数据的创建、存储、分析、虚拟化都要求被高速处理。

真实性(Veracity)：组织机构需要确保数据的真实性，才能保证数据分析的正确性。因此，真实性(Veracity)是指数据的正确性。

可视化(Visualization)：只有正确的可视化，原始数据才可被投入使用。这里的“可视化”并非普通的图型或饼图，可视化指是的复杂的图表，图表中包含大量的数据信息，但可以被很容易地理解和阅读。

大量(Volume)：(译者注：大数据4V特点之一) 指数据量，范围从Megabytes至Brontobytes

天气数据(Weather data)：是一种重要的开放公共数据来源，如果与其他数据来源合成在一起，可以为相关组织机构提供深入分析的依据

网页（web）：构成网站的基本元素，是承载各种网站应用的平台。通俗地说，您的网站就是由网页组成的，如果您只有域名和虚拟主机而没有制作任何网页的话，您的客户仍旧无法访问您的网站。

XML数据库(XML Databases) ： XML数据库是一种以XML格式存储数据的数据库。XML数据库通常与面向文档型数据库相关联，开发人员可以对XML数据库的数据进行查询，导出以及按指定的格式序列化

Yottabytes：接近 1000 Zettabytes，或者 2500 万亿张 DVD。现在所有的数字存储大概是 1 Yottabyte，而且这个数字每 18 个月会翻一番。

Y字节 (Yottabytes)：约等于1000 ZB (Zettabytes), 约等于250万亿张DVD的数据容量。现今，整个数字化宇宙的数据量为1 YB, 并且将每18年翻一番。

Z字节 (ZB: Zettabytes)：约等于1000 EB (Exabytes), 约等于1百万 TB。据预测，到2016年全球范围内每天网络上通过的信息大约能达到1 ZB。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。