你有数据。你的竞争对手有数据。我们都有数据,而且有很多。这是一个数据驱动的世界,这给我们留下了一个问题:我们如何处理这一切?
数据库概述
我们关于如何处理所有数据的简短答案是将其放入数据库中。数据库是数据解决方案的基本组成部分。数据必须存在于某个地方,对于大多数应用程序来说,这是一个数据库。它基本上是一个有组织的数据集合。通常,用于此的数据库类型是OLTP(联机事务处理)数据库。
但是,图片更多的是存储来自一个来源或应用程序的信息。当今的业务建立在数据的基础上,而OLTP数据库通常并不擅长在由多个数据源组成的大型数据集上运行分析。随着您开始积累越来越多的来自多个来源的数据,并需要进行转换和对其进行分析等操作,将来自多个不同来源的数据存储在多个OLTP数据库中或跨多个数据库存储可能成为一项责任。对每个数据源进行单独分析的效率并不高,并且成本最高。
您需要一个更好的地方来保存来自所有这些数据源的数据 - 这个地方允许您同时维护所有数据源和数据流的单个存储库并运行分析。
数据仓库概述
对我们的问题更好的答案是将数据集中在数据仓库中。数据仓库基本上是一个专门用于存储,过滤,检索和分析非常大的数据集合的数据库(或一组数据库)。数据仓库是基于OLAP(联机分析处理)并专为分析而设计的。现代的方法是将来自所有数据库(和数据流)的数据放入单一数据仓库中。这允许您一次执行可视化和分析 - 同时对大部分数据执行可视化和分析,而不是在较小的块上多次执行 - 而无需合并或协调结果。
对于数据仓库,选择内部部署和基于云的解决方案。内部部署的数据仓库(例如Oracle,IBM,Teradata等)通常擅长灵活性和安全性。在托管服务器或直接访问服务器时,您可以更好地控制管理和配置。
基于云的数据仓库(如Amazon Redshift,Google BigQuery,Snowflake等)提供更高的可扩展性和更低的入门和维护成本。例如,只有在需要时才能启动(并支付)额外的计算能力和存储空间。此外,资源始终可用,因此您可以快速启动并运行,而无需等待购买,安装和联机的新硬件或容量。我们在“选择正确的云数据仓库指南”中讨论如何 选择数据仓库。
它们如何叠加
数据库
用于存储来自一个或有限数量的应用程序或来源的数据。
优点:处理数字交易,建立技术
缺点:报告,可视化和分析无法在大量集成的数据源和数据流中执行
数据仓库
用于汇总来自许多不同数据源的数据,并将这些数据用于可视化,报告和分析。专门用于分析。
优点:更好地支持报告,分析,大数据,数据检索和可视化,旨在存储来自任意数量数据源的数据
缺点:与单一数据库相比,成本高昂,摄入前准备/配置数据(对于云数据仓库),对访问和安全配置的控制较少
最适合你的是什么?
如果您正在处理多个(或少数)应用程序和数据源,那么您可能会发现OLTP数据库和RDBMS不是一个好的解决方案。事情是这样的:数据源和数据流的数量每天都在增长。新的云和SaaS产品的激增导致大量数据对您的业务至关重要。将所有这些数据保存在其分散的资源中会导致分析问题。你怎么知道你有什么?你怎么能找到你需要的?你怎么分析这一切?
一旦开始必须同步来自多个数据库的数据,您已经到了应该考虑实施某种提取,转换,加载(ETL)过程以将数据从数据库和数据源/数据流移动到单个数据的位置仓库。
结论
最终,今天的数据驱动型商业环境依赖于快速,彻底的分析。对于许多公司而言,这意味着要将您的数据从潜在的许多不同数据库(和其他数据源/数据流)中快速准确地转换为功能强大的基于云的数据仓库 - 可能会进行一些转变。