考研数据库,考研数据库查询
第一章 行业概况
数据是描述事物的符号记录,具有多种表现形式,包括文字、图形、图像、声音和语言等。数据库是相互有关联关系的若干数据的集合,特点是数据间联系密切、冗余度小、独立性较高、易扩展,并且可为各类用户共享。数据库管理系统(DBMS)是负责数据库搭建、使用和维护的系统软件,通过组织、索引、查询、修改数据库文件,实现数据定义、组织、存储、管理以及数据库操作、运行、维护等主要功能。围绕DBMS构建包含硬件操作系统、数据库管理系统、数据库管理员以及相关机制配套在内的数据库系统(DBS),才能有组织、动态地存储大量相关数据,方便多用户访问。
图 数据库系统架构
资料来源:资产信息网 千际投行 艾瑞咨询研究院
数据库的不同分类及特点:
- 按数据结构分:传统关系型数据库,NoSQLee数据库,NewSQL数据库,多模数据库。其中传统关系型数据库在我国市场占比最大,达到约60%。
- 按部署模式分:云托管数据库,云原生数据库,本地部署,混合部署。
- 按商业模式分:开源数据库、商业数据库。
- 按架构分:分布式数据库,单机数据库。
- 按功能分:OLTP、OLAP和HTAP。
- 按存储介质分类:内存数据库,磁盘数据库。
关系型数据库的不同分类:
- 按模型分:关系型、非关系型
- 按架构分:单机式、集中式、分布式
- 按部署形态分:本地部署、云部署
2021年中国数据库市场总规模达到286.8亿元,同比增长16.1%,2022年预测市场规模将达到336.1亿元。随着国内外市场上云计算等技术的兴起,国产数据库企业发展快速,达梦、人大金仓、PingCAP、TiDB、阿里云、华为云等成为国产数据库企业的代表。
图 中国数据库产业图谱
资料来源:资产信息网 千际投行 艾瑞咨询研究院
第二章 商业模式和技术发展
2.1 数据库产业链
图 数据库行业产业链
资料来源:资产信息网 千际投行 华福证券研究所
数据库商业是重要的中游行业,上游承载计算、网络、存储等基础设施及零部件行业,下游衔接具体的应用及服务需求。下游服务需求的发展,带动中游数据库行业服务拓展,从而带动对数据库行业基础设施和原材料的需求。
2.2 商业模式
随着下游企业及需求的不断发展,当前数据库行业主要形成了联机事务处理/数据库OLTP和联机分析处理/数据仓库OLAP两种应用场景。
联机事务处理/数据库OLTP。其应用于面向交易的处理系统、业务系统,典型应用如银行交易系统。其业务在数据库联机的日常操作,通常是对记录进行查询、修改,用户关心快速响应、数据的安全性、完整性和并发支持的用户。数据量方面,每次交易涉及的数据量很小,对响应时间要求非常高,总体数据量相对较小。数据产生于系统中交易本身的数据。使用人员多为操作人员,用户数量极多,以SQL为交互载体,在设计中尽量避免冗余。
联机分析处理/数据仓库OLAP。其应用于分析驱动,是面向信息的分析过程。典型应用如数据仓库。主要是针对某些历史数据进行分析,从而有效地支持投资决策。数据量较为庞大,响应时间与数据量相关,且数据总体规模庞大。数据来源于生产系统操作数据,主要为工作人员使用,用户数量少,支持SQL和其他语言。
一般数据库企业的商业模式大致是:购入服务器等基础设施,完成数据库搭建,扣除生产过程中的机器设备等折旧成本,减去人员薪酬、电费等各类费用,最终出售数据库或提供相关数据库的运营和维护费用获取利润。
数据库企业的利润影响因素:
- 数据库成品价格及维护运营费用。价格越高,盈利能力越强。
- 基础设施的价格。数据库的搭建需要依赖于庞大的服务器等基础设施,在当前的数据库服务中占据成本较大比重。
- 设备折旧、人工费、运营费、运输费等。这些成本费用相对来说比较刚性。
2.3 技术发展
数据库行业作为重要的基础性行业,根本任务在于以最低的资源消耗、最低的生态负载、最高的效率和技术水平为下游相关业务及用户提供数量充足、质量优良的数据库服务,支撑下游企业业务发展、效率提升与管理水平上升,满足国家、社会、发展需要。
1、HTAP领域进一步加强AP和TP之间的融合
自2020年以来国产HTAP数据库发展迅猛,几乎成为新兴数据库的必选项。Gartner也指出HTAP已经成为全球范围内新一代数据库的入场筹码,HTAP能力成为数据库重要选项。随着数据技术的不断创新,未来HTAP数据库会进一步加强AP和TP之间的连接和融合,在数据库内部实现AP和TP之间的内置流(Streaming)处理能力。通过将ETL工作内置于数据库当中,让HTAP数据库同时具备AP、TP和流(Streaming)能力。用户可以按需创建各类表,运用流处理能力将表连接,从而获得简单、便捷的数据处理能力。数据库技术的进一步融合会打破当下数据栈的割裂状态,HTAP、流批一体、湖仓一体等技术趋势最终会让数据集中在简单易用、安全可靠、高性价比的数据平台。
图 基于内置流处理能力的HTAP架构
资料来源:资产信息网 千际投行 艾瑞咨询研究院
2、云计算背景下的分布式前瞻
国产分布式数据库自2019年以来保持高速增长,热度持续高涨。而通过用户调研了解到,面对分布式数据库的故障时,运维人员往往束手无策。主要原因是相较集中式数据库,分布式数据库对IT基础设施可靠性要求更高了,其核心代码主要覆盖了SQL实现和数据存储,而未能自动感知各种对数据库稳定性、性能、并发能力有重大影响的故障隐患,也难以在代码层面对此类问题进行处理,从而实现故障自动规避。未来分布式数据库应提升基础数据探测和分析能力,随时针对出现的异常隐患提前处置,实现无需运维人员过多干预的高效自治运行,让分布式数据库从IT工程化产品变为真正开箱即用的通用型产品。
3、智能运维实现融合智能技术应用下的数据库管理自治
DT 时代数据库技术架构和运行环境日趋复杂,种类从单一产品转变为混合型商业数据库和开源数据库组合,依靠人工运维显得捉襟见肘。作为智能化的数据库周边工具,数据库管理平台将机器学习与数据管理在功能上融合统一,利用机器学习增强系统设计开发,以标准化、自动化、智能化的方式提供实时监控、健康巡检、智能诊断、多维分析等数据库管理服务。数据库管理平台的本质是数据库管理经验的代码化,核心方法论是云资源池化、分层解耦以及服务化,实现手段是基于微服务、分布式等云技术实现多元混合数据库环境的统一管理,目标是实现海量数据高安全、高可用、高性能的运维要求,助力数字化转型。
4、数据开源
近年来国内数据库厂商逐步推行开源策略,但是因为开源数据库运行时间短,运营整体表现仍有较大空间。根据开源数据库在GitHub的活跃度细分情况,国内整体水平是低于全球市场开源数据库的整体水平的。
2.4 政策监管
1、行业主管部门及管理体制
国家发展和改革委员会及国家工业和信息化部对该行业进行宏观调控,其他监管部门根据数据库的最终应用行业的不同而有所区别。
2、相关政策
数据库行业是重要的基础性行业,要实现制造业智能化、服务业高质量发展,数据库行业必须要不断创造高质量、高性能的数据库及相关服务以满足经济高质量发展的需要。十九大以来,为了促进数据库行业高质量发展,推动行业加速转型升级,从国家到地方均出台了一系列扶持政策,为数据库工业加速转型升级提供了良好保障。
表 国家的行业主要法律法规
资料来源:资产信息网 千际投行
第三章 行业估值、定价机制和全球龙头企业
3.1 行业规模
2021年中国数据库市场总规模达286.8亿,较2020年增长16.1%,CAGR(2021-2026e)达13.4%。预计到 2025年,全球数据库市场规模将达到798亿美元。中国 IT 总支出在全球占比为12.3%。预计2025年中国数据库市场在全球的占比接近中国IT支出在全球的占比,因此2025年中国数据库市场总规模将达到688亿元,年复合增长率(CAGR)23.4%
图 中国数据库市场份额占比
资料来源:资产信息网 千际投行 华福证券研究所
3.2 行业发展驱动因子
(1)技术创新
随着相关技术创新不断推进,推动数据库行业分布式技术加强底层故障隐患感知,提升异常处理能力,提升数据库自治水平,使分布式数据库真正转为开箱即用的通用型产品。运用内置流处理能力进一步加强AP和TP间的融合。融合智能技术实现复杂数据库环境的管理自治。通过技术创新显著提升用户的数据库使用体验与数据库发展的智能化水平。
(2)行业带动
云原生时代下,大数据的爆发带来多元化需求,传统数据库厂商难以满足各类复杂场景下的业务需求,大批独立厂商、初创厂商快速崛起。全球数据库玩家众多。海外来看,传统数据库Oracle、IBM DB2、Microsoft SQL Server等长期占据了to B领域的重要行业,拥有众多企业级用户。海外开源数据库MySQL、PostgreSQL等通过开源数据为用户提供了一条开放通路,走向更广阔的应用。
国内来看,达梦、人大金仓等是老牌数据库厂商,PingCAP 是初创厂商的代表,凭借开源数据库 TiDB 在市场中占据一定份额。近年来,云计算的兴起也吸引全球众多云厂商成为数据库玩家。海外云原生数据库以AWS和Google Cloud为代表;国内阿里云的OceanBase和PolarDB,华为云的openGauss和GaussDB都乘云而上。
(3)政策助力
新时期下推动工业制造业的智能化水平提升与服务业的高质量发展,提升数据库行业以提供基础性支持必不可少,国家相关部门已经制定新的数据库行业发展支持政策和指导意见,有效推动数据库行业快速发展。
地方政府主要从财政补贴、税费优惠、金融支持、行业引导、行政许可支持等方面给予政策鼓励。
3.3 行业风险分析和风险管理
表 常见行业风险因子
资料来源:资产信息网 千际投行
1、技术发展不达预期
数据库行业技术发展难度较大,且行业及相关产品仍处于早期高速发展阶段,并在分布式架构等新兴技术方向出现具有国际性竞争优势的产品和厂商。但如果技术优势无法保持,则影响国内数据库在国内渗透率的保持。
2、国际市场竞争
目前该行业我国企业与国际市场企业各有技术优势,未来如果技术发展速度减缓,则可能存在国际市场上企业对我国的技术领先和技术竞争,导致我国相关行业的发展受挫。
3、行业发展不及预期
国内主流的相关数据库厂商仍然处于初创阶段,大部分企业处于拟上市或筹备上市阶段,可能存在上市后的不利风险。
3.4 竞争分析
图 SWOT分析
资料来源:资产信息网 千际投行 Wind
3.5 中国企业重要参与者
根据 IDC 数据,2021年下半年国内数据库厂商在关系型数据库市场的市占率继续扩大。其中公有云模式市场前五有三家国内厂商,两家海外厂商份额均下降,腾讯、华为市场份额都扩大。
在本地部署模式市场,国内厂商正在快速追赶 Oracle、IBM 等海外厂商。达梦市场份额扩大接近一倍;人大金仓过去一年在政府行业获得大量订单;华为在政企、金融行业也获得突破。总体国内厂商的份额不断扩大。
国内,达梦、人大金仓等是老牌数据库厂商,PingCAP 是初创厂商代表,凭借开源数据库TiDB在市场中占据一定份额。国内阿里云OceanBase和PolarDB,华为云openGauss 和GaussDB则纷纷乘云而上
1、达梦数据:公司成立于2000年,是国内领先的数据库产品开发服务商,国内数据库基础软件产业发展的关键推动者。自成立以来,达梦数据先后完成并获得数十项国家级或省部级科研开发项目与奖项,逐渐成长为国内数据库行业的领先企业。公司服务于包括建设银行、中国人保、国家电网、中国航信、中国移动、中国烟草等在内的知名用户,成功应用于金融、能源、航空、通信、党政机关等数十个领域。根据赛迪顾问及IDC发布的报告显示,2019年至2021年公司产品市占率位居中国数据库管理系统市场国内数据库厂商前列。
2、PingCAP:是业界领先的企业级开源分布式数据库企业,提供包括开源分布式数据库产品、解决方案与咨询、技术支持与培训认证服务,致力于为全球行业用户提供稳定高效、安全可靠、开放兼容的新型数据服务平台,解放企业生产力,加速企业数字化转型升级。
3、人大金仓:成立于1999年,是成立最早的拥有自主知识产权的国产数据库企业,也是中国电子科技集团(简称“CETC”)成员企业。人大金仓以“提供卓越的数据库产品助力企业级应用高质量发展”为使命,致力于“成为世界卓越的数据库产品与服务提供商”。 未来,人大金仓将持续践行数据库领域国家队使命,踔厉奋发,笃行不怠,为各行业数字化场景提供数据存储计算支撑,为用户的数字化转型,为我国数字经济建设持续贡献力量。
3.6 全球重要竞争者
国际主要竞争者有Microsoft、Amazon AWS、Oracle、Google、IBM、SAP、Teradata和Cloudera等。
1、Amazon AWS:是全球最全面、应用最广泛的云平台,从全球数据中心提供超过 200 项功能齐全的服务。数百万客户(包括增长最快速的初创公司、最大型企业和主要的政府机构)都在使用 AWS 来降低成本、提高敏捷性并加速创新。AWS 拥有覆盖范围领先的全球云基础设施。Gartner 已将 AWS 区域/可用区模型视为一种值得推荐的运行方式,适用于要求高可用性的企业应用程序。
2、Oracle:Oracle NoSQL数据库可以部署在企业数据中心和云环境中。它非常适合高容量和高速度工作负载,如物联网、360 度客户视图、在线上下文广告、欺诈检测、移动应用程序、用户个性化和在线游戏。
3、Teradata:Teradata是一家开发和销售数据库分析软件的企业软件公司。该公司提供三种主要服务:业务分析,云产品和咨询。它在北美和拉丁美洲、欧洲、中东、非洲和亚洲开展业务。Teradata 总部位于加利福尼亚州圣地亚哥,并在亚特兰大和旧金山设有其他主要美国地点,其数据中心研发就位于此。它在纽约证券交易所(NYSE)公开交易,股票代码为TDC。
第四章 未来展望
国产数据库快速发展,风险与机会并存。新兴厂商核心团队普遍来自大厂,技术扎实,经验丰富,产品各具特色,性能较佳,并且资金充裕。但另一方面,国内数据库市场的用户侧呈现风险点,如互联网用户多采用开源或自研数据库而极少使用新兴的产品、新兴厂商难切入政企类用户具备完善的产品和服务生态、缺乏互联网+新“风口”带动市场增量空间、大量中小企业存续不稳定和需求不强烈等问题。数据库厂商纷纷提出出海战略,创业公司自成立之初便定位国际化,但普遍面临信任度、监管、地理位置等障碍,而上云、开源、新技术敏感度成为除基础技术以外,国产数据库顺利出海的关键要素。
云计算上下拉动,云原生优化资源配置。云原生数据库实现了云资源对数据库的细粒度资源拆解。在软件层面,计算层打包SQL语句解析、物理计划执行、事务处理等,共享存储层存放事务日志和数据存储,并通过分布式技术保障高可用和一致性,最后二者采用高速网络互联,通过数据传输协议或其他技术提升I/O性能。
此外,云原生数据库的分层架构还需结合新硬件技术的特性进行重构,如运用可扩展CPU 和高主频内核进行算力优化,运用持久内存(PMEM) 重构二级缓存以提升I/O 密集型场景下的读写性能。未来数据库将进入从硬件平台到架构层再到应用层的全栈优化时代。
数据库与大数据技术边界不断模糊。大数据与数据库分别存在结构化能力差、运算支持能力不足的问题。随着数据技术的发展创新,数据库与大数据技术的边界不断模糊,二者互相延伸。我们认为传统大数据技术有着更为丰富的生态,但是对技术要求较高,相比较而言,从仓向湖的延伸路线,更适合传统企业和中小企业。
Cover Photo by Pawel Czerwinski on Unsplash
考研数据库(考研数据库查询)