1. 引言
随着我国证券市场的快速发展,金融机构在数据管理和质量控制方面面临诸多挑战。数据仓库作为证券公司决策支持的关键系统,在风险管理、市场分析、客户服务和合规报送等方面发挥着核心作用。然而,多源性、实时性和复杂性的数据特性使得数据质量问题频发,对准确性和可靠性提出更高要求。
数据仓库作为企业数据管理和分析的重要平台,其数据质量管理成为构建和运营的关键因素。国外研究主要集中在理论框架、评价指标设计、数据清洗技术和数据治理模型等方面。学者们提出了多维度的质量评价体系[1]-[3],并开发了如EM算法、DBSCAN等优化数据质量的技术[4],同时探索了基于元数据管理和数据可观测性的治理模式[5] [6],也针对金融这一特定领域的数据合规管理提供了新视角[7]。国内研究侧重于行业实践和本地化应用,涵盖元数据质量控制、多维评估方法和ETL集成技术[8]-[10]。通过数据治理框架和成熟度模型,推动数据质量在银行、监管等领域的落地应用,通过自动化质量监控平台满足监管合规的需求[11]。但当前金融数据质量管理的研究主要集中在银行、保险等领域,对证券行业的数据仓库质量评价的探讨较为有限。
本研究结合模糊层次分析法(FAHP)和熵权法(EWM),构建综合赋权模型,在消除主观偏差的同时引入数据驱动[12],为数据质量评估提供科学依据,并通过H公司的实证分析验证模型效果。本研究为证券行业数据仓库的数据质量管理提供了理论框架和实践指导。
2. 金融数据仓库数据质量评价指标体系
2.1. 证券行业数据仓库数据内容及特点
证券行业数据仓库涵盖多源、实时的丰富数据,全面记录证券市场的核心交易活动及相关信息。这些数据详细包含了交易的具体时间、价格、成交量以及交易对手等关键信息,还囊括了上市公司的基础信息、财务报表和公告信息等多维度数据。此外,数据仓库还涵盖客户基本信息(如姓名、联系方式、身份证号)及交易记录、持仓状况等。证券行业数据仓库中具有以下特点:
(1) 主题导向性:以特定业务主题如(营销、合规管理)为核心,定义相关的指标,旨在为关键业务问题提供决策支持[13]。
(2) 数据集成性:整合包括交易系统、公告系统、会员管理系统等异构数据源,确保信息的统一性和一致性。
(3) 数据持久性:确保加载后的数据稳定可靠,输入与输出保持一致,为分析提供坚实基础。
(4) 高度动态性:数据随市场实时更新,涵盖交易价格、成交量及投资者行为等复杂信息,展现出显著的即时性特征[14]。
2.2. 数据质量评价指标选取
在构建数据质量评价体系的指标选取过程中,严格遵循“标准映射–行业适配–企业验证”原则。首先参考ISO/IEC 25012 [15]数据质量模型的完整性、准确性等核心维度,从国际通用标准层面保障理论完备性,随后结合《证券期货业数据分类分级指引》[16]等监管要求,充分考虑证券行业高频交易、跨系统一致性等特有场景,聚焦数据的及时性、准确性以及跨系统一致性等关键要点。最后,通过对H公司近三年数据质量事件库的回溯测试,对初步拟定的指标进行筛选。剔除数据存储压缩率这类与数据质量核心问题关联度低的冗余指标,确定了7个一级指标和18个二级指标,切实为评价体系注入了实用性与有效性。具体而言,各项指标特性如下。
完整性着重衡量数据记录与字段信息的完备程度,力求从源头上杜绝数据出现记录缺失或字段空值的情况,确保数据信息无死角覆盖。准确性聚焦于精准评估数据能否如实反映其所代表的实体或概念本质,保障字段值的精确无误以及业务逻辑的协调统一。唯一性将关注点投射于数据的独特属性,全力规避数据冗余与冲突乱象,保障每条记录或字段在既定范围内具备独一无二的特性。一致性致力于展现数据在不同时间节点、多元来源以及各异数据集之间的协调融合程度,确保数据生态的和谐统一。及时性着重衡量数据采集、处理与更新的时效水准,以高效的数据流转赋能实时决策支持。规范性聚焦于审视数据是否遵循预定的标准规范,力求达成数据格式的整齐划一与标准化呈现。效用性则专注于评估数据模型设计的优化成效以及对业务开展的支撑赋能水平,确保数据资产价值最大化释放。
上述评价指标体系全面覆盖了数据质量的关键维度,为证券行业数据仓库的质量管理提供了科学的框架。金融数据仓库数据质量评价指标层次结构如图1所示。
2.3. 数据质量评价指标量化
在明确各指标选取依据及意义后,需对其进行量化处理,将抽象的质量概念转化为具体可测的数据,为后续权重分配和综合质量评估提供坚实的数值基础。具体量化公式如下。
1. 完整性指标
数据记录完整率:用于评估数据表中记录的完备性。数据值完整率:反映表关键字段非空值的情况。数据关联率反映表间关联关系的完整程度。
Figure 1. The hierarchical structure of financial data warehouse data quality evaluation indicators
图1. 金融数据仓库数据质量评价指标层次结构
2. 准确性指标
数值准确率:评估字段值的精确性,计算需依据具体业务场景确定准确值范围,再统计实际准确值的数量占总数据量的比例。值域准确率:检查字段值是否在有效范围内。业务规则准确率:验证数据对业务逻辑的符合程度,比如校验当日规模是否与份额乘以当日净值相等。
3. 唯一性指标
数值重复率:衡量特定字段值的重复频率。业务主键重复率:检查具有唯一标识意义的字段是否存在重复。
4. 一致性指标
传输一致率:衡量数据在跨系统传输后的保真性。清洗一致率:反映数据清洗前后的一致性。业务字段跨表一致率:用于衡量不同表间业务字段值的一致性。
5. 及时性指标
数据更新及时率:数据是否按预定时间间隔更新,反映了数据在时间维度上的新鲜程度和时效性。数据处理及时率:数据从采集到可用的时效性,体现了数据在处理流程中的流转速度和及时性。
6. 规范性指标
通过数据类型规范率:确保字段值符合预定的数据类型定义。数据长度规范率:检查字段值的长度是否符合设定的限制。枚举范围规范率:验证字段值是否在规定的枚举范围内。
7. 效用性指标
跨层引用率衡量了数据在不同层级间的流动性和依赖性,对于评估数据仓库的整合能力和规范开发能力至关重要[17]。指标复用率反映了数据仓库中指标设计的通用性和效率。
通过上述量化方法,研究能够将主观判断转化为客观数据,支持权重分配及综合质量评估,为企业优化数据质量管理提供清晰指导。
3. 金融数据质量评价模型
为全面评估金融数据仓库的质量,本研究构建了基于模糊层次分析法和熵权法的组合赋权模型。模糊层次分析法引入专家主观判断,熵权法则从数据特性出发,通过综合权重方法,兼顾主观经验与客观数据,实现科学有效的评价。
3.1. 模糊层次分析法
本节首先介绍模糊层次分析法的原理及应用方法。模糊层次分析法(Fuzzy AHP)是一种多准则决策工具,结合了模糊数学与层次分析的逻辑框架,适合应对不确定性因素和主观判断[12]。该方法将决策问题细致地划分为三个核心层次:目标层、准则层和方案层,采用0.1~0.9的标度方法对指标成对两两比较,形成模糊互补矩阵。最后通过模糊一致矩阵,利用公式计算各指标权重。
基于数字标度建立起两层次之间的模糊判断矩阵
,若模糊判断矩阵
满足
且满足
,则矩阵R为模糊互补矩阵。根据下列公式计算模糊一致矩阵
(1)
利用如下模糊层次分析法权重计算公式对各指标权重进行计算:
(2)
是第i个指标所对应的权重,则模糊层次分析法求得的权重向量
为:
此外,模糊层次分析法还包括对比较矩阵进行严格的一致性检验,确保了评价结果的合理性和可信度。
3.2. 熵权法
为增强评价模型的客观性,3.2节将介绍熵权法的步骤和计算过程。熵权法(Entropy Weight Method, EWM)是一种广泛应用于多指标综合评价中的客观赋权方法。通过计算各指标的熵值,该方法可以量化指标的有效性和重要性。通常包含下面几个步骤:
设第i个方案中的第j个指标的评估值为
。首先,对原始数据进行标准化处理,避免因数据单位不同造成的计算偏差[18] [19]。正向指标标准化公式为:
(3)
负向指标,如数值重复率,标准化公式为:
(4)
接着计算每个指标在各个方案中的比重
,公式为:
(5)
然后,根据比重计算每个指标的熵值
,其中,
为常数,用于标准化熵值。
(6)
计算第j个指标的差异系数
,反映指标的有效信息量,计算公式为:
(7)
差异系数越大,表示指标的区分度越高。最后,根据差异系数计算每个指标的权重
:
(8)
可得到用熵权法计算得出的各评估指标的权重向量
:
这种方法的引入,显著减少了人为因素的干扰,为数据质量评价提供了更具客观性的权重分配方式。
3.3. 求组合赋权权重
在模糊层次分析法和熵权法结果的基础上,本研究采用几何平均法[12]将两种权重相结合,生成综合权重向量。公式如下:
(9)
其中,模糊层次分析法求得的权重为
,由熵权法求的权重为
,综合权重既保留了主观判断的经验性,又兼顾了客观数据的科学性。
3.4. 综合评价方法
利用综合权重与量化评分,计算数据质量综合得分。综合评价模型如下:
(10)
其中,S为数据仓库项目的数据质量的综合得分。通过预设等级标准,评估数据质量等级,并为企业识别薄弱环节与改进方向提供科学依据。
4. 算例分析
为验证评价模型的有效性,本章以H公司数据仓库的四个主题域为例,通过实际数据计算各指标量化值,并综合权重得出各主题域的质量评价结果,分析其数据质量状况。
4.1. 数据集与主题域选择
本研究采用分层抽样方法,从H公司金融数据仓库中抽取主体、交易、资产和渠道四个主题域数据作为分析对象,覆盖2023年10月至2024年10月期间累计产生的1.2亿条记录,其中核心业务数据的时间跨度为2024年3月至2024年10月。抽样过程按主题域进行分层,各层样本量占比分别为:交易域42%、资产域28%、渠道域19%、主体域11%,与各域日均数据增量比例保持严格对应。这些主题域构成了金融数据仓库的重要支柱,涵盖了H公司业务的主要数据流,具有关键支撑作用。交易域涵盖证券交易、基金申购、债券买卖等各类金融交易记录,主体域包含客户、机构等参与主体的详细信息,资产域涉及H公司和客户持有的金融资产信息,包括股票、债券、基金、衍生品等多种类别的资产数据,渠道域涵盖H公司通过线上(如移动端APP、网上交易平台)和线下(如柜台、自助终端)提供服务的各类数据。
4.2. 指标量化与权重计算
根据2章构建的指标体系,利用生产环境真实数据计算四个主题域的量化值(见表1)。随后,采用模糊层次分析法与熵权法相结合的综合赋权模型,计算每个指标的综合权重。此过程有效整合了专家判断与数据客观特性,为综合质量评价奠定了基础。
Table 1. Quantification of indicators by subject area
表1. 主题域指标量化表
评价指标 |
指标量化值 |
交易 |
主体 |
资产 |
渠道 |
数据记录完整率 |
1 |
0.64 |
0.75 |
0.72 |
数据完整率 |
1 |
0.66 |
0.82 |
0.73 |
数据关联率 |
1 |
0.75 |
0.82 |
0.73 |
数值准确率 |
0.99 |
0.64 |
0.93 |
0.76 |
值域准确率 |
0.99 |
0.66 |
0.88 |
0.77 |
业务规则准确率 |
0.99 |
0.65 |
0.9 |
0.77 |
数值重复率 |
0.03 |
0.23 |
0.20 |
0.13 |
业务主键重复率 |
0.02 |
0.24 |
0.15 |
0.14 |
业务字段跨表一致率 |
0.99 |
0.74 |
0.85 |
0.88 |
清洗一致率 |
0.88 |
0.66 |
0.76 |
0.72 |
传输一致率 |
0.99 |
0.75 |
0.85 |
0.88 |
数据更新及时率 |
0.88 |
0.80 |
0.76 |
0.75 |
数据处理率 |
0.82 |
0.80 |
0.76 |
0.75 |
数据类型规范率 |
0.93 |
0.79 |
0.79 |
0.73 |
数据长度规范率 |
0.89 |
0.76 |
0.76 |
0.87 |
枚举范围规范率 |
0.72 |
0.77 |
0.77 |
0.72 |
跨层引用率 |
0.18 |
0.26 |
0.28 |
0.39 |
指标复用率 |
0.79 |
0.86 |
0.83 |
0.67 |
4.2.1. 基于模糊层次分析法的评价指标权重分析
首先,我们需要根据式(1)构建基于7个一级评价指标的模糊互补评价矩阵。一级指标模糊一致矩阵F如下:
根据式(2),利用模糊层次分析法计算的一级评价指标权重向量
为:
同样利用式(2)对二级评价指标权重向量进行求解,求得权重如下:
最后将一级指标的权重值和它包含的二级指标的权重值相乘,从而得到模糊层次分析法计算的主观权重
:
4.2.2. 基于熵权法的评价指标权重分析
利用表1中的数据值,根据熵权法的步骤(3.2节),得出各评价指标的客观权重向量。具体计算步骤结合式(3)~式(8)求得各评价指标基于熵权法的客观权重
:
4.2.3. 综合权重的确定
根据3.3节式(9),将模糊层次分析法和熵权法得到的主客观权重进行几何平均,以得出综合权重向量W。
4.3. 综合质量评价
根据4.2节中的表1各自指标的量化结果,运用综合评价方法中的式(10)将数据质量管理中每个影响因素的定量评分与综合权重结合,分别计算出四个主题域的综合评价值。
从综合评价值来看,各主题域的数据质量状况存在明显差异。交易域综合评价值最高,表明其数据质量在多个方面表现出色。数据记录完整率、数据完整率、数值准确率等多项指标接近或达到较高水平。资产域综合评价值处于较上水平,数据质量有一定保障,但仍存在提升空间。例如数据记录完整率、数据关联率等指标表现较好,但在准确性和规范性方面还有改进余地。
主体域和渠道域综合评价值较低,数据质量问题较为突出。主体域在准确性方面,3个二级指标准确率均处于较低水平,如数值准确率仅为0.64,这意味着数据在反映真实业务情况时存在较大偏差。一致性方面,业务字段跨表一致率等指标虽有一定表现,但整体仍有待提高。主体域数据来源复杂多样,不同开户方式下数据格式与标准不统一,分支机构填录风格各异,使得数据整合极易产生错误。此外,客户信息变动频繁,而机构获取和更新信息不及时也加剧了数据的不准确和不一致。渠道域同样面临准确性和一致性问题,其数值准确率为0.76反映出数据存在一定程度的错误和冗余。渠道域涵盖线上线下多种渠道,各渠道厂商交互接口标准不一致,以及网络波动和人工失误等原因都容易导致数据传输和交互过程中出现数据不一致等问题。
针对上述评价结果,为提升H公司数据仓库的数据质量,提出以下对策:
建立统一的数据标准和接口规范:制定适用于所有开户方式和分支机构的数据标准,统一规定客户信息的必填字段、数据类型、长度限制等,避免因格式和标准不统一导致的数据错误。对各渠道的接口进行全面梳理和统一规划,建立接口标准文档,明确接口的数据格式、传输方式、加密要求等,要求各渠道和系统严格按照标准进行开发和对接。
强化人员培训与自动化工具应用:加强操作人员培训,规范操作流程,以减少人为操作风格差异导致的错误。引入自动化的数据整合工具,减少人工干预,提升数据处理的准确性和效率。
网络架构优化与数据采集机制增强:优化网络架构,增加数据采集的重试机制和数据校验机制,确保在网络不稳定情况下采集到的数据完整且准确。建立与客户信息变动和机构信息更新相关的实时监测系统,一旦有信息变更,能够及时同步到数据仓库中,确保数据的及时性和准确性。
5. 结论
本研究基于模糊层次分析法和熵权法的组合模型,构建了一套适用于金融数据仓库的数据质量评价体系,并以H公司数据仓库为例进行了实证分析。通过对数据完整性、准确性、一致性、及时性等关键质量指标的量化评估,识别了不同主题域在数据质量方面的优势与不足。研究结果表明,模糊层次分析法能够有效反映专家对各项数据质量指标的重要性判断,熵权法则进一步校正了评价过程中的主观偏差。通过两种方法的组合赋权,不仅提升了数据质量评价的科学性和准确性,还为数据仓库的数据管理提供了明确的改进方向。
研究中发现,H公司数据仓库的关键领域在于主体和渠道数据的准确性及一致性相对较低,这表明公司在数据清洗、格式标准化和实时性处理上存在改进空间。结合本研究提出的指标体系和权重计算模型,公司可以进一步优化数据质量管理策略,增强在风险管理、客户服务、合规报送等方面的数据支持能力,从而提升业务效率和决策准确性。