Pairwise Multi-Label Feature Selection Method Based on Interaction Mutual Information
The feature selection methods based on information theory usually focus on considering the single label when evaluating the classification information provided by the candidate features, and do not take into account the multiple correlations between the candidate features and the paired labels, thus underestimating the importance of the candidate features. To solve this issue, an innovative paired multi-label feature selection method based on interaction mutual information (IPFS) was proposed. Specifically, IPFS method assigns different weights based on interaction mutual information to different pairs of labels, so as to accurately evaluate the importance of candidate features, and further select the most suitable feature subset based on the maximum correlation minimum redundancy strategy. To verify the effectiveness of the proposed method, IPFS is compared with eight other advanced feature selection methods on 12 diverse datasets, and the results show that IPFS significantly outperforms other methods on four different evaluation metrics.
Machine Learning
在当今信息时代,科技的飞速发展带来了海量的高维多标签数据,这些数据在多个领域
常见的基于信息论特征选择方法策略遵循最大相关最小冗余策略,即所选特征子集和标签集合具有最大相关性和最小冗余性。在此基础上,衍生出很多优秀特征评估方法,如PMU
在前文基础上,本文提出了一种基于三元互信息的成对多标签特征选择算法(Pairwise multi-label feature selection based on interaction mutual information, IPFS)。主要贡献包括:1) 标签对和不同的候选特征,利用三元互信息赋予不同的权重;2) 通过该权重准确测量候选特征为成对标签提供的分类信息,从而得到候选特征的重要性;3) 与8个特征选择算法在12个不同的数据集上进行比较。实验结果表明,提出算法在分类性能上更具优势。
(1)
这里的log底数为2。互信息用于度量两个随机变量共享的信息量。对于两个随机变量,互信息的含义是指一个随机变量由于已知另一个随机变量而减少的信息量大小假设有另一随机变量 , 为 和 的联合概率密度,则互信息的定义如下:
(2)
联合互信息是一种用于度量两个随机变量联合起来和另一个随机变量之间相互依赖程度的指标。它是基于互信息定义的一种推广,用于衡量多变量之间的关联性。联合互信息与熵的关系如下:
(3)
三元互信息 计算三个随机变量共享的信息量。其公式定义如下所示:
(4)
相对于联合互信息衡量两个变量和另一变量之间的依赖程度,三元互信息可以衡量三个随机变量之间的相互依赖程度,三元互信息越大,代表三个变量越紧密,共享的信息越多。
基于信息论的多标签特征选择算法普遍采用“最大相关性–最小冗余性”策略,即选择的特征集合与标签集合保持最大相关性,同时尽量减小特征之间的冗余性。这一策略可以通过以下目标函数公式来概括:
(5)
上式中, 表示评估函数, 是候选特征,L是标签集合, 表示候选特征和标签集合之间的相关性,S是已选特征集合, 表示候选特征和已选特征之间的冗余性, 用于平衡相关性和冗余性之间权重的超参数。通过前向搜索策略,选择使 取得最大值的特征,并将其加入到已选特征集合中,直到满足终止条件。
现有的多标签特征选择算法在计算候选特征与标签集合的相关性时,普遍采用候选特征 和多标签集合L中每个标签的互信息累加和( )来计算,例如D2F、PMU、SCLS等。这些算法主要衡量每个候选特征与单个标签之间的相关性,忽略了候选特征向成对标签提供的分类信息,进而可能导致对候选特征重要性的评估不够准确。进一步分析,在考虑候选特征为成对标签提供的分类信息时,也应该根据不同关系的成对标签赋予不同的权重。
我们通过
在
根据以上讨论,我们提出一个基于三元互信息的权重:
(6)
其中, ,证明如下:
由信息论可知:
(7)
所以 满足:
(8)
又因为:
(9)
所以:
(10)
进而可以得到:
(11)
即
(12)
因此权重 的取值范围是 。当 时,即 ,说明候选特征为两个标签提供的信息量等于给两个标签单独提供的信息量。当 时,即 ,说明特征为两个标签提供的信息中有一部分是无效信息。当 时,即 ,由三元互信息定义可知特征 为两个标签提供的信息量要大于给两个标签单独提供的信息量。
基于以上分析,提出对特征相关性测量的新定义如下:
新特征相关性:设F是特征全集,S是已选特征集合,L是标签集合, 表示候选特征, 是两个标签。那么新特征相关性的定义如下:
(13)
在衡量候选特征相关性时,使用 计算候选特征 为单个标签提供的信息量,同时使用 来计算候选特征为两个标签提供的有效信息量。使用权重 来平衡两种信息量。
综合上述分析,将候选特征为成对标签提供的信息量纳入候选特征相关性的评估机制中,能够更准确地评估其重要性。同时,在该过程中引入权重机制来有效挖掘候选特征为两个标签提供的有效信息。
利用上一节提出的新特征相关性以及最大相关最小冗余策略,原始的目标函数(5)可以写成
(14)
在该式中,S是已选特征集合, 表示集合S中的特征。第一项使用 来衡量特征相关性,第二项使用 作为特征冗余项。在特征选择过程中使用前向搜索策略,即每次迭代选择一个获得 最大值的特征加入到已选特征集合S中。算法伪代码如下:
输入:原始特征集合F,标签集合L,特征个数K |
输出:选择的特征对应的索引集合S |
1、 |
2、 |
3、for each |
4、 计算 |
5、end for |
6、While |
7、 if k = 0 then |
8、 |
9、 |
10、 |
11、 |
12、 End if |
13、 For each candidate feature do |
14、 计算 |
15、 End for |
16、 |
17、 |
18、 |
19、 |
20、End While |
首先。初始化每个参数:已选特征集合S和特征个数K,然后,3~12行计算每个特征的 并选择最大值作为第一个特征加入到S中。最后,13~20行计算公式(14)并选择满足要求的特征直到满足阈值K。
为了验证所提出算法的有效性,本文将IPFS算法与八种算法(MIFS、D2F、PMU、SCLS、LRFS、FIMF、FSSL、AIII-FS
表1. 数据集描述
数据集 | 样本数 | 特征数 | 标签数 | 领域 |
Medical | 978 | 1449 | 45 | Text |
Scene | 2407 | 294 | 6 | images |
Yeast | 2417 | 103 | 14 | Biology |
Enron | 1702 | 1001 | 53 | Text |
Arts | 5000 | 462 | 26 | Text |
Business | 5000 | 438 | 30 | Text |
Educations | 5000 | 550 | 33 | Text |
Entertain | 5000 | 640 | 21 | Text |
Recreation | 5000 | 606 | 22 | Text |
Reference | 5000 | 793 | 33 | Text |
Science | 5000 | 743 | 40 | Text |
Social | 5000 | 1047 | 39 | Text |
表2. 9个多标签特征选择算法在Hamming Loss指标上的比较结果
数据集 | IPFS | MIFS | D2F | PMU | SCLS | LRFS | FIMF | FSSL | AIII-FS |
Medical | 0.0157 ±0.001 | 0.0165 ±0.0021 | 0.0196 ±0.001 | 0.0197 ±0.0011 | 0.0233 ±0.0002 | 0.0175 ±0.001 | 0.0174 ±0.001 | 0.0184 ±0.0024 | 0.0218 ±0.0001 |
Scene | 0.1379 ±0.0119 | 0.1704 ±0.0097 | 0.1492 ±0.0064 | 0.1473 ±0.0066 | 0.1734 ±0.003 | 0.1419 ±0.0099 | 0.1663 ±0.0063 | 0.1369 ±0.0163 | 0.1458 ±0.0102 |
Yeast | 0.2237 ±0.0026 | 0.2302 ±0.0041 | 0.2278 ±0.0029 | 0.2279 ±0.0037 | 0.2332 ±0.0044 | 0.2263 ±0.0035 | 0.2319 ±0.0042 | 0.2318 ±0.003 | 0.2303 ±0.0026 |
Enron | 0.0507 ±0.0017 | 0.0574 ±0.0012 | 0.0516 ±0.0013 | 0.0519 ±0.0013 | 0.0532 ±0.0012 | 0.055 ±0.003 | 0.0508 ±0.0014 | 0.0525 ±0.0022 | 0.0512 ±0.0019 |
Arts | 0.0609 ±0.0009 | 0.0614 ±0.0007 | 0.0635 ±0.0012 | 0.0644 ±0.001 | 0.0634 ±0.0007 | 0.0612 ±0.0006 | 0.0622 ±0.0009 | 0.0639 ±0.0006 | 0.0612 ±0.0008 |
Business | 0.0284 ±0.0003 | 0.0284 ±0.0002 | 0.0293 ±0.0005 | 0.0294 ±0.0004 | 0.0292 ±0.0004 | 0.0287 ±0.0005 | 0.0291 ±0.0005 | 0.0291 ±0.0004 | 0.0288 ±0.0003 |
Educations | 0.0427 ±0.0007 | 0.0436 ±0.0007 | 0.0443 ±0.0007 | 0.0445 ±0.0008 | 0.0441 ±0.001 | 0.0428 ±0.0006 | 0.0431 ±0.0007 | 0.044 ±0.0006 | 0.0423 ±0.0007 |
Entertain | 0.061 ±0.0013 | 0.0658 ±0.0008 | 0.0657 ±0.0013 | 0.0671 ±0.0011 | 0.0659 ±0.0014 | 0.0631 ±0.0014 | 0.0654 ±0.0011 | 0.0641 ±0.001 | 0.0615 ±0.0012 |
Recreation | 0.0605 ±0.0008 | 0.0619 ±0.0012 | 0.0624 ±0.0008 | 0.0648 ±0.0007 | 0.0644 ±0.0006 | 0.0613 ±0.0011 | 0.0626 ±0.0012 | 0.0651 ±0.0007 | 0.061 ±0.0011 |
Reference | 0.0311 ±0.0005 | 0.0313 ±0.0012 | 0.0322 ±0.0012 | 0.0336 ±0.001 | 0.0329 ±0.0002 | 0.0312 ±0.0007 | 0.0321 ±0.0009 | 0.0326 ±0.0007 | 0.0315 ±0.0006 |
Science | 0.0349 ±0.0004 | 0.0355 ±0.0003 | 0.0358 ±0.0004 | 0.0363 ±0.0004 | 0.0358 ±0.0004 | 0.0353 ±0.0005 | 0.0355 ±0.0005 | 0.0357 ±0.0003 | 0.0348 ±0.0003 |
Social | 0.0269 ±0.0007 | 0.0317 ±0.0013 | 0.0303 ±0.0005 | 0.0309 ±0.0003 | 0.0287 ±0.0007 | 0.0274 ±0.0007 | 0.0282 ±0.0006 | 0.0291 ±0.0009 | 0.0266 ±0.0012 |
Average | 0.0645 | 0.0695 | 0.0677 | 0.0681 | 0.0706 | 0.0660 | 0.0687 | 0.0669 | 0.0663 |
器得出的结果,而Macro-F1指标则是基于3NN分类器的结果。所有算法均在选取数据集中20%的特征子集上进行评估,并计算了平均分类性能及其标准偏差。表中以加粗字体表示的是在各个数据集上达到最优性能的特征选择方法。
Hamming Loss的值越小,表明特征选择算法的分类性能越优良。如
表3. 9个多标签特征选择算法在Zero One Loss指标上的比较结果
数据集 | IPFS | MIFS | D2F | PMU | SCLS | LRFS | FIMF | FSSL | AIII-FS |
Medical | 0.5008 ±0.0395 | 0.5468 ±0.0826 | 0.6561 ±0.0371 | 0.6626 ±0.0407 | 0.8262 ±0.0064 | 0.5774 ±0.0383 | 0.5772 ±0.0397 | 0.6205 ±0.0983 | 0.8096 ±0.0033 |
Scene | 0.5729 ±0.0935 | 0.8281 ±0.1163 | 0.6087 ±0.0642 | 0.611 ±0.0666 | 0.7412 ±0.0447 | 0.597 ±0.0755 | 0.764 ±0.0845 | 0.5807 ±0.1115 | 0.634 ±0.094 |
Yeast | 0.8884 ±0.0194 | 0.9266 ±0.0401 | 0.886 ±0.0279 | 0.8917 ±0.0288 | 0.9167 ±0.0118 | 0.8866 ±0.0224 | 0.9045 ±0.0263 | 0.9233 ±0.0322 | 0.9158 ±0.0292 |
Enron | 0.8905 ±0.0213 | 0.9817 ±0.0064 | 0.8985 ±0.0186 | 0.9036 ±0.0286 | 0.9415 ±0.0258 | 0.9264 ±0.0368 | 0.8916 ±0.0242 | 0.9055 ±0.0266 | 0.8897 ±0.0319 |
Arts | 0.9149 ±0.0238 | 0.9179 ±0.029 | 0.9548 ±0.0111 | 0.9706 ±0.0168 | 0.9529 ±0.0109 | 0.9198 ±0.0272 | 0.9392 ±0.0247 | 0.9636 ±0.0219 | 0.9093 ±0.0244 |
Business | 0.47 ±0.0076 | 0.4651 ±0.0054 | 0.4809 ±0.0116 | 0.4829 ±0.0115 | 0.4763 ±0.0107 | 0.4724 ±0.0102 | 0.4788 ±0.0126 | 0.4743 ±0.012 | 0.473 ±0.0086 |
Educations | 0.8885 ±0.0311 | 0.9486 ±0.0299 | 0.9483 ±0.0094 | 0.9549 ±0.0143 | 0.9339 ±0.0139 | 0.9017 ±0.0196 | 0.9111 ±0.0206 | 0.9418 ±0.0268 | 0.8937 ±0.0254 |
Entertain | 0.8202 ±0.0416 | 0.9303 ±0.0279 | 0.9056 ±0.0101 | 0.9414 ±0.0087 | 0.9034 ±0.0131 | 0.8574 ±0.028 | 0.8922 ±0.0309 | 0.8831 ±0.0342 | 0.8344 ±0.0363 |
Recreation | 0.8613 ±0.0254 | 0.8816 ±0.0321 | 0.9207 ±0.009 | 0.9712 ±0.0061 | 0.9533 ±0.0054 | 0.8782 ±0.0204 | 0.8999 ±0.0171 | 0.9568 ±0.0219 | 0.8633 ±0.0232 |
Reference | 0.6833 ±0.0967 | 0.7805 ±0.0685 | 0.8031 ±0.0381 | 0.8107 ±0.0522 | 0.8284 ±0.0373 | 0.7603 ±0.0639 | 0.7559 ±0.0619 | 0.8083 ±0.0477 | 0.7224 ±0.084 |
Science | 0.9293 ±0.0175 | 0.931 ±0.0255 | 0.9725 ±0.0058 | 0.9848 ±0.0082 | 0.9549 ±0.012 | 0.9403 ±0.0118 | 0.9497 ±0.0102 | 0.9514 ±0.02 | 0.9225 ±0.0199 |
Social | 0.6763 ±0.0875 | 0.8768 ±0.0883 | 0.7324 ±0.0875 | 0.775 ±0.0686 | 0.7446 ±0.0426 | 0.7216 ±0.0516 | 0.7343 ±0.0505 | 0.7514 ±0.0808 | 0.7038 ±0.0788 |
Average | 0.7580 | 0.8345 | 0.8139 | 0.8300 | 0.8478 | 0.7865 | 0.8082 | 0.8134 | 0.7976 |
Zero One Loss的值越小,代表分类性能越优。如
Macro-F1值越高,表示分类性能越优良。根据
表4. 9个多标签特征选择算法在Macro-F1指标上的比较结果
数据集 | IPFS | MIFS | D2F | PMU | SCLS | LRFS | FIMF | FSSL | AIII-FS |
Medical | 0.2069 ±0.0287 | 0.161 ±0.0209 | 0.1207 ±0.0187 | 0.1138 ±0.0178 | 0.0626 ±0.006 | 0.1872 ±0.0265 | 0.1856 ±0.0275 | 0.1486 ±0.0399 | 0.0402 ±0.0018 |
Scene | 0.5234 ±0.0769 | 0.2882 ±0.1416 | 0.4869 ±0.0548 | 0.4934 ±0.0709 | 0.3705 ±0.0338 | 0.5288 ±0.0677 | 0.3895 ±0.0892 | 0.5247 ±0.1187 | 0.4888 ±0.0853 |
Yeast | 0.3424 ±0.045 | 0.282 ±0.0589 | 0.3476 ±0.0388 | 0.3402 ±0.0307 | 0.3007 ±0.0263 | 0.3426 ±0.0413 | 0.3243 ±0.0253 | 0.3091 ±0.0419 | 0.3202 ±0.0324 |
Enron | 0.133 ±0.0183 | 0.0873 ±0.014 | 0.1243 ±0.0144 | 0.1241 ±0.0175 | 0.1106 ±0.0127 | 0.1093 ±0.022 | 0.1322 ±0.0185 | 0.1182 ±0.0214 | 0.1233 ±0.0135 |
Arts | 0.1075 ±0.0263 | 0.0841 ±0.0252 | 0.0638 ±0.0103 | 0.0577 ±0.0143 | 0.0721 ±0.0158 | 0.0972 ±0.0227 | 0.0845 ±0.0251 | 0.0608 ±0.0259 | 0.1004 ±0.0242 |
Business | 0.0954 ±0.0144 | 0.0894 ±0.0168 | 0.0687 ±0.0058 | 0.0545 ±0.0072 | 0.073 ±0.0106 | 0.0839 ±0.0081 | 0.0638 ±0.009 | 0.0499 ±0.0069 | 0.0881 ±0.0101 |
Educations | 0.0825 ±0.0145 | 0.0446 ±0.0205 | 0.0646 ±0.009 | 0.0571 ±0.009 | 0.0587 ±0.0098 | 0.0742 ±0.0128 | 0.0768 ±0.0125 | 0.0628 ±0.0148 | 0.0806 ±0.0144 |
Entertain | 0.1411 ±0.0245 | 0.0814 ±0.0244 | 0.1081 ±0.0108 | 0.0833 ±0.0138 | 0.0949 ±0.0128 | 0.1359 ±0.0218 | 0.1037 ±0.0226 | 0.0938 ±0.0284 | 0.14 ±0.0211 |
Recreation | 0.1239 ±0.0233 | 0.1177 ±0.0287 | 0.0824 ±0.011 | 0.0526 ±0.0103 | 0.0661 ±0.0109 | 0.1199 ±0.0211 | 0.0977 ±0.0148 | 0.0571 ±0.0266 | 0.1287 ±0.0223 |
Reference | 0.0819 ±0.0151 | 0.072 ±0.0148 | 0.0444 ±0.0043 | 0.0341 ±0.0071 | 0.0363 ±0.0054 | 0.0709 ±0.0115 | 0.0614 ±0.01 | 0.0411 ±0.0105 | 0.0752 ±0.0115 |
Science | 0.078 ±0.0241 | 0.0601 ±0.0197 | 0.0402 ±0.0055 | 0.0284 ±0.0078 | 0.0304 ±0.0036 | 0.0632 ±0.0143 | 0.0521 ±0.0085 | 0.0391 ±0.019 | 0.0784 ±0.0148 |
Social | 0.1139 ±0.0191 | 0.0657 ±0.0281 | 0.0642 ±0.0063 | 0.0542 ±0.006 | 0.0506 ±0.0043 | 0.093 ±0.0136 | 0.0757 ±0.0117 | 0.0639 ±0.0242 | 0.1148 ±0.0174 |
Average | 0.1691 | 0.1194 | 0.1346 | 0.1244 | 0.1105 | 0.1588 | 0.1372 | 0.1309 | 0.1377 |
为了更清晰地展示本文提出算法的优越性,
从
本文提出了一种基于三元互信息的多标签特征选择算法IPFS,该算法通过评估候选特征对标签集中成对标签的互信息贡献,重新定义了特征重要性的度量,并构建了相应的评估函数,解决了高维多标签
数据存储与计算的挑战。利用前向搜索策略,该算法能够精确地评估特征与标签间的相关性,并筛选出与标签集合相关性最高且冗余性最低的特征子集。在12个公开数据集上的实验结果表明,该算法在Hamming Loss和Macro-F1等评价指标上的性能优于现有算法。该算法不仅减少了数据存储成本,增强了计算性能,还提高了多标签学习的分类性能,证明了其在多标签学习任务中的有效性和优越性。未来的研究可以进一步探索该算法在更广泛应用场景中的性能表现,并优化其计算效率与可扩展性。
国家自然科学基金项目(62206085);省部共建电工装备可靠性与智能化国家重点实验室(河北工业大学)优秀青年创新基金项目(EERI_OY2022005);河北省省级科技计划项目(225676163GH)。
*通讯作者。