• 论文 • 上一篇    下一篇

基于改进TFIDF的图书馆知识群体特征提取研究

赵金楼1,朱辉1,刘馨2   

  1. 1. 哈尔滨工程大学经济管理学院,  哈尔滨 150001;  2. 工业和信息化 部电子第五研究所, 广州 510610
  • 出版日期:2019-09-25 发布日期:2019-12-05

赵金楼,朱辉,刘馨. 基于改进TFIDF的图书馆知识群体特征提取研究[J]. 系统科学与数学, 2019, 39(9): 1450-1461.

ZHAO Jinlou, ZHU Hui, LIU Xin. Research on Library Knowledge Group Feature Extraction Based on Improved TFIDF[J]. Journal of Systems Science and Mathematical Sciences, 2019, 39(9): 1450-1461.

Research on Library Knowledge Group Feature Extraction Based on Improved TFIDF

ZHAO Jinlou1 ,ZHU Hui1 ,LIU Xin2   

  1. 1. School of Management and Economics, Harbin Engineering University, Harbin 150001; 2. CEPREI, Guangzhou 510610
  • Online:2019-09-25 Published:2019-12-05

群体特征提取是发现特定知识群体偏好, 进而提供个性化服务的基础. TFIDF是进行特征提取的常用方法, 然而传统{\rm TFIDF}方法却未考虑 到类间集中度和类内分散度的问题. 针对该情况文章引进了CD因子, 提出了 新的TFIDF算法, 以读者借阅数据为基础开展了图书馆知识群体特征提取研究. 并以某高校建筑与城市规划群体为例, 采用传统和改进两种TFIDF 方法对群体特征进行提取. 实证表明, 改进TFIDF方法效果更佳.

Feature extraction is the basis for discovering the preferences of specific knowledge groups and forms the premise of providing personalized services in libraries. TFIDF is a common method for feature extraction. Aiming at the problem that the traditional TFIDF method fails to take into account the degree of concentration between classes and the degree of decentralization in the same class, the CD factor which means concentration and dispersion is constructed based on inter-class concentration and intra-class dispersion. A new TFIDF algorithm for feature extraction is proposed with CD factor. Based on readers' borrowing data, the new TFIDF algorithm is able to be applied to extract library knowledge group feature. Then an example of group feature extraction is given based on the data of a library in university. The traditional TFIDF and improved TFIDF methods are applied to extract the group features in this example. Empirical evidence shows that the improved TFIDF method is better.

()
[1] 俞高锋, 李登峰. 网络安全威胁态势评级的变权方法[J]. 系统科学与数学, 2021, 41(9): 2477-2491.
[2] 徐蕾艳, 孟志青. 条件风险值下直营连锁企业供销平衡鲁棒策略研究[J]. 系统科学与数学, 2021, 41(8): 2149-2169.
[3] 黄晓辉, 卢焱, 唐锡晋. 基于在线媒体的新冠疫情社会舆情多视角分析[J]. 系统科学与数学, 2021, 41(8): 2182-2198.
[4] 赵振宇, 张垚, 樊伟光. 基于``资源-项目-需求"链的分布式可再生能源项目适应度研究[J]. 系统科学与数学, 2021, 41(8): 2217-2233.
[5] 谷浩, 毕潇, 王丹, 李刚, 邹晶, 陈明. 基于ResNet和反卷积网络模型的有限角CT图像重建算法[J]. 系统科学与数学, 2021, 41(8): 2349-2360.
[6] 李美娟, 潘瑜昕, 徐林明, 卢锦呈. 改进区间数动态 TOPSIS 评价方法[J]. 系统科学与数学, 2021, 41(7): 1891-1904.
[7] 李爱忠, 任若恩, 董纪昌. 稀疏网络下核范数回归的连续时间Smart Beta策略[J]. 系统科学与数学, 2021, 41(7): 1927-1937.
[8] 赵伟, 王钟梅, 吴纯杰. 结合测量误差的检测多元协方差矩阵的EWMA控制图[J]. 系统科学与数学, 2021, 41(7): 2018-2034.
[9] 彭定洪, 卞志洋. 面向产品设计方案的犹豫模糊 Kansei-TOPSIS 评价方法[J]. 系统科学与数学, 2021, 41(6): 1630-1647.
[10] 左凯, 吴文青, 张元元. 修理工多重休假且修理设备可更换的$n$中取$k$温贮备系统研究[J]. 系统科学与数学, 2021, 41(6): 1729-1741.
[11] 刘艳霞, 王芝皓, 芮荣祥, 田茂再. 广义函数型部分变系数混合模型的估计[J]. 系统科学与数学, 2021, 41(6): 1742-1760.
[12] 罗小丽, 戴璐, 练红海, 李谟发, 邓鹏. 具有时滞概率分布的电力系统负荷频率稳定性分析[J]. 系统科学与数学, 2021, 41(5): 1245-1255.
[13] 张小英, 王平, 冯红银萍. 常微分方程-薛定谔方程耦合系统的输出反馈镇定[J]. 系统科学与数学, 2021, 41(4): 887-897.
[14] 陈振杰, 傅勤, 郁鹏飞, 张丹. 一类四阶抛物型偏微分多智能体系统的协调控制[J]. 系统科学与数学, 2021, 41(4): 898-912.
[15] 杨贵军, 吴洁琼. Pareto $\pi$ps 抽样的~Horvitz-Thompson 估计量方差研究[J]. 系统科学与数学, 2021, 41(4): 1150-1163.
阅读次数
全文


摘要