Research on User Profiling Technology in the Management of College Student Status Archives
The Management of College Student status Archives provides archival services to a large number of students. The administration of student records within colleges and universities serves not only as the repository of original documents but also as a framework for social services underpinned by such records. The management department of college student status archives should not only be able to provide archival services according to standardized search terms, but also be able to provide personalized archive service capability adapt to certain complex situations with the help of technical means. It is introduced user profiling technology according to the content and utilization characteristics of management and utilization work about college student status archives. Methods and steps for user profiling are preliminarily structured. The research on individual user profiling provides mentality on user behavior preferences and personalized customization services. Research on group user profiling provides evidence on the recommendation of contents and attentions of student status archives. It is discussed finally the beneficial role of user profiling technology in the respect of improving archive management and utilization levels, which can realize sustainable development of archive management.
College Student Status Archives
学籍档案是高校档案中的重要部分,也是高校档案中利用者涉及人数最多、利用频次最多的档案种类之一。对档案利用者的研究是提升档案利用服务水平的有效方法。而对于学籍档案来说,由于利用者的分散性和复杂性,传统的研究方法效率较低。本文尝试结合高校学籍档案的特征,运用用户画像技术研究档案利用者的特征及其在提升档案服务水平上的作用。
用户画像是由“交互设计之父”Alan Coop提出的,是“表达真实用户的虚拟代表”。是指通过一定的算法对用户的特征进行分析抽象,得到刻画用户特征的模型。构建用户画像就是用户的信息数据进行建模的过程,目的是得到可以描述用户个人属性、行为偏好、接受服务倾向等的模型,同时通过对于相关特征进行统计、挖掘和研究发现用户信息中的规律和特征,最终的目标是突出用户在系统中的主体作用。
目前对于用户画像的研究主要分为在理论研究和应用实践两个方面。其中用户画像的理论研究主要集中在用户画像标签提取以及数据挖掘研究和用户画像构建常用的技术和算法。例如:高广尚
用户画像目前主要应用于交互设计或电子商务、教育培训、旅游产业等商业运营领域中。近年来有学者开展了将其应用于图书馆、医疗健康、科研管理、舆情分析等社会服务领域的研究。例如:胡媛
构成学籍档案是指学生从录取到毕业派遣的整个在校学习其间参加学习、考试、实践等活动的原始记录,通过表格、名单等形式呈现的具有保存与利用价值的材料。根据国家教育委员会、国家档案局发布的《高等学校教学文件材料归档范围》的规定和高校档案管理实际,目前毕业生利用涉及到的学籍档案主要包括:1) 招生计划、录取名册;2) 学生名册、学籍异动(留降级、休复学、转学、转专业、退学等)材料;3) 第二课堂情况和获得证书情况;4) 学生实习计划、实习报告和实习成绩;5) 学生登记表或学籍卡;6) 学生奖惩材料;7) 毕业派遣情况;8) 优秀毕业生材料。
高校学籍档案覆盖了学生在校期间人才培养全过程要求的知识和能力点。记录过程中,通过不同的形式(文字、数字和图表以及其他的多种格式)记录学生的知识点掌握情况,形成大量的信息点。信息点构成了教学记录,一个或者数个同类记录构成了教学文件,不同的教学文件按照一定的关系关联起来成为学籍档案。学籍档案具有涉及人数多、包含的记录多、记录联系复杂的特点,管理难度较大。
学籍档案的每一条记录的产生都是以一定的教学文件作为依据、按照规范的流程得到的,其形成的过程严谨,记录内容精确,真实的记录了学生的知识和能力情况。
学籍档案又是随着学生学习活动的动态性而动态的形成。比如学生某门课程考试不及格之后,可能补考通过也可能选择重修,甚至多次重修;如果累计的不及格课程较多,可能跟班试读,也可能留降级甚至退学。所以,对于同一个班级的不同学生,其学籍档案中的组成、内容和复杂程度上存在较大的差别。这种也加大了学籍档案管理的难度。
高校的学籍档案的首要作用是学生学籍方面真实的历史记录。它必须反映了学生在校学期期间真实的情况,形成的过程和内容必须符合历史真实和相关文件的要求,不存在归档内容失真、归档内容不全和利用过程失真的问题。
高校的学籍档案利用还兼具一定的社会服务功能。随着社会对于档案的日渐重视,学籍档案在学生学历提升、就业、晋升、退休等方面均发挥重要作用。但是由于院校和专业调整、人员变动等原因,在学籍档案利用中不可避免的存在一些查找困难、学生对档案内容存疑等情况,而学校作为学生的母校,除了档案的信息检索和复制服务之外,应该提升自己的个性化服务能力为学生提出针对性的建议和帮助,使高校档案部门成为兼具一定社会服务功能的支持系统。
在学籍档案利用的工作实践中,不同情况的利用人呈现鲜明的不同特征。利用人的需求倾向和行为偏好因其角色、离校状态、利用目的等的不同呈现一定的规律性。因此运用用户画像技术对用户进行分析,可以帮助档案工作者更加细致高速地做好档案利用工作。
用户画像技术,通过对学籍档案利用者信息提取,为不同的档案利用者选取适合的标签,运用一定的数据挖掘技术对档案利用者全部信息和特征进行挖掘,抓住关键特征对利用者进行分类。档案服务者可以参考同类型利用者既往的服务经验为学籍档案利用者提供帮助。
随着档案信息化的发展,很多单位已经部分或者全部完成了档案信息化工作,为了保证用户画像能够与现有档案系统相适应,必须需要对现有的学籍档案利用业务进行分析。业务流程分析的主要目的是明确学籍档案管理中信息流动的路径。我们需要弄清学籍档案利用业务的种类,申请业务的权限和需要提供的证件,每种业务标准的检索关键词和形成的材料,不同档案材料之间存在怎样的逻辑关系等。
首先要明确用户的角色。常见的用户角色有校内单位、毕业生本人、毕业生委托人、毕业生关系人(用人单位、深造单位、社保中心、公证处等)。对不同角色利用者根据不同的提纲提取和收集数据。提纲的确定丰富经验的档案工作者和用户画像系统设计者共同探讨给出并在运行中不断的修正。用户的原始数据提取重点要突出准确性和全面性。通过档案利用者本人填写和确认、适当增加冗余数据等方式尽可能提高原始数据的准确性。要提高原始数据获取的全面性,这些原始数据包括利用者的个人信息、档案利用者的行为日志信息、档案利用者的网络情境信息等方面。要充分的考虑到现有各种途径。利用者个人信息可以由利用者注册账户或者电话咨询时本人提供。档案利用者的行为日志信息可以由用户交互系统收集和电话咨询记录整理,主要包含利用者档案咨询查找过程中的咨询或查阅频率、历史需求档案材料清单、查档路径、关键词选择、相关链接嵌入等信息。
用户原始数据可以分为结构化数据、半结构化数据和非结构化数据。首先需要工作人员对原始数据进行预处理,对非结构化数据和半结构化数据进行规范,使之可以被计算机识别和处理。由于服务人员的复杂性,提供的数据有可能完全偏离了历史的真实。因此需要对于异常的数据(偏离日常应用实际)进行核实或者删除,对于缺失的必要信息,需要联系档案利用者补充信息。整理后的数据需要建立数据库进行存储,同时需要将用户数据、用户行为数据和用户网络情境数据的数据库有效关联,为用户画像提供数据支持和准备。
用户标签是一种将用户行为、属性、偏好等进行标准化定义的方式,用于描述客户的特征。其标签值具有可分类性。例如对于“离校方式”来说,标签值包含了“毕业”“退学”“结业”等。
用户数据的标签化,是通过对档案利用者的基础信息进行数据处理与分析,提取出用户的特质标签,构建用户模型的过程。信息提取方式主要由两种:第一种是机器提取,这种方式效率较高,而且容易做到标准化。方法是通过运用自然语言处理、文本挖掘、机器学习等技术,从用户基本信息种生成用户标签。机器提取适用于利用者准确知道查询档案所需的关键词内容,能够初步胜任与档案馆数据库人机交流的人员。另外一种是人工提取,由档案管理人员通过阅读档案利用者需求、回顾档案利用者查找和咨询历史等提取出档案利用者的特征。这种方法效率较低、而且不容易做到标准统一。但是对于时间久远的档案利用,利用者记不清检索需要的必要信息,或者利用者年龄较大无法与机器有效沟通的情况;只有通过人工提取才能得到符合要求的数据标签。
个人用户画像是由一个标签体系来描述的,包含多个标签值。用户画像的构建过程就是建立标签体系并为其提取到合适的标签值的过程。档案利用用户的画像通常包括个人属性标签、行为特征标签和倾向特征标签等。
个人属性标签主要描述用户个人的基本形象。个人属性标签通常包括用户角色、身份证号、离校方式、离校年份、曾就读学院、曾就读专业、入学年份、录取方式、生源地等。主要来自于用户的注册登录信息,同时在运行过程中,可以通过工作人员矫正、档案内容矫正等方式加以修正,以保证个人标签的准确性。
用户的行为特征标签主要是描述该用户在一段时间内对档案利用的内容、频率和目的等特征,主要包括用户咨询历史、档案利用记录、档案的用途等。用户的行为特征标签主要来源自校友的咨询和利用历史。用户的行为特征表现可以在利用数量较大的情况下,迅速的为档案管理者提供备选服务推荐等。
倾向特征标签主要描述的是档案利用人在性格、表达方式、精神状态、体力情况等方面鲜明的个人特征。是比较抽象的都标签,无法从用户本人或者档案内容得到,需要通过对用户个人属性和行为特征属性进行数据挖掘得到的。倾向特征标签可以为档案工作者提示利用者的个性化特征,更好的有针对性的为档案利用者提供服务,提高档案利用的满意度。
群体用户的画像是对多个个体用户画像基础上,运用一定的聚类分析算法,比如K-means算法等,将具有某些核心特征的用户归为某一用户类别。不同类别的利用人,在学籍档案利用中呈现鲜明的不同特征。比如离校方式为“毕业”的学生的成绩单,是毕业前学生所在学院教科办以“毕业生成绩单”为案卷题目立卷存档,可以通过学生的学号、姓名、毕业年份、毕业学院专业等检索获得。而离校方式为“结业”的学生成绩单,在学生最长修业年限内由于学生随时有可能重修,因此无法形成文书档案只能由教学部门随时生成临时成绩单;在学生最长修业年限结束后,根据其是否获得毕业证分别立卷存档。因此某学生如果能够归类为最长修业年限内结业证换发毕业证,则可以在其获得毕业证的年份中检索得到毕业成绩单。
通过群体用户画像将学籍档案利用人分类成具有不同特征的群体,在学籍档案服务的实践中不断总结不同特征群体的利用需求、个人特征、解决途径、常见问题等方面的经验,形成面向不同用户群体的详细流程、推荐服务和注意事项。当收到学籍档案利用需求时,通过用户个体画像准确把握该利用人的特征,并将其归入既有的档案利用人群体中。这样即使是档案工作经验不足的工作人员,也可以为利用人提供个性化的服务。化解用户面对学籍档案的利用需求,“不知道要什么,不记得检索词,不知道怎么找”到困境。服务推荐的方法目前主流的方法有:协同过滤法、基于关联规则的推荐和组合推荐等。协同过滤法是一种基于用户相似兴趣的推荐技术,通过找到与该用户相似的用户群体的服务需求,向其推荐档案服务。例如:某人记不清他是什么时候取得的毕业证,使毕业档案的查找无从下手。但是他可以回忆起以前他同班同学某某曾在档案馆查到过毕业档案。基于群体用户画像的学籍档案推荐系统,可以通过这一线索推荐备选的档案服务项目,使查找有了一定的可选范围,档案服务也有了切入点。基于关联规则的推荐是通过挖掘数据库中的关联规则,发现学籍档案需求之间的相关性,例如毕业证勘误的学生,需要提供录取档案和毕业档案作为支撑材料,从而推荐相关的档案组合。利用者完成档案利用后,可以对群体画像推荐的详细流程或者服务做出评价,对于评分较低的我们可以重点进行分析,进一步修正群体画像模型,使之更好的服务档案利用。如
1) 提升学籍档案利用服务水平。具有某些共同特征的档案利用者,在接受档案利用服务时,在需求的档案内容、材料制作要求、特殊情况的处理方法等方面具有一定的类似性。因此通过用户画像技术对档案利用者进行分类和研究,有助于档案工作人员根据用户画像为档案利用者提供个性化、便捷化的服务。于此同时在为每一个档案利用者服务过程中不断的完善和修正用户画像,使每一位档案利用者成为用户画像中的负反馈环节,从而使档案管理系统在运行中可以自调节,提高档案管理的水平。
2) 助力以档案利用者为中心的档案可持续发展策略研究。档案的收集、整理和保管,最终的目的是为了利用。档案利用者的需求被迅速而便捷的满足,是档案可持续发展的根本因素。用户画像技术通过抽象出标签使计算机可以识别和处理档案利用者的信息,从而运用现代技术手段对档案利用者特征及其需求规律展开研究。将档案利用者作为我们改善档案工作的研究对象,以利用者的需求作为档案馆管理和服务提升到出发点,从而为档案可持续发展策略研究提供参考。
本文是以档案利用者为研究对象,探讨了以用户画像方法来描述和研究档案利用者的基本设想,初步设计了个人用户标签体系以及数据信息获得的方法,最后分析了用户画像提升档案利用服务中的作用。值得注意点是,由于包含大量的档案利用者个人隐私、既往的工作经验以及特殊案例的处理方法,档案利用者画像管理一定要非常重视安全管理。本文的局限性在于首先仅以既往服务的记录作为研究的数据来源,没有充分发挥档案利用者的主观能动性,可以尝试针对更有效的用户画像需求设计调查问卷或者座谈环节,使标签的设计或者得到的数据更准确,得到更能指导档案利用工作有价值的研究结论。