【内容整合】近年文本分析研究方法汇总
本人近期的研究中,通过查找资料发现越来越多的文章都基于了文本分析来进行展开,于是我总结了目前使用较多的几种方法,供大家参考参考。
文本分析法(Textual Analysis)指的是从文本的表层深入到文本的深层,从而发现那些不能为普通阅读所把握的深层意义。文本分析是自然语言处理(Natural Language Processing, NLP)领域的一个重要分支,是指对文本数据或语料库内的语料进行分析,最终提取出给定语料的各种信息,包括关键词、词向量等内容的计算机技术,在一些文献中也将这一领域的相关技术纳入自然语言处理预训练技术之中。
经管领域用到的文本分析技术相对经典,大致有如下用法:
【一维】把文本转为一个数字,词频,比较词频
1. 词典法,构建构念对应的词语集合,统计文本中该构念词的词频占比
2. 机器学习扩展词典(人工+算法构建词典),人工构建概念初始种子词,使用机器学习算法扩展词典。之后用法类似于词典法,统计某类词的词频占比。
【二维】把文本转为向量,向量之间比较相似度、聚类、分类预测等,如词袋法、tfidf。
为了让大家有个更直观的感受,下面是一些顶刊中有使用到文本分析的文章案例