上市公司数字化转型策略变量制作
看到这个变量,仍然是用文本分析分词方法制作的!
在数字经济成为国民经济核心增长极、企业数字化转型成为高质量发展关键路径的背景下。公募基金为代表的耐心资本识别企业数字化转型真实性的过程中,“言”维度(数字化转型信息披露)是资本市场感知企业转型意图的首要窗口,也是界定企业“多言寡行”策略性转型的核心基础。本数据聚焦该研究框架下“言”维度的量化刻画,覆盖沪深A股上市公司数字化转型的信息披露特征,通过文本挖掘技术系统性归集企业年报中与数字化转型相关的披露内容,填补“转型披露强度—披露结构—资本关注响应”链条中“言”维度的数据空白,为监管部门规范企业数字化转型披露、高校开展数字化转型实证研究、企业优化转型战略提供精准的数据支撑。
本数据核心来源为深圳证券交易所、上海证券交易所官方披露的所有A股上市企业年度报告,样本期间覆盖1994-2024年。基于数字经济核心技术框架与政策文件,筛选出“人工智能”、“商业智能”、“图像理解”、“投资决策辅助系统”、“智能数据分析”、“智能机器人”等42个结构化特征词,通过Python爬虫与文本识别技术(Java PDFbox库提取年报文本)对企业年报进行特征词“搜索—匹配—去重—计数”,分类归集关键技术方向词频并形成总词频(kw_sum);考虑到数据右偏性特征,对kw_sum进行对数化处理以满足实证分析需求。最终清洗后形成63,055条“股票代码—年份—数字化特征”三维度有效记录,涵盖企业各年度数字化转型的技术投入细节与整体强度。
任然可以用这份代码做出来,哈哈哈哈哈哈哈哈哈!
