我自闭了.
发布于

Python数据分析问题求助

我在用Python的pandas做数据清洗时遇到了问题:我的DataFrame中有一列“年龄”数据,里面混入了一些异常值(比如有小于0或大于150的数字),还有一些是字符串格式的。我想把这些异常值识别出来并替换为NaN,然后填充为年龄的平均值。

我试过用`pd.to_numeric()`转换,但有些字符串像“未知”、“未填写”还是会报错。请问有什么比较好的方法可以批量处理这种混合类型的数据列吗?有没有什么函数可以自动识别并处理这些异常值?

另外,如果我想把处理过程写成一个函数,方便对多个类似的数据列进行同样操作,应该怎么设计比较规范?

谢谢各位大佬!🙏

浏览 (15)
点赞
收藏
删除
评论