您现在的位置是:亿华云 > 系统运维
简单好用,分享四款 Pandas 自动数据分析神器!
亿华云2025-10-08 21:05:14【系统运维】3人已围观
简介我们做数据分析,在第一次拿到数据集的时候,一般会用统计学或可视化方法来了解原始数据。 了解列数、行数、取值分布、缺失值、列之间的相关关系等等,这个过程叫做 EDAExploratory
我们做数据分析,简单好用在第一次拿到数据集的分享时候,一般会用统计学或可视化方法来了解原始数据。动数
了解列数、据分行数、析神取值分布、简单好用缺失值、分享列之间的动数相关关系等等,这个过程叫做 EDA(Exploratory Data Analysis,据分探索性数据分析)。析神
如果你现在做EDA还在用pandas一行行写代码,简单好用那么福音来了!分享
目前已经有很多EDA工具可以自动产出基础的动数统计数据和图表,能为我们节省大量时间。据分
本文会对比介绍 4 款常用的析神EDA工具,最后一款绝了,完全是抛弃代码的节奏。
正式介绍这些工具之前,先来加载数据集。
import numpy as np
import pandas as pd
iris = pd.read_csv(iris.csv)
iris
iris是下面用到的数据集,是一个150行 * 4列的 DataFrame。
1. PandasGUI
PandasGUI提供数据预览、筛选、统计、源码下载多种图表展示以及数据转换。
# 安装
# pip install pandasgui
from pandasgui import show
show(iris)
PandasGUI操作界面
PandasGUI更侧重数据展示,提供了10多种图表,通过可视的方式配置。
但数据统计做的比较简单,没有提供缺失值、相关系数等指标,数据转换部分也只开放了一小部分接口。
2. Pandas Profiling
Pandas Profiling 提供了整体数据概况、每列的详情、列之间的关图、列之间的相关系数。
# 安装:
# pip install -U pandas-profiling
# jupyter nbextension enable --py widgetsnbextension
from pandas_profiling import ProfileReport
profile = ProfileReport(iris, title=iris Pandas Profiling Report, explorative=True)
profile
Pandas Profiling操作界面
每列的详情包括:缺失值统计、去重计数、最值、平均值等统计指标和取值分布的柱状图。
列之间的相关系数支持Spearman、Pearson、Kendall 和 Phik 4 种相关系数算法。
与 PandasGUI 相反,Pandas Profiling没有丰富的图表,但提供了非常多的统计指标以及相关系数。
3. Sweetviz
Sweetviz与Pandas Profiling类似,源码库提供了每列详细的统计指标、取值分布、缺失值统计以及列之间的相关系数。
# 安装
# pip install sweetviz
import sweetviz as sv
sv_report = sv.analyze(iris)
sv_report.show_html()
Sweetviz操作界面
Sweetviz还有有一个非常好的特性是支持不同数据集的对比,如:训练数据集和测试数据集的对比。
Sweetviz数据集对比
蓝色和橙色代表不同的数据集,通过对比可以清晰发现数据集之前的差异。
4. dtale
最后重磅介绍dtale,它不仅提供丰富图表展示数据,还提供了很多交互式的接口,对数据进行操作、转换。
dtale操作界面
dtale的功能主要分为三部分:数据操作、数据可视化、高亮显示。
4.1 数据操作(Actions)dtale将pandas的函数包装成可视化接口,可以让我们通过图形界面方式来操作数据。
# pip install dtale
import dtale
d = dtale.show(iris)
d.open_browser()
Actions
右半部分图是左边图的中文翻译,用的是免费信息发布网 Chrome 自动翻译,有些不是很准确。
举一个数据操作的例子。
Summarize Data
上图是Actions菜单中Summarize Data的功能,它提供了对数据集汇总操作的接口。
上图我们选择按照species列分组,计算sepal_width列的平均值,同时可以看到左下角dtale已经自动为该操作生成了pandas代码。
4.2 数据可视化(Visualize)提供比较丰富的图表,对每列数据概况、重复行、缺失值、相关系数进行统计和展示。
Visualize
举一个数据可视化的例子。
Describe
上图是Visualize菜单中Describe的功能,它可以统计每列的最值、均值、标准差等指标,并提供图表展示。
右侧的Code Export可以查看生成这些数据的代码。
4.3 高亮显示(Highlight)对缺失值、异常值做高亮显示,方便我们快速定位到异常的数据。
Highlight
上图显示了将sepal_width字段的异常值。
dtale非常强大,功能也非常多,大家可以多多探索、挖掘。
最后,简单总结一下。如果探索的数据集侧重数据展示,可以选PandasGUI;如果只是简单了解基本统计指标,可以选择Pandas Profiling和Sweetviz;如果需要做深度的数据探索,那就选择dtale。
很赞哦!(6)
相关文章
- 前面这两个步骤都是在本机完成的。到这里还没有涉及真正的域名解析服务器,如果在本机中仍然无法完成域名的解析,就会真正请求域名服务器来解析这个域名了。
- Go1.18 快讯:新的 IP 包
- 用户如何选择合适的域名?有什么方法技巧?
- 鸿蒙轻内核A核源码分析系列之虚实映射(3)虚拟物理内存映射
- 只要我们做的是从目前的市场情况选择域名,从简单易记,从个性特征上,我们就可以找到一个好域名进行注册。域名注册进行域名记录和解析以及绑定网站后,客户可以通过URL登录您的网站。
- 聊聊如何提升 API 的性能
- world域名代表什么意思?world域名价值如何?
- 内存耗尽后Redis会发生什么
- 评估域名涉及的行业规模与发展状况成正比。
- 域名批量查询工具哪个好用?