您现在的位置是:亿华云 > 人工智能
2020年入门数据分析选择Python还是SQL?七个常用操作对比!
亿华云2025-10-03 15:56:17【人工智能】8人已围观
简介SQL和Python几乎是当前数据分析师必须要了解的两门语言,它们在处理数据时有什么区别?本文将分别用MySQL和pandas来展示七个在数据分析中常用的操作,希望可以帮助掌握其中一种语言的读者快速了
SQL和Python几乎是年入当前数据分析师必须要了解的两门语言,它们在处理数据时有什么区别?门数本文将分别用MySQL和pandas来展示七个在数据分析中常用的操作,希望可以帮助掌握其中一种语言的据分读者快速了解另一种方法!
在阅读本文前,你可以访问下方网站下载本文使用的析选示例数据,并导入MySQL与pandas中,常用操作一边敲代码一边阅读!
https://raw.githubusercontent.com/pandas-dev/pandas/master/pandas/tests/io/data/csv/tips.csv
一、对比选择
在SQL中,年入我们可以使用SELECT语句从表选择数据,门数结果被存储在一个结果表中,据分语法如下:
SELECT column_name,析选column_name FROM table_name;如果不想显示全部的记录,可以使用TOP或LIMIT来限制行数。常用操作因此选择tips表中的对比部分列可以使用下面的语句
SELECT total_bill, tip, smoker, time FROM tips LIMIT 5;而在pandas中,我们可以通过将列名列表传递给DataFrame来完成列选择
在SQL中,年入进行选择的门数同时还可以进行计算,比如添加一列
SELECT *,据分 tip/total_bill as tip_rate FROM tips LIMIT 5;在pandas中使用DataFrame.assign()同样可以完成这个操作
二、查找
1. 单条件查找
在SQL中,WHERE子句用于提取那些满足指定条件的记录,语法如下
SELECT column_name,column_name FROM table_name WHERE column_name operator value;比如查找示例数据中time = dinner的记录
SELECT * FROM tips WHERE time = Dinner LIMIT 5;而在pandas中,按照条件进行查找则可以有多种形式,比如可以将含有True/False的Series对象传递给DataFrame,并返回所有带有True的行
2. 多条件查找
在SQL中,亿华云进行多条件查找可以使用AND/OR来完成
在pandas中也有类似的操作
3. 查找空值
在pandas检查空值是使用notna()和isna()方法完成的。
frame[frame[col1].notna()]在SQL中可以使用IS NULL和IS NOT NULL完成
SELECT * FROM frame WHERE col2 IS NULL; SELECT * FROM frame WHERE col1 IS NOT NULL;三、更新
在SQL中使用UPDATE
UPDATE tips SET tiptip = tip*2 WHERE tip < 2;而在pandas中则有多种方法,比如使用loc函数
tips.loc[tips[tip] < 2, tip] *= 2四、删除
在SQL中使用DELETE
DELETE FROM tips WHERE tip > 9;在pandas中,我们选择应保留的行,而不是删除它们
tipstips = tips.loc[tips[tip] <= 9]五、分组
在pandas中,使用groupby()方法实现分组。groupby()通常是指一个过程,在该过程中,我们希望将数据集分为几组,应用某些功能(通常是聚合),然后将各组组合在一起。
常见的SQL操作是获取整个数据集中每个组中的记录数。例如,通过对性别进行分组查询
SELECT sex, count(*) FROM tips GROUP BY sex;在pandas中的等价操作为
注意,在上面代码中,我们使用size()而不是count() 这是因为count()将函数应用于每一列,并返回每一列中非空记录的站群服务器数量!
六、连接
在pandas可以使用join()或merge()进行连接,每种方法都有参数,可让指定要执行的联接类型(LEFT,RIGHT,INNER,FULL)或要联接的列。
现在让我们重新创建两组示例数据,分别用代码来演示不同的连接
df1 = pd.DataFrame({ key: [A, B, C, D], ....: value: np.random.randn(4)}) ....: df2 = pd.DataFrame({ key: [B, D, D, E], ....: value: np.random.randn(4)})1. 内连接
内联接使用比较运算符根据每个表共有的列的值匹配两个表中的行,在SQL中实现内连接使用INNER JOIN
SELECT * FROM df1 INNER JOIN df2 ON df1.key = df2.key;在pandas中可以使用merge()
merge()提供了一些参数,可以将一个DataFrame的列与另一个DataFrame的索引连接在一起👇
2. 左/右外联接
在SQL中实现左/右外连接可以使用LEFT OUTER JOIN和RIGHT OUTER JOIN
SELECT * FROM df1 LEFT OUTER JOIN df2 ON df1.key = df2.key; SELECT * FROM df1 RIGHT OUTER JOIN df2 ON df1.key = df2.key;在pandas中实现同样可以使用merge()并指定how关键字为left或者right即可
3. 全连接
全连接返回左表和右表中的所有行,无论是否匹配,但并不是所有的数据库都支持,比如mysql就不支持,在SQL中实现全连接可以使用FULL OUTER JOIN
SELECT * FROM df1 FULL OUTER JOIN df2 ON df1.key = df2.key;在pandas中实现同样可以使用merge()并指定how关键字为outer
七、合并
SQL中UNION操作用于合并两个或多个SELECT语句的结果集,UNION与UNION ALL类似,但是UNION将删除重复的行。源码下载示例代码如下
SELECT city, rank FROM df1 UNION ALL SELECT city, rank FROM df2; /* city rank Chicago 1 San Francisco 2 New York City 3 Chicago 1 Boston 4 Los Angeles 5 */在pandas中可以使用concat()实现UNION ALL
上面是UNION ALL保留重复值,如果希望删除可以使用 drop_duplicates()
以上就是本文的全部内容,可以看到在不同的场景下不同的语言有着不同的特性,如果你想深入学习了解可以进一步查阅官方文档并多加练习!
很赞哦!(3939)
上一篇: 数据中心冷却的绿色解决方案?
下一篇: 2023年数据中心12大趋势