如何读取数据
源于课堂及整理,数据内包含的日期为20201.22-2020.2.13
作为一名合格的python数据分析师,面对原始数据,要完成的工作有这以下内容
- 读取数据,初步了解数据结构清洗数据
- 使数据能做进一步分析
- 思考几个问题:
- 全国疫情确诊病例TOP10是哪些省市?
- 如何查看不同日期的疫情情况?
- 如何查看不同日期的疫情情况?
笔记1:import pandas
pandas是一个常用的python数据分析工具库,由于pandas带有非常直观的二维数据结构DataFrame
和Series
在python中,我们使用import...as...
语句来导入一个第三方包(工具库)pandas,并使用pandas.read_excel()
来疫情数据。具体写法是:
# 举例1# 导入pandas包import pandas as pd
# 并读取excel数据,赋值给变量df
df = pd.read_excel('${ohstudy}/nCov/data_ncov.xlsx')
#括号内为文件绝对地址
df.head(20)
#查看前20行,不填则默认5行
运行结果如下:
笔记2:查看数据基本情况
# 举例2 # 查看数据基本情况
df.info()
输出结果为:
笔记3:查看数据的字段名(columns)、标签/索引(index)、值(value)
# 举例3# 查看数据的所有字段、标签/索引、值, 去掉注释符号#,以激活代码,默认只显示最后运行的代码结果
df.columns
df.index
df.values
后续预告:
示例文件下载
此处内容需要评论回复后(审核通过)方可阅读。
版权属于:Erek
本文链接:https://erek.top/archives/10.html
转载时须注明出处及本声明
OωO
OωO
hh