如何读取数据

作为一名合格的python数据分析师,面对原始数据,要完成的工作有这以下内容

  1. 读取数据,初步了解数据结构清洗数据
  2. 使数据能做进一步分析
  3. 思考几个问题:
  • 全国疫情确诊病例TOP10是哪些省市?
  • 如何查看不同日期的疫情情况?
  • 如何查看不同日期的疫情情况?

笔记1:import pandas

pandas是一个常用的python数据分析工具库,由于pandas带有非常直观的二维数据结构DataFrameSeries

在python中,我们使用import...as...语句来导入一个第三方包(工具库)pandas,并使用pandas.read_excel()来疫情数据。具体写法是:

# 举例1# 导入pandas包import pandas as pd

# 并读取excel数据,赋值给变量df
df = pd.read_excel('${ohstudy}/nCov/data_ncov.xlsx')
#括号内为文件绝对地址

df.head(20)
#查看前20行,不填则默认5行

运行结果如下:
测试图片

笔记2:查看数据基本情况

# 举例2 # 查看数据基本情况
df.info()

输出结果为:
测试图片

笔记3:查看数据的字段名(columns)、标签/索引(index)、值(value)

测试图片

# 举例3# 查看数据的所有字段、标签/索引、值, 去掉注释符号#,以激活代码,默认只显示最后运行的代码结果
df.columns
df.index
df.values

后续预告:

示例文件下载

此处内容需要评论回复后(审核通过)方可阅读。

最后修改:2021 年 01 月 17 日 06 : 43 PM
如果觉得我的文章对你有用,请随意赞赏