城市设计/数据分析/技术分享/摄影记录

0%

累计确诊病例走势

这章将使用交互图表工具pyechats来制作动态图表,LETS GO!

首先依然是准备数据

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
# 读取数据
import pandas as pd
import warnings
warnings.filterwarnings('ignore')
# 设置不弹出警告

df = pd.read_excel('*/*/data_ncov.xlsx')
#记得修改自己的文件路径

# 时间序列转换
df['date'] = df['date'].astype('str') # 先将字段转化为字符串
df['date'] = pd.to_datetime(df['date']) # 再进行时间序列转换

# 提取全国数据
data_china = df.groupby('date')[['疑似','确诊','死亡']].sum()
data_china.head()

按天计算每日新增数据

目前提取的全国数据的确诊、疑似及死亡病例都是累计数据,我们需要按天计算每日新增数据,计算逻辑如下:

  • 今日新增确诊病例 = 今日确诊病例 - 昨日确诊病例
  • 今日新增疑似病例 = 今日疑似病例 - 昨日疑似病例
  • 今日新增死亡病例 = 今日死亡病例 - 昨日死亡病例
阅读全文 »

快速查看不同省市疫情现状

这篇将开始用python做第一张可视化图表啦!

首先依然是准备数据

1
2
3
4
5
6
7
8
9
10
11
12
# 读取数据
import pandas as pd
import warnings
warnings.filterwarnings('ignore')
# 设置不弹出警告

df = pd.read_excel('*/*/data_ncov.xlsx')
#记得修改自己的文件路径

# 时间序列转换
df['date'] = df['date'].astype('str') # 先将字段转化为字符串
df['date'] = pd.to_datetime(df['date']) # 再进行时间序列转换

如何做数据排序?

首先提取2020-2-1的数据,以确诊字段做排序,代码如下:

1
2
3
4
5
6
# 提取2020-2-1日的数据
data_0201 = df[df['date'] == '2020-2-1']

# 排序
data_0201.sort_values(by='确诊', ascending=False, inplace = True)
data_0201.head()
阅读全文 »

热力图简介

 人是城市经济活动的载体和城市化进程中最活跃的因素,人口分布空间格局对城市研究有着重要的意义,而互联网地图的热力图作为新兴的大数据产品,基于了上亿手机用户地理位置,能够对实时的人群集聚、人群分布进行可视化表达。虽然不能代替实际的人口密度数据,但一定程度还是反映出每天、每小时甚至每分钟人群在城市空间中相对集聚的位置和分布趋势,为城市研究和规划提供了全新的视角。

 热力图(Heat Map)是通过密度函数3进行可视化用于表示地图中点的密度的热图。

阅读全文 »

按日期/区域做数据提取

什么是时间序列?

在本次的案例数据中,有一个字段date记录了疫情数据记录的日期,例如我们把重庆市的数据单独拿出来看:

区域编码 省市 疑似 确诊 死亡 date
500000 重庆市 13 9 0 20200122
500000 重庆市 71 27 0 20200123
500000 重庆市 86 57 0 20200124
500000 重庆市 146 75 0 20200125
500000 重庆市 188 110 0 20200126
500000 重庆市 219 132 0 20200127
500000 重庆市 246 147 0 20200128
500000 重庆市 279 165 0 20200129
500000 重庆市 378 206 0 20200130
500000 重庆市 408 238 1 20200131

我们首先查看date的字段类型

1
2
3
4
5
6
7
# 举例1 
# 读取数据
import pandas as pd
df = pd.read_excel('${ohstudy}/nCov/data_ncov.xlsx')

# 查看字段类型
df['date'].dtype

输出结果为:

1
dtype('int64')
阅读全文 »

如何读取数据

源于课堂及整理,数据内包含的日期为20201.22-2020.2.13

作为一名合格的python数据分析师,面对原始数据,你要完成的工作有这以下内容


  1. 读取数据,初步了解数据结构清洗数据

  2. 使数据能做进一步分析

  3. 思考几个问题:
    全国疫情确诊病例TOP10是哪些省市?
    如何查看不同日期的疫情情况?
    如何快速提取某一地区多日的疫情情况?


阅读全文 »