导读：Pandas 是一个强大的分析结构化数据的工具集，它的使用基础是 Numpy（提供高性能的矩阵运算），用于数据挖掘和数据分析，同时也提供数据清洗功能。
本文收集了 Python 数据分析库 Pandas 及相关工具的日常使用方法，备查，持续更新中。

作者：李庆辉

来源：华章科技

缩写说明：

df：任意的 Pandas DataFrame 对象
s：任意的 Pandas Series 对象
注：有些属性方法 df 和 s 都可以使用

推荐资源：

pandas 在线教程
https://www.gairuo.com/p/pandas-tutorial
书籍 《深入浅出Pandas：利用Python进行数据处理与分析》

01 环境搭建

# https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/# https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/# https://docs.conda.io/en/latest/miniconda.html# excel 处理相关包 xlrd / openpyxl / xlsxwriter# 解析网页包 requests / lxml / html5lib / BeautifulSoup4# 计算包：scipypip install jupyter pandas matplotlib# 国外网络慢，可指定国内源快速下载安装pip install pandas -i https://pypi.tuna.tsinghua.edu.cn/simple

Conda 多 Python 版本环境：

# 创建新环境，<环境名称>, python 版本conda create -n py39 python=3.9# 删除环境conda remove -n py39 --all# 进入、激活环境conda activate py39# 退出环境conda deactivate# 查看所有虚拟环境及当前环境conda info -e

02 Jupyter Notebook 快捷键

启动 Jupyter Notebook：jupyter notebook

快捷键及功能：

<tab>：代码提示
Shift+ Enter：执行本行并定位到新增的行
Shift+Tab(1-3次)：查看函数方法说明
D, D：双击 D 删除本行
A / B：向上 / 下增加一行
M / Y：Markdown / 代码模式

03 导入库包

import pandas as pd # 最新为 1.4.1 版本 (2022-02-12)import numpy as npimport matplotlib.pyplot as pltimport seaborn as sns%matplotlib inline

04 导入数据

# 从 CSV 文件导入数据pd.read_csv('file.csv', name=['列名','列名2'])# 从限定分隔符的文本文件导入数据pd.read_table(filename, header=0)# Excel 导入，指定 sheet 和表头pd.read_excel('file.xlsx', sheet_name=' 表1', header=0)# 从 SQL 表/库导入数据pd.read_sql(query, connection_object)# 从 JSON 格式的字符串导入数据pd.read_json(json_string)# 解析 URL、字符串或者 HTML 文件，抽取其中的 tables 表格pd.read_html(url)# 从你的粘贴板获取内容，并传给 read_table()pd.read_clipboard()# 从字典对象导入数据，Key 是列名，Value是数据pd.DataFrame(dict)# 导入字符串from io import StringIOpd.read_csv(StringIO(web_data.text))

05 导出输出数据

# 导出数据到CSV文件df.to_csv('filename.csv')# 导出数据到Excel文件df.to_excel('filename.xlsx', index=True)# 导出数据到 SQL 表df.to_sql(table_name, connection_object)# 以Json格式导出数据到文本文件df.to_json(filename)# 其他df.to_html() # 显示 HTML 代码df.to_markdown() # 显示 markdown 代码df.to_string() # 显示格式化字符df.to_latex(index=False) # LaTeX tabular, longtabledf.to_dict('split') # 字典, 格式 list/series/records/indexdf.to_clipboard(sep=',', index=False) # 存入系统剪贴板# 将两个表格输出到一个excel文件里面,导出到多个 sheetwriter=pd.ExcelWriter('new.xlsx')df_1.to_excel(writer,sheet_name='第一个', index=False)df_2.to_excel(writer,sheet_name='第二个', index=False)writer.save() # 必须运行writer.save()，不然不能输出到本地# 写法2with pd.ExcelWriter('new.xlsx') as writer:df1.to_excel(writer, sheet_name='第一个')df2.to_excel(writer, sheet_name='第二个')# 用 xlsxwriter 导出支持合并单元格、颜色、图表等定制功能# https://xlsxwriter.readthedocs.io/working_with_pandas.html

06 创建测试对象

# 创建20行5列的随机数组成的 DataFrame 对象pd.DataFrame(np.random.rand(20,5))# 从可迭代对象 my_list 创建一个 Series 对象pd.Series(my_list)# 增加一个日期索引df.index = pd.date_range('1900/1/30', periods=df.shape[0])# 创建随机数据集df = pd.util.testing.makeDataFrame()# 创建随机日期索引数据集df = pd.util.testing.makePeriodFrame()df = pd.util.testing.makeTimeDataFrame()# 创建随机混合类型数据集df = pd.util.testing.makeMixedDataFrame()

07 查看、检查、统计、属性

df.head(n) # 查看 DataFrame 对象的前n行df.tail(n) # 查看 DataFrame 对象的最后n行df.sample(n) # 查看 n 个样本，随机df.shape # 查看行数和列数df.info() # 查看索引、数据类型和内存信息df.describe() # 查看数值型列的汇总统计df.dtypes # 查看各字段类型df.axes # 显示数据行和列名df.mean() # 返回所有列的均值df.mean(1) # 返回所有行的均值，下同df.corr() # 返回列与列之间的相关系数df.count() # 返回每一列中的非空值的个数df.max() # 返回每一列的最大值df.min() # 返回每一列的最小值df.median() # 返回每一列的中位数df.std() # 返回每一列的标准差df.var() # 方差s.mode() # 众数s.prod() # 连乘s.cumprod() # 累积连乘,累乘df.cumsum(axis=0) # 累积连加,累加s.nunique() # 去重数量，不同值的量df.idxmax() # 每列最大的值的索引名df.idxmin() # 最小df.columns # 显示所有列名df.team.unique() # 显示列中的不重复值# 查看 Series 对象的唯一值和计数, 计数占比: normalize=Trues.value_counts(dropna=False)# 查看 DataFrame 对象中每一列的唯一值和计数df.apply(pd.Series.value_counts)df.duplicated() # 重复行df.drop_duplicates() # 删除重复行# set_option、reset_option、describe_option 设置显示要求pd.get_option()# 设置行列最大显示数量，None 为不限制pd.options.display.max_rows = Nonepd.options.display.max_columns = Nonedf.col.argmin() # 最大值[最小值 .argmax()] 所在位置的自动索引df.col.idxmin() # 最大值[最小值 .idxmax()] 所在位置的定义索引# 累计统计ds.cumsum() # 前边所有值之和ds.cumprod() # 前边所有值之积ds.cummax() # 前边所有值的最大值ds.cummin() # 前边所有值的最小值# 窗口计算(滚动计算)ds.rolling(x).sum() #依次计算相邻x个元素的和ds.rolling(x).mean() #依次计算相邻x个元素的算术平均ds.rolling(x).var() #依次计算相邻x个元素的方差ds.rolling(x).std() #依次计算相邻x个元素的标准差ds.rolling(x).min() #依次计算相邻x个元素的最小值ds.rolling(x).max() #依次计算相邻x个元素的最大值

08 数据清理

df.columns = ['a','b','c'] # 重命名列名df.columns = df.columns.str.replace(' ', '_') # 列名空格换下划线df.loc[df.AAA >= 5, ['BBB', 'CCC']] = 555 # 替换数据df['pf'] = df.site_id.map({2: '小程序', 7:'M 站'}) # 将枚举换成名称pd.isnull() # 检查DataFrame对象中的空值，并返回一个 Boolean 数组pd.notnull() # 检查DataFrame对象中的非空值，并返回一个 Boolean 数组df.drop(['name'], axis=1) # 删除列df.drop([0, 10], axis=0) # 删除行del df['name'] # 删除列df.dropna() # 删除所有包含空值的行df.dropna(axis=1) # 删除所有包含空值的列df.dropna(axis=1,thresh=n) # 删除所有小于 n 个非空值的行df.fillna(x) # 用x替换DataFrame对象中所有的空值df.fillna(value={'prov':'未知'}) # 指定列的空值替换为指定内容s.astype(float) # 将Series中的数据类型更改为 float 类型df.index.astype('datetime64[ns]') # 转化为时间格式s.replace(1, 'one') # 用 'one’ 代替所有等于 1 的值s.replace([1, 3],['one','three']) # 用'one'代替 1，用 'three' 代替 3df.rename(columns=lambda x: x + 1) # 批量更改列名df.rename(columns={'old_name': 'new_name'}) # 选择性更改列名df.set_index('column_one') # 更改索引列df.rename(index=lambda x: x + 1) # 批量重命名索引# 重新命名表头名称df.columns = ['UID', '当前待打款金额', '认证姓名']df['是否设置提现账号'] = df['状态'] # 复制一列df.loc[:, ::-1] # 列顺序反转df.loc[::-1] # 行顺序反转, 下方为重新定义索引df.loc[::-1].reset_index(drop=True)

09 数据处理：Filter、Sort

# 保留小数位，四舍六入五成双df.round(2) # 全部df.round({'A': 1, 'C': 2}) # 指定列df['Name'] = df.Name # 取列名的两个方法df[df.index == 'Jude'] # 按索引查询要用 .indexdf[df[col] > 0.5] # 选择col列的值大于0.5的行# 多条件查询df[(df['team'] == 'A') &( df['Q1'] > 80) &df.utype.isin(['老客', '老访客'])]# 筛选为空的内容df[df.order.isnull()]# 类似 SQL where indf[df.team.isin('A','B')]df[(df.team=='B') & (df.Q1 == 17)]df[~(df['team'] == 'A') | ( df['Q1'] > 80)] # 非，或df[df.Name.str.contains('张')] # 包含字符df.sort_values(col1) # 按照列col1排序数据，默认升序排列df.col1.sort_values() # 同上, -> sdf.sort_values(col2, ascending=False) # 按照列 col1 降序排列数据# 先按列col1升序排列，后按col2降序排列数据df.sort_values([col1,col2], ascending=[True,False])df2 = pd.get_dummies(df, prefix='t_') # 将枚举的那些列带枚举转到列上s.set_index().plot()# 多索引处理dd.set_index(['utype', 'site_id', 'p_day'], inplace=True)dd.sort_index(inplace=True) # 按索引排序dd.loc['新访客', 2, '2019-06-22'].plot.barh() # loc 中按顺序指定索引内容# 前100行, 不能指定行，如：df[100]df[:100]# 只取指定行df1 = df.loc[0:, ['设计师ID', '姓名']]# 将ages平分成5个区间并指定 labelsages = np.array([1,5,10,40,36,12,58,62,77,89,100,18,20,25,30,32])pd.cut(ages, [0,5,20,30,50,100],labels=[u'婴儿',u'青年',u'中年',u'壮年',u'老年'])daily_index.difference(df_work_day.index) # 取出差别# 格式化df.index.name # 索引的名称 strdf.columns.tolist()df.values.tolist()df.总人口.values.tolist()data.apply(np.mean) # 对 DataFrame 中的每一列应用函数 np.meandata.apply(np.max,axis=1) # 对 DataFrame 中的每一行应用函数 np.maxdf.insert(1, 'three', 12, allow_duplicates=False) # 插入列 (位置、列名、[值])df.pop('class') # 删除列# 增加一行df.append(pd.DataFrame({'one':2,'two':3,'three': 4.4},index=['f']),sort=True)# 指定新列iris.assign(sepal_ratio=iris['SepalWidth'] / iris['SepalLength']).head()df.assign(rate=lambda df: df.orders/df.uv)# shift 函数是对数据进行平移动的操作df['增幅'] = df['国内生产总值'] - df['国内生产总值'].shift(-1)df.tshift(1) # 时间移动，按周期# 和上相同，diff 函数是用来将数据进行移动之后与原数据差# 异数据，等于 df.shift()-dfdf['增幅'] = df['国内生产总值'].diff(-1)# 留存数据，因为最大一般为数据池df.apply(lambda x: x/x.max(), axis=1)# 取 best 列中值为列名的值写到 name 行上df['value'] = df.lookup(df['name'], df['best'])s.where(s > 1, 10) # 满足条件下数据替换（10，空为 NaN）s.mask(s > 0) # 留下满足条件的，其他的默认为 NaN# 所有值加 1 (加减乘除等)df + 1 / df.add(1)# 管道方法，链式调用函数，f(df)=df.pipe(f)def gb(df, by):result = df.copy()result = result.groupby(by).sum()return result # 调用df.pipe(gb, by='team')# 窗口计算 '2s' 为两秒df.rolling(2).sum()# 在窗口结果基础上的窗口计算df.expanding(2).sum()# 超出（大于、小于）的值替换成对应值df.clip(-4, 6)# AB 两列想加增加 C 列df['C'] = df.eval('A+B')# 和上相同效果df.eval('C = A + B', inplace=True)# 数列的变化百分比s.pct_change(periods=2)# 分位数, 可实现时间的中间点df.quantile(.5)# 排名 average, min,max,first，dense, 默认 averages.rank()# 数据爆炸，将本列的类列表数据和其他列的数据展开铺开df.explode('A')# 枚举更新status = {0:'未执行', 1:'执行中', 2:'执行完毕', 3:'执行异常'}df['taskStatus'] = df['taskStatus'].apply(status.get)df.assign(金额=0) # 新增字段df.loc[('bar', 'two'), 'A'] # 多索引查询df.query('i0 == 'b' & i1 == 'b'') # 多索引查询方法 2# 取多索引中指定级别的所有不重复值df.index.get_level_values(2).unique()# 去掉为零小数，12.00 -> 12df.astype('str').applymap(lambda x: x.replace('.00', ''))# 插入数据，在第三列加入「两倍」列df.insert(3, '两倍', df['值']*2)# 枚举转换df['gender'] = df.gender.map({'male':'男', 'female':'女'})# 增加本行之和列df['Col_sum'] = df.apply(lambda x: x.sum(), axis=1)# 对指定行进行加和col_list= list(df)[2:] # 取请假范围日期df['总天数'] = df[col_list].sum(axis=1) # 计算总请假天数# 对列求和，汇总df.loc['col_sum'] = df.apply(lambda x: x.sum())# 按指定的列表顺序显示df.reindex(order_list)# 按指定的多列排序df.reindex(['col_1', 'col_5'], axis='columns')

10 数据选取

df[col] # 根据列名，并以Series的形式返回列df[[col1, col2]] # 以DataFrame形式返回多列df.loc[df['team'] == 'B',['name']] # 按条件查询，只显示name 列s.iloc[0] # 按位置选取数据s.loc['index_one'] # 按索引选取数据df.loc[0,'A':'B'] # A到 B 字段的第一行 df.loc[2018:1990, '第一产业增加值':'第三产业增加值']df.loc[0,['A','B']] # d.loc[位置切片, 字段]df.iloc[0,:] # 返回第一行, iloc 只能是数字df.iloc[0,0] # 返回第一列的第一个元素dc.query('site_id > 8 and utype=='老客'').head() # 可以 and or / & |# 迭代器及使用for idx,row in df.iterrows(): row['id']# 迭代器对每个元素进行处理df.loc[i,'链接'] = f'http://www.gairuo.com/p/{slug}.html'for i in df.Name:print(i) # 迭代一个列# 按列迭代，[列名, 列中的数据序列 S（索引名 值)]for label, content in df.items():print(label, content)# 按行迭代，迭代出整行包括索引的类似列表的内容，可row[2]取for row in df.itertuples():print(row)df.at[2018, '总人口'] # 按行列索引名取一个指定的单个元素df.iat[1, 2] # 索引和列的编号取单个元素s.nlargest(5).nsmallest(2) # 最大和最小的前几个值df.nlargest(3, ['population', 'GDP'])df.take([0, 3]) # 指定多个行列位置的内容# 按行列截取掉部分内容，支持日期索引标签ds.truncate(before=2, after=4)# 将 dataframe 转成 seriesdf.iloc[:,0]float(str(val).rstrip('%')) # 百分数转数字df.reset_index(inplace=True) # 取消索引

11 数据处理 GroupBy 透视

df.groupby(col) # 返回一个按列col进行分组的Groupby对象df.groupby([col1,col2]) # 返回一个按多列进行分组的Groupby对象df.groupby(col1)[col2] # 返回按列col1进行分组后，列col2的均值# 创建一个按列col1进行分组，并计算col2和col3的最大值的数据透视表df.pivot_table(index=col1,values=[col2,col3],aggfunc=max,as_index=False)# 同上df.pivot_table(index=['site_id', 'utype'],values=['uv_all', 'regist_num'],aggfunc=['max', 'mean'])df.groupby(col1).agg(np.mean) # 返回按列col1分组的所有列的均值# 按列将其他列转行pd.melt(df, id_vars=['day'], var_name='city', value_name='temperature')# 交叉表是用于统计分组频率的特殊透视表pd.crosstab(df.Nationality,df.Handedness)# groupby 后排序，分组 agg 内的元素取固定个数(df[(df.p_day >= '20190101')].groupby(['p_day', 'name']).agg({'uv':sum}).sort_values(['p_day','uv'], ascending=[False, False]).groupby(level=0).head(5) # 每天取5个页面.unstack().plot())# 合并查询经第一个看（max, min, last, size:数量）df.groupby('结算类型').first()# 合并明细并分组统计加总（'max', `mean`, `median`,# `prod`, `sum`, `std`,`var`, 'nunique'）,'nunique'为去重的列表df1 = df.groupby(by='设计师ID').agg({'结算金额':sum})df.groupby(by=df.pf).ip.nunique() # groupby distinct, 分组+去重数df.groupby(by=df.pf).ip.value_counts() # groupby 分组+去重的值及数量df.groupby('name').agg(['sum', 'median', 'count'])

12 数据合并

# 合并拼接行# 将df2中的行添加到df1的尾部df1.append(df2)# 指定列合并成一个新表新列ndf = (df['提名1'].append(df['提名2'], ignore_index=True).append(df['提名3'], ignore_index=True))ndf = pd.DataFrame(ndf, columns=(['姓名']))# 将df2中的列添加到df1的尾部df.concat([df1, df2], axis=1)# 合并文件的各行df1 = pd.read_csv('111.csv', sep='\t')df2 = pd.read_csv('222.csv', sep='\t')excel_list = [df1, df2]# result = pd.concat(excel_list).fillna('')[:].astype('str')result = pd.concat(excel_list)[]result.to_excel('333.xlsx', index=False)# 合并指定目录下所有的 excel (csv) 文件import globfiles = glob.glob('data/cs/*.xls')dflist = []for i in files:dflist.append(pd.read_excel(i, usecols=['ID', '时间', '名称']))df = pd.concat(dflist)# 合并增加列# 对df1的列和df2的列执行SQL形式的joindf1.join(df2,on=col1,how='inner')# 用 key 合并两个表df_all = pd.merge(df_sku, df_spu, how='left',left_on=df_sku['product_id'],right_on=df_spu['p.product_id'])

13 时间处理时间序列

# 时间索引df.index = pd.DatetimeIndex(df.index)# 时间只保留日期df['date'] = df['time'].dt.date# 将指定字段格式化为时间类型df['date'] = pd.to_datetime(df['时间'])# 转化为北京时间df['time'] = df['time'].dt.tz_convert('Asia/Shanghai')# 转为指定格式，可能会失去秒以后的精度df['time'] = df['time'].dt.strftime('%Y-%m-%d %H:%M:%S')dc.index = pd.to_datetime(dc.index, format='%Y%m%d', errors='ignore')# 时间，参与运算pd.DateOffset(days=2)# 当前时间pd.Timestamp.now()pd.to_datetime('today')# 判断时间是否当天pd.datetime.today().year == df.start_work.dt.yeardf.time.astype('datetime64[ns]').dt.date == pd.to_datetime('today')# 定义个天数import datetimedays = lambda x: datetime.timedelta(days=x)days(2)# 同上，直接用 pd 包装的pd.Timedelta(days=2)# unix 时间戳pd.to_datetime(ted.film_date, unit='ms')# 按月（YMDHminS）采集合计数据df.set_index('date').resample('M')['quantity'].sum()df.set_index('date').groupby('name')['ext price'].resample('M').sum()# 按天汇总，index 是 datetime 时间类型df.groupby(by=df.index.date).agg({'uu':'count'})# 按周汇总df.groupby(by=df.index.weekday).uu.count()# 按月进行汇总df.groupby(['name', pd.Grouper(key='date', freq='M')])['ext price'].sum()# 按月进行汇总df.groupby(pd.Grouper(key='day', freq='1M')).sum()# 按照年度，且截止到12月最后一天统计 ext price 的 sum 值df.groupby(['name', pd.Grouper(key='date', freq='A-DEC')])['ext price'].sum()# 按月的平均重新采样df['Close'].resample('M').mean()# https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#offset-aliases# 取时间范围，并取工作日rng = pd.date_range(start='6/1/2016',end='6/30/2016',freq='B')# 重新定时数据频度，按一定补充方法df.asfreq('D', method='pad')# 时区，df.tz_convert('Europe/Berlin')df.time.tz_localize(tz='Asia/Shanghai')# 转北京时间df['Time'] = df['Time'].dt.tz_localize('UTC').dt.tz_convert('Asia/Shanghai')# 查看所有时区from pytz import all_timezonesprint (all_timezones)# 时长，多久，两个时间间隔时间，时差df['duration'] = pd.to_datetime(df['end']) - pd.to_datetime(df['begin'])# 指定时间进行对比df.Time.astype('datetime64[ns]') < pd.to_datetime('2019-12-11 20:00:00', format='%Y-%m-%d %H:%M:%S')

14 常用备忘

# 解决科学计数法问题df = pd.read_csv('111.csv', sep='\t').fillna('')[:].astype('str')# 和订单量相关性最大到小显示dd.corr().total_order_num.sort_values(ascending=False)# 解析列表、json 字符串import astast.literal_eval('[{'id': 7, 'name': 'Funny'}]')# Series apply method applies a function to# every element in a Series and returns a Seriested.ratings.apply(str_to_list).head()# lambda is a shorter alternativeted.ratings.apply(lambda x: ast.literal_eval(x))# an even shorter alternative is to apply the # function directly (without lambda)ted.ratings.apply(ast.literal_eval)# 索引 index 使用 apply()df.index.to_series().apply()

15 样式显示

# https://pbpython.com/styling-pandas.htmldf['per_cost'] = df['per_cost'].map('{:,.2f}%'.format) # 显示%比形式# 指定列表（值大于0）加背景色df.style.applymap(lambda x: 'background-color: grey' if x>0 else '',subset=pd.IndexSlice[:, ['B', 'C']])# 最大值最小值加背景色df.style.highlight_max(color='lightgreen').highlight_min(color='#cd4f39')df.style.format('{:.2%}', subset=pd.IndexSlice[:, ['B']]) # 显示百分号# 指定各列的样式format_dict = {'sum':'${0:,.0f}','date': '{:%Y-%m}','pct_of_total': '{:.2%}''c': str.upper}# 一次性样式设置(df.style.format(format_dict) # 多种样式形式.hide_index()# 指定列按颜色深度表示值大小, cmap 为 matplotlib colormap.background_gradient(subset=['sum_num'], cmap='BuGn')# 表格内作横向 bar 代表值大小.bar(color='#FFA07A', vmin=100_000, subset=['sum'], align='zero')# 表格内作横向 bar 代表值大小.bar(color='lightgreen', vmin=0, subset=['pct_of_total'], align='zero')# 下降（小于0）为红色, 上升为绿色.bar(color=['#ffe4e4','#bbf9ce'], vmin=0, vmax=1, subset=['增长率'], align='zero')# 给样式表格起个名字.set_caption('2018 Sales Performance').hide_index())# 按条件给整行加背景色（样式）def background_color(row):if row.pv_num >= 10000:return ['background-color: red'] * len(row)elif row.pv_num >= 100:return ['background-color: yellow'] * len(row)return [''] * len(row)# 使用df.style.apply(background_color, axis=1)

16 表格中的直方图，sparkline 图形

import sparklinesimport numpy as npdef sparkline_str(x):bins=np.histogram(x)[0]sl = ''.join(sparklines.sparklines(bins))return slsparkline_str.__name__ = 'sparkline'# 画出趋势图，保留两位小数df.groupby('name')['quantity', 'ext price'].agg(['mean', sparkline_str]).round(2)# sparkline 图形# https://hugoworld.wordpress.com/2019/01/26/sparklines-in-jupyter-notebooks-ipython-and-pandas/def sparkline(data, figsize=(4, 0.25), **kwargs):'''creates a sparkline'''# Turn off the max column width so the images won't be truncatedpd.set_option('display.max_colwidth', -1)# Turning off the max column will display all the data# if gathering into sets / array we might want to restrict to a few itemspd.set_option('display.max_seq_items', 3)#Monkey patch the dataframe so the sparklines are displayedpd.DataFrame._repr_html_ = lambda self: self.to_html(escape=False)from matplotlib import pyplot as pltimport base64from io import BytesIOdata = list(data)*_, ax = plt.subplots(1, 1, figsize=figsize, **kwargs)ax.plot(data)ax.fill_between(range(len(data)), data, len(data)*[min(data)], alpha=0.1)ax.set_axis_off()img = BytesIO()plt.savefig(img)plt.close()return '<img src='data:image/png;base64, {}' />'.format(base64.b64encode(img.getvalue()).decode())# 使用df.groupby('name')['quantity', 'ext price'].agg(['mean', sparkline])df.apply(sparkline, axis=1) # 仅支持横向数据画线，可做 T 转置

17 可视化

kind : str

'line' : line plot (default)
'bar' : vertical bar plot
'barh' : horizontal bar plot
'hist' : histogram
'box' : boxplot
'kde' : Kernel Density Estimation plot
'density' : same as 'kde'
'area' : area plot
'pie' : pie plot

常用方法：

df88.plot.bar(y='rate', figsize=(20, 10)) # 图形大小，单位英寸df_1[df_1.p_day > '2019-06-01'].plot.bar(x='p_day', y=['total_order_num','order_user'], figsize=(16, 6)) # 柱状图# 每条线一个站点，各站点的 home_remain, stack的意思是堆叠，堆积# unstack 即“不要堆叠”(df[(df.p_day >= '2019-05-1') & (df.utype == '老客')].groupby(['p_day', 'site_id'])['home_remain'].sum().unstack().plot.line())# 折线图，多条, x 轴默认为 indexdd.plot.line(x='p_day', y=['uv_all', 'home_remain'])dd.loc['新访客', 2].plot.scatter(x='order_user', y='paid_order_user') # 散点图dd.plot.bar(color='blue') # 柱状图, barh 为横向柱状图sns.heatmap(dd.corr()) # 相关性可视化# 刻度从0开始，指定范围 ylim=(0,100), x 轴相同s.plot.line(ylim=0)# 折线颜色 https://matplotlib.org/examples/color/named_colors.html# 样式( '-','--','-.',':' )# 折线标记 https://matplotlib.org/api/markers_api.html# grid=True 显示刻度 etc: https://matplotlib.org/api/_as_gen/matplotlib.pyplot.plot.htmls.plot.line(color='green', linestyle='-', marker='o')# 两个图绘在一起[df['数量'].plot.kde(), df['数量'].plot.hist()]# 对表中的数据按颜色可视化import seaborn as snscm = sns.light_palette('green', as_cmap=True)df.style.background_gradient(cmap=cm, axis=1)# 将数据转化为二维数组[i for i in zip([i.strftime('%Y-%m-%d') for i in s.index.to_list()], s.to_list())]# 和 plot 用法一样 https://hvplot.pyviz.org/user_guide/Plotting.htmlimport hvplot.pandas# 打印 Sqlite 建表语句print(pd.io.sql.get_schema(fdf, 'table_name'))

18 Jupyter notebooks 问题

# jupyter notebooks plt 图表配置import matplotlib.pyplot as pltplt.rcParams['figure.figsize'] = (15.0, 8.0) # 固定显示大小plt.rcParams['font.family'] = ['sans-serif'] # 显示中文问题plt.rcParams['font.sans-serif'] = ['SimHei'] # 显示中文问题# 输出单行全部变量from IPython.core.interactiveshell import InteractiveShellInteractiveShell.ast_node_interactivity = 'all'# jupyter notebooks 页面自适应宽度from IPython.core.display import display, HTMLdisplay(HTML('<style>.container { width:100% !important; }</style>'))# 背景白色 <style>#notebook_panel {background: #ffffff;}</style># jupyter notebooks 嵌入页面内容from IPython.display import IFrameIFrame('https://arxiv.org/pdf/1406.2661.pdf', width=800, height=450)# Markdown 一个 cell 不支持多张粘贴图片# 一个文件打印打开只显示一张图片问题解决# /site-packages/notebook/static/notebook/js/main.min.js var key 处# 33502、33504 行key = utils.uuid().slice(2,6)+encodeURIandParens(blob.name);key = utils.uuid().slice(2,6)+Object.keys(that.attachments).length;# https://github.com/ihnorton/notebook/commit/55687c2dc08817da587977cb6f19f8cc0103bab1# 多行输出from IPython.core.interactiveshell import InteractiveShellInteractiveShell.ast_node_interactivity = 'all' #默认为'last'# 执行 shell 命令: ! <命令语句># 在线可视化工具https://plot.ly/create

19 Slideshow 幻灯片

安装 RISE 库：pip install RISE

[Alt+r] 播放/退出播放
「,」逗号隐藏左侧两个大操作按钮，「t」总览 ppt，「/」黑屏
Slide：主页面，通过按左右方向键进行切换。
Sub-Slide：副页面，通过按上下方向键进行切换。全屏
Fragment：一开始是隐藏的，按空格键或方向键后显示，实现动态效果。在一个页面
Skip：在幻灯片中不显示的单元。
Notes：作为演讲者的备忘笔记，也不在幻灯片中显示。

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。

01 环境搭建

02 Jupyter Notebook 快捷键

03 导入库包

04 导入数据

05 导出输出数据

06 创建测试对象

07 查看、检查、统计、属性

08 数据清理

09 数据处理：Filter、Sort

10 数据选取

11 数据处理 GroupBy 透视

12 数据合并

13 时间处理 时间序列

14 常用备忘

15 样式显示

16 表格中的直方图，sparkline 图形

17 可视化

18 Jupyter notebooks 问题

19 Slideshow 幻灯片

13 时间处理时间序列