随着信息技术的飞速发展,众筹作为一个互联网金融的子领域已经成为个人和小企业主筹集资金支持梦想的创新渠道(点击文末“阅读原文”获取完整代码数据)。
相关视频
无论对于众筹发起者还是众筹平台而言,如何利用历史数据去准确预测一个众筹项目的成功与否乃至最终筹款额度都是非常值得探讨研究的问题。
任务/目标
根据历史数据,帮助客户分析众筹项目成功规律,预测每个项目的筹款额度。
数据源准备
从Kickstarter平台上爬取了众筹项目数据(查看文末了解数据免费获取方式),其中包含了众筹项目名称、链接、描述、支持者数量和许多其他特征。随后进行了数据清洗。主要处理了各种爬虫过程中产生的缺失值。
print(df_2018.shape)
print(df_2016.shape)
特征转换
项目名称字段二分为离散型变量(已知/未知);项目描述抽象成项目描述字数。额外加入可计算属性平均每参与者贡献额。
df.country = df.country.'N,0"', value='NO')
ummies(df.drop(labels=['name', 'launched', 'deadlin
df_encoded['avbacking'] = (df_encoded['usd_pledgal']/(df_encoded['backers']+1))
划分训练集和测试集
考虑到筹款项目与时间关系不大,使用最普遍的不放回抽样方法划分训练集与测试集,比例为4:1。
我想从了解Kickstarter项目的基础数据开始,这包括项目发起地、主要类别、持续时间、目标等内容。
percent_plot((df.countcounts()/df.s
联系客服