首页 » 友链在线 » 如何使用python爬取数据并进行可视化显示「web数据库访问技术」

如何使用python爬取数据并进行可视化显示「web数据库访问技术」

访客 2024-11-25 0

扫一扫用手机浏览

文章目录 [+]

如何使用python爬取数据并进行可视化>表现/h2>

这里介绍一个简单地例子,如何从一步一步爬取数据到可视化显示,主要用到requests+BeautifulSoup(爬取数据)+pyecharts(可视化)这3个包,实验环境win10+python3.6+pycharm5.0,主要步骤如下:

1.为了方便演示,我们这里以人人贷上面的债权数据为例,如下,主要爬取借款标题和金额这2个字段,后面也是以这2个字段数据作为统计和可视化的基础:

如何使用python爬取数据并进行可视化显示「web数据库访问技术」 如何使用python爬取数据并进行可视化显示「web数据库访问技术」 友链在线

2.分析这个页面可知,数据是异步加载的,在一个json文件中,如下,对应到json中,也就是title和amount这2个字段的内容:

如何使用python爬取数据并进行可视化显示「web数据库访问技术」 如何使用python爬取数据并进行可视化显示「web数据库访问技术」 友链在线
(图片来自网络侵删)

3.针对这个json文件,主要解析代码如下,主要用到json这个包,代码很简单,也就十几行而已,主要基于dict字典按借款类型统计数据:

运行代码,程序截图如下,已经成功爬取到了我们要打印的内容:

4.可视化显示,这里主要用到pyecharts这个包,使用起来很简单,主要基于web浏览器进行显示,图片很美观,我这里可视化显示,主要用到柱状图、饼状图和漏斗图3种类型的图,如下:

  • 柱状图,这里主要统计了每种借款类型的最大金额和最小金额,代码量很少,如下,爬取了前10页数据做统计:

程序运行截图如下,已经成功显示出每种借款类型最大值和最小值:

  • 饼状图,这里主要统计了每种借款类型金额的综合,代码如下,也是前10页数据:

程序运行截图如下,每种借款类型所占比例都已显示出来:

  • 漏斗图,这里主要按每种借款类型的总额做了一个排序,主要代码如下:

程序运行截图如下,已经成功画出了漏斗图,可以清晰地看出每种借款类型对应的位置:

至此,我们就完成了数据的爬取和可视化显示。基本流程都是3步,爬取数据->统计数据->可视化显示,我这里以这3个包为例,你也可以使用其他的包,像爬虫scrapy,可视化matplotlib,seaborn等,数据统计处理numpy,pandas等,这里就不详细介绍了,只要你有一定的python基础,多加练习一下,很快就能掌握的,网上也有相关教程,希望以上分享的内容能对你有所帮助吧。

分为三步:

  1. 爬取数据
  2. 分析数据
  3. 可视化

爬取数据

从网站爬取数据的Python库有一大堆,其中最流行的是Scrapy。

Scrapy上手很容易,有图为证:

(图片来源:scrapy官网)

你看,寥寥几行代码就完成了从安装到编写爬取代码到运行爬虫的全过程。

简单解释下上面的代码:从blog.scrapinghub.com爬取博客文章的标题,会通过访问下一页的链接遍历整个博客。

注意,Scrapy无法爬取一些动态内容。你需要搭配Selenium之类的工具解析出动态内容后,再让Scrapy爬取。

分析数据

主要使用numpy和pandas.

pandas的主要数据结构是DataFrame,你可以把它理解为表格,每行是一个数据点/记录/观测,每列是一项特征/属性。

而numpy则主要用于数值计算。

可视化

最流行的Python可视化库是matplotlib。不过,matplotlib有时候写起来有点繁琐,所以一般用seaborn。seaborn是基于matplotlib的高层封装。

当然,seaborn也没有完全取代matplotlib,某些场景还是需要用下matplotlib的。

IIS部署的网站怎么通过域名去访问

想通过域名去访问首先得做dns解析。只是做本地实验的话,最简单的方法就是在本地hosts添加:用管理员权限以记事本打开C:\Windows\System32\drivers\etc\目录下的hosts文件,在最下面添加web服务器地址与绑定的域名。

如:“10.0.0.223www.你的域名”保存后将dns解析填上自己的ip地址,就可以在cmd上用nslookup命令解析测试了。格式:nslookup10.0.0.223或nslookupwww.你的域名。

Mozilla的Project Things开源物联网平台,最近有哪些新>希望/h2>

过去两年,Mozilla 的伙计们似乎一直在远离基于万维网联盟(W3C)Web of Things 标准的 Project Things 项目,其旨在方便人们对联网设备进行监测和控制。

不过今天,Mozilla 终于抵达了新的里程碑。在结束实验阶段之后,它已经迎来了一个新的名字 —— Mozilla WebThings 。

此外,Mozilla 为它加入了包括登陆、闹钟、网络等在内的诸多新功能。

(图自:Mozilla,via VentureBeat)

软件工程师 Ben Francis 在一篇博客文章中写到:“Mozilla 物联网团队的使命,是创建一个体现这些价值观的 Web 服务实现,助力推动安全、隐私、互操作的物联网标准”。

我们希望 Mozilla WebThings 能够迎来在商业产品上安装部署的那一天,为消费者提供一个值得信赖的‘智能家庭连接’代理。

据悉,Mozilla WebThings 主要包含两个核心组件:首先,WebThings Gateway 是一个主打隐私和安全的智能家居网关;其次,WebThings Framework 是一个包含了可重用软件的组件库。

WebThings Gateway 的最新版本(ver 8.0)允许用户从他们的智能家居设备上记录温度等在内的数据,并给出交互式的图形可视化信息。

在“设置”菜单的“实验性”模块中,用户可选启用日志记录,并指定保存数小时、数天、甚至数周的时间。Francis 表示:

尽管知识一个实验性的功能,但查看这些日志,有助于用户了解智能家居设备正在收集的数据类型、以及向第三方和其他人分享了多少数据。

此外,WebThings Gateway 0.8 还为烟雾、一氧化碳、运动探测等传感器引入了新的可触发报警功能。

最后,Mozilla 透露其正在开发基于 OpenWrt 的 WebThings Gateway 的全新发行版本。OpenWrt 是一种针对嵌入式设备的 Linux 操作系统,在消费者路由器上有很高的市场占有率。

【背景资料】在 W3C 成立了一个专注 IoT 的研究小组的几年后,Mozilla 也在 2018 年 2 月宣布了 Project Things 。

简而言之,其寻求针对应用层的可重用变成,例如 HTTP、JSON、语义、实时 WebSockets 和社交(OAuth)Web标准,以简化物联网部署和管理。

IoT Analytics 最近预测,得益于消费者和企业的大量采用,全球联网设备数量将于 2020 年增长到 100 亿,并在 2025 年将增加到 220 亿。

相关文章

详细积分代码5411数字营销背后的秘密

数字营销已成为企业拓展市场、提升品牌影响力的重要手段。在众多数字营销策略中,积分代码5411以其独特的优势受到广泛关注。本文将从积...

友链在线 2025-02-22 阅读0 评论0