如何将html网页中的数据提取出来保存在数据库中
这种其实就是做一个采集工具了。
首先看你的需求,你需要采集一个网站的名称和价格然后和另一个网站做对比。
那么总结一下,也就是你需要采集两个网站的数据(对比其实就是按照名称关联一下)

在这里说一下爬虫的几个主要环节
1.网页内容获取(html获取)
获取的方法有很多种,最常见的就是直接通过get和post下载页面html,基本所有语言都有现成的可以调用,当然你也会遇到异步加载或者其他问题,这时候可以试着使用调用浏览器解决。
2.网页内容提取(你需要的名称和借个提取)
网页内容提取就是通过正则表达式或者xpath获取你需要的数据,这个应该不用我多说
3.提取内容入库(获取到的数据保存到表格或者数据库或者页面显示)
入库的话就看你使用什么样的形式了,一般会用轻量一点的数据库,这样之后对于比价(关联查询)也会比较方便。
需要用到的知识大概就是一点编程基础(看一些开源的爬虫程序),一些网络基础(抓包发包),会正则表达式或者xpath,有简单的数据库基础,这样感觉就差不多了。
当然现在网上的采集工具也很多,对于数据量不大或者采集比较简单的可以不用自己写程序,通过采集工具就可以完成。
怎么用webservice向数据库传数据
1. 首先需要创建一个web service,可以使用任何一种web service框架,比如Java中的JAX-WS。
2. 在创建web service时,需要定义一个方法来接收数据,并将数据存储到数据库中。
3. 在该方法中,首先需要建立数据库连接,然后将数据插入到数据库中。
4. 在客户端调用web service时,需要将数据以参数的形式传递给web service方法。
5. 在web service方法中,可以对传递过来的数据进行校验,确保数据的完整性和正确性。
6. 一旦数据被成功存储到数据库中,web service会向客户端返回一个成功的响应。
7. 如果发生错误,web service会返回一个错误响应,客户端可以根据响应来确定错误的原因。
8. 在web service中,还需要实现一些其他的方法,比如查询数据、更新数据、删除数据等,以便客户端可以方便地对数据库进行操作。
怎么把数据库和网页>毗连/h2>
1. web服务器(apache、tomcat等),网络协议(http、socket等),浏览器(chrome、FF、IE等)。浏览器发起建立连接请求,通过网络协议与服务器建立连接,服务器保持连接,获取浏览器想要的数据,服务器通过连接返回内容给浏览器,浏览器把数据呈现出来。
2. 连接的协议一般是http,也有websocket。服务器以服务的方式存在,就像外卖店,你打个电话过去,人家就把饭菜送上门来了。
3. web服务器访问数据库一样要使用网络连接,端口只是开放服务的入口而已,就像外卖的电话。