Python爬虫(3)抓取网页所需数据并保存到Excel文件中

  1. 公布所有抓取网页所需信息

上次我们已经成功获取了单个页面的所有电影的名字,其余的电影信息也如法炮制,上代码先:

1) 添加可以获取其他信息的正则,如下黄色区域显示的部分:

2) 然后在获取的代码中按获取电影名称一样来添加相应的代码:

 

在写完上面的代码之后,可以再进行一次调试,确保所获得的信息都是自己想要的,并且不存在逻辑错误。

通过获得的每部电影的信息存入到了列表data,然后再通过dataList.append(data)将一部电影的信息列表存到了dataList这个电影集列表里。

获取之后我们可以将该列表中的数据写入到一个Excel文件,这样方便我们后期使用。

2. 保存电影信息到Excel文件

我们添加下面黄色区域的代码,这部分就是将之前保存到dataList列表中的数据保存到Excel文件中。需要特别注意的,也是我们使用xlwt模块的主要代码&#

### 使用 Python 编写爬虫程序抓取天气数据导出Excel 为了完成这一目标,可以采用如下方法: #### 安装必要的库 在开始之前,需确保已安装用于操作Excel文件的相关库。具体来说,`xlwt` 库可用于创建新的Excel工作簿,而 `requests` 或 `BeautifulSoup` 则有助于获取网页上的信息。 ```bash pip install requests beautifulsoup4 xlwt pandas openpyxl ``` 上述命令会安装所需的所有依赖项[^1]。 #### 获取天气数据 利用 `requests` 发送HTTP请求访问提供天气预报服务的网站,通过解析HTML文档提取所需的气象参数。这里假设有一个简单的API接口或者静态页面作为数据源。 ```python import requests from bs4 import BeautifulSoup url = 'http://example.com/weather' # 替换成实际的目标URL response = requests.get(url) html_content = response.text soup = BeautifulSoup(html_content, 'lxml') weather_data = [] for item in soup.find_all('div', class_='forecast-item'): date = item.find('span', class_='date').text.strip() temperature_high = item.find('span', class_='high-temp').text.strip().replace('°C', '') temperature_low = item.find('span', class_='low-temp').text.strip().replace('°C', '') weather_data.append({ 'Date': date, 'High Temperature ()': float(temperature_high), 'Low Temperature ()': float(temperature_low) }) ``` 这段代码展示了如何从指定结构化的HTML片段中抽取日期以及最高最低气温的信息[^2]。 #### 将数据保存Excel 文件 一旦获得了想要的数据集之后,就可以借助于Pandas DataFrame对象轻松地将其转换成表格形式,最终存储为`.xlsx`格式的电子表格文件。 ```python import pandas as pd df = pd.DataFrame(weather_data) with pd.ExcelWriter('output.xlsx') as writer: df.to_excel(writer, index=False, sheet_name='Weather Data') ``` 此部分实现了将收集来的天气记录按照列的形式排列好后存入名为`output.xlsx`的工作表里[^3]。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值