scapy教程初接触(3)—xpath语法和css语法

css
在shell底下调试比较方便

scrapy shell http://blog.jobbole.com/112127/

先把所有的代码贴出来

# -*- coding: utf-8 -*-
import scrapy
import re
import datetime
from scrapy.http import Request
from urllib import parse
from scrapy.loader import ItemLoader
from ArticleSpider.items import JobBoleArticleItem,ArticleItemLoader

class JobboleSpider(scrapy.Spider):
    name = 'jobbole'
    allowed_domains = ['blog.jobbole.com']
    start_urls = ['http://blog.jobbole.com/category/php-programmer/']

    def parse(self, response):
        post_nodes = response.css("#archive .floated-thumb .post-thumb a")
        #extract()之后变成一个数组，就无法二次操作
        # post_urls = response.css("#archive .floated-thumb .post-thumb").extract()
        for post_node in post_nodes:
            post_url = post_node.css("::attr(href)").extract_first("")
            img_url = post_node.css("img::attr(src)").extract_first("")
            yield Request(url=parse.urljoin(response.url, post_url), meta={"front_img_url": img_url}, callback=self.parse_detail)
        next_url = response.css(".next.page-numbers::attr(href)").extract_first()
        if next_url:
            yield Request(url=parse.urljoin(response.url, next_url), callback=self.parse)

    def parse_detail(self,  response):
        article_item = JobBoleArticleItem()
        # title = response.xpath("//div[@class='entry-header']/h1/text()").extract()[0]
        # time = response.xpath("//p[@class='entry-meta-hide-on-mobile']/text()").extract()[0].strip().replace("·","")
        # praise_nums = response.xpath("//span[contains(@class,'vote-post-up')]/h10/text()").extract()[0]
        title = response.css(".entry-header h1::text").extract()[0]
        front_img_url = response.meta.get("front_img_url", "")
        url = response.url
        create_time = response.css(".entry-meta-hide-on-mobile::text").extract()[0].strip().replace("·", "")
        praise_nums = response.css(".vote-post-up h10::text").extract_first("0")
        fav_nums = response.css(".bookmark-btn::text").extract_first("0")
        match_nums = re.match(".*(\d+).*", fav_nums)
        if(match_nums):
             fav_nums = match_nums.group(1)
        else:
            fav_nums = 0
        content = response.css("div.entry").extract()[0]
        # for i, p in enumerate(content):
        #     print(i, p)
        article_item["title"] = title
        article_item["front_img_url"] = front_img_url
        article_item["praise_nums"] = praise_nums
        article_item["fav_nums"] = fav_nums
        try:
            create_time = datetime.datetime.strftime(create_time, "%Y%m%d").date()
        except Exception as e:
            create_time = datetime.datetime.now().date()
        article_item["create_time"] = create_time
        article_item["url"] = url
        article_item["content"] = content

        #用过item Loader加载
        item_loader = ArticleItemLoader(item=JobBoleArticleItem(), response=response)
        item_loader.add_css("title", ".entry-header h1::text")
        item_loader.add_value("url", response.url)
        item_loader.add_css("create_time", ".entry-meta-hide-on-mobile::text")
        item_loader.add_value("front_img_url", [front_img_url])
        item_loader.add_css("praise_nums", ".vote-post-up h10::text")
        item_loader.add_css("fav_nums", ".bookmark-btn::text")
        item_loader.add_css("content", "div.entry")
        article_item = item_loader.load_item()

        yield article_item

item_loader

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# http://doc.scrapy.org/en/latest/topics/items.html

import scrapy
import datetime
import re

from scrapy.loader.processors import MapCompose,TakeFirst
from scrapy.loader import ItemLoader
class ArticlespiderItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    pass

def date_convert(value):
    try:
        create_time = datetime.datetime.strftime(value, "%Y%m%d").date()
    except Exception as e:
        create_time = datetime.datetime.now().date()
    return create_time
def get_num_value(value):
    match_nums = re.match(".*(\d+).*", value)
    if (match_nums):
        nums = match_nums.group(1)
    else:
        nums = 0
    return nums
class ArticleItemLoader(ItemLoader):
    default_output_processor = TakeFirst()
class JobBoleArticleItem(scrapy.Item):
    title = scrapy.Field()
    # front_img_path = scrapy.Field()
    url = scrapy.Field()
    praise_nums = scrapy.Field(
        input_processor=MapCompose(get_num_value),
    )
    fav_nums = scrapy.Field(
        input_processor=MapCompose(get_num_value),
    )
    content = scrapy.Field()
    create_time = scrapy.Field(
        input_processor = MapCompose(date_convert),
    )
    front_img_url = scrapy.Field()

Item Loaders 提供了一种简便的构件（mechanism）来抓取:ref:Items. 虽然Items可以从它自己的类似字典（dictionary-like）的API得到所需信息 ,不过 Item Loaders提供了许多更加方便的API，这些API通过自动完成那些具有共通性的任务，可从抓取进程中得到这些信息, 比如预先解析提取到的原生数据。换句话来解释, Items 提供了盛装抓取到的数据的容器 , 而Item Loaders提供了构件装载populating该容器。

item_loader的例子

        #用过item Loader加载
        item_loader = ArticleItemLoader(item=JobBoleArticleItem(), response=response)
        item_loader.add_css("title", ".entry-header h1::text")
        item_loader.add_value("url", response.url)
        item_loader.add_css("create_time", ".entry-meta-hide-on-mobile::text")
        item_loader.add_value("front_img_url", [front_img_url])
        item_loader.add_css("praise_nums", ".vote-post-up h10::text")
        item_loader.add_css("fav_nums", ".bookmark-btn::text")
        item_loader.add_css("content", "div.entry")
        article_item = item_loader.load_item()

All posts

2026-05-09 19:41:06 从Prompt到Harness：AI工程的三次进化
2026-03-06 14:43:17 Anthropic给Claude写了一部”宪法”，长达23000字
2026-03-06 14:42:17 一个月更新30+功能，Claude到底在卷什么？
2026-01-15 20:21:13 Claude Code进阶用法：创建者Boris的13个专家技巧
2025-11-26 14:37:41 分享window下安装 .NET 9
2024-01-02 16:34:31 分享一个hyperf的grpc 日志切面
2023-10-20 10:04:42 常用便捷linux命令
2023-06-20 23:36:28 自动化部署流程
2023-06-06 15:19:37 快速清空MySQL的一张表
2023-04-11 15:06:39 MySQL事务的四大特性以及实现原理
2023-03-31 10:06:44 使用GitLab CI/CD的基本步骤
2022-09-30 15:58:36 git 脑图
2022-04-18 17:18:25 phpstan 使用指南
2021-06-19 17:02:51 wsl/wsl2 和proxifier 冲突解决
2021-04-10 18:23:27 进程间有哪些通信方式
2021-03-29 18:29:11 go学习笔记
2021-03-27 21:30:54 slice 实现原理及使用技巧
2021-03-24 12:47:38 mysql 锁
2021-03-24 12:45:23 子弹redis
2020-12-18 14:40:19 go 得到程序运行的垃圾收集器更多细节
2020-12-05 15:44:20 进程小工具
2020-11-17 16:26:54 mongodb的一些查询
2020-11-08 17:43:56 composer 2
2020-05-18 21:32:04 gitlab的介绍和安装
2020-05-04 16:34:19 redis的持久化和选择
2020-04-13 00:56:47 跳表 skip list
2020-04-06 23:30:28 MySQL主从备份
2020-04-06 23:30:00 MySQL处理常见需求
2020-04-06 23:29:05 MySQL设计规范
2020-04-01 01:49:50 排序算法
2020-03-30 01:26:59 docker的镜像与容器
2020-03-28 21:43:07 docker 安装
2020-03-26 01:54:26 看操作系统_清华大学(向勇、陈渝) 笔记 1.2 1.3
2020-03-02 15:41:24 mysql 批量更新
2020-01-15 01:11:15 递归删除
2019-11-20 16:58:40 理解inode
2019-10-05 14:32:02 TCP的三次握手
2019-10-03 09:17:24 套接字
2019-09-30 16:17:50 网络工具
2019-09-08 02:48:27 html
2019-09-07 19:10:07 认识客户端-服务端网络模型的基本概念
2019-06-20 16:56:17 mysql从myisam迁移到innodb全过程
2018-03-12 16:22:56 MVC的工作原理
2018-03-08 16:22:02 web资源防盗链
2018-03-07 10:55:04 数据库缓存层的优化
2018-03-06 08:28:27 高并发解决方案
2018-03-04 09:00:38 php的会话控制技术 session与cookie
2018-02-28 10:04:24 php的常量及其数据类型
2018-02-27 16:23:12 php的变量以及引用变量的工作原理
2018-02-26 08:34:42 laravel上手
2018-02-22 06:15:51 腾讯php面试题目训练
2018-02-07 01:01:07 centos升级gcc4.4.7到4.8.2
2018-01-29 02:49:47 window下swoole拓展的安装
2018-01-25 03:04:23 mysql启动错误，The server quit without updating PID file (/usr/local/mysql/var/VM_157_231_centos.pid)
2018-01-22 09:32:54 dht爬虫
2018-01-21 06:53:08 从想下载知乎上的视频衍生的ffmpeg
2018-01-19 01:45:54 股票估值
2018-01-17 09:49:20 鸟哥的linux私房菜读书笔记-记录一点linux的小知识
2018-01-11 02:40:47 市盈率
2018-01-05 03:14:16 自然语言处理
2017-12-26 05:55:11 netbeans的debug功能
2017-12-13 07:11:08 git比较好理解的记录
2017-12-04 07:08:49 centos,shadowsocks 服务端搭建
2017-12-01 08:31:22 使用python的you-get下载油管视频
2017-11-28 11:20:21 fping window
2017-11-28 08:09:16 linux centos配置Nginx支持HTTPS访问 Let’s Encrypt
2017-11-15 08:37:44 apache2.2 支持中文url mod_encoding的扩展的编译与安装
2017-11-10 03:01:09 linux awk,sort,uniq,head 分析apache日志文件
2017-11-08 06:42:46 php的session机制
2017-11-08 02:18:12 linux下安装phpredis拓展
2017-11-08 01:52:12 linux tar 命令详解
2017-11-06 03:16:45 Can’t connect to local MySQL server through socket ‘/var/lib/mysql/mysql.sock’ (2)
2017-11-03 05:51:50 linux设置SSH无密码登录
2017-11-02 10:02:13 lsyncd 记录
2017-11-02 03:33:33 httpd开机启动以及“service httpd does not support chkconfig”
2017-10-31 02:50:42 阿里云oss上传文件及挂载硬盘
2017-10-23 01:49:52 linux三大利器–grep|sed|awk
2017-10-11 08:34:44 elasticsearch suggester学习记录
2017-10-06 16:25:40 kibana的操作指南CURD
2017-10-06 15:10:37 倒排索引
2017-10-05 02:14:25 Elasticsearch 分布式概念
2017-09-30 09:11:45 Elasticsearch学习记录
2017-09-21 01:01:00 scrapy-redis 实现分布式爬虫
2017-09-20 13:25:22 基于window下使用tor作为python爬虫切换IP
2017-09-13 14:08:39 蜘蛛侠英雄归来
2017-09-08 08:13:51 畅想未来
2017-08-23 02:48:47 关于window底下用pip 安装 scipy
2017-08-15 10:04:09 scapy教程初接触(3)—xpath语法和css语法
2017-08-12 09:23:08 scapy教程初接触(2)—编辑main.py文件
2017-08-10 17:05:57 scapy教程初接触(1)
2017-08-08 08:34:22 nginx的重新编译
2017-08-07 15:37:02 sqlmap +dvwa +Proxifier 完整（大概）教程
2017-08-01 17:32:58 正则表达式-贪婪与懒惰 python篇
2017-08-01 08:05:49 pip install scrapy 遇到的坑
2017-07-31 14:31:33 使用virtualenv和virtualenvwrapper搭建python的虚拟环境
2017-07-30 16:44:03 爱在三部曲《爱在黎明破晓前》《爱在日落黄昏前》《爱在午夜降临前》
2017-07-27 17:07:23 极速风流 rush
2017-07-10 06:09:34 自己用的vim配置
2017-07-09 07:57:37 路边野餐有感
2017-07-06 06:09:24 线程与进程
2017-06-25 08:53:14 Restful API 实战
2017-06-17 19:37:38 牯岭街少年杀人事件–一部没有反派的电影
2017-06-17 08:33:10 nginx wordpress 伪静态规则配置
2017-05-06 17:56:44 观《摔跤吧！爸爸》
2017-04-20 11:39:03 记科目二
2017-04-18 02:30:59 香港两天之旅
2017-04-12 17:57:26 纪念重要的4月15日
2017-04-04 06:14:26 奥斯卡的游戏规则
2017-04-03 19:33:28 首次观看奇葩说
2017-03-29 16:58:21 微信ai 自动回复机器人教程
2017-03-28 17:35:00 重新开始好好做人

scapy教程初接触(3)—xpath语法和css语法

All posts

Other pages

发表回复取消回复

scapy教程初接触(3)—xpath语法和css语法

All posts

Other pages

发表回复 取消回复

发表回复取消回复