Python大神利用正则表达式教你搞定京东商品信息的示例分析

技术Python大神利用正则表达式教你搞定京东商品信息的示例分析Python大神利用正则表达式教你搞定京东商品信息的示例分析,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能

Python用正则表达式教你如何处理JD.COM商品信息的样本分析,但我相信很多没有经验的人对此无能为力。因此,本文总结了出现问题的原因和解决方法,希望大家可以通过这篇文章来解决这个问题。

JD。COM(JD.com)是中国最大的自营电商企业,2015年第一季度在中国自营B2C电商市场的市场份额为56.3%。对于这么庞大的电商网站来说,上面的商品信息是巨大的。今天,边肖将带着他的朋友们使用正则表达式,实现基于输入关键词的主题爬虫。

首先,去JD.COM。并输入您想要查询的产品。边肖在这里使用了关键词“狗”。粒”作为搜索对象,然后得到后面这串URL:

https://search.jd.com/Search?Word=狗粮enc=utf-8。

其实参数狗粮解码后就是“狗”。食物的意义”。所以很明显,只要输入关键字参数并编码,就可以得到我们的目标网站,请求网页并得到响应,然后使用选择器进行下一次精准采集。

在JD.COM互联网上,狗。JD.COM官方网站粮食信息的网站源代码如下图所示:

Python大神利用正则表达式教你搞定京东商品信息的示例分析

狗。JD.COM官方网站粮食信息源代码。

话不多说,直接抹掉代码,如下图所示。Py3在边肖使用,建议大家以后多使用py3。一般来说,URL的编码方式是把要编码的字符转换成%xx的形式。一般来说,URL的编码都是基于UTF-8的,有些和浏览器平台有关。Python的urllib库中提供了quote方法,可以对URL字符串进行编码,使其可以进入相应的网页。

正则表达式,也称为正则表达式、正则表达式、正则表达式和正则表达式(英语:正则表达式,在代码中通常缩写为regex、regexp或re),是模式匹配和替换的强大工具。找到目标网页后,调用urllib中的urlopen函数打开网页并获取源代码,然后使用正则表达式准确收集目标信息。

Python大神利用正则表达式教你搞定京东商品信息的示例分析

通过正则表达式精确收集目标信息。

在这个程序中写正则表达式真的很复杂,占用很多行,但是使用的主要正则表达式是[wW]?还有[sS]?

[sS]或[wW]表示完全通用。s指空格,包括空格、换行符、制表符缩进等。但S正好相反。这意味着所有的字符都是完整的,没有遗漏一个单词。此外,符号[]表示其中包含的单个字符出现的顺序不受限制,如以下规律性:【ace】*,这意味着只要出现三个任意字母a/c/e,它们就会匹配。

此外,[s]表示只要有空白就匹配;[S]表示如果不为空,则匹配。那么它们的组合就意味着都匹配,对应的就是[wW]等。它们有完全相同的含义。实际上,像[sS]和[wW]这样的用法比“.”多,因为“.”无法匹配换行。当有linefeed匹配时,人们习惯于使用完全通用的匹配模式,如[sS]或[wW]。

最终输出渲染如下:

Python大神利用正则表达式教你搞定京东商品信息的示例分析

输出渲染。

这样,朋友就可以养狗了。粮食商品信息,当然,边肖只是想在这里吸引玉石,只匹配四条信息,只做单页收购。需要更多数据的朋友可以通过改变正则表达式,自己设置多个页面来达到想要的效果。在下一篇文章中,边肖将使用BeautifulSoup美人汤对目标数据进行匹配,实现目标信息的准确获取。

最后给大家简单介绍一下正则表达式。正则表达式使用单个字符串来描述和匹配一系列符合特定语法规则的字符串。在许多文本编辑器中,正则表达式通常用于检索和替换符合特定模式的文本。

正则表达式对于初学者来说确实比较难,但是慢慢学习就可以掌握,不需要完全记下来。但是,你需要知道什么时候需要什么参数,这样才能顺利使用。

看完以上内容,你是否掌握了Python大神教你的用正则表达式做JD.COM商品信息样本分析的方法?如果您想学习更多技能或了解更多相关内容,请关注行业资讯频道。感谢阅读!

内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/48489.html

(0)

相关推荐

  • 气怎么写,写页岩气作文怎么写600

    技术气怎么写,写页岩气作文怎么写600地理位置:山东省地处中国东部气怎么写、黄河下游,是中国主要沿海省市之一。位于北半球中纬度地带。陆地南北最长约420公里,东西最宽约700余公里,陆地总面积15。67万平方公里,约占全

    生活 2021年10月21日
  • 第二十三章 Centos7下Docker安装kibana

    技术第二十三章 Centos7下Docker安装kibana 第二十三章 Centos7下Docker安装kibana一、查找kibana镜像
    [root@staging ~]# docker sear

    礼包 2021年12月24日
  • 学习CSS布局的理由具体有哪些

    技术学习CSS布局的理由具体有哪些学习CSS布局的理由具体有哪些,相信很多没有经验的人对此束手无策,为此本文总结了问题出现的原因和解决方法,通过这篇文章希望你能解决这个问题。这里向大家描述一下CSS布局的10大理由,虽然

    攻略 2021年11月17日
  • springboot 发送邮件模板(springboot集成实现邮件发送功能)

    技术springboot如何整合邮件发送功能这篇文章给大家介绍springboot如何整合邮件发送功能,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。 pom依赖

    攻略 2021年12月23日
  • animation

    技术animation animation一、概述
    CSS3的animation属性可以像flash制作动画一样,通过关键帧控制动画的每一步,实现更为复杂的动画效果。使用方法:
    1)利用@keyfram

    礼包 2021年12月18日
  • MYSQL如何利用MYSQL Shell安装 INNODB Cluster

    技术MYSQL如何利用MYSQL Shell安装 INNODB Cluster今天就跟大家聊聊有关MYSQL如何利用MYSQL Shell安装 INNODB Cluster,可能很多人都不太了解,为了让大家更加了解,小编

    攻略 2021年10月25日