jparser 0.0.11 发布, python 网页正文抽取
fxsjy 2017年05月18日

jparser 0.0.11 发布, python 网页正文抽取

fxsjy fxsjy 发布于2017年05月18日 收藏 51 评论 8
Wannacry病毒全球蔓延 如何有效防范勒索软件入侵?>>>   jparser 0.0.11 发布了。jparser是一个python库,用于网页转码,也就是从html源码中抽取正文的结构化数据:文本段落和图片。目前主要针对新闻资讯类页面进行了优化。主要更新内容如下:Bug fix:
  • title提取错误
  • 正文区域判断失误bad case
  • li标签内容遗漏
  • 在线测试Demo:http://jparser.duapp.com/用法示例:import urllib2 from jparser import PageModel html = urllib2.urlopen("http://news.sohu.com/20170512/n492734045.shtml").read().decode('gb18030') pm = PageModel(html) result = pm.extract() print "==title==" print result['title'] print "==content==" for x in result['content']:     if x['type'] == 'text':         print x['data']     if x['type'] == 'image':         print "[IMAGE]", x['data']['src']
    本站文章除注明转载外,均为本站原创或编译。欢迎任何形式的转载,但请务必注明出处,尊重他人劳动共创开源社区。
    转载请注明:文章转载自 利发国际官方网社区 [http://www.oschina.net]
    本文标题:jparser 0.0.11 发布, python 网页正文抽取
    分享
    评论(8)
    精彩评论
    3
    看名字以为是JAVA库
    最新评论
    0

    引用来自“headjoy”的评论

    跟BeautifulSoup比有何优势
    用处不同,BeautifuSoup是用来自己编写提取规则,解析网页的。 jparser是自动提取网页的正文内容,无需手动编写xpath, 具备一定的通用性。
    0
    跟BeautifulSoup比有何优势
    0

    引用来自“烽火云烟”的评论

    看名字以为是JAVA库
    me too
    0
    Github地址:https://github.com/fxsjy/jparser
    0

    引用来自“烽火云烟”的评论

    看名字以为是JAVA库
    哈哈,取journals的意思。
    3
    看名字以为是JAVA库
    0
    这个必须顶
    0
    谢谢
    相关资讯
    最新资讯
    热门资讯
    顶部
    利发国际官方网