`
yy8354
  • 浏览: 79035 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

网页正文抽取演示

阅读更多
演示地址如下:http://202.110.133.114/tsegment/webanalyer.aspx

属于早期作品,采用规则方法提出非正文内容,则认为留下的内容为正文。仅作简单技术演示之用,感谢TT同学提供的空间并帮我写的演示程序。

该功能已封装成.NET组件,可提供程序直接调用,近期提供下载。

可用于大家收集语料时候网页内容提取之用。

如对此组件有兴趣,请直接邮件至我MSN信箱,我正考虑采用新算法完善并编写多个语言版本,在这里先统计下人数
看看有没开发商业版本的必要,对于商业版本将采用块识别标记的方式只对一段标签或一个DOM节点进行标识,而不负责提取正文,由用户自行控制过滤或提取哪些类型数据.
目前能想到可能会用到的标识类型:导航条 广告 正文 正文标题 相关文章 版权信息 评论 如大家还有其他想到的类型,请告之

无法处理导航页,提取正文时也不考虑图片类文章及文章中的配图。

该组件内部算法主要应用了规则模型抽取,所有规则基本使用正则表达式实现,具体正则可参考我的BLOG上《正文抽取正则》以及《聊聊网页正文抽取》内容。
http://www.likeshow.net/article.asp?id=60
http://www.likeshow.net/article.asp?id=55

组件下载:
http://www.likeshow.net/article.asp?id=91
分享到:
评论

相关推荐

    基于行块分布函数的通用网页正文抽取算法优化,Python实现+源代码+文档说明

    该正文抽取算法在基于行块分布函数的网页正文抽取方法上做了稍许改进,提高了准确率,使提取的正文更加“一字不差”。在比赛给出的测试包下进行测试,准确率达到90以上。 ## 算法实现描述 对于新闻博客类网站,...

    《基于行块分布函数的通用网页正文抽取》的Python实现方式+源代码+文档说明

    网页正文内容抽取 =================== 此代码是对论文《基于行块分布函数的通用网页正文抽取》的Python实现方式。论文的出发点是针对搜索引擎正文提取的解决方案,移除了所有的标签元素,因此我在此保留了标签元素...

    基于规则模型的通用网页正文提取组件

    <br>该组件内部算法主要应用了规则模型抽取,所有规则基本使用正则表达式实现,具体正则可参考我的BLOG上《正文抽取正则》以及《聊聊网页正文抽取》内容。 ...

    Web信息自动/半自动抽取系统——演示版

    实现网页自动分类,自动抽取模板(附带模板编辑器),自动标注语义(仅针对部分格式化良好的页面),自动抽取数据. 包中附带了演示用的网页集. 使用Java6+SWT(JFace)+htmlparser+dom4j开发,自带精简版Jre6. 本科...

    金油条网页正文提取器.Net组件1.0

    金油条正文提取器是基于文本距离去噪,精度默认是20,用于网站的新闻,文章等的正文提取,特别结合蜘蛛用处广泛。由于是一个算法demo,所以没有做过大的功能扩展,编码大部分可以自动识别。 最新版本和在线演示。详见...

    【信息检索课程设计】sdu新闻网站全站爬取+索引构建+搜索引擎

    索引构建 对上一步爬取到的网页进行结构化预处理,包括基于模板的信息抽取、分字段解析、分词、构建索引等。 检索排序 对上一步构建的索引库进行查询,对于给定的查询,给出检索结果,明白排序的原理及方法。 详细...

    基于深度学习+Neo4j构建的军事装备知识图谱网页应用系统源码+数据+项目说明.zip

    系统从互联网上爬取数据,并基于百度文心ERNIE 3.0模型对数据进行实体识别和关系抽取,将数据处理为三元组形式并存储到图数据库Neo4j中。通过数据管理和数据标注,并通过对Neo4j中的三元组数据进行 【备注】 1.项目...

    美加新闻聚合系统3.0

    自动抽取新闻:无需分析来源的网页编写特点,支持自动分析来源网页,自动抽取新闻正文。 自动翻译:全自动将外文翻译成中文,从而实现与原文不同,具有原创性。 自动后台更新:全自动后台刷新信息源,不影响访问...

    美加新闻聚合系统(经典版)

    自动抽取新闻:无需分析来源的网页编写特点,支持自动分析来源网页,自动抽取新闻正文。 自动翻译:全自动将外文翻译成中文,从而实现与原文不同,具有原创性。 自动后台更新:全自动后台刷新信息源,不影响访问...

    云开发月老交友盲盒纸条小程序支持付费版

    阿里云开发月老盲盒纸条小程序,比腾讯云成本更低,vue...下面是网页演示地址: https://static-42cc27ac-d11e-472a-9df3-0b9187a90c9d.bspapp.com 如果用客户端打不开,可以选择在手机自带浏览器或者电脑上查看效果。

    美加新闻聚合系统(长尾词SEO版) v4.0.zip

    自动抽取新闻:无需分析来源的网页编写特点,支持自动分析来源网页,自动抽取新闻正文。 自动翻译:全自动将外文翻译成中文,从而实现与原文不同,具有原创性。 自动后台更新:全自动后台刷新信息源,不影响访问...

    美加新闻聚合系统源码(经典兼容版) v3.6.rar

     自动抽取新闻:无需分析来源的网页编写特点,支持自动分析来源网页,自动抽取新闻正文。  自动翻译:全自动将外文翻译成中文,从而实现与原文不同,具有原创性。  自动后台更新:全自动后台刷新信息源,不影响...

    美加PHP新闻聚合系统 v4.0 长尾词SEO版.rar

    自动抽取新闻:无需分析来源的网页编写特点,支持自动分析来源网页,自动抽取新闻正文。 自动翻译:全自动将外文翻译成中文,从而实现与原文不同,具有原创性。 自动后台更新:全自动后台刷新信息源,不影响访问...

    JAVA上百实例源码以及开源项目源代码

    利用随机函数抽取幸运数字 简单 EJB的真实世界模型(源代码) 15个目标文件 摘要:Java源码,初学实例,基于EJB的真实世界模型  基于EJB的真实世界模型,附源代码,部分功能需JSP配合完成。 J2ME优化压缩PNG文件 4个...

    美加新闻聚合系统EliteRssPortal v2.0程序

    自动抽取新闻:无需分析来源的网页编写特点,支持自动分析来源网页,自动抽取新闻正文。 自动翻译:全自动将外文翻译成中文,从而实现与原文不同,具有原创性。 自动后台更新:全自动后台刷新信息源,不影响访问速度...

    基于自动生成知识库的智能问答系统python源码+项目说明+数据+超详细注释.tar

    当然也可作为毕设项目、课程设计、大作业、初期项目立项演示等。 4、如果基础还行,或者热爱钻研,亦可在此项目代码基础上进行修改添加,实现其他不同功能。 欢迎下载,沟通交流,互相学习,共同进步!

    tonyCode抽奖系统(原HTML+JS抽奖系统)V4.0

    6) 抽出“未到场”无效人员可以双击“演示器”屏幕的数字或号码位置,选择单独 重抽。 7) 自由定义配置每一次操作抽一组或者抽一个的显示效果 8) 自由定义过滤掉没有发到的号码段,或排除不能中间的名额号段。 9) ...

    JAVA上百实例源码以及开源项目

    利用随机函数抽取幸运数字 简单 EJB的真实世界模型(源代码) 15个目标文件 摘要:Java源码,初学实例,基于EJB的真实世界模型  基于EJB的真实世界模型,附源代码,部分功能需JSP配合完成。 J2ME优化压缩PNG文件 4个...

Global site tag (gtag.js) - Google Analytics