A5下载其它源码

分类分类

Web爬取工具Anthelion

Web爬取工具Anthelion

v1.0

大小:36.2 MB更新:2015/12/16

类别:CGI源码系统:java

立即下载
Web爬取工具Anthelion简介

Yahoo宣布开源解析HTML页面结构数据的Web爬取工具Anthelion。

Web 爬行工具是Yahoo很重要的核心,甚至超过了其他应用:Yahoo Mail, Yahoo Finance, Yahoo Messenger, Flickr和Tumblr。

上一年在上海的一次会议中,Yahoo 也详细提到了 Anthelion:“Anthelion 最初专注于语义数据,使用标记语言嵌入到 HTML 页面,比如 Microdata,Microformat 或者 RDFa。”这次会议还提到了爬取技术是如何实现的,为什么能提供更高数量的特定搜索查询相关的结果。

Microdata 和 RDFa 是结构数据关于不同主题的语法格式,兼容 schema.org 词汇(一个 Google,Yahoo 和 Bing 搜索引擎都在研究的项目) a project that the Google, Yahoo, and Bing search engines all work on.

Anthelion 可以根据设定目标爬取特定页面,比如,包括标记描述影片和至少两个不同属性(比如电影标题和演员)。

相关阅读

同类推荐:站长常用源码

精品推荐
开发者应用
同类推荐
      相关文章
      相关下载
      说两句网友评论
        我要跟贴
        取消
        推荐专题