A5下载文章资讯

分类分类

老y文章系统采集有时候相同文章出现两次的释疑

2020-03-10 11:53作者:yezheng

 采集有的站点,同样的标题会出现两次,出现这个问题主要是链接标记没有设置好.比如某个文章列表的代码是这样的:

<tr align="left">

<td height="22" class="f18 dottedb">&#183;

<a target="_blank" class="fontbrown nl" href="/a/20090813/000011.htm">决定胎儿大小的6个疑问(图)</a>[<a href="/a/20090813/000011.htm" target="_blank">详细</a>]

</td>

<td align="right" class="f18 dottedb">13日09:47</td>

</tr>

<tr align="left">

<td height="22" class="f18 dottedb">&#183;

<a target="_blank" class="fontbrown nl" href="/a/20090812/000004.htm">孕时妊娠反应大 宝宝更聪明</a>[<a href="/a/20090812/000004.htm" target="_blank">详细</a>]

</td>

<td align="right" class="f18 dottedb">12日09:31</td>

</tr>

<tr align="left">

<td height="22" class="f18 dottedb">&#183;

<a target="_blank" class="fontbrown nl" href="/a/20090811/000003.htm">怀了双胞胎应该注意些什么?</a>[<a href="/a/20090811/000003.htm" target="_blank">详细</a>]

</td>

<td align="right" class="f18 dottedb">11日09:29</td>

</tr>

如果链接开始和结束标记设置为:

链接开始标记:href="

链接结束标记:"

得到的文章列表Url就会有重复,因为这里每篇文章除了标题有链接外,标题后还有个"详细"也有链接,所以正确的链接开始和结束标记设置为:

链接开始标记:class="fontbrown nl" href="

链接结束标记:"

也就是说链接前后多截取一点字符,保证链接的唯一性

展开全部

相关

说两句网友评论
    我要跟贴
    取消