点击 233回答 16
2022-03-15 13:34
百度lee又发文章了,这次是针对原创的,大家怎么看?![]() ![]() 转其中一段baidu关于原创的处理办法:互联网动辄上百亿、上千亿的网页,从中挖掘原创内容,可以说是大海捞针,千头万绪。我们的原创识别系统,在百度大数据的云计算平台上开展,能够快速实现对全部中文互联网网页的重复聚合和链接指向关系分析。首先,通过内容相似程度来聚合采集和原创,将相似网页聚合在一起作为原创识别的候选集合;其次,对原创候选集合,通过作者、发布时间、链接指向、用户评论、作者和站点的历史原创情况、转发轨迹等上百种因素来识别判断出原创网页;最后,通过价值分析系统判断该原创内容的价值高低进而适当的指导最终排序。这样看baidu这次主要开始处理原创问题,结合之前搜索时候发现搜索结果下面有xxx原创文章,如果按这种说法,以后标记有原创的理论上会排名靠前。我还是很好奇怎么判断,里面说通过作者,发布时间,如果我发了一篇原创,但是我的站收录可能比较慢,但是别人也同样转过去了,如果是自己的站和数据库理论上可以修改发布时间,那怎么算?读服务器记录?链接就不发了,大家都知道地方
|