搜索引擎依据哪些因素判断内容质量的高低？

已解决

悬赏分：70 - 解决时间 2022-03-16 18:46

如果搜索引擎没有办法读内容，那怎么样判定高质量的原创？判断高质量的原创的根据有哪些？

点赞 0反对 0举报 0 收藏 0 打赏 0

最佳答案

支持 0 反对 0 举报 2022-03-15 20:16

如果搜索引...

支持 0 反对 0 举报 2022-03-15 20:27

第一个问题：没办法读的意思是什么？除非搜索引擎被攻击、瘫痪？不然抓取后，他就会按照既定规则进行筛选，这就是所谓的“读”。除非不让抓取。
第二个问题：各个搜索引擎算法上都有差异，以百度为主，高质量的原创内容由以下几点判断
1、标题的排他性
2、内容的排他性（百度会使用分词、组词技术进行算法分析）——相关的是关键词密度，在这里百度不会破坏词性、只会去除筛选修饰词。
3、其他的。。。都不是主要的了
另外高质量原创对于算法上的加分影响：
1、分词组词+规则筛选—关键词分布、及内容主题相关性价值判断
2、内容相似度对比（对比索引库相似内容，判断优劣）
3、内容价值评估（第一步的延伸，多指站内相关度）
4、站外内容推荐票
。。。
等等一系列算法，给网站内容进行评分，一般高质量的内容自然排名会很好你懂得

支持 0 反对 0 举报 2022-03-15 21:39

这个问题我也很感兴趣来参一嘴吧可能有点跑偏
来谈谈吧：

搜索引擎对内容的评价是怎么样的
1.我们原创一篇文章搜索引擎能识别么？答案是能。
首先搜索引擎拥有大量的词组、句子数据库。这些词组还会分为同义，反义，句子有常用句，特殊句等等。当然搜索引擎也拥有很多文档（文章收录），那么全文对比和段落对比对搜索引擎索引来说是很容易的，不要去怀疑这么多内容它识别的过来么，这个问题不在我们的分析考虑范围内。

2,。有个google的算法被称为隐含语义索引，这里是百科是用来识别相关性的。相对于识别原创，搜索引擎识别相关性其实更为艰难。纯原创内容是独一无二的。那么相关性内容里面不但包括伪原创内容，还包括相关的原创内容。

怎么实现这个语义索引过程
搜索引擎分析文章，对文章进行分词计算词频
如：
A句子的词频向量为 {5,2,3} B句子的词频向量为{2,2,1} 这两个空间向量的夹角余弦值可以显示相关程度，越相关夹角越小。
通过计算 cos x = 这个数值接近1，表示句子A和句子B是相关度很高的。（用到文章向量值越多，如图）

根据TF-IDF计算每个高频词的重要程度再来判断文章主题与给予权重。

然后搜索引擎对特殊词进行权重处理，如段首出现的词，被加粗的词等。

因为搜索引擎语义分析是机器，在一定程度上无法单纯判断文章的质量高低，但是它通过分析可以知道文章是否是通顺的，主题是不是一致的，相关性等等。

判断质量就需要社会化信息的介入与支持

如一篇文章会被大量推荐 

如在高质量社区这篇文章获得了加分和推荐

如不同地域的浏览次数很多

如文章很长，引用大量高质量文献

如发表在某权威网站

.... ...

还有，我觉得楼主想表达的是我怎么样做内容能被搜索引擎认为质量相对较高，能区别于那些伪原创，转载一百次的内容。对于很多网站，也许原创并不是一个容易或好的决策。

我只能说内容尽量要详尽，内容放在合适的栏目下面，适当对同类内容进行推荐，专题等，引用权威内容有时比原创不着调内容好的多。让用户多参与创造内容。

最好的典型就是维基百科

最后总是最精彩的：大家可以了解一下Lucene 全文索引会对内容和搜索引擎索引有很大的帮助。附图为空间向量夹角图示。 9 年前赞同 3 评论 2 收藏举报

邓丁生 · 书法屋创始人，擅长整站优化与网站运营，五年SEO实战经验。张家梁、杨振荣、刘禹成等 3 人赞同该回答

其实这个关于“原创”的话题，我之前也想问的，觉得非常值得讨论。去年不记得什么时候Lee讲过，百度正在准备出一个原创识别算法，根据今年网站在百度的表现，我想这个算法已经早就上线啦！

搜索引擎是为解决用户的搜索需求，这一点我想不用怀疑，但是大家有没有发现，目前同一篇新闻，还不是很多网站都在转有，内容都一样，排名也是一样有，哈哈！这是为什么？当然这里有很多东西要去分析，探讨。我举这个例子只是想说明原创不是目的。只有在相同的主题下表达不同的观点，因为相同的东西在不同的地方体现不同的价值。

说到这里，有一个很重要的话题就是：页面价值的讨论，注意：原创内容不一定是有价值的。这里还有很多方向问题可以值得深入讨论。

关于“页面价值”，乔兄可以看看“百度搜索研发部官方博客”的一文章：浅谈互联网页面价值（可去百度找找），这文章讲得比较深入，非常值得学习！我这里只引用一小段。

1、典型的低质量页面存在以下一些特征：

主需求无效/未满足（过期分类广告/软件下载页面，下载链接无效等）
死链
虚假信息/诈骗等
空页面
站点不稳定
影响主需求的权限问题（下载/浏览需要注册会员/积分等）
信息不完整（转载不全等）
浏览体验差（广告/字体/页面布局等）

2、典型的高质量页面存在以下一些特征：

访问速度快（页面加载快/资源下载速度快）
页面整洁干净，主体内容在显著位置
页面信息完整
页面元素丰富（文字、图片、评论、相关推荐等）

9 年前赞同 3 评论 0 收藏举报

高松 · 大型医疗站点SEO工程师，专注于seo的深入研究和探索。张家梁、陶华为等 2 人赞同该回答

搜索引擎判断内容质量优劣标准无外乎这么几点：可读性，实用性，真实性。这里的可读性主要体现在用户体验方面，试想一下，一篇语句不通顺，错字连篇的文章，用户都看不懂，更何况搜索引擎蜘蛛呢；其次，要说的是实用性，也就是有没有用户提供给用户实实在在的他们需要的信息；再次，真实性，所谓的真实性就是内容有没有一定的依据，不能歪曲事实，给用户产生误导，这一点尤其要体现在医疗站点方面。个人认为只要满足这三点，不敢保证你的内容一定是实实在在的高质量，但是至少搜索引擎不会反感和排斥。
个人拙见。希望各位前辈指正！