支持 0
反对 0
举报
2022-03-15 20:27
第一个问题:没办法读的意思是什么?除非搜索引擎被攻击、瘫痪?不然抓取后,他就会按照既定规则进行筛选,这就是所谓的“读”。除非不让抓取。
第二个问题:各个搜索引擎算法上都有差异,以百度为主,高质量的原创内容由以下几点判断 1、标题的排他性 2、内容的排他性(百度会使用分词、组词技术进行算法分析)——相关的是关键词密度,在这里百度不会破坏词性、只会去除筛选修饰词。 3、其他的。。。都不是主要的了 另外高质量原创对于算法上的加分影响: 1、分词组词+规则筛选—关键词分布、及内容主题相关性价值判断 2、内容相似度对比(对比索引库相似内容,判断优劣) 3、内容价值评估(第一步的延伸,多指站内相关度) 4、站外内容推荐票 。。。 等等一系列算法,给网站内容进行评分,一般高质量的内容自然排名会很好你懂得 |
支持 0
反对 0
举报
2022-03-15 21:39
这个问题我也很感兴趣 来参一嘴吧 可能有点跑偏
来谈谈吧: 搜索引擎对内容的评价是怎么样的 1.我们原创一篇文章 搜索引擎能识别么?答案是 能。 首先搜索引擎拥有大量的词组、句子数据库。这些词组还会分为同义,反义,句子有常用句,特殊句等等。当然搜索引擎也拥有很多文档(文章收录),那么全文对比和段落对比对搜索引擎索引来说是很容易的,不要去怀疑这么多内容它识别的过来么,这个问题不在我们的分析考虑范围内。 2,。有个google的算法被称为隐含语义索引,这里是百科是用来识别相关性的。相对于识别原创,搜索引擎识别相关性其实更为艰难。纯原创内容是独一无二的。那么相关性内容里面不但包括伪原创内容,还包括相关的原创内容。 怎么实现这个语义索引过程 搜索引擎分析文章,对文章进行分词计算词频 如: A句子的词频向量为 {5,2,3} B句子的词频向量为{2,2,1} 这两个空间向量的夹角余弦值可以显示相关程度,越相关夹角越小。 通过计算 cos x = 这个数值接近1,表示 句子A和句子B是相关度很高的。(用到文章向量值越多,如图) ![]() 根据TF-IDF计算每个高频词的重要程度再来判断文章主题与给予权重。 然后搜索引擎对特殊词进行权重处理,如段首出现的词,被加粗的词等。 因为搜索引擎语义分析是机器,在一定程度上无法单纯判断文章的质量高低,但是它通过分析可以知道文章是否是通顺的,主题是不是一致的,相关性等等。 判断质量就需要社会化信息的介入与支持 如一篇文章会被大量推荐 .... ... 还有,我觉得楼主想表达的是我怎么样做内容能被搜索引擎认为质量相对较高,能区别于那些伪原创,转载一百次的内容。对于很多网站,也许原创并不是一个容易或好的决策。 我只能说内容尽量要详尽,内容放在合适的栏目下面,适当对同类内容进行推荐,专题等,引用权威内容有时比原创不着调内容好的多。让用户多参与创造内容。 最好的典型就是 维基百科 最后总是最精彩的:大家可以了解一下Lucene 全文索引 会对内容和搜索引擎索引有很大的帮助。附图为空间向量夹角图示。 9 年前 赞同 3 评论 2 收藏 举报 ![]() 其实这个关于“原创”的话题,我之前也想问的,觉得非常值得讨论。去年不记得什么时候Lee讲过,百度正在准备出一个原创识别算法,根据今年网站在百度的表现,我想这个算法已经早就上线啦! 1、典型的低质量页面存在以下一些特征:9 年前 赞同 3 评论 0 收藏 举报 ![]() 搜索引擎判断内容质量优劣标准无外乎这么几点:可读性,实用性,真实性。这里的可读性主要体现在用户体验方面,试想一下,一篇语句不通顺,错字连篇的文章,用户都看不懂,更何况搜索引擎蜘蛛呢;其次,要说的是实用性,也就是有没有用户提供给用户实实在在的他们需要的信息;再次,真实性,所谓的真实性就是内容有没有一定的依据,不能歪曲事实,给用户产生误导,这一点尤其要体现在医疗站点方面。个人认为只要满足这三点,不敢保证你的内容一定是实实在在的高质量,但是至少搜索引擎不会反感和排斥。 |