推广 热搜: 食品  快递      www  民事主体  网络营销  代理  东莞市  橡塑 
点击 243回答 11 2022-03-16 18:30

搜索引擎能识别语句通顺否? 推荐热议

已解决 悬赏分:30 - 解决时间 2022-03-17 12:17
如果能,是如何识别的?
反对 0举报 0 收藏 0 打赏 0
最佳答案
支持 0 反对 0 举报 2022-03-16 19:45
如果能,是...
支持 0 反对 0 举报 2022-03-16 19:52
不能。搜索引擎是根据关键字来判断并读取识别内容,它会保存大量的日常用户搜索或网站中新的内容,事实上搜索引擎毕竟不会思考,所以不能叫做识别,而是根据用户的搜索关键字来匹配现有数据库中的内容,从而把匹配到的最精准内容展现给我们。

看图,我去掉了“识别”并把内容打乱,但是它依旧把这个排序放置在第一位





所以我认为这不是能不能识别语句通顺,而是它本来就不是能读语句,它把新内容全部保存下来,并和旧的数据内容进行匹配,发现重复率过高,自然就会“删除”,而用户依靠关键字匹配来查找。
所以是触发式的,它不智能。 7 年前 赞同 6 评论 0 收藏 举报
吴志强 吴志强 · 一个小PM 清文、 宇文庆、 崔凯伦 等 3 人赞同该回答

这个问题其实想回又不想回,看到这么多回复后就来说两句:

首先我确切的说是可以“识别”的,但是不是100%就不知道,百分百几率还是存在的。

如下几点你可以作为数据证明依据:

1、记得百度5月份发布的搜索引擎白皮书里有提到,内容排版,颜色,文字大小,语句通顺,你可以在去看下。

2、这么多年的搜索数据沉淀,如果还不能有一定概率的识别内容通顺完整与否,那还搞啥搜索,而内容识别上的判断跟数据沉淀多少,多久有着重大的关系!这也是为什么搜索引擎这类产品很少有人来竞争的主要原因,并不是有钱就可以做的!显然意见,百度沉淀了这么多年,语义分析已经做的很好了,语句的通顺自然肯定是可以识别的,100%,90%?不知道。

问题二:如何判断的?

1、前面说了,亿万级的数据+多年的技术沉淀=数据分析结果与判断依据。所以,这个不需要细说明了吧,一篇文章出现在互联网到被抓取到被多个网站转载再抓取,总共经历若干次索引,抓取,分析,建库,最终呈现给搜索者,然后经过搜索行为,点击满意度来得出该文章最终是否是搜索需要的信息这一系列的过程沉淀,多年的积累,相信一个技术稍微差不多的程序员也可以根据这些数据来做一个基本的判断了。

2、词典,字典,成语,这类中国语言的基础字义组成,这些东西也可以运用到语句通顺与否来集合判断。

支持 0 反对 0 举报 2022-03-16 21:19
不能完全正确的判断语句是否通顺,
但还是有一定的判断能力





基于庞大的数据库,可以正确的判断出常用的语句是否通顺 7 年前 赞同 3 评论 0 收藏 举报
黄建伟 黄建伟 · 装逼就像化妆一样,可能是脸上贴金,也可能是脸上贴粪!认识再多牛人,玩不到一块,那算什么人脉。狐朋狗友虽多,关键时刻能 清文 等 1 人赞同该回答

建议看下机器翻译的一些相关文档。比如军用翻译,这方面貌似比较复杂,可以参考。

支持 0 反对 0 举报 2022-03-16 21:48
英文句意判断很容易,我认为 中文句子判断是最难的,中文分词技术我觉得google都无法做到,百度和google最多只能做到分词。

只能根据正常句式来判断,但正常句式未这个条件很多句子必符合,研究这个技术可能吃力不讨好,还容易被google/百度内部的其它搜索团队打击,从而失去项目投资、信任,丢掉饭碗或项目;转为抓取词与辅助词、分词,再从网页的其它信息来结合判断,反而容易,沿着这条路完善就行。
支持 0 反对 0 举报 2022-03-16 23:07
尝试了多种排列组合,百度还是能识别到本文标题的内容,这也进一步印证了@常州姜东 的判断,百度是先用分词法则逐字逐词去匹配自己收录的数据,如果有就给予排名,如果标题只有部分匹配到,则更进一步扩展到全文去分词匹配(见截图),百度机器目前的智能只能做到依据分词去匹配,与语句是否通顺无关,这也是目前百度最大的弊端,所以现在百度在引入更多的人类可识别的排名因素,比如各种社会化媒体的内容(评论、点赞、分享等),百度拿来参考以筛选出不合逻辑的内容进行算法降权。
支持 0 反对 0 举报 2022-03-17 00:05
百度有一定的自己词库,并且具有一定的判断能力

会默认的把你打乱的标题重新组词,就类似伪原创一样,不管你顺序如何打乱,乱不到点上,百度一样可以看出!

如:搜索引擎+能识别语句通顺否?

只要你不尝试把 “索引” 或者“引语” 这种固有的词组合到一起,无论你如何打乱,排序基本不会变,除非尝试改变语句问法。

这标题的意思是在告诉百度,你尝试着寻找相关的答案,而非并寻找搜索引擎!但百度目前并不能准确的判断出问话者的意思,所以会尝试给出不同的答案!标题索引最精确的会优先给出。其次会列出相关的一些在它自认为可以满足搜索者的答案!据猜测,这类型的问答,如果一般企业站没有一定的专题会很难有排名,基本都会是些博客,论坛,知道,问答等!

搜索引擎+能识别语句 这句话搜索出来的结果会差别有点。因为百度并不太清楚。你要找的能识别的语句究竟还有些什么意思!

但如果只尝试搜索 搜索引擎 答案会全不相同。

这些是属于百度的中文分词范围。。。。

刚玩SEO才2个月。。随便凭经验扯扯,目前自己摸索中。。有高手求带啊。。
支持 0 反对 0 举报 2022-03-17 01:18
现在还做不到吧,不过一直提倡的智能搜索应该会涵盖这些,所以打乱顺序也算伪原创的一种,但是这种文章肯定不利于用户体验,只能算低质量了,不过数量多的话也没法一点点手工改,所以还是有很多再用,毕竟比完全一样的重复好一些。
支持 0 反对 0 举报 2022-03-17 02:10
我認為是不能的,但語句通順有利于用戶體驗,方便搜索。
支持 0 反对 0 举报 2022-03-17 02:45
有一点的鉴别几率,但基本上十篇文章可能才鉴别出一篇,这方面对于规则的制定太难,搜索引擎可能未来会100%识别语句通顺,但目前来说,这项功能是不完善的,应该说略微鸡肋。东莞律师
支持 0 反对 0 举报 2022-03-17 03:18
会有一定的判断力,但百分百应该还做不到
 «上一页   1   2   下一页»   共11条/2页 
网站首页  |  营业执照  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报