一个页面的核心内容是什么,搜索引擎判断的一些猜想

我不确定搜索引擎是否真的有判断核心内容这个步骤,但我相信一定有类似的运算机制,因为如果没这个步骤,搜索引擎将耗费大量资源做重复运算

一个页面的核心内容是什么,搜索引擎判断的一些猜想

搜索引擎蜘蛛把页面代码送回搜索引擎服务器后,SE是如何判断页面中最核心的内容呢?

先说下Kyw认为的搜索引擎运作过程的前几个步骤:

1. 蜘蛛下载A页面,送回服务器;

2. 服务器寻找A页面的核心内容位置,然后去除HTML代码;

3. 寻找网页核心内容;……

我不确定GOOGLE、百度、YAHOO!是否真的有“判断核心内容”这个步骤,但我相信一定有类似的运算机制,因为如果没这个步骤,搜索引擎将耗费大量资源做重复运算。当然KYW不是搜索引擎工程师,下面只是对搜索引擎的一些思考。

SE面对一整页HTML代码,如何判断核心内容在哪里呢?

第一步:拿该页面和同域名、同目录、同文件名格式的页面做对比,去除相似的部分。经过这个步骤,头部的导航条、底部的版权信息、固定位置的广告就被去掉了。我估计搜索引擎在每增加一个新网站的时候,会建立一个对比模板来提高工作效率。如果网站经常改版,在改版刚开始的期间,搜索引擎还没反应过来,就可能造成新收录网页的排名不理想。

第二步:去掉有大量链接的部分。经过这步,“相关文章”“推荐文章”等都被去掉了,剩下一些包含文字内容的代码。

第三步:在剩余的代码中判断哪段标签(可能是DIV、TABLE、P或其它标签)中的文字内容最多,因为一般核心内容的文字量会比较多。

每个页面经过上面3个步骤,应该就能顺利的判断出核心内容所在的位置。经过这样的思考,我们也许可以这样总结:

1. 同目录下的页面,最好模板一样。

2. 核心内容文字量不能太少,特别是企业站和B2C网站,只放价格和包含大量说明文字的图片是很不好的。

3. HTML代码中如果错误很多,可能会影响排名,因为搜索引擎可能在判断核心内容的时候出差错。

4. 期待你的补充 ^_^

Kyw把SEO的主要工作理解成帮助搜索引擎更高效的理解网站及页面的内容,所以建议大家有事没事琢磨琢磨搜索引擎,问题想透的越多,SEO的手法也就更加随机应变了。当然也没必要钻牛角尖,有想不通的问题就到我这留言吧。

本文来自投稿,不代表【】观点,发布者:【

本文地址: ,如若转载,请注明出处!

举报投诉邮箱:253000106@qq.com

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2024年5月6日 21:19:46
下一篇 2024年5月6日 21:21:54

相关推荐

  • javascript打印文件,js打印页面

    js打印问题,急!!! window.print();仅此一行代码就可以连接打印页面,然后就可以直接打印,是不是非常简单,接下来我们就来看看将print方法用于按钮或链接来进行打印。打印按钮的设置方法要设置打印按钮,请在按钮的onclick事件中指定print方法。 JS实现打印的方式方式一:window.print()window.print();会弹出打…

    2024年5月19日
    4100
  • javafilter跳转页面,java跳转页面用什么方法

    java页面跳转保留iframe B中的按钮,调用JavaScript程序。 需要使用到iframe标签。iframe标签用法:scrolling禁止鼠标滑动,frameborder嵌套页面边框,leftmargin左边距,topmargin上边距 扩展资料: 嵌入页面的几种方法: 应用框架技术 在页面中嵌入外部页面的。 在你提交,进入到servlet的那个…

    2024年5月19日
    3900
  • java读取大日志文件,java实时读取日志并输出到页面上

    java大报文接口怎么处理 在Java 中使用关键字interface 来定义接口。例如:public interface Compare {public int compare(Object otherObj);}Compare 接口定义了一种操作compare,该操作应当完成与另一个对象进行比较的功能。 调用WebService,对方给出WebServi…

    2024年5月18日
    4200
  • 包含java404页面的词条

    Java运行报404 是一种HTTP状态码。HTTP 404 状态码的出现意味着链接指向的网页不存在,即原始网页的URL失效。请检查对应的网站是否正常,然后再修复URL指向或恢复对应的网页才能解决。 访问的url不正确,检查一下服务器端的配置。一般404是找不到服务器资源。 这个涉及到HTTP协议,以4开头的表明是客户端发生错误,客户请求包含语法错误或者请求…

    2024年5月17日
    4800
  • java页面怎么拦截,javaweb登录拦截

    JAVA中如何,拦截一个网站返回的页面 1、在 doFilter 方法中,你可以使用 HttpServletResponse 对象的 setHeader 方法来设置一些响应头信息,以禁止浏览器缓存页面。 2、设计需要权限访问的页面存放在指定的目录,如: /A/xxx.JSP 。 3、一种解决方法 在response.sendRedirect()后面加上ret…

    2024年5月17日
    5200
  • java实现新浪微博登录,java实现新浪微博登录页面

    新浪微博在网站中的应用 年8月份中国最大的门户网站新浪网推出“新浪微博”内测版,成为门户网站中第一家提供微博服务的网站,微博正式进入中文上网主流人群视野。 便捷性 微博提供了这样一个平台,你既可以作为观众,在微博上浏览你感兴趣的信息;也可以作为发布者,在微博上发布内容供别人浏览。发布信息快速,信息传播的速度快。 最早也是最著名的微博是美国的twitter,根…

    2024年5月15日
    3200
  • java网站前台设计,java前端页面

    网页设计前端和后端的区别?越详细越好。 网页设计前端主要负责页面的展示,后端则是业务逻辑的实现。如需学习网页设计推荐选择【达内教育】。 WEB开发中“前端”和“后端”的区别如下:Web前端:1)精通HTML,能够书写语义合理,结构清晰,易维护的HTML结构。2)精通CSS,能够还原视觉设计,并兼容业界承认的主流浏览器。 前端开发主要做的是用户所能看到的前端展…

    2024年5月14日
    4000
  • 页面置换算法c语言实现,页面置换算法c++实现

    最佳页面置换算法的算法描述 1、页面置换算法在淘汰页面时的算法:输入:页面号引用串P1,P..Pn;输出:淘汰页面Pt实现:如果页框中的某个页面P以后永不使用,则该页面为淘汰页面Pt。 2、最简单的页面置换算法是先入先出(FIFO)法。这种算法的实质是,总是选择在主存中停留时间最长(即最老)的一页置换,即先进入内存的页,先退出内存。 3、第一轮:从当前位置开…

    2024年5月14日
    4700
  • excel如何拆分页面,excel页面怎么分离

    怎么把excel的两个窗口分开来? 1、通常情况下打开的excel表格都是在文档上进行排列的,可以看到一个个表单相连着 如果想打开两个单独的窗口,是这种样式。两个独立的表单。也是两个独立的窗口。 2、打开WPS,新建两个Excel表格来实现两个表格同时显示的功能,这里分别命名为TEST1&TEST2,并打开填写一些内容进入。这时发现两个表格是重叠起来…

    2024年5月14日
    4300
  • java怎么页面关闭时间,java关闭当前页面

    java中如何控制时间停留长短 1、Java中主要有两种方法来实现延迟,即:Thread和Timer 普通延时用Thread.sleep(int)方法,这很简单。它将当前线程挂起指定的毫秒数。 2、可以使用Thread类的Sleep()方法让线程暂停一段时间。需要注意的是,这并不会让线程终止,一旦从休眠中唤醒线程,线程的状态将会被改变为Runnable,并且…

    2024年5月13日
    3700

发表回复

登录后才能评论



关注微信