当前位置:错新网文章中心网站运营SEO推广 → 站长平台VIP大讲堂(上海站)QA集锦:解析篇

站长平台VIP大讲堂(上海站)QA集锦:解析篇

减小字体 增大字体 作者:admin  来源:本站整理  发布时间:2014-12-10 15:49:00


上周为站长朋友们献出了VIP大讲堂上海站中关于SPIDER抓取建库方面的QA内容,本周继续将解析方面的QA内容奉上。

问:我们的页面本身就很大,会不会解析不出来?
答:页面本身很大倒没问题,赶集、安居客这些量都很大,没有问题。我刚才说的例子,你每次都follow出来新链接,随机把后面的参数去掉都不影响这个网页的正常访问,这种肯定有问题的。

问:刚才说对URL的长度有要求,那对每一段、就是目录名的长度有没有要求
答:没有要求,我们是要求url从www开始到结束,总长度不超过1024个字节。

问:站内重复内容是怎么判断的?文本内容一样结构不一样,算不算重复?
答:算重复

问:假设是整个页面全是Flash,如果我把一些栏目或者最新的内容隐藏掉,不影响美观隐藏掉,如果用hidden属性能不能提取出来?CSS可不可以?
答:hidden可以提出来,但如果是注释就不会管。CSS不可以。

问:页面大小不超过1兆,是指页面压缩以前还是以后。
答:指页面压缩以后,不要超过1兆

问:我网站的信息已经过时了,但网页返回的是200,会受惩罚?为什么呀?
答:用户在搜索结果里点了你的结果,导流导到你的网站,但没什么可看的,对用户没有用,百度当然不喜欢。

问:现在我们很多网站,为了让用户觉得有意思,内容没了就放一张图片,写一些有意思的话,什么“工程师去哪啦”之类的,对百度友好不?
答:最好不要用,我知道站点是想让百度当内容死链来识别,但内容死链识别起来是有准确率和召回率风险的。

问:我们团购网站的确会有过期团购的页面,会受惩罚吗
答:如果量特别大、点击量很大的话肯定会有惩罚的。有些可以当内容死链被分析出来,如果分析不出来,会被一些其他的策略挖出来,会有这样的问题。

问:刚才说资讯内容页面,上面有个发布时间好,那如果页面上没有时间呢?
答:那我们往往是按当时抓取的时间来做判定。

问:评论里面时间重要吗。
答:百度更重视主体内容的时间,评论不算主体内容。

问:我们是个平台,很多产品其实只是一个型号变更了,其实颜色都是一模一样的,对蜘蛛而言仅仅只是几个字符,会被识别为重复吗
答:如果是一个产品的结构化信息的话,应该不会被认为是重复。如果你是简单内容摘要的方式进行介绍的话,可能会存在重复问题。

问:静态URL和动态URL区别大吗?
答:不大,我们现在认为静态和动态都一样的,因为从url上面他能够识别出来,但是抓取回来的东西不太一样。所以现在认为无论你是静态还是动态,我们都认为同样都是url来对待。

本文引用网址:

在下列搜索引擎中搜索“站长平台VIP大讲堂(上海站)QA集锦:解析篇”的相关信息:

谷歌搜索 百度搜索 360搜索 雅虎搜索 搜狗搜索 搜搜搜索 必应搜索 有道搜索
你可能还喜欢以下文章
  • 1如何做爱真人示范图片 男女ML常...
  • 2林晨钰爆奶门35P完整 武汉工程...
  • 3如何做爱更舒服?教你做爱72式...
  • 4王梦溪未经处理雅照120P完整艳...
  • 5怎么做爱舒服?真人示范做爱姿...
  • 117岁女孩身份证号大全 18岁女孩...
  • 2女性18岁身份证号大全 成年女人...
  • 37月黑客武林免费送QQ号 部分7位...
  • 4网络红人如何赚钱?我要成为网...
  • 5帝国CMS中网站URL路径栏目目录...
  • 1兰州警花王梦溪裸照全集视频 王...
  • 2合肥艳照门事件 合肥艳照门全套...
  • 3嫩白少妇与猛男户外疯狂车震遭...
  • 4什么姿势女的最爽?最刺激的做...
  • 5女人做爱喜欢什么姿势?最容易...
  • 1linux服务器在运行210天左右宕...
  • 2教你制作可以随身携带的FreeBS...
  • 3FTP基础知识和应用简易教程
  • 4Windows Server 2003系统性能优...
  • 5如何做服务器安全维护?有哪些...
  • 赞助商广告

    图片文章导读