<?xml version="1.0" standalone="yes"?>
<?xml-stylesheet type="text/xsl" href="css/rss.xslt"?>
<rss version="2.0" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:trackback="http://madskills.com/public/xml/rss/module/trackback/" xmlns:wfw="http://wellformedweb.org/CommentAPI/" xmlns:slash="http://purl.org/rss/1.0/modules/slash/"><channel><title>IT备忘录 - SEO优化</title><link>http://www.dazix.cn/</link><description>沈阳网站制作|建设|策划|改版|SEO|优化|排名|推广|网络营销 - </description><generator>RainbowSoft Studio Z-Blog 1.8 Spirit Build 80722</generator><language>zh-CN</language><copyright>Copyright 2007-2010 www.dazix.cn All Rights Reserved. Powered By Z-Blog 专注于沈阳本地网站制作、建设、策划、改版、SEO、优化、排名、推广、网络营销、Archiver</copyright><pubDate>Sun, 05 Sep 2010 09:42:46 +0800</pubDate><item><title>SEO中HTML标签权重</title><author>30538357@qq.com (dazix)</author><link>http://www.dazix.cn/post/79.html</link><pubDate>Sat, 07 Aug 2010 13:57:58 +0800</pubDate><guid>http://www.dazix.cn/post/79.html</guid><description><![CDATA[<p>HTML标签权重分值排列</p><p>内部链接文字：10分</p><p>标题title：10分</p><p>域名：7分</p><p>H1，H2字号标题：5分</p><p>每段首句：5分</p><p>路径或文件名：4分</p><p>相似度（关键词堆积）：4分</p><p>每句开头：1.5分</p><p>加粗或斜体：1分</p><p>文本用法（内容）：1分</p><p>title属性：1分 （注意不是title》， 是title属性， 比如a href=&hellip; title=&rdquo;）</p><p>alt标记：0.5分</p><p>Meta描述（Description属性）：0.5分</p><p>Meta关键词（Keywords属性）：0.05分</p><p>SEO优化</p><p><strong>1、 静态页面</strong></p><p>将信息页面和频道、网站首页改为静态页面，有利于搜索引擎更快更好的收录。</p><p><strong>2、 页面标题（Page Title）的关键词优化</strong></p><p>必须列出信息的标题、网站的名称以及相关关键字。</p><p><strong>3、 Meta标签的优化（过去搜索引擎优化的重要手法，现在已经不是关键因素，但仍不可忽略）</strong></p><p>主要包括：Meta description、Meta keywords的设置。<span style="color: #3366ff">关键字密度要适度，通常为2%-8%</span>，也就是说你的关键字必须在页面中出现若干次，或者在搜索引擎允许的范围内，要避免堆砌关键字。</p><p><strong>4、针对Google制作Sitemaps</strong></p><p>Google的sitemaps是对原来robots.txt的扩展，它使用 XML格式来记录整个网站的信息并供Google读取，使搜索引擎能更快更全面的收录网站的内容。<br />可以使用Google提供的Sitemap生成器制 作（需要技术人员制作）：<a href="https://www.google.com/webmasters/tools/dashboard?hl=zh-CN">https://www.google.com/webmasters/tools/dashboard?hl=zh-CN</a> 也可以由技术部人员制作更全面的Sitemaps。</p><p><strong>5、 图片的关键词优化</strong></p><p>图片的替代关键词也不要忽略，其另外一方面的作用是，当图片不能显示的时候，可以给访问者一个替代解释语句。</p><p><strong>6、 避免表格的嵌套</strong></p><p>目前本站的表格嵌套太多，<span style="color: #3366ff">搜索引擎通常只读取3个&lt;table&gt;的嵌套，如果太多，会造成部分有用信息没有被检测到。</span>　　来源：一起舞论坛</p><p><strong>7、 采用web标准进行网站重构</strong></p><p>尽量使网站的代码符合W3C的HTML 4.0或XHTML 1.0规范。通过XML＋CSS技术进行网站重构，减少不表格及冗余代码，提高网站页面的扩展性，兼容性，可以使更多浏览器支持。</p><p><strong>8、 网站结构的扁平化规划</strong></p><p>目录和内容结构最好不要超过3层，如果有超过三层的，最好通过子域名来调整和简化结构层数。另外目录命名的规范做法是使用英文而不是拼音字母</p><p><strong>9、 页面容量的合理化</strong></p><p>合理的页面容量会提升网页的显示速度，增加对搜索引擎蜘蛛程序的友好度。同时建议js脚本和css脚本尽量用链接文件</p><p><strong>10、外部文件策略</strong></p><p>把javascript文件和css文件分别放在js和css外部文件中。这样做的好处是把重要的页面内容放到页面顶部，同时能缩小文件大小。有利于搜索引擎快速准确地抓取页面　　重要内容。其他的字体（FONT）和格式化标签也尽量少用，建议采用CSS定义。</p><p><strong>11、外部链接</strong></p><p>尽可能多地让其他跟你主题相关的网站链接本站，同时尽量同PR值更高的网站进行相互链接。如果网站提供与主题相关的导出链接，被搜索引擎认为有丰富 的与主题相关的内容，也有利于排名，例如各类招商网站、投融资网站的概念。另外避免链接不顾质量的大面积撒网，对搜索引擎而言宁少要精。</p><p><strong>12、网站地图</strong></p><p>网站自身的网站地图是搜索引擎更全面索引收录你的网站的重要因素。建议制作基于文本的网站地图，内含网站所有栏目、子栏目。网站地图的三大因素：文本、链接、关键词，都极其有利于搜索引擎抓取主要页面内容。特别是动态生成目录网站尤其需要 创建网站地图。</p><p><strong>13、图像热点</strong></p><p>除AltaVista、Google明确支持图像热点链接外，其他引擎暂不支持。当&ldquo;蜘蛛&rdquo; 程序遇到这种结构时，就会无法辨别。因此尽量不要设置图像热点（Image Map）链接。</p><p><strong>14、FLASH应用</strong></p><p>FLASH由于不含文字信息，应尽量用于功能展示和广告，少用于网站栏目和页面。</p><p><strong>15、JS脚本</strong></p><p><span style="color: #3366ff">在不支持JS脚步的浏览器里 &lt;NOSCRIPT&gt; 标签会起到重要提示作用，对搜索引擎的Spider搜索也会有帮助。</span></p><p><strong>16、Frame框架</strong></p><p>Frame标签会被搜索忽略，尽量少用，<span style="color: #3366ff">如果一定要用，则应正确使用Noframe标签， 在&lt;Noframe&gt;...&lt;/Noframe&gt;区域中包含指向frame页的链接或带有关键词的描述文本，同时在框架以外的区域也出现关键词文本。</span></p><p><strong>17、资讯的内部链接</strong></p><p>有助提高网站排名和PR值，例如相关资讯、推荐资讯等</p>]]></description><category>SEO优化</category><comments>http://www.dazix.cn/post/79.html#comment</comments><wfw:comment>http://www.dazix.cn/</wfw:comment><wfw:commentRss>http://www.dazix.cn/feed.asp?cmt=79</wfw:commentRss><trackback:ping>http://www.dazix.cn/cmd.asp?act=tb&amp;id=79&amp;key=c767e944</trackback:ping></item><item><title>intitle,inurl,intext,site,双引号&amp;quot;&amp;quot;,加减号+-,filetype的用法</title><author>30538357@qq.com (dazix)</author><link>http://www.dazix.cn/post/77.html</link><pubDate>Mon, 28 Jun 2010 16:17:53 +0800</pubDate><guid>http://www.dazix.cn/post/77.html</guid><description><![CDATA[<p><strong>intitle</strong><br /><wbr></wbr><wbr></wbr><wbr></wbr>&nbsp;&quot;intitle&quot;的标准搜索语法是&quot;关键字 intitle:关键字&quot;，比如搜索&quot;商业 intitle:超级女声&quot;（冒号请在英文状态下输入），那么百度就只会在所有标题中包含&quot;超级女声&quot;这个词的网页中寻找出现了&quot;商业&quot;这个关键字的结果。<br /><br /><strong>site<br /></strong><wbr></wbr>把搜索范围限定在特定站点中&mdash;&mdash;site有时候，您如果知道某个站点中有自己需要找的东西，就可以把搜索范围限定在这个站点中，提高查询效率。使用的方式，是在查询内容的后面，加上&ldquo;site:站点域名&rdquo;。例如，天空网下载软件不错，就可以这样查询：msn site:skycn.com 注意，&ldquo;site:&rdquo;后面跟的站点域名，不要带&ldquo;<a target="_blank" href="http:///">http://</a>&rdquo;；另外，site:和站点名之间，不要带空格。</p><p><wbr></wbr><strong>intext--正文检索</strong><br />和标题搜索相比，正文检索的搜索目标更明确，而且适合于一次性搜索同一主题的不同分支内容 最简单的例子，我们想要找到GeForce 7800的3Dmark03以及3Dmark05测试成绩，就可以利用intext指令：intext:&quot;GeForce 7800&quot;+3Dmark03+3Dmark05 搜索结果将直接把你带入GeForce 7800的3DMark测试结果页面</p><p><strong>Inurl--直攻URL链接</strong><br />inurl是In-系指令中最强大的一个，换句话说，这个高级指令能够直接从网站的URL入手挖掘信息，只要略微了解普通网站的URL格式，就可以极具针对性地找到你所需要的资源－－甚至隐藏内容。inurl的应用范围十分广泛，在此我们仅抛砖引玉<br />A.利用inurl搜图片－－inurl:photo，搜索所有包含图片的关键词页面结果，如果说Google图象搜索侧重于展示图片，inurl搜索则让你在看到图片之前了解到页面大致的文字内容，更方便判断。利用这一指令，你往往能够找到关键词的组图内容（指令中的photo也可以替代为picture、image等）<br />例：搜索&ldquo;乔丹经典&rdquo;图片<br />输入：乔丹经典 inurl:photo，首个搜索结果上便提供了所有值得收藏的乔丹瞬间</p><p><strong>&quot;&quot;双引号</strong><br />使用双引号(&quot;&quot;)进行词组检索 利用双引号查询完全符合关键字串的网站。例如：输入&ldquo;中国女足&rdquo;找出包含&ldquo;中国女足&rdquo;的网站，而不会找出包含&ldquo;中国男足&rdquo;的网站。<br /><br /><strong>使用&quot;＋&quot;和&quot;－&quot;进行限制性检索</strong><br />当我们需要检索结果中包含有两个或两个以上的内容，这时我们可以把几个条件之间用&ldquo;＋&ldquo;号连接。这样关键字串一定要出现在结果中，例如想查询那英的歌曲《征服》，你可以输入&ldquo;那英＋征服&rdquo;。在查询某个题材时并不希望在这个题材中包含另一个题材，这时你就可以使用&ldquo;－&rdquo;号。例如你想查找&ldquo;水果&rdquo;，但又不希望其中包含&ldquo;苹果&rdquo;。你就可以输入&ldquo;水果－苹果&rdquo;。减号的作用就在于可以使搜索的结果中反映你的需求，让你无须为大量无关的搜索结果而头疼。<br /><br /><strong>仅搜索网站的网址&nbsp;</strong><wbr></wbr><strong> &quot;u:&quot;</strong><br />在关键字前加&ldquo;u:&rdquo;，搜索引擎仅会查询网址，例如在网页中的搜索框中输入&ldquo;u：yahoo.com&rdquo;，单击&ldquo;搜索&rdquo;按钮，则统一资源定位器中包含&ldquo;yahoo.com&rdquo;字符的网址全部显示出来。<br /><br /><strong>仅搜索网站标题&nbsp;</strong><wbr></wbr><strong> &quot;t:&quot;</strong><br />在关键字前加&ldquo;t:&rdquo;，搜索引擎仅查询网站的名称。例如在网站搜索框中输入&ldquo;t:网络技术&rdquo;，单击&ldquo;搜索&rdquo;按钮，符合搜索条件的网站标题显示出来。</p>]]></description><category>SEO优化</category><comments>http://www.dazix.cn/post/77.html#comment</comments><wfw:comment>http://www.dazix.cn/</wfw:comment><wfw:commentRss>http://www.dazix.cn/feed.asp?cmt=77</wfw:commentRss><trackback:ping>http://www.dazix.cn/cmd.asp?act=tb&amp;id=77&amp;key=d3a434d1</trackback:ping></item><item><title>谷歌搜索引擎优化的十七个注意点(百度参考)</title><author>30538357@qq.com (dazix)</author><link>http://www.dazix.cn/post/75.html</link><pubDate>Fri, 23 Apr 2010 17:16:54 +0800</pubDate><guid>http://www.dazix.cn/post/75.html</guid><description><![CDATA[<p>1、<strong>网站链接很大一部分是互惠链接</strong>.互惠链接在google中的权值已经越来越小了,而且如果网站上太多的互惠链接肯定会给google等搜索引擎不良印象.</p><p>2、<strong>缺乏高质量的导入链接</strong>.高质量的外部链接对于提高网站的权重和信任度有很高的作用.如果网站缺乏高质量外部链接,可能google会认为这个站点缺乏质量以及权威度.</p><p>3、<strong>大部分的外部链接与你的站点缺乏相关性</strong>.在搜索引擎优化过程的外部链接建设中,链接的相关性是很被重视的.</p><p>4、<strong>没有导出链接</strong>.没有导入链接会影响网站评分,同样一个站点如果没有导出链接的话,那也是有问题的.试想下一个闭关锁国的网站又怎么会是什么高质量的网站呢?</p><p>5、<strong>链接到低质量网站</strong>.链接到低质量站点甚至一些垃圾站点都会严重影响网站在google中的表现,甚至可能遭到被K的惩罚.</p><p>6、<strong>大部分的导出链接被加上Nofollow属性</strong>.(此条对博客评论和论坛不适用,这些地方应该都加上Nofollow的).</p><p>7、<strong>网站缺乏连续的话题</strong>.网站内容的连续性在google中也很重要.什么都谈什么都有的网站必然不会是个精品网站,而且其原创率必然很受怀疑.</p><p>8、<strong>过多的网页都是重复内容</strong>.虽然有人说复制内容不会影响到网站的关键词排名和收录,但是过多的重复内容肯定不是什么好事.</p><p>9、<strong>太多的页面都缺乏内容</strong>.短篇幅的文章必然涉及到内容质量高低的问题.每个页面都是几句话内容就结束,并不是一个高质量网站的表现.</p><p>10、<strong>标题重复</strong>.应该来说注意SEO的人都不会犯这样的低级错误了!</p><p>11、<strong>meta keywords列表里超过5个关键词</strong>.(应该很多网站的meta keywords里都是设置比较多的关键词的吧,尤其是首页)</p><p>12、<strong>每页的meta description都是相同的</strong>.相同的meta描述也不是个SEOer会做的.wordpress的meta优化可以参考这里和这里.</p><p>13、<strong>图片的alt标签太长</strong>.对于图片的alt描述几个词语就足够了,过多的描述可能是堆砌关键词的表现.</p><p>14、<strong>关键词填充</strong>.这个没什么好说的.要注意页面的关键词比率,但是也不用太刻意.</p><p>15、<strong>隐藏文本或者类似隐藏文本</strong>.隐藏文本在几大搜索引擎中都是绝对被K的理由.</p><p>16、<strong>隐藏链接或者类似隐藏链接</strong>.简单的说就是不要让用户分辨不出你的链接而误点.</p><p>17、<strong>太多的down机</strong>.网站和服务器的稳定对于网站被搜索引擎收录以及关键词排名都是很重要的.</p><p>作为一个站长,或者说希望网站有较好表现的站长都是应该注意这些因素的.如果网站中涉及到了搜索引擎惩罚规定的,那基本就不用去考虑网站的关键词表现了.防微杜渐,把好网站自身的质量关,避免网站隐患的存在才是网站立足搜索引擎的基本.对真正的成功者来说,不论他的生存条件如何,都不会自我磨灭.</p><p>&nbsp;</p>]]></description><category>SEO优化</category><comments>http://www.dazix.cn/post/75.html#comment</comments><wfw:comment>http://www.dazix.cn/</wfw:comment><wfw:commentRss>http://www.dazix.cn/feed.asp?cmt=75</wfw:commentRss><trackback:ping>http://www.dazix.cn/cmd.asp?act=tb&amp;id=75&amp;key=7f9a2d30</trackback:ping></item><item><title>实验田-百度和google的收录现象浅谈[原创]</title><author>30538357@qq.com (dazix)</author><link>http://www.dazix.cn/post/72.html</link><pubDate>Wed, 07 Apr 2010 12:43:46 +0800</pubDate><guid>http://www.dazix.cn/post/72.html</guid><description><![CDATA[<p><strong>我的博客就是我的实验田</strong>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;要说明的现象或者问题<br /><strong>1、百度对于URL上的中文参数值支持的不好<br /></strong>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;作为全球最大的搜索引擎在中文的支持上不如google有些说不过去，对于搜索引擎收录，静态页(伪静态)的效果要远远好于动态页面,但是通过很好的优化手段也可以让搜索引擎收录很多带参数的动态页面,具体看现象。通过对百度和google分别执行site:www.dazix.cn命令查询站点的收录情况<br /><strong>百度:----------------------------------------</strong><br /><img style="border-bottom: #ccc 1px solid; border-left: #ccc 1px solid; border-top: #ccc 1px solid; border-right: #ccc 1px solid" border="1" alt="百度收录" width="400" height="265" src="http://www.dazix.cn/upload/2010/4/201004071253391228.bmp" /><br /><strong>google:--------------------------------------------</strong><br /><img style="border-bottom: #ccc 1px solid; border-left: #ccc 1px solid; border-top: #ccc 1px solid; border-right: #ccc 1px solid" border="1" alt="google收录" width="400" height="340" src="http://www.dazix.cn/upload/2010/4/201004071253506087.bmp" /><br /><strong>百度收录的都是乱码参数的URL，相反google收录的都是正常参数的URL</strong>。<br />&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;而且我URL的写法都是经过URL转码的，如 <a href="<#ZC_BLOG_HOST#>search.asp?q=%E6%9C%BA%E5%99%A8%E4%BA%BA"><#ZC_BLOG_HOST#>search.asp?q=%E6%9C%BA%E5%99%A8%E4%BA%BA</a>&nbsp;却被收录成这样，让人费解。<br /><strong>2、百度对内容页的重视程度并没有想象中的那么好<br /></strong>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;都说对于搜索引擎来说百度更重视内容页的收录(尤其原创) ,而google基本注重的是页面抓取的全面性。但是实际的情况呢？以2010年4月7日这个时间点为准，百度收录了160个网页， google收录了730个网页。<br /><img style="border-bottom: #ccc 1px solid; border-left: #ccc 1px solid; border-top: #ccc 1px solid; border-right: #ccc 1px solid" border="1" alt="百度收录" src="http://www.dazix.cn/upload/2010/4/201004071306347768.bmp" /><br /><img style="border-bottom: #ccc 1px solid; border-left: #ccc 1px solid; border-top: #ccc 1px solid; border-right: #ccc 1px solid" border="1" alt="google收录" src="http://www.dazix.cn/upload/2010/4/201004071307294324.bmp" /><br />&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;从中可以看到google的收录量是百度的4.5倍，实际的收录效果应该是google是百度收录量的3~5倍，那么这种情况也是正常的，但实际情况正相反。见下图百度的第一页显示的都是动态参数页面，而google的第一页显示则都是内容页面。而我内容页的很多长尾词收索都可以在这两大收索引擎排在首页，甚至于前5名的很好的排位，而且个别内容页也是有PR的说明页面的质量还说的过去，既然google能把检索出来的数据根据级别重新处理，百度怎么没做？不知道出于什么目的，究竟谁对内容更重视！<br /><strong>百度-------------------------------------------</strong><br /><img style="border-bottom: #ccc 1px solid; border-left: #ccc 1px solid; border-top: #ccc 1px solid; border-right: #ccc 1px solid" border="1" alt="百度收录" width="223" height="400" src="http://www.dazix.cn/upload/2010/4/201004071314586777.bmp" /><br /><strong>google----------------------------------------------</strong><br /><img style="border-bottom: #ccc 1px solid; border-left: #ccc 1px solid; border-top: #ccc 1px solid; border-right: #ccc 1px solid" border="1" alt="google收录" width="400" height="294" src="http://www.dazix.cn/upload/2010/4/201004071314454682.bmp" /><br />&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;以上的收录效果跟我针对搜索引擎的优化也有关系<br />3、<strong>将站点地图sitemap放置于首页的前部做链接(尤其作为第一个链接)对于收录十分有用</strong><br />&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;百度对于静态的链接farm页还是有兴趣的，比如将站内文章链接、关键词链接、标签链接都写在一个链接页里也可以叫做站点地图sitemap.html，并且把这个页的链接放在首页的第一个链接位置，百度对于这个链接的是很感冒的。效果说明一切目前我博客的总文章数才70左右，百度却有160的收录，google竟达到了730的收录，这都归功于此。要知道在我这样做之前百度收录仅有60左右，google有260左右，效果如何一目了然。当然这么做是有风险的，自己要把握度，过度了真被当成farm可就糟糕啦！<br /><strong>4、百度对于wap wml页面的收录远远不及google</strong> 因此手机搜索上那个更好就更明显了<br /><img style="border-bottom: #ccc 1px solid; border-left: #ccc 1px solid; border-top: #ccc 1px solid; border-right: #ccc 1px solid" border="1" alt="google收录" width="300" height="250" src="http://www.dazix.cn/upload/2010/4/201004071342134466.bmp" /><br />&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;这样的收录google有很多，而百度没有<br /><br />&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;本文章为原创文章转载请注明出处&nbsp;</p>]]></description><category>SEO优化</category><comments>http://www.dazix.cn/post/72.html#comment</comments><wfw:comment>http://www.dazix.cn/</wfw:comment><wfw:commentRss>http://www.dazix.cn/feed.asp?cmt=72</wfw:commentRss><trackback:ping>http://www.dazix.cn/cmd.asp?act=tb&amp;id=72&amp;key=1856f617</trackback:ping></item><item><title>如何让百度快速收录你的网站？</title><author>30538357@qq.com (dazix)</author><link>http://www.dazix.cn/post/66.html</link><pubDate>Thu, 25 Mar 2010 09:34:05 +0800</pubDate><guid>http://www.dazix.cn/post/66.html</guid><description><![CDATA[<p>1、和Google一样,可以与优秀的网站首页交换链接。在百度中搜索某关键词,排在前几名,有收录日期的网站便是百度认为优秀的网站(当然也可以在非首页处交换链接,速度也算比较快)。 <br />2、提交百度的新网站登陆入口：<a href="http://www.baidu.com/search/url_submit.html" target="_blank">http://www.baidu.com/search/url_submit.html</a>。 <br />3、采用第一条方法,百度收录网站应该是很快的。但对百度,有一个更好的方法就是加入百度搜索联盟,可以让百度在最短的时间内收录你的网站,并且可以快速更新网站的数据,一般3～4天拜访一次你的网站,具体请访问：<a href="http://union.baidu.com/index.html" target="_blank">http://union.baidu.com/index.html</a>即可,很简单的,就是在网页放置一个百度搜索工具条。<a href="http://www.google.com/intl/zh-CN/add_url.html" target="_blank">http://www.google.com/intl/zh-CN/add_url.html</a>。 <br /><br /><strong>百度喜欢结构简单的网页</strong>,具有复杂结构的网页可能无法顺利被百度收录。<br />1. 给每个网页加上标题。网站首页的标题,建议使用网站名称或公司名称,其它网页的标题建议与每个网页内容相关,内容不同的网页不用相同的标题。<br />2. 不要把整个网页做成一个Flash或是一张图片。百度是通过识别网页源代码中的汉字来认识每一个网页的。如果您的整个网页是一个Flash或一张图片，百度在网页中找不到汉字，就有可能不收录您的网页。<br />3. 不对网页做重定向。重定向的网页可能不容易登录百度。<br />4.不在网页中使用Frame(框架结构)。<br />5.不在网页中使用过分复杂的JavaScript 。某些JavaScript的内容对于搜索引擎是不可见的,所以不能被识别和登录。<br />5.静态网页能更顺利收录,而动态生成的网页不容易收录。 <br />a、如果网页url中含有如asp等动态特征,网页就可能被认为是动态网页。 <br />b、如果您的网站中有很多网页必须做成Frame结构或动态网页,那么至少把网站首页做成简单的网页,并且对网站内的一些重要网页,在首页加上链接。<br />6. 不要对搜索引擎进行作弊。作弊的网站不能收录,即使收录也可能被删除。<br /><br /><strong>作弊网站定义</strong>:对搜索引擎作弊,是指为了提高在搜索引擎中展现机会和排名的目的,欺骗搜索引擎的行为。以下行为都可能被认为是作弊:<br />&middot; 在网页源代码中任何位置,故意加入与网页内容不相关的关键词;<br />&middot; 在网页源代码中任何位置,故意大量重复某些关键词。即使与网页内容相关的关键词,故意重复也被视为作弊行为;<br />&middot; 在网页中加入搜索引擎可识别但用户看不见的隐藏文字。无论是使用同背景色文字、超小字号文字、文字隐藏层,还是滥用图片ALT等方法,都属于作弊行为;<br />&middot; 故意制造大量链接指向某一网址的行为;<br />&middot; 对同一个网址,让搜索引擎与用户访问到不同内容的网页(包括利用重定向等行为);<br />&middot; 作弊行为的定义是针对网站而不是网页的。一个网站内即使只有一个网页作弊,该网站也被认为是有作弊行为;<br />&middot; 有链接指向作弊网站的网站,负连带责任,也会被认为是作弊(但作弊网站上链接指向的网站,不算作弊)。 <br /><br /><strong>作弊网站害处</strong>&mdash;&mdash;根据网页的作弊情况,会受到不同程度的惩罚:<br />&middot; 较轻微的惩罚,是系统在给网页排名时略为降低该网页的排名;<br />&middot; 较常见的惩罚,是作弊网站的某些关键词(或所有关键词)的排名降到其它任何网站之后;<br />&middot; 较严厉的惩罚,对于作弊行为和后果特别恶劣的网站,将从百度中消失;<br />&middot; 特别补充,含恶意代码或恶意插件等用户极端反感内容的网页,虽然不是作弊,但只要用户投诉,一经确认也会被百度拒绝收录。 <br /><br /><strong>如何使您的站点被百度有效收录？</strong><br />首先到网站登录提交你的网址，只需提交网站首页，内部页面百度会自动抓取。<br />给每个网页加上与正文相关的标题。如果是网站首页，则标题建议使用站点名称或者站点代表的公司/机构名称；其余内容页面，标题建议做成正文内容的提炼和概括。这可以让您的潜在用户快速的访问到您的页面。<br />请不要在标题中堆积与正文无关的关键词。<br />确保每个页面都可以通过一个文本链接到达。百度无法识别Flash中的链接，这些单元上的链接所指向的网页，百度就无法收录了。 <br />页面间的链接，尽量使用平实的超链，而不是重定向跳转。使用自动跳转的页面，可能会被百度丢弃。<br />尽量少使用frame和iframe框架结构。<br />如果是动态网页，请控制一下参数的数量和URL的长度。百度更偏好收录静态网页。<br />在同一个页面上，不要有过多链接。在那些站点地图类型的页面上，请把重要的内容给出链接，而不是所有细枝末节。链接太多，也可能会导致无法被百度收录。<br /><br /><strong>什么样的站点会受到百度欢迎？</strong> <br />站点应该是面向用户的，而不是面向搜索引擎的。一个受到用户欢迎的站点，最终也会受到搜索引擎欢迎；反过来，如果您的站点做了很多针对百度的优化，但却给用户带来大量负面体验，那么，您的站点最终可能还是会受到百度的冷落。 <br />百度更喜欢有独特内容的网页，而不是简单抄袭和重复互联网上已有内容的网页。对于已经被重复了千百遍的内容，百度可能会不予收录。<br />请谨慎使用您的站点链接。与一些垃圾站点做友情链接，很可能会使您的网站受到负面影响。因此，当有人很热情的要求您为他的站点提供友情链接时，请审视以下两点：<br />一、对方的站点在他那个领域是否是高质量的？站长间所谓的流量以及排名，很多都是用欺骗手段获取的，无法保持长久。<br />二、对方要求的链接名称是否和对方网站地位相称？用一个涵盖范围广泛的关键词来做一个内容非常局限的网站的链接名称，很可能会使您的网站受到负面影响。<br />经常保持内容更新。经常有新内容产生的站点，百度是会注意到，并且大力欢迎，而且会频繁造访。</p>]]></description><category>SEO优化</category><comments>http://www.dazix.cn/post/66.html#comment</comments><wfw:comment>http://www.dazix.cn/</wfw:comment><wfw:commentRss>http://www.dazix.cn/feed.asp?cmt=66</wfw:commentRss><trackback:ping>http://www.dazix.cn/cmd.asp?act=tb&amp;id=66&amp;key=c32812b0</trackback:ping></item><item><title>网站快照更新慢的解决办法 收索引擎 百度快照</title><author>30538357@qq.com (dazix)</author><link>http://www.dazix.cn/post/65.html</link><pubDate>Thu, 25 Mar 2010 08:53:54 +0800</pubDate><guid>http://www.dazix.cn/post/65.html</guid><description><![CDATA[<p>分析一下,要想百度更新自己的站,首先要让百度爬到自己的站。但是百度不来怎么办?那就想办法让他来!<br /><br />现在最简单的办法,你自己创造个<strong>生僻关键字</strong>,要保证<strong>关键字的唯一性</strong>,百度搜索到的结果相关性要低。那关键字要在你首页出现,而且有相关解释,目的是围绕关键字做相关内容。然后去百度更新快的地方(比如各大论坛,百度知道等,但是不要去百度贴吧),发布相关信息。发表的文章要围绕创造的关键字写,关键字可以使用一两次加粗,色彩,或者下划线等,关键字链到首页地址,内容里再加一两次首页地址。不要太过就可以。<br /><br />关键字加好了,信息也发布了,现在应该做的是触发百度检测数据库,从而百度会顺着那些新内容找到你首页!怎么触发?如果有人搜索那关键字,百度检索时候会优先考虑最合适的页面,也许百度暂时没有去你站,但是百度肯定能分析到新收录的信息,继而,从新收录的信息相关连接爬到你站,更新快照!<br /><br /><strong>怎么触发百度搜索自己创造的关键字</strong><br />去一些热门的论坛,发表一些容易让人回复的帖子,关键字指向你站,也可以是关键字XXX的搜索地址。可以去QQ论坛发布消息,问别人关键字XXX到底是什么意思? 送100QB啊!可以去百度知道发布,高分求关键字XXX的解释!还有其他很多方法,动动脑子!要去人气多的地方!当然也可以发布虚假消息!比如去站长类的论坛发布&quot;百度被黑,搜索关键字XXX连接地址全部指向GOOGLE!&rdquo;也可以去其他论坛发布&quot;百度新闻,明天全国有大地震!&rdquo;总之引导网友去触发你那关键字,相信不用多,十几个人足够了!骗人是不好,但是为了自己辛苦经营的站,值得原谅! <br />这个方法是利用生僻关键字让百度去更新快照,估计成功率应该在80%以上,主要看操作!至于百度更新快的地方很多,大家自己找吧。还有其他很多权重高的站和论坛,百度每天都去爬一次。 <br /><br /><strong>要点总结</strong><br />一:增加原创的文字,适当围绕关键字优化,强烈建议在title里也加一下。<br />:在百度权重高,更新快的地方发布围绕关键字相关内容的信息和你站点连接,让百度爬着找到你,牵着百度去你站! <br />三:引导别人去查找这个关键字,触发百度重新检索数据库,最后根据检索结果定位到你的站。<br /><br />三=&gt;二=&gt;一,然后百度会重新抓你站!更新快照!第一步完全可行,第二部根据关键字做些内容发十几个地方,被百度收录一个,也算成功!三是重点,看操作!哄骗都可以...去人气多的地方诱导!<br />百度不更新,最长的能拖上四个月。google好点,拖的话一般不超过一个月。以上方法可以解决百度快照不更新的问题。对新站点,百度没有收录的站点同样有效!</p>]]></description><category>SEO优化</category><comments>http://www.dazix.cn/post/65.html#comment</comments><wfw:comment>http://www.dazix.cn/</wfw:comment><wfw:commentRss>http://www.dazix.cn/feed.asp?cmt=65</wfw:commentRss><trackback:ping>http://www.dazix.cn/cmd.asp?act=tb&amp;id=65&amp;key=3d650c76</trackback:ping></item><item><title>搜索引擎(流量统计,网址目录,论坛搜索,英文站点)提交入口,Seo必备</title><author>30538357@qq.com (dazix)</author><link>http://www.dazix.cn/post/62.html</link><pubDate>Wed, 17 Mar 2010 17:36:21 +0800</pubDate><guid>http://www.dazix.cn/post/62.html</guid><description><![CDATA[<p><strong>流量统计提交</strong><br />alexa网站提交<br /><a href="http://www.alexa.com/site/help/webmasters">http://www.alexa.com/site/help/webmasters</a></p><p><strong>搜索引擎提交</strong> 主域名包括二级域名网站<br />Google<br /><a href="http://www.google.com/addurl/">http://www.google.com/addurl/</a><br />百度<br /><a href="http://www.baidu.com/search/url_submit.html">http://www.baidu.com/search/url_submit.html</a><br />Yahoo搜索引擎<br /><a href="http://search.help.cn.yahoo.com/h4_4.html">http://search.help.cn.yahoo.com/h4_4.html</a><br />微软必应(Bing)<br /><a href="http://cn.bing.com/webmaster/SubmitSitePage.aspx?mkt=zh-CN">http://cn.bing.com/webmaster/SubmitSitePage.aspx?mkt=zh-CN</a><br />搜狐/搜狗(Sogou)<br /><a href="http://www.sogou.com/feedback/urlfeedback.php">http://www.sogou.com/feedback/urlfeedback.php</a><br />中搜<br /><a href="http://ads.zhongsou.com/register/page.jsp">http://ads.zhongsou.com/register/page.jsp</a><br />腾讯SOSO<br /><a href="http://www.soso.com/help/usb/urlsubmit.shtml">http://www.soso.com/help/usb/urlsubmit.shtml</a><br />网易有道<br /><a href="http://tellbot.yodao.com/report">http://tellbot.yodao.com/report</a><br />新浪爱问<br /><a href="http://iask.com/guest/add_url.php">http://iask.com/guest/add_url.php</a> <br />TOM搜索<br /><a href="http://search.tom.com/tools/weblog/log.php">http://search.tom.com/tools/weblog/log.php</a></p><p><strong>网址目录提交</strong><br />酷帝Coodir网址大全(需要注册 所有权认证 挂链接 等待审核) <br /><a href="http://www.coodir.com/accounts/addsite.asp">http://www.coodir.com/accounts/addsite.asp</a></p><p><strong>论坛搜索提交</strong><br />奇虎论坛搜索免费登录入口<br /><a href="http://www.qihoo.com/wenda/submit.html">http://www.qihoo.com/wenda/submit.html</a>&nbsp;<br /><br /><strong>英文站点提交<br /></strong>dmoz开放目录(最著名的开放网址目录)<br /><a href="http://www.dmoz.org/World/Chinese_Simplified/">http://www.dmoz.org/World/Chinese_Simplified/</a><br />Onebigdirectory.com 搜索引擎批量提交(好像是收费的)<br /><a href="http://www.onebigdirectory.com/cgi-bin/dir/addurl.cgi"><strong>http://www.onebigdirectory.com/cgi-bin/dir/addurl.cgi</strong></a><br />Freewebsubmission.com 搜索引擎批量提交(我的邮箱总被拒绝?)<br /><a href="http://www.freewebsubmission.com/">http://www.freewebsubmission.com/</a><br />yahoo分类目录(英文 需注册 收费的)<br /><a href="http://searchmarketing.yahoo.com/dirsb/index.php">http://searchmarketing.yahoo.com/dirsb/index.php</a></p>]]></description><category>SEO优化</category><comments>http://www.dazix.cn/post/62.html#comment</comments><wfw:comment>http://www.dazix.cn/</wfw:comment><wfw:commentRss>http://www.dazix.cn/feed.asp?cmt=62</wfw:commentRss><trackback:ping>http://www.dazix.cn/cmd.asp?act=tb&amp;id=62&amp;key=5fc19496</trackback:ping></item><item><title>关于百度爬虫(baiduspider)的喜好</title><author>30538357@qq.com (dazix)</author><link>http://www.dazix.cn/post/61.html</link><pubDate>Thu, 11 Mar 2010 22:04:28 +0800</pubDate><guid>http://www.dazix.cn/post/61.html</guid><description><![CDATA[<p>重视第一次收录印象<br />对网页的更新较敏感<br />重视首页<br />重视绝对地址的链接<br />较重视收录日期<br />百度使用的技术<br />1、&quot;一种互联网上镜像和准镜像网站的识别方法&quot;，这个方法解决了搜索引擎对雷同信息的重复获取，节省网络资源和本地资源，提高系统服务的质量和效率；<br />2、&quot;一种基于词汇的计算机索引和检索方法&quot;，该方法对一段连续的文字信息，经过词汇分析处理后，通过添加隐形词汇的手段，实现对基于词汇索引和检索系统的检索质量提升，使用户获得更加准确的检索结果；<br />3、&quot;一种使用快照的方式实现对网上信息进行记录和分析的方法&quot;，该方法是通过对互联网上一个特定信息，多次进行快照的方式，将信息当时的状态进行保留。并通过对一系列快照信息的分析，得到有效数据，方便地得到网上信息的变动情况</p>]]></description><category>SEO优化</category><comments>http://www.dazix.cn/post/61.html#comment</comments><wfw:comment>http://www.dazix.cn/</wfw:comment><wfw:commentRss>http://www.dazix.cn/feed.asp?cmt=61</wfw:commentRss><trackback:ping>http://www.dazix.cn/cmd.asp?act=tb&amp;id=61&amp;key=cfc0e551</trackback:ping></item><item><title>中文搜索引擎技术揭密:网络蜘蛛</title><author>30538357@qq.com (dazix)</author><link>http://www.dazix.cn/post/59.html</link><pubDate>Thu, 04 Mar 2010 00:13:07 +0800</pubDate><guid>http://www.dazix.cn/post/59.html</guid><description><![CDATA[<p>随着搜索经济的崛起，人们开始越加关注全球各大搜索引擎的性能、技术和日流量。<br />作为企业会根据搜索引擎的知名度及日流量来选择是否投放广告；<br />作为普通网民会根据搜索引擎的性能和技术来选择喜欢的引擎查找资料；<br />作为学者会把有代表性的搜索引擎作为研究对象；<br />而作为一个网站的经营者，其更关心的或许是如何通过网络载体让更多人知道自己的网站，进而获得更高的流量和知名度。<br />这其中，<a title="搜索引擎,搜索引擎优化" target="_blank" href="<#ZC_BLOG_HOST#>catalog.asp?tags=%E6%90%9C%E7%B4%A2%E5%BC%95%E6%93%8E">搜索引擎</a>已经成为重要且免费的宣传途径。一方面，搜索引擎会主动出击，寻找网络上的各种网页数据，并在后台按相关条件进行索引；另一方面，各大网站为了能让自己的内容更多的通过搜索引擎向网民展示，都开始对网站结构进行重大调整：其中包括<strong><font size="+0">扁平</font>化结构设计、<a target="_blank" href="<#ZC_BLOG_HOST#>catalog.asp?tags=URLRewriter">动态页转静态页</a>、Sitemap</strong>等。&nbsp;</p><div>这些看来不经意的举动都让我们切身感受到搜索引擎对我们网络使用方式的改变起到了重要作用。并且因为搜索引擎的兴起及社会各界对其重视程度日渐高涨，创造了一个全新的职位&mdash;&mdash;<strong><a title="沈阳SEO,沈阳网站优化" target="_blank" href="<#ZC_BLOG_HOST#>catalog.asp?cate=12">SEO</a></strong>。实际上，搜索引擎经济的崛起又一次向人们证明了网络所蕴藏的巨大商机。网络离开了搜索将只剩下空洞杂乱的数据，以及大量等待去费力挖掘的金矿。&nbsp;</div><div>&nbsp;</div><div>搜索引擎一直致力于提升用户的体验度，体现在三个方面：<strong>准、全、快</strong>。用专业术语讲是：查准率、查全率和搜索速度（即搜索耗时）。其中最易达到的是搜索速度，因为对于搜索耗时在1秒以下的系统来说，访问者很难辨别其快慢了，更何况还有网络速度的影响。因此对搜索引擎的评价就集中在了前两者：准、全。中文搜索引擎的&quot;准&quot;需要保证搜索的前几十条结果都和搜索词十分相关，这需由&quot;<a title="搜索引擎中文分词" target="_blank" href="<#ZC_BLOG_HOST#>post/57.html">分词技术</a>&quot;和&quot;<a title="搜索引擎排序" target="_blank" href="<#ZC_BLOG_HOST#>post/56.html">排序技术</a>&quot;来决定；中文搜索引擎的&quot;全&quot;则需保证不遗漏某些重要的结果，而且能找到最新的网页，这需要搜索引擎有一个强大的网页收集器，一般称为&quot;网络蜘蛛&quot;，也有叫&quot;<a target="_blank" href="<#ZC_BLOG_HOST#>catalog.asp?tags=%E6%9C%BA%E5%99%A8%E4%BA%BA">网页机器人</a>&quot;。<br /><br />为何搜索引擎需要用网络蜘蛛抓取网站所有的网页，为什么不在搜索者输入关键词后只把那些需要的结果抓取过来？这实际上是效率问题，搜索引擎不可能在搜索时实时去检查每个网页，而是需要把网页先抓取下来，按照关键词建立好索引，每次搜索的结果都会直接从搜索引擎建立好索引的数据库中查找，然后把结果返回给访问者。<br /><strong>网络蜘蛛基本原理</strong></div><div><div>网络蜘蛛即Web Spider，是一个很形象的名字。把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页，从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站，那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。</div><br /><div>对于搜索引擎来说，要抓取互联网上所有的网页几乎是不可能的。这其中的原因一方面是抓取技术的瓶颈，无法遍历所有的网页，有许多网页无法从其它网页的链接中找到；另一个原因是存储技术和处理技术的问题，如果按照每个页面的平均大小为20K计算（包含图片），100亿网页的容量是100&times;2000G字节，即使能够存储，下载也存在问题（按照一台机器每秒下载20K计算，需要340台机器不停的下载一年时间，才能把所有网页下载完毕）。同时，由于数据量太大，在提供搜索时也会有效率方面的影响。因此，许多搜索引擎的网络蜘蛛只是抓取那些重要的网页，而在抓取的时候评价重要性主要的依据是某个网页的链接深度。</div><br /><div>在抓取网页的时候，网络蜘蛛一般有两种策略：广度优先和深度优先（如下图所示）。<br /><strong>广度优先</strong>是指网络蜘蛛会先抓取起始网页中链接的所有网页，然后再选择其中的一个链接网页，继续抓取在此网页中链接的所有网页。这是最常用的方式，因为这个方法可以让网络蜘蛛并行处理，提高其抓取速度。<br /><strong>深度优先</strong>是指网络蜘蛛会从起始页开始，一个链接一个链接跟踪下去，处理完这条线路之后再转入下一个起始页，继续跟踪链接。这个方法有个优点是网络蜘蛛在设计的时候比较容易。<br />两种策略的区别，下图说明：<br /><img border="0" alt="" src="http://www.dazix.cn/upload/2010/3/10847637283751560941261360672293.jpg" /></div><div>由于不可能抓取所有的网页，有些网络蜘蛛对一些不太重要的网站，设置了访问的层数。例如，在上图中，A为起始网页，属于0层，B、C、D、E、F属于第1 层，G、H属于第2层，I属于第3层。如果网络蜘蛛设置的访问层数为2的话，网页I是不会被访问到。这就是为什么有些网站只有部分网页能在搜索引擎上搜索到，另外一部分不能被搜索到。<strong>对于网站设计者来说，<font size="+0">扁平</font>化的网站结构设计有助于搜索引擎抓取其更多的网页。</strong></div><br /><div>网络蜘蛛在访问网站网页的时候，经常会遇到加密数据和网页权限的问题，有些网页是需要会员权限才能访问。当然，网站的所有者可以通过协议让网络蜘蛛不去抓取，但对一些出售报告的网站，他们希望搜索引擎能搜索到他们的报告，但又不能完全免费的让搜索者查看，这样就需要给网络蜘蛛提供相应的用户名和密码。网络蜘蛛可以通过所给的权限对这些网页进行网页抓取，从而提供搜索。而当搜索者点击查看该网页的时候，同样需要搜索者提供相应的权限验证。<br /><!--StartFragment -->&nbsp;<div><strong>网站与网络蜘蛛</strong></div><br /><div>网络蜘蛛需要抓取网页，不同于一般的访问，如果控制不好，会引起网站服务器负担过重。为了让网站和网络蜘蛛进行交流，一方面让网站管理员了解网络蜘蛛都来自哪，做些什么，另一方面也告诉网络蜘蛛哪些网页不应该抓取，哪些网页应该更新。</div><br /><div>每个网络蜘蛛都有自己的名字，在抓取网页的时候，都会向网站标明自己的身份。网络蜘蛛在抓取网页的时候会发送一个请求，这个请求中就有一个字段为User －agent，用于标识此网络蜘蛛的身份。例如Google网络蜘蛛的标识为GoogleBot，Baidu网络蜘蛛的标识为BaiDuSpider，Yahoo网络蜘蛛的标识为Inktomi Slurp。如果在网站上有访问日志记录，网站管理员就能知道，哪些搜索引擎的网络蜘蛛来过，过来的时间，以及读了多少数据等。如果网站管理员发现某个蜘蛛有问题，就通过其标识来和其所有者联系。某网站的搜索引擎访问日志：<br /><img border="0" alt="" src="http://www.dazix.cn/upload/2010/3/10847637681917039100031729224170.jpg" /></div><div>网络蜘蛛进入一个网站，一般会访问一个特殊的文本文件Robots.txt，这个文件一般放在网站服务器的根目录下，网站管理员可以通过robots.txt来定义目录针对网络蜘蛛访问权限，或者目录对于特定网络蜘蛛访问权限。如有些网站的可执行文件目录和临时文件目录不希望被搜索引擎搜索到，那么网站管理员就可以把这些目录定义为拒绝访问。Robots.txt语法很简单，可以用以下两行来描述：<br />User-agent:&nbsp;*<br />Disallow:<br />当然Robots.txt只是一个协议，如果网络蜘蛛的设计者不遵循这个协议，网站管理员也无法阻止网络蜘蛛对于某些页面的访问，但一般的网络蜘蛛都会遵循这些协议，而且网站管理员还可以通过其它方式来拒绝网络蜘蛛对某些网页的抓取。</div><div><br />网络蜘蛛在下载网页时，会识别网页的HTML代码，在其代码中会有META标识。通过这些标识可以告诉网络蜘蛛本网页是否需要被抓取，还可以告诉网络蜘蛛本网页中的链接是否需要被继续跟踪。</div><div><br />现在一般的网站都希望搜索引擎能更全面的抓取自己网站的网页，这样可以让更多的访问者能通过搜索引擎找到此网站。为了让本网站的网页更全面被抓取到，网站管理员可以建立一个网站地图，即Site Map。许多网络蜘蛛会把sitemap.htm文件作为一个网站网页爬取的入口，网站管理员可以把网站内部所有网页的链接放在这个文件里面，那么网络蜘蛛可以很方便的把整个网站抓取下来，避免遗漏某些网页，也会减小对网站服务器的负担。<br />&nbsp;<br /><strong>内容提取</strong></div><div><br />搜索引擎建立网页索引，处理的对象是文本文件。对于网络蜘蛛来说，抓取下来网页包括各种格式，包括html、图片、doc、pdf、多媒体、动态网页及其它格式等。这些文件抓取下来后，需要把这些文件中的文本信息提取出来。准确提取这些文档的信息，一方面对搜索引擎的搜索准确性有重要作用，另一方面对于网络蜘蛛正确跟踪其它链接有一定影响。</div><div>&nbsp;</div><div>对于<strong>doc、pdf</strong>等文档，这种由专业厂商提供的软件生成的文档，厂商都会提供相应的文本提取接口。网络蜘蛛只需要调用这些插件的接口，就可以轻松的提取文档中的文本信息和文件其它相关的信息。</div><div>&nbsp;</div><div><strong>HTML文档</strong>不一样，HTML有一套自己的语法，通过不同的命令标识符来表示不同的字体、颜色、位置等版式，提取文本信息时需要把这些标识符都过滤掉。过滤标识符并非难事，因为这些标识符都有一定的规则，只要按照不同的标识符取得相应的信息即可。但在识别这些信息的时候，需要同步记录许多版式信息，例如文字的字体大小、是否是标题、是否是加粗显示、是否是页面的关键词等，这些信息有助于计算单词在网页中的重要程度。同时对于HTML网页来说，除了标题和正文以外，会有许多广告链接以及公共的频道链接，这些链接和文本正文一点关系也没有，在提取网页内容的时候，也需要过滤这些无用的链接。例如某个网站有&quot;产品介绍&quot;频道，因为导航条在网站内每个网页都有，若不过滤导航条链接，在搜索&quot;产品介绍&quot;的时候，则网站内每个网页都会搜索到，无疑会带来大量垃圾信息。过滤这些无效链接需要统计大量的网页结构规律，抽取一些共性，统一过滤；对于一些重要而结果特殊的网站，还需要个别处理。这就需要网络蜘蛛的设计有一定的扩展性。</div><div><br />对于多媒体、图片等文件，一般是通过链接的锚文本和相关的文件注释来判断这些文件的内容。如有一个链接文字为&quot;张曼玉照片&quot;，其链接指向一张bmp格式的图片，那么网络蜘蛛就知道这张图片的内容是&quot;张曼玉的照片&quot;。这样在搜索&quot;张曼玉&quot;和&quot;照片&quot;的时候都能让搜索引擎找到这张图片。另外许多多媒体文件中有文件属性，考虑这些属性也可以更好的了解文件的内容。</div><div><br />动态网页一直是网络蜘蛛面临的难题。所谓动态网页，是相对于静态网页而言，是由程序自动生成的页面，这样的好处是可以快速统一更改网页风格，也可以减少网页所占服务器的空间，但同样给网络蜘蛛的抓取带来一些麻烦。由于开发语言不断的增多，动态网页的类型也越来越多，如：asp、jsp、php等。这些类型的网页对于网络蜘蛛来说，可能还稍微容易一些。网络蜘蛛比较难于处理的是一些脚本语言（如VBScript和JavaScript）生成的网页，如果要完善的处理好这些网页，网络蜘蛛需要有自己的脚本解释程序。对于许多数据是放在数据库的网站，需要通过本网站的数据库搜索才能获得信息，这些给网络蜘蛛的抓取带来很大的困难。对于这类网站，如果网站设计者希望这些数据能被搜索引擎搜索，则需要提供一种可以遍历整个数据库内容的方法。</div><div><br />对于网页内容的提取，一直是网络蜘蛛中重要的技术。整个系统一般采用插件的形式，通过一个插件管理服务程序，遇到不同格式的网页采用不同的插件处理。这种方式的好处在于扩充性好，以后每发现一种新的类型，就可以把其处理方式做成一个插件补充到插件管理服务程序之中。</div><div><strong><br />更新周期</strong></div><div><br />由于网站的内容经常在变化，因此网络蜘蛛也需不断的更新其抓取网页的内容，这就需要网络蜘蛛按照一定的周期去扫描网站，查看哪些页面是需要更新的页面，哪些页面是新增页面，哪些页面是已经过期的死链接。</div><div>搜索引擎的更新周期对搜索引擎搜索的查全率有很大影响。如果更新周期太长，则总会有一部分新生成的网页搜索不到；周期过短，技术实现会有一定难度，而且会对带宽、服务器的资源都有浪费。<br />搜索引擎的网络蜘蛛并不是所有网站都采用同一周期更新，对重要的更新量大的网站，更新周期短，如有些新闻网站，几个小时就更新一次；相反对于一些不重要的网站，更新的周期就长，可能一两个月才更新一次。</div><div>一般来说，网络蜘蛛在更新网站内容的时候，不用把网站网页重新抓取一遍，对于大部分的网页，只需要判断网页的属性（主要是日期），把得到的属性和上次抓取的属性相比较，如果一样则不用更新。</div><div><br /><strong>结论</strong></div><div><br />网络蜘蛛在搜索引擎中占有重要位置，对搜索引擎的查全、查准都有影响，决定了搜索引擎数据容量的大小，而且网络蜘蛛的好坏直接影响搜索结果页中的<strong>死链接</strong>的个数。目前如何发现更多的网页、如何正确提取网页内容、如果下载动态网页、如何提高抓取速度、如何识别网站内容相同的网页等都是网络蜘蛛需要进一步改进的问题。</div></div></div>]]></description><category>SEO优化</category><comments>http://www.dazix.cn/post/59.html#comment</comments><wfw:comment>http://www.dazix.cn/</wfw:comment><wfw:commentRss>http://www.dazix.cn/feed.asp?cmt=59</wfw:commentRss><trackback:ping>http://www.dazix.cn/cmd.asp?act=tb&amp;id=59&amp;key=615dca14</trackback:ping></item><item><title>中文搜索引擎技术揭密:排序技术</title><author>30538357@qq.com (dazix)</author><link>http://www.dazix.cn/post/56.html</link><pubDate>Thu, 04 Mar 2010 00:05:27 +0800</pubDate><guid>http://www.dazix.cn/post/56.html</guid><description><![CDATA[<p>随着&quot;眼球经济&quot;席卷互联网，成千上万的资金迅速流向最能吸引浏览着眼球的搜索引擎市场。有大量调查显示搜索引擎市场正处在高速发展时期，成为了未来几年内最具发展潜力的产业之一。随着Google、百度、中国搜索等各具特色的搜索引擎逐渐成为人们最常用的网络工具，企业对搜索引擎的注意力也从&quot;观察&quot;升级为&quot;动武&quot;。 <br />随着市场容量和使用者人数的不断激增，如何完善搜索功能使之更加公平、公开、标准和人性化也就随之成为了一个备受关注的话题。但是有一个矛盾体在这其中不断的显现出来：收费可以为搜索引擎公司带来利润，但同时会降低访问者的体验满意度。如何权衡金钱和用户需求之间的天平呢？<br /><br /><strong>Google成功的秘密 <br /></strong>Google的成功有许多因素，最重要的是Google对搜索结果的排序比其它搜索引擎都要好。Google保证让绝大部分用搜索的人，都能在搜索结果的第一页找到他想要的结果。客户得到了满足，下一次还过来，而且会向其他人介绍，这一来一往，使用的人就多了。所以Google在没有做任何广告的前提下，让自己成为了全球最大的品牌。Google采用了哪种排序技术？PageRank，即网页级别。 <br />Google有一个创始人叫Larry Page，据说PageRank的专利是他申请的，于是依据他的名字就有了Page Rank。国内很成功的百度(<font color="#002c99">http://www.baidu.com)</font> 。其创始人李彦宏说，早在1996年他就申请了名为超链分析的专利，PageRank的原理和超链分析的原理是一样的，而且PageRank目前还在Paten-pending（专利申请中）。言下之意是这里面存在专利所有权的问题。不讨论专利所有权，从中可看出，成功搜索引擎的排序技术，其原理都差不多，即链接分析。超链分析和PageRank都属于链接分析。 <br />链接分析为何物？由于李彦宏的超链分析没有具体的介绍。PageRank的介绍不少，而且目前Google毕竟是全球最大的搜索引擎，这里以PageRank为代表，研究链接分析的原理。<br /><br /><strong>PageRank揭密</strong> <br />PageRank的原理类似于科技论文中的引用机制：谁的论文被引用次数多，谁就是权威。说的更白话一点：张三在谈话中提到了张曼玉，李四在谈话中也提到张曼玉，王五在谈话中还提到张曼玉，这就说明张曼玉一定是很有名的人。在互联网上，链接就相当于&quot;引用&quot;，在B网页中链接了A，相当于B在谈话时提到了A，如果在C、D、E、F中都链接了A，那么说明A网页是最重要的，A网页的PageRank值也就最高。 <br />如何计算PageRank值有一个简单的公式：&nbsp;<br />其中：系数为一个大于0，小于1的数。一般设置为0.85。网页1、网页2至网页N表示所有链接指向A的网页。 <br />由以上公式可以看出三点 ： <br />1、链接指向A的网页越多，A的级别越高。即A的级别和指向A的网页个数成正比，在公式中表示，N越大，A的级别越高； <br />2、链接指向A的网页，其网页级别越高，A的级别也越高。即A的级别和指向A的网页自己的网页级别成正比，网页N级别越高，A的级别也越高； <br />3、链接指向A的网页，其链出的个数越多，A的级别越低。即A的级别和指向A的网页自己的网页链出个数成反比，在公式中现实，网页N链出个数越多，A的级别越低。 <br />每个网页有PageRank值，这样形成一个巨大的方程组，对这个方程组求解，就能得到每个网页的PageRank值。互联网上有上百亿个网页，那么这个方程组就有上百亿个未知数，这个方程虽然是有解，但计算太复杂了，不可能把这所有的页面放在一起去求解的。 <br />总之，PageRank有效地利用了互联网所拥有的庞大链接构造的特性。从网页A导向网页B的链接，用Google创始人的话讲，是页面A对页面B的支持投票，Google根据这个投票数来判断页面的重要性，但Google除了看投票数（链接数）以外，对投票者（链接的页面）也进行分析。「重要性」高的页面所投的票的评价会更高，因为接受这个投票页面会被理解为「重要的物品」。有句成语叫：三人成虎。如果有三个人都说北京大街上有老虎，那么许多人会认为有老虎，如果这三个人都是国家领导人的话，那么所有人都会认为北京大街上有老虎。&nbsp;<br />据Google技术负责人介绍，Google除了用PageRank衡量网页的重要程度以外，还有其它上百种因素来参与排序。其它搜索引擎也是如此，不可能按照某一种规则来进行搜索结果的排序</p><p><strong>其他方法HillTop算法</strong><br />HillTop同样是一项搜索引擎结果排序的专利，是Google的一个工程师Bharat在2001年获得的专利。Google的排序规则经常在变化，但变化最大的一次也就是基于HillTop算法进行了优化。 <br />其实HillTop算法的指导思想和PageRank的是一致的，都是通过网页被链接的数量和质量来确定搜索结果的排序权重。但HillTop认为只计算来自具有相同主题的相关文档链接对于搜索者的价值会更大，即主题相关网页之间的链接对于权重计算的贡献比主题不相关的链接价值要更高。如果网站是介绍&quot;服装&quot;的，有10个链接都是从&quot;服装&quot;相关的网站链接过来，那这10个链接比另外10个从&quot;电器&quot;相关网站链接过来的贡献要大。Bharat称这种对主题有影响的文档为&quot;专家&quot;文档，从这些专家文档页面到目标文档的链接决定了被链接网页&quot;权重得分&quot;的主要部分。 <br />PageRank结合HillTop算法确定网页与搜索关键词的匹配程度的基本排序过程取代了过份依靠PageRank的值去寻找那些权威页面的方法。两个具有同样主题且PR相近的网页排序中，HillTop算法就显得非常的重要了。HillTop同时也避免了许多想通过增加许多无效链接来提高网页PageRank值的做弊方法。 <br /><br /><strong>锚文本（Anchor Text） </strong><br />锚文本可以作为锚文本所在的页面的内容的评估。正常来讲，页面中增加的链接都会和页面本身的内容有一定的关系。服装的行业网站上会增加一些同行网站的链接或者一些做服装的知名企业的链接；另一方面，锚文本能做为对所指向页面的评估。锚文本能精确的描述所指向页面的内容，个人网站上增加Google的链接，锚文本为&quot;搜索引擎&quot;。这样通过锚文本本身就能知道，Google是搜索引擎。 <br />锚文本对搜索引擎起的作用还表现为可以收集一些搜索引擎不能索引的文件。例如，网站上增加了一张张曼玉的照片，格式为jpg文件，搜索引擎目前很难索引（一般只处理文本）。若这张照片链接的锚文本为&quot;张曼玉的照片&quot;，那么搜索引擎就能识别这张图片是张曼玉的照片，以后访问者搜索&quot;张曼玉&quot;的时候，这张图片就能被搜索到。 <br />由此可见，在网页设计中选择合适的锚文本，会让所在网页和所指向网页的重要程度有所提升<br /><strong><br />页面版式 </strong><br />每个网页都有版式，包括标题、字体、标签等等。搜索引擎也会利用这些版式来识别搜索词与页面内容的相关程度。以静态的html格式的网页为例，搜索引擎通过网络蜘蛛把网页抓取下来后，需要提取里面的正文内容，过滤其他html代码。在提取内容的时候，搜索引擎就可以记录所有版式信息，包括：哪些词是在标题中出现，哪些词是在正文中出现，哪些词的字体比其他的字体大，哪些词是加粗过，哪些词是用KeyWord标识过的等等。这样在搜索结果中就可以根据这些信息来确定所搜索的结果和搜索词的相关程度。例如搜索&quot;毛泽东&quot;，假如有两个结果，一篇文章标题是《毛泽东的一生》，另一篇文章的标题是《江青的一生》但内容有提到毛泽东，这时搜索引擎会认为前者比较重要，因为&quot;毛泽东&quot;在标题里出现了。因此，合理的利用网页的页面版式，会提升网页在搜索结果页的排序位置。 <br /><strong><br />收费排名 <br /></strong>应该说收费排名并不属于排序技术（这里指的收费排名也包括竞价排名），而是一种搜索引擎的赢利模式。但收费排名已经最直接的影响到了搜索引擎的排序。 <br />用户可以购买某个关键词的排名，只要向搜索引擎公司交纳一定的费用，就可以让用户的网站排在搜索结果的前几位，按照不同关键词、不同位置、时间长短来定义价格。价格从几千元到几十万元不等。 <br />收费排名一方面给搜索引擎公司带来收益，一方面给企业带来访问量，另外对访问者也有一定好处。因为访问者想找&quot;西服&quot;，企业想卖&quot;西服&quot;，于是出钱让访问者能找到他，这样买家和卖家能马上见面。但收费排名给访问者带来更多的却是不真实，结果排序已经失去了公正性，有时候还带来大量垃圾。在百度搜索引擎上搜索&quot; 星球 &quot;，排在第一位的是一家做石墨的公司，第二位的居然是&quot;想找星球？上易趣吧！&quot;。让访问者哭笑不得。&nbsp;&nbsp;<br />当然，对于企业来说，收费排名是提升网站在搜索引擎中排名的最直接和最简单的办法。如今，如何提升网页在搜索引擎中的排序，已经形成了一门职业，叫<strong>SEO（Search Engine Optimization）</strong>，即搜索引擎优化。SEO是针对搜索引擎排序的技术，通过修改网页（或者网站）结构和主动增加网站链接等方法来让搜索引擎认为这些网页是很重要的，从而提升网页在搜索引擎结果中的排序。<br /><strong><br />排序技术的发展趋势 </strong><br />各种搜索引擎的技术改进和优化，都直接反应到搜索结果的排序上。许多搜索引擎都在进一步研究新的排序方法，来提升客户的满意度。目前的搜索引擎排序算法上还存在两大不足。 <br />一、没有真正解决相关性。<br />相关性是指搜索词和页面的相关程度。仅仅通过链接、字体、位置等表面特征，不能真正判断搜索词和文章的相关性，更何况许多时候这些特征不会都同时存在。这也是许多对搜索引擎做弊方法能有效的原因。另外，有些文章中没有出现搜索词，但说的就是和搜索词十分相关的内容，例如搜索&quot;恐怖分子&quot;，但有网页是介绍本拉登的一些破坏行动，文中没有出现&quot;恐怖分子&quot;的子眼，搜索引擎就无法搜索到该网页。表面特征只能治标，不能治本。治本的方法应该是增加语意理解，例如主题词和关键词的提取，从语意上分析，得出搜索词和网页的相关程度，分析的越准，效果就会越好。 <br />二、搜索结果的单一化。<br />在搜索引擎上，任何人搜索同一个词的结果都是一样。这样明显不能满足访问者。科学家搜索&quot;星球&quot;，可能是希望了解星球的知识，但普通人可能是想找&quot;星球大战&quot;电影，但搜索引擎所给的都是一样的结果。如何满足这些不同类型的访问者，需要对搜索结果的个性化。国外vivisimo公司就是想解决这个问题，他们采用对搜索结果自动聚类的办法来满足不同类型客户的需要。搜索结果排序如果要实现从单一化到个性化，vivisimo已经迈出了一步，但最理想的结果应该是针对每个访问者，排序结果直接和他们的搜索习惯和意愿有关。搜索&quot;体育&quot;，对喜欢足球的人应该把足球的相关结果排在前面，对喜欢篮球的人应该把篮球的相关结果排在前面。 <br />搜索引擎的排序技术应该也会朝着解决这两个不足的方向发展：语意相关性和排序个性化。前者需要完善的自然语言处理技术，后者需要记录庞大访问者信息和复杂的计算，要达到其中任何一个的要求均非易事，如何解决这些难题，任务落在了科学家和工程师们的肩上，哪个搜索引擎解决了这些问题，她可能会称为下一个搜索世界的霸主。&nbsp;&nbsp;</p>]]></description><category>SEO优化</category><comments>http://www.dazix.cn/post/56.html#comment</comments><wfw:comment>http://www.dazix.cn/</wfw:comment><wfw:commentRss>http://www.dazix.cn/feed.asp?cmt=56</wfw:commentRss><trackback:ping>http://www.dazix.cn/cmd.asp?act=tb&amp;id=56&amp;key=43170e33</trackback:ping></item></channel></rss>
