<?xml version="1.0" encoding="utf-8" ?>















<feed version="0.3" xmlns="http://purl.org/atom/ns#" xmlns:dc="http://purl.org/dc/elements/1.1/" xml:lang="zh_CN">
<title><![CDATA[meizhouwangxiang'职业博客]]></title>
<link rel="alternate" type="text/html" href="http://meizhouwangxiang.blog.bokee.net"/>
<modified>2008-07-15T17-04-00 CST</modified>
<tagline type="text/html" mode="escaped"><![CDATA[无印良品]]></tagline>
<generator url="http://www.bokee.net/" version="2.0">bokee.net</generator>
<copyright>Copyright (c) 2005,  meizhouwangxiang</copyright>


<entry>
<title>测试挑战</title>
<link rel="alternate" type="text/html" href="http://www.bokee.net/blogmodule/weblogcomment_viewEntry/1985061.html"/>
<issued>2008-07-15T17-04-00 CST</issued> 
<created>2008-07-15T17-04-00 CST</created>
<modified>2008-07-15T17-04-00Z</modified>
<id>tag:meizhouwangxiang.blogchina.com,2005://1985061</id>
<author>
<name>meizhouwangxiang</name>
<url>http://www.bokee.net/blogmodule/weblogcomment_index/meizhouwangxiang.html</url>
</author>
<dc:subject>知识文集</dc:subject>
<content type="text/html" mode="escaped" xml:lang="zh_CN" xml:base="http://www.bokee.net"> 
<![CDATA[<p>话不多说,请看下面的链接,是天才还是笨蛋一测就明白</p>
<p><a href="http://www.huidabbs.com/play.htm" target="_self">挑战自己</a></p>
<p>&nbsp;</p>
<p>&nbsp;</p>]]>
</content>
</entry>

<entry>
<title>心烦</title>
<link rel="alternate" type="text/html" href="http://www.bokee.net/blogmodule/weblogcomment_viewEntry/1985009.html"/>
<issued>2008-07-15T16-49-25 CST</issued> 
<created>2008-07-15T16-49-25 CST</created>
<modified>2008-07-15T16-49-25Z</modified>
<id>tag:meizhouwangxiang.blogchina.com,2005://1985009</id>
<author>
<name>meizhouwangxiang</name>
<url>http://www.bokee.net/blogmodule/weblogcomment_index/meizhouwangxiang.html</url>
</author>
<dc:subject>Default Cloumn</dc:subject>
<content type="text/html" mode="escaped" xml:lang="zh_CN" xml:base="http://www.bokee.net"> 
<![CDATA[<p>快半个月了,一直没去找工作,现在口袋又没钱了,真烦真烦....</p>]]>
</content>
</entry>

<entry>
<title>Google搜索原理论文</title>
<link rel="alternate" type="text/html" href="http://www.bokee.net/blogmodule/weblogcomment_viewEntry/1984067.html"/>
<issued>2008-07-15T11-57-09 CST</issued> 
<created>2008-07-15T11-57-09 CST</created>
<modified>2008-07-15T11-57-06Z</modified>
<id>tag:meizhouwangxiang.blogchina.com,2005://1984067</id>
<author>
<name>meizhouwangxiang</name>
<url>http://www.bokee.net/blogmodule/weblogcomment_index/meizhouwangxiang.html</url>
</author>
<dc:subject>知识文集</dc:subject>
<content type="text/html" mode="escaped" xml:lang="zh_CN" xml:base="http://www.bokee.net"> 
<![CDATA[<p>这篇文章中，我们介绍了google，它是一个大型的搜索引擎（of a large-scale search <br />engine）的原型，搜索引擎在超文本中应用广泛。Google的设计能够高效地抓网页并建立索引，它的查询结果比其它现有系统都高明。这个原型的全文和超连接的数据库至少包含24&lsquo;000&lsquo;000个网页。我们可以从<a href="http://google.stanford.edu/"><font color="#014982">http://google.stanford.edu/</font></a> <br />下载。<br />设计搜索引擎是一项富有挑战性的工作。搜索引擎为上亿个网页建立索引，其中包含大量迥然不同的词汇。而且每天要回答成千上万个查询。在网络中，尽管大型搜索引擎非常重要，但是学术界却很少研究它。此外由于技术的快速发展和网页的大量增加，现在建立一个搜索引擎和三年前完全不同。<br />本文详细介绍了我们的大型搜索引擎，据我们所知，在公开发表的论文中，这是第一篇描述地如此详细。除了把传统数据搜索技术应用到如此大量级网页中所遇到的问题，还有许多新的技术挑战，包括应用超文本中的附加信息改进搜索结果。<br />本文将解决这个问题，描述如何运用超文本中的附加信息，建立一个大型实用系统。任何人都可以在网上随意发布信息，如何有效地处理这些无组织的超文本集合，也是本文要关注的问题。<br />关键词 World Wide Web，搜索引擎，信息检索，PageRank, Google 1 绪论 Web <br />给信息检索带来了新的挑战。Web上的信息量快速增长，同时不断有毫无经验的新用户来体验Web这门艺术。人们喜欢用超级链接来网上冲浪，通常都以象Yahoo这样重要的网页或搜索引擎开始。大家认为List(目录)有效地包含了大家感兴趣的主题，但是它具有主观性，建立和维护的代价高，升级慢，不能包括所有深奥的主题。基于关键词的自动搜索引擎通常返回太多的低质量的匹配。使问题更遭的是，一些广告为了赢得人们的关注想方设法误导自动搜索引擎。<br />我们建立了一个大型搜索引擎解决了现有系统中的很多问题。应用超文本结构，大大提高了查询质量。我们的系统命名为google，取名自googol的通俗拼法，即10的100次方，这和我们的目标建立一个大型搜索引擎不谋而合。<br />1.1网络搜索引擎&mdash;升级换代（scaling up）：1994-2000 搜索引擎技术不得不快速升级（scale <br />dramatically）跟上成倍增长的web数量。1994年，第一个Web搜索引擎，World Wide Web <br />Worm(WWWW)可以检索到110，000个网页和Web的文件。到1994年11月，顶级的搜索引擎声称可以检索到2&lsquo;000&rsquo;000（WebCrawler）至100&lsquo;000&rsquo;000个网络文件（来自 <br />Search Engine <br />Watch）。可以预见到2000年，可检索到的网页将超过1&lsquo;000&rsquo;000&lsquo;000。同时，搜索引擎的访问量也会以惊人的速度增长。在1997年的三四月份，World <br />Wide Web Worm 平均每天收到1500个查询。<br />在1997年11月，Altavista <br />声称它每天要处理大约20&rsquo;000&rsquo;000个查询。随着网络用户的增长，到2000年，自动搜索引擎每天将处理上亿个查询。我们系统的设计目标要解决许多问题，包括质量和可升级性，引入升级搜索引擎技术（scaling <br />search engine technology），把它升级到如此大量的数据上。 <br />1.2 Google：跟上Web的步伐（Scaling with the <br />Web）建立一个能够和当今web规模相适应的搜索引擎会面临许多挑战。抓网页技术必须足够快，才能跟上网页变化的速度（keep them up to <br />date）。存储索引和文档的空间必须足够大。索引系统必须能够有效地处理上千亿的数据。处理查询必须快，达到每秒能处理成百上千个查询（hundreds to <br />thousands per second.）。随着Web的不断增长，这些任务变得越来越艰巨。然而硬件的执行效率和成本也在快速增长，可以部分抵消这些困难。<br />还有几个值得注意的因素，如磁盘的寻道时间（disk seek time），操作系统的效率（operating system <br />robustness）。在设计Google的过程中，我们既考虑了Web的增长速度，又考虑了技术的更新。Google的设计能够很好的升级处理海量数据集。它能够有效地利用存储空间来存储索引。优化的数据结构能够快速有效地存取（参考4.2节）。进一步，我们希望，相对于所抓取的文本文件和HTML网页的数量而言，存储和建立索引的代价尽可能的小（参考附录B）。对于象Google这样的集中式系统，采取这些措施得到了令人满意的系统可升级性（scaling <br />properties）。<br />1. 3设计目标 <br />1.3.1提高搜索质量我们的主要目标是提高Web搜索引擎的质量。1994年，有人认为建立全搜索索引（a complete search <br />index）可以使查找任何数据都变得容易。根据Best of the Web 1994 -- Navigators <br />，&ldquo;最好的导航服务可以使在Web上搜索任何信息都很容易（当时所有的数据都可以被登录）&rdquo;。然而1997年的Web就迥然不同。近来搜索引擎的用户已经证实索引的完整性不是评价搜索质量的唯一标准。用户感兴趣的搜索结果往往湮没在&ldquo;垃圾结果Junk <br />result&rdquo;中。实际上，到1997年11月为止，四大商业搜索引擎中只有一个能够找到它自己（搜索自己名字时返回的前十个结果中有它自己）。导致这一问题的主要原因是文档的索引数目增加了好几个数量级，但是用户能够看的文档数却没有增加。用户仍然只希望看前面几十个搜索结果。因此，当集合增大时，我们就需要工具使结果精确（在返回的前几十个结果中，有关文档的数量）。由于是从成千上万个有点相关的文档中选出几十个，实际上，相关的概念就是指最好的文档。高精确非常重要，甚至以响应（系统能够返回的有关文档的总数）为代价。令人高兴的是利用超文本链接提供的信息有助于改进搜索和其它应用 <br />。尤其是链接结构和链接文本，为相关性的判断和高质量的过滤提供了大量的信息。Google既利用了链接结构又用到了anchor文本（见2.1和2.2节）。 <br />1.3.2搜索引擎的学术研究随着时间的流逝，除了发展迅速，Web越来越商业化。1993年，只有1.5%的Web服务是来自.com域名。到1997年，超过了60%。同时，搜索引擎从学术领域走进商业。到现在大多数搜索引擎被公司所有，很少技公开术细节。这就导致搜索引擎技术很大程度上仍然是暗箱操作，并倾向做广告（见附录A）。Google的主要目标是推动学术领域在此方面的发展，和对它的了解。另一个设计目标是给大家一个实用的系统。应用对我们来说非常重要，因为现代网络系统中存在大量的有用数据（us <br />because we think some of the most interesting research will involve leveraging <br />the vast amount of usage data that is available from modern web <br />systems）。例如，每天有几千万个研究。然而，得到这些数据却非常困难，主要因为它们没有商业价值。我们最后的设计目标是建立一个体系结构能够支持新的关于海量Web数据的研究。为了支持新研究，Google以压缩的形式保存了实际所抓到的文档。设计google的目标之一就是要建立一个环境使其他研究者能够很快进入这个领域，处理海量Web数据，得到满意的结果，而通过其它方法却很难得到结果。系统在短时间内被建立起来，已经有几篇论文用到了Google建的数据库，更多的在起步中。我们的另一个目标是建立一个宇宙空间实验室似的环境，在这里研究者甚至学生都可以对我们的海量Web数据设计或做一些实验。 </p>
<p>2. 系统特点 Google搜索引擎有两个重要特点，有助于得到高精度的搜索结果。<br />第一点，应用Web的链接结构计算每个网页的Rank值，称为PageRank，将在98页详细描述它。<br />第二点，Google利用超链接改进搜索结果。<br />2.1 PageRank:给网页排序 <br />Web的引用（链接）图是重要的资源，却被当今的搜索引擎很大程度上忽视了。我们建立了一个包含518&lsquo;000&rsquo;000个超链接的图，它是一个具有重要意义的样本。这些图能够快速地计算网页的PageRank值，它是一个客观的标准，较好的符合人们心目中对一个网页重要程度的评价，建立的基础是通过引用判断重要性。因此在web中，PageRank能够优化关键词查询的结果。对于大多数的主题，在网页标题查询中用PageRank优化简单文本匹配，我们得到了令人惊叹的结果（从google.stanford.edu可以得到演示）。对于Google主系统中的全文搜索，PageRank也帮了不少忙。<br />2.1.1计算PageRank <br />文献检索中的引用理论用到Web中，引用网页的链接数，一定程度上反映了该网页的重要性和质量。PageRank发展了这种思想，网页间的链接是不平等的。<br />PageRank定义如下: <br />我们假设T1&hellip;Tn指向网页A（例如，被引用）。参数d是制动因子，使结果在0，1之间。通常d等于0.85。在下一节将详细介绍d。C（A）定义为网页A指向其它网页的链接数，网页A的PageRank值由下式给出： <br />PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn)) <br />注意PageRank的形式，分布到各个网页中，因此所有网页的PageRank和是1。 <br />PageRank或PR（A）可以用简单的迭代算法计算，相应规格化Web链接矩阵的主特征向量。中等规模的网站计算26&lsquo;000&rsquo;000网页的PageRank值要花费几小时。还有一些技术细节超出了本文论述的范围。<br />2.1.2直觉判断 <br />PageRank被看作用户行为的模型。我们假设网上冲浪是随机的，不断点击链接，从不返回，最终烦了，另外随机选一个网页重新开始冲浪。随机访问一个网页的可能性就是它的PageRank值。制动因子d是随机访问一个网页烦了的可能性，随机另选一个网页。对单个网页或一组网页，一个重要的变量加入到制动因子d中。这允许个人可以故意地误导系统，以得到较高的PageRank值。我们还有其它的PageRank算法，见98页。<br />另外的直觉判断是一个网页有很多网页指向它，或者一些PageRank值高的网页指向它，则这个网页很重要。直觉地，在Web中，一个网页被很多网页引用，那么这个网页值得一看。一个网页被象Yahoo这样重要的主页引用即使一次，也值得一看。如果一个网页的质量不高，或者是死链接，象Yahoo这样的主页不会链向它。PageRank处理了这两方面因素，并通过网络链接递归地传递。<br />2.2链接描述文字（Anchor Text）我们的搜索引擎对链接文本进行了特殊的处理。大多数搜索引擎把链接文字和它所链向的网页（the page that <br />the link is on）联系起来。另外，把它和链接所指向的网页联系起来。这有几点好处。<br />第一，通常链接描述文字比网页本身更精确地描述该网页。<br />第二，链接描述文字可能链向的文档不能被文本搜索引擎检索到，例如图像，程序和数据库。有可能使返回的网页不能被抓到。注意哪些抓不到的网页将会带来一些问题。在返回给用户前检测不了它们的有效性。这种情况搜索引擎可能返回一个根本不存在的网页，但是有超级链接指向它。然而这种结果可以被挑出来的，所以此类的问题很少发生。链接描述文字是对被链向网页的宣传，这个思想被用在World <br />Wide Web Worm <br />中，主要因为它有助于搜索非文本信息，能够用少量的已下载文档扩大搜索范围。我们大量应用链接描述文字，因为它有助于提高搜索结果的质量。有效地利用链接描述文字技术上存在一些困难，因为必须处理大量的数据。现在我们能抓到24&lsquo;000&rsquo;000个网页，已经检索到259&lsquo;000&rsquo;000多个链接描述文字。<br />2.3其它特点除了PageRank和应用链接描述文字外，Google还有一些其它特点。<br />第一,所有hit都有位置信息，所以它可以在搜索中广泛应用邻近性（proximity）。<br />第二，Google跟踪一些可视化外表细节，例如字号。黑体大号字比其它文字更重要。<br />第三，知识库存储了原始的全文html网页。 <br />3有关工作 Web检索研究的历史简短。World Wide Web <br />Worm（）是最早的搜索引擎之一。后来出现了一些用于学术研究的搜索引擎，现在它们中的大多数被上市公司拥有。与Web的增长和搜索引擎的重要性相比，有关当今搜索引擎技术的优秀论文相当少。根据Michael <br />Mauldin（Lycos Inc的首席科学家）) <br />，&ldquo;各种各样的服务（包括Lycos）非常关注这些数据库的细节。&rdquo;虽然在搜索引擎的某些特点上做了大量工作。具有代表性的工作有，对现有商业搜索引擎的结果进行传递，或建立小型的个性化的搜索引擎。最后有关信息检索系统的研究很多，尤其在有组织机构集合（well <br />controlled collections）方面。在下面两节，我们将讨论在信息检索系统中的哪些领域需要改进以便更好的工作在Web上。 <br />3.1信息检索信息检索系统诞生在几年前，并发展迅速。然而大多数信息检索系统研究的对象是小规模的单一的有组织结构的集合，例如科学论文集，或相关主题的新闻故事。实际上，信息检索的主要基准，the <br />Text Retrieval Conference（），用小规模的、有组织结构的集合作为它们的基准。<br />大型文集基准只有20GB，相比之下，我们抓到的24000000个网页占147GB。在TREC上工作良好的系统，在Web上却不一定产生好的结果。例如，标准向量空间模型企图返回和查询请求最相近的文档，把查询请求和文档都看作由出现在它们中的词汇组成的向量。在Web环境下，这种策略常常返回非常短的文档，这些文档往往是查询词再加几个字。例如，查询&ldquo;Bill <br />Clinton&rdquo;，返回的网页只包含&ldquo;Bill Clinton <br />Sucks&rdquo;，这是我们从一个主要搜索引擎中看到的。网络上有些争议，用户应该更准确地表达他们想查询什么，在他们的查询请求中用更多的词。我们强烈反对这种观点。如果用户提出象&ldquo;Bill <br />Clinton&rdquo;这样的查询请求，应该得到理想的查询结果，因为这个主题有许多高质量的信息。象所给的例子，我们认为信息检索标准需要发展，以便有效地处理Web数据。<br />3.2有组织结构的集合（Well Controlled Collections）与Web的不同点 <br />Web是完全无组织的异构的大量文档的集合。Web中的文档无论内在信息还是隐含信息都存在大量的异构性。例如，文档内部就用了不同的语言（既有人类语言又有程序），词汇（email地址，链接，邮政编码，电话号码，产品号），类型（文本，HTML，PDF，图像，声音），有些甚至是机器创建的文件（log文件，或数据库的输出）。可以从文档中推断出来，但并不包含在文档中的信息称为隐含信息。隐含信息包括来源的信誉，更新频率，质量，访问量和引用。不但隐含信息的可能来源各种各样，而且被检测的信息也大不相同，相差可达好几个数量级。例如，一个重要主页的使用量，象Yahoo <br />每天浏览数达到上百万次，于此相比无名的历史文章可能十年才被访问一次。很明显，搜索引擎对这两类信息的处理是不同的。 <br />Web与有组织结构集合之间的另外一个明显区别是，事实上，向Web上传信息没有任何限制。灵活利用这点可以发布任何对搜索引擎影响重大的信息，使路由阻塞，加上为牟利故意操纵搜索引擎，这些已经成为一个严重的问题。这些问题还没有被传统的封闭的信息检索系统所提出来。它关心的是元数据的努力，这在Web搜索引擎中却不适用，因为网页中的任何文本都不会向用户声称企图操纵搜索引擎。甚至有些公司为牟利专门操纵搜索引擎。<br />4 系统分析（System <br />Anatomy）首先，我们提供高水平的有关体系结构的讨论。然后，详细描述重要的数据结构。最后，主要应用：抓网页，索引，搜索将被严格地检查。 Figure 1. <br />High Level Google Architecture 4.1Google体系结构概述这一节，我们将看看整个系统是如何工作的（give a high <br />level），见图1。本节不讨论应用和数据结构，在后几节中讨论。为了效率大部分Google是用c或c++实现的，既可以在Solaris也可以在Linux上运行。<br />Google系统中，抓网页（下载网页）是由几个分布式crawlers完成的。一个URL服务器负责向crawlers提供URL列表。抓来的网页交给存储服务器storeserver。然后，由存储服务器压缩网页并把它们存到知识库repository中。每个网页都有一个ID，称作docID，当新URL从网页中分析出时，就被分配一个docID。由索引器和排序器负责建立索引index <br />function。索引器从知识库中读取文档，对其解压缩和分析。每个文档被转换成一组词的出现情况，称作命中hits。Hits纪录了词，词在文档中的位置，最接近的字号，大小写。索引器把这些hits分配到一组桶barrel中，产生经过部分排序后的索引。索引器的另一个重要功能是分析网页中所有的链接，将有关的重要信息存在链接描述anchors文件中。该文件包含了足够的信息，可以用来判断每个链接链出链入节点的信息，和链接文本。 <br />URL分解器resolver阅读链接描述anchors文件，并把相对URL转换成绝对URL，再转换成docID。为链接描述文本编制索引，并与它所指向的docID关联起来。同时建立由docID对组成的链接数据库。用于计算所有文档的PageRank值。用docID分类后的barrels，送给排序器sorter，再根据wordID进行分类，建立反向索引inverted <br />index。这个操作要恰到好处，以便几乎不需要暂存空间。排序器还给出docID和偏移量列表，建立反向索引。一个叫DumpLexicon的程序把这个列表和由索引器产生的字典结合在一起，建立一个新的字典，供搜索器使用。这个搜索器就是利用一个Web服务器，使用由DumpLexicon所生成的字典，利用上述反向索引以及页面等级PageRank来回答用户的提问。 <br />4.2主要数据结构经过优化的Google数据结构，能够用较小的代价抓取大量文档，建立索引和查询。虽然近几年CPU和输入输出速率迅速提高。磁盘寻道仍然需要10ms。任何时候Google系统的设计都尽可能地避免磁盘寻道。这对数据结构的设计影响很大。<br />4.2.1大文件大文件BigFiles是指虚拟文件生成的多文件系统，用长度是64位的整型数据寻址。多文件系统之间的空间分配是自动完成的。BigFiles包也处理已分配和未分配文件描述符。由于操纵系统不能满足我们的需要，BigFiles也支持基本的压缩选项。<br />4.2.2知识库 Figure 2. Repository Data Structure <br />知识库包含每个网页的全部HTML。每个网页用zlib（见RFC1950）压缩。压缩技术的选择既要考虑速度又要考虑压缩率。我们选择zlib的速度而不是压缩率很高的bzip。知识库用bzip的压缩率接近4：1。而用zlib的压缩率是3：1。文档一个挨着一个的存储在知识库中，前缀是docID，长度，URL，见图2。访问知识库不需要其它的数据结构。这有助于数据一致性和升级。用其它数据结构重构系统，我们只需要修改知识库和crawler错误列表文件。<br />4.2.3文件索引文件索引保存了有关文档的一些信息。索引以docID的顺序排列，定宽ISAM（Index sequential access <br />mode）。每条记录包括当前文件状态，一个指向知识库的指针，文件校验和，各种统计表。如果一个文档已经被抓到，指针指向docinfo文件，该文件的宽度可变，包含了URL和标题。否则指针指向包含这个URL的URL列表。这种设计考虑到简洁的数据结构，以及在查询中只需要一个磁盘寻道时间就能够访问一条记录。还有一个文件用于把URL转换成docID。它是URL校验和与相应docID的列表，按校验和排序。要想知道某个URL的docID，需要计算URL的校验和，然后在校验和文件中执行二进制查找，找到它的docID。通过对这个文件进行合并，可以把一批URL转换成对应的docID。URL分析器用这项技术把URL转换成docID。这种成批更新的模式是至关重要的，否则每个链接都需要一次查询，假如用一块磁盘，322&lsquo;000&rsquo;000个链接的数据集合将花费一个多月的时间。<br />4.2.4词典词典有几种不同的形式。和以前系统的重要不同是，词典对内存的要求可以在合理的价格内。现在实现的系统，一台256M内存的机器就可以把词典装入到内存中。现在的词典包含14000000词汇（虽然一些很少用的词汇没有加入到词典中）。它执行分两部分&mdash;词汇表（用null分隔的连续串）和指针的哈希表。不同的函数，词汇表有一些辅助信息，这超出了本文论述的范围。<br />4.2.5 hit list hit list是一篇文档中所出现的词的列表，包括位置，字号，大小写。Hit <br />list占很大空间，用在正向和反向索引中。因此，它的表示形式越有效越好。我们考虑了几种方案来编码位置，字号，大小写&mdash;简单编码（3个整型数），紧凑编码（支持优化分配比特位），哈夫曼编码。Hit的详细信息见图3。我们的紧凑编码每个hit用2字节。有两种类型hit，特殊hit和普通hit。特殊hit包含URL，标题，链接描述文字，meta <br />tag。普通hit包含其它每件事。它包括大小写特征位，字号，12比特用于描述词在文档中的位置（所有超过4095的位置标记为4096）。字号采用相对于文档的其它部分的相对大小表示，占3比特(实际只用7个值，因为111标志是特殊hit)。特殊hit由大小写特征位，字号位为7表示它是特殊hit，用4比特表示特殊hit的类型，8比特表示位置。对于anchor <br />hit八比特位置位分出4比特用来表示在anchor中的位置，4比特用于表明anchor出现的哈希表hash of the <br />docID。短语查询是有限的，对某些词没有足够多的anchor。我们希望更新anchor hit的存储方式，以便解决地址位和docIDhash域位数不足的问题。<br />因为搜索时，你不会因为文档的字号比别的文档大而特殊对待它，所以采用相对字号。 <br />hit表的长度存储在hit前。为节省空间hit表长度，在正向索引中和wordID结合在一起，在反向索引中和docID结合存储。这就限制它相应地只占8到5比特（用些技巧，可以从wordID中借8bit）如果大于这些比特所能表示的长度，用溢出码填充，其后两字节是真正的长度。 <br />Figure 3. Forward and Reverse Indexes and the Lexicon<br />4.2.6正向索引实际上，正向索引已经部分排序。它被存在一定数量的barrel中（我们用64个barrels）。每个barrel装着一定范围的wordID。如果一篇文档中的词落到某个barrel，它的docID将被记录到这个barrel中，紧跟着那些词（文档中所有的词汇，还是落入该barrel中的词汇）对应的hitlist。这种模式需要稍多些的存储空间，因为一个docID被用多次，但是它节省了桶数和时间，最后排序器进行索引时降低编码的复杂度。更进一步的措施是，我们不是存储docID本身，而是存储相对于该桶最小的docID的差。用这种方法，未排序的barrel的docID只需24位，省下8位记录hitlist长。<br />4.2.7反向索引除了反向索引由sorter加工处理之外，它和正向索引包含相同的桶。对每个有效的docID，字典包含一个指向该词所在桶的指针。它指向由docID和它的相应hitlist组成的doclish，这个doclist代表了所有包含该词的文档。 <br />doclist中docID的顺序是一个重要的问题。最简单的解决办法是用doclish排序。这种方法合并多个词时很快。另一个可选方案是用文档中该词出现的次数排序。这种方法回答单词查询，所用时间微不足道。当多词查询时几乎是从头开始。并且当用其它Rank算法改进索引时，非常困难。我们综合了这两种方法，建立两组反向索引barrel，一组barrels的hitlist只包含标题和anchor <br />hit，另一组barrel包含全部的hitlist。我们首先查第一组索引桶，看有没有匹配的项，然后查较大的那组桶。 <br />4.3抓网页运行网络爬行机器人是一项具有挑战性的任务。执行的性能和可靠性甚至更重要，还有一些社会焦点。网络爬行是一项非常薄弱的应用，它需要成百上千的web服务器和各种域名服务器的参与，这些服务器不是我们系统所能控制的。为了覆盖几十亿的网页，Google拥有快速的分布式网络爬行系统。一个URL服务器给若干个网络爬行机器人（我们采用3个）提供URL列表。URL服务器和网络爬行机器人都是用Python实现的。每个网络爬行机器人可以同时打开300个链接。抓取网页必须足够快。最快时，用4个网络爬行机器人每秒可以爬行100个网页。速率达每秒600K。执行的重点是找DNS。每个网络爬行机器人有它自己的DNS <br />cache，所以它不必每个网页都查DNS。每一百个连接都有几种不同的状态：查DNS，连接主机，发送请求，接收回答。这些因素使网络爬行机器人成为系统比较复杂的部分。它用异步IO处理事件，若干请求队列从一个网站到另一个网站不停的抓取网页。运行一个链接到500多万台服务器的网页爬行机器人，产生1千多万登陆口，导致了大量的Email和电话。因为网民众多，总有些人不知道网络爬行机器人是何物，这是他们看到的第一个网络爬行机器人。几乎每天我们都会收到这样的Email&ldquo;哦，你从我们的网站看了太多的网页，你想干什么？&rdquo;还有一些人不知道网络搜索机器人避免协议（the <br />robots exclusion protocol），以为他们的网页上写着&ldquo;版权所有，勿被索引&rdquo;的字样就会被保护不被索引，不必说，这样的话很难被web <br />crawler理解。因为数据量如此之大，还会遇到一些意想不到的事情。例如，我们的系统曾经企图抓一个在线游戏，结果抓到了游戏中的大量垃圾信息。解决这个问题很简单。但是我们下载了几千万网页后才发现了这个问题。因为网页和服务器的种类繁多，实际上不在大部分Internet上运行它就测试一个网页爬行机器人是不可能。总是有几百个隐含的问题发生在整个web的一个网页上，导致网络爬行机器人崩溃，或者更糟，导致不可预测的不正确的行为。能够访问大部分Internet的系统必须精力充沛并精心测试过。由于象crawler这样大型复杂的系统总是产生这样那样的问题，因此花费一些资源读这些Email，当问题发生时解决它，是有必要的。 </p>
<p>4.4Web索引分析&mdash;任何运行在整个Web上的分析器必须能够处理可能包含错误的大型集合。范围从HTML标记到标记之间几K字节的0，非ASCII字符，几百层HTML标记的嵌套，各种各样令人难以想象的错误。为了获得最大的速度，我们没有采用YACC产生上下文无关文法CFG分析器，而是采用灵活的方式产生词汇分析器，它自己配有堆栈。分析器的改进大大提高了运行速度，它的精力如此充沛完成了大量工作。把文档装入barrel建立索引&mdash;分析完一篇文档，之后把该文档装入barrel中，用内存中的hash表&mdash;字典，每个词汇被转换成一个wordID。当hash表字典中加入新的项时，笨拙地存入文件。一旦词汇被转换成wordID，它们在当前文档的出现就转换成hitlist，被写进正向barrel。索引阶段并行的主要困难是字典需要共享。<br />我们采用的方法是，基本字典中有140万个固定词汇，不在基本字典中的词汇写入日志，而不是共享字典。这种方法多个索引器可以并行工作，最后一个索引器只需处理一个较小的额外词汇日志。排序&mdash;为了建立反向索引，排序器读取每个正向barrel，以wordID排序，建立只有标题anchor <br />hi <br />t的反向索引barrel和全文反向索引barrel。这个过程一次只处理一个barrel，所以只需要少量暂存空间。排序阶段也是并行的，我们简单地同时运行尽可能多的排序器，不同的排序器处理不同的桶。由于barrel不适合装入主存，排序器进一步依据wordID和docID把它分成若干篮子，以便适合装入主存。然后排序器把每个篮子装入主存进行排序，并把它的内容写回到短反向barrel和全文反向barrel。<br />4.5搜索搜索的目标是提供有效的高质量的搜索结果。多数大型商业搜索引擎好像在效率方面花费了很大力气。因此我们的研究以搜索质量为重点，相信我们的解决方案也可以用到那些商业系统中。<br />Google查询评价过程见图4。 <br />1. 分析查询。 <br />2. 把词汇转换成wordID。<br />3. 在短barrel中查找每个词汇doclist的开头。<br />4. 扫描doclist直到找到一篇匹配所有关键词的文档 <br />5. 计算该文档的rank<br />6. 如果我们在短barrel，并且在所有doclist的末尾，开始从全文barrel的doclist的开头查找每个词，goto 第四步<br />7. 如果不在任何doclist的结尾，返回第四步。<br />8. 根据rank排序匹配文档，返回前k个。图4 <br />Google查询评价在有限的响应时间内，一旦找到一定数量的匹配文档，搜索引擎自动执行步骤8。这意味着，返回的结果是子优化的。我们现在研究其它方法来解决这个问题。过去根据PageRank排序hit，看来能够改进这种状况。<br />4.5.1 Ranking系统 <br />Google比典型搜索引擎保存了更多的web信息。每个hitlish包括位置，字号，大小写。另外，我们还考虑了链接描述文字。Rank综合所有这些信息是困难的。ranking函数设计依据是没有某个因素对rank影响重大。首先，考虑最简单的情况&mdash;单个词查询。为了单个词查询中一个文档的rank，Goole在文档的hitlist中查找该词。Google认为每个hit是几种不同类型（标题，链接描述文字anchor，URL，普通大字号文本，普通小字号文本，&hellip;&hellip;）之一，每种有它自己的类型权重。类型权重建立了一个类型索引向量。Google计算hitlist中每种hit的数量。然后每个hit数转换成count-weight。Count-weight开始随hit数线性增加，很快逐渐停止，以至于hit数与此不相关。我们计算count-weight向量和type-weight向量的标量积作为文档的IR值。最后IR值结合PageRank作为文档的最后rank <br />对于多词查询，更复杂些。现在，多词hitlist必须同时扫描，以便关键词出现在同一文档中的权重比分别出现时高。相邻词的hit一起匹配。对每个匹配hit <br />的集合计算相邻度。相邻度基于hit在文档中的距离，分成10个不同的bin值，范围从短语匹配到根本不相关。不仅计算每类hit数，而且要计算每种类型的相邻度，每个类型相似度对，有一个类型相邻度权type-prox-weight。Count转换成count-weight，计算count-weight <br />type-proc-weight的标量积作为IR值。应用某种debug mode所有这些数和矩阵与查询结果一起显示出来。这些显示有助于改进rank系统。<br />4.5.2反馈 rank函数有很多参数象type-weight和type-prox-weight。指明这些参数的正确值有点黑色艺术black <br />art。为此，我们的搜索引擎有一个用户反馈机制。值得信任的用户可以随意地评价返回的结果。保存反馈。然后，当修改rank函数时，对比以前搜索的rank，我们可以看到修改带来的的影响。虽然不是十全十美，但是它给出了一些思路，当rank函数改变时对搜索结果的影响。<br />5执行和结果搜索结果的质量是搜索引擎最重要的度量标准。完全用户评价体系超出了本文的论述范围，对于大多数搜索，我们的经验说明Google的搜索结果比那些主要的商业搜索引擎好。作为一个应用PageRank，链接描述文字，相邻度的例子，图4给出了Google搜索bill <br />Clinton的结果。它说明了Google的一些特点。服务器对结果进行聚类。这对过滤结果集合相当有帮助。这个查询，相当一部分结果来自whitehouse.gov域，这正是我们所需要的。现在大多数商业搜索引擎不会返回任何来自whitehouse.gov的结果，这是相当不对的。注意第一个搜索结果没有标题。因为它不是被抓到的。Google是根据链接描述文字决定它是一个好的查询结果。同样地，第五个结果是一个Email地址，当然是不可能抓到的。也是链接描述文字的结果。所有这些结果质量都很高，最后检查没有死链接。因为它们中的大部分PageRank值较高。PageRank百分比用红色线条表示。没有结果只含Bill没有Clinton或只含Clinton没有Bill。因为词出现的相近性非常重要。当然搜索引擎质量的真实测试包含广泛的用户学习或结果分析，此处篇幅有限，请读者自己去体验Google，<a href="http://google.stanford.edu/"><font color="#014982">http://google.stanford.edu/</font></a>。 <br />5.1存储需求除了搜索质量，Google的设计可以随着Web规模的增大而有效地增大成本。一方面有效地利用存储空间。表1列出了一些统计数字的明细表和Google存储的需求。由于压缩技术的应用知识库只需53GB的存储空间。是所有要存储数据的三分之一。按当今磁盘价格，知识库相对于有用的数据来说比较便宜。搜索引擎需要的所有数据的存储空间大约55GB。大多数查询请求只需要短反向索引。文件索引应用先进的编码和压缩技术，一个高质量的搜索引擎可以运行在7GB的新PC。 </p>
<p>5.2系统执行搜索引擎抓网页和建立索引的效率非常重要。Google的主要操作是抓网页，索引，排序。很难测试抓全部网页需要多少时间，因为磁盘满了，域名服务器崩溃，或者其它问题导致系统停止。总的来说，大约需要9天时间下载26000000网页（包括错误）。然而，一旦系统运行顺利，速度非常快，下载最后11000000网页只需要63小时，平均每天4000000网页，每秒48.5个网页。索引器和网络爬行机器人同步运行。索引器比网络爬行机器人快。因为我们花费了大量时间优化索引器，使它不是瓶颈。这些优化包括批量更新文档索引，本地磁盘数据结构的安排。索引器每秒处理54个网页。排序器完全并行，用4台机器，排序的整个过程大概需要24小时。<br />5.3搜索执行改进搜索执行不是我们研究的重点。当前版本的Google可以在1到10秒间回答查询请求。时间大部分花费在NFS磁盘IO上（由于磁盘普遍比机器慢）。进一步说，Google没有做任何优化，例如查询缓冲区，常用词汇子索引，和其它常用的优化技术。我们倾向于通过分布式，硬件，软件，和算法的改进来提高Google的速度。我们的目标是每秒能处理几百个请求。表2有几个现在版本Google响应查询时间的例子。它们说明IO缓冲区对再次搜索速度的影响。 <br />6结论 Google设计成可伸缩的搜索引擎。主要目标是在快速发展的World Wide <br />Web上提供高质量的搜索结果。Google应用了一些技术改进搜索质量包括PageRank，链接描述文字，相邻信息。进一步说，Google是一个收集网页，建立索引，执行搜索请求的完整的体系结构。 </p>
<p>6.1未来的工作大型Web搜索引擎是个复杂的系统，还有很多事情要做。我们直接的目标是提高搜索效率，覆盖大约100000000个网页。一些简单的改进提高了效率包括请求缓冲区，巧妙地分配磁盘空间，子索引。另一个需要研究的领域是更新。我们必须有一个巧妙的算法来决定哪些旧网页需要重新抓取，哪些新网页需要被抓取。这个目标已经由实现了。受需求驱动，用代理cache创建搜索数据库是一个有前途的研究领域。我们计划加一些简单的已经被商业搜索引擎支持的特征，例如布尔算术符号，否定，填充。然而另外一些应用刚刚开始探索，例如相关反馈，聚类（Google现在支持简单的基于主机名的聚类）。我们还计划支持用户上下文（象用户地址），结果摘要。我们正在扩大链接结构和链接文本的应用。简单的实验证明，通过增加用户主页的权重或书签，PageRank可以个性化。对于链接文本，我们正在试验用链接周围的文本加入到链接文本。Web搜索引擎提供了丰富的研究课题。如此之多以至于我们不能在此一一列举，因此在不久的将来，我们希望所做的工作不止本节提到的。<br />6.2高质量搜索当今Web搜索引擎用户所面临的最大问题是搜索结果的质量。结果常常是好笑的，并且超出用户的眼界，他们常常灰心丧气浪费了宝贵的时间。例如，一个最流行的商业搜索引擎搜索&ldquo;Bill <br />Clillton&rdquo;的结果是the Bill Clinton Joke of the Day: April 14, 1997。Google的 <br />设计目标是随着Web的快速发展提供高质量的搜索结果，容易找到信息。为此，Google大量应用超文本信息包括链接结构和链接文本。Google还用到了相邻性和字号信息。评价搜索引擎是困难的，我们主观地发现Google的搜索质量比当今商业搜索引擎高。通过PageRank分析链接结构使Google能够评价网页的质量。用链接文本描述链接所指向的网页有助于搜索引擎返回相关的结果（某种程度上提高了质量）。最后，利用相邻性信息大大提高了很多搜索的相关性。 </p>
<p>6.3可升级的体系结构除了搜索质量，Google设计成可升级的。空间和时间必须高效，处理整个Web时固定的几个因素非常重要。实现Google系统，CPU、访存、内存容量、磁盘寻道时间、磁盘吞吐量、磁盘容量、网络IO都是瓶颈。在一些操作中，已经改进的Google克服了一些瓶颈。Google的主要数据结构能够有效利用存储空间。进一步，网页爬行，索引，排序已经足够建立大部分web索引，共24000000个网页，用时不到一星期。我们希望能在一个月内建立100000000网页的索引。 </p>
<p>6.4研究工具 <br />Google不仅是高质量的搜索引擎，它还是研究工具。Google搜集的数据已经用在许多其它论文中，提交给学术会议和许多其它方式。最近的研究，例如，提出了Web查询的局限性，不需要网络就可以回答。这说明Google不仅是重要的研究工具，而且必不可少，应用广泛。我们希望Google是全世界研究者的资源，带动搜索引擎技术的更新换代。 <br />7致谢 Scott Hassan and Alan Steremberg评价了Google的改进。他们的才智无可替代，作者由衷地感谢他们。感谢Hector <br />Garcia-Molina, Rajeev Motwani, Jeff Ullman, and Terry <br />Winograd和全部WebBase开发组的支持和富有深刻见解的讨论。最后感谢IBM，Intel，Sun和投资者的慷慨支持，为我们提供设备。这里所描述的研究是Stanford综合数字图书馆计划的一部分，由国家科学自然基金支持，合作协议号IRI-9411306。DARPA <br />，NASA，Interva研究，Stanford数字图书馆计划的工业合作伙伴也为这项合作协议提供了资金。参考文献 ? <br />Google的设计目标是可升级到10亿网页。我们的磁盘和机器大概能处理这么多网页。系统各个部分耗费的总时间是并行的和线性的。包括网页爬行机器人，索引器和排序器。扩展后我们认为大多数数据结构运行良好。然而10亿网页接近所有常用操作系统的极限（我们目前运行在Solaris和Linux上）。包括主存地址，开放文件描述符的数量，网络socket和带宽，以及其它因素。我们认为当网页数量大大超过10亿网页时，会大大增加系统复杂性。 <br />9.2集中式索引体系的可升级性随着计算机性能的提高，海量文本索引的成本比较公平。当然带宽需求高的其它应用如视频，越来越普遍。但是，与多媒体例如视频相比，文本产品的成本低，因此文本仍然普遍。 </p>
<p>&nbsp;</p>
<p>图2 Google系统的工作流程图<br />(注：原图来自Sergey Brin and Lawrence Page, The Anatomy of a Large-Scale Hypertextual. <br />Web Search Engine, 1998.http://www-db.stanford.edu/%7Ebackrub/Google.html)</p>
<p>①Google使用高速的分布式爬行器(Crawler)系统中的漫游遍历器(Googlebot)定时地遍历网页，将遍历到的网页送到存储服务器(Store <br />Server)中。<br />②存储服务器使用zlib格式压缩软件将这些网页进行无损压缩处理后存入数据库Repository中。Repository获得了每个网页的完全Html代码后，对其压缩后的网页及URL进行分析，记录下网页长度、URL、URL长度和网页内容，并赋予每个网页一个文档号(docID)，以便当系统出现故障的时候，可以及时完整地进行网页的数据恢复。<br />③索引器(Indexer)从Repository中读取数据，以后做以下四步工作：<br />④(a)将读取的数据解压缩后进行分析，它将网页中每个有意义的词进行统计后，转化为关键词(wordID)的若干索引项(Hits)，生成索引项列表，该列表包括关键词、关键词的位置、关键词的大小和大小写状态等。索引项列表被存入到数据桶(Barrels)中，并生成以文档号(docID)部分排序的顺排档索引。<br />索引项根据其重要程度分为两种：当索引项中的关键词出现在URL、标题、锚文本(Anchor Text)和标签中时，表示该索引项比较重要，称为特殊索引项(Fancy <br />Hits)；其余情况则称为普通索引项(Plain <br />Hits)。在系统中每个Hit用两个字节(byte)存储结构表示：特殊索引项用1位(bit)表示大小写，用二进制代码111(占3位)表示是特殊索引项，其余12位有4位表示特殊索引项的类型(即hit是出现在URL、标题、链接结点还是标签中)，剩下8位表示hit在网页中的具体位置；普通索引项是用1位表示大小写，3位表示字体大小，其余12位表示在网页中的具体位置。</p>
<p>&nbsp;</p>
<p>顺排档索引和Hit的存储结构如图3所示。</p>
<p>图3 顺排档索引和Hit的存储结构</p>
<p>值得注意的是，当特殊索引项来自Anchor Text时，特殊索引项用来表示位置的信息（8位）将分为两部分：4位表示Anchor <br />Text出现的具体位置，另4位则用来与表示Anchor Text所链接网页的docID相连接，这个docID是由URL <br />Resolver经过转化存入顺排档索引的。<br />(b)索引器除了对网页中有意义的词进行分析外，还分析网页的所有超文本链接，将其Anchor Text、URL指向等关键信息存入到Anchor文档库中。<br />(c)索引器生成一个索引词表(Lexicon)，它包括两个部分：关键词的列表和指针列表，用于倒排档文档相连接(如图3所示)。<br />(d)索引器还将分析过的网页编排成一个与Repository相连接的文档索引(Document <br />Index)，并记录下网页的URL和标题，以便可以准确查找出在Repository中存储的原网页内容。而且把没有分析的网页传给URL <br />Server，以便在下一次工作流程中进行索引分析。<br />⑤URL分析器（URL Resolver）读取Anchor文档中的信息，然后做⑥中的工作。<br />⑥(a)将其锚文本(Anchor <br />Text)所指向的URL转换成网页的docID；(b)将该docID与原网页的docID形成&ldquo;链接对&rdquo;，存入Link数据库中；(c)将Anchor <br />Text指向的网页的docID与顺排档特殊索引项Anchor Hits相连接。<br />⑦数据库Link记录了网页的链接关系，用来计算网页的PageRank值。<br />⑧文档索引(Document Index)把没有进行索引分析的网页传递给URL Server，URL <br />Server则向Crawler提供待遍历的URL，这样，这些未被索引的网页在下一次工作流程中将被索引分析。<br />⑨排序器（Sorter）对数据桶(Barrels)的顺排档索引重新进行排序，生成以关键词(wordID)为索引的倒排档索引。倒排档索引结构如图4所示：</p>
<p>图4 倒排档索引结构<br />⑩将生成的倒排档索引与先前由索引器产生的索引词表(Lexicon)相连接产生一个新的索引词表供搜索器(Searcher)使用。搜索器的功能是由网页服务器实现的，根据新产生的索引词表结合上述的文档索引(Document <br />Index)和Link数据库计算的网页PageRank值来匹配检索。</p>
<p><br />在执行检索时，Google通常遵循以下步骤（以下所指的是单个检索词的情况）：<br />(1)将检索词转化成相应的wordID；<br />(2)利用Lexicon，检索出包含该wordID的网页的docID；<br />(3)根据与Lexicon相连的倒排档索引，分析各网页中的相关索引项的情况，计算各网页和检索词的匹配程度，必要时调用顺排档索引；<br />(4)根据各网页的匹配程度，结合根据Link产生的相应网页的PageRank情况，对检索结果进行排序；<br />(5)调用Document Index中的docID及其相应的URL，将排序结果生成检索结果的最终列表，提供给检索用户。<br />用户检索包含多个检索词的情况与以上单个检索词的情况类似：先做单个检索词的检索，然后根据检索式中检索符号的要求进行必要的布尔操作或其他操作。</p>]]>
</content>
</entry>

<entry>
<title>做google要须必注意的十八点(不是说笑的)</title>
<link rel="alternate" type="text/html" href="http://www.bokee.net/blogmodule/weblogcomment_viewEntry/1984050.html"/>
<issued>2008-07-15T11-48-53 CST</issued> 
<created>2008-07-15T11-48-53 CST</created>
<modified>2008-07-15T11-48-53Z</modified>
<id>tag:meizhouwangxiang.blogchina.com,2005://1984050</id>
<author>
<name>meizhouwangxiang</name>
<url>http://www.bokee.net/blogmodule/weblogcomment_index/meizhouwangxiang.html</url>
</author>
<dc:subject>知识文集</dc:subject>
<content type="text/html" mode="escaped" xml:lang="zh_CN" xml:base="http://www.bokee.net"> 
<![CDATA[<p class="post-body">Google的Adsense广告计划是一个广受欢迎的广告产品，这个产品提供不少网站的最佳网上广告收入来源，关于Adsense的使用技巧方面的文章已经很多了，同时，Adsense也对参加这个广告计划服务制定了明确的服务条款政策，并要求大家严格遵守，以便Adsense帐号不会被Google除名。</p>
<p>我在访问网站和论坛的时候，我发现每天都会碰到一些滥用Adsense的情况，所以这里就列举一些使用Google Adsnese的小技巧，你可能已经直到其中一些，也可能知道得很少。这些都是从Google Adsense的计划政策中挑选出来的，并且进行了一些简化。</p>
<p>1、无论是任何原因，都不要点击你自己的Adsense广告。你应该很清楚的明白这一点。这是一个关闭你Adsense帐户的最佳途径。因此永远也不要告诉你公司同伙或朋友去点击广告。如果你的家人或孩子想通过帮你点击广告来增加你的收入，这会间接使你没有收入。更有甚者，不能设置点击奖励、使用自动点击工具、或者其它带有点击欺骗性质的软件，Adsense非常善于检测欺诈点击，如果你实在想要查看点击页面的效果，请使用Google广告预览工具。</p>
<p>2、永远不要改变Adsense的代码。我们有足够的手段来优化与定制Adsense的颜色，以适合你背景或边界的需求。在广告代码的外面增加你自己的代码，绝对不要在广告或者搜索代码里面瞎修改。你修改的内容他们会知道。搜索代码在颜色和放置的位置上有很多限制，但你必须遵守这些规则。如果违反规则，那些代码就可能停止工作。</p>
<p>3、不要在网页上放置超过3个广告单元和1个链接单元或者2个搜索广告框。无论如何，增加广告单元都不会出现新的广告内容了。但这些限制是他们要求的，那最好还是按照要求去做。</p>
<p>4、不要在同一个页面上放置和Google Adsense相竞争的类似的匹配文本广告或者搜索框。不要尝试创建一个和Adsense广告类似的链接结构。不要在带有Adsense搜索的页面上使用其它搜索工具。不过他们允许会员推介以及限定文字的链接。</p>
<p>5、不要透露你帐号的机密资料，例如CTR、CPM和单独广告单元的收入。不过，你可以透漏最近一次所获得的总体收入。</p>
<p>6、广告标题标签只能是&ldquo;赞助商链接&rdquo;或者&ldquo;广告&rdquo;。其他的标签都是不允许的。我看过很多网站的广告标签写的是其他内容，不应该使用这种方法来吸引别人的眼球。</p>
<p>7、不要将广告点击设置为默认打开新页面。Adsense的广告应该在同一个页面里打开，你可能已经使用&ldquo;base target&rdquo;标签使得默认所有链接都打开新窗口或某个帧，那么现在就快去修改代码吧，他们是不愿意广告在新窗口内打开的。</p>
<p>8、不要建立多个Adsense帐号。一个帐号可以在多个网站上使用，你不需要为5个不同的网站创造5个帐号，一个帐号就能完成一切。如果害怕某个帐号因为违反规则而被关闭，那么相信我，他们会将你所有关联帐号都关闭的。你可以利用渠道来跟踪点击与实时统计。他们会在新的网站上自动侦测并显示相关广告。</p>
<p>9、只在有内容的页面放置广告。广告商只为内容付费，内容驱动相关广告，尽管你会从一些错误登录、注册、感谢页面或者欢迎页内容等等中得到一些点击，但是你会因此被请出Adsense。</p>
<p>10、不要隐藏广告元素。更改广告颜色和边界可以很容易将广告融入网站页面。我见过很多网站将广告地址设置为背景颜色。虽然将广告和你的网站融合是个好主意，但是隐藏广告的相关元素是不允许的。因此也不要使用漂浮图片、弹出窗口、表格等挡住广告内容。</p>
<p>11、不要通过电子邮件发送Adsense广告。当然HTML格式电子邮件可以使得Adsense的JavaScript广告显示出来，但是这违反了计划政策。你不能让广告内容在邮件里显示出来，哪怕只有一次，他们在看着呢。</p>
<p>12、审核你的网站内容。Adsense不允许这样几个内容的页面放置广告：MP3 、视频、新闻组和图像结果等内容的网页。也排除任何色情、仇恨与暴力，或非法内容。</p>
<p>13、不要在广告点击或者搜索后改变输出结果。确保你不以任何方式改变用户点击广告的那个网站。不要使用框架、最小化、重定向或者其他有可能改变广告页面或者搜索页面用户点击后的显示结果。</p>
<p>14、避免过多的广告及关键字堆砌。尽管这可能是一个比较特殊的灰色地带并且需要斟酌考虑现实，不过现在Google Adsense已经修改了广告显示方式，你只要关注内容并提高流量就可以得到比其他广告商更多的收入，所以不需要放太多的广告。关键字堆砌可以使得目标广告更准确，但应该适可而止。</p>
<p>15、确认你支持语言。Adsense支持&ldquo;中国（简体）、日文、丹麦、韩国、荷兰、挪威、英国、波兰、芬兰、葡萄牙、法国、俄罗斯、德国、西班牙、匈牙利、瑞典、意大利和土耳其&rdquo;。另外，Adsense搜索广告可以支持捷克、中国繁体。如果你的网页不支持这些语言，那么就不要使用这类代码。</p>
<p>16、每个网页上，在以上所述的广告单元，搜索框，和链接单元以外，可以投放一个同类推介按钮。</p>
<p>17、不要将Google的广告做为候补广告。当目标广告不能显示的时候，少数服务允许你防止候补广告。这需要建立一个简单的HTML网页，将广告代码放进去。Aadsense允许使用这个链接显示其他广告而不是展示公益广告，但从未用Adsense广告作为候补广告。</p>
<p>18、不要在广告单元旁放置可能引起误导的图片。这是一个为了提高点击率所广泛使用的一个方法，在广告文字旁增加同类型的图片，这将给人产生印象是这些图片和广告是相关联的，并产生误导或者虚假广告点击。在图片和文字广告旁插入一个分割线或空格也不行。你必须要让广告画面排列方式并不容易误导或迷惑你网站的用户。</p>
<p>有什么疑问的时候，最好还是求助于Adsense的帮助人员，并了解Google相关的Adsense计划政策，他们是很有帮助的！</p>]]>
</content>
</entry>

<entry>
<title>测试使用</title>
<link rel="alternate" type="text/html" href="http://www.bokee.net/blogmodule/weblogcomment_viewEntry/1984043.html"/>
<issued>2008-07-15T11-46-37 CST</issued> 
<created>2008-07-15T11-46-37 CST</created>
<modified>2008-07-15T11-46-37Z</modified>
<id>tag:meizhouwangxiang.blogchina.com,2005://1984043</id>
<author>
<name>meizhouwangxiang</name>
<url>http://www.bokee.net/blogmodule/weblogcomment_index/meizhouwangxiang.html</url>
</author>
<dc:subject>知识文集</dc:subject>
<content type="text/html" mode="escaped" xml:lang="zh_CN" xml:base="http://www.bokee.net"> 
<![CDATA[ type="text/javascript"><!--
google_ad_client = "pub-2872743802181609";
/* 300x250, 创建于 08-7-14 */
google_ad_slot = "9041403935";
google_ad_width = 300;
google_ad_height = 250;
//-->
</script> type="text/javascript"
src="http://pagead2.googlesyndication.com/pagead/show_ads.js">
</script>]]>
</content>
</entry>

<entry>
<title>阿里妈妈广告申请图解</title>
<link rel="alternate" type="text/html" href="http://www.bokee.net/blogmodule/weblogcomment_viewEntry/1983525.html"/>
<issued>2008-07-15T09-58-50 CST</issued> 
<created>2008-07-15T09-58-50 CST</created>
<modified>2008-07-15T09-58-49Z</modified>
<id>tag:meizhouwangxiang.blogchina.com,2005://1983525</id>
<author>
<name>meizhouwangxiang</name>
<url>http://www.bokee.net/blogmodule/weblogcomment_index/meizhouwangxiang.html</url>
</author>
<dc:subject>知识文集</dc:subject>
<content type="text/html" mode="escaped" xml:lang="zh_CN" xml:base="http://www.bokee.net"> 
<![CDATA[<div align="center">
<p class="MsoNormal" style="MARGIN: 0cm 0cm 0pt" align="left"><span style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'"><strong><u></u></strong></span></p>
<p class="MsoNormal" style="MARGIN: 0cm 0cm 0pt" align="left"><span style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'">【<strong>本文介绍阿里妈妈申请专题：</strong>】阿里妈妈广告联盟来了，来得如此凶猛。本文发布有关阿里妈妈广告申请的政策和技能知识，文中将<a href="http://hexun.com/wwwlm"><u><font color="#0000ff">阿里妈妈</font></u></a>广告和</span><span lang="EN-US">Google Adsense</span><span style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'">广告紧密联系在一起进行了详细的阐述和对比。最后大家决定是申请阿里妈妈还是申请</span><span lang="EN-US">Google Adsense</span><span style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'">，会有一个清晰的思路。</span></p>
<p class="MsoNormal" style="MARGIN: 0cm 0cm 0pt" align="left"><span lang="EN-US"><o:p>&nbsp;</o:p></span></p>
<p class="MsoNormal" style="MARGIN: 0cm 0cm 0pt" align="left"><span style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'"><a href="http://hexun.com/wwwlm"><span style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'"><u><font color="#0000ff">阿里妈妈</font></u></span></a>在国内能用了一个</span><span lang="EN-US">1</span><span style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'">月的时间就在站长圈里迅速蹿红暂成为最好的广告交易品牌，阿里妈妈在博客，尤其对于中小型的网站更为照顾，提倡没有做不好的广告原则。</span> <span style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'">阿里妈妈广告申请直达：</span><span lang="EN-US"><a href="http://hexun.com/wwwlm"><span lang="EN-US"><u><font color="#0000ff">www.alimama.com</font></u></span></a><br />Google ADSense</span><span style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'">在阿里妈妈没出现之前一直是本站收入的重要来源，但其盈利状态并不是很乐观。由于</span><span lang="EN-US">Adsense</span><span style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'">在国内低价点击以及繁琐的支付方式，使其美中不足，略为逊色于阿里妈妈。</span></p>
<p class="MsoNormal" style="MARGIN: 0cm 0cm 0pt" align="left"><span lang="EN-US"><o:p>&nbsp;</o:p></span></p>
<p class="MsoNormal" style="MARGIN: 0cm 0cm 0pt" align="left"><strong><span lang="EN-US">A</span><span style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'">、单价比较：</span></strong> <span style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'">互联网知识引擎</span><span lang="EN-US">Google ADSense</span><span style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'">的单价一直在</span><span lang="EN-US">0.02$-0.05$</span><span style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'">之间徘徊。折换成人民币，大概就是￥</span><span lang="EN-US">0.1-</span><span style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'">￥</span><span lang="EN-US">0.30</span><span style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'">左右。宝之路，啊里妈妈的单价也是大概在￥</span><span lang="EN-US">0.1-</span><span style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'">￥</span><span lang="EN-US">0.20</span><span style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'">左右。</span><span lang="EN-US">Google ADSense</span><span style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'">单价较阿里妈妈高，但也没高多少。阿里妈妈时长计费广告位的估价办法是日</span><span lang="EN-US">IP/52</span><span style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'">或是</span><span lang="EN-US">IP/60</span><span style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'">每周按是现在啊里妈妈通过他后台的统计得出和公式</span><span lang="EN-US">.</span></p>
<p class="MsoNormal" style="MARGIN: 0cm 0cm 0pt" align="left"><span lang="EN-US"><o:p>&nbsp;</o:p></span></p>
<p class="MsoNormal" style="MARGIN: 0cm 0cm 0pt" align="left"><strong><span lang="EN-US">B</span><span style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'">、结算比较：</span></strong><span lang="EN-US"> Google ADSense</span><span style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'">为支票收取，</span><span lang="EN-US">100USD</span><span style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'">为最低结算标准，而且是这个月满</span><span lang="EN-US">100USD</span><span style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'">，要到下个月的上旬才能收到支票。</span> <span style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'">阿里妈妈的支付方式为支付宝支付，结时间是每月</span><span lang="EN-US">15</span><span style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'">号，结算周期是上一个整月。</span></p>
<p class="MsoNormal" style="MARGIN: 0cm 0cm 0pt" align="left"><span lang="EN-US"><o:p>&nbsp;</o:p></span></p>
<p class="MsoNormal" style="MARGIN: 0cm 0cm 0pt" align="left"><strong><span lang="EN-US">C</span><span style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'">、耗损比较：</span></strong><span lang="EN-US">Google ADSense</span><span style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'">每张支票的快递费（</span><span lang="EN-US">25USD</span><span style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'">）</span><span lang="EN-US">&mdash;&mdash;</span><span style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'">这个可以不用，每张支票的托收费用（￥</span><span lang="EN-US">50-</span><span style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'">￥</span><span lang="EN-US">60</span><span style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'">不等），将近一个月的托收时间，在银行之间来回跑浪费的时间和精力，甚至还有金钱</span><span lang="EN-US">&mdash;&mdash;</span><span style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'">交通费。</span> <span style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'">阿里妈妈要收服务费，服务费分别是广告交易金额的按时长计费的</span><span lang="EN-US">8%</span><span style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'">，按点击计费的</span><span lang="EN-US">15%</span><span style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'">。从这个层面上说，按时长计费对</span><span lang="EN-US">blogger</span><span style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'">更有优势。但对于广告主而言，按点击付费显然来的更有效果。</span> <span style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'">如果你还没有开始投放阿里妈妈广告</span><span lang="EN-US">,</span><span style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'">现在开始在你网站投放吧</span><span lang="EN-US">.</span></p>
<p class="MsoNormal" style="MARGIN: 0cm 0cm 0pt" align="left"><span lang="EN-US"><o:p>&nbsp;</o:p></span></p>
<p class="MsoNormal" style="MARGIN: 0cm 0cm 0pt" align="left"><span lang="EN-US"><strong>D</strong></span><span style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'"><strong>、结论：</strong>对于流量很小的</span><span lang="EN-US">blogger</span><span style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'">和小型的网站来说阿里妈妈比</span><span lang="EN-US">Google ADSense</span><span style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'">合适。为什么？做</span><span lang="EN-US">Google ADSense</span><span style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'">你可能要三个月，五个月，甚至更长的时间才能收到一张支票。而且很有可能就是在这个过程中，你已经没兴趣再做下去了，里面的钱就算是丢了。而阿里妈妈则不同，通过支付宝支付，即使你只赚了</span><span lang="EN-US">1</span><span style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'">块钱也可以提现。</span></p>
<p class="MsoNormal" style="MARGIN: 0cm 0cm 0pt" align="left"><span style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'"></span>&nbsp;</p>
</div>
<div align="center">
<p class="MsoNormal" style="MARGIN: 0cm 0cm 0pt" align="left"><span style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'">阿里妈妈面世已经快一个月了，有很多朋友对于阿里妈妈的注册以及发布广告位流程不是很清楚。特别是作为卖家，对于发布广告位之类的操作了解不多，特发布注册秘笈，以帮助大家更好的理解阿里妈妈的运作流程。</span></p>
<p class="MsoNormal" style="MARGIN: 0cm 0cm 0pt" align="left"><span style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'"></span>&nbsp;</p>
<p class="MsoNormal" style="MARGIN: 0cm 0cm 0pt" align="left"><span style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'">整体来说，要想成功在<a href="http://hexun.com/wwwlm"><u><font color="#0000ff">阿里妈妈</font></u></a>注册，需要完成三个步骤：</span></p>
<p class="MsoNormal" style="MARGIN: 0cm 0cm 0pt" align="left"><span style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'">一、注册成为阿里妈妈的会员</span></p>
<p class="MsoNormal" style="MARGIN: 0cm 0cm 0pt" align="left"><span style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'">二、登记网站并发布广告位</span></p>
<p class="MsoNormal" style="MARGIN: 0cm 0cm 0pt" align="left"><span style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'">三、投放广告代码</span></p>
<p class="MsoNormal" style="MARGIN: 0cm 0cm 0pt" align="left"><span style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'"></span>&nbsp;</p>
<p class="MsoNormal" style="MARGIN: 0cm 0cm 0pt" align="left"><span style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'">注意：上面这三个步骤主要是针对卖家在阿里妈妈出售广告位。</span></p>
<p class="MsoNormal" style="MARGIN: 0cm 0cm 0pt" align="left"><span style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'">话不多说，开始注册了！</span></p>
<p class="MsoNormal" style="MARGIN: 0cm 0cm 0pt" align="left"><span style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'"></span>&nbsp;</p>
<p class="MsoNormal" style="MARGIN: 0cm 0cm 0pt" align="left"><span style="COLOR: #ff0000"><strong>第一部分 注册成为阿里妈妈会员</strong></span></p>
<p class="MsoNormal" style="MARGIN: 0cm 0cm 0pt" align="left"><span style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'">由于阿里妈妈是一个广告交易平台，所以对于会员来讲，可以同时在阿里妈妈上进行广告买卖交易，也就是说在阿里妈妈上存在两种角色：买家和卖家。买家主要是针对的广告主，可以通过平台购买网站的广告位，是花钱的。卖家则针对的是网站站长，站长在自己的网站上开辟广告位，投放上阿里妈妈的代码后，就可以在阿里妈妈平台上进行交易了，一旦售出将可以获得广告收益，简单地说就是收钱的或者赚钱的。</span></p>
&nbsp;</div>
<div align="left"><span lang="ZH-CN"></span></div>
<div align="left"><span style="COLOR: #000000"><strong>第1步，进入注册页面。</strong></span></div>
<div align="center"><span style="COLOR: red"><strong><img height="15" src="http://www.dabaoku.com/gif/154/gif161.gif" width="15" onload="var image=new Image();image.src=this.src;if(image.width&gt;0 &amp;&amp; image.height&gt;0){if(image.width&gt;=700){this.width=700;this.height=image.height*700/image.width;}}" alt="" /> 点击此图进入注册<img height="15" src="http://www.dabaoku.com/gif/154/gif161.gif" width="15" onload="var image=new Image();image.src=this.src;if(image.width&gt;0 &amp;&amp; image.height&gt;0){if(image.width&gt;=700){this.width=700;this.height=image.height*700/image.width;}}" alt="" /> </strong></span></div>
<div align="center">&nbsp;<a href="http://www.alimama.com/membersvc/rd.do?w=p_10482470&amp;p=&amp;f=http://www.alimama.com/membersvc/promotion/tjyj.htm" target="_blank"><img src="http://img.alimama.cn/images/adzone/banner_180x250_tjyj.jpg" onload="var image=new Image();image.src=this.src;if(image.width&gt;0 &amp;&amp; image.height&gt;0){if(image.width&gt;=700){this.width=700;this.height=image.height*700/image.width;}}" border="0" alt="" /></a> </div>
<div align="center"><span lang="ZH-CN"><iframe style="WIDTH: 468px; HEIGHT: 43px" name="google_ads_frame" marginwidth="0" marginheight="0" src="http://pagead2.googlesyndication.com/pagead/ads?client=ca-pub-0623360686143457&amp;dt=1185374690359&amp;lmt=1185374690&amp;format=468x60_as&amp;output=html&amp;correlator=1185374690203&amp;channel=9071588147&amp;url=http%3A%2F%2Fpost.blog.hexun.com%2Fwwwlm%2Fpostarticle.aspx%3Farticleid%3D10980620&amp;color_bg=C3D9FF&amp;color_text=000000&amp;color_link=0000FF&amp;color_url=CC0000&amp;color_border=C3D9FF&amp;ad_type=text_image&amp;flash=9&amp;u_h=768&amp;u_w=1024&amp;u_ah=742&amp;u_aw=1024&amp;u_cd=32&amp;u_tz=480&amp;u_his=1&amp;u_java=true" frameborder="0" width="468" scrolling="no" height="60" allowtransparency="allowtransparency"></iframe><a href="http://wwwlm.photo.hexun.com/34183497_d.html" target="_blank"><img alt="查看更多精彩图片" src="http://photo10.hexun.com/p/2008/0215/170917/b_E50A21182EBB4AD93DB2613F749CA9C3.jpg" onload="var image=new Image();image.src=this.src;if(image.width&gt;0 &amp;&amp; image.height&gt;0){if(image.width&gt;=700){this.width=700;this.height=image.height*700/image.width;}}" border="0" /></a><br /></span>
<div align="left"><span style="COLOR: red"></span>&nbsp;</div>
<span style="COLOR: red">
<p class="MsoNormal" style="MARGIN: 0cm 0cm 0pt" align="left"><span style="COLOR: red"><font face="宋体" color="#000000"><strong>第2步，填写注册会员信息。<br /></strong>阿里妈妈的会员注册很简单，只需要填写Email、密码、昵称以及任意一种联系方式（电话、手机和旺旺）就好了。要注意的有两个地方：Email是阿里妈妈唯一标识会员的帐号名称，同时也是登录用的用户名，而且相关的结算邮件等重要信息都会发送到所填写的邮箱中，最好选择长期可用且稳定的邮箱（推荐使用Yahoo的免费邮箱）；注册页面里在联系方式部分有三个输入框，至少需要添些一个，否则是不能注册的。具体如何填写参见下图。<a href="http://wwwlm.photo.hexun.com/34183496_d.html" target="_blank"><u><font color="#0000ff"> </font></u></a><br /></font></span>
<p>&nbsp;</p>
<p class="MsoNormal" style="MARGIN: 0cm 0cm 0pt" align="left"><span style="COLOR: red"><font face="宋体" color="#000000">提交成功后将看到下面这个页面。 </font></span></p>
<div align="center"><img alt="查看更多精彩图片" src="http://photo10.hexun.com/p/2008/0215/170917/b_3E96BE667146F24F019487B958F31F2F.jpg" onload="var image=new Image();image.src=this.src;if(image.width&gt;0 &amp;&amp; image.height&gt;0){if(image.width&gt;=700){this.width=700;this.height=image.height*700/image.width;}}" border="0" /><br /></div>
<p>&nbsp;</p>
<p class="MsoNormal" style="MARGIN: 0cm 0cm 0pt" align="left"><span style="COLOR: red"><font face="宋体" color="#000000"></font></span>&nbsp;</p>
<p class="MsoNormal" style="MARGIN: 0cm 0cm 0pt" align="left"><span style="COLOR: red"><font face="宋体" color="#000000"><strong>第3步，进入邮箱，查看邮件。</strong></font></span></p>
<p class="MsoNormal" style="MARGIN: 0cm 0cm 0pt" align="left"><span style="COLOR: red"><font face="宋体" color="#000000">为了保证会员填写的邮箱真实有效，在会员填写完注册信息后，阿里妈妈会发送一封欢迎邮件到所填写的邮箱中。不要以为欢迎邮件就不用管了，这封邮件里面包含了会员的激活码，必须点击阿里妈妈发送的激活链接才能完成会员注册流程。</font></span></p>
<p class="MsoNormal" style="MARGIN: 0cm 0cm 0pt" align="left"><span style="COLOR: red"><font face="宋体" color="#000000">有人会问，如果我没有收到邮件怎么办？首先要确认的是你的邮箱是否填写正确？如果邮箱都填错了，那就只能重新注册了。一般来讲，系统发送欢迎邮件到收到邮件之间是有一个时间差的，时间长短随着不同的邮件服务商而有所不同。如果隔了半个小时了还没有收到邮件，这时候你可以到垃圾邮件里面去看看，有时候邮件服务商可能会误认为是垃圾邮件。如果垃圾邮箱里也没有，那你就要考虑是不是你的邮箱无法收到阿里妈妈发送的邮件，可以考虑换个邮箱去注册（继续推荐使用Yahoo免费邮箱）。<br />第4步，点击激活链接，进行会员激活<br />打开阿里妈妈的欢迎邮件，找到邮件中的会员激活链接，见下图的红圈圈。点击激活链接，将会打开一个窗口，如果看到后面的那张激活成功的截图，那么恭喜你，你成功啦！</font></span></p>
<p class="MsoNormal" style="MARGIN: 0cm 0cm 0pt" align="center"><span style="COLOR: red"><font face="宋体" color="#000000"><a href="http://wwwlm.photo.hexun.com/34183494_d.html" target="_blank"><img alt="查看更多精彩图片" src="http://photo10.hexun.com/p/2008/0215/170917/b_E78421C6ABEB9C05E4B9EAAA59E3E0F8.jpg" onload="var image=new Image();image.src=this.src;if(image.width&gt;0 &amp;&amp; image.height&gt;0){if(image.width&gt;=700){this.width=700;this.height=image.height*700/image.width;}}" border="0" /></a><br /><br /></font></span><span style="COLOR: red"><font face="宋体" color="#000000">
<p class="MsoNormal" style="MARGIN: 0cm 0cm 0pt" align="left"><br />完成上面简单的4个操作，您已经成功的拥有了一个阿里妈妈的会员帐号。但是不要以为这就结束了，作为卖家，您还需要告诉买家您要卖什么东西。</p>
<p class="MsoNormal" style="MARGIN: 0cm 0cm 0pt" align="center"><a href="http://wwwlm.photo.hexun.com/34183493_d.html" target="_blank"><img alt="查看更多精彩图片" src="http://photo10.hexun.com/p/2008/0215/170917/b_CB5C5EFF9F8DA7B47EBA2F52669BB4D1.jpg" onload="var image=new Image();image.src=this.src;if(image.width&gt;0 &amp;&amp; image.height&gt;0){if(image.width&gt;=700){this.width=700;this.height=image.height*700/image.width;}}" border="0" /></a></p>
<p class="MsoNormal" style="MARGIN: 0cm 0cm 0pt" align="left"><br />所以我们进入第二部分，登记网站并发布广告位。</p>
<p class="MsoNormal" style="MARGIN: 0cm 0cm 0pt" align="left">&nbsp;</p>
<p class="MsoNormal" style="MARGIN: 0cm 0cm 0pt" align="left"><strong style="COLOR: #ff0000">第二部分：登记网站并发布广告位</strong></p>
<p class="MsoNormal" style="MARGIN: 0cm 0cm 0pt" align="left">现在你已经成功注册成为阿里妈妈会员了，使用刚刚注册的用户名密码登录系统。<br />下图为登录界面，输入用户名密码。</p>
<p class="MsoNormal" style="MARGIN: 0cm 0cm 0pt" align="center"><a href="http://wwwlm.photo.hexun.com/34183483_d.html" target="_blank"><img alt="查看更多精彩图片" src="http://photo10.hexun.com/p/2008/0215/170917/b_3C54389C14DDCFA80BC1D3CF60CAD794.jpg" onload="var image=new Image();image.src=this.src;if(image.width&gt;0 &amp;&amp; image.height&gt;0){if(image.width&gt;=700){this.width=700;this.height=image.height*700/image.width;}}" border="0" /></a><br /><br /></p>
<p class="MsoNormal" style="MARGIN: 0cm 0cm 0pt" align="left">登录成功后将进入下面这个界面：</p>
<p class="MsoNormal" style="MARGIN: 0cm 0cm 0pt" align="center"><a href="http://wwwlm.photo.hexun.com/34183482_d.html" target="_blank"><img alt="查看更多精彩图片" src="http://photo10.hexun.com/p/2008/0215/170917/b_F3F1F43F5E1F62A2D888922C98805D4A.jpg" onload="var image=new Image();image.src=this.src;if(image.width&gt;0 &amp;&amp; image.height&gt;0){if(image.width&gt;=700){this.width=700;this.height=image.height*700/image.width;}}" border="0" /></a><br /></p>
<p class="MsoNormal" style="MARGIN: 0cm 0cm 0pt" align="left">第1步，选择我的阿里妈妈，进入控制面板，选择发布新网站</p>
<p class="MsoNormal" style="MARGIN: 0cm 0cm 0pt" align="center"><a href="http://wwwlm.photo.hexun.com/34183481_d.html" target="_blank"><img alt="查看更多精彩图片" src="http://photo10.hexun.com/p/2008/0215/170917/b_4F73782BCAC957953AE97C1EF69D0C9E.jpg" onload="var image=new Image();image.src=this.src;if(image.width&gt;0 &amp;&amp; image.height&gt;0){if(image.width&gt;=700){this.width=700;this.height=image.height*700/image.width;}}" border="0" /></a><br /></p>
<p class="MsoNormal" style="MARGIN: 0cm 0cm 0pt" align="left">第2步，发布新网站</p>
<p class="MsoNormal" style="MARGIN: 0cm 0cm 0pt" align="center"><a href="http://wwwlm.photo.hexun.com/34183480_d.html" target="_blank"><img alt="查看更多精彩图片" src="http://photo10.hexun.com/p/2008/0215/170917/b_EEBD64DD7361D24E33E5EFDA74CA3C0E.jpg" onload="var image=new Image();image.src=this.src;if(image.width&gt;0 &amp;&amp; image.height&gt;0){if(image.width&gt;=700){this.width=700;this.height=image.height*700/image.width;}}" border="0" /></a><br /><br /></p>
<p class="MsoNormal" style="MARGIN: 0cm 0cm 0pt" align="left">第3步，发布新广告位</p>
<p class="MsoNormal" style="MARGIN: 0cm 0cm 0pt" align="center"><a href="http://wwwlm.photo.hexun.com/34183479_d.html" target="_blank"><img alt="查看更多精彩图片" src="http://photo10.hexun.com/p/2008/0215/170917/b_D36A1A3D620D8F85D77B8EE401A04564.jpg" onload="var image=new Image();image.src=this.src;if(image.width&gt;0 &amp;&amp; image.height&gt;0){if(image.width&gt;=700){this.width=700;this.height=image.height*700/image.width;}}" border="0" /></a><br /><br /></p>
<p class="MsoNormal" style="MARGIN: 0cm 0cm 0pt" align="left">先别着急，发布完广告位后并不意味着已经大功告成，您还需要进行最后一步：投放广告代码。</p>
<p class="MsoNormal" style="MARGIN: 0cm 0cm 0pt" align="left">&nbsp;</p>
<p class="MsoNormal" style="MARGIN: 0cm 0cm 0pt" align="left"><span style="COLOR: red; FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'"><strong>第三部分：投放广告代码</strong></span></p>
<p class="MsoNormal" style="MARGIN: 0cm 0cm 0pt" align="center"><span style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'"></span>&nbsp;</p>
<p class="MsoNormal" style="MARGIN: 0cm 0cm 0pt" align="left"><span style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'">注意：最后一步其实是最为重要的，如果代码投放不正确的话，会导致广告位无法激活，从而使得网站无法通过审核，那就收不到钱了！</span><font face="Times New Roman"> </font></p>
<p class="MsoNormal" style="MARGIN: 0cm 0cm 0pt" align="left"><span lang="EN-US"><o:p><font face="Times New Roman">&nbsp;</font></o:p></span></p>
<p class="MsoNormal" style="MARGIN: 0cm 0cm 0pt" align="left"><span style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'">由于网站各有不同，这里只是简单的说明一下。在页面需要投放广告位的地方，将刚才复制的广告代码粘贴上去，刷新已经投放广告代码的页面，就能看到下面的虚位以待的图片了（见下图）。这里要特别说明的是：投放代码的页面一定要在前面登记的网站下，千万不要放在其他地方或者线下测试，否则很有可能导致广告位无法激活，这里要特别注意！</span></p>
<p class="MsoNormal" style="MARGIN: 0cm 0cm 0pt" align="center"><span style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'"><a href="http://wwwlm.photo.hexun.com/34183478_d.html" target="_blank"><img alt="查看更多精彩图片" src="http://photo10.hexun.com/p/2008/0215/170917/b_6D39BE650ADCE2BFCBCE62FBA59D9BC0.jpg" onload="var image=new Image();image.src=this.src;if(image.width&gt;0 &amp;&amp; image.height&gt;0){if(image.width&gt;=700){this.width=700;this.height=image.height*700/image.width;}}" border="0" /></a><br /></span></p>
<p class="MsoNormal" style="MARGIN: 0cm 0cm 0pt" align="left"><span style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'">好了，经过以上三个部分的操作，你已经成功的在<a href="http://hexun.com/wwwlm"><u><font color="#0000ff">阿里妈妈</font></u></a>注册成为卖家，下一步要做的就是等待阿里妈妈工作人员的审核了。审核速度现在非常快，一般上午注册的，下午就能审核了。审核的条件也不是特别严格，只要您的网站不涉及到黄赌毒或者违法内容，即使只有</span><span lang="EN-US"><font face="Times New Roman">1</font></span><span style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'">个</span><span lang="EN-US"><font face="Times New Roman">PV</font></span><span style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'">也是没有问题的。一旦审核通过，你的广告位就可处于待售状态。现在<a href="http://hexun.com/wwwlm"><u><font color="#0000ff">阿里妈妈</font></u></a>买家活动频繁，你的广告位可能一下子就被买掉了哦！</span></p>
<p class="MsoNormal" style="MARGIN: 0cm 0cm 0pt" align="left"><span style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'">下面这张截图是投放广告代码后的页面。</span></p>
<a style="COLOR: #7fd4ff" href="http://wwwlm.blog.hexun.com/" target="_blank"><img src="http://photos.album.mop.com/c03/47/22/2a/7e882a/md_1195564242639.jpg" onload="var image=new Image();image.src=this.src;if(image.width&gt;0 &amp;&amp; image.height&gt;0){if(image.width&gt;=700){this.width=700;this.height=image.height*700/image.width;}}" alt="" /></a></font></span></p>
</p>
<div style="COLOR: #ff0000" align="center"><u><font color="#0000ff"><img alt="查看更多精彩图片" src="http://photo10.hexun.com/p/2008/0215/170917/b_38D85D4F33518D7E89E05E7F252B7FF7.jpg" onload="var image=new Image();image.src=this.src;if(image.width&gt;0 &amp;&amp; image.height&gt;0){if(image.width&gt;=700){this.width=700;this.height=image.height*700/image.width;}}" border="0" /></font></u></div>
</span><span style="FONT-FAMILY: 宋体; mso-ascii-font-family: 'Times New Roman'; mso-hansi-font-family: 'Times New Roman'">&nbsp;</span><font face="宋体"> </font></div>]]>
</content>
</entry>

</feed>
