搜索引擎预处理的第一步就是提取网站页面的文字内容,SEO 人员应该尽量降低搜索引擎提取文字内容的难度,也就是精简 HTML 代码,是真正的文字内容比例提高,尽量减少 HTML 格式代码。

从某种意义上来说,格式代码对关键词来说是噪声,精简代码就是提高信噪比。一起来看看网站中常见的可以精简代码的地方。
1、使用 CSS 定义文字字体、颜色、尺寸及页面排版。
很多网站即使用 CSS ,有在可见文字部分用 style 或 font 在定义一遍字体、尺寸等,这是完全没有必要的冗余代码。
2、使用外部文件。
将 CSS 和 JavaScript 放在外部文件中,页面 HTML 中只放一行代码进行调用就可以了。很多网站源文件经常可以看到大片的 CSS 和 JavaScript 代码,而且 JavaScript 代码还常出现在 HTML 最前面,这就使真正有用的文字部分被推到后面。
3、减少或删除注释。
代码中的注释只是给程序员或页面设计人员的提示,对用户和搜索引擎来说毫无作用,只能成为噪声。
4、减少表格,尤其是嵌套表格。
现在网页大多使用 CSS 排版,表格使用大大减少。但有时候表格使用时必需的,也不必刻意完全避免,只要不出现多层嵌套表格,产生大量无用代码就可以了。
关于文件大小限制,Google 技术指南曾建议,HTML 文件最好现在在100KB以下,页面上链接数在100个以下;百度建议 HTML 文件不要超过128KB。随着搜索引擎迭代更新,抓取文件大小已经不再考虑范围内了。
注意事项
尽管搜索引擎可以抓取更大的文件,但大多数情况下只索引一部分内容,所以文件使用越小越好。大文件浪费资源不说,加上大量冗余格式代码,可能使实质内容被推到实际被索引的部分之外。