老网站更换后台之数据完整迁移及如何保证老新闻地址可以打开
做网站开发的公司,应该都给网站做过搬家。但是,有一些情况会遇到一些很老的网站,版面比较简单,但是收录很好。遇到这样的,企业通常都不敢给这些网站改版。生怕改版了之前的内容打不开了。
其实,这种担心是可以通过吧老网站数据原封不动的迁移到新的网站后台来解决的。这种行业内习惯称之为网站数据迁移。也就是吧其他cms或者其他数据库中的图文新闻,迁移到不同的网站后台程序的不同数据库中。并且,通过合适的调配,是完全可以让老网站改版、换后台、保证已收录内容完全可以打开的。
那么,应该怎么做网站数据的转移呢?
信和网站维护中心,工作中遇到过几个类似的需求,按照当时数据迁移过程中遇到的实际情况总结出来以下几点,抛砖引玉,如果有说的不对的地方,希望能给与批评指正。
1)数据库为数据源的内容转移
大致又可分为如下几个细分步骤
1.1 数据源数据库分析
将老网站的数据库结构分析明白,能找到老网站cms的数据字典的话,配合起来好一些
1.2 新后台数据结构分析
分析新网站后台的数据库内容录入涉及到的表和数据表的字段结构,理清楚文章录入后发生写入和更新操作涉及到的数据。
1.3 数据导入模块程序编制及导入
编写程序,读取1.1中老网站数据条目并按照新网站后台的实际字段需要做数据结构转换,将转换后的数据字段直接写入新网站后台的数据库对应的表中
这样操作,需要对两个后台的内容模型、数据字段标记形式、数据库字段存储形式等细节有比较仔细的推敲的基础上进行,技术要求相对高一些。
其实,1.3过程,其实可以采用模拟发包的形式,将1.2处理完成的原始数据直接模拟人工录入(例如POST请求)的形式将拼接好的数据提交到新网站后台的录入地址
2)网站html采集为数据源的内容转移
有个别客户网站可能托管在其他技术服务公司,无法拿到网站的数据库和代码(不用惊讶,确实存在。还有的付费拿到了代码,数据库被删除了...)等各种原因,无法直接获取到老网站后台的数据库数据的。对于这种无法拿到自己老网站数据库的网站,如果想要把内容导入到新的后台,也是可以的。
这种情况,可以通过编写爬虫程序,采集老网站html内容,将老网站的各种文章字段、图片及音视频素材等汇总整理到本地(或者动态采集不在本地存放),然后再通过1.2、1.3的步骤录入到新网站后台。或者是1.2步骤之后模拟发包的形式保存到新后台。
3)老网站图片及音视频附件的处理
3.1 可以直接上传附件的情况
直接将老网站的附件目录直接上传到新网站后台,不需要吧正文部分对应的图片、附件、音视频等资源的路径做二次转换
3.2 无法直接将老网站后台附件上传到新后台(没有ftp权限或者服务器权限的情况)
需要在上文中1.3的步骤过程中,分析图片和音视频的上传请求,通过模拟在新后台的附件上传请求,将老网站的图片及音视频、附件等文件上传到新后台。
4)内容转移到新网站之后的细节处理
如果说做事情要追求做到极致的话,其实数据导入到新后台之后,还有一个重要的环节。就是将老网站的历史url挨个做301到新网站后台对应稿件的对应新url。
这个是一个对工作精密程度要求很高的工作,很少有做的。但是对于用户体验比较好。进入建站行业至今,很少有客户提出这个需求(知道的少,即使知道了,这个成本也超出大多数人的预估开支)。有个别客户,给他们做过这种301处理,客户很是细心,把老网站的所有url地址挨个整理到了excel文档中,并且在迁移之前就告诉我们,他想在换了后台之后,做这个301处理。所以,有了这个需求,我们在向新的后台导入数据的时候,其实就有了一个预留的操作。在导入数据到新的网站系统的时候,所有新数据库中的文章id都保留了原始网站系统的id。并且,新网站后台的路径配置上,也预留好了方便配置新旧网站301操作的设置。最后,完整实现了客户的需求。
这样做了,老网站所有的内容,在换到新的后台之后都是可以打开的,而且搜索引擎收录的文章数量不会大幅度减少。上面提到的那个客户,他做了详细的301设置,及其他网站内结构和内容聚类操作。网站上线后,神奇的事情发生了。他的网站收录数量比改版前(老后台),增长了25%以上。
细节决定一切,有很多时候,大家都知道这个,但是真的能做到实处的,可能没几个人。
包括这个文章页是,如果您也有类似的想法,最好能切实执行下去。要不,再多的筹划、计划、讨论都只是个停留在脑海中的构想而已。
信和网站维护中心,关注网站上线后技术问题。有兴趣讨论更多网站技术问题,可以访问我们的拓尔思政务网站群数据导入服务相关内容。
如果有网站数据导入方面的好的意见、建议,也欢迎一起讨论、分享,这里可以看到我们的联系方式。