职位描述
岗位职责:
1、设计和开发分布式网络爬虫程序;
2、分析爬取过程,提供技术实现方案;
3、分析静态网页结构,解析网页数据,对数据进行过滤,去重,结构化处理;
4、设计优化爬虫调度系统,优化调度策略。
任职要求:
1、熟悉JAVA,Python编程;
2、熟悉前端技术,HTML,JavaScript,Ajax等;
3、熟悉网络编程,对TCP/IP,HTTP有深入理解;
4、熟练使用正则表达式,精通网页数据提取;
5、熟练使用Mysql,熟悉Nosql数据库如Redis等;
6、有Web项目开发经验者优先;
7、具备Web挖掘,搜索引擎相关知识,有从事网络爬虫、网页去重、网页信息抽取工作经验者优先;
8、具有良好的沟通和团队协作能力;
9、做事严谨,责任心强。工作条理清楚,善于学习总结。具备良好的团队协作能力。