职位详情
杭州市·钱塘区
1-3年·大专
职位详情
岗位职责:
负责爬虫产品的开发与维护;
参与爬虫系统架构的设计和开发;
优化爬虫系统代码、算法,提高爬虫系统的稳定性和扩展性;
研究网站的反爬策略,并给出反爬措施;
对抓取的数据进行清洗、预处理、入库,包括去除重复数据、处理缺失值、规范化数据格式等;
维护爬虫项目代码仓库;
岗位要求:
要求至少2-3年工作经验
熟练使用 Pyhton,熟练使用常用的爬虫框架( 比如 scrapy 等 ),了解反爬套路及破解方法
熟悉 web 前端技术,对 cookie 管理、登录等流程有深入理解,熟练使用 bs4、xpath 等文本解析工具
熟悉各种网络协议,熟悉 web 前端,熟悉 js、html 等
熟悉 Linux 开发环境,熟悉 git 工具
熟悉 Oracle、Mysql 数据库,对 Mongodb、Redis 有一定的使用经验
有了解过瑞数,有验证码破解经验者优先
企业介绍
企研数据科技(杭州)有限公司是一家为学术智库研究、政府市场治理等领域提供大数据及技术服务的高新技术企业,于2018年5月在杭州正式成立。目前,公司已正式成为国家高新技术企业,具有ISO9001质量管理体系和ISO27001信息安全管理体系的资质认证,拥有20余项自主知识产权。
公司自成立以来,始终秉持“大数据应优先为国为公服务”的基本理念,坚持以大数据资源与相关技术服务于中国学术研究与智库建设为己任。先后服务了北京大学、清华大学、浙江大学、武汉大学、中国人民大学在内的数十所顶尖或知名高校的学术科研机构。近年来,团队与来自浙江大学等多所高校的著名学术机构和智库单位开展战略合作,联合研发了浙大卡特-企研中国涉农研究数据库(简称CCAD)、浙商大泰隆-企研中国普惠金融数据库(简称TFID)和中国公共政策与绿色发展数据库(简称CPPGD)等已具广泛影响力的特色专题数据库。与多所高校或科研机构签订战略合作协议,推动产学研融合发展和数字化人才培养。
近年来,公司不断为相关部委开展市场主体的监测和治理提供科学的数据支撑,多次获得农业农村部相关司局的表扬。团队通过直接撰写研究报告和大数据分析服务支撑的方式,为相关部委提供了决策依据,多份基于数据库数据的智库报告被中央部委采纳,或是获得副国级、省部级领导的肯定性批示。
企业官网
企业信息
白杨街道2号大街501号
导航
分享
收藏
投递简历
选择在线简历和附件进行投递(可多选)
提示
电子邮箱
分享到QQ空间
分享到微博