ABOUT ME


Hi, this is HaoJie Wu, nice to meet you.
人不疯狂枉年少,且狂,且痴,且醉。

吴浩杰

  • 北京-朝阳
  • 18500148965
  • 415900617@QQ.com

    用博客记录生活和工作的点点滴滴,苔花如米小,也学牡丹开, 纵使自己很渺小,但一定会给这个世界增添点点温暖。年轻为自己而奋斗,年老,就让回忆去祭奠一切吧!

  • 截至:   共计博文:7 篇,博客总字数: 2 万 5771 字
  • Work Process

    ★ 一枚爬虫工程师,并对大数据处理与分析充满无限的兴趣,享受数据分析之美。

        18年毕业于软件工程,对大数据充满了无限的热情,实习阶段主要从事传统网站开发,后面接触到了 大数据,便喜欢上了大数据这个圈子。坚持在csdn论坛发布最新研究,累计粉丝108人,发布文章43篇,博客访问量达:170088次。
        关于爬虫方面,熟练掌握并使用webmagic、scrapy、request-html、selenium、puppeteer等爬虫框架,先后对微信小程序,web端,安卓App等都能抓包分析。
        关于ETL数据清洗,掌握并使用离线Python版自定义框架,掌握并使用kettle、Datax等数据处理工具,Java版kafka-stream流式数据处理。 因为从毕业之后一直接触数据性工作,因此对Hadoop生态圈常用组件都有所了解,关于spark,了解Java版本spark简单使用,并掌握Python版本Dpark与Pyspark的使用。关于BI工具,搭建并使用宜信开源BI报表展示工具:Davinci。
        关于数据同步,了解并自定义开发及使用过阿里的DataX相信自己会在大数据的生态圈内越走越远,数据之美,值得我去探索。


    工作经历

     陕西省物流集团-陕西数图行信息科技有限公司(在职)

    • 陕西省商机信息采集
    • 使用 scrapy 框架、selenium框架对陕西省内20多个招标类网站信息持续进行采集,并使用flask搭建公司内部商机信息平台,对接钉钉消息推送,让销售部门能第一时间掌握整个陕西省最新商机情况。其中对最核心商机平台进行了破解:中国采购招标网爬虫采集破解
      开发技能::Python scrapy框架,Mysql数据库,selenium,flask框架
    • 陕西省工会城市困难职工解困脱困数据分析
    • 对陕西省内11个地市,108个区县的城市困难职工数据进行100多项维度统计分析,产出多项数据报表,并为《陕西省解困脱困报告》提供数据分析结果支撑。
      开发技能:Mysql数据库,Davinci数据报表
    • 西安市特种设备电梯数据库分析
    • 对西安市内特种设备监督管理局所管辖西安市电梯数据库进行优化分析,并提供优化建议报告;对于特种设备电梯数据与其他(锅炉、游乐场等共计8项特种设备)数据进行分析处理,并采用kettle工具进行历史数据库与新版本数据库进行迁移。
      开发技能:Mysql数据库,kettle工具
    • 物通陕西平台数据工作建设
    • 作为陕西省第一个大宗商品物流平台,提供多方面数据支持,包含统计局、年鉴网、知县网等108个若干数据类网站进行数据采集与清洗,对于合法合规数据进行平台化处理,对陕西大宗商品物流提供强有力数据支持服务。针对持续性数据更新工作,自研一套数据采集系统,持续监控陕西省内多项政府类网站,垂直行业类网站等,做到数据实时更新。
      开发技能:Mysql数据库,kafka、MongoDB、ocr图片文字识别、Linux服务器、davinci数据驾驶舱


     宜信-北京致诚信用管理有限公司

    • 全国各大招聘网、房产网数据获取
    • 使用 scrapy 框架对全国各大招聘网(拉钩,boss,智联等 8 个),房产网(链家,我爱 我家等 7 个)网站全量数据获取并保持数据同步更新,并通过 kafka Stream 对抓取数据 按既定规则进行流式ETL处理,最终数据存储至MongoDB,并对热点数据实时更新至基 于redis的图数据库redisGraph并对外提供API查询接口。
      开发技能::Python scrapy框架,Mysql数据库,kafka Stream流式处理,Linux服务器,redisGraph 图数据库、MongoDB数据库
    • 企查查,天眼查等工商数据,法院公告,开庭公告等信息获取
    • 使用 webmagic 框架对企查查、天眼查、启信宝等工商信息进行获取,使用 scrapy, selenium等框架对法院公告等信息进行获取,对全量数据进行获取并保持同步更新并存储 至MySQL,同时基于工商数据,实现企业Logo筛选算法。
      开发技能:Python scrapy框架,Mysql数据库,JAVA webmagic框架
    • 大众点评等各类反爬解密并分析
    • 对大众点评网前端加密数据进行破解,成功解密并获取其美食信息,并使用echarts对其 美食信息进行数据分析;对各类微信小程序,手机APP信息使用Fiddler,jadx等工具进 行解密获取其数据接口。
      个人技能:Fiddler,jadx
    • 基于微信支付宝信息查询接口开发
    • 对支付宝、微信个人信息查询底层接口进行开发,并使用 adb 实现百台手机集群群控管 理,使用 flask 实现底层通讯接口开发,基于 MQTT 协议进行手机通讯,使用 flask-websocket进行手机查询任务发布调度与结果信息反馈。
      个人技能:python flask框架、flask-websocket模块;adb手机集群管理
    • 基于Tasker对手机短信验证码抓取
    • 在爬虫自动化数据获取中,遇到需要登录的网站,往往需要接收手机验证码,因此,基于tasker实现手机验证码自动化接口开发,实现爬虫自动化信息获取。
      个人技能:python flask框架、Tasker自动化工具


     北京坚果金服科技公司

    • 大数据数据ETL处理
    • 对风控项目中的海量数据使用本公司自己开发的框架进行ETL处理。职责:风控项目中,对公司数据集数据仓库中的数据配合团队进行ETL操作,处理成需要的数据供团队其他成员使用。
      开发语言:PYTHON, JAVA
    • 大数据平台数据处理与监控
    • 对多类服务器及数据库中数据进行ETL处理,并对每日处理结果进行监控预警,动态反馈调整规则,提高数据处理效率。
      开发语言:PYTHON


     新华社-北京新华多媒体数据有限公司

    • 主流新闻网站爬虫开发
    • 使用 scrapy 框架对新华网,人民网等多个不同类型主流新闻网站进行抓取数据抓取,结合redis实现多服务器分布式部署抓取,途中主要涉及网页动态加载,通过抓包解决各种请求,并最终实现功能。
      开发语言:PYTHON
    • 《影联盟》电影网站开发
    • 模块一前台:主要负责电影详细页的页面搭建工作,实现基本静态网站界面搭建,模块二后台:使用ThinkPhP框架完成与MYSQL的连接并实现前台各类需求完成数据交互工作。 模块三在影院座位排布中进行智能推荐,其中调用 3D 立体框架,实现用户选座时角切换,增强用户体验。
      开发语言:PHP, HTML, JAVASCRIPT, JQUERY,CSS

    Thanks