数据爬虫项目

WatonGroup
N/A
数据工程负责人
覆盖财经资讯、暗盘、新股等四大数据源自动化采集 微服务拆分后任务稳定运行,满足实时数据需求

项目概述

在2020年末,为了丰富公司产品的数据维度,您启动并开发了一个系列的数据爬虫项目。该项目的主要目标是从各大主流财经网站(如华尔街见闻)和数据源,自动化地抓取包括7x24快讯财经要闻新股数据暗盘交易数据在内的各类信息,为公司的行情、资讯和交易业务提供数据支持。

技术架构

  • 核心爬虫框架: Python, Scrapy
  • 数据处理与服务化: Kotlin, SpringBoot
  • 数据存储: Elasticsearch (用于新闻资讯)

核心贡献

1. 技术选型与框架应用

  • 爬虫框架选型: 经过对Nutch, Crawler4j, WebMagic等Java爬虫框架和Python的Scrapy框架进行对比分析后,您最终决定采用Scrapy作为核心爬虫框架,因为它功能强大、社区活跃、性能优越。
  • Scrapy实践: 您深入学习并掌握了Scrapy,成功实现了对目标网站(如华尔街见闻)的数据拉取、页面解析和数据结构化存储。

2. 核心数据抓取

  • 新闻资讯: 开发了针对“7x24快讯”和“财经要闻”的爬虫,实现了新闻内容的实时抓取和入库。
  • 新股与暗盘数据: 开发并维护了针对新股上市信息(如保荐人、孖展数据)和暗盘交易数据的爬虫,为交易系统提供了重要的数据补充。

3. 服务化与重构

  • 微服务拆分: 在项目后期,您对爬虫服务进行了重构。为了提高系统的内聚性和可维护性,您将暗盘数据抓取的逻辑从原有的综合爬虫服务(crawler)中剥离出来,创建了一个独立的微服务(darktrade),这体现了您在架构设计上的持续优化和演进。

项目总结

数据爬虫项目是您在2020年开辟的一个全新技术领域。通过这个项目,您:

  • 掌握了网络爬虫这项重要技能,具备了从互联网获取和整合数据的能力,这在数据驱动的今天尤为宝贵。
  • 深入实践了Python技术栈,特别是Scrapy框架,进一步拓宽了您的技术广度。
  • 展现了优秀的架构演进能力,通过微服务拆分,将系统向着更合理、更可维护的方向重构,这是架构师的核心职责之一。

这个项目为您打开了数据工程领域的大门,为您未来的技术发展提供了更多的可能性。