louishwh

返回项目列表

数据爬虫项目

WatonGroup

N/A

数据工程负责人

覆盖财经资讯、暗盘、新股等四大数据源自动化采集微服务拆分后任务稳定运行，满足实时数据需求

项目概述

在2020年末，为了丰富公司产品的数据维度，您启动并开发了一个系列的数据爬虫项目。该项目的主要目标是从各大主流财经网站（如华尔街见闻）和数据源，自动化地抓取包括7x24快讯、财经要闻、新股数据和暗盘交易数据在内的各类信息，为公司的行情、资讯和交易业务提供数据支持。

技术架构

核心爬虫框架: Python, Scrapy
数据处理与服务化: Kotlin, SpringBoot
数据存储: Elasticsearch (用于新闻资讯)

核心贡献

1. 技术选型与框架应用

爬虫框架选型: 经过对Nutch, Crawler4j, WebMagic等Java爬虫框架和Python的Scrapy框架进行对比分析后，您最终决定采用Scrapy作为核心爬虫框架，因为它功能强大、社区活跃、性能优越。
Scrapy实践: 您深入学习并掌握了Scrapy，成功实现了对目标网站（如华尔街见闻）的数据拉取、页面解析和数据结构化存储。

2. 核心数据抓取

新闻资讯: 开发了针对“7x24快讯”和“财经要闻”的爬虫，实现了新闻内容的实时抓取和入库。
新股与暗盘数据: 开发并维护了针对新股上市信息（如保荐人、孖展数据）和暗盘交易数据的爬虫，为交易系统提供了重要的数据补充。

3. 服务化与重构

微服务拆分: 在项目后期，您对爬虫服务进行了重构。为了提高系统的内聚性和可维护性，您将暗盘数据抓取的逻辑从原有的综合爬虫服务（crawler）中剥离出来，创建了一个独立的微服务（darktrade），这体现了您在架构设计上的持续优化和演进。

项目总结

数据爬虫项目是您在2020年开辟的一个全新技术领域。通过这个项目，您：

掌握了网络爬虫这项重要技能，具备了从互联网获取和整合数据的能力，这在数据驱动的今天尤为宝贵。
深入实践了Python技术栈，特别是Scrapy框架，进一步拓宽了您的技术广度。
展现了优秀的架构演进能力，通过微服务拆分，将系统向着更合理、更可维护的方向重构，这是架构师的核心职责之一。

这个项目为您打开了数据工程领域的大门，为您未来的技术发展提供了更多的可能性。

技术栈

Python Scrapy Kotlin SpringBoot

核心亮点

成功实现了对主流财经网站（如华尔街见闻）新闻资讯的抓取
掌握了Scrapy爬虫框架，并将其应用于实际项目中
对爬取服务进行了重构，将暗盘数据抓取功能独立成微服务

项目信息

团队规模 6 人数据采集与服务团队

预算范围资讯与数据平台建设预算

核心干系人华通国际资讯团队、交易与研究业务线

技术栈 4 项

治理亮点

建立数据采集合规与反爬策略库
制定任务调度、异常报警与日志追踪机制