Blog - Latest News
,

如何五分钟搞定五个小时的工作?今天教你怎样找数据

做投行、行研、咨询等岗位,有时候会要求你找各种各样的行业数据。那么有没有什么好用的找数据技巧呢?

今天小编为大家分享一篇来自知乎的干货,详细介绍了如何通过数据源,excel,爬虫工具来解决找数据时遇到的问题。让工作和学习更加轻松~

如何寻找官方的数据来源
找到了数据,却无法溯源,而数据不能使用的时候?数据说法不一,而没有一个官方的来源,无法抉择的时候?这两个问题有些类似,都是需要找到一个官方的来源。
股票基本面财务数据:当然最正统的来源是上市公司的年报:
美股:SEC.gov | Home
港股:http://www.hkex.com.hk/chi/indexc.htm
上交所:上海证券交易所
深交所:深圳证券交易所
官方经济数据:
美联储:Board of Governors of the Federal Reserve System
统计局:中华人民共和国国家统计局
外汇:
国家外汇管理局:http://www.safe.gov.cn/

方法:
主要说说一下个人找来源的简单方法,姑且叫它“关键字溯源法”吧。其实就是从财经新闻中寻找那些关键字,然后在搜索引擎上寻找它的网站。除去一些伪相关等无意义的财经新闻外,一些新闻是由专业的财经记者写的,一些是引用一些业内著名人士的分析的,还有一些则是翻译外国的一些文件或新闻。在这些新闻内容中,多多少少会有一些机构组织名称(通常是英文名)是容易被我们忽视的,而这些恰恰是关键信息来源,甚至比你看的新闻更加客观

数据找不到,如何继续阐述问题?
有些数据的确是找不到的,这时候就需要自己预测了。最常用的方法就是利用计量经济学的方法建立经济模型,根据已知的因素进行线性回归分析,进一步去预测某些数据。
之前见过一个人,在投行工作期间研究高速公路上市公司,需要未来几年计划铺设的公里数,有些政府网站会提供相关数据,但是有些政府网站并没有提供,网上也没有任何相关数据。最终他根据几个已知的数据,比如历史铺设的公里数、GDP增长率等等自己建立了一个经济模型进行预测,结果据说还挺准确的。
比较常用的统计软件就是Eviews、SPSS这些了吧。涉及到的具体问题比较复杂,也需要根据具体问题来分析
数据库标价太贵,怎么办?
有些数据明明就有,却来自于某些咨询公司,标价动不动就是上千刀!现有的数据库往往太贵,一般人承受不起。所以当一些数据可以从网页上获取得到,却没有相应的接口时,就需要用爬虫了。
1. Excel
Excel可以选择复制粘贴的方式,但效率较低,且无法更新。所以在Excel中调用数据是更为明智的做法。
优点:简单快捷,不需要太多的计算机知识;数据能够自动更新。
缺点:不使用大规模爬取数据;效率较低。
具体做法是:
在网上找到想要的表格数据。复制网站,打开Excel,选择数据-自网站
2. 爬虫+数据库(构建自己的数据库)
上面的Excel算个“小爬虫”了。但真正高效的还是得用程序编写。个人使用的是Python+MongoDB,当然使用其它的组合也可以。
优点:可以大规模的获取数据;效率高;可以构建个性化的数据库。
缺点:需要学习编程;可能面临反爬虫的问题等。以我前几天做的举个例子,想要求出A股所有上市公司的资本回报率(Returnof Invested Capital ,ROIC),无奈它不是一个会计科目,也不是常用的财务指标,没发现有网站提供这个信息(提供了其实也得用爬虫,寻找的时间成本也高),所以需要自己计算。而完整的财务报表也没有免费的API提供,只有一些网页提供了。所以最终我写了爬虫爬了约5000个网站,搜集了约100000条的财务数据把它算出来了。具体做法是:

(1)写出爬虫,将信息爬取下来。网页操作:
urllib:https://pypi.python.org/pypi/urllib3

requests:Requests: HTTP for Humans
爬虫及爬虫框架:
BeautifulSoup:Beautiful Soup Documentation
lxml:The lxml.etree Tutorial
scrapy:Scrapy入门教程
pyspider:pyspider

(2)将数据写入数据库中。
pymongo:PyMongo 3.2.2 Documentation
sqlite3:11.13. sqlite3 — DB-API 2.0interface for SQLite databases
MySQLdb:GitHub – farcepest/MySQLdb1: MySQL databaseconnector for Python (legacy version)
(3)从数据库调出并作计算。
numpy:NumPy — Numpy
pandas:Python Data Analysis Library
scipy:SciPy.org — SciPy.org
(4)数据可视化。
matplotlib http://www.labri.fr/perso/nrougier/teaching/matplotlib/
同时pandas也能够画图(有时二三步也可调换,先计算好后将计算结果写入数据库。)通过该种方法,就可以在各个网站上将需要的数据(可获取的或不可获取的)放进自己的数据库,下次需要调用的时候就可以轻易调用了。对于一次性的数据,甚至不用写入数据库,调用一遍并进行计算就可以得到想要的数据了。对于研究相关领域有很大用处。

本文转载自知乎,作者@林骏翔,

MeanValue诚意推荐阅读,版权归原作者所有。

“If you fail to prepare, you prepare to fail.”

我们如何帮你?

在美国找工作,绝对不是一件容易的事情, 我们需要付出很多很多,也不一定可以达到我们想得到的,哪怕只是一个小小的实习机会。 因为, 你要做很多的准备,从礼仪,修改个人简历, 准备面试和投递简历,到后期的一轮二轮面试。每一关都是需要学习和领悟。我们不希望你被动的接受你所面临的事情, 我们来帮助你,主动的激励你, 辅助你找到合适的实习工作!伴你实习计划伴你实习是Mean Value Consulting为2018 暑期实习特别制定的计划.

  1. 还在犹豫要不要实习? 快跟我聊聊,我来告诉你,为什么你不能再犹豫了!
  2. 还担心自己的岗位没有合适的资源? MEAN VALUE  上百家合作公司, 金融,快消,会计, 咨询, 审计, 人力, 管理,体育等30+岗位任你选择
  3. 还不清楚自己的人生规划?快来联系我们,一对一专业顾问免费咨询,告诉你未来的路要怎么走!
  4. 我怎么确定实习是我想做的实习?

MEAN VALUE 会结合学校和你的工作经历背景、GPA、经验、 性格、兴趣、 能力、价值观等多个维度对学员的求职竞争力进行综合评定,专业化评估学员职业发展意向,提供个性化职业评估分析报告,规划职业方向以及求职目标。并帮助你顺利得到暑期实习的满意offer!

伴你实习报名或咨询方式
扫描上图二维码添加专业求职顾问
回复”伴你实习“
即可进行活动报名和项目咨询 
并获得
专业求职顾问对你一对一求职咨询并制定个性化服务!
3 我们的网上讲座?来了有惊喜

没错,本周日美东时间晚上八点,我们还会为您带来免费暑期实习的讲座!为你再增添一份能力和知识!

本期要讲的内容详细讲解了为什么要实习,如何通过网站增加拿到实习的几率,你适合什么公司,还有时间线等等, 干活满满。

最最重要,我们前三十位报名的同学,我们有神秘大礼等你拿!

扫描二维码, 添加求职小帮手, 我们会耐心为你解答你所有的问题!

2018© Copyright - Mean Value Consulting