大数据知识管理
1.如何快速全面建立自己的大数据知识体系
所谓的大数据平台不是独立存在的,比如百度是依赖搜索引擎获得大数据并开展业务的,阿里是通过电子商务交易获得大数据并开展业务的,腾讯是通过社交获得大数据并开始业务的,所以说大数据平台不是独立存在的,重点是如何搜集和沉淀数据,如何分析数据并挖掘数据的价值。
我可能还不够资格回答这个问题,没有经历过一个公司大数据平台从无到有到复杂的过程。不过说说看法吧,也算是梳理一下想法找找喷。
这是个需求驱动的过程。曾经听过spotify的分享,印象很深的是,他们分享说,他们的hadoop集群第一次故障是因为,机器放在靠窗的地方,太阳晒了当机了(笑)。
从简单的没有机房放在自家窗前的集群到一直到现在复杂的数据平台,这是一个不断演进的过程。对小公司来说,大概自己找一两台机器架个集群算算,也算是大数据平台了。
在初创阶段,数据量会很小,不需要多大的规模。这时候组件选择也很随意,Hadoop一套,任务调度用脚本或者轻量的框架比如luigi之类的,数据分析可能hive还不如导入RMDB快。
监控和部署也许都没时间整理,用脚本或者轻量的监控,大约是没有ganglia、nagios,puppet什么的。这个阶段也许算是技术积累,用传统手段还是真大数据平台都是两可的事情,但是为了今后的扩展性,这时候上Hadoop也许是不错的选择。
当进入高速发展期,也许扩容会跟不上计划,不少公司可能会迁移平台到云上,比如AWS阿里云什么的。小规模高速发展的平台,这种方式应该是经济实惠的,省了运维和管理的成本,扩容比较省心。
要解决的是选择平台本身提供的服务,计算成本,打通数据出入的通道。整个数据平台本身如果走这条路,可能就已经基本成型了。
走这条路的比较有名的应该是netflix。也有一个阶段,你发现云服务的费用太高,虽然省了你很多事,但是花钱嗖嗖的。
几个老板一合计,再玩下去下个月工资发布出来了。然后无奈之下公司开始往私有集群迁移。
这时候你大概需要一群靠谱的运维,帮你监管机器,之前两三台机器登录上去看看状态换个磁盘什么的也许就不可能了,你面对的是成百上千台主机,有些关键服务必须保证稳定,有些是数据节点,磁盘三天两头损耗,网络可能被压得不堪重负。你需要一个靠谱的人设计网络布局,设计运维规范,架设监控,值班团队走起7*24小时随时准备出台。
然后上面再有平台组真的大数据平台走起。然后是选型,如果有技术实力,可以直接用社区的一整套,自己管起来,监控部署什么的自己走起。
这个阶段部署监控和用户管理什么的都不可能像两三个节点那样人肉搞了,配置管理,部署管理都需要专门的平台和组件;定期Review用户的作业和使用情况,决定是否扩容,清理数据等等。否则等机器和业务进一步增加,团队可能会死的很惨,疲于奔命,每天事故不断,进入恶性循环。
当然有金钱实力的大户可以找Cloudera,Hortonworks,国内可以找华为星环,会省不少事,适合非互联网土豪。当然互联网公司也有用这些东西的,比如Ebay。
接下去你可能需要一些重量的组件帮你做一些事情。比如你的数据接入,之前可能找个定时脚本或者爬log发包找个服务器接收写入HDFS,现在可能不行了,这些大概没有高性能,没有异常保障,你需要更强壮的解决方案,比如Flume之类的。
你的业务不断壮大,老板需要看的报表越来越多,需要训练的数据也需要清洗,你就需要任务调度,比如oozie或者azkaban之类的,这些系统帮你管理关键任务的调度和监控。数据分析人员的数据大概可能渐渐从RDBMS搬迁到集群了,因为传统数据库已经完全hold不住了,但他们不会写代码,所以你上马了Hive。
然后很多用户用了Hive觉得太慢,你就又上马交互分析系统,比如Presto,Impala或者SparkSQL。你的数据科学家需要写ML代码,他们跟你说你需要Mahout或者Spark MLLib,于是你也部署了这些。
至此可能数据平台已经是工程师的日常工作场所了,大多数业务都会迁移过来。这时候你可能面临很多不同的问题。
比如各个业务线数据各种数据表多的一塌糊涂,不管是你还是写数据的人大概都不知道数据从哪儿来,接下去到哪儿去。你就自己搞了一套元数据管理的系统。
你分析性能,发现你们的数据都是上百Column,各种复杂的Query,裸存的Text格式即便压缩了也还是慢的要死,于是你主推用户都使用列存,Parquet,ORC之类的。又或者你发现你们的ETL很长,中间生成好多临时数据,于是你下狠心把pipeline改写成Spark了。
再接下来也许你会想到花时间去维护一个门户,把这些零散的组件都整合到一起,提供统一的用户体验,比如一键就能把数据从数据库chua一下拉到HDFS导入Hive,也能一键就chua一下再搞回去;点几下就能设定一个定时任务,每天跑了给老板自动推送报表;或者点一下就能起一个Storm的topology;或者界面上写几个Query就能查询Hbase的数据。这时候你的数据平台算是成型了。
当然,磕磕碰碰免不了。每天你都有新的问题和挑战,否则你就要失业了不是?你发现社区不断在解决你遇到过的问题,于是你们架构师每天分出很多时间去看社区的进展,有了什么新工具,有。
2.大数据的管理方式
(1)在OA办公和Internet应用中,存在多种类型的数据格式,DMC通过自动识别未知文件的格式,可以管理各种文档信息、多媒体信息,并且可从指定的文件或插入到文件中的OLE中抽出文本数据,如HTML、OFFICE、RTF、ADOBE等还提供了强大的全文检索能力和HTML形式的文档浏览。
(2)SBC软件可将非结构化都定义为数据,使得非结构化数据统一为相同格式的文本被查看和编辑,而不需要为运行大量众多格式的数据支出软件版权费用或占用硬件资源。所以,SBC转化了各种各样的非结构化数据,可帮助企业/政府机构等对各种文档数据进行高效利用。
(3)软件采用字符集,多值字段的机制,允许处理许多不同类型的结构化的或非结构的任意格式的字段,从而突破了大数据内容语言的限制,使得软件得以处理中文(简体/繁体),英语,日语及韩语等十几个国家的语言代码所构成的数据。
3.大数据就业方向是什么
目前,互联网、物联网、人工智能、金融、体育、在线教育、交通、物流、电商等等,几乎所有的行业都已经涉足大数据,大数据将成为今后整个社会及企业运营的支撑。
大数据就业方向
1. Hadoop大数据开发方向
市场需求旺盛,大数据培训的主体,目前IT培训机构的重点
对应岗位:大数据开发工程师、爬虫工程师、数据分析师 等
2. 数据挖掘、数据分析&机器学习方向
学习起点高、难度大,市面上只有很少的培训机构在做。
对应岗位:数据科学家、数据挖掘工程师、机器学习工程师等
3. 大数据运维&云计算方向
市场需求中等,更偏向于Linux、云计算学科
对应岗位:大数据运维工程师
当下,大数据的趋势已逐步从概念走向落地,而在IT人跟随大数据浪潮的转型中,各大企业对大数据高端人才的需求也越来越紧迫。这一趋势,也给想要从事大数据方面工作的人员提供了难得的职业机遇。
4.大数据要学习些什么方面的知识
1、学习大数据首先要学习Java基础
怎样进行大数据学习的快速入门?学大数据课程之前要先学习一种计算机编程语言。Java是大数据学习需要的编程语言基础,因为大数据的开发基于常用的高级语言。而且不论是学习hadoop,还是数据挖掘,都需要有编程语言作为基础。因此,如果想学习大数据开发,掌握Java基础是必不可少的。
2、学习大数据必须学习大数据核心知识
Hadoop生态系统;HDFS技术;HBASE技术;Sqoop使用流程;数据仓库工具HIVE;大数据离线分析Spark、Python语言;数据实时分析Storm;消息订阅分发系统Kafka等。
如果把大数据比作容器,那么这个容器的容量无限大,什么都能往里装,大数据离不开物联网,移动互联网,大数据还和人工智能、云计算和机器学习有着千丝万缕的关系,大数据海量数据存储要高扩展就离不开云计算,大数据计算分析采用传统的机器学习、数据挖掘技术会比较慢,需要做并行计算和分布式计算扩展。
3、学习大数据需要具备的能力
数学知识,数学知识是数据分析师的基础知识。对于数据分析师,了解一些描述统计相关的内容,需要有一定公式计算能力,了解常用统计模型算法。而对于数据挖掘工程师来说,各类算法也需要熟练使用,对数学的要求是最高的。
编程语言,对于想学大数据的同学,至少需要具备一门编程语言,比如SQL、hadoop、hive查询、Python等均可。
4、学习大数据可以应用的领域
大数据技术可以应用在各个领域,比如公安大数据、交通大数据、医疗大数据、就业大数据、环境大数据、图像大数据、视频大数据等等,应用范围非常广泛,大数据技术已经像空气一样渗透在生活的方方面面。大数据技术的出现将社会带入了一个高速发展的时代,这不仅是信息技术的终极目标,也是人类社会发展管理智能化的核心技术驱动力。
因此建议想学习大数据的同学,最好报班学习,可以系统的学习大数据理论知识,还会结合项目实践更熟练的掌握大数据技能。
5.数据科学与大数据技术和大数据管理与应用有什么区别
大数据应用的目标是普适智能要学好大数据,首先要明确大数据应用的目标,通过大数据应用,面向过去,发现数据规律,归纳已知;面向未来,挖掘数据趋势,预测未知。从而提高人们对事物的理解和决策处置能力,最终实现社会的普适智能。
数据科学(Data Science)可以理解为一个跨多学科领域的,从数据中获取知识的科学方法,技术和系统集合,其目标是从数据中提取出有价值的信息,它结合了诸多领域中的理论和技术,包括应用数学,统计,模式识别,机器学习,人工智能,深度学习,数据可视化,数据挖掘,数据仓库,以及高性能计算等。
数据科学过程:包括原始数据采集,数据预处理和清洗,数据探索式分析,数据计算建模,数据可视化和报表,数据产品和决策支持等。
简言之,一个偏理论,一个偏应用。
6.大数据学习需要哪些课程
(1)统计学:参数检验、非参检验、回归分析等。
(2)数学:线性代数、微积分等。
(3)社会学:主要是一些社会学量化统计的知识,如问卷调查与统计分析;还有就是一些社会学的知识,这些对于从事营销类的数据分析人员比较有帮助。
(4)经济金融:如果是从事这个行业的数据分析人员,经济金融知识是必须的。
(5)计算机:从事数据分析工作的人必须了解你使用的数据是怎么处理出来的,要了解数据库的结构和基本原理,同时如果条件充足的话,你还能有足够的能力从数据库里提取你需要的数据(比如使用SQL进行查询),这种提取数据分析原材料的能力是每个数据从业者必备的。
此外,如果要想走的更远,还要能掌握一些编程能力,从而借住一些专业的数据分析工具,帮助你完成工作。
扩展材料:
大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据包括结构化、半结构化和非结构化数据,非结构化数据越来越成为数据的主要部分。据IDC的调查报告显示:企业中80%的数据都是非结构化数据,这些数据每年都按指数增长60%。
大数据就是互联网发展到现今阶段的一种表象或特征而已,没有必要神话它或对它保持敬畏之心,在以云计算为代表的技术创新大幕的衬托下,这些原本看起来很难收集和使用的数据开始容易被利用起来了,通过各行各业的不断创新,大数据会逐步为人类创造更多的价值。
参考资料:百度百科-大数据
7.大数据时代应该具备什么专业知识
通过对海量数据的交换、整合和分析,发现新的知识,创造新的价值,带来新的发现,大数据时代正在向我们走来。“谁拥有了大数据,谁就占有了制高点。就政府而言,大数据必将成为宏观调控、国家治理、社会管理的信息基础”。
一如往常,11月宏观经济数据一出来,即引来各方专家解读。略有不同的是,来自统计业内的动向显示,包括CPI在内的统计数据正面临一场变革。这场变革是大数据时代的一种必然。
国家统计局刚刚与11家涉足大数据的领军企业签署关于大数据的战略合作协议,共同探讨如何在政府统计上应用大数据。
什么是大数据?大数据在哪儿?有什么用?怎么用?与政府部门有什么关系?现在提大数据是不是有些哗众取宠、“危言耸听”?
举两个例子。在甲型H1N1流感爆发前几周,谷歌公司通过观察5000万条美国人最频繁检索的词条数据,发现“哪些是治疗咳嗽和发热的药物”这一主题的检索频率大增,进而准确预测了流感的发生及传播范围。美国地铁警察跟踪地铁抢劫案发生的时间和地点,分析原因和规律,制作出预测图表,使地铁抢劫案大为下降。除了商界的成功案例,大数据在政府管理上的非凡“身手”正在显现。
通过对海量数据的交换、整合和分析,发现新的知识,创造新的价值,带来新的发现,大数据时代正在向我们走来。
与不少发达国家已把大数据的开发应用提高到国家战略高度相比,我国的大数据管理还处萌芽状态。重定性、轻定量,重观点、轻数据的思维惯性,使得我们在数据收集、使用和管理上不太灵敏。比如,雾霾污染物的比例各是多少?城市机动车饱和量是多少?缺乏精确数据都让相关决策难以精准发力。
大数据不是“唬人”的标签,没必要对其夸大其词,也不能充耳不闻、敬而远之。
今年全国两会就有人大代表提出,可以通过分析春节期间移动用户漫游情况,掌握人口的流动规模与迁徙规律,为交通管理、铁路运输、公共安全管理等提供决策参考。这是挖掘大数据价值的现实建议。
大数据的能量往往超出我们的想象。在房地产价格统计上,银行的贷款信息及住建部门的网签数据能让房价数据更真实可靠;在就业领域,搜索引擎大数据可以帮助监测预警失业率和劳动力市场供求状况;道路上拍摄的交通影像数据可以帮助推算公路运输的货运量,等等。这些不是异想天开,它们一旦落地,将大大提高政府管理的精细化,提高决策的科学性。在医疗健康、食品卫生、地质灾害、社会舆情、信息安全、国土安全等领域,大数据的分析研究可以有效实现对于重大安全、危机、风险的防范和预警,大大提升国家治理水平。
“谁拥有了大数据,谁就占有了制高点。就政府而言,大数据必将成为宏观调控、国家治理、社会管理的信息基础”——国家统计局局长马建堂的话可谓高屋建瓴。
跟上新技术发展的脚步,从国家层面通盘考虑我国大数据发展的战略,在立法层面规范用户隐私保护、政府信息收集及发布、公共数据的开放等——我们做好准备了吗?
千万不可低估互联网等新技术的能量。运用这些技术,国家治理的能力与效率将大为提高。正可谓“用智慧的分析洞察,构建智慧的地球”。
8.大数据专业主要学什么课程
大数据技术专业属于交叉学科:以统计学、数学、计算机为三大支撑性学科;生物、医学、环境科学、经济学、社会学、管理学为应用拓展性学科。
此外还需学习数据采集、分析、处理软件,学习数学建模软件及计算机编程语言等,知识结构是二专多能复合的跨界人才(有专业知识、有数据思维)。
以中国人民大学为例:
基础课程:数学分析、高等代数、普通物理数学与信息科学概论、数据结构、数据科学导论、程序设计导论、程序设计实践。
必修课:离散数学、概率与统计、算法分析与设计、数据计算智能、数据库系统概论、计算机系统基础、并行体系结构与编程、非结构化大数据分析。
选修课:数据科学算法导论、数据科学专题、数据科学实践、互联网实用开发技术、抽样技术、统计学习、回归分析、随机过程。
扩展资料:
大数据岗位7a686964616f31333431346362:
1、大数据系统架构师
大数据平台搭建、系统设计、基础设施。
技能:计算机体系结构、网络架构、编程范式、文件系统、分布并行处理等。
2、大数据系统分析师
面向实际行业领域,利用大数据技术进行数据安全生命周期管理、分析和应用。
技能:人工智能、机器学习、数理统计、矩阵计算、优化方法。
3、hadoop开发工程师。
解决大数据存储问题。
4、数据分析师
不同行业中,专门从事行业数据搜集、整理、分析,并依据数据做出行业研究、评估和预测的专业人员。在工作中通过运用工具,提取、分析、呈现数据,实现数据的商业意义。
5、数据挖掘工程师
做数据挖掘要从海量数据中发现规律,这就需要一定的数学知识,最基本的比如线性代数、高等代数、凸优化、概率论等。经常会用到的语言包括Python、Java、C或者C++,我自己用Python或者Java比较多。有时用MapReduce写程序,再用Hadoop或者Hyp来处理数据,如果用Python的话会和Spark相结合。
参考资料来源:中国人民大学信息学院-数据科学与大数据技术
参考资料来源:百度百科-大数据采集与管理专业