主页 > 新闻资讯 > 怎样从大数据里挖掘出有用的信息。

怎样从大数据里挖掘出有用的信息。

作者:张老师 浏览次数: 2019-09-25 17:08
检索就是搜索,所谓外事不决问google,内事不决问百度。内外两大搜索引擎都是讲分析后的数据放入搜索引擎,从而人们想寻找信息的时候,一搜就有了。另外就是挖掘,仅仅搜索出来已经不能满足人们的要求了,还需要从信息中挖掘出相互的关系。

比如财经搜索,当搜索某个公司股票的时候,该公司的高管是不是也应该被挖掘出来呢?如果仅仅搜索出这个公司的股票发现涨的特别好,于是你就去买了,其实其高管发了一个声明,对股票十分不利,第二天就跌了,这不坑害广大股民么?所以通过各种算法挖掘数据中的关系,形成知识库,十分重要。

巨型粒子对撞机、实际代表的是大数据的实验室形态,为了做一个大数据分析要首先搭建一个海量传感器集群、然后需要非常懂计算机的人利用很昂贵的计算机集群写一系列很少有人能看懂的(所以几乎没有复用性)代码来进行分析。而这样的分析和实验,只是为了一个或者一系列比较局限的目的和用途。而大数据的工业化时代,意味着模块化、流水线、高复用性。
大数据开发分析与学习大数据技术

对于数据的传输,一个内存里面的队列肯定会被大量的数据挤爆掉,于是就产生了基于硬盘的分布式队列,这样队列可以多台机器同时传输,随你数据量多大,只要我的队列足够多,管道足够粗,就能够撑得住。

传感器集群就在那里,大量的用户日志可以被淘宝、百度、腾讯、豆瓣、知乎、任何一个稍微投入几百万(或者等价的资源)的公司所获得、处理、分析。

数据库有大量现成的实现、框架;封装好的数据可以被不太难于学习的计算机脚本语言和封装好的分析工具进行分析(比如SAS、R、HiveSQL、Hadoop等等)。而又有同时熟悉业务和数据分析方法的分析师、产品经理、开发把他们很快应用到业务、项目的开发中去。

这样就形成了一个大数据从收集、处理、到最终落地为可商业化、可以惠及普罗大众的解决方案、产品的闭环链条。所谓从群众中来,到群众中去。正是这个链条的关闭、完成了大数据的工业化。

热点排行
推荐文章
立即申请>>