关于大数据预处理的那点事。

作者：张老师浏览次数： 2019-09-19 10:40

讲讲数据预处理的那些事儿，统计数据就是说优化算法的谷物，俗话说：巧妇难为无米之炊。在现如今数据采集的一致性和时效性，对优化算法实体模型的实际效果的好坏这一点儿上已达成普遍的共识。怎样运用好这种统计数据使其造成较大的使用价值是优化算法工作人员每日思索的关键难题。但不容忽视的是根据系统软件搜集来的统计数据信息内容并不可以立即用以优化算法，必须做某些清理，归一化等实际操作，这就是说今日人们要讲的数据预处理一部分。

完成对已接收数据的辨析、抽取、清洗等操作。

抽取：因获取的数据可能具有多种结构和类型，数据抽取过程可以帮助我们将这些复杂的数据转化为单一的或者便于处理的构型，以达到快速分析处理的目的。

清洗：对于大数据，并不全是有价值的，有些数据并不是我们所关心的内容，而另一些数据则是完全错误的干扰项，因此要对数据通过过滤“去噪”从而提取出有效数据。

删掉法:

简易删掉某些由于独特出现异常缘故造成的统计数据缺少，将存有统计数据层面缺少的样版删掉，这样的事情只限删掉小一部分样版统计数据就能够实现目标的状况，且在未来优化算法实体模型运用的全过程中，缺少层面的状况产生几率不大。

添充法:

这类方式一般用默认值或是平均值等默认设置添充的方式来填补缺少的层面信息内容，现阶段这类方式是一般应用状况数最多的方式，存有易实际操作，易表述等优势。但在必须水平上，因为单一化层面填写很多同样的标值，可能会致使该层面的区分度降低。

投射到高维空间:

比如男，女，缺少几种状况的性別统计数据层面，投射为是不是男，是不是女，是不是缺少。那样的益处是极致的保存的缺少值这一信息内容，不容易对初始信息内容添加人为因素的先验专业知识，产生的难题就是说统计数据层面的提升，优化算法的测算量随之增大。

标签：大数据开发大数据技术加米谷学院

相关推荐

大家都在看

热点排行

推荐文章