-
81个开源大数据处理工具汇总(下),包括日志收集系统/集群管理/
所属栏目:[大数据] 日期:2021-02-27 热度:102
副标题#e# 上一部分:http://my.oschina.net/u/2391658/blog/711016 第二部分主要收集整理的内容主要有日志收集系统、消息系统、分布式服务、集群管理、RPC、基础设施、搜索引擎、Iaas和监控管理等大数据开源工具。 ? 日志收集系统 一、Facebook?Scribe 贡[详细]
-
81个开源大数据处理工具汇总(上),包括查询引擎/流式计算/存储
所属栏目:[大数据] 日期:2021-02-27 热度:158
副标题#e# 本文一共分为上下两部分。我们将针对大数据开源工具不同的用处来进行分类,并且附上了官网和部分下载链接,希望能给做大数据的朋友做个参考。下面是第一部分。 查询引擎 一、Phoenix 贡献者::Salesforce 简介:这是一个Java中间层,可以让开发[详细]
-
文本挖掘的基本流程
所属栏目:[大数据] 日期:2021-02-27 热度:96
副标题#e# 一、获取文本 ??我们获取网络文本,主要是获取网页HTML的形式。我们要把网络中的文本获取文本数据库(数据集)。编写爬虫(Spider)程序,抓取到网络中的信息。可以用广度优先和深度优先;根据用户的需求,爬虫可以有垂直爬虫和通用爬虫之分,垂直爬[详细]
-
Mondrian 4 测试的简单demo(Saiku简单测试Schema文件)
所属栏目:[大数据] 日期:2021-02-27 热度:130
##?整理此文章方便大家做测试(手写Mondrian?Schema自测),不必每次都向saiku上传文件了 ##?关键文件 *?foodmart4.xml??测试对应的schema文件 *?foodmart-sql.zip????测试对应的数据库脚本 maven项目: pom文件 foodmart4.xml文件 简单java代码测试: 返[详细]
-
EMC存储上的大数据 – 大数据分析实施路线
所属栏目:[大数据] 日期:2021-02-27 热度:176
副标题#e# ? ? ?企业一直在处理快速增长的数据量(也称为大数据)的存储和管理问题。本文为系列的第十篇,介绍了发现适当的大数据业务机会并制定利用该机会的全面路线图。 ? ???? 大数据时代,各公司都在努力挖掘有关他们业务的令人信服的见解,以赢得竞争[详细]
-
O2O产品质量保障体系(四)| 基于学习的线下商户质量挖掘
所属栏目:[大数据] 日期:2021-02-27 热度:83
副标题#e# 一、线下商户问题迫在眉睫 糯米不仅仅是团购,它是O2O的生活服务平台,糯米的产品质量可以定义为线上和线下,线上主要是在线商品的售卖情况,所对应的质量问题也就是商品类的badcase,这些会直接影响我们的流水。而线下主要是商家服务的接待质量[详细]
-
倒计时24小时开课|StuQ大数据分析平台小班课(仅剩10个名额)
所属栏目:[大数据] 日期:2021-02-26 热度:101
副标题#e# StuQ?联合三位大数据资深专家桑文锋、曹犟、付力力共同推出《从0到1构建大数据分析平台》精品小班教学,仅有 60 席位,精品小班课区别于大众在线视频教学,课程设置具有如下特色: 采用在线视频直播授课 以实战为主 在线解答疑问 课后作业review[详细]
-
简化版大数乘法
所属栏目:[大数据] 日期:2021-02-26 热度:195
Description Dear Uncle Jack is willing to give away some of his collectable CDs to his nephews. Among the titles you can find very rare albums of Hard Rock,Classical Music,Reggae and much more; each title is considered to be unique. Last[详细]
-
【ZJOI2013amp;amp;BZOJ3110】K大数查询
所属栏目:[大数据] 日期:2021-02-26 热度:186
Description 有n 个位置和m 个操作。操作有两种,每次操作如果是1 a b c 的形式,表示往第a 个位置到第b 个位置每个位置加入一个数c。如果操作形如2 a b c 的形式,表示询问从第a 个位置到第b 个位置,第c 大的数是多少。 Solution 树套树的模板题 找矩阵[详细]
-
大数据处理平滑算法:Good-Turing估计
所属栏目:[大数据] 日期:2021-02-26 热度:120
大数据处理中,不管数据如何大,由于不能穷举一切,总是有限的。那么在有限的数据规模下,参数平滑算法就十分重要。参数平滑算法是在训练数据不足时,采用某种方式对统计结果和概率估计进行必要的调整和修补,以降低由于数据稀疏现象带来的统计误差。 比如[详细]
-
SCU2016-05 I题 trie图 + 大数dp
所属栏目:[大数据] 日期:2021-02-26 热度:162
File Name : 这很trie图建立转移规则,然后dp。 大数模板 Code: /**********************jibancanyang************************** *Author* :jibancanyang *Created Time* : 一 5/ 9 11:49:40 2016 ***********************1599664856@qq.com*************[详细]
-
飞利浦陈祁侑:需要设计的不是硬件,而是信息挖掘与应用的方式
所属栏目:[大数据] 日期:2021-02-26 热度:149
副标题#e# 本文节选自飞利浦资深设计策略顾问陈祁侑在2016国际体验设计大会「智慧生活峰会」上的演讲。你也可以通过底部“阅读原文”,上Meia直接观看完整视频及更多IXDC 2016大会峰会精彩演讲。 两年前第一次来参加IXDC的时候,说的是如何透过共创、快速迭[详细]
-
【杭电oj】1865 - 1sting(大数递推)
所属栏目:[大数据] 日期:2021-02-26 热度:163
点击打开题目 1sting Time Limit: 5000/1000 MS (Java/Others)????Memory Limit: 32768/32768 K (Java/Others) Total Submission(s): 4973????Accepted Submission(s): 1842 Problem Description You will be given a string which only contains ‘1’; Y[详细]
-
hdu 5718 大数模拟
所属栏目:[大数据] 日期:2021-02-26 热度:106
点击打开链接 #include iostream#include algorithm#include cstdio#include vector#include cstring#include queue using namespace std;const int M = 10010000;int num[10],f[M],index; // num[i] 数字i出现的个数 char data[M]; void Add(int x){int t[详细]
-
大数据为我们带来了什么?
所属栏目:[大数据] 日期:2021-02-26 热度:175
洞悉行业动态,把握行业趋势,从数据中挖掘洞察,将洞察转变为价值,同时带您了解更多大数据在零售、交通、制造、银行等行业中的应用。 ???? 最早提出大数据时代到来的是麦肯锡:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人[详细]
-
【杭电-oj】-1002-A + B Problem II(大数相加)
所属栏目:[大数据] 日期:2021-02-26 热度:80
A + B Problem II Time Limit: 2000/1000 MS (Java/Others)????Memory Limit: 65536/32768 K (Java/Others) Total Submission(s): 314006????Accepted Submission(s): 60840 Problem Description I have a very simple problem for you. Given two integer[详细]
-
Multiply Strings ---leetcode
所属栏目:[大数据] 日期:2021-02-25 热度:119
Given two numbers represented as strings,return multiplication of the numbers as a string. Note: The numbers can be arbitrarily large and are non-negative. Converting the input string to integer is?NOT?allowed. You should?NOT?use interna[详细]
-
大素数测试和大数素因子分解
所属栏目:[大数据] 日期:2021-02-25 热度:72
小黄书第19章p82页根据合数的拉宾-米勒测试可得到素数的必要条件。 参考资料。 以POJ1811 Prime Test 为例。 #includestdio.h#includemath.h#includestdlib.h#includealgorithmusing namespace std;typedef long long LL;const int S=20;LL pfact[10005[详细]
-
从人性出发,5步挖掘用户需求
所属栏目:[大数据] 日期:2021-02-25 热度:111
副标题#e# 做一个产品之前,常常最要做的就是挖掘用户的需求。也有了那些用户调研,市场分析,竞品分析等等,最后落地成产品功能。很多大拿都说过,要满足人性七宗罪等。但往往落实下来很难,感觉很虚,作者也迷茫了一段时间。恰巧这次美团架空了大众点评的[详细]
-
数据处理的两个基本问题
所属栏目:[大数据] 日期:2021-02-25 热度:192
第八章? 本章概述: 1.?????????计算机是进行数据处理、运算的机器,那么有两个基本的问题就包含在其中: 1)??处理的数据在什么地方? 2)??要处理的数据有多长? 这两个问题,在机器指令中必须给以明确或隐含的说明,否则计算机就无法工作。 2.?????????我[详细]
-
如何将机器学习技术应用到文本挖掘中
所属栏目:[大数据] 日期:2021-02-25 热度:177
本挖掘典型地运用了机器学习技术,例如聚类,分类,关联规则,和预测建模。这些技术揭示潜在内容中的意义和关系。文本发掘应用于诸如竞争情报,生命科学,客户呼声,媒体和出版,法律和税收,法律实施,情感分析和趋势识别。 在本篇博客帖中,你将会学习到[详细]
-
述符有多好和在特殊情况下如何考虑相似性等问题
所属栏目:[大数据] 日期:2021-02-25 热度:173
http://bb.iyaya.com/linyifan2006/riji-14417556.html http://bb.iyaya.com/2007121/riji-14417521.html http://bb.iyaya.com/132618hh/riji-14417543.html http://bb.iyaya.com/438586550/riji-14417544.html http://bb.iyaya.com/53231288/riji-1441754[详细]
-
大数据分析技术生态圈一览
所属栏目:[大数据] 日期:2021-02-25 热度:60
大数据分析技术生态圈一览 人人都说大数据,但很多人对这个领域并非真正地了解。为了帮助你,我们决定制作这份厂商图标和目录。它并不是全面列出了这个领域的每家厂商,而是深入探讨大数据分析技术领域。我们希望这份资料新颖、实用。 作者: 来源:网络|[详细]
-
医疗行业大数据应用案例(华大基因、大数据预测早产、大数据调配
所属栏目:[大数据] 日期:2021-02-25 热度:184
文章从华大基因推出肿瘤基因检测服务、大数据预测早产儿病情、广东省人民医院利用大数据调配床位3个医疗行业大数据应用案例中,以应用背景、数据源、图说场景、实现途径、应用效果5个视角去看待大数据在医疗的应用状况。 案例一:华大基因推出肿瘤基因检测[详细]
-
搭建大数据处理集群(Hadoop,Spark,Hbase)
所属栏目:[大数据] 日期:2021-02-25 热度:161
副标题#e# 搭建Hadoop集群 配置每台机器的 /etc/hosts保证每台机器之间可以互访。 120.94.158.190 master 120.94.158.191 secondMaster 1、创建hadoop用户 先创建hadoop组 sudo addgroup hadoop 然后再建一个hadoop用户加入到hadoop组,(前一个为组,后一[详细]