使用 Pandora 平台轻松玩转大数据

本文是我在使用 pandora 平台的过程中遇到的问题总结，希望可以帮助到大家。
心动不如行动，赶紧开始使用 pandora 来构建属于你们自己的大数据平台吧。
大数据是什么？
大数据（英语：big data），又称为巨量资料，指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。在总数据量相同的情况下，与个别分析独立的小型数据集（data set）相比，将各个小型数据集合并后进行分析可得出许多额外的信息和数据关系性，可用来察觉商业趋势、判定研究质量、避免疾病扩散、打击犯罪或测定即时交通路况等；这样的用途正是大型数据集盛行的原因。【摘自维基百科】
大数据平台又是什么？
我先给大家看看使用 pandora 大数据平台构建的一些效果图吧。
grafana 统计监控：

配置告警后的告警历史
触发警戒值之后还会发邮件的哦（带图的哦）
日志上报后的查询界面
上面这些图表和功能，有没有让你心动呢？
基本介绍
pandora 潘多拉(https://qiniu.github.io/pandora-docs/)是一套面向海量数据，以及基础技术人员的，管理大数据传输、计算、存储和分析的大数据平台。
pandora 共包含五个组件级服务：
如何开始？
目前 pandora 大数据平台产品处于有限开放、免费试用阶段，你可以联系七牛的销售或客服申请开通试用，也可以发送邮件给 pandora[at]qiniu 注明您的公司名称及联系方式，申请试用。他们在收到申请后一个工作日内为您审核。
* 申请注册七牛账号，登录之后的界面如下：
申请 pandora 大数据平台的相关权限，通过之后登录的界面如下：
从图中，我们可以看出，侧边栏多了大数据工作流引擎、时序数据库、日志检索，容器应用市场，这是 pandora 包含的 5 个组件的入口。
容器应用市场
准备工作
pandora 大数据平台的基本流程如下：
* 通过（logkit/sdk/api ）打数据到工作流（workflow）；
* 在 workflow 中，进行数据计算和导出 (可导出到 tsdb/logdb/http/对象存储)；
* 然后在 tsdb/logdb 中查询数据，或通过 grafana 进行图表绘制。
其中几个组件服务的基本情况：
* 实时工作流、离线工作流（实时的数据源和消息队列的数据存储时间是2天）；
* 时序数据库：创建仓库（类比：数据库）、序列（类比：表）[最大的数据存储时限是30天]；
* 日志检索：创建仓库[数据存储时限：最大可设置为永久]
* 容器应用市场：目前官方应用提供有grafana，kibana，xspark；（这 3 个默认是没有开通的，还需要再申请开通），第三方应用暂无；
构建实时和离线工作流
导出数据到对象存储，需要注意：
* 如果我创建导出到对象存储的时候选择最早的话，工作流会追溯所有的数据，一直追到最新的数据（全量数据）；
* 如果我创建导出到对象存储的时候选择最新的话，工作流只从此时开始导数据（从此时开始的所有数据）；
* 全量数据也只追溯到2天前，因为实时数据源和消息队列的数据存储时间只有2天。
通过（logkit/sdk/api ）打数据到工作流（workflow），我们在调用的时候要进行数据包封装，最好不要一次触发一次上报。
新功能：
* 工作流即将支持状态，可以启动和停止；
* 工作流即将增加行为日志；
服务器性能监控
参考文档-服务器性能监控(https://qiniu.github.io/pandora-docs/#/demo/monitoring)进行构建的。
直接看我搭建好的效果图吧。
以上数据是使用七牛优化过的 telegraf 上报的。
问题清单：
q0: telegraf 是什么？
telegraf(https://github/influxdata/telegraf) 是用于收集和上报指标的插件驱动服务器代理（这里使用七牛优化后的版本）。
q1: 运行 telegraf 报错：create series diskio for repo monitor fail pandora error: statuscode=404, errormessage=e7100: repo does not exist!
我们可以提前创建好对应的 repo ，也可以让程序在第一次使用的时候自动创建资源，如果存在以后就不会创建了。
日志检索，构建容器应用 kibana
参考文档-运维日志分析 – nginx 日志分析搭建案例(https://qiniu.github.io/pandora-docs/#/demo/nginxlog
我们先来看看效果图吧，��
以上图表数据均由 logkit 自动上报。
接下来我将遇到的问题，以 qa 的形式列出来，希望对大家有帮助。
q0: 七牛的 logdb+kibana 和自建的 elasticsearch+kibana 相比有什么优势？
* 减少运维成本
* 资源开销更少
* 自建的 elasticsearch 是单机版的（当然也可以搭建集群），而七牛的 logdb 是可以水平扩容的；
* 七牛的日志数据库 logdb 还可以和我们的 workflow 结合，做各种各样的数据转换等功能；
* 还有功能强大的 logkit ；
* 可以直接使用容器应用提供的 kibana；
q1: logkit 是什么？
logkit(https://github/qiniu/logkit) 是七牛 pandora 开发的一个通用的日志收集工具，可以将不同数据源的数据方便的发送到 pandora进行数据分析，除了基本的数据发送功能，logkit 还有容错、并发、监控、删除等功能。
支持的数据源：文件(包括csv格式的文件，kafka-rest日志文件，nginx日志文件等,并支持以grok的方式解析日志)
* mysql
* microsoft sql server(ms sql)
* elasticsearch
* mongodb
* kafka
* redis
q2: logkit 日志多久上报一次？
参看runner之数据采集配置(https://github/qiniu/logkit/wiki/runner之数据采集配置)。
q3: [error][github/qiniu/logkit/mgr] runner.go:389: runner[nginx_runner] parser nginx_parser error : nginxparser fail to parse log
nginx log format 不匹配导致（更多信息参考nginx-parser,grok-parser）。
q4: 七牛的 cdn 日志有延时吗？
日志延迟 8 小时，不能做实时监控，只能用离线工作流来做。
q5: logkit 上报是什么规则？
q6: 一次请求最大支持多少？
配置文件中可以配置，最大支持 2 mb，尽量将文件合并后上传，减少调用次数，查看runner之数据采集配置(
q7: 上报到日志检索服务后怎么查看日志来源？
logkit 有一个可支持配置的日志来源的选项datasource_tag，更多请看file-reader文档(https://github/qiniu/logkit/wiki/file-reader)
q8: 搜索结果只有最近几天的数据？
需要配置参数 retention，创建之后默认保留 3 天。
) 非常强大，一定要抽时间阅读源码。
时序数据库，构建容器应用 grafana
时序数据库是什么？
时间序列的数据库。业内比较著名的是 influxdb 。它是一个由 influxdata 开发的开源时序型数据库。它由go写成，着力于高性能地查询与存储时序型数据。influxdb 被广泛应用于存储系统的监控数据，iot 行业的实时数据等场景。本文则是 tsdb。
步骤很简单：
sdk创建仓库，然后再创建序列，再之后往序列上报数据。
问题（感谢我的小伙伴整理了这么多的问题，希望能对你使用有帮助）：
q0: 你们的时序数据库 tsdb+grafana 和自建的 influxdb+grafana 相比有什么优势？
* 自建的 influxdb 是单机版的，而七牛的 tsdb 是可以水平扩容的，不需要我们干预和关心；
* 七牛的时序数据库 tsdb 还可以和他们的工作流（workflow）结合，做各种各样的数据转换等功能；
* 可以直接使用容器应用提供的 grafana ；
q1: 通过 api 创建仓库时出现 region 错误提示。
tsdb 目前只支持华东区域资源服务器，代号为 nb ，需要指定。
q2: 创建仓库、序列、数据查询过程中出现 bad token 提示。
鉴权不通过，token 过期，检查 ak/sk 以及 token 。
q3: 创建过工程中出现ak/sk错误。
* ak/sk 错误；
* 账号并没有添加 pandora 应用。
q4: 插入数据时提示数据类型错误。
通过 api 请求插入数据时，需要注意类型对应的问题，在请求封装时很有可能会因为 map[][]而忽略这个问题。
q5: 使用 distinct 去重查询时，并且做 count 计算，数量不符。
需要注意空字段的情况，字段为空时也占用一个量。
q6: 使用 select tag 查询时出现错误
* 首先需要检查字段是否错误。
* 在 tsdb 中，time 是一个默认的 tag ，在序列中也会自建 tag ，需要注意 tag 并不能作为查询主体，tag 只能作为分组以及查询条件。
q7: tsdb 中 limit 与 offset 的使用。
limit 使用时与 mysql 一致，需要注意的是空数据的存在。
q8: group by 与 order by
group by 只能够对 timestamp 以及 tag 使用，order by 可以用来对 timestamp 使用，做时间聚合。
q9: tsdb 时间类型
rfc3339 yyyy-mm-ddthh:mm:ss.nnnnnnnnnz 使用时间作为查询条件时，可以采用如下运算符：
= 等于
不等于
!= 不等于
大于
= 大于等于
< 小于
’2017-09-18’ 的格式，也可采用 influxdb 的时间格式 now() - 1d，需要注意的是在‘-’号左右都需要有空格，不然会提示语句出错:e7200: invalid sql: invalid time condition, out of time range.。
query 语句不支持select count(1) from stat_info where time >= ‘2017-09-19’，报错：e7200: invalid sql, expected field argument in count()，field 必须指定。
q10: 在初始化创建 client 时，是否还要通过 sdk 函数生成配置？
需要通过 sdk.newconfig() 生成配置，将其置于配置文件当中，否则就会出错。
q11: 错误定义是怎样的？
在 tsdb 中，在 tsdb/error.go 里面定义了错误类型，在开发时，可以进行引用，也可以通过 logger.error() 进行输出，通过对照编码表查找错误原因。
q12: api 建立仓库、序列。
创建 client 后，可以通过内置函数 createrepo() 以及 createseries() 进行创建，参数定义在 tsdb/model.go 中，�...

使用 Pandora 平台轻松玩转大数据

VIP推荐