个人数据的问题自从进入互联网时代几乎成了困扰每个人的问题。

当时刚工作的时候几乎对任何事物都存在非常强烈的好奇,想把接触到的一切东西都存起来。存的东西非常的杂乱,比如各种漫画,番剧,剧集,电影以及各种大量的二次作品,当然还有一个最主要的原因是网络环境非常的糟糕,也就是所谓的“小水管”,在线看视频都要缓冲好久,下载资源即便是迅雷也是常年几十KB(当然这不排除是资源本身就非常偏门)。相对的在线观看最多的还是看二次创作的作品,影视作品更多的还是下载之后再看。

另外当时流行论坛文化,各类专门论坛,比如编程,工具什么的。我记得当时比较常去的如C语言和操作系统相关的论坛,也记得当时U盘自动运行引起大规模病毒传播时尝试使用批处理文件做一些清理工作,以及之后“熊猫烧香”爆发的时候各处求助的情况。视频类的各大字幕组论坛也是各类爱好者的最佳交流场所,大家在工作与学习之余聊着CV,制作公司,萌战等,非常快乐。那时候收集也是一种乐趣。

TL;DR点击列表跳转

  1. 本地硬盘时代
  2. 本地网络
  3. 服务端
  4. 最后

1. 本地硬盘时代

记得那时候电视台放着非常有意思的《武林外传》,离开家乡后接触了许许多多新奇的事物。要说那时候的大量数据最大的部分是各类电影,非常有名的或者根本没听说过的。朋友间通过U盘共享,也由此带来了Autorun病毒的大面积传播。现在特别是win10似乎U盘的自动运行与挂载更加顺滑了,所以我每次插U盘的时候都会想起之前的Autorun病毒,但是好像很久都没听说过或者遇到过类似的情况。我反而觉得是不是相关病毒更加隐秘了,是不是主要目的不是做破坏了。

那时候电子产品似乎还是比较贵的,记得开始的电脑的500G的硬盘。正是由于什么都想保存下来的思想,很快硬盘开始空间不足,后续换成1T没过多久也开始出现同样的问题。也正是从那时间开始我就是思考如何做数据与信息的分类,如何管理以及更新磁盘数据。

那时候的数据主要分为:生活、学习、工作、娱乐、二创。

  • 生活就是自己喜好相关的东西,中学阶段收集了很多书籍,之后就全部数字化了,随之而来的是与之相关的视频音频数据。
  • 学习类就是纯知识整理,这是耗时最多的但是总体量却是比较少的。
  • 工作的话由于是做软件相关,技术类更多的是代码以及相关的书籍笔记说什么的。
  • 娱乐就没什么好说的了,各类游戏电影,番剧,游戏等。
  • 二创或者说是同人现在想起来算是最大的部分(不是总体占比大,而是非常的杂),到了现在由于网络是发生了翻天覆地的变化,这部分内容开始渐渐减少,变成同人与版权图了。

现在回想起来二创给我的感觉发生了巨大的变化,现在的创作氛围与环境在那时简直想都不敢想。我记得当时高中时候第一次在《萌芽》上看到“同人”这个概念,不是很明白到底是什么意思。直到后来接触了“东方Project”才有了比较完整的概念。在接触到网络特别是工作后接触到不少的爱好者,随后接触到同人文化。我一开始震惊于原来爱好者能做到如此地步?特别是仅凭一人之力的非专业爱好者竟然能做出这种高品质的作品。之后成为了“东方爱好者”关注每年的CM,那时候最高兴的时候就是CM举办的日子,以及十一假期能看到前一年的剧场版动画。

关于同人爱好者产生的问题我经过较长时间的思考与切身感受,觉得在全社会物质总量达到一定程度后是必然会出现的结果。到那个时候你能很容易的找到相同的爱好者群体,不是为了工作不是为了成为专业人士的目的去学习某项技能。同时周围又遍布各种学习资源,你可以轻易获得并在同好者群体中提升自己相互认同。到了2021年的现在我认为我这个推论很大程度是正确的,首先是线上涌现出许许多多质量极高的二次创作作品,其次无论是在现实还是社交网络上都很轻易找到喜好某件事物的群体,接触到非常专业的技能学习。

当时的二创收集可以不准确的说就是“东方Project”。当时的“东方”热度极高,每次新作发布都会引起大量的二次创作,而且都是可以切身感受到的,比如自己打通弹幕游戏(笑)。这很大原因是当时非常先进的IP开发授权策略,当时巨量的二创作家(甚至说是画师)可选的题材比较有限。几个主要IP都开始走商业化路线,因此“东方”成为了当时的首选的创作题材。许多知名画师翻阅其以往的创作几乎都是从东方开始的。也正是“东方”这个IP聚集了巨量了二创作家,在随后几个IP(似乎是舰C开始的)开放二次创作后这些聚集的能量一下子爆发了出来。随后商业力量开始关注这些创作者,似乎整个文娱产业都发生了翻天覆地的变化。而国内同人是如何发展起来就不得而知了,也许是几年前吹起来的“二次元产业”,也许是动画与手游的爆发?这里就没有一个比较权威的说法了,我也是在看到介绍画师创业平台的消息才突然意识到的。

1.1 寻觅之旅

当时存音乐与视频的最大原因是网络实在是太慢了。我还记得当时看完《macross frontier》在找音乐的时候不知怎么跳到AC看到一个弹钢琴的视频,当时弹幕几乎遮蔽了小小的播放器页面,随即关闭了页面。想不到的是没过多久我就喜欢上了这种在线看视频的氛围,可是在看番剧类的相对较长的视频时每次到分段几乎都会卡,让人非常难受。当时是flash播放器使用flv格式打开页面就开始自动缓冲,所以每次为了看视频要先缓冲好久。为了看新番和剧场版就就开始用下载工具慢慢拖下来,我记得最深刻的是当时播《轻音》和公司新来的实习生愉快的交流,再之后接触到key三部剧就是另外的事情了。

这个下载经历给我印象最深刻的是当时迅雷旗下有个叫迅雷看看还是什么的专门介绍动画的网站(后来好像关站了,也可能不是这个名字,记不清楚了),某次看到首页推荐一部叫《电脑线圈》的番剧,副标题好像是“孩子们的战争”什么的,随后下下来看了几集感觉完全提不起兴趣就忘记了。大概一年后某天整理资料时又翻出来继续看,好在当时看到进入真正主线转折的一话,于是兴致就来了。一口气看完后心中久久不能平静,无论是剧情还是其中对未来科技的展望,以及其中出现的大量的编程词汇,引起了我强烈的兴趣,也无外乎不少朋友称之为“小攻壳”。而下一次让我再一次为为科幻设定着迷的新番是《宇宙暴力海贼》,以及再之后没日没夜阅读的将科幻与文化融合并提升到新的高度的《三体》。当时无论如何也无法想想到了2021年的现在,VR/AR/MR技术已经在理论上可以实现,并得到初步的发展。基于移动端与车载的地图与导航已经完全融入到生活的方方面面。

另外在《轻音》播放的时候有一本轻小说叫《奋斗吧,系统工程师》,没出多久就看到说动画化的消息,当时真的非常期待。后来我在看时间线的时候突然刷出来一个插图,我立刻就认出来这是这本小说插画的画师,于是立刻进行了关注。这个画师的风格辨识度极强,特点是寥寥几笔就能表现出角色的特点。每隔一段时间我都会在群里问这小说有没有新的动画化消息,以及“電気式華憐音楽集団”的某个GAL曲出了没有。终于到了2019年,贴吧突然出现一个“辟谣”的帖子。其中详细分析了关于这个轻小说动画化的消息来源,最终定性为媒体误传,当我看到许多跟帖表示了遗憾时我却释怀了。同时2019年“電気式華憐音楽集団”的音乐《繋がらない世界》终于出了。2019年就快要过去的那段时间,那天我坐在襄阳的出租车里,车子驶过一个范围很大的波光粼粼的水面,突然网易云音乐推送了我的2019年度歌单,其中提到《繋がらない世界》只有极少数人收听了这首音乐。

后来我在网易云音乐这首音乐下面看到了这样的评论

“我也是17年,那时候初中才毕业,不记得哪个视频听到这首歌特喜欢,怎么找都找不到。最后直接录制了拿格式工厂转成mp3格式带放mp3里面。只有半首。在学校天天听,后来mp3被同学没收了,去找老师要发现丢了,当时以为永远听不到这歌了,没想到现在大一了在自己云盘里发现了它”

我看到后非常感慨,没错就是17年“长门有C”的某次新番导视。

1.2 网盘时代

我并不知道当时网盘突然崛起是否有更加宏观的因素,那段时间伴随着同人资源的共享需求的强烈,115网盘似乎一夜之间突然火了。

大量的资源通过115网盘开始迅速传播,本来在通用下载工具完全下不动的资源在115突然下载顺畅了起来。随后115发展规模越来越大几乎要代替之前产用的所有共享工具,方便快捷的共享提取码欢迎程度远超现在的百度网盘。后来开始网传115融资上市又正好撞上监管问题,一下子进行了两级反转,热度与规模突然迅速消散。

网盘服务一直都存在比如,G Driver,one Drivier,XXBox等,但是都伴随着速度等一些列问题,几乎没有成为主流。国内实际上也只有百度盘成为最终的网络资源共享途径,但是它限速与收费策略在大部分非付费以及低付费使用者眼里有非常不好的印象。其实想一想相对昂贵的网络带宽成本与服务器硬件成本就注定了,非付费与低付费的网盘服务几乎没有生存空间。

这个阶段不少人的思想是将自己一部分宝贵资料在网盘上进行备份,以防止本地一些意外原因导致的数据的丢失。我认为这是非常有必要的,在比较后将一部分文档文章,各类配置信息在坚果云上进行了备份。而另一部分个人积累的技术内容,如代码等也开始同步到私有git服务,如itee等。

关于代码的问题,这里就不得不说一下腾讯云。我第一次写微信小程序的时候想着怎么备份代码,在看到微信开发者工具上面自带一个代码托管服务,之后我专门去后端看了下是腾讯云提供的,所以安心的传了上去。随后在不同电脑间同步代码感觉非常方便,直到某一天我打开微信开发者工具,突然提示我远程库不存在。我登录后端发现整个库都没有了,然后看新闻得知腾讯云硬件出问题一部分数据丢失,没想到我只有几个页面的微信小程序项目竟然直接中枪。随后我经过选型后将代码托管到了gitee,以及随后一些个人项目也都使用gitee服务。

在这个过程中我萌生了为这个小程序专门写一个后端系统的念头。其实再很早以前我就设想过做一个CMS系统为,为我的多个程序提供后端发布与读取服务,但是那时都是很模糊的想法。在经历了小程序以及之后的个人知识管理的思考后,我觉得差不多是时候了。到目前(2021年1月初)为止这个我理想中的CMS系统基本框架和外围设施已经构建完成,在接下来的假期中能做出来个基本功能吧。

网盘的时代实际上从未过去,更多的是针对私人付费以及企业用户。并且以各种形式作为系统的附加服务提供给用户,比如近些年又开始流行的协作系统。

1.3 多媒体存储的意义

伴随着4G与移动互联网产业的兴起,网络带宽带来的巨大提升,再加上“二次元”产业的大力发展。之前本地存储的大量多媒体数据似乎已经失去了意义,特别是网络上提供的还是质量更高效果更好的版本以及流畅的网络。无论是相对大众的资源,还是非常小众之前在论坛求很久的资源,现在也能在比如弹幕网站,音乐平台迅速的找到。并且随着文化产业的发展,我们能接触到的信息无论是数量还是质量都有了大幅度的提高,似乎我们已经不需要特意去收集与存储这些作品。

不过相对的另一个方面,移动互联网时代开始出现的信息过载,以及从互联网时代开始积累的大数据终于开始发挥难以想象的作用。各类数据分析系统,推送系统,推荐系统以用户画像等技术为基础,开始精准的向我们展示似乎是我们想要看到的东西。当时网易云音乐横空出世,那令人惊叹的歌曲推荐使其迅速的从小众领域流行开来。为了去了解这仿佛魔法一般的推荐原理,我专门去了解了基础的机器学习知识与协同过滤算法。任何事物都有其两面性,当整个行业的上升空间越来越小的时候,一些技术也开始体现出它的另一面。比如所谓的数据杀熟,所谓的行业广告联盟。

我们不应该偏执的认准一个观点,尤其是在当前推送系统主导内容的时代,这样只会导致我们越来越偏激。在这个时代我们自发的学习,开阔视野听取更多的观点显得尤为重要。一方面我们面对的是学习、工作与生活等各个领域在各种渠道与推送系统上获得的仿佛无穷无尽的知识和观点,另一方面我们又要对抗信息过载自己主动的去学会整理、辨别与学习。那么我们就需要一个适合自己的知识管理系统来管理我们自己的知识体系,这个承载的媒介就是在这个新时代多媒体存储的意义所在。它可以是本地硬盘,网盘,公有云或私有云,亦或是某个笔记系统,这都因人而异。

2. 本地网络

似乎是从小米路由器R1D开始,路由器存储开始流行了起来。我在看到R1D这种路由器带硬盘的产品,觉得这应该是一个比较好的将自己常用硬盘的数据转移出来的方案,能够很好的在多设备上共享。说实话小米生态链的东西更多时候其实是入门级,也就是能用的程度。那时候似乎是暗黑三美服上线的日子,我升级了网络把用了有些年头的TPlink换成了小米这个R1D。不过用的时候虽然存在不少问题以及总是感觉差那么一点意思,但是好在价格还可以基本功能可以用。就这样用了好几年,移动网络升级到了4G,整个片区的电信宽带也升级了光纤。其中比较令人诟病的是散热比较差,以及噪音很大(我怀疑这是其内置的下载软件在进行数据共享)。

新的路由器就承担了我大部分的多媒体类数据的存储,这其中包括很大一部分是我比较喜欢的同人画师的作品,这类东西从一开始就保留到现在,虽然随着审美的的变化不少图片也在更换,不过这个量总体来说还是非常大的(我没有存漫画的习惯)。另外还有不少单纯的素材类资源,用于写东西时的配图使用。由于这些资源几乎是每天看到中意的就收藏起来,所以随着时间的推移我渐渐的有些难以忍受打开目录是的卡顿。由于存储了大量的图片,在windows里开了大图预览后点一下卡一下。尽管我已经尽量将图片分到各个子目录,但是无奈图片过多。这里我就觉得小米的磁盘管理存在问题,似乎是多个同时读写的任务会互相阻塞。回来我才知道这个路由器本身的系统是安装在这个1TB硬盘上的。

2019年伴随着搬家的的契机,更换了六类网线,似乎感官上好了那么一丢丢。不过还是老问题每次找资源太麻烦了,特别是图片类资源没有一种很好的索引和相似度搜索的方法。在看了一些NAS提供的功能后,感觉似乎从一定层面上解决这个问题。开始下定决心是看到了张大妈上关于黑群晖的文章,觉得入门成本还可以接受。

当时虚拟货币崩盘造成的矿机大量流入淘宝等交易平台,于是我买了一个看起来挺不错的机器。随后开始折腾域名,DDNS和电信师傅沟通网络问题,更换风扇以及一些小配件。风扇一定要换的原因是这机器开起来仿佛进了机房一样,这呼呼的声音说是发动机也不为过,更重要的是动静这么大总是莫名觉得很费电的样子。看介绍说自带的电源也不怎么样,但是目前对于这东西的需求并不是很大,不需要24小时开机。于是就先算了,哪天使用强度上来了再换吧。毕竟如果换电源再折腾下去差不多能买个正版群晖了。

大概是2019年的9月份的某天晚上,我关闭电脑准备休息,但是听到一边的R1D依然在嗡嗡作响。摸上去也热乎乎的。等了好一会也没有什么变化,于是我直接重启了,之后手机依然正常联网。

第二天闪黄灯,打开R1D后台,结果显示磁盘损坏还有个恢复按钮,当时也没多想就恢复了。没想到的是恢复成功后所有数据全部清空了,我简直不敢相信,赶紧去小米论坛上查了一下。结果当时就几乎要拍桌子了,心里大骂:小米是不是做手机做傻了,系统恢复还带格盘的吗,连个提示和说明都没有。想到里面存的大量电影和电视剧都没看,再去下载就没那么容易了。把路由器拆开看发现这个1TB硬盘是挂在主板上的一个笔记本机械硬盘,随后把它拆下来接电脑上用DiskGen扫描了两个小时。在看到扫描出一堆乱码文件后觉得似乎还有救的样子。

正是因为路由器突然挂掉,加快了我向黑群晖转移数据的进度。把箱子里外壳都变色的TPLink拿出来先凑合用一下,于是在国庆前两天进入了艰苦的数据整理与转移过程。先是把之前几块旧硬盘的数据重新分类后复制出来,然后插入NAS全盘格式化,折腾完后再将数据全部复制回去。这其中最耗时的是图片,视频,剩下的文档等东西只是相对简单地进行分类而已。

  • 图片:图片首先按照目录进行分类,然后在Photo Station中打标签,建立索引
  • 视频:视频最大的问题是建立自己的影视资料库,在配好了Video Station后,寻找刮刷器,建立视频meta信息,封面等操作
  • 文稿:全面整理了一些工作与学习相关的文档,代码。这里只是做了简单的归档,更高的资源利用率还是要依赖随后自己的CMS系统。

在连续两天的紧张工作,主要的数据算是基本转移完成。在这个枯燥的日子了,不知道为什么突然想到了《全部成为F》,并在这个番作为BGM的情况下完成了基本的数据转移。国庆期间我还在思考怎么复活这个有点感情的R1D,想过做成个树莓派的样子,弄个亚克力的壳子再加个风扇漂亮点。在计算成本后最终还是放弃了,毕竟本身性能有限。在摸了摸工作中烫手的TPlink后决定还是换个新的好了,于是在饭前跑到家旁边的小米之家买了个A4千兆版。

回来打开这路由器着实被这做工惊呆了。网口感觉少了个水晶头卡扣一样,直接用外壳卡主。我六类网线的水晶头要小一圈接上去后数据线碰不到接口,我当时就觉得又被小米坑了。但是回头想想这价格,觉得算了于是找了些东西夹在水晶头卡扣上终于算是能插上去了。当连上网络感觉瞬间不一样了,局域网内文件传输可以稳定到95M。同时外网毫无影响,最后访问NAS,完全没有远程的感觉,如丝般顺滑。如再升级可能就是电脑了。

最终的效果可能得益于新的路由器以及网线,在外部网络直播非常流畅的前提下,内网NAS视频传输与文件复制没有任何影响。这基本满足了使用需求,当然更重要的是把之前的旧硬盘利用了起来,里面积累很久的各种资料能够重新组织起来加以利用。也正是在这个基础上后续的个人知识管理体系才有可能推进下去。

最后不得不说R1D旧的数据,由于存在长时间的数据读写,大部分数据都有覆盖的现象。最终导致恢复出来的文件几乎都只有一部分能用,剩余的都是乱码,视频更是只能看几秒钟,最终还是恢复失败。这块笔记本硬盘也被我装在亚克力盒子里当移动硬盘使用了,更让我惊奇的是某天在公司看到还有其它同事也这样用(笑)。

2.1 NAS

NAS的好处我就不多说了网络上各种各样的理解都有,就我而言其本质是作为一个相对功耗较小的设备,独立的拥有数据管理功能。如果从开发的角度来说它本质就是一个Linux系统的服务器,所以在默认的群晖系统外可以做许多其他的工作,比如安装python,java开发环境,安装数据类库等。再然后就可以把许多其它平台已有的方案迁移过来。

对于日常使用可以直接当做云盘,在配置好DDNS后在外面也可以访问家里的数据。更多时候NAS是作为媒体中心存在,在我使用的一段时间也认为这是体验最好的。

web端效果,说实话做这个影片数据制作非常不友好。它只是去几个相对比较大型的媒体库去查找,很多小众影片根本找不到,更不用说不支持豆瓣还要自己写代码解决。最终做出来效果也只是看着舒服,意义不大。

Android TV上的效果,也就是android APP效果。由于没有体验过谷歌官方的Android TV到底是什么样,到底是什么设计规范,我觉得这个APP的交互个人很不适应。就国内Andtoid TV而言,就我之前的创业经验来说其实很大部分直接使用的是移动版android放在大屏幕上而已,当时为了做出遥控器与鼠标两套操作方案,折腾了很久。当时也看了Andorid TV的官方文档,但是我的感觉就是看着很美好,真正用起来非常不自然。

然后是最重要的播放问题,无论是WEB端还是官方android APP版本(需要改)并没有内置解码器,这主要是因为这个群晖系统使FFmpeg方案,为了播放对于一些不兼容音视频需要转码。这个据说是正版系统才有的功能,我传视频上去后也显示后台正在转码,但是都没有成功。android版也是要TV自带的解码器,我这老款的小米电视就解不了MKV一类的视频。好在可以通过安装第三方移动端的播放器,并设置软解后能看到一些专门去下载的高质量视频。比如上图这个MKV格式的重版出来我就是另外装的播放器,通过群晖的app获得网络串流设置了软件解码后播放的(其实是解码的音频)。当时非常愉快的抬着头,安静的看完了这部存了好久的《重版出来》。后来bili上了正版后又仔仔细细的看了一遍。

总有一天,也要打倒JUMP。

群晖虽然能解决很多问题,但是总给人的感觉是非常不“亲切”,也不是说他界面与交互不友好。而是感觉更像是一个管理系统,并且这个管理系统是管的服务器。对没接触过这些概念的用户来说很多东西都不好理解,所以最终给我的感觉是这是个“生产力”相关的更多是与“工作”有关的东西。而且最近看群晖发来的宣传邮件,这点似乎更明显了,而且还有很强的“企业”级应用的意思。对这些概念不熟悉或者不喜欢折腾的用户,看到这些也许会非常头大吧。

最后就是系统级备份问题了,我一直想备份一下Mac系统也听说过Mac自带这个功能,于是在有了一个容量外部存储后就想试一下。结果就像以往很多次一样,越是深入了解水果的生态就越是感到无奈。在建好目录配好用户,Mac远程连接NAS成功后启动Time Machine,提示检测到远程磁盘,启动备份功能并显示需要十几个小时。然后还没有运行几分钟就提示无法找到远程磁盘,明明Finder里还愉快的连接着呢。去网络上找了半天看到各种抱怨,以及解决方案,来来回回折腾了快一个小时最后决定放弃。

3. 服务端

同样是在2019年,我看到某云服务商做促销,入门级配置的服务器非常便宜。于是就顺势买了域名,服务器,https证书,然后备了案。后来这个服务器还临时搭建了一套系统给客户演示使用,我惊奇的发现配置这么低的云主机竟然在跑了几个java微服务,redis小集群,mysql服务器,prometheus与grafana监控后,以及几个node应用后还勉强可以用。于是我又萌生了构建一个CMS系统为我几个小项目提供后端的内容管理与发布,甚至将来自己构建笔记系统也不是不可能,毕竟是云服务器升级也挺方便的。而这个打算到2020年年末才开始着手推进。

2020年年末出于一些原因,我想搭建一个相对简单的数据分析系统。由于比较熟悉Java领域的技术栈,首先想到走Hadoop与Spark结合的体系。在经过多方衡量之后觉得无论是租云主机,VPS还是装配一台物理机,这成本都显得太高了。就在这时候我看到了树莓派4代8G内存升级版,看到它的性能提升之后就感觉也许能试一下。

虽然64位系统镜像当时还没有发布正式版,但是看到这官方提供的刻录软件还是觉得这真是好东西。这不禁让我想到一两个月前我拿着旧刻录工具往U盘里安装centos镜像,结果再安装的时候有一个步骤按钮不能点,结果去刻录软件官方才看到是写着不支持新版的centos…

镜像刻录完成后很顺利的启动了这个崭新的树莓派4代,同时和我之前的三代B拼装成一个简单地集群系统。由3代B负责资源和任务协调,里面存在一个简单的python爬虫,mysql、MongoDB。一开始期待着做配置和输出管理,任务管理等,但是之后在试过跑Jenkins流水线巨卡无比后我对整个技术选型产生了深深的担忧。当时想的很简单大数据先关的数据分析都秉承着计算向数据靠拢的原则,就是把代码和数据放在一起。由于树莓派4代8G版是可以由外接SSD启动的,我在看了一些小容量SSD后觉得价格还可以接受,所以才有上述选型。

同时由于这两块板子分别是armhf结构的32位系统与arm64架构的64位系统,虽然java/pyhon这些语言都针对arm版的官方支持,但是为了先验证技术栈的可行性于是决定现在之前的黑群晖上做验证。在安装了Java,配置好一个本地单机版Hadoop和Hive后我决定先看看性能。从天池官方下载了一个22G,约7亿条数据的数据集后,将其导入HDFS,然后使用hive建表并初始化。。

一个简单的insert overwrite语句执行了9783.6.秒,将近三个小时(如果只是简单导入几乎是瞬间完成,但是我做了时间转换等操作,这要扫描每一条数据)。随后做基本的清洗处理,转换时间格式,过滤明显能存在问题的数据,按照年份和月份进行分区。在进行结构优化后执行一个相对复杂的查询,结果最终达到了创纪录的13711.51秒。当然如果条件限制在年与月的某个分区中,这个执行时间将大幅度缩短。而个人使用其实完全没有这么大的数据集,甚至是可以使用关系数据库就可以了。但是我最终的目的是想通过Spark引入一些外部的算法系统,所以在数据量减少几个数量级后我想这是可以接受的,但问题是这个NAS即便性能再差也肯定比树莓派强好多,毕竟用的是x86 CPU,自带风扇和电源,完全是USB供电并带个微型风扇的小PCB版无法替代的。特别是在Jenkins也走不通的情况下,我就不得不重新审视这个微型的轻量级的数据处理系统的技术选型了,也许Java体系是走不通的。

我不得不重新选择使用Python或node技术栈来想办法,基本思路是不找数据集而是Scrapy一类框架获得实时数据,并直接输入Python构建的分析系统,对于已有数据源则使用一些相对来说比较轻量级的比如Airflow等系统做调度,再将数据直接输出到CMS系统中。最终我的所有数据全部汇总到云服务端再提供给不同场景使用,当然服务端的CMS系统只是文本内容存储,以及知识关联性管理。多媒体数据还是在我的本地NAS。

4. 最后

正是由于路由器坏掉的原因,同时又把之前积累的几块旧硬盘的数据重新拿出来做了整理,感慨之余想把这些东西记录下来,于是有了这片文章。这期间断断续续持续了写了很久,结果在假期放下心来随性的写一下反倒是写完了。

就像做编程真正上手去做,最令人纠结的是各类命名问题,变量,类,方法。好不容易写完一篇东西,为文字选图片特别是题图也是无比纠结的事情。本来想选一些数据类的图片,结果都过于工作化,也就是适合放在PPT和文档里面的东西,和这个相对私人的行文风格有较大的隔阂。说到数据处理想到的是方舟罗德岛的几个干员图,不过这些图二次元浓度太高,就像之前文章放的能天使一样,即便是作为番剧介绍也觉得作为题图有些不合适。而这次倒是根据方舟的线索找到了T5大佬的收藏,这张图氛围是有了不过和本文内容似乎还有些不搭,先这样吧。