晋江文学城
下一章 上一章  目录  设置

6、作弊 天无绝人之 ...

  •   这个项目最早创建于2014年,持续更新到现在,已经积累了非常可观的stars。

      陈嘉彗翻了一下,建模思路跟她需要解决的问题是相匹配的,但是这个作者的方法需要长期大量图像训练,陈嘉彗不确定这是个团队项目还是别的什么,如果她也采用这个方法,三个月肯定是不够的,图像训练需要的算力比文本要多得多,训练难度也更大。

      考虑再三,陈嘉彗决定听劝,放弃AI图像识别功能模块。

      这个作者……陈嘉彗的鼠标指针停在主页许久,应该真的非常热爱动物吧,尤其是狗狗。

      Ta似乎不只是想要做物种或品种识别,而更像是要做到一对一的精准识别,这比人像识别要难得多,同一品种的动物细微的毛发差异就会导致识别模糊,想要达到目的得花很多时间和很强的算法能力。

      这么多的训练记录中,出现频率最高的动物是狗,尤其是金毛。

      可能作者家里养了金毛。

      作者主页所有的项目源代码全都是开放可打包下载的,看得出来ta是真的很希望大家都能参与进来。

      陈嘉彗点了关注。

      吃完晚饭,陈嘉彗继续泡在论文和技术论坛里。

      她必须找到一个合适的,AI文本训练的创新点,在此之前,她需要充分掌握transformer和bert,同时前端和后端开发的熟练度也要捡回来。

      大量的训练也需要足够的算力和数据储备,这又是需要发愁的问题。

      前世她在公司参与这个类似项目的时候,算力和数据资源都由公司搞定,她只要向上级打申请就行,然而现在是自己在做非商业项目,这两项资源必须自行从学校或者其它渠道找到解决方案,大纲还未提交,这些事项就要提前规划起来了。

      全神贯注在论文和论坛里泡了四五天,创新点依旧没有定下来。要么时间和资源条件无法满足,要么她能力不足,要么创新点过于大众化,陈嘉彗点开赛事项目大纲提交界面,呆坐良久,长叹一口气,点击了确认提交按钮。

      三个月从0到1,即便她有前世两年硕士基础,以及相应的工作经验,也无法彻底扭转一人参赛的劣势。陈嘉彗也不是没想过找本校计院的同学组队,但这个节骨眼上几乎所有的学生已经组队完成,即便有零星几个落单的,也宁愿找和数院或者经济学院的学生组队,也不会贸然和她这个明面上此前从未学过计算机,且坚持做自己的方向的人组队。

      现在这个阶段,参赛队伍的项目主题还未公布,参照去年的项目列表能够看出来AI、物联网、智慧城市、云计算等是主流参赛方向。她选的AI旅游交叉主题归根到底还是在AI的大方向内,竞争比较激烈。

      陈嘉彗只是为未来三个月的自己默哀了一秒,随即开始准备各阶段的工作布置。

      无论结果如何,先做了再说。

      同为计算机强校,学校很重视这次赛事,给参赛队伍配备了半层机房,比赛的这3个月内,参赛学生凭借学生卡可以24小时使用,机房里的监控也24小时开着,这是赛事委员会的要求。

      机房按照5人一组的标准配置进行了队伍划分,参赛队伍编号对应位置组号。

      当陈嘉彗第一天刷卡进机房的时候,还没有多少人关注她,直到一周过去,大家发现K-0027组的5个座位一直只有1个人在,不免有些好奇起来,时不时瞥向她。

      陈嘉彗对此毫无察觉,她已经着手数据收集和清洗,并开始配置bert模型预训练。

      单兵作战对陈嘉彗来说是劣势也是优势,她前世实打实参与了AI商业项目的执行,这些经验让她很清楚不同的训练和优化阶段会遇到什么坑,从而避免过去。如果和人组队,不免要花许多时间和口舌解释她为什么选择这个方案而不是那个方案。

      接下来的将近一个月里,陈嘉彗除了吃饭睡觉和必要的课,其余时间全泡在机房里。数据清洗-模型训练-进度检测,陈佳慧的10月就在日复一日中很快过去。

      经过一个月的熟悉,机房里的其他选手已经单方面认识她了,有部分比较闲且好交际的选手想趁着她休息的间隙跟她打招呼,没想到陈佳慧根本没有休息的时候,每次众人结伴出去吃饭的时候,K-0027组的那个女生在跑代码,众人轮换去睡觉的时候,K-0027在清洗数据,第二天众人陆续到自己的组准备看测试结果的时候,K-0027已经开始写检测日志了。

      “她是哪一届的啊?这么拼。我感觉被卷到了。”

      K-0019组的组员在线上群聊聊开了。

      “不是信院的,我问过了,信院所有参赛队伍里没这号人。”

      “那就是经济学院的吧。”

      “管院的,旅游管理系酒店管理专业大三学生。”

      “啊???这合理吗?”

      “你别管合不合理,人家确实很拼。”

      “这,她能做出啥啊,也不找个计算机专业的搭档。”

      “可能是组不到队伍,我同学说上个月比赛报名快结束的时候,有个酒店管理专业的大三生求组队,校园帖子下面没人回应。”

      “好惨。”

      “还有人嘲讽她呢。”

      “啊?”

      “那个帖子我去围观过,有人问她有没有辅修计算机,她回复说没有,后来又有人问她要不要进组做执行和写论文,她拒绝了,因为她想做项目主导,然后被群嘲,之后帖子就被删了。”

      “嘶,这姐姐真是有勇气。无知者无畏。”

      “所以不用被她打乱节奏,她可能也一头雾水呢。”

      “说的也是,待会午饭去吃什么?”

      “二食堂黄焖鸡米饭。”

      “喂,已经连续三天黄焖鸡米饭了啊,怪不得你大学三年没女朋友,黄焖鸡是你真爱吧……”

      秋意更浓时,陈嘉彗几乎住进了机房。她买了个折叠床,带了一个小毯子,困了就定个闹钟睡一会,醒来去卫生间洗把脸刷个牙回来继续手头的工作。

      核心功能的bert模型已经预训练完毕,接下来需要针对旅游规划助手的具体功能进行参数微调,每个功能模块需要准备数千条标注数据,陈嘉彗自己抓取的公开数据和学校的资源并不能满足需求。

      这个阶段,陈嘉彗还必须开始网页前端界面开发和交互系统设计,即便获得海量可用数据,也无法自行标注,没时间了。

      她有些烦躁地挠挠头,长叹一口气,盯着屏幕右下角跳动的时间出神。

      如果是前世她就职的那家公司,一定储存了很多标注好的数据,而且刚好匹配她的需求。这个时间,他们应该还没开始启动AI方向的项目,如果她记得没错的话,项目正式立项是在2021年才启动,现在是2018年,早着呢。

      一个念头突然闪过脑海,心跳逐渐加速,陈嘉彗打开赛事官网,划到赞助商一栏,居然真的看到了公司的名字。

      天无绝人之路,陈嘉彗不自觉嘴角弯起。好吧,她承认自己是一个“作弊”投机的邪恶大人。
      她记下对应的赛事赞助方联系号码,将电脑熄屏,带着手机,走出机房。

      A大交叉学院,呈佳树骑着自行车回到自己租的校内公寓后,登上自己的github账号,准备上传最新的模型演练数据,发现自己的历史上传项目多了好多star,就像是有人点进他的主页把每一个project全都star了一遍。

      Follow也多了几个,呈佳树点列表,最新的一个follower是名为“cjhgogo”的用户,主页一片空白,貌似上个月才注册。

      呈佳树愣了愣,微微歪了下头,有些迷茫地看着自己的github主页,呆了几秒,然后回过神来,开始上传自己的训练数据。

  • 昵称:
  • 评分: 2分|鲜花一捧 1分|一朵小花 0分|交流灌水 0分|别字捉虫 -1分|一块小砖 -2分|砖头一堆
  • 内容:
  •             注:1.评论时输入br/即可换行分段。
  •                 2.发布负分评论消耗的月石并不会给作者。
  •             查看评论规则>>