CBA官网:上海队为王哲林与刘礼嘉进行预注册

核桃 75 0

如何评价CBA新版数据官网上线?

CBA新版数据官网上线两周了,整理一下感受。

这是历史性的一刻,因为CBA球迷终于有了像样的数据服务。有这样既能帮助广大受众“考古”,又能推进分析学(analytics)发展的项目实属难得。无论是上游的数据录入与标注,还是下游的数据设计与工程,所有参与或推动这个项目的人都功德无量。

CBA新版数据官网的爽点爽点一:满足广大受众的查搜需求,提供直观的数据内容

新版数据官网对大众球迷可谓是十分友好。

就基础层面而言,数据回溯到CBA元年,能够满足历史控的简单查搜需求(例)

另外,网站还放出了自-18赛季以来所有比赛的“比赛事件(play-by-play)”(见下图),这是此前其它官方或门户的CBA数据网站都没能做到的(至少在桌面端)。

CBA新版数据官网的“比赛事件”页面

在更深的层面上,网站吸收了cleaningtheglass的思路,可谓是用心良苦。这也让新版数据网站呈现的数据较其它公众层面上的数据项要更为直观,解释性更强(后面再展开)。

以单场比赛数据的“比赛报告”页面为例,CBA新版数据官网除了会列出双方的数据外,也会附上百分比排名(见下图颜色框)。比如,广东在今年1月6日对山西的比赛中,百回合得分120.2分,优于联盟71%的单场场次表现。这相当于让广大家长们在了解自己娃考几分的同时还掌握了“到底有多好”的重要信息,甚好。

CBA新版数据官网的“比赛报告”页面爽点二:为数据玩家创造探索分析的基础

对于有主动意愿去研究CBA的旁友们而言,新版数据官网的上线意味着:探索研究CBA数据的成本基本为0。

翻译翻译就是:各位有着数学/统计学/数据科学/计算机科学学科背景/经验的同学们,我们现在可以像北美同领域的旁友一样——自己抓数据,做分析,形成讨论氛围。有小的洞察就可以写写文章发到网上。成熟的还可以撰写论文投刊物去。

以下举两个拿现成官网数据做探索分析的小例子。

例一:“四要素”的可解释性(Interpretability)

自上赛季开始,CBA官方在微博及微信公众号等平台上都在积极地科普及推广Dean Oliver提出的”四要素(4 factors)“数据(注1),为广大球迷提供了一个通过数据就能直观感受或评估比赛质量的方式。

打个比方,“四要素”框架就好比是一场托福考试。若一名考生(球队)在考试(比赛)中能把阅读/听力/写作/口语(“四要素”)的大多数点做好,那其托福成绩(百回合得失分效率)应该也会不错。这与“多抢进攻篮板就能拿更多分”或是“多一次失误就浪费一次机会”的逻辑是一致的,只是我们现在从这个框架中取得的信息替换成了更具体的“我们这场比赛的进攻篮板率比联盟平均好多少个点”或是“我们这场比赛的失误率比联盟平均少多少个点”。

注1:篮球数学家Dean Oliver (现任奇才助教)在其早年著作Basketball on Paper中,提出了“四要素”的概念。具体数据项为以下:- 有效命中率:衡量运动战得分效率;每个三分球算1.5个两分球来计算效率(因为要拿到12分,两分球得10中6,⽽三分球只要10中4)- 失误率:测量球队的失误控制情况。例,10%表示,球队每百回合失误在10个- 前场篮板率:前场篮板能使⼀个进攻回合得以延续。球队前场篮板率越⾼,提⾼每百回合得分效率的可能也就越大;算法为,本⽅方前场篮板 / (本⽅方前场篮板+ 对⽅方后场篮板)- 造罚篮率: 算法为罚球命中数/ 投篮出手数。衡量两个⽅面:1)是否能走上罚球线;2)能不能罚进

那么,除了竞赛层面上的逻辑关系外,还有什么理由能让我们放心”食用”“四要素”呢?

新版数据官网就为我们提供了进一步探索的素材。通过“四要素”数据对百回合得分进行最简单的线性回归(注2),我们可以得出,“四要素”与百回合得分的相关性(correlation)非常高。

注2:“四要素”线性模型信息/结果如下:- 数据采用-四个赛季总计场常规赛。自变量为每场比赛的“四要素”,因变量为每百回合得分效率(CBA官方版本的回合数为估算)。- 每百回合得分效率呈工整的正态分布(见下图)。除造罚篮率外,其余“三要素”呈工整的正态分布。- 该模型的决定系数(R方)为96.3%, 呈高拟合度。- 在做中心化处理前,“四要素”的方差扩大因子(variance inflation factor, VIF)较高,指示自变量之间有着较强的相关性。比如,高前场篮板率—>篮下二次得分机会—>高有效命中率。

例二:外援规则与CBA竞赛水平发展趋势

如果想研究CBA外援政策(注3)与联赛竞技水平的关系,直接用官方版本的百回合得分数据(回合数为估算)亦可以探索。

注3:近5个赛季(包括本赛季)CBA外援规则大体如下:- -18赛季:4节6人次- -19赛季:4节6人次- -20赛季(复赛前):4节6人次- -21赛季:4节4人次- -22赛季:4节4人次(对阵全华班)* 考虑到有关八一的场次有特殊外援规则,故选择在以下可视化中剔除所有含有八一比赛场次的百回合得分(包括八一及其对手)。

在对过去5赛季的得分效率及比赛节奏绘制分布后,我们可以看出,自从CBA限制外援出场节数后,CBA单场比赛的百回合得分效率出现下滑。该趋势在本赛季各队外援没到位的第一阶段中尤为明显。

作为赛事观赏性的另外一个组成部分,联赛的比赛节奏也变得更慢了。本赛季第一阶段的每48分钟回合数甚至跌破90。

另外,在对过去5个赛季各球队的得分效率进行可视化后,我们不难发现,CBA的强弱分化已愈发严重。联盟头尾的百回合得分效率差距从-18赛季的刚刚破10,拉大至-21赛季的将近20。而在本赛季第一阶段的小样本里,联赛得分效率分布甚至出现“中游真空”的景象——百回合得分距离联盟平均水准5分以内的球队仅有7支。

新版CBA数据官网亟需改进的点:比赛事件的数据质量

就目前而言,比赛事件(play-by-play)的数据质量是CBA新版数据官网最亟需改进的问题。

目前发现的比赛事件数据问题有哪些?

前文提到,CBA新版数据官网记载了自-18赛季以来所有比赛的比赛事件。在进行一些初步检查(注4)后,发现的问题主要有三种:1)可以通过时间节点回看录像重新标注的“简单”问题(不代表不繁琐);2)难以通过时间点回看,需自发寻找/补充的“麻烦”问题;3)完全错乱的“事故”问题。

注4:初步检查包括将“比赛事件”记录的数据与“面板数据(boxscore)”的进行比对。以欧冠(Euroleague)作为横向参考,自-19赛季起至今近千场比赛中,比赛事件记录与面板数据“打架”的场次仅2场。

“简单”问题包括且不限于:

- -18赛季有大量比赛的换人记录未标明谁上谁下。比如这场,这场和这场。

- -20三个赛季存在个别“只标明谁上场,未标明谁下场”的换人记录。比如这场(王奕博),这场(劳森)和这场(于梁)。

“麻烦”问题包括且不限于:

- -20赛季有大量比赛的“个人面板数据抢断数较比赛事件记录的多,但失误数没有相应变化”,比如这场(邓蒙/王潼/姜宇星/代怀博/姜伟泽皆多1个),这场(张涵钧/任骏威/周湛东/许家晗/赵泰隆皆多1个)和这场(朱旭航的3个抢断未出现在比赛事件中)。该问题在本赛季中未出现。

- -19赛季有一场比赛只有3节的比赛记录(第2节+第1节后半段记录缺失)

目前找到的“事故”问题:

本赛季总体没有大的比赛事件数据问题,除了一场事故级别的比赛事件记录。

该场次的面板数据与比赛事件记录全方位不吻合。比如,在得分这一项中,具体结果如下:

原帅 | 比赛事件记录得13分 | 面板数据得15分葛昭宝 | 比赛事件记录得29分 | 面板数据得31分贾昊 | 比赛事件记录得6分 | 面板数据得8分张宁 | 比赛事件记录得17分 | 面板数据得13分

以原帅为例,面板数据显示他15投6中,而比赛记录显示他14投5中。通过比赛录像回看,原帅的确命中6球,时间点分别在:第1节11分8秒/第1节7分37秒/第3节6分5秒/第3节4分22秒/第3节3分39秒/第3节1分46秒。

年10月17日山西对宁波比赛第1节的“比赛事件”截图

再次回到新版官网的比赛记录,发现在第1节的11:28秒至7:37秒出现将近4分钟的空档(见上图)。而原帅在该场比赛进的第一球就处在这消失的时间段中。

未在“比赛事件”记录中出现的出手命中为何要改进比赛事件的数据质量问题?

因为回合数(possession)是现代篮球数据研究的基础。

先说点近的。

当比赛事件的数据质量得到保证后,CBA就可以遵循历史数据,算出自个联赛的罚球系数,从而获得CBA版本的真实命中率公式,而不是照搬NBA的。正如Kenpom为NCAA算的一样。

当比赛事件的数据质量得到保证后,CBA数据官网就可以像NBA官网在年一样,使用真正的回合数(当你可以一个个精确数的时候,用公式去估回合数就自然成为了次选项)。而通过真正的回合数,CBA数据官网就可以:

- 将现有的估算回合数版本的数据替换成真实回合数的版本

- 继续工程cleaningtheglass所使用的数据。比如各阵容的得失分效率;又比如得出球员A在场上时球队每百回合的得失分效率(即Net Plus-Minus)

- 等等等等

而野生的数据玩家完全可以:

- 像这位CS同学一样,跑个岭回归(ridge regression),得出Regularized Adjusted Plus-Minus(RAPM)

- 找篇论文琢磨琢磨,追寻Second Spectrum大拿曾经走过的路,评估评估CBA阵容

- 等等等等

再说点远的。

比赛事件的标签是后续图像识别/追踪数据研究项目的重要基础。若上游的标签有问题,那下游的建模也就要在错误的数据上进行学习。而有了正确的标签,我们才能做这个,这个和这个。

写在最后

祝CBA新版数据网站越办越好,永不关闭。

另外,打标签(data labeling/tagging)是项辛苦活。祝前线记录人员工作顺利,下游的人会感激的。

CBA新版数据官网的内容可能会在“看台FM”上再聊一聊。对节目或是对泛体育内容有兴趣的旁友们,欢迎关注“看台FM”播客(苹果podcast 喜马拉雅 蜻蜓 荔枝 网易云 小宇宙 qq音乐)。

CBA官网公布联赛自由球员名单:李原宇李根郭凯伦贺天举在列

直播吧7月21日讯 今天,CBA官网公布了联赛自由球员名单,李原宇、李根、郭凯伦以及贺天举在列。

以下为具体名单:

(铁林)

2023 CBA全明星投票开始啦,辽粤格局不复返!

年CBA全明星赛首发球员球迷投票通道已经2月3日12时正式开启,将于2月23日12点结束,当天16点公布首发名单。这是后疫情时代的第一次全明星,值得期待。

此次投票规则做了很多改动,比如双倍算票日,同一球队首发不超过3人,具体如下:

投票期间,同一账号每天可参与一次投票,分别从南北区候选球员名单中挑选5名球员(3名前场、2名后场,每队首发5名球员中最多包含3名来自同一支球队的球员、每队首发5名球员中最多包含1名外籍球员)作为首发球员。候选球员为截止到-赛季CBA联赛常规赛第28轮结束,平均出场时间15分钟及以上的球员。

【双倍计票日】

在双倍计票日(2月3日、2月5日、2月14日、2月21日)当天的投票将双倍计入球员总票数。

【投票群体】

本次票选将由球迷、媒体代表共同参与。其中,球迷投票占60%的比重,媒体代表投票占40%的比重。

【结果统计】

所有投票统计完毕后,分别按照南北区、前后场统计两大群体的投票排名,将【排名】乘以【群体占比】后依次相加作为球员的最终得分,按照分值从低至高进行最终排序。分值相同的情况下,获得球迷投票更多的球员胜出。

南北区首发5人名单中,最多包含3名同队球员,若同一球队首发球员超过3名,则得分高于前3名的球员自动由下一顺位不同球队的球员补位,若出现得分相同的情况,获得球迷投票较少的球员由下一顺位不同球队的球员补位。

投票链接如下:

CBA官网链接:

#/announcement

微博-CBA联赛链接:

虎扑-CBA官方小马甲:

微信公众号搜索CBA联赛

今日头条搜索CBA联赛

CBA官网:上海队为王哲林与刘礼嘉进行预注册

直播吧8月31日讯 今日CBA官网更新了上海男篮最新注册名单,王哲林与刘礼嘉完成预注册。

上海队新增两人注册,其中王哲林与刘礼嘉均为预注册,王哲林顶薪D类合同剩3年。目前上海队已经完成注册17人。

(小豆)