2025-06 跑步日记

2025-06 运动次数: 2 运动距离: 23.61 km 运动时长: 2:17:37 平均距离: 11.80 km 平均心率: 150 bpm 平均配速: 5:49 / km 2025-06-01 时间: 2025-06-01 06:33:11 距离: 15.09 km 时长: 1:32:01 配速: 5:59 / km 心率: 146 bpm ...

六月 3, 2025 · 1 分钟 · 50 字 · Jogger ·  跑步

跑步总结(2025-06-03 更新)

累计数据 运动次数: 390 运动距离: 3441.45 km 运动时长: 14d 11:56:27 平均距离: 8.82 km 平均心率: 154 bpm 平均配速: 6:03 / km 2025 运动次数: 48 运动距离: 437.97 km 运动时长: 1d 20:32:20 平均距离: 9.12 km 平均心率: 150 bpm 平均配速: 6:06 / km ...

六月 3, 2025 · 1 分钟 · 149 字 · Jogger ·  跑步

2025-05 跑步日记

2025-05 运动次数: 14 运动距离: 150.43 km 运动时长: 15:22:32 平均距离: 10.75 km 平均心率: 149 bpm 平均配速: 6:07 / km 2025-05-02 时间: 2025-05-02 06:40:34 距离: 5.20 km 时长: 32:16 配速: 6:12 / km 心率: 136 bpm ...

五月 30, 2025 · 2 分钟 · 242 字 · Jogger ·  跑步

如果人生是一场强化学习,我们的奖励函数是什么?

如果人生是一场强化学习 早上跑步听枫言枫语142期《橘子:ListenHub听见好奇心》,嘉宾Orange提到“如果人生是一场强化学习,你的奖励函数是什么?”。想象一下,我们每个人都是一个复杂的、不断学习的智能体。我们生活在一个庞大而动态的环境中,每天都在做出无数的决策和行动。这些行动会带来不同的结果——有时是愉悦、满足,有时是痛苦、遗憾。我们从这些结果中学习,调整自己的行为策略,以便在未来获得更多“好”的结果,避免“坏”的结果。 这听起来是不是很像人工智能领域的一个重要分支——强化学习? 在强化学习中,一个智能体的目标是通过与环境的交互,学习一个最优策略,以最大化其获得的累积奖励。这个奖励信号由一个预先设定的“奖励函数”来定义。智能体并不知道最优策略是什么,它只能通过“试错”和从环境反馈中学习。 如果我们将这个框架套用在人生上,会发现惊人的相似之处: 智能体 (Agent): 就是我们自己——每个人。 环境 (Environment): 我们所处的社会、家庭、工作、自然界,以及我们自身的生理和心理状态。 状态 (State): 我们在特定时刻的处境、知识、感受、拥有的资源等等。 行动 (Actions): 我们做出的选择、说出的话、采取的行动,大到职业规划、婚姻选择,小到今天午饭吃什么、对同事微笑还是板脸。 策略 (Policy): 我们基于经验和认知形成的决策模式、习惯、价值观,它指导我们在特定状态下采取何种行动。 奖励/惩罚 (Reward/Penalty): 行动带来的即时或长远的结果,可能是积极的(奖励)或消极的(惩罚)。 那么,问题来了:如果人生是一个强化学习过程,我们的奖励函数到底是什么? 是什么在驱动我们的学习和行为?是什么构成了我们追求的“奖励”? 这不像训练一个玩游戏的AI那样简单,游戏规则和得分机制是明确的。人生的奖励函数是隐晦的、多样的、甚至是个体化的。以下是一些可能的构成要素: 生存与繁衍的本能奖励: 这是最底层的激励。食物、安全、舒适、性的满足感,这些是生物进化刻在我们基因里的奖励信号,确保个体和物种的延续。饥饿得到满足是奖励,受到伤害是惩罚。 快乐与痛苦的感知: 我们的神经系统对快乐(如愉悦、欣喜、成就感)和痛苦(如疼痛、悲伤、恐惧)有直接的感知。追求快乐、逃避痛苦构成了重要的激励来源。但这往往是即时且主观的。 社会认可与连接: 作为社会性动物,来自他人的认可、赞美、爱、归属感是强大的奖励。被孤立、批评、排斥则是惩罚。这驱动我们去适应社会规范,建立人际关系。 成就与掌控感: 完成一个目标、掌握一项技能、解决一个难题、获得权力或财富,这些都能带来成就感和掌控感,是重要的内在或外在奖励。 意义与价值的追求: 当基本的生存和社交需求得到满足后,许多人开始追求超越个体的小我,为更大的事业、理想或他人做出贡献。这种“意义感”和“价值感”是更高级的奖励,它可能要求我们放弃即时快乐,甚至承受痛苦。 好奇心与成长: 探索未知、学习新事物、实现自我提升,这些过程本身就能带来满足感。对许多人来说,持续的成长和学习是重要的内在激励。 动态变化的奖励函数:人生不同阶段的追求 如果说人生是一个强化学习过程,那么随着我们进入不同的人生阶段,我们的“奖励函数”确实也在发生变化。我们所追求的目标和理想不同了,意味着对不同结果的“奖励”权重也随之调整。 这就像一个智能体在完成一系列连续的任务,每个任务都有其特定的奖励机制。在人生的不同阶段,我们面临的“任务”和环境挑战不同,自然驱动我们去寻求不同的奖励: 童年和青少年时期: 这个阶段的奖励函数可能更侧重于即时满足、来自父母和老师的认可、探索世界带来的好奇心奖励。学习新技能(如走路、说话、骑自行车)本身就是一种奖励,因为能带来掌控感和自由。惩罚可能更多是生理上的不适或直接的批评。 青年时期: 奖励函数开始向来自同伴的认可、成就感(学业、事业的初步成功)、建立亲密关系以及经济独立倾斜。对未来的憧憬和理想也成为重要的激励来源,即使实现过程充满挑战。 成年及中年时期: 奖励函数可能变得更加复杂和多元。事业上的进一步发展(成就)、家庭的稳定与幸福、子女的成长、对社会或行业的贡献成为核心奖励。健康的重要性凸显,对风险的规避(减少惩罚)也变得更重要。 老年时期: 奖励函数可能再次发生转变。健康与舒适、与家人朋友的联系、回顾人生所获、为后代留下遗产或经验可能成为主要的追求。对物质和外部认可的权重可能下降,而内心的宁静和满足感变得更加珍贵。 为什么奖励函数会变化? 这种变化并非随机,而是由多种因素驱动: 生理和心理发展: 随着年龄增长,我们的生理需求、认知能力和情感状态都在变化。 社会角色和责任: 从学生到职员、从单身到为人父母、从工作到退休,社会角色的转变带来了新的责任和期望,这些都影响我们认为“有价值”的事物。 经验的积累: 过去的成功和失败经历会重塑我们对不同结果的预期,从而调整我们对这些结果的“奖励”或“惩罚”评估。 价值观的演变: 随着阅历的增加,我们对人生、幸福、成功的理解可能发生变化,这直接影响我们对内在和外在奖励的优先级排序。 这种奖励函数的动态性,解释了为什么我们在不同年龄会有不同的烦恼和追求,为什么年轻时愿意冒险追求梦想,年长后更倾向于稳定和安逸。它也意味着,人生这个强化学习过程,不仅是学习如何在固定的奖励机制下优化行为,更是学习如何适应甚至主动调整那个不断变化的奖励机制。 人生的奖励函数之所以难以捉摸,在于它往往不是单一的,而是以上各种因素的复杂组合。更重要的是: 奖励信号可能延迟: 很多有价值的奖励(如长期的健康、深厚的感情、事业的成功)需要长期的努力和延迟满足,而短期的行动可能带来即时但有害的奖励(如沉迷游戏、暴饮暴食)。 奖励之间可能冲突: 追求事业上的巨大成功可能意味着牺牲与家人相处的时间;坚持原则可能意味着失去社会认可或物质利益。 奖励函数是动态变化的: 年轻时可能更看重物质和认可,年长后可能更追求健康和内心的平静。人生的不同阶段,我们对奖励的权重会发生变化。 奖励函数是主观且隐性的: 我们可能自己都意识不到真正驱动我们的是什么。有时我们以为自己在追求A,但潜意识里真正想要的是B。 理解奖励函数的重要性 将人生视为一个强化学习过程,并反思自己的奖励函数,具有深刻的意义: ...

五月 24, 2025 · 1 分钟 · 83 字 · Byter ·  随想

2025-04 跑步日记

2025-04 运动次数: 13 运动距离: 106.74 km 运动时长: 10:56:01 平均距离: 8.21 km 平均心率: 154 bpm 平均配速: 6:08 / km 2025-04-08 时间: 2025-04-08 06:56:29 距离: 5.20 km 时长: 31:42 配速: 6:05 / km 心率: 154 bpm ...

四月 30, 2025 · 2 分钟 · 226 字 · Jogger ·  跑步

用免费的 Gemini 2.5 Pro 实现 Deep Research

推荐一个开源项目u14app/deep-research,基于Google的Gemini模型实现Deep Research,最近Gemini 2.5 Pro很能打,一推出来就上榜首了。 ### 功能 快速深度研究:约 2 分钟即可生成综合研究报告,显著加快您的研究进程。 多平台支持:支持快速部署到 Vercel、Cloudflare 和其他平台。 由 Google Gemini 提供支持:利用先进的 Google Gemini 模型进行准确而有见地的分析。 思维与网络模型: 采用先进的“思维”和“网络”模型,兼顾深度与速度,快速获得高质量结果。支持切换研究模型。 Canvas 支持研究内容的编辑,提供所见即所得和 Markdown 两种编辑模式,可调整阅读级别、文章长度以及全文翻译。 研究历史: 支持保存研究历史,可以随时回顾以前的研究成果并再次进行深入研究。 本地和服务器 API 支持:提供灵活的本地和服务器端 API 调用选项,以满足您的需求。 注重隐私:您的数据保持私密和安全,因为所有数据都本地存储在您的浏览器中。 多语言支持:英语、简体中文。 采用现代技术构建:使用 Next.js 15 和 Shadcn UI 开发,确保现代、高性能且视觉上吸引人的用户体验。 MIT 许可:开源且可根据 MIT 许可免费供个人和商业使用。 此项目需要使用 Gemini API key,您可以在 Google AI Studio 上免费申请。如果需要 API 代理地址,可以参考之前的帖子如何优雅流畅的使用Google Gemini 1.5 pro服务,也可以找到一些公益的 Gemini API 代理,或者使用 Cloudflare AI Gateway 项目支持的部署方式: 一键部署项目,可以选择部署到 Vercel 或者 Cloudflare docker部署 静态部署 非常值得推荐 在最新的 Gemini 2.5 Pro 的加持下,研究结果大幅提升,如果说之前是大学生水平,那么在 Gemini 2.5 Pro 的加持下,甚至可以达到博士生的论文水平。 ...

四月 6, 2025 · 1 分钟 · 81 字 · Byter ·  AI

2025-03 跑步日记

2025-03 运动次数: 2 运动距离: 12.67 km 运动时长: 1:19:34 平均距离: 6.34 km 平均心率: 152 bpm 平均配速: 6:16 / km 2025-03-28 时间: 2025-03-28 06:40:57 距离: 5.20 km 时长: 34:04 配速: 6:32 / km 心率: 155 bpm ...

三月 30, 2025 · 1 分钟 · 50 字 · Jogger ·  跑步

Tempo:为 Navidrome/Subsonic 打造的安卓原生音乐客户端新选择

各位音乐爱好者和自托管服务器的同好们!今天我们来聊聊一个我心心念念的话题:如何在手机上完美地享受我们精心整理的个人音乐库。如果你和我一样,可能已经花了不少时间搭建自己的音乐服务器(比如用了超棒的 Navidrome),那么接下来的挑战就是:找到一个真正配得上它的安卓客户端。 坦白说,我之前在不同的 Subsonic 客户端之间反复横跳。用过 Ultrasonic,它确实能完成任务,但我个人在使用中遇到了一些小毛病和不顺畅的地方,这让我一直想寻找一个更顺滑、更……原生的体验。 然后,我发现了 Tempo。 Tempo 是什么? Tempo 可以直接连接到你的 Subsonic 兼容服务器(是的,完美支持 Navidrome!),并提供一个设计精美、流线型的界面来浏览和播放你的音乐。让我印象最深的是它的理念:Tempo 不会试图用什么花哨的算法来决定你应该听什么。相反,它的界面是围绕着你的听歌历史和一定的随机性来构建的,这种感觉非常清爽自然。 为什么 Tempo 成为了我的 Navidrome 首选客户端 以下是为什么 Tempo 对我来说如此契合,并解决了我之前在其他应用中遇到的问题: 与 Navidrome 无缝集成: 这是我的硬性要求。Tempo 连接我的 Navidrome 实例毫无障碍。浏览艺术家、专辑、流派、播放列表(甚至年代!)都快速且直观。一切都如你所期望的那样正常工作。没有奇怪的同步问题,没有意外崩溃——只有对我的音乐库流畅的访问。 需要 Scrobble(同步播放记录到 Last.fm)?没问题! 作为一个会虔诚地在 Last.fm 上记录听歌历史的人,可靠的 Scrobble 功能是必不可少的。Tempo 可以直接与 Last.fm 集成(前提是你的服务器支持发送必要的“正在播放”信息,Navidrome 是支持的)。它能准确地捕捉我的播放记录,让我的 Last.fm 档案保持最新,无需任何额外操作。这一点是我之前在其他客户端上偶尔会觉得不稳定的地方。 真正原生且流畅的体验: 这就是 Tempo 相比我过去(比如播放列表错乱的 Ultrasonic)的体验,真正脱颖而出的地方!UI 干净、现代,在安卓上感觉非常对味。导航如丝般顺滑,播放稳定,像无缝播放这样的功能也是开箱即用。它不像是把一个网页应用塞进手机壳里,而是感觉就像一个为音乐爱好者设计的、正儿八经的安卓应用。 你会爱上的丰富功能 除了解决我的特定需求外,Tempo 还带来了更多实用的功能: 简洁直观的 UI: 围绕你的习惯定制,而非某种通用推荐。而且还有漂亮的浅色和深色主题! 强大的浏览与搜索: 按你喜欢的方式深入探索你的音乐库。 流媒体与离线模式: 轻松在线播放。离线模式目前正在积极开发中,令人期待!(注意:当前在使用多个服务器时可能有限制)。 播放列表管理: 随时随地创建、编辑和管理你的播放列表。 无缝播放: 对于那些概念专辑或现场录音来说至关重要。 Chromecast 支持: 将你的音乐投射到 Chromecast 设备(目前功能还比较基础,但已经有了!)。 播客与电台: 如果你的服务器支持,Tempo 也能直接收听播客和电台节目。 转码支持: 需要节省流量?你可以在 App 内直接配置转码设置(需要服务器支持)。 Android Auto 支持: 这点超赞!完整的 Android Auto 集成意味着你可以在开车时通过车载屏幕轻松控制和收听音乐。重要提示: 开发者建议使用 GitHub 版本 以获得最佳的 Android Auto 和 Chromecast 支持。 ...

三月 8, 2025 · 1 分钟 · 110 字 · Byter ·  Music

2025-02 跑步日记

2025-02 运动次数: 8 运动距离: 58.85 km 运动时长: 5:46:52 平均距离: 7.36 km 平均心率: 148 bpm 平均配速: 5:53 / km 2025-02-05 时间: 2025-02-05 06:58:58 距离: 7.51 km 时长: 43:05 配速: 5:44 / km 心率: 147 bpm ...

二月 28, 2025 · 1 分钟 · 146 字 · Jogger ·  跑步

2025-01 跑步日记

2025-01 运动次数: 9 运动距离: 85.66 km 运动时长: 8:49:44 平均距离: 9.52 km 平均心率: 149 bpm 平均配速: 6:11 / km 2025-01-01 时间: 2025-01-01 06:57:35 距离: 11.12 km 时长: 1:15:43 配速: 5:42 / km 心率: 151 bpm ...

一月 27, 2025 · 1 分钟 · 162 字 · Jogger ·  跑步