{"code":20000,"message":"OK","data":{"asset_tags":null,"audio":{"title":""},"audio_info":{"uri":"https://wpimg-wscn.awtmt.com/2755af38-232e-4413-8e02-d0e1ede0582b.mp3","start_time":"0.000000","duration":"305.100000","size":"915345"},"audio_uri":"https://wpimg-wscn.awtmt.com/2755af38-232e-4413-8e02-d0e1ede0582b.mp3","author":{"article_count":286,"author_kind":"default","avatar":"https://wpimg-wscn.awtmt.com/e8665831-adc5-44dd-94c2-cc52f39bce2f","bio":"","display_name":"申思琦","editor_choice_articles":[],"followers_count":762,"id":120000000352,"is_followed":false,"uri":"https://wallstreetcn.com/authors/120000000352"},"categories":[{"key":"global","name":"见闻首页"},{"key":"wscn-platform","name":"见闻"}],"columns":[],"comment_count":1,"comment_disabled":false,"content":"\u003cp align=\"left\"\u003e今日要点：\u003c/p\u003e\n\u003cp align=\"left\"\u003e\u003cstrong\u003e1、苹果在 iOS17 中加入transformer语言模型，用于提高文字和语音转文字时的准确性。\u003c/strong\u003e\u003c/p\u003e\n\u003cp align=\"left\"\u003e\u003cstrong\u003e2、苹果开发人员：Vision Pro里用了“脑机接口”，通过检测眼睛等准确预测用户下一步要做什么\u003c/strong\u003e\u003c/p\u003e\n\u003cp\u003e\u003cstrong\u003e3、MetaVL: 将上下文学习能力从语言模型迁移到视觉，开启下一个多模态时代\u003c/strong\u003e\u003c/p\u003e\n\u003cp\u003e\u003cstrong\u003e4、Runway获得1亿美元D轮融资，谷歌领投\u003c/strong\u003e\u003c/p\u003e\n\u003ch2 align=\"left\"\u003e见闻视角\u003c/h2\u003e\n\u003cp\u003e\u003cstrong\u003e海外AI\u003c/strong\u003e\u003c/p\u003e\n\u003ch2\u003e\u003cstrong\u003e1\u003c/strong\u003e\u003cstrong\u003e、苹果在ios17中加入transformer语言模型，用于提高文字和语音转文字时的准确性。\u003c/strong\u003e\u003c/h2\u003e\n\u003cp\u003e苹果在今日更新的ios系统介绍中，阐述了使用transformer语言模型，用于提高文字和语音转文字时的准确性，通过用于单词预测——提高了用户每次键入时的体验和准确性。而这个模型如同苹果一直以来强调对用户的隐私保护一样，是在手机端的模型。\u003c/p\u003e\n\u003cp\u003e\u003cimg class=\" wscnph\" src=\"https://wpimg-wscn.awtmt.com/fd1a63a2-5169-4945-8575-8995ec1e8b81.png\" data-wscntype=\"image\" data-wscnh=\"556\" data-wscnw=\"832\" /\u003e\u003c/p\u003e\n\u003cp\u003e\u003cstrong\u003e见智研究\u003c/strong\u003e认为，苹果使用transformer模型用于一些基础应用符合苹果一直以来的务实精神，苹果从不强调某项技术是否先进，而是要在用户体验上做到极致。这也是苹果一直强调技术落地到应用的体现。\u003c/p\u003e\n\u003cp\u003e见智研究\u003cstrong\u003e相信苹果设备在明年将会拥有自己的llm模型，而这个模型按照苹果一贯的隐私保护模式，应为纯本地化的模型。\u003c/strong\u003e\u003c/p\u003e\n\u003ch2\u003e\u003cstrong\u003e2、苹果开发人员：Vision Pro里用了“脑机”，通过检测眼睛准确预测用户下一步要做什么\u003c/strong\u003e\u003c/h2\u003e\n\u003cp\u003e一位在AR/VR领域工作十年、担任苹果AR神经技术研究员的网友Sterling Crispin发推文，介绍了苹果AR的神经技术研发\u003c/p\u003e\n\u003cp\u003e根据Crispin的介绍和苹果的专利说明，苹果的神经技术可以做到预测用户行为、根据用户状态调整虚拟环境。\u003c/p\u003e\n\u003cp\u003e最酷的结果是在用户实际点击之前预测他们会点击什么，人们的瞳孔在点击之前往往有反应，原因是人们会期望在点击之后会发生什么。\u003c/p\u003e\n\u003cp\u003e\u003cstrong\u003e这时可以通过监测用户的眼睛行为来创造生物反馈，并实时重新设计用户界面，以创造更多预期的瞳孔反应。这是一个通过眼睛实现的粗略“脑机接口”，用户不用接受侵入性的脑部外科手术。\u003c/strong\u003e\u003c/p\u003e\n\u003cp\u003e推断认知状态的其他技术，包括以用户可能无法察觉的方式向他们快速闪现视觉或声音，然后测量他们的反应。\u003c/p\u003e\n\u003cp\u003e\u003cstrong\u003e见智研究\u003c/strong\u003e认为，苹果通过全新的神经技术对人的行为进行预测，从而大幅减小了vision产品整个UI操作的延迟，大幅提升用户体验。从无数细节中可以看到，苹果在用搬山能力处理每一个细节，这个软硬整合能力，不是谁能可以随便模仿的，它所体现的每一个细节，都看出苹果花费巨大的功夫在解决交互体验。这也是苹果之所以伟大的地方。\u003c/p\u003e\n\u003ch2\u003e\u003cstrong\u003e3、\u003c/strong\u003e\u003cstrong\u003eMetaVL: \u003c/strong\u003e\u003cstrong\u003e将上下文学习能力从语言模型迁移到视觉，开启下一个多模态时代\u003c/strong\u003e\u003c/h2\u003e\n\u003cul type=\"disc\"\u003e\n\u003cli\u003e\u003cstrong\u003e动机：研究如何在视觉-语言领域实现上下文学习，将单模态的元学习知识转移到多模态中，以提高大规模预训练视觉-语言(VL)模型的能力。\u003c/strong\u003e\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e方法：首先在自然语言处理(NLP)任务上元训练一个语言模型，实现上下文学习，然后通过连接一个视觉编码器将该模型转移到视觉-语言任务上，以实现跨模态的上下文学习能力的转移。\u003c/strong\u003e\u003c/li\u003e\n\u003cli\u003e\u003cstrong\u003e优势：实验证明，跨模态的上下文学习能力可以转移，该模型显著提高了视觉-语言任务上的上下文学习能力，并且在模型大小方面能够有显著的优化，例如在VQA、OK-VQA和GQA上，所提出方法在参数数量减少约20倍的情况下超过了基准模型。\u003c/strong\u003e\u003c/li\u003e\n\u003c/ul\u003e\n\u003cp\u003e\u003cstrong\u003e见智研究一句话总结:\u003c/strong\u003e\u003c/p\u003e\n\u003cp\u003e\u003cstrong\u003eM Monajatipoor, L H Li, M Rouhsedaghat, L F. Yang, K Chang探索了将元学习的上下文学习能力从单模态迁移到多模态的可能性，证明了在视觉-语言任务中通过迁移可以显著提升上下文学习能力，甚至在模型大小方面实现优化。\u003c/strong\u003e\u003c/p\u003e\n\u003cp\u003e\u003cstrong\u003e这意味着\u003c/strong\u003e多模态情况下的对话能力将得到加强，对于现有的文生图来说可能会带来新的变化，生成模式对用户将更友好。\u003c/p\u003e\n\u003ch2\u003e\u003cstrong\u003e4、Runway获得1亿美元D轮融资，谷歌领投\u003c/strong\u003e\u003c/h2\u003e\n\u003cp\u003e生成式AI平台Runway获得1亿美元D轮融资（约7亿元），估值15亿美元，本次由谷歌领投。谷歌投资Runway的最大原因之一是为了争夺云计算客户。\u003c/p\u003e\n\u003cp\u003eRunway曾在4月底与谷歌签订了7500万美元的3年商业协议，同时Runway已从谷歌获得了价值2000万美元的云计算资源用于产品运营和研发。\u003c/p\u003e\n\u003cp\u003e\u003cimg class=\" wscnph\" src=\"https://wpimg-wscn.awtmt.com/d149fe52-0780-4c79-a3c6-0f0ace8c730f.png\" data-wscntype=\"image\" data-wscnh=\"580\" data-wscnw=\"268\" /\u003e\u003cimg class=\"wscnph editor-placeholder\" src=\"https://wdl-wscn.awtmt.com/07aeb3e7-f4ca-4207-befb-c987b3dc7011\" data-wscntype=\"video\" data-uri=\"https://streaming-wscn.awtmt.com/2550fef0-940d-4b02-8c9b-cca47c6ac34e_hls.m3u8\" data-cover-img-uri=\"https://wpimg-wscn.awtmt.com/dcaa119f-5f92-4253-862e-1191ce37070d.jpg\" data-title=\"runway生成视频\" data-show-global=\"true\" data-width=\"630\" data-height=\"1080\" data-duration=\"3.083\" data-size=\"198\" /\u003e\u003c/p\u003e\n\u003cp\u003e见智研究曾使用过GEN-1生成相应视频特效，但目前可玩性不算高。Gen-2是Runway在今年3月最新发布的，但目前手机客户端还未提供使用。\u003cstrong\u003eGen-2可以通过文本、图片、文本+图片直接生成视频，同时支持风格化和渲染添加好莱坞式大片特效，仅需要几分钟即可完成所有操作。\u003c/strong\u003e\u003c/p\u003e\u003cdiv style=\"color: #666; margin-bottom: 15px;\"\u003e风险提示及免责条款\u003c/div\u003e\n          \u003cdiv style=\"font-size: 12px;font-family: 黑体;color: #666;line-height: 20px;\"\u003e\n            市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。\n          \u003c/div\u003e\n","content_short":"1、苹果在 iOS17 中加入transformer语言模型，用于提高文字和语音转文字时的准确性。\n\n2、苹果开发人员：Vision Pro里用了“脑机接口”，通过检测眼睛等准确预测用户下一步要做什么\n\n3、MetaVL: 将上下文学习能力从语言模型迁移到视觉，开启下一个多模态时代\n\n4、Runway获得1亿美元D轮融资，谷歌领投","custom_tag":"","display_time":1686044674,"funds":null,"has_transfer_audio":true,"id":3690444,"image":{"uri":"https://wpimg-wscn.awtmt.com/c06d76ca-636e-4267-9b4a-e1ce50027944.png","height":308,"width":552,"size":454098},"images":[{"uri":"https://wpimg-wscn.awtmt.com/content_default_17.jpg","height":1667,"width":2500,"size":2005645}],"influence_score":0,"is_need_pay":false,"is_priced":false,"is_trial":false,"is_video":true,"layout":"wscn-layout","limited_time":0,"membership_uri":"","next":{"id":3690474,"image":{"uri":"https://wpimg-wscn.awtmt.com/addc5fcd-e9a0-43a8-ae98-174642d94f29.jpeg","height":270,"width":360,"size":20123},"title":"美银：美债发行“海啸\" 堪比加息25个基点！","url":"https://wallstreetcn.com/articles/3690474"},"pageviews":1328,"plates":[],"previous":{"id":3690476,"image":{"uri":"https://wpimg-wscn.awtmt.com/ac791135-1b0f-4e42-bd69-2dede6f966b0.jpeg","height":682,"width":1024,"size":136320},"title":"十年来第二大限售股解禁？最新回应来了：邮政集团暂无减持邮储银行计划","url":"https://wallstreetcn.com/articles/3690476"},"related_topics":[],"show_like":true,"source_name":"","source_uri":"","subtitle":"","tags":[{"key":"video","name":"视频"}],"theme_group_map":null,"themes":[],"title":"AI见闻日报：将上下文学习能力从语言迁移到视觉，MetaVL开启下一个多模态时代 | 见智研究","unshow_content_short":false,"words_count":1454}}